scrapping – Escuela De Datos http://es.schoolofdata.org evidencia es poder Wed, 30 May 2018 05:23:23 +0000 es hourly 1 https://wordpress.org/?v=5.3.2 114974193 Explorer de MediaCloud: Obtén datos sobre la cobertura mediática de un tema http://es.schoolofdata.org/2018/05/29/explorer-de-mediacloud-obten-datos-sobre-la-cobertura-mediatica-de-un-tema/ http://es.schoolofdata.org/2018/05/29/explorer-de-mediacloud-obten-datos-sobre-la-cobertura-mediatica-de-un-tema/#respond Tue, 29 May 2018 19:58:24 +0000 http://es.schoolofdata.org/?p=2537 ¿Cómo cubren los medios de comunicación cierto tema? Esta es una pregunta muy común y para respondérsela muchos investigadores han recolectado datos de diversas maneras. En este tutorial te explicamos las funciones de Explorer, una de las herramientas de MediaCloud, un proyecto que hace scrapping en las páginas de muchos medios en línea y clasifica las historias, además de que te permite descargar y obtener bases de datos sobre la cobertura mediática de los temas que busques de manera fácil.

MediaCloud es una plataforma open source que registra el discurso mediático sistematizando el contenido noticioso de más de 25 mil fuentes digitales de más de 200 países, en múltiples idiomas. Esto, con la intención de potenciar el análisis que se hace sobre la atención que un tema particular tiene en la agenda mediática.

Por sus funciones, es una herramienta muy útil para periodistas, activistas, académicos, investigadores, creadores de contenido y organizaciones sociales.  MediaCloud tiene tres herramientas principales: Explorer, TopicMapper y SourceManager. En este tutorial te enseñamos cómo empezar a usar Explorer.

Explorer es una herramienta que te permite buscar en la base de datos de MediaCloud, visualizar los resultados de esa búsqueda y descargar un archivo .CSV con las urls de las historias que coinciden con tu búsqueda. Con este buscador, obtendrás rápidamente un panorama general sobre cómo un tema de tu interés es cubierto por los medios digitales analizando la atención, el lenguaje y la representación del tema.

Explorer es un buscador en el cual puedes agregar las consultas o querys que desees y que además puedes ajustar al elegir fuentes de noticias específicas o una colección de fuentes y un rango de fechas. Explorer te permitirá identificar las fuentes e historias que lideran la conversación mediática sobre este tema, el lenguaje utilizado para hablar de él y las personas y lugares que mencionan.

Cómo buscar.

Luego de registrarte en MediaCloud entra a https://explorer.mediacloud.org y usa la caja de búsqueda para conocer sobre el tema de tu interés.  

 

Al hacer una búsqueda, se desplegarán las siguientes opciones que te permitirán refinarla:

Enter a query

Haz una consulta. Escribe los temas, personajes o palabras clave que te interesa ver en los medios. Puedes usar operadores boléanos y otros parámetros de búsqueda avanzada que te describen aquí.

Select media

Selecciona los medios o las colecciones de fuentes de noticia que quieres buscar. MediaCloud cuenta con colecciones creadas previamente que puedes utilizar. Solo haz click en + Add media y busca entre las colecciones por zona geográfica, por alcance de la cobertura o busca medios específicos que quieres añadir a tu recolección de historias.

For dates

Escoge un período de tiempo entre dos fechas que filtre las historias que aparecerán en tu búsqueda.

 

Los resultados de tu búsqueda

En el panorama temático que Explorer presenta, ofrece diferentes visualizaciones y análisis sobre las historias que coinciden con tu búsqueda. Estos se concentran en trés áreas principales: Atención, Lenguaje, y Personas y Lugares. Cada una de estas funciones te permite descargar los resultados al hacer click en el botón Download Options y en algunas secciones te permitirá también descargar los resultados como imagen o gráfico.

 

ATENCIÓN: 

 

Attention Over Time

A través de una gráfica de líneas, Explorer te muestra la atención que los medios le prestaron a los temas de tu consulta para que entiendas cómo fueron cubiertos a lo largo del tiempo. Las alzas en el gráfico pueden evidenciar un evento clave o una historia popular. Puedes elegir entre ver un conteo de historias o un porcentaje que normaliza los resultados.

Total Attention

En esta sección, se compara el número total de historias que coinciden con tu búsqueda. Es muy útil cuando tu búsqueda incluye más de un query o consulta. O puedes añadir una nueva consulta escribiendo un asterisco * en los mismos rangos de fechas y con las mismas fuentes, para hacer obtener todos los resultados de historias independientemente de tu tema.

Top Themes

La cobertura noticiosa se clasifica en temas para identificar narrativas diferentes. A partir de una lista fija de temas noticiosos detectados, distribuye las historias que coinciden con tu búsqueda entre ellas. Te muestra un gráfico en el que cada coincidencia es un círculo de color, rodeado por un círculo gris que representa a todas las historias de tu búsqueda, para que sepas qué tantas de las historias están dentro de este tema. Esta clasificación se realiza a partir de un modelo construido tomando en cuenta una indexación anotada del New York Times que resultó en esta lista de 600 temas.

Sample Stories

Esta es una muestra aleatoria de historias sobre tu tema. Al menos una oración de esta historia coincide con tu búsqueda. Puedes ver algunas o descargar un CSV con las historias y sus URLs.

LENGUAJE:

 

Top Words

Te muestra las palabras más utilizadas con cada búsqueda. Este panorama de palabras puede ayudarte a identificar de qué manera se aborda este tema en los medios digitales. La nube de palabras se muestra de manera ordenada: aquellas que más aparecen tendrán un mayor tamaño y estarán primero en la lista. Se basa en una muestra representativa de las historias, pero no en todos los resultados de la búsqueda.  El conteo de palabras completo se puede descargar como CSV y también una versión de bigramas (frases de dos palabras) o trigramas (frases de tres palabras) que más se usan en las historias. Cuenta las palabras en base a su raíz.

Word Space

Para entender qué palabras se usan junto a otras, esta función te muestra una gráfica con las 50 palabras más usadas en el tema. Mientras más grande y oscura sea, más aparece en las historias de los medios. Las palabras se distribuyen en un radio según qué tan similar aparecen juntas en el reporteo general de noticias. Al mover el cursor por el radio verás cómo se resaltan palabras que son frecuentemente usadas juntas. La distribución se basa en el modelo de machine learning word2vec y un proyecto de Google News.

Compare Top Words

Esta sección compara las palabras más utilizadas en cada una de tus consultas y las ordena de mayor a menor, para enfatizar en la diferencia de lenguaje utilizado en las historias recopiladas por MediaCloud para cada consulta.

PERSONAS Y LUGARES:

 

Top People

Ver a quienes mencionan en las historias puede darte una idea de cómo los medios cubren el tema de tu interés. En esta lista MediaCloud te presenta los personajes que más aparecen en una muestra de historias. Al hacer click en un nombre, lo puedes añadir a tu consulta o búsqueda. Esto se logra utilizado el Reconocedor de Entidades Nombradas de Stanford. Cada historia es etiquetada con las personas, organizaciones, países y estados que menciona.

Top Organizations

Esta sección funciona igual que la anterior, pero con nombres de organizaciones, empresas e instituciones.

Geographic Coverage

La cobertura de un tema puede variar en función del lugar del que se habla. Al revisar la geografía a través de un mapa puedes comparar los países que fueron el centro de las historias. Los lugares con un color más intenso fueron repetidamente el foco de las historias.

Con este panorama amplio, Explorer facilita sacar algunas conclusiones y preparar gráficos que dan insights sobre cómo se aborda un tema en los medios digitales.

Cómo se creó está herramienta

MediaCloud es un proyecto creado por los equipos del Centro para Medios Cívicos del MIT y el Centro Berkman Klein para el Internet y la Sociedad de la Universidad de Harvard.  Para lograr la capacidad de análisis y de rastreo de datos esta herramienta colecciona los hipervínculos y otro tipo de enlaces: Bitly, Facebook y Twitter, por ejemplo. La gran mayoría del contenido proviene de los canales RSS de cada organización mediática. Los datos de cada fuente varían, dependiendo del momento en que MediaCloud comenzó a hacer el scrapping o raspado de datos.  Debido a restricciones de derechos de autor, la herramienta no puede proveer los textos de las historias, pero presenta la lista de URLs para que el usuario pueda obtenerlo por su cuenta.

Flattr this!

]]>
http://es.schoolofdata.org/2018/05/29/explorer-de-mediacloud-obten-datos-sobre-la-cobertura-mediatica-de-un-tema/feed/ 0 2537