ANALISIS DE REDES SOCIALES USANDO R

 

RESUMEN

Las redes sociales no son más que una estructura social, en donde se encuentran individuos que se están relacionando entre sí. Este tipo de relaciones pueden ser de distinta índole, como:

  • Intercambio de conocimiento
  • Relaciones de Amistad e Interacción
  • Investigaciones

Una definición más detallada de lo que es una Red Social es: Las Redes Sociales son maneras de interacción social, definida como un intercambio dinámico entre personas, grupos e instituciones. Son un sistema abierto y en constante evolución y construcción,  que involucra a conjuntos que se identifican en las mismas necesidades y problemáticas y que se organizan para potenciar sus recursos.

Las Redes Sociales nos dan la posibilidad de interactuar con otros usuarios aunque nunca los veamos ni los conozcamos de una manera física, esto se debe a que las Redes Sociales se manejan en un ambiente abierto que se va agrandando de manera que los usuarios se van integrando. Las Redes Sociales tienen como objetivo el intercambio de información, intereses, etc. entre usuarios, esto se da gracias a la comunicación que dichas redes nos permiten realizar.

Las Redes Sociales persiguen muchos objetivos, como es el de compartir información, es así como: “Uno de los objetivos que se pretende mantener en este mundo de las redes sociales es compartir el conocimiento a partir de las necesidades integrales adquiridas en la sociedad, con el fin de hacer negocios, posicionamiento web y promoción de personalidades públicas o servicios; quisiera aclarar al lector que las redes sociales son un origen y no un destino” (Conexión Central, 2010)

 

 

 

 

 

 

 

 


INTRODUCCIÓN

Las Redes Sociales están enfocadas a expresar las relaciones que existen entre varios usuarios de una red, por lo tanto el Análisis de Redes Sociales (SNA) presenta información importante a los miembros de una red.

SNA es usado para estudiar las relaciones que existen en una red entre distintos miembros, para el análisis se basa en los usuarios y las relaciones entre ellos. Además SNA cuantifica las relaciones entre usuarios, lo que permite la aplicación de herramientas para su análisis.

SNA se basa en la captura de los datos para luego realizar el análisis de la misma. Para el análisis de información existen múltiples herramientas, entre las principales tenemos: Agna[1], Krackplot[2], Netdraw[3], Netminer[4], Pajek[5], Ucinet[6], R[7], Gephi[8], etc.

R es la herramienta que se usara para el análisis de los datos, R es un lenguaje de programación orientado al análisis estadístico y visualización de información y lo mejor es que es un software libre, otra ventaja es que permite realizar el análisis sobre datos ya establecidos, además de efectuar graficas acerca de dichos datos.

SNA

Las redes sociales se definen como un conjunto finito de actores (individuos, grupos, organizaciones, comunidades, sociedades, etc) vinculados unos a otros a través de una relación o un conjunto de relaciones sociales. “Las redes sociales se apoyan en SNA, la misma que se centra en tomar las relaciones entre actores como el material sobre el cual se construye y se organiza el comportamiento social de actores. El punto de análisis deja de ser el individuo y pasan a serlo las relaciones, proporcionando un conjunto de métodos y técnicas para el estudio formal de las relaciones entre actores.» (Wasserman, Faust, & Dawn, 1994)

El SNA se establece como una herramienta de medición y análisis de las estructuras sociales que surgen de las relaciones entre los usuarios de dichas redes.

La estructura de una red social está basada en individuos u organizaciones, que están conectadas por una o más relaciones, tales como, amistad, contactos profesionales, parentesco, entre otros.

Es así que SNA es el mapeado y la medida de las relaciones y flujos entre personas, grupos, organizaciones, etc. que procesan información. El SNA supone que existen actores y relaciones, siendo una parte importante del SNA el proporcionar medidas de las relaciones.

Propiedades de las Redes Sociales

Las redes sociales son representadas mediante grafos, y utiliza técnicas de la teoría de grafos para estudiar su estructura. Aunque se deben aplicar de una manera más enfocada los conceptos de la teoría de grafos sobre el SNA.

Entre las principales propiedades de las Redes Sociales tenemos:

  1. Distancias en las redes

La distancia es una medida muy utilizada en el SNA, ya que permite obtener el mejor camino entre los usuarios, sin embargo, para el caso de las redes sociales el camino más corto no siempre es el buscado y dependerá del tipo de red social para determinar el tipo de distancia a utilizar.

  1. Tipos de Interacción

La reciprocidad en las redes sociales se da cuando existe una conectividad entre dos usuarios de una misma red. Lo que quiere decir es que el usuario A interactúa con el usuario B y viceversa.

  1. Coeficiente de Agrupamiento

Este coeficiente aplicado al SNA, se da en saber cuáles son los usuarios que mantienen una relación constante. El coeficiente de agrupamiento indica el nivel de agrupamiento de los usuarios con respecto a la red total.

  1. Cliques

Un clique enfocado al SNA, no es más que la conexión que existe entre un usuario con los restantes usuarios de la red.

Clasificación de las Redes Sociales

Según lo que se pudo investigar, no existe una clasificación estándar de las redes sociales, sino que se las clasifica de acuerdo al estudio que se realice sobre estas.

A continuación se propone la siguiente clasificación:

  • Redes Basadas en su Tamaño

Este tipo de redes depende de la distancia. No existe una medida exacta para poder determinar cuándo una red social es grande o pequeña.

  • Redes a pequeña escala

Son las Redes sociales formadas a partir de la colaboración de investigadores, donde los enlaces están formados por los artículos en los que uno o más investigadores participan.

  • Redes a Gran Escala

Estas redes no pueden ser analizadas fácilmente, y su análisis se hace en base a una porción representativa de la red. Un ejemplo de estas redes es la formada por los sistemas de correo electrónico.

  • Redes Basadas en la Evolución

Este tipo de redes depende de los cambios que sufran a través del tiempo.

  • Redes Estáticas

No sufre ningún tipo de cambio cuando son sujetas a estudio, por lo que mantienen la misma estructura desde el inicio hasta el final de su análisis.

  • Redes Dinámicas

Estas redes sufren cambios en su estructura debido a la incorporación o eliminación de nuevos actores y las relaciones entre ellos.

  • Redes Basadas en su Origen

Este tipo de redes depende de su fuente de datos de origen. Entre ellas tenemos las comunidades virtuales.

  • Redes fuera de línea (Off-line)

Son aquellas en las que las relaciones sociales son establecidas sin necesidad de la tecnología, es decir, el conocimiento de las relaciones recae exclusivamente en el conocimiento del individuo sin ayuda de un software.

  • Redes en línea (On-line)

Son redes que dependen de la tecnología y se mantienen ligadas a los cambios en la tecnología de los sistemas. Ejemplo de estas redes son Facebook, Twitter, Orkut, etc.

  • Redes basadas en su topología

Este tipo de redes depende de la complejidad de la red.

  • Redes Simples

Este tipo de redes son estructuras sencillas y pueden ser fácilmente analizadas.

  • Redes Complejas

Este tipo de redes están basadas en el estudio empírico de las redes de mundo real.

SOFTWARE R

R es un lenguaje y un entorno para computación y gráficos estadísticos. Es un proyecto GNU, su icono es. Figura 1

Figura 1 Icono R

R ofrece una gran variedad de estadísticas, además de las técnicas gráficas, y es altamente extensible. R proporciona una ruta de código abierto para la participación en esa actividad. Uno de los puntos fuertes de R es la facilidad con la que puede integrar símbolos y fórmulas matemáticas cuando sea necesario.

Entorno R

R es un conjunto integrado de servicios de software para la manipulación de datos, cálculo y representación gráfica. Entre sus principales características incluye:

ü  Manejo eficaz de datos y almacenamiento

ü  Operadores para los cálculos de matrices

ü  Herramientas para el análisis de datos

ü  Facilidades gráficas para el análisis y visualización de dato

ü  Un lenguaje de programación sencillo y eficaz

R puede ser extendido a través de paquetes. Los paquetes son códigos ya desarrollados que nos facilitan el uso de la herramienta. Además los usuarios pueden desarrollar paquetes de acuerdo a sus necesidades.

Instalación de R

R es el software que se usará para el análisis de sentimientos de información en Twitter, así que lo que debemos primero es instalarlo, se lo puede conseguir en la página oficial de R.

El proceso de instalación es muy sencillo una vez que se tenga descargado el archivo, sea este para Windows, Linux o MacOs.

El instalador nos da la opción de escoger el archivo a instalar si es de 32 bits o de 64 bits, como lo muestra la Figura 2.

Figura 2 Cuadro de instalación

De está manera es que permite ir configurando la instalación de acuerdo a nuestras necesidades.

Una vez instalado, se precede a ejecutar el programa cuya pantalla principal es la que se muestra en la Figura 3.

Figura 3 Pantalla Principal R

 SNA MEDIANTE R

Es por esto que luego de tener un enfoque más claro de lo que es SNA y de las ventajas de R, se puede proceder a iniciar el SNA a una red específica, en este caso se tomará como referencia Twitter, del cual ya se posee una base de datos.

Para empezar el análisis vamos a definir que es Twitter de la siguiente manera:

“Twitter es una aplicación en la web que permite a sus usuarios escribir pequeños textos (de hasta 140 caracteres) que pueden ser leídos por cualquiera que tenga acceso a su página. Cada usuario puede decidir leer en su página principal los textos de otra persona o grupo de personas, teniendo siempre disponible lo que otros han escrito recientemente. De esta forma un usuario A puede decidir “seguir” a los usuarios B, C y D, recibiendo los textos que escriben sin tener que acceder a la página de cada uno de ellos. Cada usuario puede, así, tener una lista de “seguidos” (following) y de “seguidores” (followers). Los “seguidores” leerán los textos publicados por el “seguido” en sus páginas personales.” (Polo, 2009)

Twitter se ha convertido en un foco de estudio, sobre todo para la comunidad investigadora dentro del área de la recuperación de información. El volumen de datos que se genera en Twitter y su particular condición han abierto un nuevo panorama de oportunidades y retos para la comunidad investigadora en el área de las tecnologías del lenguaje natural.

Una vez que se ha definido lo que es Twitter, se debe determinar las métricas con las que se pueda describir está red social.

Es importante definir métricas cuantitativas como métricas cualitativas.

  • Métricas cuantitativas nos aportarán una idea de la extensión y el impacto que tienen las redes sociales.
  • Métricas cualitativas las que realmente le tomarán el pulso al rendimiento que las redes sociales aportan, el interés que generan en los usuarios.

Las Métricas cuantitativas y cualitativas pueden ser medidas mediante herramientas existentes, aunque los datos cualitativos son más difíciles de recopilar de una manera estandarizada.

Algunas de las Métricas son las siguientes: Figura 4:

Figura 4 Cuadro de Métricas (Solans, 2011)

Aunque el cuadro de la Figura 4. presenta ya algunas de las métricas se podría evaluar algunas más, que pueden ser muy útiles para valorar Twitter, las mismas que se describen a  continuación.

  1. 1.     Volumen

El volumen puede parecer una simple métrica de cálculo, abarca mucho más que contar los tweets. Es importante medir la cantidad de mensajes sobre un determinado tema, así como la cantidad de personas que hablan de dicho tema. También se debe dar seguimiento a cómo cambian estas cifras con el paso del tiempo.

 

  1. 2.     Alcance

El alcance mide la difusión de la conversación en redes sociales, además del tamaño potencial de la audiencia. Se usa el alcance como el denominador en sus ecuaciones de medición de las redes sociales. Elija los números de compromiso como la cantidad de retweets o respuestas y divídalos por el alcance con el fin de calcular el porcentaje de compromiso. El alcance ayuda a contextualizar otras métricas de compromiso.

 

  1. 3.     Compromiso

Es una de las métricas más importantes que se debe tener en cuenta en las redes sociales. En la mayoría de las redes sociales, el contenido se puede compartir, así como responder, por ejemplo los retweets (RT) de Twitter, los mismos que sirven para saber quién divulga su contenido.

 

  1. 4.     Influencia

La métrica de la influencia puede ser medida por diferentes herramientas (Klout[9], PeerIndex[10]), cabe destacar que el tamaño de la audiencia no necesariamente se relaciona con la influencia. Solo porque alguien tiene muchos seguidores no significa que puedan alentarlos para que de verdad hagan algo. Este tipo de herramientas mide el capital social en línea y la capacidad para influir en otros.

 

  1. 5.     Participación de voz (Share of voice)

Nos permite Determinar cuánto porcentaje de la conversación total está centrado sobre un tema específico, en comparación con otros temas.

Dentro del SNA, es encuentra el ámbito del análisis de sentimientos de la información, este análisis se lo hace de acuerdo a los tweets de los usuarios, el análisis consiste en saber cuál es el sentimiento de los usuarios sobre un determinado tema.

El análisis del sentimiento de la información es un área relacionada tanto con el procesamiento de lenguaje natural como con la minería de datos. Por lo que puede referirse tanto a la actitud del autor del texto en relación con un tema como a las emociones que pretende transmitir a los lectores. Ejemplo:

Si se toma como referencia el proceso de verificación de caso de las firmas falsas en Ecuador por parte del CNE, los usuarios están en el derecho de postear su punto de vista, pero el análisis de sentimiento de la información se debe a enfocar en determinar si los tweets de los usuarios son de Acuerdo, Desacuerdo o les es Indiferente el tema.

El análisis de sentimientos de la información se basa en los estados de ánimo de los usuarios reflejados en su tweets, para realizar este análisis es indispensable determinar las métricas con las cuales se va a trabajar, aunque las métricas se las puede enfocar por cada tema a analizar.

Las métricas a utilizarse van enfocadas a crear un corpus, que consiste en la  categorización automática de cada texto atendiendo a la emoción  predominante. Para ello se debe proceder de la siguiente manera:

  1. Limpieza de los textos obtenidos, eliminando los que fueron escritos para rellenar texto. Ejemplo: “kdjfkldsjflksdjflksdjflksdkfsd…”.

 

  1. Etiquetar cada uno de los textos válidos con los sentimientos a utilizar: Acuerdo, Desacuerdo e Indiferencia.

Es así por ejemplo si se hace un análisis de sentimientos del pueblo ecuatoriano para las próximas elecciones deberíamos tomar como parámetros los nombres y siglas de los partidos políticos, por ejemplo: PRE, Alianza País, PRIAN, PSP, etc. Además deberíamos asociar los nombres de los candidatos como: Abdalá Bucarán, Lucio Gutiérrez, Rafael Correa, etc. Luego se filtraran los tweets para poder crear un corpus para el estudio, la manera de filtrar los tweets, se lo debe hacer en función de los que están de acuerdo con algún partido político o con algún candidato, además se deberán tomar en cuenta también los que está en contra y además los que sienten indiferencia por las elecciones.

Ahora lo que se debe tener en cuenta es a cerca de los paquetes que se van agregar a R durante el desarrollo del proyecto. Entre los paquetes que se utilizarán tenemos:

Al agregar este paquete, vamos a poder realizar una minería de datos con R, la línea de código para agregar Text Mining es la siguiente:

install.packages(«tm»,lib=»/directorio»)

Este paquete está enfocado a extraer los datos desde Twitter, el comando para agregar es:

 install.packages(«twitteR»,lib=»/directorio»)

Nos permite saber las palabras más usadas en las publicaciones de los usuarios, la manera de agregarlo es la siguiente:

install.packages(«wordcloud»,lib=»/directorio»)

Posee herramientas para SNA, incluye gráficos, nodos, etc. La forma de agrgar este paquete es de la siguiente manera:

install.packages(«sna»,lib=»/directorio»)

  • Herramientas para el Análisis de Sentimientos[15]

Está herramienta es útil para el análisis de sentimientos, puede clasificar cuan positivo o negativo es un comentario, y la emoción del mismo.

install.packages(«sentiment»,lib=»/directorio»)

Además se debe agregar los paquetes básicos de R que son:

DISEÑO DE LA SOLUCION

Para tener claro el diseño de la solución es primordial saber qué es lo que se desea resolver, por lo tanto la solución debe enfocarse a:

–       Realizar un análisis de sentimientos de la información publicada en Twitter, mediante el uso de técnicas de SNA y R.

El uso de las técnicas de SNA no es más que saber mediante cuales métricas se puede clasificar los tweets de los usuarios, para que así mediante la herramienta R se pueda analizar dichas publicaciones, y dar una respuesta sobre cual es el sentir de los usuarios sobre determinados temas.

  1. Para empezar el desarrollo de la solución debemos poseer una base de datos con una cierta cantidad de tweets.
  2. Se procede a clasificar los tweets, basándose en las métricas establecidas para twetter:
    1. Establecer la cantidad de tweets relacionados al tema específico a analizar, además de incluir la cantidad de usuarios que están enfocados a este tema. En este punto no importa todavía si los mensajes son de carácter positivo, negativo o neutral.
    2. Establecer el tono del tweet, el mismo que puede ser positivo, negativo y neutral o acuerdo, desacuerdo o indiferente.
    3. La cantidad de tweets promedio que publican los usuarios.
    4. Cuantos tweets son los más influyentes, esto se lo analiza de acuerdo a los que fueron retweets.
    5. Establecer los hashtags con los que se procederá a trabajar para el análisis.
    6. Crear un archivo con la clasificación de los tweets, dicho archivo será llamado corpus, mismo que deberá poseer:
      1. Identificador de Tweet
      2. Texto de Tweet
      3. Palabra clave usado para el sentimiento, los mismos que podrán ser de acuerdo al tema, por ejemplo: ‘positivo’, ‘neutral’, ‘negativo’.

Los tweets que sean marcados como positivos o negativos, son los que estén claros, los que sean marcados como neutral son los que poseen ambigüedad en sus expresiones.

  1. Realizar el uso de la herramienta R, una vez que los paquetes adicionales estén instalados y previamente configurados, se procede al análisis del corpus y al final como resultado nos deberá mostrar una pantalla en porcentajes del sentimiento de los usuarios, como muestra la figura 5.

Figura 5 Resultados

TRABAJOS RELACIONADOS

Muchos de los estudios realizados están relacionados con el análisis de opiniones, esto se debe al lenguaje informal usado habitualmente en Twitter.

–      TwitterSentimen[20]  (Figura 6) es un proyecto que funciona en línea y realiza un análisis de los sentimientos de la información de los usuarios, es un API desarrollado en python. Tiene la capacidad de realizar el análisis de la información en español y en inglés.

La manera en que funciona este API, es que al ingresar una palabra, lo que hace es buscar dentro de los tweets los que se relacionan con la palabra a buscar, realiza el análisis y luego presenta una pantalla con los porcentajes del resultado.

Figura 6 TwitterSentimen

Como se puede observar en el ejemplo se ha hecho un análisis del tema de los ataques terroristas de los rebeldes Libios contra la embajada de Estados Unidos, podemos observar que el resultado de personas que están a favor o piensan de manera positiva con lo hecho en Libia es la que está marcada con color verde, y las personas que rechazan estos actos son las que están marcadas con color rojo. Así lo demuestra el gráfico del pastel, además que pinta los twetts del color del sentimiento, y los que no están de ningún color son los tweets que están catalogados como neutrales.

CONCLUSIONES

  • SNA nos permiten monitorear el flujo de información entre los usuarios.
  • Mediante el uso de R y SNA se puede presentar estadísticas reales acerca de las redes sociales.

Bibliografía

Conexión Central. (04 de Marzo de 2010). Conexión Central. Recuperado el 27 de Agosto de 2012, de Conexión Central: http://www.conexioncentral.com/blog/2010/03/04/%C2%BFque-es-y-cuales-son-las-redes-sociales-del-mundo/

Davis, J. (08 de Julio de 2012). Mazalan Comunicaciones. Recuperado el 30 de Agosto de 2012, de http://blog.mazalan.com/2012/06/cinco-metricas-esenciales-y-sencillas.html

Lewis, G. A. (27 de Noviembre de 2007). www.softwareengineeringinstitute.edu.ec. Recuperado el 30 de Noviembre de 2009, de www.softwareengineeringinstitute.edu.ec

Mejia, C. (Febrero de 2010). CINVESTAV. Recuperado el 31 de Agosto de 2012, de http://www.cs.cinvestav.mx/TesisGraduados/2010/tesisCristianMejia.pdf

Polo, J. (12 de Noviembre de 2009). wwwhatsnew. Recuperado el 27 de Agosto de 2012, de http://wwwhatsnew.com/2009/11/12/%C2%BFque-es-twitter/

R-PROJECT. (s.f.). The R Project for Statistical Computing. Recuperado el 26 de Agosto de 2012, de http://www.r-project.org/

Solans, A. (11 de Marzo de 2011). Analitica Web. Recuperado el 23 de Agosto de 2012, de http://www.analiticaweb.es/redes-sociales-y-analitica-web-de-la-estrategia-a-la-medicion/

Venables, & Smith. (16 de Abril de 2003). Proyecto Software Libre. Recuperado el 31 de Agosto de 2012, de http://softlibrewin.org.ar/Instalaciones/R/doc.pdf

Wasserman, S., Faust, K., & Dawn, L. (1994). Social Network Analysis: Methods and Applications (Structural Analysis in the Social Sciences). Cambridge.

WebMining Consultores. (07 de Abril de 2012). WebMining. Recuperado el 30 de Agosto de 2012, de http://www.webmining.cl/2012/04/analisis-de-redes-sociales-con-r/

 

 

Figura 1 Icono R. 5

Figura 2 Cuadro de instalación. 6

Figura 3 Pantalla Principal R. 7

Figura 4 Cuadro de Métricas (Solans, 2011) 8

Figura 5 Resultados. 12

Figura 6 TwitterSentimen. 13

 



[1] http://www.freewebz.com/benta/agna/download.htm

[2] http://www.isi.edu/~blythe/KP/

[3] https://sites.google.com/site/netdrawsoftware/home

[4] http://www.netminer.com/

[5] http://pajek.imfm.si/doku.php?id=download

[6] https://sites.google.com/site/ucinetsoftware/downloads

[7] http://www.r-project.org/

[8] https://gephi.org/

[9] http://klout.com/home

[10] http://www.peerindex.com/

[11] http://www.cran.r-project.org/web/packages/tm/index.html

[12] http://www.cran.r-project.org/web/packages/twitteR/index.html

[13] http://www.cran.r-project.org/web/packages/wordcloud/index.html

[14] http://www.cran.r-project.org/web/packages/sna/index.html

[15] http://cran.r-project.org/web/packages/sentiment/index.html

[16] http://www.cran.r-project.org/web/packages/Rcpp/index.html

[17] http://cran.r-project.org/web/packages/Rcmdr/index.html

[18] http://www.cran.r-project.org/web/packages/RColorBrewer/index.html

[19] http://www.cran.r-project.org/web/packages/slam/index.html

[20] http://www.sentiment140.com/

Autor: Luisito Eduardo Cuenca