Intuitivamente, uno pensaría que el número de seguidores de los usuarios de Twitter está relacionado con el número de amigos: si alguien sigue a muchas cuentas, es probable que tenga muchos seguidores. El objetivo de esta tarea es examinar la posible correlación entre diferentes variables como número de amigos, número de listas, número de favoritos y número de mensajes enviados con el número de seguidores.
Hay que examinar la base tuits-conacyt.csv y, utilizando el material que se ha expuesto en las primeras cuatro lecciones, construir diagramas de dispersión para todas las posibles combinaciones entre número de seguidores, amigos, favoritos, listas y mensajes totales (deben ser 10 gráficas en total). Además, en cada una de ellas hay que distinguir los usuarios que son influencers (tienen muchos seguidores) de los que no lo son. Esto último nos servirá para ver, al menos a ojo, si hay diferencias cualitativas en el comportamiento de estos dos grupos. En estos diagramas hay que identificas las cuentas que son outliers, es decir, las cuentas que se desvían mucho del resto (por ejemplo, una cuenta que sigue a muchísimas personas pero que casi no tiene seguidores). Vale la pena examinar individualmente estas cuentas, pues es posible que sean cuentas automatizadas o bots (el problema de detectar bots es bastante complejo, pero esto nos puede dar un primer indicio).
Mostramos aquí un ejemplo de cómo deben verse estos diagramas. En este ejemplo, consideramos como influencers a los usuarios que tienen más de 5 mil seguidores, pero esta medida es arbitraria. De hecho, el concepto de influencer es bastante más complicado y depende de más cosas que el número de seguidores.
Ojo: es recomendable hacer estos diagramas en escala logarítmica, de lo contrario no se puede visualizar casi nada.