Un modelo matemático diseñado por GlobalData ha estimado que alrededor del 10% de las cuentas activas de Twitter publican contenido de spam. La empresa líder en datos y análisis señala que esto es el doble de la cifra informada por Twitter, probablemente debido a una diferencia de criterios en cuanto a lo que cuenta como ‘spam’.
Sidharth Kumar, científico de datos sénior de GlobalData, comenta: «Lo que es o no spam es de repente un punto de discusión importante para la plataforma de redes sociales, dado que la oferta de Elon Musk para hacerse cargo de Twitter ahora está en suspenso debido a un desacuerdo sobre la proporción de cuentas de spam en la plataforma. Twitter afirma que las cuentas de bot/spam en Twitter representan menos del 5% de las cuentas, mientras que el equipo de Elon Musk piensa lo contrario.
“La proporción precisa de cuentas de spam es difícil de calcular, ya que es casi imposible confirmar la identidad de la entidad detrás de un identificador de tweet. Además, la definición de cuenta de spam puede diferir para todos. Los tuits incesantes de contenido no original pueden considerarse spam, pero algunos pueden optar por verlo como un usuario muy activo que comparte artículos/opiniones”.
Teniendo todo esto en mente, el modelo matemático de GlobalData estimó la cantidad de cuentas de spam utilizando múltiples parámetros para proporcionar una puntuación ponderada, que luego se utilizó para determinar la clasificación de «spam» o «no spam». GlobalData decidió estos parámetros centrándose en las diferencias de actividad entre las cuentas típicas de spam y la de un usuario medio de Twitter. Las cuentas con un desempeño deficiente en muchos parámetros recibieron una puntuación más alta, lo que indica una mayor probabilidad de ser spam. Luego, los analistas de GlobalData observaron de forma independiente los identificadores en diferentes niveles de puntuación y decidieron el límite para la clasificación (‘spam’ o ‘no spam’) por consenso. Los parámetros utilizados en el modelo fueron los siguientes:
- ¿Está verificado el identificador del tweet? Es poco probable que los identificadores verificados se entreguen al spam
- ¿Un tweet proviene de vías de terceros? Es probable que los tweets provenientes de aplicaciones de terceros generen spam. Las aplicaciones privadas basadas en la API de Twitter se utilizan a menudo para publicar contenido no deseado.
- ¿Cuál es el número de Tweets históricos que ha producido el identificador, dividido por los días desde su creación? Por lo general, las cuentas de spam tienen una cantidad muy alta de tweets por día durante toda la vida.
- ¿Con qué frecuencia fueron los últimos 200 tweets? Una cantidad muy alta de Tweets publicados en un período corto de tiempo tiene más probabilidades de ser spam.
- ¿Cuál es la proporción de retuits en los últimos 200 tuits? Algunas cuentas de spam solo retuitean ciertas cuentas/temas de destino de forma regular.
- De los últimos 200 Tweets, ¿cuántos no contenían hashtags o enlaces? Es poco probable que las cuentas de spam tengan contenido de texto sin formato. Por lo general, promocionan cierto enlace, tweet o hashtag.
- ¿Cuál es la desviación estándar en la longitud típica de un tweet? Algunas cuentas de spam continúan publicando mensajes similares con alta frecuencia y no tienen una gran variación en el contenido o su longitud.
- ¿Cuál es el tiempo medio entre dos tuits? Las cuentas que no son bots suelen tener una mediana de tiempo de tweet más alta entre tweets.
- ¿Cuál es la longitud de la descripción en el perfil? Por lo general, las cuentas activas que no son bots tienen biografías más detalladas.
- De los últimos 200 Tweets, ¿cuál es la proporción de enlaces compartidos? Las cuentas de spam tienen más tendencia a compartir muchos enlaces en Twitter.
Kumar continúa: “Hubo algunos trabajos de investigación publicados anteriormente en los medios que analizaban a los seguidores de ciertos identificadores para estimar las proporciones de spam o bot. Sentimos que el enfoque correcto sería analizar muestras de transmisiones en vivo, ya que eso es más indicativo de la actividad de Twitter. Nuestra estimación es conservadora, ya que queríamos estar seguros de que estábamos identificando correctamente las cuentas como spam. Es importante tener en cuenta que esto sigue siendo una estimación. No hay una forma concluyente de saber si una determinada cuenta es un bot o spam”.