Artículo del Foro Económico Mundial: automatizar la censura del «discurso de odio» y la «desinformación»

En un artículo en la web oficial del Foro Económico Mundial sobre seguridad cibernética en su web oficial bajo el título «¿La solución al abuso en línea? IA más inteligencia humana», la autora presenta un nuevo plan de censura en línea, pero esta vez automatizado, ya que «los métodos tradicionales no son efectivos». En el artículo se plantea lo siguiente:

Con el 63% de la población mundial en línea, Internet es un espejo de la sociedad: habla todos los idiomas, contiene todas las opiniones y alberga una amplia gama de personas (a veces desagradables).

Los malos actores que perpetran daños en línea se están volviendo más peligrosos y sofisticados, lo que desafía los procesos actuales de confianza y seguridad.
Las metodologías existentes, incluida la detección automática y la moderación manual, tienen una capacidad limitada para adaptarse a amenazas complejas a escala.
Se requiere un nuevo marco que incorpore las fortalezas de los humanos y las máquinas.

A medida que Internet ha evolucionado, también lo ha hecho el oscuro mundo de los daños en línea. Los equipos de confianza y seguridad (los equipos que normalmente se encuentran dentro de las plataformas en línea responsables de eliminar el contenido abusivo y hacer cumplir las políticas de la plataforma) se enfrentan a una lista cada vez mayor de abusos, como el abuso infantil, el extremismo, la desinformación, el discurso de odio y el fraude; y actores cada vez más avanzados que hacen un mal uso de las plataformas de maneras únicas.

La solución, sin embargo, no es tan simple como contratar otra sala llena de moderadores de contenido o crear otra lista de bloqueo. Sin una familiaridad profunda con los diferentes tipos de abuso, una comprensión de la verborrea de los grupos de odio, la fluidez en los lenguajes terroristas y una comprensión matizada de las campañas de desinformación, los equipos de confianza y seguridad solo pueden arañar la superficie.

Se requiere un enfoque más sofisticado. Al combinar de manera única el poder de la tecnología innovadora, la recopilación de inteligencia fuera de la plataforma y la destreza de los expertos en la materia que entienden cómo operan los actores de amenazas, la detección escalada del abuso en línea puede alcanzar una precisión casi perfecta.

Los daños en línea son cada vez más complejos

Desde la introducción de Internet, se han librado guerras, las recesiones han ido y venido y los nuevos virus han causado estragos. Si bien Internet desempeñó un papel vital en la forma en que se percibieron estos eventos, otros cambios, como la radicalización de las opiniones extremas, la difusión de información errónea y el amplio alcance del material de abuso sexual infantil (CSAM, por sus siglas en inglés), han sido posibles gracias a él.

Los intentos de las plataformas en línea para detener estos abusos han llevado a una situación similar a Roadrunner y Wile E. Coyote, donde los actores de amenazas usan tácticas cada vez más sofisticadas para evitar la evolución de los mecanismos de detección. Esto ha resultado en el desarrollo de una nueva jerga, como depredadores de niños que se refieren a «pizza de queso» y otros términos que involucran las letras c y p en lugar de «pornografía infantil». Se emplean nuevas metodologías, como el uso de acortadores de enlaces para ocultar una referencia a un sitio web de desinformación; y tácticas de abuso, como la coordinación fuera de la plataforma de ataques a las minorías.

Los métodos tradicionales no son suficientes

La base de la mayoría de los métodos de detección de contenido dañino es la inteligencia artificial (IA). Esta poderosa tecnología se basa en conjuntos de entrenamiento masivos para identificar rápidamente comportamientos infractores a escala. Construido sobre conjuntos de datos de abusos conocidos en idiomas familiares, significa que la IA puede detectar abusos conocidos en idiomas familiares, pero es menos eficaz para detectar violaciones matizadas en idiomas en los que no fue entrenado, un agujero enorme del que los actores de amenazas pueden aprovechar.

Si bien proporciona velocidad y escala, la IA también carece de contexto: un componente crítico del trabajo de confianza y seguridad. Por ejemplo, existen modelos robustos de IA para detectar desnudez, pero pocos pueden discernir si esa desnudez es parte de una pintura renacentista o una imagen pornográfica. Del mismo modo, la mayoría de los modelos no pueden descifrar si el cuchillo que aparece en un video se está utilizando para promocionar el equipo de un carnicero o un ataque violento. Esta falta de contexto puede conducir a una sobremoderación y limitación de la libertad de expresión en las plataformas en línea; o sub-moderación, que es un riesgo para la seguridad del usuario.

A diferencia de la IA, los moderadores humanos y los expertos en la materia pueden detectar abusos sutiles y comprender muchos idiomas y culturas. Sin embargo, esta precisión está limitada por el área de especialización específica del analista: un moderador humano experto en la supremacía blanca europea no necesariamente podrá reconocer contenido dañino en India o narrativas de desinformación en Kenia. Este enfoque limitado significa que para que los moderadores humanos sean efectivos, deben formar parte de equipos grandes y sólidos, un esfuerzo exigente para la mayoría de las empresas de tecnología.

El elemento humano tampoco debe ser ignorado. Los miles de moderadores encargados de mantener fuera de línea el contenido aberrante deben presenciarlo ellos mismos, lo que los coloca en un alto riesgo de enfermedad mental y trastornos traumáticos. Más allá de la preocupación por los moderadores, esta situación puede limitar la eficacia de la operación, ya que la alta rotación y la inestabilidad del personal conducen a una baja estabilidad organizacional e inevitables errores de moderación.

La solución inteligente «Trust & Safety»

Si bien la IA proporciona velocidad y escala y los moderadores humanos brindan precisión, sus esfuerzos combinados aún no son suficientes para detectar de manera proactiva el daño antes de que llegue a las plataformas. Para lograr la proactividad, la confianza y la seguridad, los equipos deben comprender que el contenido abusivo no comienza ni se detiene en sus plataformas. Antes de llegar a las plataformas principales, los actores de amenazas se congregan en los rincones más oscuros de la web para definir nuevas palabras clave, compartir direcciones URL de recursos y analizar en profundidad nuevas tácticas de difusión. Estos lugares secretos donde los terroristas, los grupos de odio, los depredadores de niños y los agentes de desinformación se comunican libremente pueden proporcionar un tesoro de información para los equipos que buscan mantener seguros a sus usuarios.

El problema es que el acceso a esta información no es escalable. La recopilación de inteligencia clásica requiere una investigación profunda, experiencia, acceso y una buena cantidad de habilidades de asimilación: capacidades humanas que una máquina no puede imitar.

Horneando en inteligencia

Hemos establecido que el proceso estándar de los algoritmos de IA para la escala y los moderadores humanos para la precisión no equilibran adecuadamente la escala, la novedad y los matices. También hemos establecido que la recopilación de inteligencia fuera de la plataforma puede proporcionar contexto y matices, pero no escala ni velocidad.

Para superar las barreras de las metodologías de detección tradicionales, proponemos un nuevo marco: en lugar de depender de la IA para detectar a escala y de los humanos para revisar los casos extremos, es crucial un enfoque basado en la inteligencia.

Al llevar la inteligencia fuera de la plataforma, multilingüe y curada por humanos a los conjuntos de aprendizaje, la IA podrá detectar abusos novedosos y matizados a escala, antes de que lleguen a las plataformas principales. Complementar esta detección automatizada más inteligente con la experiencia humana para revisar casos extremos e identificar falsos positivos y negativos y luego volver a introducir esos hallazgos en conjuntos de entrenamiento nos permitirá crear IA con inteligencia humana incorporada. Esta IA más inteligente se vuelve más sofisticada con cada decisión de moderación , eventualmente permitiendo una detección casi perfecta, a escala.

El resultado

El retraso entre la aparición de nuevas tácticas de abuso y el momento en que la IA puede detectarlas es lo que permite que proliferen los daños en línea. La incorporación de inteligencia en el proceso de moderación de contenido permite a los equipos reducir significativamente el tiempo entre la introducción de nuevos métodos de abuso y el momento en que la IA puede detectarlos. De esta forma, los equipos de confianza y seguridad pueden detener el aumento de amenazas en línea antes de que lleguen a los usuarios.