Una queja sobre la pobreza en la China rural. Un reportaje sobre un miembro corrupto del Partido Comunista. Un llamado de auxilio contra policías corruptos que extorsionan a empresarios.
Estos son solo algunos de los 133.000 ejemplos que se incorporan a un sofisticado modelo de lenguaje de gran tamaño, diseñado para marcar automáticamente cualquier pieza de contenido que el gobierno chino considere sensible.
Una base de datos filtrada vista por TechCrunch revela que China ha desarrollado un sistema de inteligencia artificial que potencia su ya formidable máquina de censura, extendiéndose mucho más allá de tabúes tradicionales como la masacre de la Plaza de Tiananmen.
El sistema parece estar orientado principalmente a censurar a los ciudadanos chinos en línea, pero podría usarse para otros fines, como mejorar la ya extensa censura de los modelos de inteligencia artificial chinos.
Xiao Qiang, investigador de la UC Berkeley que estudia la censura china y que también examinó el conjunto de datos, dijo a TechCrunch que era una «evidencia clara» de que el gobierno chino o sus afiliados quieren usar los LLM para mejorar la represión.
“A diferencia de los mecanismos de censura tradicionales, que dependen del trabajo humano para el filtrado basado en palabras clave y la revisión manual, un LLM entrenado en tales instrucciones mejoraría significativamente la eficiencia y la granularidad del control de la información dirigido por el estado”, dijo Qiang a TechCrunch.
Esto se suma a la creciente evidencia de que los regímenes autoritarios están adoptando rápidamente las últimas tecnologías de IA. En febrero, por ejemplo, OpenAI afirmó haber descubierto que varias entidades chinas utilizaban LLM para rastrear publicaciones antigubernamentales y difamar a los disidentes chinos.
La Embajada de China en Washington, DC, dijo a TechCrunch en un comunicado que se opone a los “ataques y calumnias infundados contra China” y que China concede gran importancia al desarrollo de una IA ética.
Datos encontrados a simple vista
El conjunto de datos fue descubierto por el investigador de seguridad NetAskari , quien compartió una muestra con TechCrunch después de encontrarlo almacenado en una base de datos Elasticsearch no segura alojada en un servidor Baidu.
Esto no indica ninguna participación de ninguna de las empresas: todo tipo de organizaciones almacenan sus datos con estos proveedores.
No hay ninguna indicación de quién exactamente creó el conjunto de datos, pero los registros muestran que los datos son recientes y sus últimas entradas datan de diciembre de 2024.
Un LLM para detectar la disidencia
En un lenguaje que recuerda inquietantemente a cómo se usa ChatGPT, el creador del sistema encarga a un LLM anónimo que determine si un contenido está relacionado con temas delicados de política, vida social y el ámbito militar. Dicho contenido se considera de máxima prioridad y debe marcarse de inmediato.
Los temas de máxima prioridad incluyen los escándalos de contaminación y seguridad alimentaria, el fraude financiero y los conflictos laborales, que son cuestiones candentes en China que a veces conducen a protestas públicas; por ejemplo, las protestas anticontaminación de Shifang en 2012.
Cualquier forma de «sátira política» es objeto de un ataque explícito. Por ejemplo, si alguien usa analogías históricas para argumentar sobre «figuras políticas actuales», esto debe denunciarse de inmediato, al igual que cualquier cosa relacionada con la «política taiwanesa». Los asuntos militares son objeto de un amplio ataque, incluyendo informes sobre movimientos militares, ejercicios y armamento.
A continuación, se puede ver un fragmento del conjunto de datos. El código que contiene hace referencia a tokens de solicitud y LLM, lo que confirma que el sistema utiliza un modelo de IA para ejecutar sus órdenes:

Dentro de los datos de entrenamiento
De esta enorme colección de 133.000 ejemplos que la LLM debe evaluar para la censura, TechCrunch reunió 10 piezas representativas de contenido .
Los temas que pueden generar malestar social son recurrentes. Un ejemplo, por ejemplo, es la publicación de un empresario que se queja de policías locales corruptos que extorsionan a emprendedores, un problema creciente en China ante las dificultades de su economía.
Otro contenido lamenta la pobreza rural en China, describiendo pueblos degradados donde solo viven ancianos y niños. También hay un reportaje sobre la expulsión de un funcionario local por parte del Partido Comunista Chino (PCCh) por corrupción grave y por creer en supersticiones en lugar del marxismo.
Existe abundante material relacionado con Taiwán y asuntos militares, como comentarios sobre las capacidades militares de Taiwán y detalles sobre un nuevo avión de combate chino. Tan solo la palabra china para Taiwán (台湾) se menciona más de 15.000 veces en los datos, según una búsqueda realizada por TechCrunch.
La disidencia sutil también parece ser el blanco. Un fragmento incluido en la base de datos es una anécdota sobre la fugacidad del poder que utiliza el popular dicho chino «Cuando el árbol cae, los monos se dispersan».
Las transiciones de poder son un tema especialmente delicado en China debido a su sistema político autoritario.
Creado para el “trabajo de opinión pública ”
El conjunto de datos no incluye información sobre sus creadores. Sin embargo, sí indica que está destinado a «labores de opinión pública», lo que ofrece una clara pista de que está destinado a servir a los objetivos del gobierno chino, según declaró un experto a TechCrunch.
Michael Caster, gerente del programa para Asia de la organización de derechos humanos Article 19, explicó que el “trabajo de opinión pública” es supervisado por un poderoso regulador del gobierno chino, la Administración del Ciberespacio de China (CAC), y generalmente se refiere a esfuerzos de censura y propaganda.
El objetivo final es garantizar la protección de las narrativas del gobierno chino en línea, a la vez que se eliminan las opiniones alternativas. El propio presidente chino, Xi Jinping, ha descrito internet como la «primera línea» del «trabajo de opinión pública» del PCCh.
La represión se está volviendo más inteligente
El conjunto de datos examinado por TechCrunch es la evidencia más reciente de que los gobiernos autoritarios buscan utilizar la IA con fines represivos.
OpenAI publicó un informe el mes pasado que revelaba que un actor no identificado, probablemente operando desde China, utilizó IA generativa para monitorear conversaciones en las redes sociales, particularmente aquellas que abogaban por protestas por los derechos humanos contra China, y reenviarlas al gobierno chino.
OpenAI también descubrió que la tecnología se utiliza para generar comentarios muy críticos sobre un destacado disidente chino, Cai Xia.
Tradicionalmente, los métodos de censura de China se basan en algoritmos más básicos que bloquean automáticamente el contenido que menciona términos incluidos en la lista negra, como “masacre de Tiananmen” o “Xi Jinping”, como experimentaron muchos usuarios al usar DeepSeek por primera vez .
Pero las tecnologías de IA más recientes, como los LLM, pueden hacer que la censura sea más eficiente al detectar incluso críticas sutiles a gran escala. Algunos sistemas de IA también pueden seguir mejorando a medida que procesan más y más datos.
«Creo que es crucial destacar cómo está evolucionando la censura impulsada por la IA, haciendo que el control estatal sobre el discurso público sea aún más sofisticado, especialmente en un momento en que los modelos de IA chinos como DeepSeek están causando sensación», dijo Xiao, el investigador de Berkeley, a TechCrunch.
Publicado en techcrunch.com