La muerte del filtrador Suchir Balaji y lo que hay que saber sobre la voraz sed de datos de OpenAI

Filtraciones

Suchir Balaji fue encontrado muerto en su apartamento de San Francisco el 26 de noviembre de 2024. Las autoridades han calificado la muerte como suicidio y aún no se han detectado pruebas de que se haya cometido un delito. Exinvestigador de OpenAI, ha sido nombrado denunciante de irregularidades en el caso. En un artículo de blog , Suchir Balaji cuestiona la “defensa plausible” del “uso justo” cuando se trata de productos de IA generativa y pide a los investigadores de aprendizaje automático que se comprometan con las leyes de derechos de autor en este contexto y en términos más generales.

En su último tuit , escribió: » Para dar algo de contexto: estuve en OpenAI durante casi 4 años y trabajé en ChatGPT durante los últimos 1,5 de ellos. Al principio no sabía mucho sobre derechos de autor, uso justo, etc., pero sentí curiosidad después de ver todas las demandas presentadas contra las empresas de GenAI. Cuando traté de entender mejor el tema, finalmente llegué a la conclusión de que el uso justo parece una defensa bastante inverosímil para muchos productos de IA generativa, por la razón básica de que pueden crear sustitutos que compiten con los datos con los que están entrenados. He escrito las razones más detalladas de por qué creo esto en mi publicación. Obviamente, no soy abogado, pero aun así siento que es importante que incluso los no abogados comprendan la ley, tanto la letra como también por qué está ahí en primer lugar » .

Los argumentos de Balaji forman parte de la debacle actual sobre la ética y la legalidad del contenido generado por IA y los datos con los que se entrenan estos modelos generativos. No solo viola la “doctrina del uso justo”, sino que también hace una copia completa de esos datos. A partir de ahí, una empresa como OpenAI puede enseñarle al sistema a generar una copia exacta de los datos. O puede enseñarle al sistema a generar texto que no sea en modo alguno una copia. La realidad, dijo, es que las empresas enseñan a los sistemas a hacer algo intermedio.

Suchir Balaji

Ocho días antes de la muerte de Balaji, los abogados de The Times habían propuesto nombrarlo como «custodio» en la histórica demanda que presentó contra Open AI. Business Insider afirmó, al ver los documentos judiciales, que » la carta de los abogados describía a Balaji como alguien con «documentos únicos y relevantes» que podrían respaldar su caso de infracción de derechos de autor contra OpenAI y Microsoft». Esta es la misma demanda, en la que OpenAI borró accidentalmente evidencia crucial que el equipo legal del periódico había pasado 150 horas revisando.

Todo lo que vemos es nuestro: la violación constante de los derechos de autor por parte de OpenAI [y eludir las leyes]

Hay que recordar que la sed de datos de OpenAI es enorme. El principio de aprendizaje, en esencia, es simple: cuantos más datos tenga a su disposición, más aprenderá y más generará. Muy pocos de estos datos son de origen ético, y casi todos los sitios web, todas las imágenes, todos los documentos públicos [y privados, pero esa es una caja de Pandora completamente diferente] tienen acceso a ellos. Aquí es donde entra en juego la debacle de YouTube. A finales de 2021, cuando el suministro de datos escaseó, OpenAI decidió transcribir horas de vídeos de YouTube.

Dirigido por Brockman, presidente de Open AI, un equipo dentro de la empresa desarrolló Whisper, una herramienta de reconocimiento de voz y transcribió un millón de horas de vídeos y podcasts de YouTube para obtener los datos que luego introdujeron en la tecnología, aparentemente. Aquí surge una pregunta: se supone que aquí hay un impasse. Google no permite el uso de vídeos de YouTube para aplicaciones independientes de terceros, incluso cuando lo hacen bots, recopiladores de datos, etc. ¿Por qué, entonces, no se opusieron a este proceso de transcripción?

Según The New York Times , Google había utilizado las transcripciones de sus propios vídeos de YouTube como conjuntos de datos para entrenar sus propios modelos de IA y, por lo tanto, no quería verse envuelto en una mayor controversia al entrar en este discurso, especialmente cuando también era culpable del mismo delito: una posible violación de los derechos de autor de los creadores de YouTube. Si bien Sundar Pichai le dijo a Deirdre Bosa de CNBC que si Google descubría que se habían incumplido sus términos de servicio, lo «solucionarían», no pudimos encontrar ningún informe que indicara algún tipo de «solucionamiento» público.

Esto no se limita a YouTube y no terminó en 2022, cuando ChatGPT se lanzó a la sociedad. Es un proceso en curso y las prácticas de obtención de datos de Open AI (y otras empresas) no se han ralentizado mucho.

A principios de este año, se reveló que Taylor and Francis había otorgado a Microsoft acceso no exclusivo a contenido sobre el cual posee los derechos. Como se podría sospechar, esta medida se tomó sin consultar previamente a los académicos y autores cuyos trabajos se estaban ofreciendo a Microsoft. Informa, el grupo propietario de Taylor and Francis, publicó un acuerdo del cual se incluye el siguiente extracto [énfasis nuestro]:

La asociación se centrará en cuatro áreas fundamentales:

  1. Productividad mejorada: explore cómo la IA puede permitir formas más efectivas de trabajar en Informa, agilizando las operaciones, utilizando Copilot para Microsoft 365 para permitir que los colegas trabajen de manera más eficiente y mejorando las capacidades de las plataformas de datos e IA existentes de Informa (IIRIS);
  2. Motor de citas: colaborar para seguir desarrollando la referenciación de citas automatizada, utilizando la última tecnología para mejorar la velocidad y la precisión;
  3. Agente experto especializado: explorar el desarrollo de agentes expertos especializados para clientes como autores y bibliotecarios para ayudar con la investigación, la comprensión y la creación/intercambio de nuevos conocimientos;
  4. Acceso a datos: proporcionar acceso no exclusivo a contenido y datos de aprendizaje avanzado para ayudar a mejorar la relevancia y el rendimiento de los sistemas de IA.

El acuerdo incluye el pago a Informa de una tarifa inicial de acceso a datos (10 millones de dólares o más) y un pago recurrente a lo largo de tres años (2025, 2026, 2027)”.

Esto sienta un precedente . La mayoría de los que se oponen a la violación de los derechos de autor de las plataformas de IA provienen de académicos y, si bien la mayoría es consciente de la naturaleza depredadora de la industria editorial académica, este es un golpe más. También hay que recordar que Microsoft ha invertido varios miles de millones en OpenAI.

Pero no acaba ahí, de hecho, es solo la punta del iceberg. El problema va más allá: Sora, el generador de texto a vídeo de OpenAI, podría estar siendo entrenado por vídeos de YouTube y contenido de juegos. Actualmente hay más de 25 demandas por derechos de autor contra empresas de inteligencia artificial, muchas de las cuales son demandas colectivas. Estas demandas son interpuestas por escritores (como George RR Martin, David Baldacci, etc. en Alter vs Open AI), creativos (Sarah Silverman en re OpenAI ChatGPT Litigation), periodistas y publicaciones de noticias.

Otra de las fuentes en las que OpenAI y otras empresas similares han confiado para entrenar sus modelos son los datos sintéticos. En lugar de entrenar todos los modelos de IA con información generada por humanos en Internet, otra alternativa es confiar en los datos generados por la IA y luego combinar ese conocimiento. Esto a menudo conduce al fenómeno de la “alucinación”: cuando el modelo de IA sueña con una fuente que no existe, porque está construido sobre la esencialización o el desmontaje de otros datos por sí mismo. También conduce al fortalecimiento de los sesgos y la continuación de los errores debido a que las empresas toman atajos.

La economía política del trabajo digital: una breve mirada

Con el auge de la IA, también hay una expansión masiva en la economía del trabajo digital. La problemática es una calle de doble sentido. Se puede medir el hecho de que la intención no es solo aumentar la eficiencia, sino también garantizar que se pueda extraer la mayor cantidad de trabajo con el menor gasto incurrido. Aquí está el primer problema: OpenAI y otras empresas están en el proceso de desarrollar una «tecnología de agente». Ahora, yendo más allá de responder consultas y generar información, también podrá realizar las tareas repetitivas diarias que de otro modo son realizadas actualmente por la fuerza laboral humana. Altman dijo en una entrevista de podcast sobre su visión para la tecnología en cuestión: » un compañero de trabajo senior realmente inteligente con el que puedes colaborar en un proyecto … El agente puede hacer una tarea de dos días, o de dos semanas, realmente bien, y avisarte cuando tenga preguntas, pero volver a ti con un gran producto de trabajo » .

Hasta que la tecnología de los agentes dé sus frutos, las metodologías de reducción de costes laborales están en plena aplicación. Esto está arraigado desde la estructuración de la empresa en su conjunto, remontándose al entrenamiento de datos como sistema. En una exclusiva de Time , se reveló que OpenAI utilizó una empresa de inteligencia artificial ética con sede en San Francisco, Sama, anteriormente Samasource. Para entrenar a la IA a reconocer contenido tendencioso y tóxico, OpenAI envió decenas de miles de fragmentos de texto a la empresa keniana, que a menudo consistían en detalles gráficos, descripciones de violencia sexual, bestialidad, incesto, etc.

Todo esto fue comentado por trabajadores kenianos, a quienes se les pagaba entre 1,32 y 2 dólares por hora. Sama se promociona como una empresa de “inteligencia artificial ética” que afirma haber sacado de la pobreza a miles de trabajadores kenianos.

Empresas de inteligencia artificial ética como esta existen en todo el Sur global. La industria de la inteligencia artificial depende en gran medida de los trabajadores temporales y, como era de esperar, cuando se realizó una encuesta de Oxford basada en las condiciones laborales en 15 plataformas que facilitan la prestación de estos servicios, todas estas empresas obtuvieron una puntuación terrible de 5 sobre 10; la puntuación se realizó sobre la base de 5 principios: salario justo, condiciones justas, contratos justos, gestión justa y representación justa; con un máximo de dos puntos por cada principio. Algunas empresas obtuvieron un 0. Un 10 solo significaría que las empresas cumplen con los requisitos más básicos de un lugar de trabajo.

El neocolonialismo y las tácticas de militarización (literal) de OpenAI

Lo que surge, por lo tanto, es una forma insidiosa de neocolonialismo en la que las dinámicas de poder preexistentes entre el Norte y el Sur Globales se refuerzan una y otra vez. La asimilación de una fuerza laboral barata, la introducción de tecnologías de vigilancia en Sudáfrica y el agravamiento de las desigualdades históricas contribuyen a repetir lo que ya ha sucedido una y otra vez. OpenAI también se asociará con la empresa de tecnología de defensa Anduril y la firma de análisis de datos Palantir , con acceso a datos de defensa.

En un hilo que explica su colaboración, Anduril Industries afirmó: » La mayoría de los datos de defensa recopilados en el borde táctico nunca se conservan. Se pierden exabytes de información valiosa: datos que podrían entrenar modelos de IA de clase mundial y brindar a los EE. UU. una ventaja sobre los adversarios. Los sistemas Lattice y Menace de Anduril resuelven este problema al capturar, proteger y retransmitir esos datos para habilitar la IA. Incluso con los datos retenidos, no existe un canal seguro para convertirlos en IA procesable. La Plataforma de IA de Palantir (AIP) cambia eso. Permite a los desarrolladores estructurar, entrenar e implementar modelos a escala, manejando todo, desde datos no clasificados hasta datos de nivel SCI… Juntos, estos sistemas desbloquean todo el potencial de los datos de defensa, convirtiéndolos en inteligencia procesable y capacidades de próxima generación. Esta asociación también permite la colaboración con los principales desarrolladores de IA, incluido @OpenAI . Al conectar el borde táctico, la infraestructura de nube segura y los modelos de IA de vanguardia, estamos construyendo la solución completa para poner en funcionamiento la IA «.

Lo que queremos destacar es el hecho de que esta colaboración se centrará en la mejora del CUAS, el sistema de seguridad antidrones de Estados Unidos. Anduril, con la ayuda de un gran modelo de lenguaje, está desarrollando un grupo de aeronaves que ayudarán a traducir los comandos de lenguaje natural en instrucciones comprensibles tanto para los pilotos humanos como para los drones. Heidy Khlaaf, científica jefe de IA en el AI Now Institute e investigadora de seguridad, dijo a MIT Technology Review : » Las armas defensivas siguen siendo, de hecho, armas… a menudo se pueden posicionar de manera ofensiva en función del lugar y el objetivo de una misión » . Cuando todo esto se contextualiza con la larga y continua tradición del gobierno estadounidense de mantener una presencia militar en todo el mundo y ejercer la violencia en nombre de la lucha contra el terrorismo, asume una forma enorme y espantosa.  

El problema de OpenAI y otras grandes empresas de inteligencia artificial no es que no cumplan con las expectativas de ética. Rara vez se espera que se mantenga la ética cuando se trata de empresas corporativas en las trincheras del capitalismo tardío. El espíritu de la máquina de inteligencia artificial es que se basa en el arte de la sustitución: sustituye a la clase trabajadora, a la gente pobre sobre cuyos hombros se construye, sustituye el trabajo que hemos creado y sustituye los marcos de violencia existentes por formas de violencia más mecanizadas y “sin sentido”.

La idea, como es evidente, es ganar más dinero y ganar más poder, y el costo lo pagan las mismas personas que intentan eludir décadas de colonialismo, opresión y otras formas de violencia que se les han impuesto. La idea en su núcleo se ha denominado antiantropos. Usemos aquí la expresión real y más simple: es antihumana. Todo esto es, y seguirá siendo magníficamente antihumano y antipueblo.

Publicado en feminisminindia.com