una mina de oro para las empresas de inteligencia artificial

A medida que se generaliza el uso de tecnologías de inteligencia artificial, surge un debate sobre la legitimidad de determinadas prácticas. La explotación masiva de subtítulos de películas y series para entrenar estas IA plantea dudas sobre el respeto de los derechos de autor. En este contexto, se destacan varias grandes empresas tecnológicas.

Usar subtítulos para entrenar modelos de lenguaje

Desde hace varios años, gigantes como Apple, Meta, Nvidia y Salesforce utilizan volúmenes considerables de datos para perfeccionar sus modelos lingüísticos. Entre estos datos se encuentran subtítulos de multitud de películas y series de televisión. Según distintas fuentes, estas repeticiones de diálogos permiten a los modelos imitar de forma colosal el habla humana, más allá de los textos académicos o periodísticos.

Este método se basa en particular en la inclusión de subtítulos en bases de datos como la pilaalojado en OpenSubtitles.org. Esta plataforma ofrece más de 53.000 películas y 85.000 episodios de series, lo que proporciona una biblioteca sustancial para los desarrolladores de IA.

Las empresas afectadas y su enfoque

Se han identificado varias empresas que utilizan este método. Este es particularmente el caso deantrópicoque utiliza estos subtítulos para su competidor directo de ChatGPT, Claude. Meta y Apple están haciendo lo mismo para desarrollar sus familias de modelos LLM y OPT respectivamente. Otros actores como Nvidia, Bloomberg y EleutherAI también están explotando esta masa de datos para fortalecer sus capacidades de inteligencia artificial.

Todas estas empresas buscan construir sistemas capaces de generar diálogos más naturales y humanos. De hecho, “escribir bien” es un recurso poco común en el mundo de los datos de entrenamiento de IA. Por lo tanto, recurrir al diálogo escrito para los subtítulos proporciona una valiosa ventana a los matices y ritmos exclusivos de la conversación hablada.

Un uso controvertido y fuente de conflictos legales

Sin embargo, esta explotación no está exenta de controversia. Se han iniciado varias acciones legales contra las empresas incriminadas, acusadas de utilizar obras protegidas por derechos de autor sin permiso. Guionistas, autores y editoriales alegan vulneraciones de sus derechos. El creador de Breaking Bad, Vince Gilligan, calificó la práctica como “plagio extraordinariamente complejo y que consume mucha energía” ante la Oficina de Derechos de Autor de Estados Unidos.

En su defensa, las empresas afirman que entrenar sistemas de IA en obras protegidas por derechos de autor constituye un uso legítimo, aunque esta afirmación aún espera una validación legal final. Desde la perspectiva del derecho de autor, los tribunales podrían considerar los subtítulos como obras derivadas, disfrutando así de la misma protección contra la copia y distribución ilegales.

El papel de los subtítulos en el rendimiento de la IA

¿Por qué esta elección particular de subtítulos? Porque representan una forma cruda y esencial de diálogo escrito. A diferencia de los libros de texto o artículos científicos, los subtítulos capturan con precisión el flujo, el tono y la cadencia de las conversaciones humanas. Esto permite a los chatbots, que dependen de estos datos, producir un discurso que suene naturalmente humano.

El aporte de los subtítulos no termina ahí. Estos fragmentos de texto también se utilizan para modular respuestas generadas automáticamente en diferentes contextos: televisión, cine e incluso educativo. Ayudan a las inteligencias artificiales a enriquecer su repertorio lingüístico, yendo más allá de los grandes clásicos de la literatura para representar la diversidad de las interacciones verbales actuales.

La posición de los creadores originales.

Lamentablemente, este uso de subtítulos plantea un dilema ético y legal. Por un lado, los desarrolladores e investigadores se benefician de una gran cantidad de información lingüística accesible y gratuita. Por otro lado, los escritores y creadores ven cómo se utiliza su obra sin su conocimiento y sin una remuneración adecuada.

Una opinión compartida por los representantes de los autores británicos (WGGB), que exigen una regulación estricta y el establecimiento de compensaciones para los creadores afectados por esta práctica. Incluso algunos creadores de conjuntos de datos, como Jörg Tiedemann, expresan su preocupación por el mal uso de su contribución inicial, considerada útil pero ahora invasiva para el mercado creativo.