Cómo Anthropic destruyó millones de libros de papel para que Claude aprendiera a escribir
Documentos judiciales desclasificados han revelado que Anthropic, la firma detrás del modelo de lenguaje Claude, llevó a cabo una operación masiva de adquisición, destrucción y digitalización de libros físicos para entrenar su IA. El plan, bautizado internamente como “Proyecto Panamá”, consistió en comprar libros de segunda mano, desmembrarlos mediante maquinaria de corte hidráulico y escanear sus contenidos con equipos de alta velocidad y calidad. Tras la digitalización, los volúmenes fueron enviados a una empresa de reciclaje para que sus materiales fueran reutilizados, bajo la premisa de no generar desperdicio.

El alcance del proyecto y su contexto legal
Según estimaciones del Washington Post, el proyecto habría abarcado entre medio millón y dos millones de libros en un periodo de aproximadamente seis meses, con una inversión de decenas de millones de dólares. Anthropic eligió mayoritariamente librerías de segunda mano, comenzando por The Strand en Nueva York y luego recurriendo a los distribuidores estadounidenses Better World Books y el británico World of Books, con el objetivo de mantener bajos los costos y evitar la exposición pública.
¿Por qué se consideró legal la destrucción de los libros?
- La empresa se apoyó en la “doctrina de la primera venta”, que permite a los compradores disponer libremente de los bienes adquiridos sin necesidad de autorización del titular de los derechos de autor.
- El proceso de cortar y reciclar los libros físicos no infringió la normativa de derechos de autor, siempre que el material digitalizado fuera utilizado bajo las licencias correspondientes.
Sin embargo, la investigación también puso al descubierto que Anthropic había empleado, en etapas anteriores, métodos claramente ilícitos. En 2021, Ben Mann, cofundador de la compañía, descargó millones de obras de la biblioteca pirata LibGen y, al año siguiente, promovió un sitio llamado “Pirate Library Mirror”, que admitía infringir deliberadamente la legislación de derechos de autor en la mayoría de los países.
Este cambio de estrategia —de la piratería en línea a la compra de libros de segunda mano— fue interpretado por la fiscalía como un intento de eludir la ley, lo que culminó en un acuerdo extrajudicial de 1.500 millones de dólares con los autores y editoriales cuyas obras habían sido utilizadas sin autorización.
Prácticas similares en la industria de la IA
El caso de Anthropic no es aislado. Grandes actores del sector, como OpenAI y Meta, han sido señalados en diversas ocasiones por entrenar sus modelos con textos protegidos por derechos de autor obtenidos de fuentes no autorizadas, incluidas bibliotecas digitales clandestinas y repositorios en la sombra de internet. Estas prácticas han generado un intenso debate sobre la ética y la legalidad de usar obras protegidas para desarrollar inteligencia artificial.
En resumen, el “Proyecto Panamá” de Anthropic evidencia cómo la búsqueda de datos de alta calidad para entrenar modelos de lenguaje puede desencadenar procesos que, aunque técnicamente legales en ciertos aspectos, plantean serias preguntas sobre la responsabilidad corporativa y el respeto a la propiedad intelectual. El acuerdo de 1,5 mil millones de dólares y la revelación de los documentos judiciales marcan un hito en la discusión sobre los límites y obligaciones de las empresas de IA en el manejo de contenidos protegidos.
Mira tambien:
Grupo Aval reunirá a líderes tecnológicos y aliados globales en la primera edición de Aval Tech Week
Lego Batman: Legacy of the Dark Knight es el homenaje al murciélago que estabas buscando
Tesla genera efecto a la baja en precios de carros eléctricos e híbridos en Colombia: estos modelos, los que más bajaron
Estos son los motivos oficiales por los que la Sermanat cancelará Perfect Day en Mahahual
Deja una respuesta