Cómo Anthropic destruyó millones de libros de papel para que Claude aprendiera a escribir

Documentos judiciales desclasificados han revelado que Anthropic, la firma detrás del modelo de lenguaje Claude, llevó a cabo una operación masiva de adquisición, destrucción y digitalización de libros físicos para entrenar su IA. El plan, bautizado internamente como “Proyecto Panamá”, consistió en comprar libros de segunda mano, desmembrarlos mediante maquinaria de corte hidráulico y escanear sus contenidos con equipos de alta velocidad y calidad. Tras la digitalización, los volúmenes fueron enviados a una empresa de reciclaje para que sus materiales fueran reutilizados, bajo la premisa de no generar desperdicio.

Libros triturados por Anthropic, música con IA y la fortuna de Zuckerberg en Meta

Índice

El alcance del proyecto y su contexto legal

El alcance del proyecto y su contexto legal

Según estimaciones del Washington Post, el proyecto habría abarcado entre medio millón y dos millones de libros en un periodo de aproximadamente seis meses, con una inversión de decenas de millones de dólares. Anthropic eligió mayoritariamente librerías de segunda mano, comenzando por The Strand en Nueva York y luego recurriendo a los distribuidores estadounidenses Better World Books y el británico World of Books, con el objetivo de mantener bajos los costos y evitar la exposición pública.

¿Por qué se consideró legal la destrucción de los libros?

La empresa se apoyó en la “doctrina de la primera venta”, que permite a los compradores disponer libremente de los bienes adquiridos sin necesidad de autorización del titular de los derechos de autor.
El proceso de cortar y reciclar los libros físicos no infringió la normativa de derechos de autor, siempre que el material digitalizado fuera utilizado bajo las licencias correspondientes.

Sin embargo, la investigación también puso al descubierto que Anthropic había empleado, en etapas anteriores, métodos claramente ilícitos. En 2021, Ben Mann, cofundador de la compañía, descargó millones de obras de la biblioteca pirata LibGen y, al año siguiente, promovió un sitio llamado “Pirate Library Mirror”, que admitía infringir deliberadamente la legislación de derechos de autor en la mayoría de los países.

[shark_highlights items="Anthropic llevó a cabo el “Proyecto Panamá”, que consistió en comprar libros de segunda mano, desmembrarlos con maquinaria hidráulica, digitalizarlos y luego reciclar los materiales para entrenar su modelo Claude|El proyecto abarcó entre medio millón y dos millones de libros en aproximadamente seis meses, con una inversión de decenas de millones de dólares|La empresa justificó la destrucción de los libros bajo la “doctrina de la primera venta”, argumentando que la digitalización y uso posterior era legal siempre que se respetaran las licencias correspondientes|Investigaciones revelaron que en etapas anteriores, el cofundador Ben Mann descargó millones de obras de LibGen"]

Este cambio de estrategia —de la piratería en línea a la compra de libros de segunda mano— fue interpretado por la fiscalía como un intento de eludir la ley, lo que culminó en un acuerdo extrajudicial de 1.500 millones de dólares con los autores y editoriales cuyas obras habían sido utilizadas sin autorización.

Prácticas similares en la industria de la IA

El caso de Anthropic no es aislado. Grandes actores del sector, como OpenAI y Meta, han sido señalados en diversas ocasiones por entrenar sus modelos con textos protegidos por derechos de autor obtenidos de fuentes no autorizadas, incluidas bibliotecas digitales clandestinas y repositorios en la sombra de internet. Estas prácticas han generado un intenso debate sobre la ética y la legalidad de usar obras protegidas para desarrollar inteligencia artificial.

En resumen, el “Proyecto Panamá” de Anthropic evidencia cómo la búsqueda de datos de alta calidad para entrenar modelos de lenguaje puede desencadenar procesos que, aunque técnicamente legales en ciertos aspectos, plantean serias preguntas sobre la responsabilidad corporativa y el respeto a la propiedad intelectual. El acuerdo de 1,5 mil millones de dólares y la revelación de los documentos judiciales marcan un hito en la discusión sobre los límites y obligaciones de las empresas de IA en el manejo de contenidos protegidos.

[shark_author]