El secreto de Anthropic: libros cortados, escaneados y reciclados para entrenar a Claude

COMPARTIR EN REDES

La inteligencia artificial prometió abrir una nueva era del conocimiento, pero algunos de sus métodos empiezan a revelar una paradoja inquietante: para enseñar a las máquinas a escribir mejor, una de las empresas más relevantes del sector habría destruido cientos de miles —quizá millones— de libros físicos. No archivos corruptos, no bases de datos anónimas, sino libros de papel, con lomo, páginas, tinta y autor.

El caso afecta a Anthropic, la compañía creadora de Claude, uno de los grandes modelos de lenguaje que compiten en la carrera mundial de la inteligencia artificial.

Según documentos judiciales desclasificados, la empresa puso en marcha en 2024 el llamado Proyecto Panamá, una operación concebida para alimentar a sus sistemas con textos de alta calidad y evitar que sus modelos aprendieran únicamente del lenguaje fragmentario, acelerado y muchas veces mediocre de internet.

La lógica interna del proyecto era sencilla: si Claude debía aprender a escribir bien, necesitaba leer buenos libros. Pero el modo elegido para conseguirlo ha abierto un profundo debate ético, cultural y legal. Anthropic habría comprado grandes cantidades de volúmenes en el mercado de segunda mano, los habría desmembrado con una máquina de corte hidráulica, escaneado página por página con equipos profesionales de alta velocidad y, finalmente, enviado los restos a una empresa de reciclaje.

La cadena de montaje funcionaba al revés: no producía libros, los destruía para convertirlos en datos.

El procedimiento resulta especialmente simbólico. Durante siglos, el libro ha sido uno de los grandes soportes de la memoria humana. Ha conservado historias, pensamiento, poesía, ciencia, fe, filosofía y experiencia.

En el Proyecto Panamá, en cambio, el libro aparece reducido a materia prima, como combustible, como recurso industrial para entrenar un modelo.

Los documentos conocidos apuntan a que la operación se mantuvo en secreto precisamente por su potencial impacto reputacional. Una empresa que se presenta como responsable y prudente en el desarrollo de inteligencia artificial difícilmente podía presumir de una práctica que evocaba imágenes incómodas: miles de libros cortados, escaneados y reciclados para alimentar una tecnología que luego produciría textos, respuestas y análisis para millones de usuarios.

Según las informaciones publicadas, Anthropic acudió sobre todo al mercado de segunda mano para abaratar costes y mantener un perfil discreto. Entre los proveedores mencionados figuran librerías y distribuidores especializados en libros usados, desde The Strand, una histórica librería de Nueva York, hasta Better World Books y World of Books.

La cifra exacta de ejemplares adquiridos no está clara, pero las estimaciones hablan de entre medio millón y dos millones de volúmenes comprados en apenas unos meses, con un coste de decenas de millones de dólares.

El caso, sin embargo, no se limita a la destrucción física de libros. Antes de poner en marcha este método, Anthropic también aparece vinculada al uso de bibliotecas piratas. Documentos del proceso judicial señalan que Ben Mann, cofundador de la empresa, descargó personalmente millones de libros de LibGen en 2021. Al año siguiente, habría elogiado la aparición de Pirate Library Mirror, una plataforma que reconocía abiertamente infringir las leyes de derechos de autor en buena parte del mundo.

Ahí está el corazón del conflicto. Las grandes tecnológicas han defendido durante años que entrenar modelos de inteligencia artificial con grandes cantidades de texto es una forma de uso transformativo.

Sus críticos, en cambio, denuncian que ese argumento se ha convertido en una vía para apropiarse de obras ajenas sin permiso, sin pago y sin reconocimiento suficiente a los autores.

En el caso de Anthropic, los tribunales distinguieron entre dos cuestiones. Por un lado, la compra de libros físicos de segunda mano y su escaneo destructivo fue considerada legal bajo la llamada doctrina de la primera venta, que permite a quien compra un ejemplar disponer de él. Por otro, el uso de libros pirateados sí abrió la puerta a graves responsabilidades. La demanda colectiva terminó con un acuerdo extrajudicial de unos 1.500 millones de dólares, una de las cifras más relevantes hasta ahora en la batalla entre derechos de autor e inteligencia artificial.

¿Puede llamarse innovación a un modelo económico que transforma obras protegidas en datos entrenables y luego comercializa los resultados? ¿Dónde queda el autor cuando su voz, su estilo y su trabajo se diluyen en un sistema capaz de producir textos a escala industrial?

Libros destruidos para que una inteligencia artificial aprenda a escribir. Una escena casi alegórica. La cultura convertida en residuo reciclable; la creación humana triturada para alimentar una máquina; la promesa de progreso acompañada por una sombra de expolio.

La inteligencia artificial puede ser una herramienta extraordinaria, también en el campo de la escritura, la investigación y la educación. Pero este caso recuerda que no toda eficiencia es justicia, ni toda capacidad técnica legitima moralmente un procedimiento. El futuro de la IA no dependerá solo de lo que las máquinas sean capaces de hacer, sino de si las sociedades humanas se atreven todavía a defender el valor de sus autores, de sus libros y de su memoria.

¿Te ha gustado el artículo?

Ayúdanos con 1€ para seguir haciendo noticias como esta

Donar 1€
NOTICIAS RELACIONADAS

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Rellena este campo
Rellena este campo
Por favor, introduce una dirección de correo electrónico válida.

El periodo de verificación de reCAPTCHA ha caducado. Por favor, recarga la página.