Anthropic y el precio de entrenar a la máquina

Madrid, 29 de diciembre de 2025

Parece que finalmente el caso Bartz v. Anthropic PBC (la empresa que desarrolla el modelo de inteligencia artificial Claude) se cerrará con un acuerdo millonario. Anthropic abonará 1.500 millones de dólares para archivar las demandas colectivas presentadas contra ella por diversos autores, cuyos libros fueron usados sin ningún tipo de autorización para entrenar su large language model (LLM).

La cifra del acuerdo es altísima, incluso mareante. Pero no debe ser vista como una victoria de los creadores, pues evita una sentencia de un pleito que Anthropic ya daba por perdido. Es la forma "barata" de disculparse por vulnerar los derechos de los creadores, y que además no sienta precedente para el resto de los pleitos que aún se encuentran pendientes de resolución en materia de IA en EE UU. Vamos, que Anthropic cierra la herida antes de que las decisiones judiciales la infecten.

La noticia tiene algo de justicia poética. Anthropic, fundada por extrabajadores de OpenAI con el fin de ser la alternativa "ética" a esta última, cierra el mayor acuerdo de la historia precisamente por infringir los derechos de autor mediante el uso de copias piratas para el entrenamiento de su LLM. Esto tiene mucha relevancia, pues lo que estaba encima de la mesa era que el entrenamiento del LLM de Anthropic se había realizado mediante miles y miles de obras literarias extraídas de las llamadas shadow libraries; es decir, repositorios piratas como Library Genesis o Pirate Library Mirror. Por tanto, no se trataba tanto del uso de obras sin permiso y de si esto podía ampararse en el fair use, sino de un asunto de piratería a gran escala. La obtención de obras de manera ilícita para formar una biblioteca propia es per se una infracción en materia de propiedad intelectual que difícilmente puede estar amparada por este límite.

Concretamente, se usaron unos siete millones de archivos descargados de estas bibliotecas piratas. Tras diversas depuraciones, la eliminación de duplicados, etcétera, se calculó que hay unas 500.000 obras con ISBN o ASIN que, de acuerdo con los criterios fijados por el tribunal, tienen derecho a indemnización. A razón, por tanto, de unos 3.000 dólares por obra.

Una vuelta de tuerca más a los ya discutidos sistemas de entrenamiento. Ya no solo se discute si el entrenamiento del sistema se encuentra amparado o no por la doctrina del fair use, sino hasta dónde alcanza esta "excepción". En junio de 2025, el juez William Alsup, que supervisaba el asunto, ya advirtió a las partes de que el entrenamiento con libros adquiridos lícitamente podría encuadrarse dentro del fair use. Considera que su uso podría ser considerado transformativo, siempre que el resultado no sustituya el valor de la obra con la que fue entrenada. Este planteamiento obvia lo más evidente: que el entrenamiento se realiza con millones de obras, no con una obra aislada; es decir, que su transformación no es creativa, sino mera estadística. Sin embargo, lo que más llama la atención es que considera que el fair use no es aplicable a los libros bajados ilícitamente de repositorios piratas, pues solo el acceso licito a las obras puede dar lugar a la aplicación de esta excepción.

Esta tesis chirría con el derecho de autor. Cuando se adquiere un ejemplar, lo que se posee es el soporte de la obra, pero no los derechos de la obra que está impresa en él. Adquirir lícitamente el corpus mechanicum nunca dio derechos sobre el corpus mysticum. Por otro lado, el Reglamento de Inteligencia Artificial Europeo exige transparencia e impone obligaciones técnicas a los desarrolladores de LLM, pero lo cierto es que tampoco entra en profundidad sobre el origen de los contenidos que sirven para el entrenamiento de los modelos. Aunque la Directiva de 2019 sobre derechos de autor en el mercado digital permitió a los titulares de derechos ejercitar el opt-out (es decir, la exclusión voluntaria de su obra para la minería de datos), en la práctica esto es una ficción, dado que cumplir esta exclusión resulta prácticamente imposible.

Este acuerdo cuantifica la creatividad y construye su relato bajo la presunción de que todo lo que está alojado en la red son datos disponibles para el entrenamiento de los LLM bajo el amparo del fair use. Ahora comprendemos por qué el lema de Silicon Valley es "Move fast and break things". Este lema, aplicado a la propiedad intelectual, tiene su exponente en este acuerdo. "Muévete rápido y rompe cosas, que ya las pagarás si te demandan". El pago de 1.500 millones cuantifica el daño realizado, pero no restablece ningún equilibrio. La cifra impresiona â€¦€“â€¦¡mucho dinero!â€¦€“, pero sienta un precedente que asusta mucho más. Si normalizamos que la práctica habitual es primero usar sin permiso para luego indemnizar, lo que realmente estamos haciendo es despojar al creador de su obra. Es así, nos guste o no. Se paga por el silencio, pero no por la autorización. Y esta cifra, una vez repartida y fragmentada entre los autores, se convertirá en migajas que en ningún caso restablecen su derecho y capacidad de control sobre su obra. Siempre se habla del equilibrio entre los derechos y la innovación, pero vamos por el camino equivocado.

Nos dirigimos hacia una tarifa plana para infringir derechos y expoliar a los creadores de sus obras. Para que haya equilibrio, el peso de ambas partes ha de ser igual; pero no es el caso. Debemos exigir una verdadera trazabilidad de los datos y su respeto con el derecho de autor y explorar la posibilidad de crear licencias colectivas específicas para entrenamiento de IA de las que se obtenga una remuneración justa. Y todo ello exige una voluntad política que ahora no se atisba en futuro inmediato.

Por desgracia, el acuerdo de 1.500 millones nos marea y nos recuerda que la creatividad tiene precio. Pero ahora toca que los políticos decidan si también tiene dignidad.

Marco Antonio Mariscal Moraza

Abogado y Doctor en Derecho.

Profesor de Derecho Civil en la UAH.Responsable de Transformación Tecnológica en AISGE

Fuente: AISGE

Comparte:

VOLVER