Millones de libros quemados para entrenar a la IA: el coste oculto de la revolución digital

Ars Technica

Un informe reciente desvela los métodos, cuanto menos radicales, empleados por la empresa Anthropic para recopilar los datos necesarios para entrenar su modelo de inteligencia artificial, Claude. Lejos de limitarse a explotar millones de obras protegidas por derechos de autor, la compañía habría procedido a su destrucción física.

En un paso que revela los costes ocultos de la revolución de la IA y que evoca de manera flagrante la destrucción de obras de arte, Anthropic, con el respaldo de Google, no solo se ha valido de millones de libros con derechos de autor, una práctica ya de por sí plagada de problemas éticos y legales. Ha ido más allá: se arrancaron páginas de sus encuadernaciones, se escanearon para convertirlas en archivos digitales, y luego millones de páginas originales de esos textos fueron simplemente desechadas. Decir que la IA "devoró" estos libros no es, por lo tanto, una simple figura retórica, sino una descripción literal de los hechos.

Esta práctica salió a la luz durante un fallo judicial emitido el lunes en un caso de derechos de autor, lo que supuso una victoria significativa para Anthropic y, en general, para una industria tecnológica ávida de datos. El juez de distrito de EE. UU. William Alsup dictaminó que Anthropic podía entrenar sus grandes modelos de lenguaje con libros que había comprado legalmente, incluso sin obtener el permiso explícito de los autores.

Esta decisión se debe, en parte, al método de escaneo de los libros destruidos utilizado por Anthropic. Si bien la empresa no es la primera en recurrir a él, según Ars Technica, la magnitud de la operación es, en este caso, notable.

La "doctrina de la primera venta" desviada

En esencia, este método se beneficia de un concepto legal conocido como la "doctrina de la primera venta" (first-sale doctrine). Este principio permite al comprador hacer lo que desee con sus adquisiciones sin la intervención del titular de los derechos de autor. Es lo que posibilita la existencia del mercado de libros de segunda mano; de lo contrario, un editor, por ejemplo, podría reclamar una parte o prohibir la reventa de sus libros.

Sin embargo, las empresas de IA han utilizado este principio de mala fe. Según documentos judiciales, Anthropic contrató en febrero de 2024 a Tom Turvey, ex jefe de asociaciones del proyecto de escaneo de libros de Google, con la misión de adquirir "todos los libros del mundo" sin incurrir en "dificultades legales/operativas/comerciales", como lo describió Dario Amodei, director ejecutivo de Anthropic, en el expediente.

Turvey encontró entonces una solución alternativa: al comprar los libros físicos, Anthropic estaría protegida por la doctrina de la primera venta y ya no tendría que obtener licencias. Además, la eliminación de las páginas permitió un escaneo más fácil y económico.

Dado que Anthropic utilizó los libros escaneados únicamente de forma interna y luego se deshizo de las copias, el juez consideró que este proceso era similar a la "conservación de espacio", lo que significaba que era "transformador" y, por lo tanto, legalmente aceptable.

Una práctica perezosa e hipócrita

Por supuesto, se trata de una laguna jurídica dudosa y una hipocresía flagrante. Cuando Anthropic comenzó su andadura, la empresa siguió una vía más escrupulosa, descargando millones de libros pirateados para alimentar su IA. Meta también lo hizo con millones de libros pirateados y actualmente está siendo demandada por un grupo de autores por ello.

También es un método que raya en la pereza y la negligencia. Como señala el periódico, muchos archiveros han ideado diferentes métodos para escanear libros en grandes cantidades sin necesidad de destruir o alterar las copias originales. Este es el caso, por ejemplo, de Internet Archive y del propio proyecto Google Libros (que, no hace mucho, fue objeto de su propia batalla importante por los derechos de autor).

Pero todo esto, para ahorrar unos pocos dólares, y para obtener esos datos de entrenamiento tan valiosos. De hecho, a la industria de la IA se le están agotando las fuentes de alta calidad para alimentar sus modelos; entre otras cosas, porque ha pasado todo este tiempo destruyendo las fuentes de las que depende de forma miope. Por lo tanto, dañar a algunos autores y enviar algunos libros a la trituradora es, para las grandes empresas tecnológicas, un precio insignificante.

Fuente: Ars Technica