Millionen Bücher verbrannt, um KI zu trainieren: Die verborgenen Kosten der digitalen Revolution

Mauer > Künstliche Intelligenz

Ars Technica

Ein aktueller Bericht enthüllt die, gelinde gesagt, radikalen Methoden, die das Unternehmen Anthropic angewendet hat, um die notwendigen Daten für das Training seines KI-Modells Claude zu sammeln. Weit davon entfernt, sich nur Millionen urheberrechtlich geschützter Werke zunutze zu machen, soll das Unternehmen deren physische Zerstörung vorgenommen haben.

In einem Schritt, der die verborgenen Kosten der KI-Revolution aufzeigt und in drastischer Weise an die Zerstörung von Kunst erinnert, hat Anthropic, unterstützt von Google, nicht nur Millionen urheberrechtlich geschützter Bücher verwendet – eine Praxis, die an sich schon ethische und rechtliche Probleme aufwirft. Das Unternehmen ging weiter: Seiten wurden aus ihren Einbänden gerissen, gescannt, um sie in digitale Dateien umzuwandeln, und dann wurden Millionen der Originalseiten dieser Texte einfach entsorgt. Zu sagen, die KI habe diese Bücher „verschlungen“, ist daher nicht nur eine rhetorische Figur, sondern eine wörtliche Beschreibung dessen, was geschehen ist.

Diese Praxis wurde in einem am Montag ergangenen Urteil in einem Urheberrechtsfall aufgedeckt, das einen bedeutenden Sieg für Anthropic und, allgemeiner, für eine datenhungrige Technologiebranche darstellte. Der vorsitzende Richter, US-Bezirksrichter William Alsup, befand, dass Anthropic seine großen Sprachmodelle auf legal erworbenen Büchern trainieren durfte, auch ohne die ausdrückliche Genehmigung der Autoren einzuholen.

Diese Entscheidung ist teilweise auf die von Anthropic verwendete Methode zum Scannen der zerstörten Bücher zurückzuführen. Obwohl das Unternehmen nicht das erste ist, das diese Methode anwendet, so Ars Technica, ist das Ausmaß der Operation in diesem Fall bemerkenswert.

Die „First-Sale-Doktrin“ missbraucht

Im Wesentlichen profitiert diese Methode von einem Rechtskonzept, das als „First-Sale-Doktrin“ (first-sale doctrine) bekannt ist. Dieses Prinzip erlaubt es dem Käufer, mit seinen Erwerbungen zu tun, was er will, ohne das Eingreifen des Urheberrechtsinhabers. Es ist das, was die Existenz des Gebrauchtbuchmarktes ermöglicht; andernfalls könnte beispielsweise ein Verleger einen Anteil am Gewinn verlangen oder den Weiterverkauf seiner Bücher verbieten.

Doch KI-Unternehmen haben dieses Prinzip in böser Absicht genutzt. Laut Gerichtsunterlagen stellte Anthropic im Februar 2024 Tom Turvey, den ehemaligen Leiter der Partnerschaften des Google-Buchscan-Projekts, ein, mit dem Auftrag, „alle Bücher der Welt“ zu erwerben, ohne „rechtliche/praktische/geschäftliche Schwierigkeiten“ zu bekommen, wie Dario Amodei, CEO von Anthropic, in den Akten beschrieb.

Turvey fand dann eine Umgehungslösung: Durch den Kauf physischer Bücher wäre Anthropic durch die First-Sale-Doktrin geschützt und müsste keine Lizenzen mehr einholen. Das Entfernen der Seiten ermöglichte zudem ein einfacheres und kostengünstigeres Scannen.

Da Anthropic die gescannten Bücher nur intern verwendete und die Kopien anschließend entsorgte, befand der Richter, dass dieser Prozess der „Raumkonservierung“ ähnelte, was bedeutete, dass er „transformativ“ und somit rechtlich akzeptabel war.

Eine faule und heuchlerische Praxis

Natürlich handelt es sich hierbei um eine fragwürdige Umgehung und eine eklatante Heuchelei. Als Anthropic seine Arbeit aufnahm, verfolgte das Unternehmen einen gewissenhafteren Ansatz und lud Millionen von piratisierten Büchern herunter, um seine KI zu füttern. Meta tat dies ebenfalls mit Millionen von piratisierten Büchern und wird derzeit von einer Gruppe von Autoren deswegen verklagt.

Es ist auch eine Methode, die von Faulheit und Nachlässigkeit zeugt. Wie die Zeitung hervorhebt, haben viele Archivare verschiedene Methoden entwickelt, um Bücher in großen Mengen zu scannen, ohne die Originalexemplare zerstören oder verändern zu müssen. Dies ist beispielsweise bei Internet Archive und Googles eigenem Buchprojekt der Fall (das vor nicht allzu langer Zeit selbst Gegenstand eines großen Urheberrechtsstreits war).

Aber all dies dient dazu, ein paar Dollar zu sparen – und diese äußerst wertvollen Trainingsdaten zu erhalten. Tatsächlich gehen der KI-Industrie allmählich die hochwertigen Quellen aus, um ihre Modelle zu füttern. Nicht zuletzt, weil sie all die Zeit damit verbracht hat, die Quellen, von denen sie sich kurzsichtig abhängig gemacht hat, zu zerstören. Daher ist es für große Technologieunternehmen ein geringer Preis, einige Autoren zu schädigen und einige Bücher in den Reißwolf zu schicken.

Quelle: Ars Technica