تسجيل الدخول
برنامج ذكاء اصطناعي من غوغل يكشف السرطان       تقنية الليزر تثبت أن الديناصورات كانت تطير       يوتيوب تي في.. خدمة جديدة للبث التلفزيوني المباشر       الخارجية الأمريكية تنشر ثم تحذف تهنئة بفوز مخرج إيراني بالأوسكار       الصين تدرس تقديم حوافز مالية عن إنجاب الطفل الثاني       حفل الأوسكار يجذب أقل نسبة مشاهدة أمريكية منذ 2008       تعطل في خدمة أمازون للحوسبة السحابية يؤثر على خدمات الإنترنت       حاكم دبي يقدم وظيفة شاغرة براتب مليون درهم       ترامب يتعهد أمام الكونغرس بالعمل مع الحلفاء للقضاء على داعش       بعد 17 عاما نوكيا تعيد إطلاق هاتفها 3310       لافروف: الوضع الإنساني بالموصل أسوأ مما كان بحلب       فيتو لروسيا والصين يوقف قرارا لفرض عقوبات على الحكومة السورية       بيل غيتس يحذر العالم ويدعوه للاستعداد بوجه الإرهاب البيولوجي       ابنا رئيس أمريكا يزوران دبي لافتتاح ملعب ترامب للغولف       رونالدو وأنجلينا جولي ونانسي عجرم في فيلم يروي قصة عائلة سورية نازحة      



Millionen Bücher verbrannt, um KI zu trainieren: Die verborgenen Kosten der digitalen Revolution



Ars Technica 

 Ein aktueller Bericht enthüllt die, gelinde gesagt, radikalen Methoden, die das Unternehmen Anthropic angewendet hat, um die notwendigen Daten für das Training seines KI-Modells Claude zu sammeln. Weit davon entfernt, sich nur Millionen urheberrechtlich geschützter Werke zunutze zu machen, soll das Unternehmen deren physische Zerstörung vorgenommen haben.

In einem Schritt, der die verborgenen Kosten der KI-Revolution aufzeigt und in drastischer Weise an die Zerstörung von Kunst erinnert, hat Anthropic, unterstützt von Google, nicht nur Millionen urheberrechtlich geschützter Bücher verwendet – eine Praxis, die an sich schon ethische und rechtliche Probleme aufwirft. Das Unternehmen ging weiter: Seiten wurden aus ihren Einbänden gerissen, gescannt, um sie in digitale Dateien umzuwandeln, und dann wurden Millionen der Originalseiten dieser Texte einfach entsorgt. Zu sagen, die KI habe diese Bücher „verschlungen“, ist daher nicht nur eine rhetorische Figur, sondern eine wörtliche Beschreibung dessen, was geschehen ist.

Diese Praxis wurde in einem am Montag ergangenen Urteil in einem Urheberrechtsfall aufgedeckt, das einen bedeutenden Sieg für Anthropic und, allgemeiner, für eine datenhungrige Technologiebranche darstellte. Der vorsitzende Richter, US-Bezirksrichter William Alsup, befand, dass Anthropic seine großen Sprachmodelle auf legal erworbenen Büchern trainieren durfte, auch ohne die ausdrückliche Genehmigung der Autoren einzuholen.

Diese Entscheidung ist teilweise auf die von Anthropic verwendete Methode zum Scannen der zerstörten Bücher zurückzuführen. Obwohl das Unternehmen nicht das erste ist, das diese Methode anwendet, so Ars Technica, ist das Ausmaß der Operation in diesem Fall bemerkenswert.

Die „First-Sale-Doktrin“ missbraucht

Im Wesentlichen profitiert diese Methode von einem Rechtskonzept, das als „First-Sale-Doktrin“ (first-sale doctrine) bekannt ist. Dieses Prinzip erlaubt es dem Käufer, mit seinen Erwerbungen zu tun, was er will, ohne das Eingreifen des Urheberrechtsinhabers. Es ist das, was die Existenz des Gebrauchtbuchmarktes ermöglicht; andernfalls könnte beispielsweise ein Verleger einen Anteil am Gewinn verlangen oder den Weiterverkauf seiner Bücher verbieten.

Doch KI-Unternehmen haben dieses Prinzip in böser Absicht genutzt. Laut Gerichtsunterlagen stellte Anthropic im Februar 2024 Tom Turvey, den ehemaligen Leiter der Partnerschaften des Google-Buchscan-Projekts, ein, mit dem Auftrag, „alle Bücher der Welt“ zu erwerben, ohne „rechtliche/praktische/geschäftliche Schwierigkeiten“ zu bekommen, wie Dario Amodei, CEO von Anthropic, in den Akten beschrieb.

Turvey fand dann eine Umgehungslösung: Durch den Kauf physischer Bücher wäre Anthropic durch die First-Sale-Doktrin geschützt und müsste keine Lizenzen mehr einholen. Das Entfernen der Seiten ermöglichte zudem ein einfacheres und kostengünstigeres Scannen.

Da Anthropic die gescannten Bücher nur intern verwendete und die Kopien anschließend entsorgte, befand der Richter, dass dieser Prozess der „Raumkonservierung“ ähnelte, was bedeutete, dass er „transformativ“ und somit rechtlich akzeptabel war.

Eine faule und heuchlerische Praxis

Natürlich handelt es sich hierbei um eine fragwürdige Umgehung und eine eklatante Heuchelei. Als Anthropic seine Arbeit aufnahm, verfolgte das Unternehmen einen gewissenhafteren Ansatz und lud Millionen von piratisierten Büchern herunter, um seine KI zu füttern. Meta tat dies ebenfalls mit Millionen von piratisierten Büchern und wird derzeit von einer Gruppe von Autoren deswegen verklagt.

Es ist auch eine Methode, die von Faulheit und Nachlässigkeit zeugt. Wie die Zeitung hervorhebt, haben viele Archivare verschiedene Methoden entwickelt, um Bücher in großen Mengen zu scannen, ohne die Originalexemplare zerstören oder verändern zu müssen. Dies ist beispielsweise bei Internet Archive und Googles eigenem Buchprojekt der Fall (das vor nicht allzu langer Zeit selbst Gegenstand eines großen Urheberrechtsstreits war).

Aber all dies dient dazu, ein paar Dollar zu sparen – und diese äußerst wertvollen Trainingsdaten zu erhalten. Tatsächlich gehen der KI-Industrie allmählich die hochwertigen Quellen aus, um ihre Modelle zu füttern. Nicht zuletzt, weil sie all die Zeit damit verbracht hat, die Quellen, von denen sie sich kurzsichtig abhängig gemacht hat, zu zerstören. Daher ist es für große Technologieunternehmen ein geringer Preis, einige Autoren zu schädigen und einige Bücher in den Reißwolf zu schicken.

Quelle: Ars Technica

Date: 2025-06-30 Comments: 0 Visitors :0
0      0
التعليقات

إستطلاع

مواقع التواصل الاجتماعي مواقع تجسس تبيع بيانات المستخدمين
 نعم
69%
 لا
20%
 لا أعرف
12%
      المزيد
خدمات