Durchblick #23: Der Preis des Fortschritts – Zwischen Datenhunger und Urheberrechten
Updates für Bildung in einer exponentiellen Welt
Liebe Leser und Leserinnen,
willkommen zum neuen “Durchblick”. Wir sind zurück aus unserer Osterpause und stürzen uns gleich in ein kontrovers diskutiertes Thema: Welche Daten wurden eigentlich zum Trainieren der aktuellen KI-Modelle genutzt und wer wurde um Erlaubnis gefragt? Beginnen die großen Social-Media-Portale nun mit dem Verkauf der über Jahre gesammelten Daten? Und welche Rechte habe ich, wenn ich Teile dieser Daten generiert habe?
Lassen Sie sich inspirieren, heute vom Schwerpunkt “Datenhunger und Urheberrecht” Haben Sie noch Fragen oder Ideen? Nehmen Sie gerne Kontakt mit uns auf.
Big Tech schert sich nicht um Urheberrechte, solange die Daten fließen // the-decoder.de, Deutsch
Ein Bericht der New York Times enthüllt, dass große Tech-Unternehmen wie OpenAI, Google und Meta beim Sammeln von Daten für das Training ihrer KI-Modelle teilweise Urheberrechte und eigene Richtlinien missachten. OpenAI und Google nutzten unter anderem Transkripte von YouTube-Videos, obwohl dies rechtlich fragwürdig ist. Meta diskutierte intern über Möglichkeiten, trotz Urheberrechtsbeschränkungen an zusätzliche Daten zu gelangen. Die Unternehmen argumentieren, dass aktuelle KI-Modelle ohne Training auf urheberrechtlich geschützten Daten nicht möglich seien und berufen sich auf "Fair Use". Erst jetzt, wo kritische Fragen aufkommen, bemühen sich die KI-Konzerne um Lizenzierung von Trainingsdaten und experimentieren mit synthetischen Daten, die jedoch Risiken bergen.
In ihrem Wettlauf um die Vorherrschaft im KI-Markt scheinen die Marktführer bereit zu sein, rechtliche Grauzonen auszunutzen und moralische Bedenken beiseitezuschieben. Es werden lieber Strafen in Kauf genommen, als um Erlaubnis zu fragen.
Die Frage nach dem Schutz geistigen Eigentums und persönlicher Daten ist in diesem Kontext relevant wie nie. Wir müssen davon ausgehen, dass alles, was wir online speichern oder von uns geben, potenzielles Trainingsmaterial für künstliche Intelligenzen ist.
Zum einen bedeutet dies, dass ein Verständnis dafür zukünftig zur Digitalkompetenz gehören muss. Denn nur der beständige öffentliche Druck wird die Großkonzerne dazu zwingen, sich an bestehendes Recht zu halten.
Zum anderen wird immer klarer, dass die kommenden Super-KIs unser aller Kreation sein werden. Ein Abbild der Gesellschaft, gefüttert mit dem Online-Verhalten jedes Einzelnen. Sollte dies ein Grund zur Sorge sein? Gehört Internet-Hygiene und -Etikette zukünftig auf den Lehrplan?
KI gehen bald die Trainingsdaten aus – so soll das Problem gelöst werden // t3n.de, Deutsch
Das Wall Street Journal berichtet, dass KI-Unternehmen in naher Zukunft mit einem Mangel an frei zugänglichen Trainingsdaten aus dem Internet konfrontiert sein werden. Als Alternativen werden die Nutzung von YouTube-Transkriptionen (z.B. durch OpenAI für GPT-5) und synthetische, von KI erstellte Daten in Betracht gezogen. Letztere bergen jedoch das Risiko einer Echo-Kammer mit potenziell schlechterem Output, weshalb Qualitätssicherungsmaßnahmen erforderlich sind. Einige Forscher sehen den begrenzten Datenzugang auch als Chance für KI, sich weiterzuentwickeln und Dinge auf natürlichere Weise zu erlernen, ohne auf bestehende Datensätze angewiesen zu sein.
Die Tatsache, dass trotz der rücksichtslosen Nutzung aller verfügbaren Online-Daten bereits jetzt die Trainingsdaten für noch kompetentere KI-Modelle ausgehen, macht deutlich, mit welchen gigantischen Datenmengen diese Systeme gefüttert werden müssen.
Wenn wir zukünftig mehr und mehr Aufgaben an zunehmend autonomer werdende KIs auslagern, wird es auch immer wichtiger werden, transparent zu machen, mit welcher Art von Daten trainiert wurde. Denn nicht nur Quantität, sondern auch Qualität bestimmt die Zuverlässigkeit des Modells.
Neue Deals: Big AI Tech zahlt Millionen für Trainingsdaten // heise.de, Deutsch
Reuters berichtet, dass große KI-Anbieter wie Meta, Google, Microsoft, Amazon und OpenAI Millionen für geeignete Trainingsdaten zahlen, da die Nutzung frei verfügbarer Inhalte aus dem Internet rechtlich fragwürdig ist und die Qualität der Daten stimmen muss. Laut Daniela Braga, CEO von Defined.ai, liegen die Preise für Bilder bei ein bis zwei US-Dollar, für Kurzvideos bei zwei bis vier US-Dollar und für lange Videos bei 100 bis 300 US-Dollar. Texte kosten 0,001 US-Dollar und Nacktaufnahmen fünf bis sieben US-Dollar. Photobucket, Shutterstock und Freepik bestätigen Deals und Gespräche mit KI-Unternehmen über die Lizenzierung ihrer umfangreichen Bild- und Videodatenbanken.
Um den Datenhunger Ihrer neuen KI-Modelle zu stillen, sind die großen Anbieter nun auch bereit, für den Zugriff auf Datenbanken zu zahlen. Der Handel mit digitalen Medien löst gerade einen neuen Goldrausch aus und beschert vielen Online-Portalen unerwartete neue Geschäftsmodelle.
Doch was bekommen die Nutzer, von denen die Bilder, Videos und Texte ursprünglich stammen? Während Unternehmen wie Defined.ai betonen, auf "ethische Quellen" zu setzen und Urheber an den Einnahmen zu beteiligen, ist bei anderen Anbietern wie Photobucket unklar, ob und wie die ursprünglichen Ersteller der Inhalte an den Deals partizipieren. Auch hier wird nur Aufklärung und öffentlicher Druck helfen, um am Ende wirklich faire Vereinbarungen zu erreichen und Urheberrechte zu berücksichtigen.
Vielleicht können wir bald unsere Urlaubsfoto-Bibliothek an Apple und Google verkaufen? Sollte das bei Ihnen Unbehagen auslösen, dann reden Sie vielleicht jetzt schon einmal mit Ihren Kindern darüber.
Digitalminister: "Digitalisierung hat auch was Altruistisches" // heise.de, Deutsch
In einem Interview mit der Süddeutschen Zeitung betont Digitalminister Volker Wissing (FDP), dass Deutschland bei Digitalisierung und KI mithalten kann. Er verweist auf die hohe Zahl an KI-Patentanmeldungen, über 500 KI-Start-ups und eine moderne Infrastruktur. Wissing äußert sich auch zur Notwendigkeit, Daten zu generieren und zu verknüpfen, um der Gesellschaft mehr Wissen zu verschaffen. Er sieht die Digitalisierung und das Sammeln und Teilen von Daten als altruistisch an, da dies auch Leben retten könne. Zur Digitalstrategie der Bundesregierung erklärt er, dass die Zuständigkeiten geklärt werden müssten und die Digitalisierung nicht in einem Ministerium gebündelt werden könne. Wissing ist sich der Ambivalenz der Datensammlung bewusst und warnt vor dem Zugriff mancher Regierungen auf Daten privater Unternehmen.
Das Interview zeigt sehr schön, wie zweischneidig der Einsatz von KI sein kann. Zum einen wird der effiziente und nutzbringende Einsatz von KI in der Gesellschaft es erfordern, dass wir so viele Daten wie möglich sammeln und teilen. Zum anderen müssen wir darauf achten, dabei nicht die Privatsphäre und die Persönlichkeitsrechte des Einzelnen aus den Augen zu verlieren. Dafür braucht es klare rechtliche Rahmenbedingungen, wie sie etwa der EU AI Act schaffen soll, aber auch eine breite gesellschaftliche Debatte über den Umgang mit Daten.
Eine Gratwanderung, die vor allem demokratische Systeme vor große Herausforderungen stellen wird.
ChatGPT: So behältst du die Kontrolle über deine Daten // t3n.de, Deutsch
ChatGPT-Nutzer:innen haben die Möglichkeit, selbst zu bestimmen, ob ihre Daten zum Training der KI verwendet und ihre Chatverläufe gespeichert werden. Um zu verhindern, dass die eigenen Daten für das Training verwendet werden, können Nutzer:innen in den Datenkontrollen von ChatGPT den Punkt "Chatverlauf und Training" deaktivieren. OpenAI speichert die Chats dann noch 30 Tage lang zur Überwachung auf Missbrauch, bevor sie dauerhaft gelöscht werden. Alternativ kann über das Datenschutzportal von OpenAI die Option "Nicht mit meinen Inhalten trainieren" aktiviert werden, wodurch der Chatverlauf erhalten bleibt, aber das Modelltraining deaktiviert wird.
Es wird in Zukunft zunehmend wichtiger werden, sich detaillierter mit den persönlichen Einstellungen der diversen KI-Tools auseinanderzusetzen, wenn man nicht bereit ist, persönliche Daten zu teilen. Denn die Privatsphäre-Einstellungen sind oft zum Vorteil des Anbieters eingestellt und müssen aktiv geändert werden. Auch das gehört zur Medienkompetenz, die von einem modernen Bildungssystem vermittelt werden muss.