Durchblick #37: Das neue Internet zwischen Goldrausch und Geldmangel
Updates für Bildung in einer exponentiellen Welt
Liebe Leser und Leserinnen,
willkommen zum neuen “Durchblick”. Das Internet hat sich in den vergangenen zwanzig Jahren zu einer unschätzbaren Wissensquelle für uns alle entwickelt und ist aus dem Alltag nicht mehr wegzudenken. Doch die dort etablierten Geschäftsmodelle werden gerade vom Siegeszug der künstlichen Intelligenz gründlich auf den Kopf gestellt. Droht uns der Zugriff auf Wissen abhandenzukommen?
Lassen Sie sich inspirieren, heute vom Schwerpunkt “Datenschätze und Datengräber”. Haben Sie noch Fragen oder Ideen? Nehmen Sie gerne Kontakt mit uns auf.
Japanische Medien warnen: KI-Suchmaschinen "schmarotzen" an Nachrichteninhalten // the-decoder.de
Japanische Zeitungsverleger warnen vor den Auswirkungen von KI-basierten Suchmaschinen auf Nachrichteninhalte. Sie sehen darin eine Ausnutzung ihrer Inhalte und fordern Gesetze zum Schutz des Urheberrechts. Als Beispiel wird eine mögliche Urheberrechtsverletzung durch Google genannt, bei der generierte Texte auf Berichten von Fernsehsendern und Zeitungen zu basieren scheinen. Die Verlage befürchten, dass die Produktion von Inhalten zum Erliegen kommen und die Verbreitung von Falschinformationen zunehmen könnte, was der Demokratie und Kultur des Landes schaden würde. Auch in den USA und Europa gibt es ähnliche Kritik an KI-Suchmaschinen, die Inhalte verwenden, ohne signifikanten Traffic zu generieren und damit Geschäftsmodelle von Webseitenbetreibern zerstören können.
Ein Großteil der frei zugänglichen Inhalte des Internets basiert immer noch auf Traffic und Werbeeinnahmen. Ein System, das sich über die letzten zwanzig Jahre etabliert und bewährt hat. Doch dieses System wird durch die aufkommenden KI-Suchmaschinen in seinen Grundfesten erschüttert. Denn wer bereits direkt brauchbare Zusammenfassungen präsentiert bekommt, muss kaum noch dem Link auf die zugrundeliegende Webseite folgen.
Das Paradoxe daran: Ohne die zugrunde liegende Webseite kann die KI weder trainiert werden noch sinnvolle Zusammenfassungen präsentieren. Es wird zügig ein neues Geschäftsmodell gefunden werden müssen, bei dem sowohl die KI-Anbieter als auch die Webseitenbetreiber Geld verdienen. Ein Spannungsfeld, das in den folgenden Artikeln beleuchtet wird.
Reddit sperrt Suchmaschinen und KI-Bots aus – wenn diese nicht bezahlen // heise.de
Reddit hat begonnen, verschiedene Suchmaschinen und deren Webcrawler auszusperren, sollten sich diese nicht auf eine Lizenzvereinbarung mit der Online-Plattform einigen. Nur Google ist ausgenommen, vermutlich aufgrund eines KI-Lizenzdeals mit Reddit im Wert von 60 Millionen Dollar. Reddit hatte bereits im Herbst 2023 mit dem Ausschluss von Suchmaschinen gedroht, um von KI-Firmen Geld für das Training ihrer Modelle mit Reddit-Inhalten zu erhalten. Die Plattform verwendet die Datei robots.txt, um Webcrawler und KI-Datensammler daran zu hindern, Inhalte abzuscannen. Website-Betreiber sind unzufrieden damit, dass KI-Chatbots fremde Inhalte für eigene Zwecke nutzen und teilweise falsch darstellen. Allerdings ist die robots.txt-Datei keine unüberwindbare Mauer, wie das Beispiel der KI-Suchmaschine Perplexity zeigt.
Reddit ist eine der größten sozialen Plattformen im Netz. Ein Datenschatz an menschlichen Interaktionen, der für das Training von KI-Modellen ungeheuer interessant ist. Der Wert von Daten wird gerade gänzlich neu definiert und insbesondere für Unternehmen, die auf großen Datenbanken sitzen, eröffnen sich neue Geschäftsmodelle mit der Lizenzierung dieser Daten.
Und trotzdem stellt sich auch bei einer lizenzierten Nutzung durch KI-Anbieter die Frage nach dem Urheberrecht. Denn am Ende sind die Daten durch die Nutzer der Plattform entstanden. Diese Nutzer sind aber am Deal nicht beteiligt, was einige dazu bewogen hat, ihre Beiträge auf Reddit aus Protest zu löschen. Viele der gelöschten Beiträge wurden von den Moderatoren der Plattform mit Hinweis auf die Nutzungsbedingungen inzwischen wieder hergestellt, aber hier scheint das letzte Wort noch nicht gesprochen zu sein.
Dieses Beispiel zeigt deutlich, dass zur Medienkompetenz heutzutage auch gehört, sich über die potenzielle Nutzung der eigenen Online-Beiträge für das Training von KI-Modellen bewusst zu sein.
Das WWW macht dicht: KI-Unternehmen droht Datenwinter // the-decoder.de
Eine Studie der Data Provenance Initiative zeigt, dass KI-Modelle zunehmend von ihren Trainingsdaten im Web abgeschnitten werden. Innerhalb eines Jahres stieg der Anteil der für KI-Crawler gesperrten Token in beliebten Trainingsdatensätzen von etwa 1 Prozent auf 5 bis 7 Prozent. Bei den wichtigsten Datenquellen war der Anstieg noch deutlicher und erreichte 20 bis 33 Prozent. Besonders häufig wird OpenAI ausgesperrt, gefolgt von Anthropic und Google. Die Beschränkungen gehen vorwiegend von Nachrichtenwebsites, Foren und Social-Media-Plattformen aus. Dies könnte das Training leistungsfähiger und zuverlässiger KI-Systeme erschweren oder verteuern. Anbieter hochwertiger Inhalte könnten neue Einnahmequellen erschließen, wie etwa Verlage durch millionenschwere Verträge mit OpenAI.
Nicht nur Reddit will sich seine Daten vergolden lassen. Mehr und mehr Webseitenbetreiber werden sich der möglichen Implikationen, die das Training der KI-Modelle auf ihr Geschäft haben könnte, bewusst und beginnen zu reagieren. Einerseits ist es verständlich, dass Inhaltsanbieter ihre Rechte schützen und für die Nutzung ihrer Daten durch KI-Systeme entschädigt werden wollen. Andererseits könnte eine zu starke Einschränkung des Datenzugangs die Entwicklung leistungsfähiger und zuverlässiger KI-Systeme behindern, die auch für die Bildung der Zukunft von großer Bedeutung sein könnten.
Es gilt, einen Ausgleich zwischen den Interessen der Inhalteanbieter und der KI-Entwickler zu finden. Bildungseinrichtungen und Lernende müssen sich bewusst sein, dass die Qualität und Vielfalt der Daten, mit denen KI-Systeme trainiert werden, einen erheblichen Einfluss auf deren Leistungsfähigkeit und Zuverlässigkeit haben. Eine einseitige oder veraltete Datenbasis könnte zu verzerrten oder unvollständigen Ergebnissen führen.
Die aktuellen Maßnahmen vieler Inhalteanbieter basieren auch auf der Annahme, dass die großen KI-Betreiber gigantische Gewinne einfahren und ihnen “ein Stück vom Kuchen” abgeben sollten. Doch entspricht diese Annahme der Realität?
OpenAI droht Minus in Höhe von 5 Milliarden US-Dollar // heise.de
OpenAI droht ein Verlust von bis zu fünf Milliarden US-Dollar in diesem Jahr. Das Unternehmen soll etwa sieben Milliarden US-Dollar für die Entwicklung neuer KI-Modelle und 1,5 Milliarden US-Dollar für Mitarbeiter ausgeben, während die Einnahmen nur bei 3,5 bis 4,5 Milliarden US-Dollar liegen. Neben der Entwicklung neuer Modelle verschlingt auch der Betrieb aktueller Dienste wie ChatGPT viel Geld. OpenAI-CEO Sam Altman sucht bereits Investoren, um die Chipproduktion zu steigern und führt Gespräche mit einem Fusionskraftwerk-Startup. Die Geschäftsmodelle rund um KI sind schwierig und basieren bisher hauptsächlich auf Investoren. Um profitabel zu werden, müssen die Betriebskosten gesenkt und möglicherweise die Preise für Endanwender erhöht werden.
Es mag viele Leser überraschen, dass bei allem Hype mit KI anscheinend noch kein Geld verdient werden kann. Der Kuchen, über den bereits jetzt gestritten wird, ist also noch gar nicht gebacken. Es bleibt zu hoffen, dass zügig wirtschaftlich tragfähige Geschäftsmodelle gefunden werden, die es erlauben, die Potenziale von künstlicher Intelligenz in der gesamten gesellschaftlichen Breite zu realisieren.
Eine Erhöhung der Kosten für den Endanwender würden wir für eine Katastrophe halten, da der allgemeine Zugriff auf KI aus unserer Sicht essenziell ist für eine zukünftige Bildungsgerechtigkeit und Chancengleichheit.
Doch es gibt auch Ansätze, die Kosten für Training und Betrieb der KI-Modelle zu reduzieren, wie der folgende Artikel zeigt.
Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen // the-decoder.de
Andrej Karpathy, ehemaliger KI-Forscher bei OpenAI und Tesla, geht davon aus, dass der Wettbewerb um immer größere KI-Sprachmodelle in Zukunft in die entgegengesetzte Richtung gehen wird: Künftige Modelle werden seiner Meinung nach kleiner, dafür aber smarter. Die stärksten Modelle sind heute so groß, weil das Training noch sehr aufwendig ist und die Modelle das gesamte Internet auswendig lernen müssen. Verbesserungen seien schwierig, weil das Denken in den Trainingsdaten mit Wissen "verwoben" sei. Karpathy prognostiziert eine kontinuierliche Verbesserung, bei der ein Modell hilft, die Trainingsdaten für das nächste zu generieren, bis man den "perfekten Trainingssatz" habe. Auch OpenAI-Chef Sam Altman und andere Forscher teilen die Ansicht, dass die Datenqualität der entscheidende Erfolgsfaktor für das weitere KI-Training sei. Dennoch wird Skalierung weiterhin eine Rolle spielen, und das nächste große KI-Modell von OpenAI dürfte einen Fingerzeig geben, wohin die Reise geht.
Wir sind überzeugt davon, dass die zukünftige Entwicklung hin zu kleineren, spezialisierteren und günstiger zu betreibenden Modellen gehen wird. Ähnlich wie bei einem menschlichen Experten werden diese Modelle jeweils ein bestimmtes Domänenwissen haben, das auf dem Training mit wenigen, hochwertigen Daten beruht. Das viel kritisierte “Halluzinieren”, wenn die KI sich mangels verfügbarer Daten einfach etwas ausdenkt, wird damit deutlich reduziert und die Qualität der Antworten verbessert.
Wir werden also vermutlich in Zukunft auf unterschiedliche KIs mit unterschiedlichen Preismodellen zugreifen, die untereinander interagieren. Bleibt zu hoffen, dass die zugrundeliegenden Geschäftsmodelle auch weiterhin einen kostenlosen Zugriff auf wichtige KI-Dienste ermöglichen.