Wenn KI-Konzerne Archivmaterial aus Nachrichten nutzen, verstoßen sie womöglich massiv gegen Urheberrecht – zumal OpenAI und Perplexity bereits verklagt werden.
Rund 245 Medienorganisationen in neun Ländern versuchen derzeit, die Crawler des Internet Archive zu blockieren. Dabei handelt es sich um automatische Software-Roboter, die Inhalte von Webseiten erfassen, anzeigen und im öffentlichen Angebot des Internet Archive, der Wayback Machine, speichern.
Das Archiv umfasst inzwischen über eine Billion gespeicherter Webseiten, einige reichen bis ins Jahr 1996 zurück. Damit zählt es zu den größten frei zugänglichen Informationssammlungen der Welt. Darin finden sich auch ältere Artikel großer Medien wie CNN, The New York Times, The Guardian oder USA Today.
Forschende, Historikerinnen und Historiker oder Juristinnen und Juristen nutzen diese gespeicherten Seiten für ganz unterschiedliche Zwecke. Sie dienen etwa als Primärquellen oder um spätere Änderungen nach einer Veröffentlichung nachzuweisen.
Mehrere Medien drängen nun darauf, die Crawler zu sperren. KI-Unternehmen nutzen die Bestände des Archivs zum Training großer Sprachmodelle, zahlen aber keine angemessene Vergütung und holen keine Erlaubnis ein.
Mehr als 20 große Medienmarken sperren laut einer Analyse des KI-Erkennungsdienstes Originality AI bereits ia_archiverbot, den wichtigsten Webcrawler des Internet Archive für die Wayback Machine.
Mindestens einen der vier Crawler des Archivs blockieren jedoch 241 Nachrichtenportale weltweit. Ein großer Teil dieser gesperrten Seiten gehört zur USA-Today-Gruppe, dem größten Zeitungsverlag der USA. Damit verschwinden Hunderte Lokalmedien faktisch aus dem historischen Gedächtnis.
Risiken: Archivierte Inhalte trainieren KI
Archivierte Nachrichten liefern große Mengen hochwertiger Texte und Bilder, mit denen Unternehmen große KI-Modelle näher an menschliche Schreibweisen herantrainieren. Der Zugang erfolgt über URLs und Programmierschnittstellen (APIs), über die verschiedene Programme Daten anfordern und austauschen.
Das macht es KI-Firmen noch leichter, auf archivierte Daten zuzugreifen und ihre Modelle zu trainieren.
Hinzu kommt: Die Inhalte im Internet Archive sind bereits strukturiert, Quellen sind zugeordnet, Zeitangaben vermerkt.
Ein großer Teil der Daten des Internet Archive taucht bereits in wichtigen Trainingsdatensätzen für KI auf. Für Medienhäuser ist das ein massives Problem. Mehrere klagen bereits gegen Unternehmen wie Perplexity und OpenAI wegen möglicher Urheberrechtsverletzungen.
„Das Problem ist, dass Inhalte der Times im Internet Archive von KI-Firmen genutzt werden, die damit gegen das Urheberrecht verstoßen und uns direkt Konkurrenz machen“, sagte Graham James, Sprecher der New York Times, dem Portal The Next Web.
„Die Times investiert enorme Ressourcen in die Produktion von Originalberichterstattung, und diese Arbeit sollte nicht ohne unsere Zustimmung genutzt werden.“
Andere Medien wie The Guardian wählen einen vorsichtigeren Weg und beschränken den Zugriff des Archivs, statt ihn vollständig zu blockieren.
Internet Archive sieht sich als „Kollateralschaden“
Mark Graham, Leiter der Wayback Machine, betont, das Archiv sei lediglich „Kollateralschaden“. Verantwortlich seien die KI-Unternehmen, die über die Schnittstellen des Archivs auf ältere Inhalte zugreifen.
Das Archiv versucht dennoch gegenzusteuern. Es blockiert etwa Massendownloads bestimmter Seiten und begrenzt in einigen Fällen das automatische Auslesen.
Graham verweist darauf, dass das Archiv ein wichtiges Instrument zur Sicherung von Online-Inhalten ist. Ohne eine Archivkopie lassen sich Artikel nachträglich verändern – ohne Nachweis und ohne Kontrolle. Zitate können verschwinden oder angepasst werden, Fehler stillschweigend korrigiert, Behauptungen und offizielle Stellungnahmen umgeschrieben.
Heute hält die Wayback Machine solche Änderungen fest.
Deshalb suchen einige Medienhäuser inzwischen das Gespräch mit dem Internet Archive. Ziel sind Kompromisse, die den Zugriff begrenzen, aber keinen vollständigen Ausschluss bedeuten.
Auch die gemeinnützige Digitalrechtsorganisation Fight for the Future hat eine Petition gestartet, die bereits von hundert aktiven Journalistinnen und Journalisten unterschrieben wurde. Sie protestieren gegen die Sperren – in einer Zeit, in der öffentliche Dokumente und Geschichtsbilder immer stärker umkämpft sind.