Bericht: NVIDIAs KI-Tools nutzen viele gecrappte Internetvideos

Geleakte Dokumente, die von 404 Media erhalten wurden, enthüllen, dass NVIDIA angeblich Videos im Internet wie Filmmaterial und Spielclips für seine KI-Produkte abkratzt. Dadurch sind Kunden, die diese Produkte und Tools nutzen, versehentlichen Urheberrechtsverletzungen ausgesetzt.

Wie andere KI-Toolhersteller benötigt Nvidia Trainingsdaten für seine Text-, Video- und Audio-Generatoren, um zu "lernen", wie man Assets erstellt. Datenkratzen bezieht sich im Allgemeinen auf die Praxis, bestehende Videos, Texte und Audios in Trainingsmodellen zu verwenden, ohne die Erlaubnis der Urheber einzuholen.

Die Technik bedeutet, dass YouTube und Netflix (und die Unternehmen mit Inhalten auf diesen Plattformen) urheberrechtlich geschütztes Material ohne Zustimmung verwendet wird.

Regulierungsbehörden in den USA und der EU prüfen noch, ob Datenscraping-Praktiken gegen das Urheberrecht verstoßen. Der Bericht von 404 Media zeigt deutlich, wie lax Technologieunternehmen mit dem Urheberrecht umgehen, wenn es um generative KI geht, und wie andere Branchen wie Unterhaltung und Spiele von diesen Entscheidungen betroffen sein können.

Mitarbeiter des Unternehmens äußerten Bedenken über dieses Verhalten in von dem Medium überprüften Nachrichten. Trotz dieser Bedenken sagte NVIDIA gegenüber 404 Media, dass seine Kratzrichtlinien "vollständig im Einklang mit Buchstaben und Geist des Urheberrechts stehen. [...] Fair Use schützt die Fähigkeit, ein Werk für einen transformatorischen Zweck zu verwenden, wie zum Beispiel das Modelltraining".

Spielentwickler und ihre Muttergesellschaften sind Urheberrechtsinhaber, und YouTube ist eine wichtige Plattform für die Branche. Wenn ihre Arbeit ohne Mitbestimmung genommen wird, entsteht ein massiver Vertrauensbruch mit einem Unternehmen, das oft Spiele großer Studios verwendet, um seine Dienstleistungen und Produkte zu verkaufen.

Nvidia KI-Ingenieure wollten Gameplay-Videos nutzen, um ihre Trainingsdaten zu verbessern

Ein Mitarbeiter, der mit dem Medium sprach, behauptet, dass ihm und anderen gesagt wurde, vollständige Videos zu erfassen, die der Technologiekonzern zur Schulung seines KI-Modells nutzen könnte, und dass insbesondere Spielclips von Ingenieuren hoch geschätzt wurden. Die Erlangung dieser Clips für Datensätze erforderte die Zusammenarbeit mit NVIDIAs GeForceNow-Cloud-Service.

In einem Slack-Gespräch bemerkte der leitende Forschungsanalyst Jim Fan die Streaming-Fähigkeiten des Dienstes zum Aufnehmen und Speichern von Videos. Alle diese "hochwertigen Gameplay-Videos", sagte er, seien "sehr nützliche" Daten, aus denen geschöpft werden könne.

"Wir werden eng mit [GeForceNow] und zugehörigen Entwicklungsteams zusammenarbeiten, um die Erfassung von Live-Spieldaten einzurichten, den Prozess zu optimieren und sie für das Training zu verarbeiten", erklärte er.

Dennoch wurde Mitarbeitern, die Bedenken äußerten, angeblich auch von Projektmanagern gesagt, dass das Abkratzen eine "exekutive Entscheidung" sei, über die man sich keine Gedanken machen müsse. Das "offene rechtliche Problem" (wie die Verletzung der Nutzungsbedingungen von YouTube) würde anscheinend in der Zukunft gelöst werden.

In 404s Geschichte zeigen Zitate aus internen Dokumenten und Slack-Kanälen von mehreren KI-Forschern NVIDIAs aktive Bemühungen, um schlechte Presse zu vermeiden. Der Forschungsvizepräsident Ming-Yu Liu betonte, dass es keine "negative Stimmung" geben könne, wenn das Unternehmen keine Forschungsergebnisse über seine Download-Daten veröffentlichte.

"Was wir hier tun, wird zu keinen Veröffentlichungen führen", schrieb Liu. Er und andere Mitarbeiter konstruierten auch ihre eigenen YouTube-Datenscrapers sowie ein API-Konto, um bei dem Prozess zu helfen.

Bis die Regulierungsbehörden festlegen, was im Bereich der generativen KI gegen das Urheberrecht verstößt und was nicht, werden NVIDIA und andere Unternehmen wahrscheinlich in einer rechtlichen Grauzone operieren. Wie der MIT-Absolvent Robert Mahari 404 mitteilte, sei es "technisch sehr schwierig", Datenscraping nachzuweisen.

"Die beste [Unternehmens-]Politik in Bezug auf Anreize ist es, den Menschen nicht zu sagen, worauf Sie trainiert haben", sagte er. "Solange Sie niemandem davon erzählen, wird es sehr schwer sein, es zu beweisen."

Den vollständigen und ausführlichen Bericht von 404 Media über das Datenscraping von NVIDIA können Sie hier lesen.