De belangrijkste bronnen op het internet hebben afgelopen jaar het gebruik van hun data voor het trainen van AI beperkt. Dat blijkt uit een studie van het Data Provenance Initiative.
Voor het trainen van AI-modellen zijn jarenlang grote hoeveelheden tekst, afbeeldingen en video’s van internet gebruikt. Nu drogen die gegevens op, schrijft de New York Times. De krant baseert zich op een onderzoek van het Data Provenance Initiative, een onderzoeksgroep die wordt geleid door het Massachusetts Institute of Technology (MIT).
Onderzoek
De onderzoekers keken naar 14.000 webdomeinen uit drie veelgebruikte AI-trainingsdatasets, en ontdekten een groeiend tekort aan data. Dit komt doordat uitgevers en online platforms stappen hebben ondernomen om te voorkomen dat hun gegevens worden verzameld, De onderzoekers schatten in dat in drie datasets – C4, RefinedWeb en Dolma genoemd – 5 procent van alle data, en 25 procent van de data uit bronnen van de hoogste kwaliteit, is beperkt.
Beperkingen
De beperkingen zijn ingesteld via het Robots Exclusion Protocol, een tientallen jaren oude methode voor website-eigenaren om te voorkomen dat geautomatiseerde bots hun pagina’s crawlen met behulp van een bestand met de naam robots.txt. Uit het onderzoek blijkt dat 45 procent van de gegevens in één set, C4, was beperkt door servicevoorwaarden van websites.
Gevolgen
“We zien een snelle afname van de toestemming om gegevens op internet te gebruiken. Dat heeft niet alleen gevolgen voor AI-bedrijven, maar ook voor onderzoekers, academici en niet-commerciële entiteiten”, zegt Shayne Longpre, hoofdauteur van het onderzoek. “Dit kan ervoor zorgen dat de ontwikkeling van de technologie steeds meer in handen komt te liggen van de grootste bedrijven die genoeg geld hebben”, schrijft Bright.nl.
Data voer voor AI
Data zijn het belangrijkste ingrediënt voor generatieve AI-systemen, die worden gevoed met tekst, afbeeldingen en video’s. Veel van die gegevens worden door onderzoekers van openbare websites gehaald en verzameld in grote datasets, die kunnen worden gedownload en vrijelijk kunnen worden gebruikt, of aangevuld met data uit andere bronnen. Door van die data te leren, kunnen generatieve AI-tools zoals ChatGPT van OpenAI, Gemini van Google en Claude van Anthropic afbeeldingen en video’s schrijven, coderen en genereren. Hoe meer gegevens van hoge kwaliteit in deze modellen worden ingevoerd, hoe beter de resultaten over het algemeen zijn.
Betaalmuren
Jarenlang konden AI-ontwikkelaars vrij eenvoudig gegevens verzamelen. Maar de generatieve AI-hausse heeft geleid tot spanningen met de eigenaren van die data. Veel eigenaren hebben twijfels over het gebruik ervan als AI-trainingsvoer, of willen er op zijn minst voor betaald worden. Naarmate het verzet groeide, hebben sommige uitgevers betaalmuren opgezet of hun servicevoorwaarden gewijzigd om het gebruik van hun gegevens voor AI-training te beperken. Anderen hebben de geautomatiseerde webcrawlers geblokkeerd, die worden gebruikt door bedrijven als OpenAI, Anthropic en Google. Sites als Reddit en StackOverflow zijn begonnen met het in rekening brengen van AI-bedrijven voor toegang tot gegevens.
Juridische stappen
Een paar uitgevers hebben juridische stappen ondernomen. The New York Times klaagde vorig jaar OpenAI en Microsoft aan wegens inbreuk op het auteursrecht. De krant beweerde dat de bedrijven nieuwsartikelen gebruikten om hun modellen zonder toestemming te trainen.
Deals met uitgevers
Bedrijven als OpenAI, Google en Meta zijn afgelopen jaren tot het uiterste gegaan om meer gegevens te verzamelen teneinde hun systemen te verbeteren. Onlangs sloten sommige AI-bedrijven deals met uitgevers, waaronder The Associated Press en News Corp, de eigenaar van The Wall Street Journal, waardoor ze voortdurend toegang hebben tot hun inhoud.
Bekijk wetenschappelijk artikel van Data Provenance Initiative
Bron: New York Times, 19 juli 2024
Data for A.I. Training Is Disappearing Fast, Study Shows – The New York Times (nytimes.com)