OpenAI og Google brukte YouTube-transkripsjoner til AI-trening

Hovedpunkter:

  • OpenAI skal ha transkribert over én million timer med YouTube-videoer ved hjelp av sitt verktøy Whisper for å trene GPT-4.
  • Google, som eier YouTube, har også brukt transkripsjoner fra plattformen til å trene sine egne AI-modeller.
  • Bruken av YouTube-innhold til AI-trening reiser juridiske og etiske spørsmål om opphavsrett og plattformregler.
  • YouTubes administrerende direktør, Neal Mohan, uttalte at slik bruk ville være et klart brudd på plattformens vilkår.
  • For norske innholdsprodusenter understreker saken viktigheten av å være bevisst på hvordan deres innhold kan bli brukt av globale teknologiselskaper.

Teknologigigantene OpenAI og Google har angivelig benyttet transkripsjoner fra YouTube-videoer for å trene sine AI-modeller, noe som reiser spørsmål om opphavsrett og etikk.

Ifølge rapporter skal OpenAI ha brukt sitt talegjenkjenningsverktøy, Whisper, til å transkribere over én million timer med YouTube-videoer. Disse transkripsjonene ble deretter brukt til å trene språkmodellen GPT-4. OpenAIs president, Greg Brockman, skal personlig ha vært involvert i innsamlingen av videoer som ble brukt.

Google, som eier YouTube, har også benyttet transkripsjoner fra plattformen til å trene sine egne AI-modeller. Dette til tross for at YouTubes brukervilkår forbyr uautorisert nedlasting eller skraping av innhold. Googles talsperson, Matt Bryant, uttalte at selskapet ikke var kjent med at OpenAI hadde gjort dette. Samtidig har kilder hevdet at Google selv har brukt YouTube-innhold til AI-trening, men kun med samtykke fra innholdsprodusentene.

Bruken av YouTube-innhold til AI-trening reiser juridiske og etiske spørsmål om opphavsrett og plattformregler. YouTubes administrerende direktør, Neal Mohan, uttalte nylig at bruk av YouTube-videoer til å trene modeller som OpenAIs videogenerator Sora ville være et «klart brudd» på plattformens vilkår.

For norske innholdsprodusenter understreker denne saken viktigheten av å være bevisst på hvordan deres innhold kan bli brukt av globale teknologiselskaper. Mens EUs kommende AI Act stiller strengere krav til transparens rundt treningsdata, opererer amerikanske selskaper foreløpig under et annet regime.

Avsløringene viser at internett er i ferd med å bli «ferdiglest» av maskinene, noe som tvinger frem nye løsninger som lisensiering av data eller bruk av syntetiske data for AI-trening. Dette kan ha betydelige konsekvenser for kvaliteten og etikken i fremtidige AI-modeller.