En nylig studie publisert i Nature avdekker en alvorlig utfordring innen kunstig intelligens: AI-modeller som trenes på data generert av andre AI-systemer, kan oppleve det forskerne kaller "modellkollaps". Dette fenomenet innebærer at modellene gradvis mister evnen til å produsere nøyaktig og variert innhold, noe som kan føre til betydelig reduksjon i kvaliteten på utdataene.
Forskere fra University of Cambridge og University of Oxford gjennomførte eksperimenter som viste at når AI-modeller gjentatte ganger ble trent på data produsert av tidligere versjoner av seg selv, begynte de å generere meningsløse resultater. Dette ble observert på tvers av ulike typer AI-modeller, inkludert språkmodeller og bildegeneratorer.
For å motvirke denne utfordringen har EU innført krav om åpenhet rundt hvilke data AI-modeller er trent på. Dette tiltaket skal sikre at utviklere oppgir om treningsdataene inkluderer opphavsrettsbeskyttet materiale, og dermed bidra til å opprettholde kvaliteten og integriteten til AI-systemene.
Videre har forskning vist at bruk av syntetiske data, altså data generert av AI, kan føre til forvrengte og uskarpe resultater i AI-bildegeneratorer. Dette understreker viktigheten av å benytte autentiske, menneskeskapte data i treningen av AI-modeller for å sikre høy kvalitet på utdataene.
For å adressere disse problemene foreslår eksperter flere løsninger:
- **Vannmerking av AI-generert innhold**: Dette vil gjøre det lettere å skille mellom menneskeskapte og AI-genererte data, og dermed forhindre at syntetiske data utilsiktet brukes i trening av nye modeller.
- **Insentiver for produksjon av kvalitetsinnhold**: Ved å oppmuntre til fortsatt produksjon av autentisk innhold av høy kvalitet, kan man sikre at AI-modeller har tilgang til pålitelige treningsdata.
- **Utvikling av avanserte filtreringsmetoder**: Mer sofistikerte metoder for å filtrere og kuratere treningsdata kan bidra til å opprettholde kvaliteten på AI-modeller.
Disse tiltakene er essensielle for å sikre at kunstig intelligens forblir en pålitelig og effektiv teknologi i fremtiden.