Forskning avslører at få prøver kan forgifte store språkmodeller

Hovedpunkter:

  • Forskere har funnet at 250 ondsinnede dokumenter kan forgifte store språkmodeller.
  • Modellens størrelse påvirker ikke suksessen til forgiftningen.
  • Angrepene kan føre til at modellen genererer meningsløs tekst ved spesifikke triggere.
  • Dette utfordrer tidligere antakelser om at større modeller krever mer forgiftet data.
  • Funnene understreker behovet for bedre sikkerhetstiltak i utviklingen av AI-modeller.

En nylig publisert studie fra Anthropic, i samarbeid med UK AI Security Institute og Alan Turing Institute, avslører at så få som 250 ondsinnede dokumenter kan introdusere bakdører i store språkmodeller (LLMs), uavhengig av modellens størrelse eller mengden treningsdata. Dette funnet utfordrer tidligere antakelser om at større modeller krever en høyere andel forgiftet data for å bli kompromittert.

Forskerne gjennomførte eksperimenter med modeller som varierte fra 600 millioner til 13 milliarder parametere. Til tross for den betydelige forskjellen i størrelse og treningsdata, viste resultatene at alle modellene kunne bli bakdørangrepet med det samme antallet forgiftede dokumenter. Dette antyder at det absolutte antallet ondsinnede dokumenter er avgjørende for angrepets suksess, snarere enn andelen av det totale treningsdatasettet.

I studien fokuserte forskerne på en spesifikk type bakdørangrep kalt "denial-of-service" (DoS). Målet med dette angrepet er å få modellen til å generere meningsløs eller uforståelig tekst når den møter en bestemt triggerfrase. For eksempel kan en modell bli manipulert til å produsere gibberish når den støter på en spesifikk setning, noe som kan gjøre den ubrukelig i visse sammenhenger.

Disse funnene har betydelige implikasjoner for sikkerheten til AI-systemer. Ettersom det kreves relativt få ondsinnede dokumenter for å kompromittere en modell, blir det enklere for angripere å implementere slike bakdører. Dette understreker behovet for robuste sikkerhetstiltak og grundig overvåking av treningsdata for å forhindre potensielle angrep.

Videre forskning er nødvendig for å forstå om dette mønsteret gjelder for enda større modeller og mer skadelige bakdører. Likevel gir denne studien en viktig innsikt i sårbarhetene til store språkmodeller og viktigheten av å utvikle effektive forsvarsmekanismer mot dataforgiftning.