Ny innsikt avslører årsaker til ikke-deterministiske resultater i store språkmodeller

Hovedpunkter:

  • Ikke-deterministiske resultater i store språkmodeller skyldes hovedsakelig manglende "batch-invarians".
  • Variabel serverbelastning påvirker batch-størrelser, noe som fører til inkonsistente utfall.
  • Flyttallsberegninger og parallell prosessering bidrar til numeriske forskjeller, men er ikke hovedårsaken.
  • For å oppnå deterministiske resultater må modellene omstruktureres for å være batch-invariante.
  • Dette krever kompromisser mellom ytelse og konsistens i modellens design.

Forskere har nylig kastet nytt lys over fenomenet ikke-deterministiske resultater i store språkmodeller (LLMs). Tidligere har man antatt at slike variasjoner hovedsakelig skyldes flyttallsberegningers ikke-assosiativitet kombinert med parallell prosessering. Imidlertid viser ny forskning at den primære årsaken er mangelen på "batch-invarians" i modellene.

Når en bruker sender en forespørsel til en LLM-tjeneste, behandles denne ofte sammen med andre forespørsler i en batch for å optimalisere ytelsen. Størrelsen på disse batchene varierer avhengig av serverbelastningen, noe som fører til at samme input kan gi forskjellige resultater basert på batch-størrelsen den ble behandlet i. Dette skyldes at modellens interne beregninger og optimaliseringer endres med batch-størrelsen, noe som resulterer i inkonsistente utfall.

Selv om flyttallsberegningers ikke-assosiativitet og parallell prosessering kan føre til små numeriske forskjeller, er disse ikke de primære driverne for ikke-determinisme i LLMs. For å oppnå deterministiske resultater må modellene omstruktureres for å være batch-invariante, det vil si at de gir samme output for en gitt input uavhengig av batch-størrelsen. Dette krever betydelige endringer i modellens design og kan innebære kompromisser mellom ytelse og konsistens.

Denne innsikten er avgjørende for utviklingen av mer pålitelige og reproduserbare AI-systemer, spesielt i applikasjoner hvor konsistens er kritisk.