Forskere har nylig kastet nytt lys over fenomenet ikke-deterministiske resultater i store språkmodeller (LLMs). Tidligere har man antatt at slike variasjoner hovedsakelig skyldes flyttallsberegningers ikke-assosiativitet kombinert med parallell prosessering. Imidlertid viser ny forskning at den primære årsaken er mangelen på "batch-invarians" i modellene.
Når en bruker sender en forespørsel til en LLM-tjeneste, behandles denne ofte sammen med andre forespørsler i en batch for å optimalisere ytelsen. Størrelsen på disse batchene varierer avhengig av serverbelastningen, noe som fører til at samme input kan gi forskjellige resultater basert på batch-størrelsen den ble behandlet i. Dette skyldes at modellens interne beregninger og optimaliseringer endres med batch-størrelsen, noe som resulterer i inkonsistente utfall.
Selv om flyttallsberegningers ikke-assosiativitet og parallell prosessering kan føre til små numeriske forskjeller, er disse ikke de primære driverne for ikke-determinisme i LLMs. For å oppnå deterministiske resultater må modellene omstruktureres for å være batch-invariante, det vil si at de gir samme output for en gitt input uavhengig av batch-størrelsen. Dette krever betydelige endringer i modellens design og kan innebære kompromisser mellom ytelse og konsistens.
Denne innsikten er avgjørende for utviklingen av mer pålitelige og reproduserbare AI-systemer, spesielt i applikasjoner hvor konsistens er kritisk.