NorwAI lanserer store språkmodeller for norsk språk

Hovedpunkter:

  • NorwAI har utviklet store språkmodeller for norsk og skandinaviske språk.
  • Modellene er basert på Transformer-arkitekturer som GPT, Mistral og Llama2.
  • Trening er utført på 25 til 88,45 milliarder tokens med en norsk-tilpasset tokenizer.
  • Instruksjonstunede varianter viser sterke assistent-egenskaper.
  • Modellene er tilgjengelige for nordiske organisasjoner, selskaper og studenter.

NorwAI har nylig annonsert utviklingen av en serie store språkmodeller spesialtilpasset for norsk og andre skandinaviske språk. Dette initiativet tar sikte på å styrke norsk språkbehandling innen kunstig intelligens, et område hvor norsk tidligere har vært underrepresentert.

Modellene er bygget på ulike Transformer-baserte arkitekturer, inkludert GPT, Mistral og Llama2. Treningen av disse modellene er utført på mellom 25 og 88,45 milliarder tokens, ved bruk av en norsk-tilpasset tokenizer. Dette sikrer at modellene er godt tilpasset nyansene i det norske språket.

Instruksjonstunede varianter, som Mistral-7B-Instruct og Mixtral-8x7B-Instruct, har vist sterke assistent-egenskaper. Dette indikerer deres potensial for praktisk bruk i interaktive og domene-spesifikke applikasjoner.

NorwAI har gjort disse store språkmodellene tilgjengelige for nordiske organisasjoner, selskaper og studenter for både forskning og eksperimentell bruk. Dette åpner for nye muligheter innen norsk språkbehandling og kunstig intelligens.