NorwAI har nylig annonsert utviklingen av en serie store språkmodeller spesialtilpasset for norsk og andre skandinaviske språk. Dette initiativet tar sikte på å styrke norsk språkbehandling innen kunstig intelligens, et område hvor norsk tidligere har vært underrepresentert.
Modellene er bygget på ulike Transformer-baserte arkitekturer, inkludert GPT, Mistral og Llama2. Treningen av disse modellene er utført på mellom 25 og 88,45 milliarder tokens, ved bruk av en norsk-tilpasset tokenizer. Dette sikrer at modellene er godt tilpasset nyansene i det norske språket.
Instruksjonstunede varianter, som Mistral-7B-Instruct og Mixtral-8x7B-Instruct, har vist sterke assistent-egenskaper. Dette indikerer deres potensial for praktisk bruk i interaktive og domene-spesifikke applikasjoner.
NorwAI har gjort disse store språkmodellene tilgjengelige for nordiske organisasjoner, selskaper og studenter for både forskning og eksperimentell bruk. Dette åpner for nye muligheter innen norsk språkbehandling og kunstig intelligens.