Du benytter en nettleser vi ikke støtter. Se informasjon om nettlesere

Kapittel 4.2​​​​​​​Hvordan tilpasse til norske forhold?

Hvordan språkmodeller blir utviklet og tilpasset, er blant annet behandlet i rapporten "Store språkmodellar i helse- og omsorgstenesta" [113].

Metodene for å tilpasse en språkmodell er ikke gjensidig utelukkende. Forhåndstrening innebærer å trene en modell fra grunnen av slik at den kan tilpasses norske forhold helt fra begynnelsen av. Ettertrening innebærer å bygge videre på en forhåndstrent generell modell med datakilder som er relevante for helsesektoren. Et KI-system som bruker språkmodeller kan også forbedres og tilpasses til den konkrete bruken, ved for eksempel kunnskaps-forankring eller ved agentisk KI. Dette kapitlet beskriver ulike måter å forhåndstrene, ettertrene, kunnskapforankre, evaluere og teste store språkmodeller på.

Grafisk fremstilling i tre deler. Nederst er grafiske elementer som symboliserer ulike store språkmodeller, både forhåndstrente og finjusterte modeller til helse- og omsorgstjenesten. Som et lag utenpå modellene vises to symboler for forbedring og forsterking av KI-systemer, et symbol representerer kunnskapsforankring og et som symboliserer agentisk-KI.  Til høyre for de to lagene er det to symboler, ett representerer evaluering og testing av store språkmodeller, og over det et identisk symbol som representerer evaluering og testing av hele KI-systemet.
Figur 5: Tilpassing til norske forhold kan skje ved forhåndstrening av en stor språkmodell og/eller ved ettertrening av forhåndstrente språkmodeller. Et KI-system som bruker språkmodeller kan forbedres og tilpasses til den konkrete bruken, ved for eksempel kunnskapsforankring eller ved såkalt agentisk KI. Både KI-modellen og KI-systemet må evalueres og testes.

4.2.1 Forhåndstrening av språkmodeller

Forhåndstrening av store språkmodeller gir full kontroll over modellen og innsyn i modellens læringsprosess. Tilnærmingen er imidlertid meget kostbar, da den vil kreve omfattende mengder relevante data og betydelige regneressurser. GPT og Gemini er eksempler på store, markedsledende forhåndstrente språkmodeller som har blitt utviklet fra grunnen av. Disse kalles også grunnmodeller, og leveres ofte av store amerikanske teknologiselskaper. Imidlertid blir det pekt på utfordringer knyttet til blant annet forklarbarhet, ansvarlighet, suverenitet og språklig kvalitet i disse modellene [114]. Som et svar på slike utfordringer, har flere europeiske land tatt initiativ til å bygge opp egne forhåndstrente språkmodeller.

De store internasjonale grunnmodellene har vist seg å være kraftige og anvendbare på mange områder, og inneholder allerede en del norsk språk, og brukes i Norge. I Norge er det flere initiativer for å utvikle norske grunnmodeller, både gjennom BERT-baserte modeller som NorBERT og større modeller som NorGPT fra NorwAI og NORA.LLM-modeller fra NORA-konsortiet, for eksempel NorMistral.

Mange store internasjonale grunnmodeller er forhåndstrent på betydelig mengde generell helsefaglig kunnskap. Det finnes også internasjonale språkmodeller som er forhåndstrente fra grunnen av spesifikt for helse. Et eksempel er MedFound, som er trent på pasientjournaler og medisinske tekster [115]. Denne modellen er langt mindre enn de større internasjonale grunnmodellene nevnt ovenfor. Slike mindre modeller kan være mer energieffektive, men bruksområdene blir mer avgrenset siden de er trente på mindre data.

Den teknologiske utviklingen går raskt, og helt nye modellarkitekturer som DeepSeeks språkmodeller R1 og Open R1 representerer en ny og mer energieffektiv retning for hvordan informasjon kan hentes ut og prosesseres. Dette gjør at tidligere tilnærminger, særlig BERT-baserte modeller, i stor grad er blitt utdaterte for generative oppgaver, selv om de fortsatt kan være nyttige for spesifikke anvendelser.

Ved valg av hvilken forhåndstrent modell å bygge videre på, er det viktig å vurdere om den er åpen eller lukket. I åpne modeller kan enten kildekoden være tilgjengelige og/eller treningsdataene være kjente og dokumenterte. Omvendt, vil tilgang til kildekode og/eller treningsgrunnlag være begrenset eller manglende i lukkede modeller. Dette gjør det vanskelig, om ikke umulig, å forklare og kvalitetssikre modeller som baserer seg på dem.

4.2.2 Ettertrening av forhåndstrente språkmodeller (grunnmodeller)

Selv om mange grunnmodeller allerede behersker noe norsk språk og er trent på en del internasjonal helsefaglig kunnskap, bør de ettertrenes hvis de skal bli bedre tilpasset norske forhold. Ettertrening innebærer å bygge videre på en forhåndstrent generell modell med relevant data, og kan basere seg på en eller flere grunnmodeller.

Nasjonalbibliotekets NB-Whisper og Binerics NorskGPT er eksempler på norsk, generell (ikke-helsefaglig) ettertrening. 

4.2.2.1 Finjustering med norske helsefaglige språkressurser

Grunnmodeller kan finjusteres ved hjelp av domenespesifikke helsefaglige ressurser som treningsdata. En finjustert språkmodell vil da i langt større grad kunne håndtere norsk fagspråk og terminologi samt helsefaglig og helseadministrativ kunnskap og praksis.

En grunnmodell kan finjusteres til:

  • en relativt stor og generell helsefaglig språkmodell. Den vil legge til rette for en felles helsefaglig språkmodell for norsk helse- og omsorgssektor som kan brukes og videreutvikles av hele sektoren, inkludert offentlige og private aktører.
  • flere mindre og spesialiserte språkmodeller, innrettet mot ulike formål (fag, spesialitet eller oppgave). De trenes på tekster tilhørende en gitt oppgave eller spesialitet.  

Slik finjustering kan skje på ulike måter. En mulig tilnærming er å trene grunnmodellen videre på norskspråklige, helsefaglige tekster slik at algoritmene i modellen endres. Det krever at grunnmodellen er åpen (se ovenfor). Denne formen for finjustering trenger betydelig regnekraft [116]. En annen tilnærming innebærer at finjusteringer skjer som et lag utenfor den forhåndstrente modellen som ikke gjør endringer i den opprinnelige forhåndstrente modellen, og trenger dermed mindre regnekraft [117].

Uavhengig av tilnærming er det viktig å være klar over at en språkmodell aldri vil være utlært. Fagspråk, kunnskap og praksis i helse- og omsorgstjenesten er aldri konstante, men blir oppdatert i tråd med den faglige utviklingen på området. Det er derfor viktig å ta høyde for løpende læring (continous learning) ved finjustering av en språkmodell. Det forskes nå på ulike måter dette kan skje på, for eksempel ved federert læring [118]. En annen tilnærming er et oppdateringsregime der språkmodeller blir versjonert og utgitt periodisk med oppdatert kunnskap. Det vil kreve en aktiv forvaltning, se faktaboks om løpende oppdatering av språkmodeller under.

Løpende oppdatering av språkmodeller

Store språkmodeller kan oppdateres løpende ved å etablere en systematisk oppfølgings- og oppdateringsmekanisme slik at for eksempel nye kliniske retningslinjer, oppdaterte data og endringer i fagterminologi raskt kan innlemmes i modellen. Dette kan for eksempel innebære regelmessige oppdateringer gjennom kontinuerlig læring eller periodiske finjusteringer.

Det kan også etableres en feedback-loop med klinisk ekspertise, for eksempel ved å inkludere en mekanisme for kontinuerlig tilbakemelding fra helsepersonell som bruker modellen. Tilbakemeldingene brukes til å identifisere eventuelle feil eller utdaterte anbefalinger, slik at modellen kan revideres og forbedres i tråd med gjeldende fagkunnskap og praksis.

 

4.2.2.2 Instruksjonsjustering i tråd med helsefaglige og administrative oppgaver

Skal en språkmodell kunne håndtere helsefaglige oppgaver, må den trenes for det. Slike oppgaver kan være oversettelser, tolking, formidle informasjon til pasienter eller lage utkast til journalnotater. Det kan gjøres ved å finjustere språkmodellen med hjelp av datasett som inneholder eksempel på oppgavene som skal løses. Prosessen kan være iterativ og involvere mennesker som gir tilbakemeldinger underveis.

Behovet for instruksjonsjustering gjelder både grunnmodeller og finjusterte modeller. Selv om modeller er instruksjonsjustert på engelsk fra før, kan det likevel være behov for spesifikk norsk instruksjonsjustering. Dette er særlig relevant for domener der presis forståelse av norske instrukser er kritisk, eller der kulturelle og fagspesifikke aspekter er viktige.  

4.2.1.3 Finjustering i tråd med norske lovverk, verdier og etikk

En språkmodell kan finjusteres for å fungere i tråd med norsk lovverk, verdier og etiske prinsipper. Slik tilpasning kan gjøres på flere måter:

  • gjennom systematisk trening på eksempler som demonstrerer ønsket etisk atferd
  • ved hjelp av forsterket læring med menneskelig tilbakemelding (Reinforcement Learning from Human Feedback - RLHF) der mennesker vurderer modellens svar opp mot definerte etiske retningslinjer
  • ved å bygge inn etiske prinsipper i treningsdataene og evalueringskriteriene

Formålet er at modellens atferd og genererte tekst skal reflektere og være konsistent med definerte etiske prinsipper. Det bør sees i sammenheng med en nasjonal tilnærming til felles verdier og etikk. For helsetjenesten står verdier som konfidensialitet, selv­bestemmelse og ikke-skade sentralt. Samtidig må man ta høyde for at verdier og etiske prinsipper ikke er konstante, men utvikler seg.

Når man tar i bruk utenlandske modeller, er det viktig å undersøke hvilke verdier og prinsipper som allerede er innebygd i modellen og vurdere hvordan disse samspiller med eller eventuelt avviker fra norske verdier og helsetjenestens behov.

For å overholde lovverket kan tilpasningsprosessen inkludere integrerte sikkerhets- og personvernstrategier som eksplisitt inkluderer tiltak for å beskytte sensitive helsedata.

Kunnskapsforankring (grounding) er en teknikk for å forbedre kvaliteten og relevansen til svarene til en språkmodell uten å endre selve språkmodellen. Kvalitetssikrede og kuraterte datakilder som eksempelvis virksomhetsinterne eller eksterne kunnskapsbaser kan utgjøre et kunnskapsgrunnlag.

4.2.3 Kunnskapsforankring og agentisk KI

Såkalt RAG (Retrieval Augmentet Generation) [119] er én type teknikk for kunnskapsforankring som har vist seg å være lovende som et effektivt alternativ til helsefaglig finjustering. En forutsetning er at kunnskapsbasen er relevant for norske forhold. Samtidig må språkmodellen som benyttes, være i stand til å håndtere språk i Norge.

Det er fremdeles for tidlig å slå fast om kombinasjonen av RAG og store språkmodeller fungerer tilstrekkelig bra for de aktuelle bruksområdene i den norske helse- og omsorgstjenesten. Det er behov for mer erfaring og kunnskap på området for at RAG kan anbefales brukt i stor skala i helse- og omsorgstjenesten.

Når en slik RAG-løsning benyttes, hentes kunnskap fra forhåndsdefinerte kunnskapsbaser. Språkmodellens funksjon er først og fremst å tolke og formulere spørsmålet/instruksen for å finne riktig informasjon i kunnskapsbasen og deretter generere svaret etter at informasjon er hentet ut. Tilnærmingen gjør det mulig med direkte tilpassing til bruksformålet, krever lite regne- og dataressurser, og kan redusere feil og oppdiktede svar. Helsedirektoratet tester ut RAG for informasjonstjenesten Helsesvar (se boks under).

HelseSvar

Helsedirektoratet har testet RAG-teknologien for å generere forslag til svar på helsespørsmål fra unge knyttet til ulike områder, som for eksempel prevensjon, tobakk og psykisk helse. Målet er å effektivisere arbeidet til helsepersonell når de svarer ungdom som tar kontakt gjennom ung.no.

Flere ulike språkmodeller har blitt testet, sammen med en RAG-løsning som benytter en kunnskapsbank med tidligere spørsmål og svar, eller artikler publisert på nettet.

I sluttrapporten ble det konkludert med at "RAG og virksomhetsdata gir faglig sterke resultater. Men det er nødvendig å forbedre den språklige tilpasningen, spesielt for nynorsk og enklere språklige uttrykk, for å gjøre KI-assistentene mer tilgjengelige og brukervennlige for ungdom." Dette stiller krav til at man bearbeider tekster og formuleringer tilpasset målgruppen, i virksomhetsdataene som legges til grunn i RAG-løsningen.

Videre konkluderes det med følgende: "På kort sikt anbefaler vi at KI-løsningen HelseSvar (som bruker RAG), primært benyttes som støtteverktøy for svarere innen helse, fremfor som selvhjelpsverktøy til innbyggere. RAG-løsningen leverer korrekte svar i 80–90 % av tilfellene, noe som illustrerer en høy grad av presisjon og pålitelighet. Selv om løsningen svarer svært godt på helserelaterte spørsmål, forekommer det at den svarer feil grunnet misforståelser i konteksten på spørsmålet, eller uklare virksomhetsdata. Den menneskelige kvalitetssikringen er derfor nødvendig for spørsmål om helse."

Etter at rapporten er publisert jobber prosjektet videre med teknikker som hever svarkvaliteten. Det gjelder for eksempel teknikker for hvordan svarene bygges opp, spesielt gjennom bruk av agenter som tolker spørsmålet, utarbeider en plan for innhenting av relevant informasjon og komponerer svaret på en strukturert og kontrollert måte.

Kilde: "Rapport – HelseSvar. Konseptutredning for en KI-assistent for innbyggerrettet informasjon". Internrapport i Helsedirektoratet.

Agentisk KI innebærer å dele opp komplekse spørsmål i mindre oppgaver og kombinere flere verktøy som kan svare på oppgaver. Agenten tolker brukerens spørsmål og utarbeider en strukturert arbeidsflyt med spesifikke trinn for å svare ut spørsmålet (se KI-faktaark Intelligensforsterkning og kontroll) [120].

4.2.4 Evaluering og testing av språkmodeller for norske forhold

Vi mangler nasjonale prinsipper for testing, evaluering og kvalitetssikring av språkmodeller for norske forhold, noe som er en utfordring som gjelder hele den offentlige forvaltningen og ikke bare helse- og omsorgssektoren.

Evaluering og testing kan gjøres av både grunnmodeller og finjusterte modeller blant annet for å kunne sammenligne og eventuelt velge den språkmodellen som egner seg best å trene videre og tilpasse til bruksformålet. Evaluering og testing av et KI-system gjøres for å kunne vurdere hvor godt det yter i forhold til den tiltenkte bruken.

For å kunne vurdere en språkmodells ytelse kreves en strukturert tilnærming til evaluering av de ulike aspektene som beskrives i avsnitt 4.1. Et sentralt aspekt er språk, der modellen kan testes i hvordan den behersker norsk medisinsk fagterminologi, eller hvordan den behersker bokmål, nynorsk og i noen sammenhenger også samisk i helsefaglig kontekst. Presisjonsgraden i helsefaglig kommunikasjon kan også vurderes.

Den kontekstuelle forståelsen er like viktig, der tester kan vise hvordan modellen yter i samsvar med norsk helsetjenestes organisering og struktur. Dette kan gjelde norske behandlingsretningslinjer og prosedyrer, samt lokale administrative rutiner og dokumentasjonskrav.

For å sikre grundig evaluering er det mulig med en stegvis tilnærming til testing. Denne kan starte med grunnleggende evaluering av språk og sikkerhet, gå videre til domenespesifikk testing for helsesektoren, fortsette med bruksområdespesifikk testing, og kontekstspesifikk testing i implementeringsmiljøet, da gjerne som en del av et KI-system. Dersom språkmodellen inngår i et KI-system som faller innunder loven om medisinsk utstyr vil det stilles egne krav til testing og validering i henhold til denne loven [121].

 

 

 

[113] Store språkmodellar i helse- og omsorgstenesta

[114] Teknologirådet. 2024. Generativ kunstig intelligens i Norge: https://teknologiradet.no/publication/generativ-kunstig-intelligens-i-norge/ og https://www.nora.ai/norsk/news/2024/vi-trenger-apne-norske-sprakmodeller.html

[116] Full parameter fine-tuning https://arxiv.org/abs/2306.09782

[117] Parameter efficient fine tune-tuning (PEFT) https://arxiv.org/abs/2410.21228

[118] https://medium.com/@bhat_aparna1/federated-learning-with-large-language-models-balancing-ai-innovation-and-data-privacy-2425b3e0044e

[119] RAG (Retrieval-Augmented Generation) er en KI-teknikk som kombinerer informasjonsgjenfinning (retrieval) med tekstgenerering (generation) for å forbedre svarenes kvalitet og relevans.

Siste faglige endring: 16. april 2025