Du benytter en nettleser vi ikke støtter. Se informasjon om nettlesere

Kapittel 4.3Hva trengs for å tilpasse til norske forhold?

Gjennom arbeidet med rapporten har vi fått innspill på hva som bør være på plass for å tilpasse store språkmodeller og bruken av dem til norske forhold i helse- og omsorgstjenesten. Innspillene omfatter tilgang til data, regnekraft, kvalitetsrammeverk, kompetanse og et forvaltningsregime (se figur 6). Dette kapitlet går gjennom disse områdene, som også danner utgangspunkt for anbefalinger til tiltak i Felles KI-plan (se kapittel 5).

Grafisk fremstilling av elementene kvalitetsrammeverk, kompetanse, data, regnekraft og forvaltningsregime.
Figur 6: Sentrale områder som bør være på plass for å tilpasse store språkmodeller til norske forhold inkluderer data, regnekraft, kvalitetsrammeverk, kompetanse og et forvaltningsregime.

4.3.1 Tilstrekkelig datagrunnlag og datakvalitet

For å tilpasse språkmodeller til norsk helse- og omsorgssektor er det behov for betydelige mengder data av høy kvalitet til både trening og testing.

Digitaliseringsstrategien trekker frem viktigheten av bedre og enklere tilgang til data for helse- og omsorgssektoren: "Helse- og omsorgstjenesten har mye informasjon som kan være nyttig å bruke til å utvikle KI, slik som registerdata, medisinske bilder og pasientjournalnotater. Det må bli enklere for relevante aktører å få tilgang til helsedata for å bruke disse med KI. Bedre og enklere tilgang til helsedata er viktig både for videreutvikling av vår felles helsetjeneste, for forskning og for næringsutvikling, men forutsetter at hensynet til nasjonale sikkerhetsinteresser ivaretas" [122].

En nøkkelfaktor for bruk av data til tilpassing til norske forhold for er datakvaliteten. Vi har beskrevet risikoer knyttet til dårlig datakvalitet i store språkmodeller i avsnitt 3.1.1. Datakvalitet refererer til hvor pålitelig, nøyaktig og anvendelig data er for et gitt formål. Høy datakvalitet er avgjørende for gode analyser, beslutninger og modeller.

Nøkkelfaktorer for god datakvalitet er:

  • nøyaktighet: dataene gjenspeiler virkeligheten korrekt.
  • representativitet: dataene representerer hele befolkningen i Norge, også minoriteter og den samiske urbefolkning.
  • fullstendighet: ingen viktige data mangler.
  • konsistens: dataene er sammenhengende på tvers av kilder og systemer.
  • pålitelighet: dataene kommer fra en troverdig kilde og er verifiserbare.
  • aktualitet: dataene er oppdaterte og relevante.
  • unikhet: ingen dupliserte eller motstridende oppføringer.
  • relevans: dataene er nyttige for formålet de brukes til.
  • balanse: de ulike helsefaglige områdene må være dekket

Få datakilder vil være perfekte, men ulike rammeverk for å beskrive datasett kan brukes for å øke transparensen rundt dataene som benyttes til utvikling av språkmodeller til bruk i helse- og omsorgsektoren [123]. Både Model Documentation Form [124] for store språkmodeller knyttet til KI-forordningen og model cards [125] fra Huggingface har dedikerte felter for beskrivelse av data.

Innsamling og bearbeiding av data er et betydelig arbeid. Det gjelder også arbeid med å avklare om det finnes juridiske, tekniske eller andre begrensninger.

Man skiller blant annet mellom merkede data (labelled data) og umerkede data (unlabelled data). Merkede data har ofte høyere kvalitet siden de eksempelvis kan inneholde semantisk eller kontekstuell informasjon som gir en merverdi.

Spørsmålet om tilgjengeligheten av nødvendige data har vært vesentlig for flere av informantene i denne rapporten. 

4.3.1.1 Kategorier av data

Datagrunnlag for språkmodeller kan overordnet deles i tre hovedgrupper:

  1. Fritt tilgjengelige data
  2. Data med begrenset tilgang pga. rettighetshensyn
  3. Data med begrenset tilgang pga. taushetsplikt og personvernhensyn

A Fritt tilgjengelige data

Regjeringens KI-strategi har som "mål at data som kan gjøres åpent tilgjengelig skal deles slik at de kan brukes av andre" [126]

Det finnes en rekke data som fritt kan benyttes til trening av språkmodeller, for eksempel nettsider fra offentlige helsemyndigheter:

  • Helsefaglig kvalitetssikret kunnskap og informasjon, for eksempel fra FHI, spesialisthelsetjenesten, Helsenorge.no, Helsebiblioteket.
  • Nasjonale krav og anbefalinger fra Helsedirektoratet
  • Metodebøker fra spesialisthelsetjenesten
  • Frie fagspråklige ressurser, for eksempel helsefaglige terminologier og klassifikasjoner uten krav til lisens, for eksempel fremtidig ICD-11 og termene i SNOMED CT.

B Data med avgrenset tilgang pga. rettighetshensyn

Noen data kan det være begrenset tilgang til pga. rettighetshensyn, for eksempel

  • Fag- og lærebøker (se faktaboks om Mimir-prosjektet)
  • Kunnskapsbaser og oppslagsverk, for eksempel Felleskatalogen og Store medisinske leksikon
  • Fagspråklige ressurser, for eksempel helsefaglige terminologier og fagordbøker med krav om lisens

Mímir-prosjektet og trening på opphavsbeskyttet materiale

På oppdrag fra Regjeringen samarbeidet Nasjonalbiblioteket med NorwAI ved NTNU og Language Technology Group ved UiO i 2024 om å analysere hvilken betydning opphavsrettsbeskyttet materiale har på den språklige kvaliteten i språkmodeller.

Språket i språkmodeller med og uten opphavsrettsbeskyttet materiale som norske aviser og bøker ble sammenlignet. Resultatene viste at språkmodeller trent på innhold der rettighetsbelagt norsk materiale inngår, oppnår bedre kvalitet.

Målet med prosjektet var å samle inn empiri som kan legge grunnlaget for eventuelle avtaler mellom staten og rettighetshavere om bruk av innhold under opphavsrett for KI-formål. Det arbeides nå med å etablere prinsipper knyttet til slike avtaler (pr, 1, mars 2025).

Kilde: https://www.nb.no/content/uploads/2024/08/Mimirprosjektet_teknisk-rapport.pdf

Trening på fagspråkressurser

Det finnes flere fagspråklige ressurser som kan benyttes til å trene språkmodeller, blant annet terminologier og klassifikasjoner.

SNOMED CT er en internasjonal maskinlesbar terminologi med nærmere 370 000 helsefaglige begreper. Ca. 130 000 av begrepene er oversatt til norsk og dekker helsefaglige områder som anatomi, funn, symptomer, diagnoser, prosedyrer, substanser og legemiddel. SNOMED CT blir hovedsakelig brukt til dokumentasjon og samhandling av pasientopplysninger.

Oversettelsen er gjort til bokmål, mens en økende del også finnes på nynorsk. Ressursen er flerspråklig ved at det er en direkte kobling mellom engelske og norske termer.

Oversettelsene til norsk er fritt tilgjengelige fra Språkbanken hos Nasjonalbiblioteket. Internasjonalt har termene i SNOMED CT blitt brukt til trening av flere språkmodeller (pubmed.ncbi.nlm.nih.gov).

Helsedirektoratet forvalter den norske versjonen av SNOMED CT med jevnlige oppgraderinger.

SNOMED CT inneholder også en dypere maskinlesbar struktur (ontologi) med blant annet begrepsrelasjoner. SNOMED CTs ontologi har blitt brukt til RAG i språkmodeller, også i Norge, men det kreves lisens fra Helsedirektoratet.

En annen aktuell ressurs er Den internasjonale statistiske klassifikasjonen av sykdommer og beslektede helseproblemer (ICD), som eies og forvaltes av WHO. Helsetjenesten i Norge bruker i dag ICD-10 som kodeverk for sykdommer og dødsårsaker, og inneholder derfor termer og begreper som er i etablert bruk internasjonalt.

Helsedirektoratet forvalter den norske versjonen av ICD. WHO har nå oppdatert ICD-10 til ICD-11. ICD-11 har et oppdatert medisinsk innhold som er langt mer omfattende, og som også omfatter en terminologi. Ressursen blir nå oversatt til norsk, og vil bli fritt tilgjengelig for bruk.

Tilsvarende er ICPC-2 den internasjonale klassifikasjonen for helseproblemer, diagnoser og andre årsaker til kontakt med primærhelsetjenesten. ICPC-2 er i bruk i Norge og Helsedirektoratet vedlikeholder både denne, og nettsiden der den oppdaterte internasjonale utgaven av ICPC-2 (English version, ICPC-2e-English) publiseres på vegne av Wonca International Classification Committee (WICC).

Helsedirektoratet forvalter også en rekke andre relevante klassifikasjoner, for eksempel Norsk prosedyrekodeverk, Norsk laboratoriekodeverk med tilhørende kodeverk (Prøvemateriale, Anatomisk lokalisasjon, Tekstlige resultatverdier og Undersøkelsesmetode), Norsk patologikodeverk (NORPAT), og Aktivitetskodene for patologilaboratoriene (APAT). Utarbeidelsen av Norsk prosedyrekodeverk er initiert fra Nordisk råd og har fortsatt en nordisk- baltisk kjerne (NCSP). Dette inneholder eksempelvis termer for prosedyrer og prosedyregrupper i bruk i spesialisthelsetjenesten i de nordisk-baltiske landene.

C Data med avgrenset tilgang pga. taushetsplikt og personvernhensyn

Flere datakilder har begrenset tilgang pga. taushetsplikt og personvernhensyn. Dette gjelder for eksempel:

  • journaltekster
  • data fra kvalitetsregistre og andre helseregistre
  • helseundersøkelser som for eksempel HUNT
  • søknader og svar knyttet til norske helseadministrative virksomheter

Datakilder som for eksempel tekster fra pasientjournaler kan være særskilt relevante for å trene store språkmodeller fordi de speiler faktisk språkbruk og helsepersonells bruk av kunnskap. Imidlertid kan det være tidkrevende å få tilgang til slike data [127]. Det skyldes blant annet at helsepersonell er underlagt taushetsplikten, jf. helsepersonellovens kapittel 5. Det begrenser fri behandling av helseopplysninger fra pasientjournaler og andre helseregistre til trening og bruk av språkmodeller. Paragraf 29 i helsepersonelloven åpner likevel for at det kan søkes om dispensasjon fra taushetsplikten for bruk av helseopplysninger fra behandlingsrettede helseregistre (pasientjournaler) når visse vilkår er oppfylt [128]. Eksempel på at det er gitt en slik dispensasjon, er journaltekster til trening av språkmodellen Klinisk NorBERT hos Helse vest IKT (se faktaboksen Trening på journaltekster) og NorDeClin-BERT hos Nasjonalt senter for e-helseforskning.

Trening på journaltekster, Klinisk NorBERT

Helse Vest IKT har i samarbeid med helseforetakene på Vestlandet trent en språkmodell ved hjelp av blant annet journaltekster. For å ivareta personvernet har tekstene blitt anonymisert ved at stedsnavn blir erstattet med et annet stedsnavn, for- og etternavn med et annet for- og etternavn, datoer med annen dato osv. Som en del av forskningsprosjektet har man analysert kvaliteten til anonymiseringen.

For å få tilgang til journaltekstene til trening av modellen, har det blitt søkt om og blitt innvilget dispensasjon fra taushetsplikten for forskningsformål i helsepersonelloven hos REK.

Man ser for seg at Klinisk NorBERT kan benyttes til for eksempel automatiserte tekstanalyser og maskinstøttet koding. Språkmodellen er en såkalt BERT-modell som skiller seg fra generative språkmodeller. Derfor er det liten fare for at rådataene som språkmodellen opprinnelig ble trent på, kan bli gjenskapt.

Klinisk NorBERT kan bli gjort tilgjengelig til bruk hos andre aktører i helse- og omsorgstjenesten under visse vilkår. Skal språkmodellen finjusteres for et konkret bruksområde, kreves det ny godkjennelse fra REK eller Helsedirektoratet for å bruke helsedata til dette formålet.

Helse Vest IKT ser nå på mulighetene for å trene generative språkmodeller.

Kilde: Helse vest IKT

Syntetiske data

Avgrenset tilgang til personsensitive data har ført til en diskusjon om behovet for å lage syntetiske tekster [129]. Syntetiske data som ikke kan tilbakeføres til personer, er ikke personopplysninger og omfattes dermed ikke av taushetsplikten. Imidlertid finnes det også en rekke utfordringer knyttet til syntetiske data.

Forskning på såkalte ASR-systemer (Automatic Speech Recognition) og nedstrøms KI-modeller viser at syntetiske data kan ha vesentlige begrensninger. Forskning viser at syntetiske transkripsjoner kan inneholde feil, hallusinasjoner og unaturlige språkstrukturer som påvirker ytelsen til modeller som bruker disse dataene [130]. For eksempel viser en studie at ved bruk av simulerte ASR-utdata for å trene modeller (ved å benytte tekst-til-tale og deretter tale-til-tekst), kunne modellene bli mer robuste mot feil, men kvaliteten varierte fortsatt sammenlignet med autentiske data [131].

En særlig bekymring ved bruk av syntetiske helsedata er at hallusinasjoner i språkmodeller kan føre til at falsk informasjon blir innlemmet i datasettene [132]. Studien viser at selv avanserte systemer som Whisper kan "finne på eller 'hallusinere' hele fraser og setninger" i omtrent 1% av transkripsjonene [133]. I helsekontekst kan slike feilaktige innslag føre til at modeller trenes på medisinsk informasjon som aldri ble uttalt, noe som kan ha alvorlige konsekvenser for diagnostisering og behandlingsanbefalinger.

I tillegg er man, som nevnt, avhengig av autentiske data for å lage syntetiske data, så man unngår ikke nødvendigvis problemstillingen knyttet til personvern. Kvaliteten på syntetiske data avhenger sterkt av kvaliteten og representativiteten til kildedataene, og studien indikerer at visse feilmønstre i originaldataene kan forsterkes eller skape nye problemer i syntetiske datasett.

Det er derfor fremdeles behov for mer kunnskap for å kunne si om syntetiske datasett kan være tilstrekkelig egnet til å trene språkmodeller, særlig når det gjelder domener med høy risiko som helsesektoren. Forskere anbefaler en kombinasjon av forbedret ASR-teknologi, feilkorrigerende metoder, robust trening og tverrmodal validering for å redusere problemene med syntetiske data, men disse utfordringene er fortsatt ikke fullstendig løst [134].

4.3.2 Infrastruktur for regnekraft

Tilpassing av språkmodeller til norske forhold vil kreve omfattende regnekraft og tilhørende infrastruktur. Behovet vil være avhengig av mange faktorer, blant annet hvordan tilpassingen foregår.

Forskningsrådet har gjort en konseptvalgutredning om behovet for regnekraft og organisering av en nasjonal infrastruktur [135]. Rapporten peker på et investeringsbehov på 3,4 milliarder kroner de neste fem årene. Utredningen skal gjøre en kost-nytte-vurdering for hvert forvaltningsområde i steg 2. Imidlertid omfatter ikke dette trinnet helse- og omsorgssektoren og peker på at det kreves en særskilt utredning siden sektoren er omfattende og kompleks med særskilte krav til personvern.

Den teknologiske utviklingen i det siste antyder at det nå utvikles langt mer effektive måter å utvikle språkmodeller enn tidligere, noe som kan redusere tidligere antatt behov for regnekraft.

Imidlertid vil den store mengden data med sensitive data fortsatt gi utfordringer knyttet til infrastruktur for regnekraft. Det kan derfor være behov for en egnet infrastruktur som er i stand til å håndtere slike data til trening og finjustering av språkmodeller.

4.3.3 Kvalitetsrammeverk for store språkmodeller

Evaluering av språkmodeller er komplekst og vil omfatte flere typer tester (benchmarks). Det er gjort relevant forskning på tester for tilpassete språkmodeller til generelle norske forhold, for eksempel språk, ved Universitetet i Oslo [136].

Evalueringen bør omfatte både generell og bruksorientert testing. Den generelle kvalitetsmålingen kan baseres på standardiserte tester som evaluerer grunnleggende medisinsk kunnskap, for eksempel gjennom tilpassede versjoner av medisinske eksamensspørsmål. Den bruksorienterte og kontekstspesifikke kvalitetsmålingen kan være testing i reelle eller simulerte brukssituasjoner som er representative for modellens tiltenkte bruk i norsk helse- og omsorgstjeneste.

Testing ved hjelp av eksamensspørsmål

Internasjonal forskning benytter ofte medisinske eksamensspørsmål for å teste kvaliteten til språkmodeller. Et vanlig datasett er MedQA, som inkluderer over 60 000 spørsmål fra flere medisineksamener i USA og Kina.

Slike datasett kan være formålstjenlig for å teste generell medisinkompetanse, for eksempel anatomi og diagnoser. Imidlertid vil den kliniske hverdagen der KI-verktøy skal fungere, skille seg vesentlig fra en eksamenssituasjon. Testing ved hjelp av eksamensspørsmål vil derfor ikke nødvendigvis være tilstrekkelig for å måle kvaliteten til språkmodeller.

Et annet spørsmål er hvorvidt eksamensspørsmål fra USA og Kina vil fungere godt i norsk kontekst, og det er mulig at det bør lages egne datasett med eksamensspørsmål basert på norsk pensum.

Et tilleggsmoment er at flere internasjonale språkmodeller allerede kan være trent på datasett som MedQA. Datasettet vil da være forurenset og være uegnet for å teste språkmodeller.

For øyeblikket finnes det ikke et generelt akseptert kvalitetsrammeverk for evaluering av språkmodeller for helsesektoren, men flere peker på at det er viktig for å kunne bruke språkmodeller på en ansvarlig måte innen helse [137]. Et slikt rammeverk vil måtte utvikles stegvis og basere seg på velprøvde metoder, beste praksiser og standarder. En koalisjon som har som mål å fremme ansvarlig utvikling av KI for helse (Coalition for Health AI (CHAI™)) skisserer for eksempel et rammeverk og påpeker viktigheten av å utvikle gode tester for å kunne evaluere store språkmodeller med tanke på fem grunnleggende prinsipper: nytteverdi, rettferdighet og likebehandling, åpenhet, sikkerhet, og personvern og datasikkerhet [138].  

Gjennom arbeidet med denne rapporten har det blant annet blitt foreslått å etablere en lagvis modell for å evaluere og teste ulike egenskaper som er viktige for den norske helse- og omsorgs-sektoren. Nedenfor beskrives overordnet mulige områder for testing og hva en lagvis modell for evaluering kan innebære.

4.3.1.1 Mulige områder for testing

Kvalitetsrammeverket kan omfatte tester av modeller på flere områder.

Helsefaglig språk:

  • medisinsk terminologi, inkludert faguttrykk, forkortelser og sjargong
  • bokmål, nynorsk og eventuelt samisk i helsefaglig kontekst
  • språklig presisjon, språk tilpasset ulike målgrupper som helsepersonell og pasienter, inkludert personer med ulik kulturell bakgrunn

Helsefaglig kunnskap og praksis:

  • nasjonale faglige retningslinjer
  • etablerte medisinske prosedyrer og behandlingsprotokoller
  • akutte versus ikke-akutte situasjoner
  • identifisering og forklaring av medisinske sammenhenger

Helseadministrativ kunnskap og praksis:

  • norsk helsesektors struktur og organisering
  • administrative rutiner og prosedyrer
  • henvisnings- og dokumentasjonspraksis
  • samhandling mellom ulike nivåer i helsetjenesten

Verdier og etikk:

  • respekt forpasientrettigheter
  • personvern og taushetsplikt
  • etisk forsvarlige anbefalinger
  • komplekse etiske dilemmaer

Lovverk:

  • lovgivning relevant for helse- og omsorgssektoren
  • juridiske krav til pasientbehandling
  • helsepersonells plikter og ansvar
  • dokumentasjonskrav og meldeplikt

For alle disse områdene er det essensielt å etablere både kvantitative og kvalitative metoder.

Evalueringen kan inkludere ulike dimensjoner: [139]

  • systematisk evaluering av modellens nøyaktighet og pålitelighet
  • vurdering av modellens evne til å erkjenne egen usikkerhet
  • testing av modellens robusthet under ulike forhold
  • kontinuerlig evaluering av modellens ytelse over tid for å oppdage eventuell ytelsesforringelse

4.3.1.2 Lagvis modell for testing av språkmodeller

For å sikre en grundig og systematisk evaluering, har det gjennom arbeidet med denne rapporten blitt foreslått en lagvis tilnærming som omfatter evaluering av grunnleggende, domenespesifikke, bruksområdespesifikke og kontekstspesifikke egenskaper (se figur 7).

Det kan være hensiktsmessig å begynne utviklingen av rammeverket for de nederste nivåene, samt bruksområder med lav risiko.

Der bruksområdet faller inn under regelverket for medisinsk utstyr og/eller KI-forordningen vil standarder, både eksisterende og under arbeid, utgjøre egne rammeverk som kan brukes for å ivareta krav i lovverket.

Grafisk fremstilling av lagvis tilnærming til evaluering og testing av språkmodeller. Fire nivåer danner en trapp med nivå 1 grunnleggende evaluering, deretter nivå 2 domenespesifikk evaluering, etterfulgt av nivå 3 bruksområdespesifikk evaluering og øverst nivå 4 kontekstspesifikk evaluering.
Figur 7: Lagvis tilnærming til evaluering og testing av språkmodeller, fra grunnleggende, domenespesifikk, bruksområdespesifikk til kontekstspesifikk

Beskrivelsen under er en skisse som illustrerer hva som typisk kan bli testet på hvert nivå, og kan danne et utgangspunkt for videre konkretisering. 

  1. Grunnleggende evaluering (nivå 1) omfatter grunnleggende egenskaper som er kritiske for anvendelser i helsesektoren. Det inkluderer testing av språklig kvalitet på både bokmål og nynorsk og samisk der det er relevant, og hvordan modellen håndterer generelt medisinsk språk og terminologi, grunnleggende sikkerhet og personvern, samt teknisk ytelse som responstid og stabilitet. På dette nivået kan det vurderes å etablere minimumskrav som alle modeller må oppfylle for å kunne brukes i helsesektoren.
  2. Domenespesifikk evaluering (nivå 2) omfatter domenespesifikke egenskaper som er viktige for helsesektoren. Det kan inkludere testing av modellen med tanke på spesialisert medisinsk fagspråk, kliniske retningslinjer, helseadministrative prosesser og etiske rammer. På dette nivået vurderes også modellens evne til å håndtere regionale og lokale forhold i norsk helsesektor.
  3. Bruksområdespesifikk evaluering (nivå 3) omfatter spesifikke bruksområder innen helsesektoren. For eksempel vil en modell som skal brukes i akuttmottak, testes spesifikt for evnen til å assistere med triage-vurderinger, akuttmedisinske prosedyrer og koordinering med andre avdelinger. En modell for å lage tale-til-sammendrag av pasientsamtaler, bør testes for akkurat dette bruksformålet. Andre bruksområder vil ha andre spesifikke krav som evalueres. Testing på dette nivået bidrar til å vurdere hvordan modellen er egnet for sitt tiltenkte formål.
  4. Kontekstspesifikk evaluering (nivå 4) handler om modellens egnethet i den spesifikke implementeringskonteksten. Det omfatter testing av integrasjon med lokale systemer, tilpasning til etablerte arbeidsprosesser, og håndtering av særskilte dokumentasjons- og personvernkrav. Testing på dette nivået vurderer også modellens evne til å møte lokale kvalitetsindikatorer og spesifikke behov i implementeringsmiljøet.

Fordelene med et felles akseptert rammeverk for testing er at det:

  • gir grunnlag for sammenligning mellom ulike modeller
  • muliggjør systematisk evaluering fra det generelle til det spesifikke
  • forenkler identifisering av svakheter og forbedringsområder
  • legger til rette for målrettet optimalisering
  • sikrer at kritiske aspekter blir evaluert
  • effektiviserer testprosessen ved å avdekke fundamentale mangler tidlig

Testingen bør ikke bare gjøres én gang, men kontinuerlig over tid, for å fange opp endringer i ytelse, identifisere nye utfordringer og sikre vedvarende kvalitet i tjenesten.

Rammeverket bør jevnlig revideres og oppdateres i takt med teknologisk utvikling og nye erfaringer fra praktisk bruk.

4.3.4 Kompetanse om utvikling og bruk

Det er avgjørende at helse- og omsorgssektoren har tilstrekkelig tilgang til nødvendig kompetanse i hele livsløpet til språkmodeller, fra utvikling, tilpassing, testing og bruk av språkmodeller som er tilpasset norske forhold [140]. Flere av informantene har gitt tilbakemelding på at mer kompetanse i helse- og omsorgssektoren er nødvendig, blant annet innen kunstig intelligens (KI), informasjons- og kommunikasjonsteknologi (IKT), helsefag, juss, lingvistikk og økonomi.

For bruk av KI-verktøy som ledd i helsehjelp, gjelder som ellers kravene som følger av helselovgivningen. Helse- og omsorgstjenesten har plikt til å sørge for at helsehjelpen som gis er forsvarlig. Blant annet må den sørge for at de KI-verktøyene som brukes bidrar til at helsehjelpen som gis, er trygg og sikker. Ifølge KI-forordningen hviler det et ansvar på virksomheter som innfører KI-løsninger (deployer) i å lære opp brukerne. Virksomheten har også et ansvar for å delegere oppgaver knyttet til å sørge for menneskelig overblikk til personer som har den nødvendige kompetansen og gjennomgått den nødvendige opplæringen for å utføre denne funksjonen [141].

KI-kompetanse (AI literacy) er et sentralt begrep KI-forordningen. Det finnes også forsøk på å operasjonalisere og konkretisere begrepet på nivåene 'kunnskap', 'forståelse' og 'ferdigheter' [142].

Det forskes også på KI-kompetanse. En internasjonal metastudie peker på at helsepersonell og studenter har lav KI-kompetanse [143]. Vi kjenner ikke til slike kartlegginger for norske forhold, men det kan være rimelig å anta at det ikke finnes tilstrekkelig KI-kompetanse for trygg og effektiv bruk, utvikling og testing av språkmodeller i norsk helse- og omsorgstjeneste.

4.3.5 Forvaltning av språkmodeller

I dag finnes det ikke et nasjonalt forvaltingsregime, inkludert infrastruktur, for store språkmodeller. Teknologien er fremdeles i rask bevegelse, og nye internasjonale språkmodeller blir stadig introdusert. Språkmodeller blir også utviklet og tilpasset til norske forhold av aktører både i offentlig sektor og i næringslivet. Det finnes imidlertid ingen samlet nasjonal oversikt over hvilke modeller som finnes og hvilke som benyttes i helse- og omsorgssektoren.

Et stabilt forvaltningsregime kan legge til rette for trygg innføring av språkmodeller i helse- og omsorgstjenesten ved å sikre blant annet kvalitet, aktualitet og juridiske rammer.

Teknologirådet anbefaler i sin rapport å definere utvalgte norske språkmodeller som en nasjonal fellestjeneste, på linje med ID-porten, Altinn og Folkeregisteret, for å sikre god drift, forvaltning og tilgang. Både norske forhåndstrente språkmodeller og tilpassede språkmodeller kan inngå. Teknologirådet peker videre på at det bør etableres en ny funksjon for utvikling og drift av en slik fellestjeneste [144]. Dette vil også kunne gjelde for helse- og omsorgssektoren, slik som andre fellestjenester innenfor sektoren. En nasjonal forvaltning vil kunne adressere flere av risikoene beskrevet ovenfor gjennom for eksempel testing og evaluering av språkmodeller for sektoren.

En felles forvaltning vil kunne omfatte flere funksjoner, blant annet:

  • forvaltning og videreutvikling av felles datagrunnlag for tilpassing til norske forhold
  • forvaltning og videreutvikling av kvalitetsrammeverk
  • forvaltning av felles språkmodeller
  • veiledningstjeneste for helsesektoren
  • samarbeide med forskningsinstitusjoner som deltaker i relevante forskningsprosjekter
  • gjøre språkmodeller tilgjengelige for bruk i sektor eller videreutvikling av for eksempel leverandører eller offentlig sektor
  • koordinere innsats i sektoren knyttet til språkmodeller

Felles forvaltning vil ikke erstatte næringslivets rolle som leverandør, men heller legge til rette for trygge rammer for innovasjon og bruk, for private og offentlige organisasjoner. Videreutvikling gjort av kommersielle aktører kan bidra til et bredere tilbud av løsninger. Eksempelvis kan en forvaltningsorganisasjon teste, tilpasse og tilgjengeliggjøre en eller flere forhåndstrente helsefaglige språkmodeller. Slike modeller kan videreutvikles videre til spesifikke bruksområder av for eksempel private eller offentlige aktører.

En forvaltningsorganisasjon kan sikre langsiktighet, kvalitet og koordinert utvikling av språkmodeller for sektoren. Organisasjonen bør ha ansvar for å følge den teknologiske utviklingen, vurdere nye muligheter, men også risikoer og etablere tydelige rammer for hvordan modeller kan anvendes, med særlig vekt på pasientsikkerhet og personvern. Slik kan det gi råd om implementering og bruk av språkmodeller i helsesektoren.

Forvaltning kan foregå i en eksisterende organisasjon eller det kan opprettes en egen organisasjon, for eksempel et eget senter. Det vil være behov for nærmere utredning av behov for og hvordan en slik forvaltning bør organiseres.

  1.  

 

 

 

 

 

[122] Fremtidens digitale Norge. Nasjonal digitaliseringsstrategi 2024-2030, s. 66.

[126] https://www.regjeringen.no/no/dokumenter/nasjonal-strategi-for-kunstig-intelligens/id2685594/

[128] Taushetsplikt og opplysningsrett - Helsedirektoratet

[130] https://arxiv.org/html/2408.14418v1, https://dl.acm.org/doi/abs/10.1145/3630106.3658996

Siste faglige endring: 16. april 2025