Risiko er tett knyttet opp til bruksområder. Konsekvensene av de iboende utfordringene ved store språkmodeller, som hallusinering, bias og mangel på transparens (3.1), vil kunne variere fra ubetydelig til kritiske, avhengig av hvordan og hvor modellene brukes. Noen utfordringer oppstår i brukssituasjonen mens andre fremtrer over tid og med økt bruk.
Noen risikoområder kan medføre konsekvenser for pasientsikkerheten og kvaliteten i helsetjenesten (Figur 2): dialogen mellom menneske og maskin, avhengighet som kan oppstå ved utstrakt bruk av KI-verktøy og personvern ved håndtering av sensitive data. Andre risikoer er mer overordnet og knytter seg til kompleksitet i og samspill mellom ulike regelverk, utilsiktet ulovlig bruk av store språkmodeller, diskriminering av enkeltpersoner eller grupper på bakgrunn av skjevheter i modellene, miljø og bærekraft og hvem som har ansvar dersom feil oppstår.

Arbeidet med rapporten viser at det særlig er usikkerheter forbundet med utvikling og bruk av generativ KI med høy risiko, som i diagnostikk og behandling. Blant annet så stiller WHO spørsmål ved om store språkmodeller vil kunne oppnå tilstrekkelig nøyaktighet til å rettferdiggjøre kostnader forbundet med utvikling, og sikker og effektiv implementering av slike verktøy i gitte bruksområder innen helsehjelpen [56].
De amerikanske myndighetene (Food and Drug Administrasjon (FDA)) har gjort en vurdering av medisinsk utstyr som benytter generativ kunstig intelligens (KI). Der peker de på flere utfordringer og risikoer som hallusinering, mangel på transparens, løpende læring, utfordringer med vitenskapelig dokumentasjon og behov for nye evalueringsmetoder (se faktaboks om FDA-rapporten under) [57]. Vi er ikke kjent med at EU har publisert tilsvarende.
Vurderinger knyttet til medisinsk utstyr med generativ KI utført av FDA
FDA har vurdert medisinsk utstyr som benytter generativ kunstig intelligens (KI) og peker på flere utfordringer og risikoer:
- Hallusineringer: Generativ KI kan produsere feilaktig innhold ("hallusineringer"). For eksempel kan utstyr som er laget for å oppsummere en samtale mellom pasient og helsepersonell utilsiktet generere en falsk diagnose som aldri ble diskutert.
- Manglende transparens: Utstyr som bruker grunnmodeller utviklet av tredjeparter har ofte begrenset tilgang til informasjon om modellenes arkitektur, treningsmetoder og datasett. Dette kan gjøre det vanskelig for produsenter å sikre kvaliteten og sikkerheten.
- Løpende læring: Generative modeller kan enten være statiske eller endre seg kontinuerlig ("løpende læring"). Løpende læring er forbundet med usikkerhet rundt modellens ytelse over tid, og pr. november 2024 hadde ikke FDA godkjent medisinsk utstyr som bruker løpende læring.
- Utfordringer med vitenskapelig dokumentasjon: Det kan være vanskelig å avgjøre hvilken type gyldig vitenskapelig dokumentasjon ("evidens") FDA bør be om for å kunne vurdere utstyrets sikkerhet og effektivitet gjennom hele livssyklusen.
- Utfordringer med FDAs klassifiseringssystem: Generativ KI kan introdusere nye eller annerledes risikoer som utfordrer FDAs nåværende klassifiseringssystem for medisinsk utstyr. Hvordan utstyr klassifiseres påvirker hvilke regulatoriske tiltak som er nødvendige for å sikre at utstyret blir trygt og effektivt.
FDA trekker også frem utfordringer knyttet til evaluering og testing av generative modeller:
- Evaluering før markedslansering: Store språkmodeller har komplekse parametere og kan gi ulike svar basert på små endringer i formulering eller prompter. Det er ikke mulig å teste alle mulige prompter før lansering. Dessuten kan manglende transparens og potensialet for uforutsette svar gjøre det spesielt vanskelig å evaluere slike systemer før de kommer på markedet. De (FDA) peker på viktigheten av planer og metoder for overvåking etter at utstyret er tatt i bruk.
- Behov for nye evalueringsmetoder: Dagens metoder for kvantitativ evaluering av ytelse kan være utilstrekkelige for å sikre trygg bruk av generativ KI. Nye, kvalitative evalueringsmetoder kan bidra til å karakterisere/beskrive modellens autonomi, transparens og forklarbarhet. Hvilke evalueringsmetoder som kreves, vil variere ut fra produktets spesifikke bruksområde og design.
FDA anbefaler produsenter av medisinsk utstyr å vurdere følgende sammenlignet med et ikke-generativt alternativ:
- Vil inkludering av generativ KI øke risikoklassen til et medisinsk utstyr?
- Vil et produkt med generativ KI kunne gi feilinformasjon og dermed utgjøre en risiko for folkehelsen?
- Er generativ KI hensiktsmessig for det tiltenkte bruksområdet?
3.2.1 Mangelfull kompetanse om dialogen med språkmodeller
Spørringer, også kalt prompting, ved hjelp av naturlig språk gjør det enkelt for brukere med ulik kompetanse og bakgrunn å benytte store språkmodeller. Svarene kan imidlertid variere basert på den eksakte ordlyden i spørsmålet som stilles og det er dermed ikke likegyldig hvordan spørsmålene formuleres [58]. Visse formuleringer, upresise spørringer og mangelfull beskrivelse av kontekst kan gi feil eller unøyaktig svar.
Kunnskap om dialogen med språkmodeller kan imidlertid forbedre kvaliteten til svarene fra språkmodeller. For eksempel har en studie vist at strukturerte prompter ga bedre resultater enn ustrukturerte [59] og at to-trinns resonnering (først spørre om sammendrag, så spørre om diagnose) ga bedre diagnostisk nøyaktighet enn enkel prompting [60]. En studie demonstrerte hvordan mer avanserte modeller (som GPT-4) håndterte komplekse prompter godt, mens svakere modeller (som GPT-3,5) presterte dårligere med slike prompter på kliniske resonneringsoppgaver [61]. En annen studie har vist at store språkmodeller har begrenset nytte for klinikere som beslutningsstøtteverktøy, men at de kan ha et større nyttepotensiale hvis brukerne får god opplæring i å formulere gode prompter [62].
Prompt og systemprompt
Prompt: En tekstbasert instruksjon som sendes til en språkmodell (som ChatGPT) for å få et svar. Et prompt er brukerens spørsmål eller forespørsler, og kvaliteten på et prompt påvirker direkte relevansen og kvaliteten på svaret.
Systemprompt: En overordnet instruksjon som definerer språkmodellens rolle, begrensninger og oppførsel. Et systemprompt er vanligvis ikke synlig for sluttbrukeren, men styrer hvordan modellen tolker og svarer på alle brukerensprompt. Et systemprompt kan for eksempel definere at modellen skal opptre som en helsefaglig assistent, svare kortfattet, og alltid henvise til faglige retningslinjer.
3.2.2 Reduserte faglige kunnskaper og ferdigheter
Økende bruk av KI og store språkmodeller i helse- og omsorgstjenesten kan føre til en gradvis avhengighet av verktøyene. Helsepersonell og pasienter kan komme til å støtte seg til teknologien, noe som på sikt kan påvirke både evnen til å gjøre egne vurderinger og innlærte ferdigheter.
Bekreftelsesbias (confirmation bias, algorithmic appreciation) innebærer at brukere ubevisst vektlegger informasjon som bekrefter deres eksisterende oppfatninger [63]. Både måten et prompt formuleres på, og tolkning av svaret gitt av en språkmodell kan påvirkes av bekreftelsestendens. Dette kan være en særlig utfordring ved bruk av KI-verktøy i helse- og omsorgstjenesten, da helsepersonell kan bli mer tilbøyelige til å akseptere svar fra en språkmodell dersom det stemmer overens med forventningene [64]. Det er dermed risiko for at feilaktige svar ikke blir oppdaget, spesielt dersom modellen presenterer informasjon med stor selvsikkerhet, både med og uten kildehenvisning. Opplæring i kritisk bruk av KI-verktøy vil være avgjørende for å redusere denne risikoen.
Automatiseringsbias (automation bias) er en overdreven tiltro til KI-verktøy som kan forringe faglig integritet og kvalitet. Jo bedre KI-systemet blir, jo oftere vil det gi riktig svar og desto vanskeligere blir det for helsepersonell å fange opp de sjeldne tilfellene der de får feil svar fra KI-systemet. Dette kan føre til at brukere ikke stiller spørsmål ved eller vurderer andre kilder til informasjon, fordi de antar at KI-systemet er korrekt.
Tap av ferdigheter (deskilling). Flere kilder, deriblant WHO og National Health Service (NHS) i England, peker på tap av ferdigheter som en risiko ved utstrakt bruk av KI-systemer i helsetjenesten [65][66]. Tap av ferdigheter, kunnskap eller svekket beslutningsevne kan skje dersom ferdigheter ikke er i jevnlig bruk, som for eksempel hvis oppgaver overlates til maskiner, inkludert språkmodeller. Resultatet kan være at helsepersonell ikke overprøver eller utfordrer en beslutning foreslått av en modell. Det kan også føre til at de ikke kan utføre visse typer oppgaver eller prosedyrer i tilfeller der modellen er utilgjengelig, for eksempel ved nettverksfeil eller sikkerhetsbrudd.
En internasjonal undersøkelse blant helsepersonell viser at en stor andel er bekymret for at bruk av generativ KI kan svekke kritisk tenkning og føre til økt avhengighet av KI i kliniske beslutninger[67]. Tap av ferdigheter vil også gjelde neste generasjon helsepersonell som i økende grad vil møte KI-verktøy som en del av utdanning, opplæring og endringer i klinisk praksis [68]. Økt erfaring om bruk av store språkmodeller vil legge grunnlag for ny forskning som på sikt vil kunne endre vår forståelse av denne risikoen.
3.2.3 Redusert personvern og anonyme opplysninger
Det vil være risiko knyttet til etterlevelse av krav til personvern når store språkmodeller er i aktiv bruk. Hvis man legger inn personsensitive data i et prompt til en språkmodell som lagrer data og/eller lærer løpende, for eksempel i en webapplikasjon, er det risiko for at sensitive data brukes til å trene og oppdatere modellen, og at de kan komme på avveie.
En måte å sikre språkmodeller som håndterer personsensitiv informasjon på, kan være å lagre og kjøre modellen i private skytjenester eller lokalt (on-prem-løsninger). Innstillinger som sikrer kryptering av data (i bruk) og at data ikke skal lagres er andre metoder som skal sikre at inn- eller utdata ikke eksponeres.
En vanlig teknikk for å etterleve krav til personvern, er å kun dele og prosessere anonyme opplysninger. Risikoen for personvernet reduseres dersom personopplysninger blir anonymisert fordi de registrerte ikke lenger vil kunne gjenkjennes i datasettet. Anonyme opplysninger kan ikke knyttes til en enkeltperson, og er dermed ikke personopplysninger som reguleres av personvernforordningen.
Personopplysninger regnes som anonymiserte når de håndteres eller bearbeides slik at de ikke lenger kan knyttes til en identifisert eller identifiserbar fysisk person. I vurderingen av om opplysningene er anonyme eller ikke, må man se om det er mulig å spore opplysningene tilbake til de enkeltpersonene opplysningene knytter seg til.
Datasett som skal anonymiseres, må bearbeides for å unngå muligheter for reidentifisering (metode for å finne tilbake til en persons identitet fra anonymiserte data) eller bakveisidentifisering (metode for reidentifisering, ofte ved hjelp av kombinasjon med andre datakilder). Å vurdere hvorvidt opplysningene i et datasett er å anse som reelt anonyme som resultat av anonymiseringsprosessen, vil bero på en helhetlig og risikobasert vurdering som påhviler dataansvarlig. Reell anonymisering kan være vanskelig å oppnå for enkelte datasett, eksempelvis for svært omfattende datasett med mange variabler.
Med dagens tilgang til store mengder data og kraftig analyseteknologi, vil det i større grad enn tidligere være mulig å reidentifisere enkeltpersoner gjennom opplysninger i datasettet [69]. Denne risikoen er det viktig å vurdere ved deling av opplysninger.
3.2.4 Komplekst regelverk
Utvikling og bruk av kunstig intelligens, herunder store språkmodeller i helsetjenesten, må skje innenfor rammene av gjeldende rett til enhver tid. Brukere (deployere) så vel som utviklere av KI-systemer som skal anvendes i helse- og omsorgstjenesten i Norge, må forholde seg til en rekke lover og forskrifter. Det gjelder både generelle og sektorspesifikke regelverk. For eksempel gjelder sektorspesifikke regelverk som norsk helselovgivningen og EUs forordning om medisinsk utstyr. Videre gjelder generelle regelverk som blant annet EUs personvernforordning, åndsverksloven og likestilling- og diskrimineringsloven. I tillegg kommer KI-forordningen, som har trådt i kraft i EU og så raskt som mulig skal innføres i norsk rett [70].
Sammenhengen mellom de ulike og noen ganger overlappende regelverkene er kompleks. Kompleksiteten kan føre til ulik regelverksforståelse og tolkning, at prosesser tar tid eller at handlingsrommet i regelverket ikke utnyttes full ut.
Uklarheter eller usikkerhet om det juridiske handlingsrommet innen gjeldende rett kan føre til manglende etterlevelse ved at virksomheter, helsepersonell eller innbyggere bruker KI-systemer med store språkmodeller i strid med krav oppstilt i regelverket, eller at de legger til grunn en for restriktiv tolkning i forhold til det handlingsrommet i regelverket. Det kan for eksempel være usikkerhet om et KI-system skal klassifiseres som medisinsk utstyr eller ikke, og i så fall hvilken risikoklasse det tilhører [71].
Risikoklasse i henhold til regelverket for medisinsk utstyr er førende for hvilken risikoklasse verktøyet får i henhold til KI-forordningen, og dermed avgjørende for hvilke krav som stilles til blant annet kvalitetssikring og dokumentasjon i henhold til begge lovene. KI-systemer som klassifiseres som medisinsk utstyr blir ofte [72] også klassifisert som høy-risikosystem i henhold til KI-forordningen [73]. For KI-verktøy hvor det er uklart om det er omfattet av definisjonen av medisinsk utstyr, eller hvilken klasse av medisinsk utstyr som gjelder, vil det derfor skape usikkerhet om hvorvidt det også er omfattet av flere krav knytet til KI-forordningen. Eksempler på dette kan være snakkeroboter som brukes i terapi, eller applikasjoner som bruker generativ KI for å lage journalutkast [74].
3.2.5 Utilsiktet ulovlig bruk
Store språkmodeller til allment bruk kan brukes til en rekke oppgaver, også av helsepersonell og pasienter. Fordi teknologien er lett tilgjengelig og enkel å bruke, er det en risiko for at KI-systemer tas i bruk til formål det ikke er utviklet eller regulert for. Noen eksempler er gitt nedenfor.
- Ulovlig bruk av store språkmodeller i helsetjenesten. Hvis helsepersonell skal bruke et KI-verktøy til medisinske formål må de i henhold til håndteringsforskriften bruke CE-merket utstyr [75]. Mangel på kvalitetssikrede KI-verktøy, gjennom for eksempel CE-merking eller annen kvalitetssikring, kan føre til at helsepersonell benytter store språkmodeller for bruksområder de ikke er tiltenkt, og dermed heller ikke er lovlig. Utålmodighet, uvitenhet eller mangel på tydelige retningslinjer kan føre til at helsepersonell bruker språkmodeller til oppgaver som ikke er i tråd med bruksområde(ne) definert av produsenter eller tilbydere av KI-verktøy.
- Uforsvarlig bruk av KI-verktøy av innbyggere. Innbyggere og pasienter har lett tilgang til KI-verktøy som markedsføres som livsstilsverktøy, og KI-modeller til allmenne formål som ikke har spesifikke medisinske formål. Innbyggerne kan likevel bruke verktøyene til for eksempel selvdiagnostisering eller til å få medisinske råd. Det er dermed en risiko for at de får feilaktig eller misvisende informasjon og/eller at informasjonen feiltolkes. Det kan påvirke helsebeslutninger og i verste fall true pasientsikkerheten dersom de ikke er i kontakt med helsetjenesten [76].
Det er også risiko knyttet til ulovlig bruk av helseopplysninger til trening av store språkmodeller. Dersom data som inneholder sensitiv informasjon skal benyttes til trening av en stor språkmodell åpner § 29 i helsepersonelloven for at det kan gis dispensasjon fra taushetsplikten for å bruke helseopplysninger innsamlet i helsetjenesten til gitte formål [77]. Hvis modellen på et senere tidspunkt tas i bruk til andre oppgaver, som medfører at man bruker helseopplysninger til et annet formål enn det dispensasjonsvedtaket omfatter, kreves det at man har lovlig grunnlag for bruk av opplysninger til det nye formålet. Hvis ikke man sørger for dette, kan det medføre bruk av helseopplysninger til nye formål uten tilstrekkelig hjemmelsgrunnlag.
3.2.6 Risiko for diskriminering
Manglende representativitet i treningsdata for store språkmodeller kan føre til skjevheter (bias) og dermed risiko for diskriminering i helse- og omsorgstjenesten, noe som også WHO påpeker i sin rapport [78].
Dersom skjevhetene påvirker noens rett til ytelser eller tilgang til helsetjenester, kan det utgjøre ulovlig diskriminering. KI-systemer som kan medføre denne risikoen faller inn under KI-forordningens definisjon av høy- risiko KI-systemer [79]. I KI-forordningen stilles blant annet krav til at både offentlige og private brukere (deployers) av høy-risiko KI-systemer i slike tilfeller må utføre en Fundamental Rights Impact Assessment (FRIA). Dette er en vurdering av hvordan et KI-system kan påvirke menneskerettighetene, på både individ- og gruppenivå [80]. Hvis det avdekkes risiko for diskriminering av en spesiell gruppe pasienter når et KI-system brukes kan et tiltak være å tilby dem et alternativ uten KI.
3.2.7 Miljø og bærekraft
Utvikling, testing og bruk av store språkmodeller krever ofte høyt energiforbruk og vil dermed kunne sette et betydelig miljøfotavtrykk. Energiforbruket knytter seg til forhåndstrening og ettertrening av modellene [81], og til bruk [82]. Den miljømessige påvirkningen omfatter også høyt forbruk av vann til nedkjøling av store datasentre og utvinning av sjeldne mineraler som er nødvendige for dagens maskinvare brukt til modelltrening[83][84].
Det anslås at helsesektoren står for 4-5 % av globale klimagassutslipp, og både innkjøp og bruk av utstyr og informasjonsteknologi bidrar til utslippene. Helsedirektoratet har publisert et veikart som inneholder konkrete tiltak for hvordan helse- og omsorgstjenesten kan bli mer miljøvennlig [85]. KI trekkes her frem som en teknologi som, brukt klokt, kan legge til rette for en mer bærekraftig helsetjeneste, samtidig som den er ressurskrevende.
Det er krav om at klima og miljø skal vektes med 30% i nye offentlige anskaffelser dersom relevant [86]. Samtidig kan det være vanskelig å få oversikt over klimaavtrykket ved anskaffelse av KI-løsninger. Leverandører oppgir ofte lite informasjon om energiforbruk og karbonutslipp, og det finnes ingen felles standard for hvordan slike beregninger skal gjennomføres. I tilknytning til krav om transparens i KI-forordningen vil det stilles spesifikke krav om dokumentasjon av energiforbruk til leverandører av store språkmodeller som skal brukes i EU [87].
Som et alternativ til store språkmodeller utvikles det også små modeller som krever betydelig mindre energi og ressurser både til trening og i bruk [88]. Ved hjelp av teknikker som modell-destillering [89] og målrettet finjustering yter disse modellene stadig bedre, og kan være et godt alternativ for å løse ulike oppgaver [90].
3.2.8 Vitenskapelige bevis og ansvar
Innføring av KI-verktøy med konsekvenser for pasienters medisinske behandling krever varsomhet. Konsekvensene av bruk av verktøyene kan være sammenlignbare med nye medikamenter eller annet medisinsk utstyr. Det vil være nødvendig med utvikling av nye tester og områder for evaluering og av store språkmodeller som skal brukes innen helse, samt studier og dokumentasjon av disse [91][92]. For eksempel anbefaler WHO å gjøre kliniske randomiserte studier for å bevise at et KI-system som skal brukes i klinisk praksis har bedre ytelse enn alternativer, og ikke kun i et laboratorium eller kontrollerte omgivelser [93]. Uten godt vitenskapelig grunnlag, rett opplæring og korrekt implementering vil ansvarsbyrden være uklar dersom feil har skjedd og helsepersonell har støttet seg på svar fra KI-verktøy. Slike situasjoner kan ha store etiske og juridiske konsekvenser. Merk at virksomhetsledere har ansvar for å legge til rette for korrekt implementering, opplæring og organisering.
Europakommisjonen anerkjente utfordringer knyttet til ansvarsspørsmål ved bruk av kunstig intelligens, og lanserte et forslag til et eget KI-erstatningsdirektiv (AI Liability Directive) i 2022 [94]. Målet til direktivet var å gi økt rettssikkerhet for både pasienter og helsepersonell dersom skade skulle oppstå som følge av bruk av KI-verktøy. I februar 2025 ble forslaget trukket tilbake på grunn av mangel på enighet blant medlemslandene, men problemstillingen er fremdeles like aktuell.
[57] https://www.fda.gov/media/182871/download
[62] https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395#zoi241182r32
[66] https://digital-transformation.hee.nhs.uk/building-a-digital-workforce/dart-ed/horizon-scanning/developing-healthcare-workers-confidence-in-ai/chapter-4-workforce-transformation/the-risk-of-deskilling
[67] https://assets.ctfassets.net/o78em1y1w4i4/kWTSca6VXZ54DBhAIYxJU/386d36dc0c03c4fa8de0365bbb2043e1/Insights_clinician_key_findings_toward_ai.pdf
[69] https://www.datatilsynet.no/rettigheter-og-plikter/virksomhetenes-plikter/informasjonssikkerhet-internkontroll/hvordan-anonymisere-personopplysninger/
[70] Regjeringen vil jobbe for at KI-forordningen blir innlemmet i EØS-avtalen så raskt som mulig: Fremtidens digitale Norge – nasjonal digitaliseringsstrategi 2024–2030, side 67.
[72] Medisinsk utstyr av klasse IIa eller høyere etter loven om medisinsk utstyr
[73] Artikkel 6 i KI-forordningen: https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=OJ:L_202401689#cpt_III.sct_1
[76] Ethics and governance of artificial intelligence for health: Guidance on large multi-modal models s.15
[78] Ethics and governance of artificial intelligence for health: Guidance on large multi-modal models s. xi Tabell 2, s.21
[79] Punkt 5 a i vedlegg III i KI-forordningen
[80] Artikkel 27 i KI-forordningen
[81] Treningen av GPT-4 estimeres å ha forårsaket rundt 300 tonn CO₂-utslipp, til sammenligning er estimatet for et menneske 5 tonn årlig https://hbr.org/2023/07/how-to-make-generative-ai-greener
[82] Hugging Face sin ecological impact calculator estimerer at én spørring til GPT-4o med et relativt kort svar (400 tokens) forbruker 35,1 Wh strøm, ca. syv ganger mer enn å lade en mobiltelefon. EcoLogits Calculator - a Hugging Face Space by genai-impact besøkt februar 2025
[83] Reconciling the contrasting narratives on the environmental impact of large language models | Scientific Reports
[85] Veikart mot en bærekraftig, lavutslipps og klimatilpasset helse- og omsorgstjeneste - Helsedirektoratet
[87] https://code-of-practice.ai/?section=transparency#model-documentation-form endelig versjon av "Code of Conduct" ventet mai 2025
[89] Destillering er en teknikk der output fra en stor, mer kompleks modell blir brukt til å finjustere en mindre modell med mål om å oppnå lignende ytelse. What is Knowledge distillation? | IBM