Store språkmodeller er svært komplekse, og de genererte svarene er basert på statistiske mønstre i treningsdata fremfor faktisk forståelse av innhold. Feil, skjevheter og mangel på transparens kan få konsekvenser for sikkerheten til pasienter og kvaliteten på helsetjenester. Dette kapitlet beskriver noen av de underliggende årsakene som kommer fra trening av og egenskaper ved store språkmodeller (Figur 1).

3.1.1 Dårlig datakvalitet og skjevheter i datagrunnlaget
Trening av store språkmodeller krever enorme mengder data hentet fra kilder som bøker, tidsskrifter, internettsider og sosiale medier. Gode kilder kan også være journalnotater og medisinske bilder.
Kvaliteten på dataene vil påvirke ytelsen til modellene. Noen faktorer som påvirker datakvalitet, er:
- Ufullstendige eller mangelfulle data. Frafall av innrullerte pasienter i kliniske studier kan føre til ufullstendige data. Manglende registrering av informasjon fører til ufullstendige og mangelfulle data [21]. Det kan være fordi dataene ikke er hentet inn systematisk. Pasientjournaler kan også mangle informasjon på grunn av varierende praksis i dataregistrering [22]. En annen årsak kan være at hensyn til personvern kan resultere i utelatelse av data.
- Feilinformasjon viser til informasjon som er feil eller misvisende [23]. Desinformasjon er en systematisk og bevisst form for feilinformasjon [24]. Små mengder feilinformasjon i treningsdata har vist seg å føre til misvisende svar fra medisinske KI-modeller [25]. Store språkmodeller kan være trent på data fra internett og/eller tredjeparts datakilder av varierende kvalitet. Disse kildene kan inneholde feilinformasjon som kan være vanskelig å oppdage.
KI-modeller kan videreføre og forsterke skjevheter som finnes i treningsdataene, samt bidra til å forsterke skjevheter som påvirker menneskelige vurderinger og dømmekraft [26][27]. Nedenfor er noen eksempler på typer skjevheter i data som er viktige å være klar over, spesielt på helseområdet:
- Overvekt av historiske data i forhold til nyere data, gjør at svarene fra modellene ikke er oppdatert i henhold til gjeldende praksiser og forskning. Innen medisin og helse bør ny kunnskap veies tung sammenlignet med historisk praksis.
- Seleksjonsbias i for eksempel publisering av vitenskapelige artikler. Det viser seg at positive funn og data oftere publiseres enn negative funn [28]. Kliniske studier med signifikante resultater rapporteres oftere enn negative studier [29]. Resultatet er at tekster og publikasjoner som brukes til trening av store språkmodeller i stor grad representerer de studiene som oppnår signifikans og bekrefter hypoteser. Ved rapportering av for eksempel intervensjonsstudier vektlegges ofte fordeler mer enn ulemper.
- Manglende lokal kontekst. Treningsdata for de store, generelle språkmodellene har sterk overvekt av tekst og informasjon på engelsk. I noen tilfeller trenes modellene kun på engelsk tekst. Norsk innhold fra internett vil uansett utgjøre en svært liten del av treningsdata [30][31]. Watson Oncology er et eksempel på at mangel på lokal kontekst kan påvirke ytelsen til en modell. Da modellen ble prøvd ut i Danmark hadde den betraktelig dårligere ytelse enn tidligere rapportert [32]. Danske klinikere pekte både på store forskjeller mellom danske og amerikanske retningslinjer for behandling av kreft, samt dårligere kvalitet på data fra kliniske studier utført i USA som mulige årsaker.
- Skjeve eller mangelfulle data for bestemte grupper og minoriteter. Ikke alle grupper og minoriteter er likt representert i datagrunnlaget som brukes for å trene store språkmodeller [33]. Historisk sett har for eksempel kvinner vært underrepresentert i kliniske studier [34]. Personer med nedsatt funksjonsevne eller minoritetsbakgrunn kan også være underrepresentert i kliniske studier. Dette kan skyldes bevisst ekskludering fra studiene, eller praktiske barrierer som transport, økonomi eller andre hindringer for deltakelse [35][36]. Dette er også relevant internt i Norge der det kan være mindre tilgjengelig data fra minoriteter og den samiske urbefolkning for eksempel [37].
3.1.2 Manglende transparens, forklarbarhet og tolkbarhet ("svart boks"-problemet)
Store språkmodeller kan fungere som "svarte bokser", der verken brukere eller utviklere kan forklare fullt ut hvordan et spesifikt svar (utdata) fra en KI-modell blir generert. Mangel på transparens, forklarbarhet og tolkbarhet kan bidra til denne "svart boks"-problematikken [38]. Dette er distinkte karakteristikker som bygger oppunder hverandre.
Transparens viser til hva som skjedde i modellen. Indikatorer som bidrar til transparens er tilgjengelig informasjon om:
- data brukt til trening
- kildekode
- metoder for trening
- evaluering
- ytelse
The Foundation Model Transparency index bygger på 100 ulike indikatorer på transparens relatert til trening, selve modellen, eller bruken av modellen [39]. Eksempelvis har Mistral 7B, som kan brukes av tredjeparter uten restriksjoner, en indeks på 55 %, det vil si at det ikke finnes noe tilgjengelig informasjon om 45 av de 100 indikatorene (deriblant datakilder) [40].
Forklarbarhet viser til hvordan et KI-system fungerer og hvilke mekanismer som styrer beslutningene det tar. Med mange millioner eller milliarder parametere og komplekse nevrale nettverk kan store språkmodeller operere som svarte bokser, selv med åpenhet rundt både data og kildekode [41].
Tolkbarhet viser til hvorfor modellen kom frem til et svar [42]. Det kan være å vise frem til brukere hvilke instruksjoner som er gitt for å komme frem til svaret, noe dagens KI-systemer sjelden viser. En metode som bidrar til bedre tolkbarhet, er resonnering (se KI-faktaark Intelligensforsterkning og kontroll [43]).
Store språkmodeller opererer sannsynlighetsbasert og genererer det mest sannsynlige svaret ut fra treningsdataene, men ofte uten en klar forståelse av når svarene er riktige. Manglende forklarbarhet og tolkbarhet kan for eksempel gjøre det vanskelig for klinikere å vurdere om anbefalinger fra språkmodeller er pålitelige, fordi de ikke kan evaluere hvilke mekanismer og data som ligger til grunn [44].
Metoder for å forankre modeller i fakta eller synliggjøre resonnementer eller hvilke parametere som er vektlagt (se KI-faktaark Intelligensforsterkning og kontroll [45]) kan gjøre det lettere for helsepersonell å vurdere kvaliteten på det genererte svaret [46]. Samtidig kan bruk av forankringsmetoder redusere oppmerksomheten rundt modellens begrensninger som fortsatt krever en kritisk evaluering av utdataene [47].
Mangelen på forklarbarhet og tolkbarhet gjør det også vanskelig å oppdage når modellen genererer feilaktige eller oppdiktede svar, også kjent som hallusinering.
3.1.3 Hallusinering
Fordi språkmodeller ikke har en innebygd forståelse av kunnskap og hva som er sannhet, men opererer basert på sannsynlighetsberegninger, kan de generere feilaktig, mangelfull, unøyaktig eller misvisende informasjon med stor overbevisning. Dette fenomenet, kjent som hallusinering, innebærer at modellen kan presentere informasjon som ser troverdig ut, men som enten er feil, tatt ut av kontekst eller ikke har noe grunnlag i treningsdataene.
Sannsynligheten for hallusinering øker dersom treningsdataene har lav kvalitet eller mangler representasjon, for eksempel dersom viktige medisinske perspektiver eller oppdaterte retningslinjer mangler. Selv i modeller trent på høykvalitetsdata kan hallusinering forekomme, da dette er en iboende begrensning ved store språkmodeller [48].
Hallusinering kan deles inn i to kategorier:
- fakta-hallusinering, der modellen genererer feil eller oppdiktede påstander.
- kontekst-hallusinering, der informasjon tolkes feil eller settes inn i en uriktig sammenheng.
I tillegg kan utelatelse av kritisk informasjon utgjøre en risiko, særlig i helsesammenheng, der det stilles strenge krav til nøyaktighet.
Temperaturinnstilling (se faktaboks om temperatur), ettertrening og metoder for å kunnskapsforankre modellen kan redusere forekomsten av hallusinering (se avsnitt 4.2).
Temperatur (grad av variasjon)
I fagområdet KI er temperatur en parameter som styrer hvor tilfeldig teksten som blir generert skal være. Temperaturen kan justeres i utvalgsfasen, der modellen velger det neste ordet basert på beregnede sannsynligheter. Lav temperatur (for eksempel 0.1-0.3) gjør at modellen oftere velger de mest sannsynlige ordene som gir mer forutsigbare og konservative svar. Høy temperatur (for eksempel 0.8-1.0) øker sjansen for at den velger mer uventede eller varierte ord som gir mer kreative og varierte svar. For medisinske anvendelser vil man ofte velge en lav temperatur for å sikre mer presise og konsekvente svar.
Eksempel (generert av ChatGPT-4o): Spørsmål: "Hva er vanlige årsaker til hodepine?"
- Lav temperatur (0.2) gir et kortfattet, nøyaktig og objektivt svar: "Vanlige årsaker til hodepine inkluderer stress, dehydrering, spenninger i muskler, søvnmangel og migrene. Noen medisinske tilstander, som høyt blodtrykk eller bihulebetennelse, kan også forårsake hodepine."
- Høy temperatur (0.8) gir et mer variert, uformelt og beskrivende svar: "Hodepine kan skyldes alt fra stress og dehydrering til dårlig søvn eller spent nakkemuskulatur. Noen får hodepine av sterke lukter eller høye lyder, mens andre kan oppleve det som et symptom på underliggende sykdommer som bihulebetennelse eller migrene. I sjeldne tilfeller kan hodepine være et tegn på mer alvorlige tilstander."
3.1.4 Forringing av modellens ytelse over tid
Store språkmodeller er dynamiske og påvirkes av både eksterne og interne faktorer over tid. Tre utfordringer knyttet til forringing av modellens ytelse er modelldrift, katastrofal glemsel og modellkollaps. Disse fenomenene kan redusere modellens evne til å gi nøyaktige, relevante og pålitelige svar, noe som er kritisk i helsesammenheng.
Modelldrift beskriver hvordan en modells ytelse kan svekkes over tid, enten fordi den møter nye data som skiller seg fra treningsgrunnlaget, eller fordi sammenhengen mellom inndata og utdata endrer seg [49]. Modelldrift kan føre til at KI-systemer gir utdaterte eller feilaktige anbefalinger eller informasjon. Dette er relevant i helsefeltet, der pasientpopulasjoner, behandlingsmetoder og medisinske retningslinjer stadig utvikler seg. Noen underliggende årsaker er:
- Datadrift som oppstår når distribusjonen av inndata modellen møter i daglig bruk, skiller seg fra dataene som ble brukt til å trene og optimalisere modellen. For eksempel kan en modell utviklet for en yngre pasientpopulasjon gi mindre presise anbefalinger dersom den i stedet brukes på en eldre pasientgruppe.
- Konseptdrift som skjer når forholdet mellom inndata og utdata endrer seg over tid. For eksempel, hvis en ny behandling eller endring i livsstil viser seg å redusere sammenhengen mellom alder og risiko for diabetes, vil modellen gi utdaterte eller misvisende anbefalinger fordi den fortsatt baserer seg på det gamle forholdet.
- Ikke oppdatert informasjon. Det er ressurskrevende å trene store språkmodeller, og de vil ikke til enhver tid være trent på den nyeste tilgjengelige informasjonen. Dette kan føre til at modellene gir utdaterte svar som påvirker modellens ytelse innen medisin og helse [50][51]
Katastrofal glemsel (catastrophic forgetting eller catastrophic interference) oppstår når en modell mister eller forringer tidligere lært kunnskap som følge av trening på nye data. For eksempel kan en stor språkmodell miste presisjonen for medisinsk diagnostikk hvis den ettertrenes på generell tekst.
Modellkollaps er en langsiktig utfordring som kan oppstå når en stadig større andel av treningsdataene er generert av språkmodeller fremfor mennesker. Dette kan føre til at modellene lærer fra tidligere modeller i stedet for fra ekte menneskelig kunnskap, noe som gradvis svekker kvaliteten og mangfoldet i treningsdataene [52]. Modellkollaps handler ikke bare om syntetiske data, men også om tap av modellens kompleksitet og variasjon. Når modeller lærer fra hverandre kan subtile mønstre, nyanser og ekstreme verdier i dataene forsvinne. Dersom det fører til en gradvis utarming av modellens evne til å fange opp komplekse sammenhenger og produsere variert innhold, kan det resultere i irreversible feil eller defekter. Denne risikoen er ikke akutt, men kan bli en utfordring på sikt dersom store mengder fremtidig data er syntetisk generert.
Katastrofal glemsel
Årsaker til katastrofal glemsel inkluderer:
- oppdatering av alle vektene i modellen ved ny trening
- sekvensiell læring der gamle data ikke lenger er tilgjengelige
- overtilpasning til nye data, slik at tidligere læring fortrenges
Det finnes mange strategier for løpende læring over tid (continual learning) som kan motvirke katastrofal glemsel. Disse inkluderer selektiv vektfrysing (selective weight freezing) for å bevare kritisk kunnskap, erfaringsrepetisjonsteknikker (experience replay) som blander historiske data med nye treningsdata eller arkitekturbaserte løsninger som progressive nevrale nettverk der nye oppgaver håndteres i separate lag. Disse metodene kan implementeres enkeltvis eller i kombinasjon for å oppnå mer robust læring over tid.
Kilde: https://link.springer.com/article/10.1007/s11063-024-11709-7
3.1.5 Sårbarheter ved cybersikkerhet og informasjonssikkerhet
Cybersikkerhet må være en del av vurderingen av leverandørkjeden til en språkmodell. Tradisjonelle cybersikkerhetstiltak som tilgangskontroll, logging og testing er fortsatt relevante, men må tilpasses språkmodellers unike sårbarheter. Risikovurderinger bør i tillegg inkludere modellens tilgangsnivåer, datahåndtering og beskyttelse mot manipulasjon av input, for å sikre trygge løsninger innen helse- og omsorgssektoren.
Store språkmodeller skiller seg fra tradisjonell programvare ved sin kompleksitet og manglende transparens (se 3.1.2), noe som skaper særlige cybersikkerhetsutfordringer. I motsetning til tradisjonell programvare, der kildekode kan gjennomgås for sikkerhetsvurdering, er mye av språkmodellers funksjonalitet basert på enorme datasett som kan være vanskelig å verifisere (se 3.1.1). Ofte er selve grunnmodellen en "svart boks", og leverandørkjeden kompleks med ulike aktører for modellutvikling, data og programvare. Dette gjør det krevende å oppdage sårbarheter knyttet til for eksempel forgiftede treningsdata eller bakdører i modellen.
Språkmodeller har brede bruksområder og kan brukes på uforutsette måter. Dersom de har tilgang til dokumenter eller systemer, kan de utilsiktet eksponere sensitiv informasjon. Et eksempel er Copilot, som har tilgang til alle data brukeren har tilgang til, noe som stiller store krav til kontrollrutiner [53]. I helsesektoren, hvor integritet og konfidensialitet er avgjørende, er dette en særlig utfordring.
En kjent risiko er prompt injection, hvor angripere manipulerer modellens svar ved hjelp av spesialutformede spørringer til systemet. Slik kan angriper for eksempel omgå sikkerhetsmekanismer eller avsløre treningsdata. Indirekte prompt injection, der skadelig input kommer fra eksterne dokumenter eller nettsider, er særlig bekymringsfullt da det kan påvirke svaret uten at brukeren fatter mistanke.
Store språkmodeller krever betydelige ressurser, noe som gjør dem sårbare for tjenestenektangrep (DDoS) ved mange eller ressurskrevende spørringer.
Open Worldwide Application Security Project [54] (OWASP) og MITRE [55] peker på en rekke spesifikke sikkerhetsrisikoer ved språkmodeller og oppdaterer dem jevnlig i takt med teknologiens utvikling.
[23] https://tenk.faktisk.no/ordbok Feilinformasjon
[24] https://tenk.faktisk.no/ordbok Desinformasjon
[31] URLer for domenet .no utgjorde 0.3% av alle URL’er i web-crawl for Common Crawl februar 2025: https://commoncrawl.github.io/cc-crawl-statistics/plots/tld/latestcrawl.html
[37] https://uit.no/research/sshf-no?p_document_id=674134&Baseurl=/research/#region_752662 Senter for samisk helseforskning (SSHF) ble etablert i 2001 som følge av manglende kunnskap om helse og levekår til den samiske befolkningen.
[39] Center for Research on Foundation Models (CRFM) ved Stanford: https://crfm.stanford.edu/fmti/paper.pdf
[43] KI-faktaark publiseres her: KI-faktaark
[45] KI-faktaark publiseres her: KI-faktaark