Bruk av kunstig intelligens (KI) kan blant annet bidra til å akselerere sekvenseringstiden, redusere feil i genomsekvensering, identifisere nøyaktig hvilke varianter som er relatert til sykdom eller fenotypiske trekk, tilpasse medisin til pasientens genetikk, brukes i populasjonsstudier, gjøre analyse av strukturell variasjon, og se ulike datakilder i sammenheng [261]. Det kan bidra til nye anvendelsesområder eller ny praksis for bruk av genetiske undersøkelser og genombasert medisin.
Dagens regulering
Bioteknologiloven regulerer ikke bruk av kunstig intelligens direkte, men bestemmelsene om genetiske undersøkelser og bruk av genetiske opplysninger vil være relevant. Det samme vil biomedisinkonvensjonen og tilleggsprotokollene for biomedisinsk forskning og for genetiske undersøkelser for helseformål.
Forordning om kunstig intelligens ble vedtatt i EU i 2024 og skal legge til rette for menneskeorientert og etisk forsvarlig kunstig intelligens, samt hensynta grunnleggende menneskerettigheter. Andre regelverk som er aktuelle når man bruker kunstig intelligens på genetiske opplysninger, er for eksempel personvernforordningen (GDPR) og regelverket for medisinsk utstyr. Les mer på Helsedirektoratets temasider om regelverket for utvikling av kunstig intelligens.
Dagens praksis
Bruk av kunstig intelligens på genomdata kan medføre nye juridiske, etiske og praktiske problemstillinger som må løses. Foreløpig er det begrenset bruk av kunstig intelligens på systemer knyttet til genomdata i den norske helsetjenesten.
KI-system for varianttolkning
Haukeland Universitetssykehus har anskaffet varianttolkningsverktøyet «Franklin» [262]. Dette produktet bruker kunstig intelligens til å analysere og rangere genetiske varianter basert på sannsynlig klinisk betydning [263]. Erfaringene fra Haukeland er at produktet er svært treffsikkert når det gjelder å hente ut varianter av interesse. Den sykdomsgivende genvarianten har vært blant variantene som produktet har valgt ut i alle de ca. 800 pasienttilfellene som de har testet. Det er mulig å legge til fenotypiske trekk hos pasienten, og da kan listen over mulige sykdomsgivende genvarianter reduseres enda mer, slik at det både spares manuell arbeidstid og blir færre utilsiktede funn.
KI-system for predikering av betydning av spleisevarianter
Gener består av kodende og ikke-kodende deler. I løpet av prosessen med å lage et protein fra DNA, så fjernes de ikke-kodende delene og de kodende delene spleises sammen. En betydelig andel (opptil 60 prosent) av de patogene genvariantene som oppdages, antas å påvirke korrekt spleising [264]. På Ullevål sykehus bruker de produktet SpliceAI [265], som baserer seg på dyp læring for å analysere hvilke spleisevarianter som kan ha betydning for pasienten som undersøkes. Produktet undersøker en større del av spleiseområdet enn de tidligere har kunnet undersøke. Mistanke om spleisefelt av betydning må verifiseres med mRNA-undersøkelse. SpliceAI er trent på referansedata og bruker ikke spesifikke data fra individuelle brukere for å forbedre modellen.
Internasjonal bruk av KI på genomdata
Flere norske klinikere og forskere er med i EU-prosjekter som gjelder bruk av KI innenfor persontilpasset medisin, der også genetiske data vil kunne inngå [266]. Det er foreløpig begrenset bruk av kunstig intelligens på genomdata, og dermed også få problemstillinger i Norge. Vi nevner derfor her kort enkelte nye bruksområder fra andre land. Eksemplene kommer fra forskningsartikler og illustrerer det som kan bli mulig de neste årene.
Imputering
Biobanker som samler informasjon om både gener og egenskaper (som sykdommer, høyde, vekt osv.) fra mange mennesker, er blitt viktige for forskning på arv og genetikk. Imidlertid mangler det ofte informasjon om enkelte egenskaper hos mange av deltakerne, og det gjør dataene mindre nyttige. Forskere har derfor utviklet en metode som bruker dyp læring, en type kunstig intelligens, for å «fylle inn» (imputere) manglende data. Dette er mulig ved at systemet lærer hvilke deler av kromosomene som vanligvis nedarves sammen, ved å lese store mengder genomer. Kunnskapen brukes for å gjette hvilken del av genomet som mangler.
Imputering vil ikke gi en sikker sekvens på alle posisjoner i genomet, men kan likevel være til nytte i en del situasjoner. Det vil kunne fungere som et utgangspunkt for genetiske undersøkelser av sjeldne varianter med felles opphav. Imputering er testet på data fra rundt 300 000 personer i UK Biobank, hvor det ble vist at produktet «AutoComplete» kunne lage estimater som lignet veldig på de ekte verdiene. Når de etterpå analyserte de «utfylte» dataene, fant de mange flere genetiske sammenhenger enn før, noe som er interessant for forskere som trenger å finne flere og bedre genetiske funn, selv i datasett der det mangler informasjon [267].
Syntetiske genomer
Store språkmodeller har et betydelig potensial for å tolke biologiske sekvensdata. Et eksempel er Evo 1 [268] og Evo 2 [269], som er kunstig intelligens-baserte systemer fra Standford University som kan tolke og generere genomsekvenser i stor skala. Evo 1 er begrenset til mikrober, mens oppfølgeren Evo 2 er trent på alle kjente levende organismer, inkludert mennesker og noen utryddede arter.
Evo-modellene har ifølge Stanford University en omfattende «forståelse» av den genetiske koden. Evo 2 er svært god til å skille mellom mutasjoner som bare er tilfeldige og ufarlige variasjoner fra de som faktisk forårsaker sykdom.
Evo-modellene kan også brukes til å designe nye genetiske sekvenser med spesifikke, ønskede funksjoner. Å kunne lage fungerende genomsekvenser, syntetiske genomer, er en forutsetning for helsyntetisk liv, som blant annet er omtalt i Bioteknologirådets artikkel om syntetisk biologi [270].
Syntetiske genomer for enkle organismer som bakterier er allerede konstruert. Det ligger fortsatt trolig et par tiår [271] frem i tid før man klarer å lage celler med syntetiske genomer fra mennesker, som har langt mer komplekse genomer enn mikrober. Arbeid med å lage syntetisk menneskegenom er imidlertid i gang. Flere universiteter i USA har gått sammen om prosjektet Syntetic Human Genome (SynHG) [272]. Arbeidet medfører store muligheter for det medisinske fagfeltet, men også store etiske utfordringer og muligheter for misbruk.
Predikere fenotype fra genotype
Ved Waisman Center har man utviklet et produkt som bruker dyp læring til å forstå sammenhengen mellom genetisk kode (genotype) og fysiske egenskaper eller sykdommer (fenotype, genuttrykk). Modellen ble trent på store datasett for Alzheimers sykdom og schizofreni. Resultatene viste at modellen ikke bare kunne identifisere potensielt viktige gener og mutasjoner, men også forutsi graden av kognitiv svikt med høy nøyaktighet, selv når deler av genotypen manglet [273].
Oppsummere resultater fra genetiske undersøkelser
Med økt bruk av genetiske undersøkelser, og kanskje også på friskere pasienter, kan det være behov for å tenke nytt om hvordan man kan dekke pasientenes behov for informasjon. Kunstig intelligens kan brukes, og brukes i enkelte tilfeller i utlandet i dag, til å generere helserapporter [274] basert på pasientenes genetiske undersøkelser. Omfanget av bruk av kunstig intelligens til dette formålet, og hvorvidt rapportene blir sett over av helsepersonell før de sendes ut, er ikke undersøkt. Det kan være et arbeidsbesparende verktøy både for helsepersonell og pasient, men reiser også en rekke spørsmål knyttet til hvor sikker informasjonen som kommuniseres er, hva som bør kommuniseres til hvem og hvordan. Systemer basert på kunstig intelligens kan tolke genetisk risiko på en for deterministisk måte, og overse miljømessige, sosiale og livsstilsfaktorer. Dette kan føre til at man medikaliserer normale variasjoner eller overvurderer risiko for sykdom.
Problemstillinger
Trening av kunstig intelligens på genomdata fra relevante populasjoner
Formålet med bioteknologiloven er «å sikre at medisinsk bruk av bioteknologi utnyttes til beste for mennesker i et samfunn der det er plass til alle. Dette skal skje i samsvar med prinsipper om respekt for menneskeverd, menneskelige rettigheter og personlig integritet og uten diskriminering på grunnlag av arveanlegg (…)».
Funksjonaliteten til et kunstig intelligens-basert system er tett koblet til treningsdataene som er brukt ved utvikling av systemet. Vi er kjent med at det ikke er lett å få like gode treningsdata fra alle deler av befolkningen. For eksempel er det fremdeles lite sekvensert genom fra den samiske delen av befolkningen, og på verdensbasis er det relativt lite sekvensert genom fra Afrika i databasene som brukes.
For å sikre at et KI-system fungerer for alle relevante populasjoner, må man kartlegge eventuelle skjevheter i treningsdataene knyttet til disse populasjonene. Eksempler fra flere land, blant annet Canada, USA og Tyskland [275] viser at det er samtidige fordeler og ulemper ved å samle inn data om etnisitet i kliniske settinger, særlig med tanke på kunstig intelligens i medisin. Bruken av slike data har både fordeler og ulemper. Uten data om for eksempel hvilken befolkningsgruppe en person tilhører kan det være vanskelig å oppdage skjevheter i treningsdata eller resultatene fra en gitt maskinlæringsalgoritme, som er nødvendig for å bidra til at medisinske KI-systemer ikke ekskluderer eller påfører skade på marginaliserte grupper. Bruken av slike data kan også være en fordel for minoritetsgrupper som historisk sett har hatt dårligere helseutfall, dårligere tilgang til helsetjenester og utilstrekkelig representasjon i forskning. Samtidig innebærer innsamlingen av slike data også en mulig risiko for misbruk av data om, og diskriminering av minoritetsbefolkningene og andre marginaliserte grupper. Innsamling og bruk av etniske data for trening av kunstig intelligens på genetikkområdet kan med andre ord til en viss grad forsvares og bli aktuelt i de kommende årene. I det europeiske 1+ Million Genomes-initiativet arbeides det med å etablere et kunnskapsgrunnlag gjennom referansegenomdatasett, Genome of Europe, med til sammen 500 000 deltakere som skal representerer det geografiske genetiske mangfoldet i Europa.
Samtykke til lagring av data for bruk hos andre, for å lette deling av norske data ved samarbeid
Et spørsmål som har oppstått under evalueringen, er i hvilken grad norske genetiske data kan benyttes til å trene kunstig intelligens som er anskaffet av helsetjenesten og hvor det er behov for å dele data til andre land.
Et eksempel er varianttolkningsverktøyet Franklin, som nevnt tidligere, og som brukes innen kimbane-, kreft- og enkeltbasevariantanalyse. Produktet bruker en database med ulike etnisiteter. Produsenten ønsker at kundene skal bidra til videre tilpasning og læring i systemet ved å levere enkeltvarianter og tilknyttet fenotypedata. Sykehuset har i dette tilfellet bestemt seg for å ikke dele norske data for videre trening. Man kan stille spørsmål ved at den norske helsetjenesten ikke har betenkeligheter ved å bruke et KI-system trent på genomdata fra innbyggere i andre land, samtidig som genomdata fra egne innbyggere ikke kan brukes til videre utvikling av produktet. Dette kan også ha kvalitetsmessige konsekvenser. KI-systemer er som regel trent på andre populasjoner enn den norske, og siden funksjonaliteten i KI-systemer er tett knyttet til treningsdataene, så kan videre trening på norske pasienter i enkelte tilfeller gi bedre kvalitet på resultatene når systemet brukes på norske pasienter.
Avdelingen på Ullevål har en lignende problemstilling. De samarbeider med Karolinska Institutet i Nordic Alliance for Clinical Genomics (NACG), men opplever det som vanskelig å få lov til å bidra med egne data i samarbeidet.
Problemstillingene illustrerer etiske, juridiske og samfunnsmessige sider ved deling av genetiske data til (videre)utvikling av produkter og tjenester innen kunstig intelligens for helseformål, helsepersonells etiske involvering i problemstillingene, og spørsmål om hvem som kan samtykke til utlevering for dette formålet.
[261] Vilhekar & Rawekar (2024) Artificial Intelligence in Genetics (assets.cureus.com) Cureus. 2024 Jan 10;16(1)
[262] Les mer på nettstedet til Franklin (franklin.genoox.com)
[264] López-Bigas et al. (2005) Are splicing mutations the most frequent cause of hereditary disease? (sciencedirect.com). FEBS letters. 2005 Mar 28;579(9):1900-3.
[267] An U et al. (2023). Deep learning-based phenotype imputation on population-scale biobank data increases genetic discoveries (nature.com). Nature Genetics. 2023 Dec;55(12):2269-76.
[268] Nguyen et al. (2024) Sequence modeling and design from molecular to genome scale with Evo (science.org). Science. 2024 Nov 15;386(6723):eado9336.
[275] Fiske, A. et al. (2025). Weighing the benefits and risks of collecting race and ethnicity data in clinical settings for medical artificial intelligence (PDF, thelancet.com). The Lancet Digital Health. 2025 Apr 1;7(4):e286-94.