Kapittel 5 Treningsdata

Tilgang til store mengder språkdata til trening og finjustering av språkmodellar er avgjerande for at dei skal fungere godt. I ein ny studie av språkmodellar for elektroniske pasientjournalar vert det hevda at “[o]ne primary limiting factor for obtaining high quality predictions is limited data”[1]. Like viktig som kvantitet er kvalitet: Språkdata må vere aktuelle (timeliness) og komplette (completeness), dvs. representative og balanserte. Eit anna viktig moment er opphavet til tekstane: Kjem tekstane frå autoritative, verifiserte kjelder eller er det snakk om automatisk omsette nettsider, til tider av låg kvalitet?

I tillegg til autentiske tekstar trengst det også eigne instruksjonsdata og valideringsdata for å trene og validere språkmodellar.

Det finst ulike typar tekstar som blir brukt eller kan brukast som treningsdata til helsefaglege språkmodellar, sjå figur under.

Tidsskriftartikler, journaler, nettekster, fagbøker, klassifikasjoner og terminologier og instruksjonsdatasett — Figur 14: Typar tekst til trening av helsefaglege språkmodellar

[18] https://www.sciencedirect.com/science/article/pii/S1532046420302653

5. 1. Helsefaglege tidsskriftsartiklar

5. 2. Journaldokument

5. 3. Spørsmål og svar-tekstar

5. 4. Helsefaglege nett-tekstar

5. 5. Digitaliserte helsefagbøker

5. 6. Klassifikasjonar og terminologiar som språkdata

5. 7. Instruksjonsdata

5. 8. Valideringsdata

Forrige kapittel Om store språkmodellar

Neste kapittel Bruksområde for språkmodellar

Siste faglige endring: 06. mai 2024