Tilgang til store mengder språkdata til trening og finjustering av språkmodellar er avgjerande for at dei skal fungere godt. I ein ny studie av språkmodellar for elektroniske pasientjournalar vert det hevda at “[o]ne primary limiting factor for obtaining high quality predictions is limited data”[1]. Like viktig som kvantitet er kvalitet: Språkdata må vere aktuelle (timeliness) og komplette (completeness), dvs. representative og balanserte. Eit anna viktig moment er opphavet til tekstane: Kjem tekstane frå autoritative, verifiserte kjelder eller er det snakk om automatisk omsette nettsider, til tider av låg kvalitet?
I tillegg til autentiske tekstar trengst det også eigne instruksjonsdata og valideringsdata for å trene og validere språkmodellar.
Det finst ulike typar tekstar som blir brukt eller kan brukast som treningsdata til helsefaglege språkmodellar, sjå figur under.
![Tidsskriftartikler, journaler, nettekster, fagbøker, klassifikasjoner og terminologier og instruksjonsdatasett](https://www.helsedirektoratet.no/rapporter/store-sprakmodellar-i-helse-og-omsorgstenesta/treningsdata/_/image/8c9223e7-0ae5-4614-b64d-1580b8740568:764017e1d51cf903bac45ba2283846614319b2e4/width-768/image-20240426152830-1.png)