En verdensførste studie fant at når du blir stilt et helserelatert spørsmål, jo mer bevis som gis til ChatGPT, jo mindre pålitelig blir det, noe som reduserer nøyaktigheten til svarene til bare 28 %.
Ettersom populariteten til store språkmodeller (LLM) som ChatGPT eksploderer, utgjør de en potensiell risiko for det økende antallet mennesker som bruker nettbaserte verktøy for å få viktig helseinformasjon.
Forskere fra CSIRO, Australias nasjonale vitenskapsbyrå, og University of Queensland (UQ) utforsket et hypotetisk scenario der en gjennomsnittlig person (ikke-helsepersonell) spør ChatGPT om behandling «X» har en positiv effekt på tilstanden «Y».
De 100 spørsmålene som ble presentert varierte fra «Kan sink hjelpe til med å behandle forkjølelse?» til «Vil det å drikke eddik løse opp et fast fiskebein?»
ChatGPTs svar ble sammenlignet med det kjente riktige svaret, eller «ground truth», basert på eksisterende medisinsk kunnskap.
Dr Bevan Koopman, seniorforsker ved CSIRO og førsteamanuensis ved UQ, sa selv om risikoen ved å søke etter helseinformasjon på nettet er godt dokumentert, fortsetter folk å søke helseinformasjon på nettet, og i økende grad via verktøy som ChatGPT.
«Den utbredte populariteten til å bruke online LLM-er for å få svar om folks helse er grunnen til at vi trenger fortsatt forskning for å informere publikum om risikoene og hjelpe dem med å optimalisere nøyaktigheten av svarene deres,» sa Dr. Koopman.
«Selv om LLM-er har potensial til å forbedre måten folk får tilgang til informasjon på, trenger vi mer forskning for å forstå hvor de er effektive og hvor de ikke er. »
Studien undersøkte to spørsmålsformater. Det første var bare et spørsmål. Det andre var et partisk spørsmål med støttende eller motsatte bevis.
Resultatene avslørte at ChatGPT var ganske effektiv til å gi nøyaktige svar kun på spørsmål, med 80 % nøyaktighet i dette scenariet.
Når språkmodellen mottar en evidensbasert oppfordring, synker imidlertid nøyaktigheten til 63 prosent. Nøyaktigheten ble ytterligere redusert til 28 prosent når en «usikker» respons var tillatt. Dette funnet er i strid med den populære troen på at å spørre med bevis forbedrer nøyaktigheten.
«Vi vet ikke hvorfor dette skjer. Men fordi dette skjer enten bevisene som er gitt er korrekte eller ikke, kan bevisene legge til for mye støy, og dermed redusere nøyaktigheten, sa Dr. Koopman.
ChatGPT ble lansert 30. november 2022 og har raskt blitt en av de mest brukte store språkmodellene (LLM). LLM er en form for kunstig intelligens som gjenkjenner, oversetter, oppsummerer, forutsier og genererer tekst.
Studiemedforfatter professor Guido Zuccon fra UQ, direktør for AI ved Queensland Digital Health Center (QDHeC), sa at store søkemotorer nå integrerer LLM-er og søketeknologier i en prosess kalt Retrieval Augmented Generation.
«Vi viser at interaksjonen mellom LLM og forskningskomponenten fortsatt er dårlig forstått og kontrollerbar, noe som fører til generering av unøyaktig helseinformasjon,» sa professor Zuccon.
DE studere ble nylig presentert på Empirical Methods in Natural Language Processing (EMNLP), en ledende konferanse om naturlig språkbehandling på området.
De neste trinnene i forskningen vil være å studere hvordan publikum bruker helseinformasjon generert av LLM-er.
Ansvarsfraskrivelse: CSIRO og University of Queensland, som evidensbaserte organisasjoner, vil alltid gå inn for at helseinformasjon skal være evidensbasert. Gjeldende LLM-teknologi, selv om den er lovende, mangler en mengde bevis for å støtte bruken i den virkelige helsesektoren.
«Ond alkoholelsker. Twitter-narkoman. Fremtidig tenåringsidol. Leser. Matelsker. Introvert. Kaffeevangelist. Typisk baconentusiast.»