Pētījums atklāj, ka ChatGTP pārspēj ārstus, sniedzot augstas kvalitātes atbildes uz pacientu jautājumiem
Straujā virtuālās veselības aprūpes paplašināšanās ir izraisījusi pacientu ziņojumu pieaugumu, vienlaikus palielinoties veselības aprūpes speciālistu darbu un izdegšanas risku. Mākslīgais intelekts (MI) varētu palīdzēt radīt atbildes uz pacientu jautājumiem, izstrādājot atbildes, kuras varētu pārskatīt ārsti.
Pētījuma mērķis bija novērtēt MI tērzēšanas robota palīga (ChatGPT), kas tika izlaists 2022. gada novembrī, spēju sniegt kvalitatīvas un empātiskas atbildes uz pacientu jautājumiem.
Šajā šķērsgriezuma pētījumā tika izmantota publiska un neidentificējama jautājumu datubāze no publiska sociālo mediju foruma (Reddit's r/AskDocs), lai nejauši atlasītu 195 apmaiņas gadījumus no 2022. gada oktobra, kuros pārbaudīts ārsts atbildēja uz publisku jautājumu. Chatbot atbildes tika ģenerētas, ievadot sākotnējo jautājumu jaunā sesijā (bez iepriekšējiem jautājumiem sesijā) 2022. gada 22. un 23. decembrī. Sākotnējais jautājums kopā ar anonimizētām un nejauši sakārtotām ārstu un tērzēšanas robotu atbildēm tika novērtētas trīs eksemplāros licencētu veselības aprūpes speciālistu komandā. Vērtētāji izvēlējās “kura atbilde bija labāka” un vērtēja gan “sniegtās informācijas kvalitāti” (ļoti slikta, slikta, pieņemama, laba vai ļoti laba), gan “nodrošināto empātiju vai izturēšanos pret pacientu” (nav empātiska, nedaudz empātiska, vidēji empātiska , empātisks un ļoti empātisks). Vidējie rezultāti tika sakārtoti skalā no 1 līdz 5 un salīdzināti starp tērzēšanas robotu un ārstiem.
No 195 jautājumiem 78,6 % (95 % TI [75,0 % - 81,8 %]) no 585 novērtējumiem vērtētāji deva priekšroku tērzēšanas robotu atbildēm, nevis ārstu atbildēm. Vidējās (IQR) ārstu atbildes bija ievērojami īsākas nekā tērzēšanas robotu atbildes (52 [17-62] vārdi pret 211 [168-245] vārdiem; t = 25,4; P < 0.001). Chatbot atbildes tika novērtētas ar ievērojami augstāku kvalitāti nekā ārstu atbildes (t = 13,3; P <0 ,001). Piemēram, to atbilžu īpatsvars, kas novērtētas kā labas vai ļoti labas kvalitātes (≥ 4), bija augstāks tērzēšanas robotam nekā ārstiem (chatbot: 78,5 %, 95% TI [72,3 % - 84,1 %]; ārsti: 22,1 %, 95 % TI [16,4 % - 28,2 %]). Tērzēšanas robotam bija 3,6 reizes lielāka labas vai ļoti labas kvalitātes atbilžu izplatība. Chatbot atbildes tika novērtētas arī ievērojami empātiskākas nekā ārstu atbildes (t = 18,9; P <0 ,001). Atbilžu īpatsvars, kas novērtētas kā empātiskas vai ļoti iejūtīgas (≥4), bija lielāks tērzēšanas robotiem nekā ārstiem (ārsti: 4,6 %, 95 % TI [2,1 % - 7,7 %; tērzēšanas roboti: 45,1 %, 95 % TI [38,5 % - 51,8 %]; ārsti: 4,6 %, 95 % TI [2,1 % - 7,7 %]). Tērzēšanas robotam bija 9,8 reizes lielāka empātisku vai ļoti empātisku atbilžu izplatība.
Šajā šķērsgriezuma pētījumā tērzēšanas robots radīja kvalitatīvas un empātiskas atbildes uz tiešsaistes forumā uzdotajiem pacientu jautājumiem. Turpmāka šīs tehnoloģijas izpēte ir pamatota klīniskajos apstākļos, piemēram, izmantojot tērzēšanas robotu, lai sagatavotu atbildes, kuras ārsti pēc tam varētu rediģēt. Nejaušināta iedalījuma pētījumos varētu vēl vairāk novērtēt, vai MI palīgu izmantošana varētu uzlabot atbildes reakciju, samazināt klīnicistu izdegšanu un uzlabot pacientu rezultātus.
AVOTS: Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Internal Medicine, 2023