בתחום הבריאות, לצ'אטבוטים של בינה מלאכותית יש פוטנציאל רב בשיפור הנגישות למידע, בהקלה על תקשורת מידית, בשיפור הטיפול העצמי, ובתמיכה בחולים. יכולות כאלה עשויים להוביל לשיפור ניסיון המטופלים והפחתת עומס על בתי החולים, כך שהרופאים יוכלו להתמקד יותר בפעילויות מסובכות. באופן כללי, צ'אטבוטים משתמשים בשיטות לימוד מכונה ועיבוד שפה טבעית כדי לעבד ולהבין שפה אנושית בצורה דיגיטלית. ניתן לחלק צ'אטבוטים כבעלי יכולת יצירה (generative) או כמבוססי שליפה/אחזור נתונים (retrieval based). צ'אטבוטים בעלי יכולת יצירה שיוצרים מענה חדש (de novo) מעוררים עניין רב לאחרונה, במיוחד בעקבות ההתקדמות המהירה בצורות של מודל של שפה גדול (large language models LLMs). צ'אטבוטים כאלה הם ChatGPT של OpenAI ו- Bard של גוגל והם זוכים לשימוש הולך וגדל. הם מתורגלים על בסיסי נתונים אדירים הכוללים צורות של שפה וניתנים לשימוש במשימות שונות, כולל מענה על שאלות, תרגום של שפות, תיעוד קליני, כתיבת מחקרים ועזרה באבחנה. לעומתם, צ'אטבוט מבוסס שליפה, כמו OcularBERT (Pre-Trained BERT for Ophthalmic Multi-Step Retrieval) משתמש במאגר מוכן מראש של תשובות מבסיס מידע ספציפי. זהו אחד מהצ'אטבוטים הראשונים הספציפיים לתחום רפואת העיניים שאומתו, המתמחה בשאלות שקשורות לרפואת עיניים שנתן מענה על משימות, במיוחד בנושא AMD ורטינופתיה סוכרתית (DR).
צ'אטבוטים בעלי יכולת יצירה המתורגלים על מידע כללי, עלולים ללקות בחסר יכולות ספציפיים לתחום מסוים. מאידך, צ'אטבוטים מבוססי אחזור נתונים, המתורגלים על בסיס נתונים שנאספו בתחום מסוים, עלולים להצטיין רק בתחום הספציפי בו אומנו. כל התמחות ברפואה מעמידה אתגרים ייחודיים הדורשים קונטקסטואליזציה (שיוך להקשר – contextualisation) והנמקה קלינית. אתגרים כאלה מדגישים את חשיבות הבדיקה של צ'אטבוטים מבוססי בינה מלאכותית בתחומי הרפואה השונים. אולם, חסרים מחקרים המשווים צ'אטבוטים בעלי יכולת יצירה לאלה המבוססים על אחזור נתונים בהתייחסות למחלות רשתית.
AMD ו- DR הינם גורמים שכיחים לפגיעה בראייה, ומהווים נושא שכיח לשאלות מטופלים. המחקר הנוכחי משווה את הביצועים של צ'אטבוטים מבוססי בינה מלאכותית בעלי יכולת יצירה לאלה המבוססים על אחזור נתונים במענה לשאלות שכיחות של מטופלים על AMD ו- DR. החוקרים היו מסינגפור, סין, בריטניה, ארה"ב ודרום קוריאה. נבדקו 4 צ'אטבוטים: 3 מודלים בעלי יכולת יצירה מסוג ChatGPT-4, ChatGPT-3.5 ו- Google Bard, ומודל אחד בעל יכולת אחזור – OcularBERT. נבדקה נכונות התשובות ל- 45 שאלות, 15 על AMD, 15 על DR ו- 15 על נושאים אחרים ובוצעה השוואה של התוצאות. שלושה מומחים לרשתית דרגו בצורה סמויה (masked) את התשובות על פי סולם three-point Likert scale. 2 = טוב, ללא שגיאות, 1 = גבולי, 0 = גרוע, עם אי דיוקים משמעותיים. הציונים קובצו לטווח בין 0 ל- 6. בהתאם להסכמה בין רוב המעריכים, סווגו התשובות גם כטובות, גבוליות או גרועות מבחינת איכותן.
באופן כלל התוצאות הראו שהביצועים של ChatGPT-4 ו- ChatGPT-3.5 היו טובים בהרבה מאלה של האחרים. שניהם השיגו ציון מדיאני של 6 בהשוואה לציון 4.5 של Google Bard וציון 2 של OcularBERT. 83.3% של התשובות של ChatGPT-4 ו- 86.7% של ChatGPT-3.5 דורגו כטובות, בעוד ש- 50% מהתשובות של Google Bard ורק 10% של OcularBERT היו טובות. בקרב התשובות של ChatGPT-4 ושל ChatGPT-3.5 לא היו תשובות שדורגו כגרועות. בין התשובות של Google Bard היו 6.7% גרועות ובין התשובות של OcularBERT 20% היו גרועות. בנוגע לתחומי השאלות, הביצועים של ChatGPT-4 היו טובים יותר משל Google Bard רק בנוגע ל- AMD, וביצועי ChatGPT-3.5 היו טובים יותר משל Google Bard בנוגע ל- DR ויתר התחומים. המסקנות היו ש- ChatGPT-4 ו- ChatGPT-3.5 הדגימו את הביצועים הטובים ביותר, ואחריהם היו Google Bard ו- OcularBERT. מסתבר שצ'אטבוטים עם יכולת יצירה מסוגלים לתת מענה לשאלות בתחומים ספציפיים שהינם מחוץ למידע עליו תורגלו. יש צורך בבדיקות ולידציה נוספות לפני יישומם הקליני בעולם האמתי.
למאמר המלא
Cheong KX, Zhang C, Tan T-E, Fenner BJ, Wong WM, Teo KYC, Wang YX, Sivaprasad S, Keane PA, Lee CS, Lee AY, Cheung CMG, Wong TY, Cheong Y-G, Song SJ, Tham YC
Comparing generative and retrieval-based chatbots in answering patient questions regarding age-related macular degeneration and diabetic retinopathy
Br J Ophthalmol 2024;108:1443–1449