Antaki F, Milad D, Chia MA, Giguere CE, Touma S, El-Khoury J, Keane PA, Duva R
Capabilities of GPT-4 in ophthalmology: an analysis of model entropy and progress towards human-level medical question answering
Br J Ophthalmol 2024;108:1371–1378
למאמר המלא
במהלך התקופה האחרונה, עיבוד שפה טבעית (Natural Language Processing - NLP), שהינו תת-תחום של בינה מלאכותית, צובר תשומת לב רבה באקדמיה ובתקשורת בעקבות שחרור מה שמכונה foundation models. אלה מיצגים פרדיגמה (דְּפוּסָה - תבנית מחשבה) לבניית מערכות בינה מלאכותית. מערכות אלה לומדות באמצעות תרגול על ביליוני נתונים מולטימודלים באופן מפוקח שניתן לכיוון עדין עבור משימות מוגדרות. מודל שפה גדול Large language models (LLMs) לסוגיו הינם מודלים בסיסיים המתורגלים על כמות אדירה של קבצי טקסט באינטרנט, ומסוגלים להפיק תשובות המנוסחות בשפה טבעית. בעקבות לימוד מוצלח המודל מסוגל ליצור טקסט חדש המבוסס על הטקסטים מהם למד. שתי הדוגמאות העיקריות למודלים אלה הן Generative Pre-trained Transformer (GPT) של חברת Open AI ו- Pathways Language Model (PaLM) של גוגל. שני המודלים של LLM תורגלו על נתוני טקסט מרובי שפות מהאינטרנט ומסוגלים ליצור טקסט דומה לזה של בני אדם, לבצע הנמקה מתקדמת וליצור קודים. העניין בבדיקת הפוטנציאל של LLMs ברפואה הולך ומתגבר. הצעד הראשון בבדיקת היכולות שלו בתחום הרפואי חקר את ביצוע המשימה המאתגרת של מתן תשובות לשאלות ברפואה. מענה על שאלות כאלה דורש מאנשים להבין קשרים רפואיים, להיזכר בידע רפואי ולנמק, דבר שמצריך התנסות בת שנים. ב- 2022 הודגם ביצוע עדכני של Flan-PaLM במענה על שאלות בסגנון השאלות בבחינת הרישוי ברפואה של ארה"ב US Medical Licensing Examination (USMLE) שהשיג דיוק של 67.6% בתוצאות. פחות מ- 5 חודשים לאחר מכן בשנת 2023 דווח על דיוק של 86.5% על אותם נתונים עם Med-PaLM, שמהווה שיפור ב- 19% על קודמו. שיפורים משמעותיים דומים דווחו גם על ידי OpenAI כאשר הוצג GPT-4. הביצועים של LLMs בינואר 2023 באמצעות GPT-3.5 במענה על שאלות מהקורסים הבסיסי והקליני של האקדמיה האמריקנית לרפואת עיניים (BCSC) היו עם דיוק של 59.4% ו- 49.2% בהתאמה. מחקרים רבים נוספים הראו ביצועים דומים או טובים יותר באמצעות LLMs שונים שנבחנו במאגרי שאלות שונים ברפואת עיניים.
במחקר הנוכחי נבדק הדיוק של GPT-4 במענה על שאלות מהקורסים BCSC של האקדמיה האמריקנית לרפואת עיניים ומאגרי שאלות של OphthoQuestions. החוקרים חוללו תגובות בתבניות שונות במטרה לזהות את התבנית המיטבית למענה על שאלות ברפואת עיניים. זה כלל בדיקה כמותית ואיכותית של תשובות ה- GPT-4 בהתאם לדירוג התשובות על ידי רופאים. לאחר מכן בוצעה השוואה בין מודל GPT-4 הטוב ביותר לזה של GPT-3.5 ולתוצאות היסטוריות של תשובות אנושיות. החוקרים היו מבריטניה ומקנדה. נמצא ש- GPT-4 (בתבנית שנקראה 0.3) השיגה את הדיוק המרבי בין המודלים של GPT-4 שנבדקו. שיעור הדיוק היה 75.8% בשאלות של BCSC ו- 70.0% בשאלות של OphthoQuestions. הדיוק הכללי היה 72.9% והוא מיצג שיפור של 18.3% בהשוואה לתוצאות עם GPT-3.5. הדרוג של התשובות על ידי רופאי עיניים העדיף תשובות ממודלים שהיו גבוהים יותר מדרגת 0 והיו יותר יצירתיים. הביצועים של GPT-4-0.3 עלו על ביצועי בני אדם בשאלות BCSC (75.8% לעומת 73.3%, ובשאלות OphthoQuestions (70.0% לעומת 63.0%), אך ההבדלים לא היו משמעותיים מבחינה סטטיסטית.
המסקנות הן ש- GPT-4 שהינו LLM שתורגל על בסיסי מידע שאינם ספציפיים לרפואת עיניים, הראו ביצועים טובים יותר מקודמיו במענה על שאלות ברפואת עיניים בסגנון בחינות הסמכה. הביצועים שלו היו טובים מאלה של בני אדם, אך לא באופן משמעותי מבחינה סטטיסטית.