מקימי האתר:



מנהל IOS TALKS:

ד"ר אייל אלוני

מנהל מדור רפואה ומשפט:

ד"ר צביקה סגל
האיגוד הישראלי לרפואת עיניים
יו"ר:

גזבר:

מזכ"ל האיגוד:
פרופ' כינורי מיכאל

עורך אתר האיגוד:
ד"ר לשנו ארי

מנהלת אדמיניסטרטיבית:
אילנית פיין

היכולת של GPT-4 ברפואת עיניים: התקדמות לקראת מענה על שאלות רפואיות ברמה אנושית

Antaki F, Milad D, Chia MA, Giguere CE, Touma S, El-Khoury J, Keane PA, Duva R
Capabilities of GPT-4 in ophthalmology: an analysis of model entropy and progress towards human-level medical question answering
Br J Ophthalmol 2024;108:1371–1378

למאמר המלא

במהלך התקופה האחרונה, עיבוד שפה טבעית (Natural Language Processing - NLP), שהינו תת-תחום של בינה מלאכותית, צובר תשומת לב רבה באקדמיה ובתקשורת בעקבות שחרור מה שמכונה foundation models. אלה מיצגים פרדיגמה (דְּפוּסָה - תבנית מחשבה) לבניית מערכות בינה מלאכותית. מערכות אלה לומדות באמצעות תרגול על ביליוני נתונים מולטימודלים באופן מפוקח שניתן לכיוון עדין עבור משימות מוגדרות. מודל שפה גדול Large language models (LLMs) לסוגיו הינם מודלים בסיסיים המתורגלים על כמות אדירה של קבצי טקסט באינטרנט, ומסוגלים להפיק תשובות המנוסחות בשפה טבעית. בעקבות לימוד מוצלח המודל מסוגל ליצור טקסט חדש המבוסס על הטקסטים מהם למד. שתי הדוגמאות העיקריות למודלים אלה הן Generative Pre-trained Transformer (GPT) של חברת Open AI ו-  Pathways Language Model (PaLM) של גוגל. שני המודלים של LLM תורגלו על נתוני טקסט מרובי שפות מהאינטרנט ומסוגלים ליצור טקסט דומה לזה של בני אדם, לבצע הנמקה מתקדמת וליצור קודים. העניין בבדיקת הפוטנציאל של LLMs ברפואה הולך ומתגבר. הצעד הראשון בבדיקת היכולות שלו בתחום הרפואי חקר את ביצוע המשימה המאתגרת של מתן תשובות לשאלות ברפואה. מענה על שאלות כאלה דורש מאנשים להבין קשרים רפואיים, להיזכר בידע רפואי ולנמק, דבר שמצריך התנסות בת שנים.  ב- 2022 הודגם ביצוע עדכני של Flan-PaLM במענה על שאלות בסגנון השאלות בבחינת הרישוי ברפואה של ארה"ב US Medical Licensing Examination (USMLE) שהשיג דיוק של 67.6% בתוצאות. פחות מ- 5 חודשים לאחר מכן בשנת 2023 דווח על דיוק של 86.5% על אותם נתונים עם Med-PaLM, שמהווה שיפור ב- 19% על קודמו. שיפורים משמעותיים דומים דווחו גם על ידי OpenAI כאשר הוצג GPT-4. הביצועים של LLMs בינואר 2023 באמצעות GPT-3.5 במענה על שאלות מהקורסים הבסיסי והקליני של האקדמיה האמריקנית לרפואת עיניים (BCSC) היו עם דיוק של 59.4% ו- 49.2% בהתאמה. מחקרים רבים נוספים הראו ביצועים דומים או טובים יותר באמצעות LLMs שונים שנבחנו במאגרי שאלות שונים ברפואת עיניים.
 

במחקר הנוכחי נבדק הדיוק של GPT-4 במענה על שאלות מהקורסים BCSC של האקדמיה האמריקנית לרפואת עיניים ומאגרי שאלות של OphthoQuestions. החוקרים חוללו תגובות בתבניות שונות במטרה לזהות את התבנית המיטבית למענה על שאלות ברפואת עיניים. זה כלל בדיקה כמותית ואיכותית של תשובות ה- GPT-4 בהתאם לדירוג התשובות על ידי רופאים. לאחר מכן בוצעה השוואה בין מודל GPT-4 הטוב ביותר לזה של GPT-3.5 ולתוצאות היסטוריות של תשובות אנושיות. החוקרים היו מבריטניה ומקנדה. נמצא ש- GPT-4  (בתבנית שנקראה 0.3) השיגה את הדיוק המרבי בין המודלים של GPT-4 שנבדקו. שיעור הדיוק היה 75.8% בשאלות של BCSC ו- 70.0% בשאלות של OphthoQuestions. הדיוק הכללי היה 72.9% והוא מיצג שיפור של 18.3% בהשוואה לתוצאות עם GPT-3.5. הדרוג של התשובות על ידי רופאי עיניים העדיף תשובות ממודלים שהיו גבוהים יותר מדרגת 0 והיו יותר יצירתיים. הביצועים של GPT-4-0.3 עלו על ביצועי בני אדם בשאלות BCSC (75.8% לעומת 73.3%, ובשאלות OphthoQuestions (70.0% לעומת 63.0%), אך ההבדלים לא היו משמעותיים מבחינה סטטיסטית.
 

המסקנות הן ש- GPT-4 שהינו LLM שתורגל על בסיסי מידע שאינם ספציפיים לרפואת עיניים, הראו ביצועים טובים יותר מקודמיו במענה על שאלות ברפואת עיניים בסגנון בחינות הסמכה. הביצועים שלו היו טובים מאלה של בני אדם, אך לא באופן משמעותי מבחינה סטטיסטית.

 

ברוכים הבאים לאיגוד הישראלי לרפואת עיניים

חברי האיגוד מוזמנים להשתתף בפורומים/ דיונים, לאתר חברי איגוד, לעדכן את הדף אישי ולקרוא חדשות מקצועיות
כניסה לחברי האיגוד
הציבור מוזמן לקרוא מידע עדכני ואמין בתחום רפואת עיניים, להתייעץ עם רופאי עיניים בפורום ולאתר בקלות פרטים על רופאי עיניים
איני חבר/ת איגוד