Milad D, Antaki F, Milad J, Farah A, Khairy T, Mikhail D, Giguere C-E, Touma S, Bernstein A, Szigiato A-A, Nayman T, Mullie GA, Duval R
Assessing the medical reasoning skills of GPT-4 in complex ophthalmology cases
Br J Ophthalmol 2024;108:1398–1405
למאמר המלא
באופן גלובלי, רופאים ומדענים כאחד מהרהרים בשימושים האפשריים של מודל שפה גדול large language model (LLM) בשיפור דיוק האבחון ועזרה בתהליך קבלת ההחלטות הקליני. מודל שפה גדול מייצג מודלים המבוססים על מאגרי מידע גדולים, מסוגלים ליצור טקסטים ומראים יכולת הנמקה. מודל Generative Pre-trained Transformer (GPT)-4 קובע בימים אלה את הסטנדרט של תחום ה- LLM, והינו משופר באופן ניכר מקודמיו בתחום הרפואה. יכולות האבחון וקבלת ההחלטות הקליניות הולכות ומתגברות במהלך הלמידה. בתחום רפואת העיניים, החוקרים בדקו בעבר את הביצועים של GPT במענה על שאלות רפואיות. GPT-4 השיג דיוק של 72.9% במאגרי שאלות גדולים בתחום רפואת העיניים, ובזאת השתפר ב- 18.3% בהשוואה ל- GPT-3.5. הראו שביצועי GPT-4 היו טובים יותר במענה על שאלות מאשר בקבלת החלטות קליניות. אי לכך יש עדיין לבדוק אם ל- LLM יש יכולת להיות מעורב בתהליך של חשיבה ביקורתית אמתית. בדיקת הביצועים של LLM באבחון תיאורי מקרים מהספרות עשויה להיות דרך טובה לבדיקה באיזו מידה LLM יכול להתמודד עם מקרים מסובכים מהעולם האמתי. רק מעט מחקרים עסקו בזאת בתחום רפואת העיניים, כאשר גודל המדגם היה בין 11 ל- 22 מקרים של נאורו-אופתלמולוגיה, גלאוקומה וקרנית. הממצאים הראשוניים הראו רמת התאמה גבוהה בין LLM לבין המומחים, שמעלה את האפשרות של תפקיד עבור LLM בתהליכי קבלת החלטות קלינית.
במחקר הנוכחי בדקו החוקרים את הביצועים של GPT-4 במשוב על שאלות בנוגע למקרים עם בעיות עיניים מסובכות שפורסמו ב- Journal of the American Medical Association Ophthalmology Clinical Challenges. נבדקו אסטרטגיות רבות במטרה לחזק את יכולת הביצוע של המודל. לאחר מכן הושוו הביצועים להחלטות רופאי העיניים שהיוו את אמת המידה. החוקרים היו מקנדה ובריטניה. GPT-4 נבדק על 422 תיאורי מקרה בהם היה על המודל לקבוע את האבחנה (כשאלה פתוחה) ולזהות את הצעד הבא (כשאלה מרובת אפשרויות). באמצעות המודל המכונה PS+ prompting, ה- GPT-4 השיג דיוק ממוצע של 48.0% באבחון, ו- 63.0% בקביעת הצעד הבא. הדיוק בקביעת הצעד הבא לא השתנה בתת-התמחויות השונות, אולם הדיוק באבחנה בתחום פתולוגיה וגידולים היה באופן משמעותי גבוה יותר מאשר בתחום האובאיטיס. כאשר האבחנה הייתה נכונה, 75.2% מקביעות הצעת הבא היו נכונות. קביעת הצעד הבא הייתה פי 3 יותר מדויקת כאשר האבחנה הראשונה הייתה נכונה. לא היה הבדל משמעותי בדיוק האבחנתי ובקבלת ההחלטות בין הביצועים של רופאי עיניים מומחים לבין ה- GPT-4. הביצועים של מתמחים בכירים היו טובים משל ה- GPT-4 הן באבחנה והן בקביעת הצעד הבא.
המסקנה הייתה ש- GPT-4 הדגים ביצועים משופרים אם כי לא עולים על אלה של מתמחים ברפואת עיניים באבחנה וטיפול במצבים מסובכים ברפואת עיניים. אי לכך יש סיכוי למודל שפה גדול המתמחה ברפואת עיניים לעזור בעתיד באבחנה ובקבלת החלטות טיפוליות.