30.10.2024 |
Luo M-J, Pang J, Bi S, Lai Y, Zhao J, Shang Y, Cui T, Yang Y, Lin Z, Zhao L, Wu X, Lin D, Chen J, Lin H
מתקצר: פרופ' מרדכי רוזנר
לאחרונה, גישות של מודל שפה גדול large language models (LLMs) גורפות תשומת לב רבה בעולם. LLM הוא ענף של למידה עמוקה (deep learning). מדובר במודל שפה מבוסס רשת עצבית מלאכותית, בעל מספר רב של פרמטרים, שמאומן על כמויות גדולות של טקסט לא מתויג בשיטת למידה בפיקוח-עצמי. מודלי השפה הגדולים החלו להופיע בסביבות 2018 והם נחשבים לכלי המתפקד היטב במגוון רחב של משימות. מודלים כאלה יכולים לעקוב אחר פקודות מילוליות, להבין מידע מילולי, לחקות דוגמאות הגיוניות קיימות, ולנמק צעד אחר צעד עד לקבלת מסקנות מדויקות. הפעלת נרחבת של LLMs בתחומי מידע מגוונים הפכה אותו לסוג של עוזר וירטואלי בעל גישה לביליוני נתונים, ופוטנציאל רב בתחומי רפואה רבים. יישומי LLMs משמשים למשימות מנהל רפואי כמו יצירת טפסי הסכמה מדעת, עזרה באבחון מחלות, והדרכה בהחלטות טיפוליות. בשטח החינוך הרפואי, LLMs מצטיינים במעבר בחינות ומחוללים מהפכה בשיטות לימוד אינטראקטיביות, כמו יצירת case studies או יצירת שאלות למבחן. בנוסף, הם מועילים באופן משמעותי למחקר רפואי ותורמים לגילויים פרמקולוגיים על ידי זיהוי מועמדים פוטנציאליים לתרופות, שיפור ניתוח הספרות על ידי סיכום ממצאי מחקרים או איתור מגמות במחקרים רפואיים.
למרות הפוטנציאל, שילוב LLMs בפרקטיקה הקלינית מתעכב בגלל מספר אתגרים קריטיים. נושא מרכזי אחד הינו אפשרות של יצירת מידע מטעה או בלתי מדויק, מה שמכונה LLM-generated hallucinations. מצב כזה נובע לעיתים שכיחות כתוצאה מחוסר התמחות של ה- LLMs הנוכחיים והיעדרות סטנדרטים מדוקדקים עבור MMLs בהגדרות קליניות. נושא אחר הוא הדרישות הרגולטוריות לשמירת פרטיות בהעלאת מידע רפואי למערכת. בנוסף לכך, הפעלה מקומית של LLM בבתי חולים מוגבלת בגלל המשאבים החישוביים הגדולים הנדרשים עבורה. אי לכך גוברת הדרישה ל- LLMs חסכוניים הניתנים ליישום מקומי.
במחקר הנוכחי רפואת עיניים (Ophthalmology) נבחרה כנקודת המיקוד העיקרית של LLMs. החוקרים פיתחו מערך נתונים מקיף בנושא רפואת עיניים ומסגרת בדיקה (CODE), כדי להגביר את יכולת ההערכה של LLMs. לאחר מכן פותח LLM לשליפה מוגברת להפעלה במסגרת מקומית, שניתן ליישום מעשי במוסדות רפואיים. היכולת שלו נבדקה על ידי רופאים מומחים בנוגע לדיוק הרפואי, התועלת והבטיחות.
החוקרים היו מסין. מסגרת בדיקה (CODE) של LLM שמכילה יותר מ- 30,000 קטעים של מידע ברפואת עיניים, נמדדה כנגד עשר LLMs שכוללים בין היתר GPT-4 ו- GPT-3.5 Turbo, למענה על 300 שאלות קליניות ברפואת עיניים. הבדיקה בוצעה על ידי צוות של רופאים מומחים וחוקרים ביו-רפואיים שהתמקדו בדיוק, ישימות ובטיחות. נעשה שימוש בגישה של סמיות כפולה בניסיון להפחית ככל הניתן הטיות. במחקר נעשה שימוש בבסיס מידע נרחב מהפרקטיקה הקלינית ברפואת עיניים ללא שימוש ישיר במידע מחולים. התוצאים העיקריים היו הדיוק, יכולת ההפעלה והבטיחות של מענה על שאלות קליניות בעזרת LLMs.
הממצאים היו שמודל LLM עם שליפה מוגברת לשימוש מקומי השיג תוצאה דומה לזו של GPT-4, וטובה יותר מאשר המודל הבסיסי. המסקנה הייתה ששילוב מאגרי המידע באיכות גבוהה שיפר את הביצועים של LLMs בתחומי הרפואה. בעיסוק הקליני ברפואה, LLMs עם שליפה מוגברת עשוי להיות מקור למידע קליני מעשי, אמין ובטוח, תוך כדי שמירה על פרטיות.
Development and Evaluation of a Retrieval-Augmented Large Language Model Framework for Ophthalmology
JAMA Ophthalmol. 2024;142(9):798-805