אחד האתגרים הגדולים ביותר בפיתוח AI מתקדם, ובפרט מודלי שפה גדולים (LLM), הוא ה"קופסה השחורה" – הקושי להבין כיצד המודלים הללו מקבלים החלטות. היכולת להסביר את פעולתו הפנימית של מודל, המכונה "פרשנות" (interpretability) או "ניתוח פנימי", היא קריטית לא רק לבטיחות ואמינות, אלא גם לשיפור מתמיד של הטכנולוגיה. אנתרופיק, הנחשבת לאחת החברות המובילות בתחום מחקר ובטיחות ה-AI, הציגה לאחרונה התקדמות משמעותית בדיוק בתחום זה.
פתיחת הקופסה השחורה: הכירו את SoLU
במחקר חדש שפורסם, אנתרופיק מדווחת על שינוי ארכיטקטוני פשוט אך בעל השפעה ניכרת: החלפת פונקציית האקטיבציה ברשתות נוירוניות רב-שכבתיות (MLP) ביחידה ליניארית מסוג Softmax, שהם מכנים אותה בקיצור SoLU (Softmax Linear Unit). שינוי זה, לדברי החברה, הצליח להגדיל באופן מהותי את שיעור הניורונים ברשתות ה-MLP הניתנים לפרשנות אנושית, וזאת בעלות מינימלית, אם בכלל, על ביצועי למידת המכונה הכוללים.
המשמעות של ה-SoLU היא שבאמצעות השינוי, חלק ניכר יותר מהניורונים בתוך המודל מגיבים למאפיינים, ביטויים או קטגוריות ספציפיות וברורות בקלט, באופן שקל לאדם להבין. בניסויים אקראיים ועיוורים שבוצעו, החוקרים הראו כי SoLU הגדילה משמעותית את מספר הניורונים שניתן לקשר למושגים אנושיים.
"SoLU מגדילה באופן ניכר את מספר הניורונים שניתן לקשר למפתוח מושגים אנושיים, ובכך פותחת פתח להבנה טובה יותר של פעולת המודל."
בזכות ההבנה המוגברת של אופן הפעולה הפנימי, הצליחו החוקרים של אנתרופיק להסיק תובנות חדשות בנוגע לאופן שבו מידע מעובד בטרנספורמרים – הארכיטקטורה שעומדת בבסיסם של רוב מודלי השפה הגדולים המודרניים.
ההישג והאתגר: פרשנות עם סייגים
עם זאת, המחקר לא מתעלם מצידו השני של המטבע. החוקרים מצאו גם עדויות לכך שייתכן וה"היפותזת הסופרפוזיציה" נכונה, וכי אין ארוחות חינם. כלומר, ייתכן ש-SoLU אכן הופכת תכונות מסוימות לניתנות יותר לפרשנות, אך במקביל היא עשויה 'להסתיר' תכונות אחרות, ובכך להפוך אותן לבלתי ניתנות לניתוח פנימי (uninterpretable) באופן עמוק אף יותר. היפותזת הסופרפוזיציה מציעה כי ניורונים בודדים במודל עשויים לייצג מספר רב של תכונות בצורה דחוסה, מה שמקשה על ההבנה הישירה שלהם.
למרות הסייג הזה, באנתרופיק עדיין רואים ב-SoLU ניצחון נקי ומשמעותי. במונחים פרקטיים, הטכניקה הזו מגדילה באופן מהותי את החלק היחסי של הניורונים שאנו, כבני אדם, מסוגלים להבין. היכולת להבין טוב יותר את הפעולה הפנימית של מודלי AI היא אבן יסוד בדרך לבניית מערכות AI בטוחות יותר, שקופות יותר, ובסופו של דבר – אמינות יותר.



