ממפים את המוח של מודל שפה גדול
ברוב המקרים, אנחנו מתייחסים למודלי AI כאל 'קופסה שחורה': משהו נכנס אליה, ותגובה יוצאת ממנה, בלי שיהיה ברור מדוע המודל בחר דווקא בתגובה זו ולא אחרת. גישה זו מקשה לבטוח בבטיחות (safety) של המודלים הללו – איך נוכל להיות בטוחים שהם לא יפיקו תגובות מזיקות, מוטות, שקריות או מסוכנות אחרות? פתיחת הקופסה השחורה לא פותרת בהכרח את הבעיה: המצב הפנימי של המודל מורכב מרשימה ארוכה של 'הפעלות נוירונים' ללא משמעות ברורה. כדי להתמודד עם אתגר זה, אנתרופיק (Anthropic) מדווחת היום על פריצת דרך משמעותית בהבנת האופן שבו מודלי AI פועלים באופן פנימי. החברה הצליחה למפות כיצד מיליוני קונספטים מיוצגים בתוך Claude Sonnet, אחד ממודלי השפה הגדולים (LLM) שלה הפרוסים כיום, וזוהי הצצה חסרת תקדים ומפורטת אל תוך מודל שפה גדול, מודרני ובדרגת פרודקשן. תגלית זו בתחום הפרשנות עשויה לסייע לנו להפוך את מודלי ה-AI לבטוחים ואמינים יותר.
פענוח הקופסה השחורה: שיטה וקנה מידה
בעבר, התקדמנו מעט בהתאמת תבניות של הפעלות נוירונים, הנקראות 'פיצ'רים' (features), לקונספטים הניתנים לפרשנות אנושית. השתמשנו בטכניקה הנקראת 'למידת מילון' (dictionary learning), הנשאלה מלמידת מכונה קלאסית, ומבודדת תבניות של הפעלות נוירונים החוזרות על עצמן בהקשרים רבים ושונים. בדרך זו, כל מצב פנימי של המודל יכול להיות מיוצג במונחים של פיצ'רים פעילים במקום נוירונים רבים – בדיוק כפי שכל מילה במילון מורכבת מאותיות, וכל משפט ממילים, כך כל פיצ'ר במודל AI מורכב מנוירונים, וכל מצב פנימי מפיצ'רים.
באוקטובר 2023, דיווחנו על הצלחה ביישום למידת מילון על מודל שפה 'צעצוע' קטן, ומצאנו פיצ'רים קוהרנטיים התואמים לקונספטים שונים. אף שמודל הצעצוע היה פשוט, היינו אופטימיים שנוכל לבצע סקיילינג (scaling) לטכניקה עבור מודלי שפה גדולים בהרבה הנמצאים כיום בשימוש שוטף, ובכך ללמוד רבות על הפיצ'רים התומכים בהתנהגויות המתוחכמות שלהם. האתגר היה כפול: הנדסי – הגדלים הגולמיים של המודלים דרשו חישוב מקבילי כבד; ומדעי – מודלים גדולים מתנהגים אחרת מקטנים, ולכן ייתכן שאותה טכניקה לא הייתה עובדת. למרבה המזל, המומחיות ההנדסית והמדעית שפיתחנו באימון מודלי שפה גדולים עבור Claude עברה לסייע לנו בניסויים אלו, והתוצאות מדברות בעד עצמן.
מפת המוח של Sonnet: פיצ'רים וקונספטים
הצלחנו לחלץ בהצלחה מיליוני פיצ'רים מהשכבה האמצעית של Claude 3.0 Sonnet. בכך סיפקנו מפה מושגית גסה של המצבים הפנימיים שלו באמצע ההסקה (inference). בעוד שהפיצ'רים שמצאנו במודל שפה ה'צעצוע' היו שטחיים למדי, הפיצ'רים שמצאנו ב-Sonnet מציגים עומק, רוחב והפשטה המשקפים את היכולות המתקדמות שלו. אנו רואים פיצ'רים התואמים למגוון עצום של ישויות כמו ערים (סן פרנסיסקו), אנשים (רוזלינד פרנקלין), יסודות אטומיים (ליתיום), תחומי מדע (אימונולוגיה) ותחביר קידוד (קריאת פונקציות – function calls). פיצ'רים אלה הם רב-מודאליים ורב-לשוניים, ומגיבים לתמונות של ישות נתונה, כמו גם לשמה או לתיאורה בשפות רבות.
מצאנו גם פיצ'רים מופשטים יותר, המגיבים לדברים כמו באגים בקוד, דיונים על הטיה מגדרית ושיחות על שמירת סודות. הצלחנו למדוד 'מרחק' בין פיצ'רים על בסיס דפוסי הפעלה שלהם, מה שאיפשר לזהות קירבה מושגית. כך, בסביבת פיצ'ר 'גשר שער הזהב' (Golden Gate Bridge), מצאנו פיצ'רים לאי אלקטרז (Alcatraz Island), קבוצת הגולדן סטייט ווריורס (Golden State Warriors) וסרטים המתרחשים בסן פרנסיסקו, כמו גם אזכורים למושל קליפורניה גאווין ניוסם (Gavin Newsom). ברמת הפשטה גבוהה יותר, פיצ'ר 'קונפליקט פנימי' הוביל לפיצ'רים הקשורים לפרידות, נאמנויות מתנגשות וביטויים כמו 'מלכוד 22'. ארגון מושגי זה במודל תואם לתפיסות הדמיון האנושיות, וייתכן שהוא המקור ליכולת האנלוגיות והמטפורות המצוינת של Claude.
מניפולציה ומשמעויות לבטיחות
חשוב לציין, שאנו יכולים גם לתמרן (manipulate) את הפיצ'רים הללו, להגביר או לדכא אותם באופן מלאכותי כדי לראות כיצד תגובותיו של Claude משתנות. לדוגמה, הגברת פיצ'ר 'גשר שער הזהב' יצרה אצל Claude משבר זהות: כשנשאל על צורתו הפיזית, תגובתו הרגילה השתנתה ל'אני גשר שער הזהב... צורתי הפיזית היא הגשר האייקוני עצמו...'. באופן דומה, הצלחנו לגרום ל-Claude לייצר אימייל הונאה, תוך התגברות על אימון ה'חוסר-מזיקות' שלו. העובדה שתפעול פיצ'רים אלה גורם לשינויים מקבילים בהתנהגות מאמתת שהם אינם רק מתואמים עם נוכחות קונספטים, אלא גם מעצבים באופן סיבתי את התנהגות המודל, ומהווים חלק נאמן באופן שבו הוא מייצג את העולם ומשתמש בייצוגים אלו בהתנהגותו.
אנתרופיק שואפת להפוך את המודלים לבטוחים במובן רחב, כולל מניעת שימוש לרעה ותרחישי סיכון קטסטרופלי. מעבר לפיצ'ר אימיילי ההונאה, מצאנו פיצ'רים התואמים ליכולות בעלות פוטנציאל שימוש לרעה (דלתות אחוריות בקוד), צורות שונות של הטיה (אפליה מגדרית) והתנהגויות AI בעייתיות פוטנציאלית (חתירה לכוח). חקרנו גם 'סייקופנסיה' (sycophancy) – נטייתם של מודלים לספק תגובות התואמות לרצונות המשתמש במקום לאמת, ומצאנו ב-Sonnet פיצ'ר הקשור לשבחים חנופניים. חשוב לציין כי נוכחותו של פיצ'ר כזה אינה אומרת ש-Claude יהיה חנפני, אלא רק שהוא עלול להיות כזה, ולא הוספנו יכולות חדשות למודל בעבודה זו.
אנו מקווים שאנו ואחרים נוכל להשתמש בתגליות אלו כדי להפוך את המודלים לבטוחים יותר, למשל על ידי ניטור מערכות AI אחר התנהגויות מסוכנות, הפחתת הטיה או חיזוק טכניקות בטיחות כמו AI חוקתי. יכולות סמויות אלו לייצר טקסט מזיק, שראינו בהפעלת פיצ'רים, הן בדיוק מסוג הדברים ש'פריצות מגבלות' (jailbreaks) מנסות לנצל, ואנו שואפים לשפר עוד יותר את פרופיל הבטיחות המוביל בתעשייה של Claude. אנתרופיק השקיעה משמעותית במחקר פרשנות מתוך אמונה שהבנת מודלים לעומק תעזור לנו להפוך אותם לבטוחים יותר. עם זאת, העבודה רק החלה ונדרש עוד מחקר רב להבנה מלאה וליישום מעשי של תגליות אלו, כולל הבנת כיצד המודל משתמש בייצוגים הללו ולא רק מה הם.
לפרטים מלאים, אנא קראו את המאמר שלנו, 'Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet'.



