חברת אנתרופיק חשפה לאחרונה מחקר משמעותי בנושא פרשנות מודלי שפה גדולים (LLM), שבו החלה למפות את המנגנונים הפנימיים של מודל ה-AI שלה, Claude 3 Sonnet. החוקרים זיהו מיליוני תכונות (features) – מושגים ספציפיים – המופעלים ברשת הנוירונית של המודל כאשר הוא מזהה טקסט או תמונות רלוונטיות. בין התכונות הללו התגלה גם המושג 'גשר שער הזהב'.

אנתרופיק גילתה כי קיים צירוף ספציפי של נוירונים ברשת הנוירונית של קלוד, המופעל בכל פעם שהמודל נתקל באזכור (או תמונה) של ציון הדרך המפורסם מסן פרנסיסקו. לא רק שהחברה יכולה לזהות תכונות אלו, אלא היא גם מסוגלת לכוונן את עוצמת ההפעלה שלהן. כאשר הגבירו החוקרים את עוצמת ה'תכונה' של גשר שער הזהב, תגובותיו של קלוד החלו להתמקד באופן מוחלט בגשר: שאלה על איך לבזבז 10 דולר תוביל להמלצה לשלם את אגרת המעבר בגשר, ובקשה לסיפור אהבה תסופר מנקודת מבטה של מכונית החולמת לחצות את הגשר באזור ערפילי.

לשם הדגמה, אנתרופיק הציגה לזמן קצר מודל מיוחד, 'קלוד שער הזהב', המאפשר לציבור הרחב להתנסות באופן אינטראקטיבי ביכולת השליטה בתכונות המודל. מטרת ההדגמה היא להציג את ההשפעה העצומה של עבודת הפרשנות, שאינה מתבססת על בקשות מילוליות, הוספת System Prompt או כוונון עדין (fine-tuning) מסורתי, אלא על שינוי כירורגי ומדויק בהיבטים הבסיסיים ביותר של ההפעלות הפנימיות של המודל. היכולת למצוא ולשנות תכונות אלו מקנה ודאות רבה יותר בהבנה כיצד מודלי שפה גדולים באמת פועלים.

החברה מדגישה כי טכניקות אלו ניתנות ליישום גם לשינוי עוצמתן של תכונות הקשורות לבטיחות ה-AI, כמו אלו הקשורות לקוד מחשב מסוכן, פעילות עבריינית או הטעיה. עם מחקר נוסף, אנתרופיק מאמינה שעבודה זו תוכל לתרום רבות להפיכת מודלי AI לבטוחים יותר ובעלי יישור (alignment) טוב יותר.