כיצד פועלים מודלי בינה מלאכותית מורכבים "מתחת למכסה המנוע"? זו אחת השאלות המרכזיות שמטרידות חוקרי AI, ובמיוחד את חברת אנתרופיק (Anthropic), הידועה במודלי השפה הגדולים שלה כמו קלוד (Claude) ובמחויבותה העמוקה לבטיחות ופרשנות של AI. בניסיון לפענח את ה"קופסה השחורה" של המודלים הללו, פרסמה החברה לאחרונה מחקר מרתק המתמקד בתופעה מהותית שנקראת סופרפוזיציה – היכולת של רשתות נוירוניות לדחוס כמויות אדירות של מידע באופן שנראה לעין כבלתי אפשרי.

סופרפוזיציה: לדחוס יותר ממה שנראה הגיוני

בבסיס המחקר עומד השימוש ב"מודלי צעצוע" – רשתות נוירוניות קטנות מסוג ReLU, שאומנו על נתונים סינתטיים הכוללים מאפייני קלט דלילים. מטרתם של מודלי הצעצוע הללו היא לבחון תופעה שחוקרי אנתרופיק מכנים סופרפוזיציה. במונחים פשוטים, סופרפוזיציה מתארת מצב שבו מודל מסוגל לייצג יותר מאפיינים ומידע ממה שמאפשרים לו הממדים שלו באופן ישיר. דמיינו שאתם מנסים לאחסן ספרייה שלמה בכונן קשיח קטן בהרבה מהנפח הנדרש: זהו האתגר שהמודלים הללו מתמודדים איתו, ונראה שהם מוצאים לו פתרונות יצירתיים.

המחקר מראה כי כאשר המאפיינים שבקלט דלילים, כלומר רוב הזמן הם אינם פעילים, סופרפוזיציה הופכת למנגנון דחיסה יעיל במיוחד. היא מאפשרת למודל לדחוס מידע רב יותר מאשר היה יכול לעשות זאת מודל לינארי פשוט. לדוגמה, אם יש לנו אלף מאפיינים פוטנציאליים אך רק מעטים מהם פעילים בכל רגע נתון, המודל יכול ללמוד לייצג אותם בצורה חסכונית על ידי חפיפה שלהם באותם "נוירונים" או "משקולות" בתוך הרשת.

אך לדחיסה הזו יש מחיר. כאשר מאפיינים רבים "נדחסים" לאותו מרחב ממדים, נוצרות הפרעות. תופעה זו דומה למצב שבו גלי רדיו משדרים על אותה תדירות ויוצרים רעש. כדי להתמודד עם ההפרעות הללו ולשחזר את המאפיינים המקוריים בצורה מדויקת, המודל נאלץ להשתמש בסינון לא-לינארי. יכולת הסינון הזו היא המפתח להבנת האופן שבו רשתות נוירוניות מצליחות לפענח מידע מורכב גם כשהוא דחוס ומעורבב.

החשיבות להבנת AI ופיתוח בטיחותי

המחקר על מודלי צעצוע של סופרפוזיציה אינו תרגיל אקדמי גרידא; יש לו השלכות מעשיות עצומות על הבנתנו את מודלי בינה מלאכותית מורכבים יותר, ובמיוחד מודלי שפה גדולים (LLM). הבנה מעמיקה של איך מודלים דוחסים ומייצגים מידע היא צעד קריטי לקראת השגת פרשנות טובה יותר. אם נדע בדיוק איך מידע מאוחסן ומעובד בתוך הרשת, נוכל לזהות טוב יותר מתי המודל מבצע "הזיות" (hallucinations), מתי הוא מפגין הטיה, או כיצד הוא מגיע להחלטות מסוימות. זהו נדבך יסודי בפיתוח AI אחראי ובטיחות AI.

המחקר הזה הוא חלק ממאמץ רחב יותר של אנתרופיק לפרק את המורכבות של AI ולבנות מערכות שניתן לסמוך עליהן. על ידי פישוט התופעות המורכבות לכדי "מודלי צעצוע" קטנים וניתנים לניתוח, החברה סוללת את הדרך להבנה טובה יותר של מודלי חזית (frontier models) גדולים. היכולת להבין, לנבא ולשלוט בהתנהגות של AI היא חיונית לא רק לצורך אבטחה, אלא גם כדי להבטיח שמערכות אלו ישרתו את האנושות בצורה אתית ויעילה.

"הבנת סופרפוזיציה מאפשרת לנו להציץ עמוק לתוך המנגנונים הפנימיים של מודלים", מסבירים חוקרי אנתרופיק. "ככל שנבין טוב יותר איך מודלים מייצגים ומעבדים מידע, כך נוכל לבנות מערכות AI אמינות ובטוחות יותר, שנוכל ליישר (align) אותן טוב יותר עם הערכים האנושיים".

המאמץ של אנתרופיק להבין את היסודות הללו מדגיש את החשיבות של מחקר בסיסי בדרכה לפיתוח דור חדש של מערכות AI.