אחד האתגרים הגדולים ביותר בפיתוח בינה מלאכותית מתקדמת, ובפרט מודלי שפה גדולים (LLMs) כמו קלוד (Claude) מבית אנתרופיק, הוא ההבנה המעמיקה של אופן פעולתם הפנימי. מודלים אלו, הבנויים על ארכיטקטורת הטרנספורמר, נחשבים לעיתים קרובות כ"קופסאות שחורות" בשל מורכבותם העצומה. חברת אנתרופיק, הידועה במחויבותה לבטיחות (safety) ולפרשנות (interpretability) של AI, ממשיכה להשקיע מאמצים במחקר שמטרתו לפרום את המסתורין הזה, והפעם עם תגלית מסקרנת ביותר הנוגעת לליבת הארכיטקטורה.

הצצה ללב הטרנספורמר: זרם השאריות ו"בסיסים מועדפים"

ארכיטקטורת הטרנספורמר, שאותה אפשר למצוא בכל מודל שפה גדול כיום, מבוססת על רכיבים כמו מנגנוני קשב עצמי (self-attention) וחיבורי שאריות (residual connections). הזרם השארי (residual stream) הוא למעשה "עמוד השדרה" של המודל, הנתיב המרכזי שדרכו זורם המידע ועובר עיבוד בין שכבות שונות. על פי התיאוריה המתמטית שעומדת בבסיס הטרנספורמרים, הקואורדינטות הבודדות בזרם זה אמורות להיות חסרות משמעות מיוחדת – כלומר, כיווני ה"בסיס" צריכים להיות שרירותיים באופיים, ולא צפויים לקודד מידע באופן שונה מכיוונים אקראיים.

אולם, עבודות מחקר עדכניות מצביעות על כך שהשערה זו אינה נכונה בפועל. המחקר החדש של אנתרופיק מאשר ומעמיק את התצפית הזו: בתוך הזרם השארי, קיימים למעשה "בסיסים מועדפים" (privileged bases) – כיוונים מסוימים שמקודדים מידע בצורה מובהקת יותר מאחרים. תופעה זו מעלה שאלות חשובות בנוגע לאופן שבו מודלים פנימית מעבדים ושומרים מידע, ומאתגרת את ההבנה התיאורטית הקיימת.

החשוד העיקרי: אלגוריתם האופטימיזציה Adam

הצוות באנתרופיק יצא לחקור את התופעה באופן יסודי, ובחן מספר מקורות פוטנציאליים לתלות זו בכיווני הבסיס. הם העריכו שני גורמים ברורים נוספים שעלולים להשפיע: שכבת הנרמול (Layer Normalization), וחישובים המבוצעים בדיוק צף סופי (finite-precision floating-point calculations). לאחר בחינה קפדנית, החוקרים שללו בביטחון את שניהם כמקור לתופעה המדוברת, ובכך חיזקו את החשד העיקרי שלהם.

"ממצאינו הראשוניים מראים כי האלגוריתם האופטימיזציה Adam, ובפרט מנגנוני הנרמול הפר-ממדיים (per-dimension normalizers) שלו, הם ככל הנראה האחראים להיווצרות הבסיסים המועדפים," נכתב במחקר.

אלגוריתם Adam הוא אחד מהאופטימייזרים הפופולריים ביותר לאימון רשתות נוירוניות ולמידת מכונה (machine learning). הוא עובד על ידי התאמה אדפטיבית של קצב הלמידה (learning rate) עבור כל פרמטר בנפרד. נראה כי התאמה דינמית זו, המיועדת לשיפור יעילות האימון, מובילה גם לכך שכיוונים מסוימים בזרם השארי מקבלים דגש יתר ו"מתחזקים" יותר מאחרים, ובכך הופכים למועדפים לקידוד מידע.

השלכות על פרשנות, בטיחות ו-AI אחראי

לגילוי "הבסיסים המועדפים" ישנן השלכות מרחיקות לכת על עולם הבינה המלאכותית. ראשית, בתחום הפרשנות: אם ה"מפה" הפנימית של מודל אינה אחידה וקיימים בה נתיבים עם חשיבות שונה, קשה הרבה יותר להבין כיצד המודל מקבל החלטות, לזהות הטיות פוטנציאליות או לנבא את התנהגותו בתרחישים שונים. זהו אתגר משמעותי בניסיונות להפוך את ה-AI לשקוף יותר.

שנית, בתחום הבטיחות ו-AI אחראי (responsible AI): הבנה מעמיקה של מבנה המידע הפנימי חיונית לבניית מודלים בטוחים יותר. האם בסיסים מועדפים אלו עלולים לשמש כ"וקטורים" לפריצת מגבלות (jailbreak), להטמעת מידע רגיש או ליצירת הטיות לא רצויות? היכולת לזהות ולשלוט בהם היא קריטית לפיתוח מודלים יציבים ובטוחים.

המחקר מדגיש את החשיבות של חקר מנגנונים פנימיים אלו, ומציע כיווני מחקר עתידיים להתמודדות עם התופעה, בין אם באמצעות שימוש באופטמייזרים חלופיים או שינויים ארכיטקטוניים במודלי טרנספורמר. מודעות והבנה של תופעה זו הן צעד חשוב בדרך ליצירת מערכות AI אמינות, שקופות ובטוחות יותר.