אנתרופיק חושפת: איך פלט מודל AI קשור לנתוני האימון שלו?

למה חשוב לדעת איך מודלי AI 'חושבים'?

הבנת הדרך שבה מודלי שפה גדולים (LLM) פועלים הפכה למשימה קריטית יותר מתמיד, בייחוד ככל שהם הופכים עוצמתיים ומסוכנים יותר. חברת אנתרופיק (Anthropic), המובילה את החזית במחקר ובטיחות AI, שמה לה למטרה לבנות מערכות בינה מלאכותית אמינות, ניתנות לפרשנות (interpretability) וניתנות לשליטה. עבודות קודמות שלנו חשפו כי LLM משנים את אישיותם והתנהגותם עם שינויים בסקיילינג (scaling) ובכמות הכוונון העדין (fine-tuning) שעברו.

כדי להבין לעומק את השינויים הללו, עלינו לחדור ללב המודלים ולראות כיצד הם עובדים. האם הפלט שלהם מבוסס על שינון פשוט של נתוני האימון, או שמא מדובר בעיבוד מתוחכם יותר? פיצוח המנגנונים הפנימיים של מודלי שפה צפוי להשפיע באופן דרמטי על היכולת שלנו לחזות את התפתחות ה-AI וכן על גישות ליישור (alignment) מערכות AI עם העדפות אנושיות.

פרשנות מכניסטית נוקטת בגישה מלמטה-למעלה להבנת מודלי למידת מכונה (machine learning): פירוק מפורט של התנהגות יחידות בודדות או מעגלים בקנה מידה קטן. אולם, אנו רואים ערך גם בגישה מלמעלה-למטה – להתחיל בהתנהגויות ניתנות לצפייה ובדפוסי הכללה של המודל, ולחקור לעומק אילו נוירונים ומעגלים אחראים להן. היתרון בגישה מלמעלה-למטה הוא שהיא מאפשרת לנו לחקור ישירות תופעות קוגניטיביות ברמה גבוהה המעניינות אותנו, אשר מתגלות רק בקנה מידה גדול, כמו חשיבה (reasoning) ומשחקי תפקידים. בסופו של דבר, שתי הגישות צפויות להיפגש באמצע.

פונקציות השפעה: שיטה חדשנית להבנת הכללת מודלים

במאמר המחקר האחרון שלנו, "Studying Large Language Model Generalization with Influence Functions", אנו מאמצים גישה מלמעלה-למטה להבנת מודלים. "פונקציות השפעה" (Influence functions) הן טכניקה סטטיסטית קלאסית שמטרתה לזהות אילו דוגמאות אימון תורמות באופן משמעותי לפלטי המודל. הן מנוסחות כתנאי סף היפותטי: אם עותק של דוגמת אימון נתונה היה מתווסף למאגר הנתונים, כיצד זה ישנה את הפרמטרים המאומנים (ובהרחבה, את פלטי המודל)? ה"השפעה" של דוגמת אימון היא קירוב לאופן שבו היא משפיעה על הפרמטרים הסופיים. לרוב, אנו מתחילים ממדד עניין מסוים (כמו ההסתברות שהמודל מקצה לתגובה נתונה) ומנסים לזהות את דוגמאות האימון המשפיעות ביותר.

התבוננות בדפוסי השפעה אלה מספקת רמזים לגבי האופן שבו המודלים שלנו מבצעים הכללה מנתוני האימון שלהם. לדוגמה, אם המודלים היו מגיבים לפרומפטים (prompts) של משתמשים על ידי הרכבת רצפים מתוך ערכת האימון, היינו מצפים שרצפים משפיעים עבור תגובת מודל נתונה יכללו ביטויים של מחשבות כמעט זהות. לעומת זאת, רצפים משפיעים הקשורים ברמה נושאית מופשטת יותר יהוו סימן לכך שהמודל רכש מושגים או ייצוגים ברמה גבוהה יותר.

מסקיילינג ועד תובנות עמוקות: הממצאים המרכזיים

הערכה ישירה של התנאי ההיפותטי שתואר לעיל, על ידי אימון מחדש חוזר ונשנה של המודל עם מערכי נתונים משתנים, תהיה יקרה באופן בלתי נסבל מבחינה חישובית. אמנם קיימים אלגוריתמים יעילים יותר, אך גם הם יקרים מאוד. מסיבות אלו, פונקציות השפעה הופעלו (עד כה) על מודלים עם מאות מיליוני פרמטרים לכל היותר. למרבה הצער, רוב התופעות המעניינות אותנו אינן מופיעות עד לממדים גדולים יותר.

במאמר זה, אנו מדגימים גישות יעילות לשתי הבעיות הללו, מה שמאפשר לנו לבצע סקיילינג של פונקציות השפעה למודלי שפה גדולים עם עד 52 מיליארד פרמטרים. באמצעות עבודה עם מודלים שונים בגדלים של 810 מיליון, 6.4 מיליארד, 22 מיליארד ו-52 מיליארד פרמטרים, זיהינו רצפי אימון משפיעים עבור מגוון רחב של פלטי מודל.

הממצאים הבולטים:

הכללה מופשטת עם סקיילינג: אחת המגמות המרשימות ביותר היא שדפוסי ההכללה הופכים מופשטים יותר ככל שהמודל גדל. לדוגמה, עבור מודל בעל 810 מיליון פרמטרים, רצפים משפיעים עבור שאילתה בה המודל הביע רצון לא להיות מושבת, חלקו רצפי טוקנים חופפים. לעומת זאת, עבור מודל ה-52 מיליארד פרמטרים, הרצפים המשפיעים היו קשורים יותר מבחינה קונספטואלית, וכללו נושאים כמו אינסטינקט הישרדות ורגשות דמויי אנוש ב-AI.
השפעה בין-לשונית: דוגמה בולטת במיוחד היא ההשפעה בין-לשונית. מצאנו כי ההשפעה הבין-לשונית (למשל, איך נתוני אימון באנגלית משפיעים על תגובות בקוריאנית או טורקית) מתחזקת באופן משמעותי עם גודל המודל.
לא רק שינון: פלט המודל אינו תוצאה של שינון טהור. ההשפעות עוקבות אחר התפלגות חוק חזקה, כך שחלק קטן מנתוני האימון מרכיב את רוב ההשפעה, אך ההשפעה עדיין מפוזרת. המודל אינו מצטט דוגמאות אימון בודדות ברמת הטוקן.
לוקליזציה של השפעה: פונקציות השפעה יכולות לספק גם מידע מפורט על אופן פיזור ההשפעה בתוך הרשת הנוירונית. מצאנו כי בממוצע, ההשפעה מתפזרת באופן אחיד יחסית בין שכבות שונות של הרשת. עם זאת, ההשפעה עבור שאילתות ספציפיות ממוקדת לעיתים קרובות לחלקים ספציפיים של הרשת: השכבות התחתונות והעליונות לוכדות מידע מפורט על ניסוחים, בעוד השכבות האמצעיות מבצעות הכללה ברמה נושאית מופשטת יותר.

"דפוסי ההכללה הופכים מופשטים יותר ככל שהמודל גדל, מה שמלמד על רכישת מושגים ברמה גבוהה יותר."

הדרך קדימה: הרחבת המחקר וחיבור לפרשנות מכניסטית

חקירה זו התמקדה במודלים שאומנו מראש (pretrained models). אנו נרגשים במיוחד להרחיב את פונקציות ההשפעה לכוונון עדין (fine-tuning), שכן שיטות היישור (alignment) שלנו דורשות כוונון עדין של המודלים על מגוון יעדי למידה מונחית ולמידת חיזוק, שכל אחד מהם עלול להוביל לתוצאות ואתגרים מפתיעים. היכולת שלנו, שהוזכרה לעיל, למקם השפעה בשכבות וטוקנים ספציפיים, גם מציעה כיוון קדימה לחיבור פונקציות השפעה לפרשנות מכניסטית, במטרה לקבוע אילו נוירונים ומעגלים אחראים לדפוס הכללה נתון.

תוכן קשור

איך אוסטרליה משתמשת בקלוד: ממצאים מתוך ה-Anthropic Economic Index

דו"ח ה-Anthropic Economic Index: עקומות למידה

הדו"ח החמישי של Anthropic Economic Index בוחן את השימוש בקלוד (Claude) בפברואר 2026, בהתבסס על מסגרת היסודות הכלכליים שהוצגה בדו"ח הקודם שלנו.

מציגים את בלוג המדע שלנו

אנו משיקים בלוג חדש בנושאי AI ומדע. נשתף בו מחקרים המתבצעים באנתרופיק ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניים, ונדון בתהליכי עבודה מעשיים עבור מדענים המשתמשים ב-AI בעבודתם.