סופרפוזיציה, שינון וירידה כפולה
במאמר שפרסמנו לאחרונה, מצאנו כי רשתות נוירוניות פשוטות שאומנו על משימות הדגמה מציגות לעיתים קרובות תופעה הנקראת סופרפוזיציה, שבהן הן מייצגות יותר תכונות משיש להן נוירונים. המחקר שלנו הוגבל לתחום הנתונים האינסופיים ובתחום תת-ההתאמה (underfitting). אך יש סיבה להאמין שהבנת זליגת יתר (overfitting) עשויה להיות חשובה אם נרצה להצליח בפרשנות מכניסטית, וכי סופרפוזיציה עשויה להיות חלק מרכזי בסיפור.
מדוע פרשנות מכניסטית צריכה להתעניין בזליגת יתר? למרות שזליגת יתר היא בעיה מרכזית בלמידת מכונה, יש לנו הבנה מכניסטית מועטה לגבי מה בדיוק מתרחש כאשר מודלי למידה עמוקה מבצעים זליגת יתר או משננים דוגמאות. בנוסף, עבודות קודמות רמזו שייתכן שיש קשר חשוב בין זליגת יתר לבין למידת תכונות ניתנות לפרשנות.
לכן, הבנת זליגת יתר חשובה, אך מדוע היא רלוונטית לסופרפוזיציה? הבה נתבונן במקרה של מודל שפה שמשנן טקסט מילה במילה. כיצד הוא יכול לעשות זאת? רעיון נאיבי אחד הוא שהוא עשוי להשתמש בנוירונים כדי ליצור טבלת חיפוש הממפה רצפים להמשכים שרירותיים. עבור כל רצף של טוקנים שהוא מעוניין לשנן, הוא יכול להקדיש נוירון אחד לאיתור אותו רצף, ולאחר מכן ליישם התנהגות שרירותית כאשר הוא מופעל. הבעיה בגישה זו היא שהיא לא יעילה במיוחד – אך היא נראית כמו מועמדת מושלמת לסופרפוזיציה, מכיוון שכל מקרה הוא בלעדי הדדי ולא יכול להפריע.
במסמך זה, אנו מציעים חקירה ראשונית מאוד של אימון אותם מודלי הדגמה מהמאמר הקודם שלנו על קבוצות נתונים מוגבלות. למרות פשטותו הקיצונית, מודל ההדגמה מתגלה כמקרה מבחן עשיר באופן מפתיע עבור זליגת יתר. בפרט, אנו מוצאים את הדברים הבאים:
- זליגת יתר מקבילה לאחסון נקודות נתונים, במקום תכונות, בסופרפוזיציה.
- בהתאם לגודל קבוצת הנתונים, המודלים שלנו נופלים לשני משטרים שונים: משטר זליגת יתר (המאופיין באחסון נקודות נתונים בסופרפוזיציה), ומשטר הכללה (המאופיין באחסון תכונות בסופרפוזיציה).
- אנו צופים בתופעת הירידה הכפולה (Double Descent) כאשר המודל עובר בין משטרים אלה.
תוכן קשור
מושגי רגש ותפקידם במודל שפה גדול
כיצד אוסטרליה משתמשת ב-Claude: ממצאים מדו"ח Anthropic Economic Index
דו"ח Anthropic Economic Index: עקומות למידה
הדו"ח החמישי בסדרת Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת העקרונות הכלכליים הבסיסיים שהוצגה בדו"ח הקודם שלנו.



