מודלי שפה גדולים (LLM) הפכו לכוח מניע מהותי בעולם הטכנולוגיה, ומשמשים בבסיסם של מגוון רחב של יישומים, מצ'אטבוטים ועד כלי קידוד סוכני. אימון מודלים אלה דורש כמויות אדירות של נתונים, ולרוב מתבצע על מערכי נתונים עצומים. אך מה קורה כאשר חלק מהנתונים הללו חוזרים על עצמם? מחקר חדש של חברת אנתרופיק (Anthropic) שופך אור על סוגיה קריטית זו, ומגלה כי חשיפה חוזרת לנתונים במהלך האימון עלולה לפגוע באופן חמור וללא פרופורציה בביצועי המודל.

המחיר הנסתר של שינון יתר

מודלי שפה גדולים עכשוויים מאומנים על מערכי נתונים עצומים, אך לעיתים קרובות הם גם נחשפים לנתונים חוזרים. חזרה זו יכולה להיות מכוונת, למשל, לצורך הענקת משקל יתר לנתונים איכותיים, או בלתי מכוונת, כתוצאה מכך שתהליכי הסרת הכפילויות (deduplication) אינם מושלמים, והמודל נחשף לתוכן זהה ברמת משפט, פסקה או מסמך שלם. מספר מחקרים קודמים כבר הצביעו על השפעות שליליות משמעותיות של תופעה זו על ביצועי המודל.

במחקר הנוכחי, אנתרופיק ביקשה לבחון את השפעות הנתונים החוזרים באופן שיטתי, ולהבין את המנגנונים העומדים מאחוריהן. לשם כך, החוקרים אימנו משפחה של מודלים שבהם רוב נתוני האימון היו ייחודיים, אך חלק קטן מהם חזר על עצמו פעמים רבות. ממצא מרכזי הוא תופעה חזקה של 'ירידה כפולה' (double descent), שבה נתונים חוזרים גרמו לעלייה בפונקציית ההפסד (test loss) באמצע תהליך האימון.

טווח צפוי של תדירות חזרת נתונים הוביל לירידה חמורה ומפתיעה בביצועים. כך למשל, מודל עם 800 מיליון פרמטרים יכול לחוות ירידה בביצועים עד לרמה של מודל קטן ממנו פי שניים (400 מיליון פרמטרים), וזאת רק כתוצאה מחזרה על 0.1% מהנתונים 100 פעמים – למרות ש-90% מהטוקנים של האימון נותרו ייחודיים.

החוקרים משערים כי קיים טווח מסוים של חזרות שבו הנתונים ניתנים לשינון, ופעולה זו צורכת נתח גדול מיכולת המודל, מה שעלול להוביל לשיא הירידה בביצועים.

מזיכרון להכללה: הבנת המנגנון הפנימי

לבסוף, המחקר מקשר את התצפיות הללו לעבודות עדכניות בתחום ה'פרשנות המכניסטית' (mechanistic interpretability) – תחום המנסה להנדס לאחור את החישובים המפורטים שמבצע המודל. החוקרים הראו כי חזרתיות בנתונים פוגעת באופן בלתי פרופורציונלי ביכולות 'העתקה' ובמבנים פנימיים המקושרים ליכולת ההכללה, כמו 'ראשי אינדוקציה' (induction heads). ממצא זה מספק הסבר מכניסטי אפשרי למעבר של המודל מהתמקדות בהכללה (generalization) לשינון (memorization).

בסך הכל, תוצאות אלו מספקות השערה חזקה לגבי הסיבה לכך שחזרה על חלק קטן יחסית מנתוני האימון במודלי שפה גדולים עלולה להוביל לנזקים גדולים באופן בלתי פרופורציונלי לביצועי המודל. המחקר מדגיש את הצורך בגישות מתוחכמות יותר לניהול נתוני אימון, במטרה לבנות מודלי AI יעילים, אמינים ובטוחים יותר, ולמנוע את 'המחיר הנסתר' של שינון יתר.