גישה סטטיסטית להערכת מודלי AI
תארו לעצמכם שמודל AI אחד מציג ביצועים טובים יותר ממודל אחר במדד ביצועים (benchmark) מסוים – נניח, בבחינת ידע כללי או ביכולת לפתור שאלות קידוד. האם הפער ביכולות אמיתי, או שאולי המודל המנצח פשוט התמזל מזלו בבחירת השאלות במדד?
למרות העניין הציבורי הגובר בהערכות מודלי AI (או "Eval" בקיצור), שאלה זו נותרה בלתי נחקרת באופן מפתיע בקרב קהילת המחקר בתחום. החודש, פרסמנו מאמר מחקר חדש שמנסה לענות על שאלה זו באופן מדעי וקפדני. בהתבסס על תיאוריה סטטיסטית וספרות תכנון ניסויים, המאמר מציג מספר המלצות לקהילת מחקר ה-AI לגבי דיווח על תוצאות Eval באופן מדעי ואינפורמטיבי. בפוסט זה, נסקור בקצרה את ההמלצות לדיווח, ואת ההיגיון שמאחוריהן.
המלצה מס' 1: השתמשו במשפט הגבול המרכזי
מדדי ביצועים (Evals) רבים מורכבים לרוב ממאות או אלפי שאלות שאינן קשורות זו לזו. לדוגמה, MMLU מכיל שאלות מגוונות כמו:
- מי גילה את הנגיף הראשון?
- מהי הפונקציה ההופכית של 𝑓(𝑥)=4−5𝑥?
- מי אמר ש"תורת המשפט היא עינו של החוק"?
כדי לחשב ציון Eval כולל, כל שאלה מקבלת ניקוד נפרד, והציון הכולל הוא (בדרך כלל) ממוצע פשוט של ציוני השאלות הללו. בדרך כלל, חוקרים מתמקדים בממוצע הנצפה הזה. אך במאמר שלנו, אנו טוענים כי המטרה האמיתית צריכה להיות לא הממוצע הנצפה, אלא הממוצע התיאורטי על פני כל השאלות האפשריות. כלומר, אם נדמיין ששאלות ה-Eval נדגמו מ"יקום שאלות" בלתי נראה, נוכל ללמוד על הציון הממוצע ביקום זה – למדוד את הכישרון הבסיסי, ללא תלות ב"מזל הבחירה" – באמצעות תיאוריה סטטיסטית.
ניסוח זה מקנה לנו חוסן אנליטי: אם ייצור Eval חדש עם שאלות בעלות התפלגות קושי זהה ל-Eval המקורי, נוכל לצפות באופן כללי שהמסקנות המקוריות שלנו יישארו תקפות.
במונחים טכניים: בתנאים מתונים יחסית של משפט הגבול המרכזי, ערכי הממוצע של מספר דגימות אקראיות שנלקחו מאותה התפלגות בסיסית, נוטים לעקוב אחר התפלגות נורמלית. סטיית התקן (או רוחב) של התפלגות נורמלית זו ידועה בדרך כלל כ-Standard Error of the Mean, או SEM. במאמר שלנו, אנו ממליצים לחוקרים לדווח על ה-SEM, הנגזר ממשפט הגבול המרכזי, לצד כל ציון Eval מחושב – ואנו מראים להם כיצד להשתמש ב-SEM כדי לכמת את ההבדל בממוצעים התיאורטיים בין שני מודלים. ניתן לחשב רווח סמך של 95% מה-SEM על ידי הוספה והפחתה של 1.96 × SEM מהציון הממוצע.
המלצה מס' 2: Clustered standard errors
מדדי Eval רבים מפרים את ההנחה של שאלות שנבחרו באופן בלתי תלוי, ובמקום זאת מורכבים מקבוצות של שאלות קשורות קשר הדוק. לדוגמה, מספר שאלות במדד הבנת הנקרא עשויות לשאול על אותו קטע טקסט. מדדי Eval פופולריים העוקבים אחר דפוס זה כוללים את DROP, QuAC, RACE ו-SQuAD.
במדידי Eval אלה, בחירת כל שאלה מ"יקום השאלות" אינה עוד בלתי תלויה. מכיוון שהכללת מספר שאלות על אותו קטע טקסט תניב פחות מידע מאשר בחירת אותו מספר שאלות על קטעי טקסט שונים, יישום נאיבי של משפט הגבול המרכזי במקרה של שאלות לא בלתי תלויות יוביל אותנו להערכת חסר של ה-standard error – ועלול להטעות אנליסטים להסקת מסקנות שגויות מהנתונים.
למרבה המזל, בעיית ה-clustered standard errors נחקרה בהרחבה במדעי החברה. כאשר הכללת שאלות אינה בלתי תלויה, אנו ממליצים לבצע clustering ל-standard errors ביחידת ה-רנדומיזציה (לדוגמה, קטע טקסט), ואנו מספקים נוסחאות ישימות במאמר שלנו.
בפועל, מצאנו ש-clustered standard errors במדדי Eval פופולריים יכולים להיות גדולים פי שלושה מאשר standard errors נאיביים. התעלמות מ-clustering של שאלות עלולה להוביל חוקרים לאיתור הבדל ביכולות המודל כאשר בפועל אין כזה.
המלצה מס' 3: הפחיתו שונות בתוך שאלות
שונות היא מדד לפיזור של משתנה אקראי. השונות של ציון Eval היא ריבוע ה-standard error של הממוצע, כפי שנדון לעיל; כמות זו תלויה בכמות השונות בציון של כל שאלת Eval בודדת.
תובנה מרכזית מהמאמר שלנו היא לפרק את הציון של מודל בשאלה מסוימת לשני מרכיבים המחוברים יחד:
- ציון הממוצע (הציון הממוצע שהמודל היה משיג אם היה נשאל את אותה שאלה מספר אינסופי של פעמים – גם אם המודל עשוי לייצר תשובה שונה בכל פעם); ו-
- רכיב אקראי (ההבדל בין ציון שאלה בפועל לבין הציון הממוצע עבור שאלה זו).
הודות לחוק השונות הכוללת, הפחתת השונות ברכיב האקראי מובילה ישירות ל-standard error קטן יותר של הממוצע הכולל, וכתוצאה מכך לדיוק סטטיסטי רב יותר. המאמר שלנו מדגיש שתי אסטרטגיות להפחתת השונות ברכיב האקראי, בהתאם לשאלה אם המודל מתבקש לחשוב צעד אחר צעד לפני מתן תשובה (טכניקת פרומפט הידועה כ-CoT, או שרשרת חשיבה).
אם Eval משתמש בשרשרת חשיבה, אנו ממליצים לדגום מחדש תשובות מאותו מודל מספר פעמים, ולהשתמש בממוצעי רמת השאלה כציוני השאלה המוזנים למשפט הגבול המרכזי. אנו מציינים כי ה-Inspect framework מחשב נכון standard errors בדרך זו באמצעות ה-parameter epochs שלו.
אם ה-Eval אינו משתמש בשרשרת חשיבה (כלומר, תשובותיו אינן "תלויות נתיב"), אנו מציינים כי הרכיב האקראי בציון עשוי לעיתים קרובות להיעלם לחלוטין באמצעות שימוש בהסתברויות ה-token הבא ממודל השפה. לדוגמה, אם התשובה הנכונה לשאלת בחירה מרובה היא "B", פשוט נשתמש בהסתברות שהמודל יפיק את ה-token "B" כציון השאלה. איננו מכירים כיום framework פתוח (open-source) למדדי Eval המיישם טכניקה זו.
המלצה מס' 4: נתחו הבדלים מזווגים
ציוני Eval אין להם משמעות בפני עצמם; הם הגיוניים רק ביחס זה לזה (מודל אחד עולה בביצועיו על מודל אחר, או שווה לו, או עולה על אדם). אך האם הבדל מדוד בין שני מודלים יכול לנבוע מבחירה ספציפית של שאלות ב-Eval, ומאקראיות בתשובות המודלים? ניתן לגלות זאת באמצעות מבחן t דו-מדגמי, תוך שימוש ב-standard errors של הממוצע המחושבים משני ציוני ה-Eval.
עם זאת, מבחן דו-מדגמי מתעלם מהמבנה הנסתר בנתוני ה-Eval. מכיוון שרשימת השאלות משותפת בין המודלים, ביצוע מבחן הבדלים מזווגים מאפשר לנו לבטל את השונות בקושי השאלה ולהתמקד בשונות בתגובות. במאמר שלנו, אנו מראים כיצד תוצאת מבחן הבדלים מזווגים תהיה קשורה למקדם המתאם של פירסון בין ציוני השאלות של שני מודלים. ככל שמקדם המתאם גבוה יותר, כך ה-standard error של הפרש הממוצעים יהיה קטן יותר.
בפועל, אנו מוצאים כי המתאם של ציוני שאלות במדדי Eval פופולריים בין מודלי חזית הוא מהותי – בין 0.3 ל-0.7 בסולם של -1 עד +1. במילים אחרות, למודלי חזית יש נטייה כללית לענות נכון ושגוי על אותן שאלות.
ניתוח הבדלים מזווגים מייצג טכניקה "חינמית" להפחתת שונות, המתאימה מאוד להערכות מודלי AI. לכן, על מנת לחלץ את האות הברור ביותר מהנתונים, המאמר שלנו ממליץ לדווח על מידע זוגי – הפרשי ממוצעים, standard errors, רווחי סמך ומתאמים – בכל פעם שמשווים שני מודלים או יותר.
המלצה מס' 5: השתמשו בניתוח עוצמה
הצד השני של מטבע המובהקות הסטטיסטית הוא עוצמה סטטיסטית, שהיא היכולת של מבחן סטטיסטי לאתר הבדל בין שני מודלים, בהנחה שאכן קיים כזה. אם ל-Eval אין שאלות רבות, רווחי הסמך הקשורים למבחנים סטטיסטיים כלשהם נוטים להיות רחבים. משמעות הדבר היא שמודלים יצטרכו להציג הבדל מהותי ויסודי ביכולותיהם על מנת לרשום תוצאה מובהקת סטטיסטית – ושייתכן שפערים קטנים לא יתגלו. ניתוח עוצמה מתייחס לקשר המתמטי בין מספר התצפיות, עוצמה סטטיסטית, שיעור השגיאות מסוג I (false positive rate), וגודל האפקט הרצוי.
במאמר שלנו, אנו מראים כיצד ליישם מושגים מניתוח עוצמה על מדדי Eval. באופן ספציפי, אנו מראים לחוקרים כיצד לנסח השערה (לדוגמה: מודל A עולה בביצועיו על מודל B ב-3 נקודות אחוז) ולחשב את מספר השאלות ש-Eval צריך לכלול על מנת לבדוק השערה זו מול השערת האפס (לדוגמה: מודל A ומודל B שווים).
אנו מאמינים כי ניתוח עוצמה יועיל לחוקרים במגוון מצבים. נוסחת העוצמה שלנו תספק למעריכי מודלים מידע על מספר הפעמים שצריך לדגום מחדש תשובות משאלות (ראו המלצה מס' 3 לעיל), וכן על מספר השאלות שניתן לכלול בתת-דגימה אקראית תוך שמירה על תכונות העוצמה הרצויות. חוקרים עשויים להשתמש בנוסחת העוצמה כדי להסיק ש-Eval עם מספר מוגבל של שאלות זמינות אינו כדאי להרצה על זוג מודלים מסוים. מפתחי מדדי Eval חדשים עשויים לרצות להשתמש בנוסחה כדי לסייע בהחלטה כמה שאלות לכלול.
לסיכום
סטטיסטיקה היא מדע המדידה בנוכחות רעש. מדדי Eval מציגים מספר אתגרים פרקטיים, ו"מדע של Evals" אמיתי נותר בלתי מפותח דיו. סטטיסטיקה יכולה להוות רק היבט אחד במדע של Evals – אך היבט קריטי, שכן מדע אמפירי טוב רק ככלי המדידה שלו. אנו מקווים כי ההמלצות במאמר שלנו, "הוספת פסי שגיאה למדדי Eval: גישה סטטיסטית להערכת מודלי שפה", יסייעו לחוקרי AI לחשב, לפרש ולתקשר נתוני Eval בדיוק ובהירות רבה יותר מבעבר – ואנו מעודדים את חוקרי קהילת ה-AI לחקור טכניקות נוספות מתחום תכנון הניסויים על מנת שיוכלו להבין בצורה מדויקת יותר את כל הדברים שהם רוצים למדוד.
תוכן קשור
מושגי רגש ותפקידם במודל שפה גדול
כיצד אוסטרליה משתמשת בקלוד: ממצאים מתוך ה-Anthropic Economic Index
דוח ה-Anthropic Economic Index: עקומות למידה
הדוח החמישי של Anthropic Economic Index בוחן את השימוש בקלוד בפברואר 2026, ומתבסס על מסגרת ה-economic primitives שהוצגה בדוח הקודם שלנו.



