מודלי שפה יודעים (ברובם) מה הם יודעים: המחקר החשוב של אנתרופיק

בעולם ה-AI המתפתח במהירות, האמון במודלי שפה גדולים (LLM) הוא קריטי. אחד האתגרים הגדולים ביותר העומדים בפני מפתחים ומשתמשים כאחד הוא תופעת ה"הזיות" (hallucination), שבה המודלים מייצרים מידע שגוי אך נשמע משכנע. חברת אנתרופיק (Anthropic), הידועה במחויבותה לבטיחות AI ולפיתוח מערכות אמינות, ניתנות לפרשנות וניתנות לשליטה, פרסמה לאחרונה מחקר מעמיק הבוחן סוגיה יסודית זו: האם מודלי שפה מסוגלים להבחין בין ידע לאי-ידע, ולהעריך את אמיתות הטענות שהם מפיקים?

היכולת של מודל AI להעריך את רמת הוודאות שלו בתשובה נתונה היא מרכיב חיוני לפיתוח AI אחראי. היא מאפשרת למודלים לא רק לספק מידע, אלא גם לסמן מתי הם פחות בטוחים בנכונות התשובה, ובכך להפחית את הסיכון להפצת מידע מטעה. המחקר של אנתרופיק מתמקד בשתי שאלות מפתח: ראשית, האם מודלי שפה יכולים להעריך את התוקף של הטענות שלהם? ושנית, האם הם יכולים לחזות מראש באילו שאלות הם יוכלו לענות נכונה?

המסע אל מודלי AI כנים: P(True) ככלי להערכה עצמית

השלב הראשון במחקר בחן את יכולתם של מודלים להעריך את אמיתות התשובות שלהם. החוקרים גילו כי מודלים גדולים יותר, כאשר הם מכוילים היטב ומוצגות להם שאלות בפורמט הנכון (בחירה מרובה או אמת/שקר), מפגינים כיול מצוין. כדי לבחון הערכה עצמית במשימות פתוחות, הם פיתחו גישה חדשנית: המודלים מתבקשים קודם כל להציע תשובות, ולאחר מכן להעריך את הסבירות "P(True)" שהתשובות הללו נכונות. התוצאות בתחום זה מעודדות במיוחד.

"מצאנו ביצועים, כיול וסקיילינג מעודדים עבור P(True) במגוון רחב של משימות. הביצועים בהערכה עצמית אף משתפרים כאשר אנו מאפשרים למודלים לשקול דוגמאות רבות משלהם לפני שהם חוזים את התוקף של אפשרות ספציפית."

כלומר, ככל שהמודל מקבל יותר הזדמנויות לשקול ולבחון את הנתונים, כך הוא מדייק יותר בהערכה העצמית שלו. זהו צעד משמעותי לקראת מודלים שמסוגלים לא רק לייצר תוכן, אלא גם לבקר אותו.

היכולת לחזות ידע: כשמודל אומר 'אני יודע'

החלק השני של המחקר עסק בשאלה מעמיקה יותר: האם מודלים יכולים לחזות את הסבירות ש"אני יודע" (P(IK)) את התשובה לשאלה, וזאת ללא התייחסות לתשובה ספציפית שהוצעה? היכולת הזו מהווה סוג של מטא-ידע – היכולת לדעת אם יש לי ידע על נושא מסוים. המודלים הראו ביצועים טובים בניבוי P(IK) והפגינו יכולת הכללה חלקית בין משימות שונות.

עם זאת, בתחום הכיול של P(IK) במשימות חדשות, המודלים עדיין מתמודדים עם אתגרים. נקודה מעניינת היא שסבירות ה-P(IK) החזויה גדלה באופן הולם בנוכחות חומרי מקור רלוונטיים בתוך חלון ההקשר (context window), וכן בנוכחות רמזים המכוונים לפתרון בעיות מילוליות מתמטיות. זה מצביע על כך שהמודל מזהה 'רמזים' לידע פוטנציאלי.

לסיכום, תצפיות אלו, כפי שמציינים באנתרופיק, מניחות את היסודות לאימון מודלים "כנים" יותר, ולחקר האופן שבו "כנות" זו יכולה להכליל למקרים שבהם המודלים מאומנים על מטרות אחרות מאשר חיקוי כתיבה אנושית. המטרה הסופית היא לבנות מודלי AI שאפשר לסמוך עליהם יותר, שיכולים להכיר במגבלותיהם ולהפגין סוג של מודעות עצמית ליכולותיהם.

מודלי שפה יודעים (ברובם) מה הם יודעים: המחקר החשוב של אנתרופיק

המסע אל מודלי AI כנים: P(True) ככלי להערכה עצמית

היכולת לחזות ידע: כשמודל אומר 'אני יודע'

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות