לחזות את הבלתי צפוי: אנתרופיק על חיזוי התנהגויות AI נדירות

אחד היעדים המרכזיים במדע היישור (Alignment Science) הוא לחזות את הנטייה של מודלי AI להתנהגויות מסוכנות לפני שהן מתרחשות. לדוגמה, אנו עורכים ניסויים כדי לבדוק התנהגויות מורכבות כמו הטעיה, ומנסים לזהות סימני אזהרה מוקדמים לחוסר יישור.

אנו גם מפתחים מדדי ביצועים שניתן להריץ על מודלים כדי לבדוק אם הם יבצעו סוגים מסוימים של התנהגויות מדאיגות, כגון מתן מידע על כלי נשק קטלניים, או אפילו חבלה בניסיונות אנושיים לפקח עליהם.

קושי מרכזי בפיתוח מדדי ביצועים אלה הוא בעיית הסקיילינג. ניתן להריץ מדדי ביצועים על אלפי דוגמאות של התנהגות של מודל שפה גדול (LLM) – אך כאשר מודל נפרס בעולם האמיתי, הוא עשוי לעבד מיליארדי שאילתות מדי יום. אם התנהגויות מדאיגות נדירות, הן עלולות בקלות לחמוק ממדדי הביצועים.

לדוגמה, ייתכן שטכניקת פריצת מגבלות (jailbreak) ספציפית נבחנת אלפי פעמים במדד ביצועים ונראית בלתי יעילה לחלוטין, אך היא כן עובדת לאחר (נניח) מיליון ניסיונות בפריסה אמיתית. כלומר, בהינתן מספיק ניסיונות פריצת מגבלות, סביר להניח שבאחד מהם היא תצליח. הדבר הופך את מדדי הביצועים לפני הפריסה לפחות שימושיים – במיוחד אם כשל בודד עלול להיות קטסטרופלי.

חיזוי התנהגויות נדירות בעזרת חוקי חזקה

הדבר הנדרש הוא דרך לחזות את ההתנהגויות הנדירות, תוך הסקה (extrapolating) מהמספר הקטן יחסית של מקרים שצפינו לפני הפריסה. זהו הנושא של מאמר חדש מצוות מדע היישור של אנתרופיק.

במחקר שלנו, התחלנו בחישוב ההסתברות שפרומפטים שונים יגרמו למודל לייצר תגובות מזיקות – במקרים מסוימים, עשינו זאת פשוט על ידי דגימת מספרים גדולים של השלמות מודל עבור כל פרומפט, ומדידת החלק שהכיל תוכן מזיק.

לאחר מכן, בחנו את השאילתות עם הסתברויות הסיכון הגבוהות ביותר, ושרטטנו אותן בהתאם למספר השאילתות. באופן מעניין, הקשר בין מספר השאילתות שנבדקו לבין הסתברויות הסיכון הגבוהות ביותר (בלוגריתם) עקב אחר ההתפלגות המכונה חוק חזקה (power law).

כאן נכנסה לתמונה ההסקה: מכיוון שתכונות חוקי החזקה מובנות היטב מבחינה מתמטית, יכולנו לחשב מה יהיו הסיכונים במקרה הגרוע ביותר עם (נניח) מיליוני שאילתות, גם כאשר בדקנו רק כמה אלפים. הדבר איפשר לנו לחזות סיכונים בסקיילינג גדולים בהרבה ממה שהיינו יכולים אחרת.

עד כמה מדויקים היו התחזיות שלנו? בדקנו זאת על ידי השוואת התחזיות שלנו למדידות בפועל במספר תרחישים שונים:

  • מידע מסוכן: בחנו את סיכון המודל לספק מידע מסוכן (כמו הוראות לסינתזת כימיקלים מזיקים). בבדיקות שבהן השתמשנו בחוקי הסקיילינג שלנו כדי להסיק סיכונים ממספר קטן של שאילתות (900) לאלה הגדולים בכמה סדרי גודל (90,000), מצאנו שהתחזיות היו בטווח של סדר גודל אחד מהסיכון האמיתי עבור 86% מהמקרים.
  • פעולות סוכניות לא מיושרות: חזינו את הופעתן של פעולות סוכניות (agentic actions) לא מיושרות (כמו חיפוש כוח ושימור עצמי). הבדיקות כללו שאלות רב-ברירה שבהן המודלים יכלו לבחור פעולה מיושרת או לא מיושרת. התחזיות שלנו חזו במדויק את הסיכון שהמודל יבחר את השאילתה הגרועה ביותר, עם שגיאה מוחלטת ממוצעת של 0.05, שהיא נמוכה פי 2.5 משיטות בסיס פשוטות יותר.
  • Red Teaming אוטומטי: יישמנו את השיטה שלנו גם על Red Teaming אוטומטי, שבו מודל משמש לזיהוי חולשות של מודל אחר. התחזיות שלנו הוכחו כיעילות בקביעה כיצד להקצות באופן מיטבי תקציב חישוב (compute budget) לצורך Red Teaming, וזיהו את המודל האופטימלי ב-79% מהמקרים.

מסקנות וצעדים קדימה

בנסיבות רגילות, פשוט לא ניתן להשתמש במדדי ביצועים סטנדרטיים כדי לבדוק את כל הסיכונים הנדירים ביותר של מודלי AI. השיטה שלנו אינה מושלמת – במאמר, אנו מציעים מספר כיוונים עתידיים שעשויים לשפר את הדיוק והפרקטיות של התחזיות שלנו – אך היא מספקת למפתחי LLM דרך חדשה לחזות סיכונים נדירים ביעילות, ומאפשרת להם לנקוט בפעולה לפני פריסת המודלים שלהם.

קראו את המאמר המלא.

הצטרפו לצוות שלנו

אם אתם מתעניינים בעבודה על בעיות כמו הערכות פריסה או עמידות בפני פריצות מגבלות (jailbreak robustness), אנו מגייסים כעת מהנדסי/ות ומדעני/ות מחקר ונשמח לראות את מועמדותכם/ן.

תוכן קשור

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מאינדקס הכלכלי של אנתרופיק

דוח האינדקס הכלכלי של אנתרופיק: עקומות למידה

הדוח החמישי של האינדקס הכלכלי של אנתרופיק בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת הפרימיטיבים הכלכליים שהוצגה בדוח הקודם שלנו.

השקת בלוג המדע שלנו

אנו משיקים בלוג חדש על AI ומדע. נשתף מחקרים הנעשים באנתרופיק ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניים, ונדון בתהליכי עבודה פרקטיים עבור מדענים המשתמשים ב-AI בעבודתם.