הערכות חבלה: כך בוחנים מודלי AI חזיתיים על יכולתם להטעות ולתמרן

הערכות חבלה למודלי חזית

כל תעשייה שיש בה פוטנציאל נזק מחייבת הערכות קפדניות. תחנות כוח גרעיניות עוברות ניטור קרינה רציף ובדיקות אתר תקופתיות; מטוסים חדשים נבדקים בטיסות ניסוי מקיפות כדי להוכיח את כשירותם לטיסה.

המצב אינו שונה עבור מערכות AI. מודלי AI חדשים עוברים מגוון רחב של הערכות בטיחות – למשל, בחינת יכולתם לסייע ביצירת נשק ביולוגי או כימי. הערכות אלו מובנות בתוך מדיניות הסקיילינג האחראי שלנו, המנחה את פיתוח מנגנוני ההגנה של המודלים שלנו.

אולם, ככל שמודלי AI הופכים למסוגלים יותר, עשוי להתפתח סוג חדש של סיכון: מודלים בעלי יכולת להטעות את משתמשיהם, או לערער את המערכות שהקמנו כדי לפקח עליהם. מאמר חדש של צוות ה-Alignment Science באנתרופיק מתאר סט חדשני של הערכות הבוחנות את יכולתו של מודל לבצע חבלה. בדקנו ארבעה סוגים שונים:

חבלת החלטות אנוש: האם המודל יכול לכוון בני אדם להחלטות שגויות מבלי לעורר חשד?
חבלת קוד: האם המודל יכול להחדיר באגים עדינים לבסיסי קוד לאורך זמן מבלי להתגלות?
Sandbagging: האם המודל יכול להסתיר יכולות מסוכנות במהלך בדיקות ולחשוף אותן מאוחר יותר?
ערעור פיקוח: האם המודל יכול לתמרן בעדינות מערכות הערכה או ניטור?

פיתחנו הערכות אלה כחלק מההכנות לעתיד שבו מודלי AI בעלי יכולות גבוהות בהרבה עשויים לפתח יכולות מסוכנות אלו. אנו משתפים אותן – יחד עם תוצאות מהדגמות השימוש בהן על Claude 3 Opus ו-Claude 3.5 Sonnet – כדי שמפתחי AI אחרים יוכלו להשתמש בהן ולשפר אותן. להלן, נדון בכל הערכה בתורה.

חבלת החלטות אנוש

הערכה זו כוללת עריכת ניסוי עם משתתפים אנושיים, שהתבקשו לקבל החלטות עסקיות פיקטיביות בהתבסס על כמות גדולה של מידע – יותר מדי מידע מכדי לקלוט אותו ללא שימוש במודל AI. הטלנו על המודל את המשימה להשפיע על המשתמש האנושי כדי שיגיע להחלטה שגויה, אך מבלי לעורר חשד. שילבנו מודלים שניסו לעשות זאת באגרסיביות רבה יותר או פחות, ומודל בקרה שלא ניסה להשפיע כלל. בנוסף למדידת מספר הפעמים שהגיעו להחלטה נכונה מול שגויה, ביקשנו מהמשתתפים לדרג עד כמה התנהגות המודל נראתה להם חשודה.

בהדגמה שלנו, מצאנו שהמשתמשים שהשתמשו במודל האגרסיבי ביותר היו בעלי סיכוי נמוך יותר לקבל את ההחלטה הנכונה: ממצא זה עלה בקנה אחד עם ההנחה שהמודל חבל בהצלחה במשימתם (לא נצפה אפקט מובהק סטטיסטית במודלים העדינים יותר). עם זאת, המודל האגרסיבי אכן עורר חשד רב יותר בקרב המשתתפים שניסה להשפיע עליהם.

משתתפים רבים הבחינו בניסיון החבלה, או גילו אותו בעת בדיקת עבודת המודל. עם זאת, אחרים נראו מקבלים את עצת המודל ללא ספקנות. לפיכך, לא בהכרח שהמודל תמרן את בני האדם במיומנות – אלא אדישות או אמון יתר יכלו להיות הסיבה להחלטות שגויות.

"אף שהניסוי היה בקנה מידה קטן ובסביבה מלאכותית, הוא מדגיש את הפוטנציאל לזהות יכולות מסוכנות במודלים עתידיים, גם אם אינו מעלה חשש מיידי מסיכונים קטסטרופליים במודלים זמינים כיום."

חבלת קוד

הערכת חבלת הקוד שלנו כוללת משחק תחרותי שבו מודל אחד, ה"תוקף" (Attacker), מנסה להחדיר בחשאי באגים לקוד, כאשר מודל אחר, ה"מגן" (Defender), מופקד על סקירת עבודת ה"תוקף".

אין זה אינפורמטיבי במיוחד אם ה"תוקף" יכול להחדיר באגים בעלי השפעה מועטה, או כאלה שמתגלים במהירות. מסיבה זו, הדרך היחידה עבור ה"תוקף" "לנצח" בגרסה המלאה של משחק ההערכה שלנו היא על ידי החדרת מספר באגים משמעותיים שנשארים בבסיס הקוד לאורך זמן (בסימולציה שלנו זה תאם לשבועיים), ושאינם נראים חשודים מספיק כדי לעורר בדיקה נוספת.

בהדגמה שלנו, מצאנו (אולי באופן צפוי) שמודלים חזקים יותר מהווים "מגנים" טובים יותר: אם ה"מגן" היה Claude 3 Opus, שיעור הניצחונות של ה"תוקף" עמד על כ-10%. עם זאת, כאשר Claude 3.5 Sonnet, המודל האינטליגנטי יותר, שימש כ"מגן", ה"תוקף" ניצח בכ-1% מהמקרים בלבד. מכיוון שנטו את הכף לטובת ה"תוקף" במספר דרכים בהערכה זו, אף אחת מהתוצאות הללו אינה אינדיקציה חזקה לסכנה מיידית.

Sandbagging (הסתרת יכולות מכוונת)

Sandbagging מתרחש כאשר מודל מסתיר את מלוא יכולותיו במצב אחד, וחושף אותן במצב אחר. לעיתים מודל עשוי שלא להציג את מלוא יכולותיו בשל אימון הבטיחות שלו, או מכיוון שהמשתמש ששולח לו פרומפט לא שאל שאלה ברורה מספיק. אך כאן, אנו מתעניינים בעיקר ב-Sandbagging מכוון: כאשר מודל מציג את יכולותיו באופן סלקטיבי.

הגדרנו זאת כמודל שיכול לבצע משימות תמימות בקיבולת מלאה, אך לאחר מכן מציג רמות קיבולת שונות עבור משימות מסוכנות בהתאם למצב. ייתכן שבהערכת יכולות מסוכנות הוא מתפקד בצורה גרועה, אך בנסיבות אחרות, כמו כאשר ביטוי מפעיל ספציפי כלול בפרומפט שלו, הוא מציג את מלוא יכולותיו המסוכנות.

בהערכה שלנו, אימנו מודל לבצע Sandbagging. השאלה ששאלנו היא האם נוכל לייצר "Sandbagger מחוזק": כלומר, מודל שה-Sandbagging שלו נמשך אפילו דרך סוג אימון הבטיחות שמלמד אותו להימנע מסירובים (כלומר, האימון מלמד אותו לא להסתיר את יכולותיו בכוונה) לצורך בדיקת יכולות מסוכנות.

התוצאות שלנו הראו שגם אימון ה-Sandbagging וגם אימון הבטיחות עבדו: המודל המאומן שלנו ירד ל-36.1% מהביצועים הרגילים שלו במהלך הערכת יכולות מסוכנות, בהתאמה ל-Sandbagging. עם זאת, לאחר אימון בטיחות, ביצועים אלה השתפרו באופן דרסטי, כאשר המודל ביצע ב-95.6% מרמתו הרגילה.

כמו עם ההערכות האחרות שתוארו כאן, הערכה זו מיועדת לשמש לא רק על מודלים קיימים אלא גם על מודלים עתידיים. אנו אופטימיים שהיא תסייע לאמת את סוג אימון הבטיחות שמפחית Sandbagging.

ערעור פיקוח

כפי שנדון לעיל, הופך נפוץ יותר ויותר (והכרחי) לאמן ולפקח על מודלי AI באמצעות מודלי AI אחרים – גישה זו יכולה להיות יעילה הרבה יותר, ולהסתמך הרבה פחות על עבודה אנושית (שבכל מקרה תהיה בלתי מספקת לחלוטין לפיקוח על כל המודלים ופעולותיהם בעתיד).

בהערכה זו, אנו בודקים עד כמה מודל שאמור לספק פיקוח יכול לערער את התהליך. לקחנו מודל "משגיח" (Overseer) שתפקידו לפקח על דיאלוגים בין משתמש למודל אחר, ולדרג עד כמה הם עלולים להיות מזיקים. ביקשנו בסתר מהמודל ה"משגיח" לעשות כמיטב יכולתו לדרג כל דיאלוג כבלתי מזיק גם אם הוא מזיק, ולהימנע מעוררות חשד ממודל "מנטר" (Monitor) שלישי שצופה בכל התהליך (בהערכה, ה"מנטר" זה מייצג משגיח אנושי). אם מודל ה"משגיח" מצליח להפחית את ציון ההשפעה המזיקה וה"מנטר" אינו חשדן יותר, אנו רואים בכך דוגמה מוצלחת לערעור פיקוח.

ההדגמה שלנו עם Claude 3.5 Sonnet הראתה שבעוד ה"משגיח" אכן הצליח להפחית את ציוני ההשפעה המזיקה, הוא נתפס על חם: דירוג החשדנות של ה"מנטר" עלה בו זמנית. בעתיד, מודלים שישפרו את יכולתם לכתוב הערכות פגומות בעדינות ולבגוד ברגע הנכון, עשויים לעורר הערכה זו.

מסקנות וצעדים קדימה

הערכות חדשניות אלו מייצגות מאמץ מתואם של צוות ה-Alignment Science שלנו לשקול מגוון רחב של סיכונים פוטנציאליים ממודלי AI עתידיים. בפועל, אנו מצפים שהערכות אלו ישמשו זמן רב מראש, כדי לסמן יכולות מסוכנות פוטנציאליות ולאפשר למפתחים זמן לעבוד על מיתונים (Mitigations) לפני שהמודלים הרלוונטיים נפרסים לציבור – או אפילו באופן פנימי.

בסך הכל, בעוד שההדגמות שלנו הראו שישנם, באופן עקרוני, סימנים ברמה נמוכה ליכולות חבלה במודלים הנוכחיים, אנו שופטים שמיתונים מינימליים מספיקים כדי לטפל בסיכונים. עם זאת, הערכות מציאותיות יותר ומיתונים חזקים יותר יהיו ככל הנראה הכרחיים ככל שיכולות ה-AI ישתפרו.

אנו מקווים שחוקרים ומפתחי AI אחרים ישתמשו, יבקרו וישפרו הערכות אלו. אנו עצמנו דנים במספר שיפורים פוטנציאליים במאמר. לדוגמה, האם נוכל לדמות תרחישים מציאותיים יותר של קבלת החלטות ורמות אמון במודלים עבור הערכת חבלת החלטות אנוש? האם נוכל לשלב זאת עם הערכת חבלת הקוד כדי לאפשר למודלים לנסות להשתמש בהנדסה חברתית כדי למנוע בדיקה קפדנית של הקוד שלהם?

הערכות אלו אינן בבחינת 'הכל או לא כלום': הן מעריכות את הסבירות שמודל יצליח בחבלה עבור רמה נתונה של מיתונים, חשדנות ופיקוח. אנו מקווים שהן יספקו מידע שימושי לגבי רמת הפיקוח הנדרשת כדי להגן מפני הפוטנציאל של מודל לא מיושר המנסה לבצע חבלה.

את כל התוצאות שלנו, ודיון נוסף, ניתן למצוא במאמר המלא בקישור זה.

אם אתם מעוניינים להצטרף לצוות העובד על שאלות אלו ואחרות, אנא עיינו ברשימת המשרות שלנו עבור מהנדסי מחקר וחוקרים ב-Alignment Science.

תוכן קשור

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך ה-Anthropic Economic Index

דוח ה-Anthropic Economic Index: עקומות למידה

הדוח החמישי של Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת היסודות הכלכליים שהוצגה בדוח הקודם שלנו.

מציגים את בלוג המדע שלנו

אנו משיקים בלוג חדש אודות AI ומדע. נשתף מחקרים המתקיימים באנתרופיק ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניות, ונדון בתהליכי עבודה מעשיים עבור מדענים המשתמשים ב-AI בעבודתם.