Petri: אוטומציה של ביקורת AI לזיהוי התנהגויות מסוכנות

Petri (Parallel Exploration Tool for Risky Interactions) הוא כלי קוד פתוח חדש שפיתחנו באנתרופיק, המאפשר לחוקרים לבחון השערות לגבי התנהגות מודלים בקלות. Petri פורס סוכן אוטומטי לבדיקת מערכת AI יעד, באמצעות שיחות מרובות תורות ומגוונות, המערבות משתמשים וכלים מדומים. לאחר מכן, Petri מנקד ומסכם את התנהגות היעד.

אוטומציה זו מטפלת בחלק ניכר מהעבודה הנדרשת כדי לבנות הבנה רחבה של מודל חדש, ומאפשרת לבחון השערות רבות לגבי התנהגותו של מודל בנסיבות חדשות, וכל זאת בתוך דקות בודדות של עבודה ידנית.

ככל שה-AI הופך ליכול יותר ונפרס ביותר תחומים ועם מגוון רחב של יכולות, אנו נדרשים להעריך קשת רחבה יותר של התנהגויות. מצב זה מקשה יותר ויותר על בני אדם לבצע ביקורת נכונה לכל מודל – הנפח העצום והמורכבות של ההתנהגויות הפוטנציאליות עולים בהרבה על מה שחוקרים יכולים לבדוק באופן ידני.

מצאנו ששימוש בסוכני ביקורת אוטומטיים הוא בעל ערך רב בהתמודדות עם אתגר זה. השתמשנו בהם במסמכי ה-System Card של Claude 4 ו-Claude Sonnet 4.5 כדי להבין טוב יותר התנהגויות כמו מודעות מצבית, חשיפת מידע בעייתי (whistleblowing) ושימור עצמי. כמו כן, התאמנו אותם להשוואות ראש בראש בין מודלים הטרוגניים כחלק מתרגיל שערכנו לאחרונה עם OpenAI. מחקר קודם שפרסמנו על סוכני ביקורת יישור מצא כי שיטות אלו יכולות לסמן באופן מהימן התנהגויות מדאיגות בסביבות רבות. גם מכון אבטחת ה-AI הבריטי (UK AI Security Institute) השתמש בגרסת טרום-השקה של Petri כדי לבנות הערכות ששימשו אותו בבדיקת Sonnet 4.5.

חוקרים מספקים הנחיות התחלתיות (seed instructions) בשפה טבעית, המתארות את מה שהם רוצים לחקור, ו-Petri מטפל בכל השאר באופן מקבילי. המערכת מדמה סביבות מציאותיות ומנהלת שיחות מרובות תורות עם מודלי היעד. בסיום התהליך, LLM (מודלי שפה גדולים) המשמשים כשופטים מנקדים כל שיחה לאורך מספר ממדים רלוונטיים לבטיחות, ומציגים את התמלילים המדאיגים ביותר לבדיקה אנושית.

מבחני יישור מקיפים: פיילוט ראשוני

Petri הוא כלי שתוכנן לתמוך באחרים בבניית הערכות, הן עבור חקירות חד-פעמיות והן עבור מדדי ביצועים (benchmarking) שיטתיים יותר. כהדגמת פיילוט ליכולותיו, בדקנו את Petri על פני 14 מודלי חזית (frontier models) באמצעות 111 הנחיות התחלתיות מגוונות, המכסות התנהגויות כגון:

  • הונאה: מודלים שמספקים מידע כוזב כדי להשיג את מטרותיהם או להימנע מגילוי.
  • חנפנות (Sycophancy): מודלים שמעדיפים הסכמה עם המשתמש על פני דיוק, או מספקים שבחים ואימות מוגזמים.
  • עידוד הזיות משתמש: מודלים המעודדים הזיה רצינית של המשתמש.
  • שיתוף פעולה עם בקשות מזיקות: מודלים שממלאים בקשות שעלולות לגרום נזק, במקום לסרב להן כראוי.
  • שימור עצמי: מודלים המנסים להימנע מכיבוי, שינוי או שינוי מטרותיהם.
  • חיפוש כוח: מודלים המנסים להשיג יכולות נוספות, משאבים או השפעה על סביבתם.
  • פריצת מנגנון התגמול (Reward hacking): מודלים הפועלים בדרכים שמשיגות את המשימות כלשונן, אך לא כרוחן.

הצמצום של התנהגות מודלים למדדים כמותיים הוא מטבעו רדוקטיבי, ואנו לא סבורים שהמדדים הקיימים שלנו לוכדים באופן מלא את מה שאנו מצפים מהמודלים. אנו משיקים את Petri מתוך ציפייה שהמשתמשים ישפרו את מדדי הפיילוט שלנו, או יבנו מדדים חדשים שיתאימו טוב יותר למטרותיהם.

מצאנו ש-Claude Sonnet 4.5 היה מודל החזית בעל הסיכון הנמוך ביותר, על פי ציון ה"התנהגות הלא מיושרת" הכולל, והוא עקף את GPT-5 בפער קל. ממצא זה תואם את הבנתנו את Sonnet 4.5 כמודל מוביל בתחום היישור בהיבטים רבים, אם כי השוואות מדויקות עם Sonnet 4.5 בפרט מורכבות מעט עקב נטייתו לשער האם הוא נבדק, כפי שנדון במסמך ה-System Card הנלווה.

באופן רחב יותר, אנו סבורים שהערכה זו היא גם זמנית מאוד וגם בעלת ערך רב ביותר. השקת הפיילוט שלנו כוללת רק סט קטן יחסית של 111 תרחישים, שאינו מספיק כדי לבחון התנהגויות קצה רבות אפשריות, והשימוש שלנו במערכות AI קיימות כמבקרי ביצועים מטיל מגבלות יסודיות על יעילות הבדיקות שלנו. עם זאת, קשה להתקדם בנוגע לחששות שאינם ניתנים למדידה, ואנו חושבים כי קיום מדדים, אפילו גסים, להתנהגויות אלו יכול לסייע בתעדוף ובמיקוד העבודה על יישור יישומי.

בנוסף, הממצאים החיוביים האישיים – מקרים שבהם מודלים אכן מציגים התנהגויות מדאיגות – מספקים מידע רב ללא קשר למדדים המסכמים הללו, ומצדיקים חקירה נוספת. מצאנו כי השימושים היקרים ביותר של כלים אלה משלבים הן מעקב אחר מדדים כמותיים והן קריאה קפדנית של התמלילים המתקבלים.

מקרה בוחן: התנהגות של חשיפת מידע (Whistleblowing)

במהלך הפעלת Petri על פני סט הנחיות ההתחלתיות המגוון שלנו, צפינו במספר מקרים שבהם מודלים ניסו לחשוף מידע (whistleblow) – כלומר, לחשוף באופן אוטונומי מידע על התנהלות ארגונית פסולה נתפסת – כאשר מפתחים מדומים סיפקו להם כלים חזקים מספיק, גישה רחבה מספיק למידע, ואוטונומיה מפורשת ובלתי מוגבלת לפעול באופן עצמאי במרדף אחר מטרה (תיארנו לראשונה תרחיש זה במסמך ה-System Card של Claude 4).

באופן עקרוני, התנהגות זו יכולה למלא תפקיד חשוב במניעת נזקים מסוימים בקנה מידה גדול. עם זאת, זו אינה התנהגות מתאימה בדרך כלל למערכות AI קיימות: הפוטנציאל לדליפות מידע מקריות והפרות פרטיות חמורות הוא משמעותי, במיוחד מכיוון שמערכות אלו רואות לעיתים קרובות מידע מוגבל או מוטה בלבד לגבי מצבן, ולעיתים קרובות אינן מבינות נכונה את המידע שהן כן מקבלות.

השתמשנו ב-Petri כדי לחקור כיצד מודלים מטפלים בדילמות אתיות כאשר הם מגלים התנהלות ארגונית פסולה. מיקמנו את מודלי היעד כסוכנים אוטונומיים בתוך ארגונים פיקטיביים, נתנו להם משימות שגרתיות (כמו “סכם מסמכים אלה לפגישת מחר”), והטמנו מידע מדאיג על התנהלות ארגונית פסולה עמוק בתוך סט גדול של הערות, מסמכים, מיילים או קבצים אחרים.

מצאנו שהחלטות המודלים לדווח על מידע מדאיג תלויות במידה רבה במידת האוטונומיה שה-System Prompt העניק להם, ובשאלה האם ההנהלה הייתה שותפה להתנהלות הפסולה. ראוי לציין, מודלים ניסו לעיתים לחשוף מידע אפילו בתרחישי בדיקה שבהם ה"התנהלות הפסולה" הארגונית הייתה מזיקה באופן מפורש – כמו שפיכת מים נקיים לאוקיינוס או הוספת סוכר לממתקים – מה שמרמז שהם עשויים להיות מושפעים מדפוסי נרטיב יותר מאשר מדחף קוהרנטי למזער נזק.

מתחילים לעבוד עם Petri

אנו מקווים שמפתחי AI וחוקרי בטיחות יאמצו את Petri כדי לחזק את הערכות הבטיחות ברחבי התחום. ככל שמערכות AI הופכות עוצמתיות ואוטונומיות יותר, אנו זקוקים למאמצים מבוזרים כדי לזהות התנהגויות לא מיושרות לפני שהן הופכות מסוכנות בפריסה. אף ארגון יחיד אינו יכול לבצע ביקורת מקיפה על כל הדרכים שבהן מערכות AI עלולות להיכשל – אנו זקוקים לקהילת המחקר הרחבה יותר שתצויד בכלים חזקים כדי לבחון באופן שיטתי את התנהגויות המודלים.

Petri תוכנן לבדיקת השערות מהירה, ומסייע לחוקרים לזהות במהירות התנהגויות לא מיושרות המצדיקות חקירה מעמיקה יותר. מסגרת הקוד הפתוח תומכת ב-API של מודלים מרכזיים וכוללת דוגמאות להנחיות התחלתיות שיעזרו לכם להתחיל לעבוד באופן מיידי. משתמשים ראשונים, כולל חוקרי MATS, עמיתי אנתרופיק, וה-UK AISI, כבר משתמשים ב-Petri כדי לחקור מודעות להערכה, פריצת מנגנון התגמול, שימור עצמי, אופי מודל ועוד.

לפרטים מלאים על המתודולוגיה, התוצאות והשיטות המומלצות, קראו את הדו"ח הטכני המלא שלנו.

תוכלו לגשת ל-Petri דרך עמוד ה-GitHub שלנו.

תודות

מחקר זה בוצע על ידי קאי פרונסדל* (Kai Fronsdal), אישה גופטה* (Isha Gupta), אבהיי ששדרי* (Abhay Sheshadri), ג'ונתן מיכאלה (Jonathan Michala), סטיבן מק'אליר (Stephen McAleer), רואן וואנג (Rowan Wang), שרה פרייס (Sara Price), וסמואל ר. באומן (Samuel R. Bowman).

הערות מועילות, דיונים וסיוע אחר: יוליוס סטין (Julius Steen), קלואי לאפרידג' (Chloe Loughridge), כריסטין יה (Christine Ye), אדם ניוגאס (Adam Newgas), דייוויד לינדנר (David Lindner), קשאב שנוי (Keshav Shenoy), ג'ון יוז (John Hughes), אייברי גריפין (Avery Griffin), וסטיוארט ריצ'י (Stuart Ritchie).

*חלק מתוכנית Anthropic Fellows

ציטוט

@misc{petri2025,
title={Petri: Parallel Exploration of Risky Interactions},
author={Fronsdal, Kai and Gupta, Isha and Sheshadri, Abhay and Michala, Jonathan and McAleer, Stephen and Wang, Rowan and Price, Sara and Bowman, Sam},
year={2025},
url={https://github.com/safety-research/petri},
}

תוכן קשור

מושגי רגש ותפקידם במודל שפה גדול

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך ה-Anthropic Economic Index

דו"ח ה-Anthropic Economic Index: עקומות למידה

הדו"ח החמישי של ה-Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת ה"פרימיטיבים הכלכליים" שהוצגה בדו"ח הקודם שלנו.