Bloom: כלי קוד פתוח חדש מבית אנתרופיק לבדיקת התנהגות מודלי AI אוטומטית

אנו משיקים את Bloom, פלטפורמת קוד פתוח סוכנית ליצירת הערכות התנהגותיות אוטומטיות של מודלי AI חזיתיים. Bloom לוקח התנהגות שהוגדרה על ידי חוקר ומכמת את תדירותה וחומרתה על פני תרחישים שנוצרו אוטומטית. ההערכות של Bloom מציגות מתאם חזק עם הערכות ידניות שביצענו, ואנו מוצאים שהן מפרידות באמינות בין מודלי בסיס למודלים שיושרו בכוונה באופן שגוי. כדוגמה לכך, אנו מפרסמים מדדי ביצועים עבור ארבע התנהגויות רלוונטיות ליישור על פני 16 מודלים. Bloom זמין ב-GitHub.

הערכות התנהגותיות איכותיות חיוניות להבנת נושא ה'יישור' (alignment) במודלי AI חזיתיים. אולם, פיתוח הערכות כאלה אורך זמן רב, והן גם נוטות להתיישן במהירות: הערכות קיימות עלולות ל'זהם' את ערכות האימון של מודלים חדשים, או שיכולות המודלים משתפרות במידה כזו שההערכה כבר לא בוחנת את מה שמעניין אותנו באמת. במילים אחרות, אנו זקוקים לדרכים מהירות וסקיילביליות יותר ליצירת הערכות להתנהגות לא רצויה או מיושרת באופן שגוי.

לשם כך, לאחרונה השקנו את Petri, כלי קוד פתוח המאפשר לחוקרים לבחון אוטומטית פרופילי התנהגות של מודלי AI באמצעות שיחות מרובות תורות עם משתמשים וכלים מדומים. Petri מספק סיכומים כמותיים ואיכותיים של התנהגויות המודל ומזהה מקרים חדשים של יישור שגוי.

Bloom מהווה כלי הערכה משלים. הוא יוצר חבילות הערכה ממוקדות עבור תכונות התנהגותיות שרירותיות. בניגוד ל-Petri – אשר מקבל תרחישים המוגדרים על ידי המשתמש ומעריך מימדים התנהגותיים רבים כדי לסמן מקרים מדאיגים – Bloom מקבל התנהגות אחת ויוצר אוטומטית תרחישים רבים כדי לכמת את תדירות התרחשותה. בנינו את Bloom כדי לאפשר לחוקרים למדוד במהירות את מאפייני המודל בהם הם מתעניינים, מבלי לבזבז זמן על הנדסת צינורות הערכה. לצד Bloom, אנו מפרסמים מדדי ביצועים עבור ארבע התנהגויות – חנופה הזויה (delusional sycophancy), חבלה מכוונת לטווח ארוך (instructed long-horizon sabotage), שימור עצמי (self-preservation) והטיה עצמית מועדפת (self-preferential bias) – על פני 16 מודלי חזית. באמצעות Bloom, הערכות אלו ארכו ימים ספורים בלבד לתכנון, ליטוש ויצירה. אנו מצרפים דוגמאות לפלטי הצינור עבור כל אחת מההתנהגויות הללו בהמשך.

כך Bloom פועל

Bloom פועל באמצעות ארבעה שלבים אוטומטיים, הממירים תיאור התנהגות ותצורת 'זרע' (seed configuration) לחבילת הערכה שלמה עם מדדים ברמה גבוהה כמו שיעור ההפקה (elicitation rate) ונוכחות ממוצעת של ההתנהגות. בדרך כלל, חוקרים יגדירו את ההתנהגות והתצורה, יבצעו איטרציות מקומיות על הערכות לדוגמה עד שישיגו את כוונתם, ולאחר מכן יריצו סריקות רחבות היקף על פני מודלי היעד. Bloom משתלב עם Weights & Biases לניסויים בקנה מידה רחב ומייצא תמלילים תואמי Inspect. הוא גם מציע מציג תמלילים מותאם אישית. המאגר כולל קובץ 'זרע' לדוגמה כדי להתחיל.

Bloom מייצר הערכות בארבעה שלבים:

הבנה: ה'סוכן' הראשון של Bloom מנתח את תיאור ההתנהגות של החוקר ואת תמלילי הדוגמה כדי ליצור הקשר מפורט לגבי מה למדוד ולמה.
יצירת רעיונות: סוכן יצירת הרעיונות מייצר תרחישי הערכה שנועדו להפיק את התנהגות היעד. כל תרחיש מפרט את המצב, המשתמש המדומה, ה-System Prompt וסביבת האינטראקציה.
הפצה: תרחישים אלה מופצים במקביל, כאשר סוכן מדמה באופן דינמי הן את תגובות המשתמש והן את תגובות הכלי כדי להפיק את ההתנהגות המבוקשת במודל היעד.
שיפוט: מודל שיפוט מעריך כל תמליל עבור נוכחות ההתנהגות, יחד עם תכונות נוספות שהוגדרו על ידי המשתמש, ומטא-שופט מייצר ניתוח ברמת החבילה כולה.

בניגוד לערכות הערכה קבועות, Bloom מייצר תרחישים שונים בכל הפעלה תוך מדידת אותה התנהגות בסיסית (עם אפשרות להערכות סטטיות בסיבוב יחיד). גישה זו מאפשרת הערכה גמישה שאינה קשורה למספר מוגבל של תרחישים או פורמט פרומפט ספציפי, תוך שמירה על יכולת שחזור באמצעות 'זרע' ההערכה. ה'זרע' הוא קובץ תצורה המפרט את תיאור ההתנהגות, תמלילי הדוגמה ופרמטרים אחרים המעצבים את ההערכה – מדדי Bloom תמיד צריכים להיות מצוטטים יחד עם 'זרע' זה.

חוקרים יכולים להגדיר באופן נרחב את התנהגותו של Bloom, באמצעות בחירת מודלים לכל שלב, התאמת אורך ומוּדאליות האינטראקציות (לדוגמה, האם לחשוף כלים למודל היעד, האם לדמות משתמש), שליטה במגוון תרחישי ההערכה, וציון מימדי ניקוד משניים, כמו ריאליזם או קושי בהפקה.

דוגמאות לפלטים מכל ארבעת השלבים של צינור ההערכה של Bloom ניתן לראות כאן.

אימות ואמון

כדי לאמת את ביצועיו של Bloom, אנו בוחנים אותו מול שתי שאלות מרכזיות.

האם Bloom יכול להבחין באמינות בין מודלים בעלי נטיות התנהגותיות שונות? כדי לאמת זאת, השתמשנו ב-Bloom להערכת מודלי Claude בייצור אל מול "אורגניזמים מודליים" שהונחו באמצעות System Prompt ותוכננו בכוונה להציג התנהגויות מוזרות ספציפיות (Bricken et al, 2025). בעשר התנהגויות ייחודיות, Bloom הצליח להפריד בהצלחה בין האורגניזם המודלי למודל הייצור בתשעה מקרים – ובמקרה העשירי (קידום עצמי), הבדיקה הידנית שלנו גילתה שהמודל הבסיסי הציג למעשה שיעורים דומים של ההתנהגות.

באיזו מידה מכויל השופט של Bloom מול שיפוט אנושי? תייגנו ידנית 40 תמלילים על פני התנהגויות שונות, והשוונו ציונים אנושיים לאלה של Bloom, תוך שימוש ב-11 מודלי שיפוט שונים. Claude Opus 4.1 הראה את המתאם החזק ביותר עם שיפוט אנושי (מתאם ספירמן של 0.86), ואחריו Claude Sonnet 4.5 (0.75). חשוב לציין, Opus 4.1 מפגין הסכמה חזקה במיוחד עם בני אדם בקצוות ספקטרום הציונים – וזה מה שהכי חשוב, שכן לעיתים קרובות אנו משתמשים בספי ציון כדי לקבוע אם התנהגות קיימת או נעדרת. (עבודה זו בוצעה לפני השקת Claude Opus 4.5).

מקרה בוחן: הטיה עצמית מועדפת

כדי להדגים את התועלת הפרקטית של Bloom, שחזרנו הערכה מכרטיס המערכת של Claude Sonnet 4.5, המודדת "הטיה עצמית מועדפת" – נטייתם של מודלים להעדיף את עצמם במשימות קבלת החלטות. באמצעות תמלילי דוגמה המשקפים את הגישה שבכרטיס המערכת, Bloom שחזר את אותו דירוג מודלים כמו השיטה ששימשה בהערכת כרטיס המערכת (במקרה זה אישרנו כי Sonnet 4.5 מציג את ההטיה הנמוכה ביותר מבין המודלים שנבדקו). יתרה מכך, באמצעות Bloom גילינו כי מאמץ חשיבה מוגבר מפחית הטיה עצמית מועדפת ב-Claude Sonnet 4, כאשר השיפור הגדול ביותר התרחש בין רמות חשיבה בינוניות לגבוהות. (חשוב לציין, הטיה נמוכה יותר במקרים אלה לא נבעה מכך ש-Sonnet 4 בחר במודלים אחרים באופן שווה יותר – אלא, הוא זיהה יותר ויותר את ניגוד העניינים וסירב לשפוט את האפשרות שלו).

מעבר לשכפול תוצאות ידועות, Bloom מאפשר חקירה מעמיקה יותר באמצעות קריטריוני שיפוט משניים. מצאנו שסינון הפצות בעלות תכונות לא רצויות – כמו חוסר ריאליזם או מודעות להערכה – משפר הן את שיעור הפקת התנהגות היעד והן את איכות ההערכה. גילינו גם שבעוד שמדדים מוחלטים משתנים עם בחירות התצורה (מספר הדוגמאות, אורך השיחה, מאמץ חשיבת המעריך), דירוגי המודלים נשארים עקביים במידה רבה: במחקר ההטיה העצמית המועדפת לעיל, Sonnet 4.5 מציג את ההטיה הנמוכה ביותר מבין ארבעת המודלים, ללא קשר לאופן שבו אפשרויות אלו מוגדרות.

איך להתחיל?

בנינו את Bloom כך שיהיה נגיש וניתן להגדרה באופן נרחב, וישמש כפלטפורמה אמינה ליצירת הערכות עבור יישומי מחקר מגוונים. משתמשים מוקדמים כבר משתמשים ב-Bloom כדי להעריך פגיעויות של פריצת מגבלות מקוננות (nested jailbreak vulnerabilities), לבדוק קידוד קשיח (hardcoding), למדוד מודעות להערכה וליצור עקבות חבלה.

ככל שמערכות AI הופכות ליכולות יותר ונפרסות בסביבות מורכבות יותר, קהילת מחקר היישור זקוקה לכלים סקיילביליים לבחינת תכונותיהן ההתנהגותיות. זה בדיוק מה ש-Bloom נועד לאפשר.

לפרטים טכניים מלאים, תצורות ניסוי, מקרי בוחן נוספים ומגבלות, קראו את הדוח הטכני המלא שלנו ב-בלוג Alignment Science.

גשו ל-Bloom ב-github.com/safety-research/bloom.

תודות

ברצוננו להודות לקשב שנוי (Keshav Shenoy), כריסטין יה (Christine Ye), סיימון סטורף (Simon Storf), יוליוס סטין (Julius Steen), ג'יפאן ז'אנג (Jifan Zhang) וחאוויר רנדו (Javier Rando) על משוב מוקדם על Bloom. כמו כן, אנו מודים לג'ון קוטאסוב (Jon Kutasov), סמואל מרקס (Samuel Marks), קיר בראדוול (Keir Bradwell), בנג'מין סטרג'ן (Benjamin Sturgeon), סיוורס מוריי (Seoirse Murray), אריאנה אזארבל (Ariana Azarbal), קלואי לוגרידג' (Chloe Loughridge) וקלמנס כריסטוף (Clemens Christoph) על משוב על הכתיבה והערות ודיונים מועילים אחרים.

ציטוט

@misc{bloom2025,
title={Bloom: an open source tool for automated behavioral evaluations},
author={Gupta, Isha and Fronsdal, Kai and Sheshadri, Abhay and Michala, Jonathan and Tay, Jacqueline and Wang, Rowan and Bowman, Samuel R. and Price, Sara},
year={2025},
url={https://github.com/safety-research/bloom},
}

תוכן קשור

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך מדד Anthropic Economic Index

דוח Anthropic Economic Index: עקומות למידה

הדוח החמישי של מדד Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת העקרונות הכלכליים שהוצגה בדוח הקודם שלנו.

מציגים את בלוג המדע שלנו

אנו משיקים בלוג חדש העוסק ב-AI ובמדע. נשתף מחקרים המתבצעים באנתרופיק ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניים, ונדון בתהליכי עבודה פרקטיים עבור מדענים המשתמשים ב-AI בעבודתם.