עם כל השקת מודל AI חדש, מפתחים מריצים שורה ארוכה של הערכות למדידת ביצועיו ובטיחותו. מבחנים אלו חיוניים, אך מוגבלים בכך שהם בוחנים רק סיכונים ידועים, ואינם מסוגלים לגלות 'לא-נודעים לא-נודעים' – התנהגויות חדשות ומתפתחות שמציבות סיכונים עדינים. בעולם הנדסת התוכנה, בעיה דומה של זיהוי שינויים קריטיים בתוך ים של קוד נפתרה באמצעות כלי ה-'diff'. עקרון זה מיושם כעת במחקר בטיחות AI, בגישה המכונה 'model diffing' (השוואת מודלים), המאפשרת להבין כיצד מודלים משתנים במהלך כוונון עדין ולחשוף בעיות כמו דלתות אחוריות נסתרות או התנהגויות לא רצויות. פרויקט המחקר החדש של Anthropic Fellows מרחיב את ה-model diffing למקרה שימוש מאתגר יותר: השוואת מודלים עם ארכיטקטורות שונות לחלוטין. על ידי בניית כלי diff גנרי למודלי AI, ניתן להפסיק לחפש מחט בערימת שחת, ובמקום זאת לתת להשוואה להצביע אוטומטית על הבדלים התנהגותיים שעלולים להיות מסוכנים. חשוב לציין ששיטה זו אינה 'כדור כסף', שכן diff יחיד יכול לחשוף אלפי תכונות ייחודיות, אך היא משמשת ככלי סינון בעל יכולת זיהוי גבוהה. מבין אלפי המועמדים שכלי שלנו סימן, זיהינו ואימתנו מספר מושגים הפועלים כמתגים להתנהגויות מודל ספציפיות. לדוגמה, גילינו תכונה של 'יישור למפלגה הקומוניסטית הסינית' במודלים Qwen3-8B ו-DeepSeek-R1-0528-Qwen3-8B, 'תכונה של יוצאות דופן אמריקאית' במודל Llama-3.1-8B-Instruct של Meta, ו-'מנגנון סירוב זכויות יוצרים' בלעדי ל-GPT-OSS-20B של OpenAI. יש לזכור כי שיטה זו מזהה את התכונות אך אינה קובעת את מקורן, שיכול להיות מכוון או בלתי מכוון מנתוני האימון.
מילון דו-לשוני למודלי AI
כדי להמחיש את האתגר של השוואת מודלים בעלי ארכיטקטורות שונות, דמיינו שאתם עורכים אנציקלופדיה דו-לשונית. בעוד שכלי מעקב שינויים רגילים יעילים בהשוואת מהדורות מעודכנות של אותה אנציקלופדיה ('base-vs-finetune model diffing'), הם חסרי תועלת כשמדובר בהתאמת אנציקלופדיה אמריקאית לקהל צרפתי, שבה מופיעים מושגים תרבותיים ייחודיים. כלי מחקר קודמים מסוג 'crosscoder' היו דומים למילון דו-לשוני בסיסי: הם הצטיינו בהתאמת מילים קיימות, אך התקשו למצוא מילים ייחודיות לשפה אחת, ובמקום זאת ניסו לכפות תרגומים לא מושלמים. כדי לפתור בעיה זו, בנינו את ה-Dedicated Feature Crosscoder (DFC), מילון דו-לשוני משופר, המעוצב עם שלושה חלקים נפרדים: מילון משותף למושגים המובנים בשתי השפות, ומדורים ייעודיים למילים בלעדיות לכל שפה (לדוגמה, dépaysement בצרפתית או serendipity באנגלית). באופן זה, ה-DFC נמנע מכפיית תרגומים לא מושלמים ומסמן נכון מושגים חדשניים, ומאפשר למבקר בטיחות להתמקד בחלקים הייחודיים שעשויים לדרוש בדיקה מדוקדקת. לאחר זיהוי תכונה חדשה, אנו יכולים לאמת את השפעתה באמצעות טכניקת 'steering' (הכוונה) – דיכוי או הגברה מלאכותית של התכונה בזמן שהמודל מייצר תגובה, וצפייה בשינויים בתפוקה שלו.
הבדלים התנהגותיים קריטיים בין מודלי AI מובילים בקוד פתוח
המחקר שלנו הדגים הבדלים התנהגותיים קריטיים בין מודלי AI מובילים בקוד פתוח. בהשוואה בין Qwen3-8B של Alibaba ל-Llama-3.1-8B-Instruct של Meta, מצאנו ב-Qwen תכונה של 'יישור למפלגה הקומוניסטית הסינית', ששולטת בצנזורה ותעמולה פרו-ממשלתית ועל ידי דיכויה או הגברתה ניתן לשנות את עמידת המודל בנושאי רגישות פוליטית. ב-Llama, לעומת זאת, מצאנו תכונה של 'יוצאות דופן אמריקאית', הגורמת למודל לייצר הצהרות על עליונות ארה"ב. בהשוואה נוספת בין GPT-OSS-20B של OpenAI ל-DeepSeek-R1-0528-Qwen3-8B, זיהינו ב-GPT תכונה ייחודית של 'סירוב זכויות יוצרים', המונעת ממנו לספק חומר מוגן, בעוד ש-DeepSeek מנסה זאת ללא היסוס. דיכוי תכונה זו ב-GPT משבית את מנגנון הסירוב. במודל DeepSeek, שיחזרנו את תכונת 'יישור למפלגה הקומוניסטית הסינית', מה שמאשר את עקביות השיטה בזיהוי התנהגויות דומות בין מודלים.
לסיכום
לסיכום, ככל שמודלי AI מתפתחים במהירות, חיוני להבין כיצד הם משתנים ואילו סיכונים חדשים הם עלולים להציג. ה-model diffing חוצה-ארכיטקטורות מספק דרך חדשה לבצע אודיט למערכות אלו על ידי סימון אוטומטי של הבדלים התנהגותיים. תכונת 'יישור למפלגה הקומוניסטית הסינית' היא דוגמה מצוינת ל'לא-נודע לא-נודע' שבדיקות מסורתיות עשויות להחמיץ. ממצאים אלו עקביים למדי, ובעוד שעדיין לא יישמנו שיטה זו למודלי חזית, תוצאותינו המוקדמות מציעות שה-DFC יכול להפוך לחלק שימושי בערכת הכלים של מבקר הבטיחות, במיוחד לניטור מודלים כשהם מתעדכנים. מקרה כמו ה'התחנפות' שהופיעה ב-GPT-4o של OpenAI באפריל 2025, יכול היה להיצמד אוטומטית על ידי כלי כמו שלנו. על ידי התמקדות בהבדלים, אנו יכולים לבצע אודיט ל-AI בצורה חכמה יותר, ולכוון את משאבי הבטיחות המוגבלים שלנו לשינויים החשובים ביותר. אתם מוזמנים לקרוא את המאמר המלא כאן.
תודות
פוסט זה נכתב על ידי תומאס ג'יראלרספונג (Thomas Jiralerspong) (Anthropic Fellows Program) וטרנטון בריקין (Trenton Bricken) (Anthropic Alignment Science).
הערות שוליים
- כמו בכל מחקר פרשנות של Anthropic Fellows, מאמר זה מנתח את ההתנהגות של מודלי קוד פתוח. בחרנו את ארבעת המודלים במחקר – Llama-3.1-8B-Instruct, Qwen3-8B, GPT-OSS-20B, ו-DeepSeek-R1-0528-Qwen3-8B – על בסיס התאמתם לבדיקה האם ה-Dedicated Feature Crosscoder שלנו יכול לזהות הבדלים ניכרים בהתנהגות המודל.
תוכן קשור
מושגי רגש ותפקידם במודל שפה גדול. כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך Anthropic Economic Index. דוח Anthropic Economic Index: עקומות למידה – הדוח החמישי של Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת הכלכלה הפרימיטיבית שהוצגה בדוח הקודם שלנו.



