
13 במרץ 2026
כלי 'diff' ל-AI: כך תזהו שינויים התנהגותיים חמקמקים במודלי בינה מלאכותית חדשים
חברת אנתרופיק (Anthropic), המתמקדת במחקר ובבטיחות AI, פיתחה גישה חדשנית המכונה 'model diffing' – השוואת מודלים. בעוד שמדדי ביצועים מסורתיים מוגבלים בזיהוי 'לא-נודעים לא-נודעים', השיטה החדשה מאפשרת לאתר אוטומטית הבדלים התנהגותיים עדינים במודלים, גם כאלה בעלי ארכיטקטורות שונות לחלוטין. באמצעות כלי ייעודי בשם Dedicated Feature Crosscoder (DFC), החברה הצליחה לחשוף יכולות התנהגותיות ספציפיות במודלים שונים, כמו 'יישור למפלגה הקומוניסטית הסינית' או 'מנגנון סירוב זכויות יוצרים'. מחקר זה מהווה צעד חשוב באודיט חכם יותר של מערכות AI ובניתוב משאבי בטיחות לאזורים הקריטיים ביותר.
קרא עוד