אנתרופיק מחמירה את אמצעי הבטיחות: מפעילה הגנות ASL-3 עבור Claude Opus 4

אנתרופיק (Anthropic) הודיעה על הפעלת תקני פריסה ואבטחה ברמת בטיחות AI 3 (ASL-3), כמתואר במדיניות הסקיילינג האחראי (RSP) שלה, במקביל להשקת Claude Opus 4. תקן האבטחה ASL-3 כולל אמצעי אבטחה פנימיים מוגברים שמטרתם להקשות על גניבת משקולות המודל. תקן הפריסה המקביל מתמקד בסט מצומצם של צעדים שנועדו להגביל את הסיכון לניצול לרעה של Claude, בפרט לפיתוח או רכישת נשק כימי, ביולוגי, רדיולוגי וגרעיני (CBRN). צעדים אלו צפויים להוביל את Claude לדחות פרומפטים רק בנושאים צרים ביותר.

הפריסה של Claude Opus 4 עם אמצעי ה-ASL-3 מתבצעת כפעולה זהירה וזמנית. יש להדגיש כי אנתרופיק עדיין לא קבעה באופן חד משמעי האם Claude Opus 4 עבר את סף היכולות המחייב הגנות ASL-3. עם זאת, לאור השיפורים המתמשכים בידע וביכולות הקשורות ל-CBRN, הוחלט כי לא ניתן לשלול באופן ברור את סיכוני ASL-3 עבור Claude Opus 4 כפי שהיה במודלים קודמים, ונדרש מחקר מעמיק יותר כדי להעריך סופית את רמת הסיכון של המודל. החברה קבעה כי Claude Opus 4 אינו דורש את תקן ASL-4, וכי Claude Sonnet 4 אינו דורש את תקן ASL-3.

הערכות של יכולות מסוכנות במודלי AI מאתגרות מטבען, וככל שהמודלים מתקרבים לספי הדאגה, כך אורך זמן קביעת מעמדם. הפעלה יזומה של תקן בטיחות ואבטחה גבוה יותר מפשטת את השקות המודלים, ומאפשרת לאנתרופיק ללמוד מהניסיון ולשפר באופן איטרטיבי את ההגנות, תוך הפחתת השפעתן על המשתמשים.

כיצד פועלות ההגנות החדשות?

הצעדים החדשים מתמקדים במניעת עזרה של המודל במשימות הקשורות לנשק CBRN, בדגש על זרימות עבודה מורחבות “מקצה לקצה”. זה כולל הגבלת פריצות מגבלות אוניברסליות – התקפות שיטתיות המאפשרות עקיפת מנגנוני הגנה להפקת מידע רגיש. אנתרופיק אימצה גישה תלת-שלבית: הקשחת המערכת בפני פריצות מגבלות באמצעות Constitutional Classifiers, זיהוי פריצות כשהן מתרחשות (כולל תוכנית Bug Bounty), ושיפור איטרטיבי של ההגנות.

במישור האבטחה, אנתרופיק הטמיעה למעלה מ-100 בקרות אבטחה שונות להגנת משקולות המודל – הפרמטרים המספריים הקריטיים שגניבתם עלולה לאפשר גישה למודלים ללא הגנות הפריסה. בין היתר, הוטמעו בקרות רוחב פס יציאה (egress bandwidth controls) המגבילות את זרימת הנתונים מסביבות מחשוב מאובטחות, במטרה למנוע הוצאה של משקולות המודל הגדולות. אמצעים אלו מתוכננים להגן מפני תוקפים מתוחכמים שאינם מדינות, תוך הבנה שהנוף המשתנה דורש שיפור מתמיד.