אנתרופיק משדרגת את מדיניות הבטיחות ל-AI: גישה גמישה יותר לסיכונים קטסטרופליים

אנתרופיק (Anthropic) פרסמה היום עדכון משמעותי למדיניות הסקיילינג האחראי (RSP) שלה, שהיא מסגרת הממשל לניהול סיכונים שמטרתה למתן סכנות קטסטרופליות פוטנציאליות ממערכות AI חזיתיות. העדכון מציג גישה גמישה ומפורטת יותר להערכה וניהול של סיכוני AI, תוך שמירה על המחויבות של אנתרופיק שלא לאמן או לפרוס מודלים אלא אם כן יושמו מנגנוני הגנה הולמים. השיפורים המרכזיים כוללים ספי יכולת חדשים שמצביעים על הצורך בשדרוג מנגנוני ההגנה, תהליכים מוגדרים יותר להערכת יכולות המודל ויעילות אמצעי הבטיחות, ומדדים חדשים לממשל פנימי ולקבלת משוב חיצוני. בכך, החברה שואפת להתכונן טוב יותר לקצב ההתקדמות המהיר של ה-AI, תוך למידה מניסיונות יישום ושיטות ניהול סיכונים מתעשיות בעלות השלכות גבוהות.

מודלי AI חזיתיים טומנים בחובם פוטנציאל עצום לשינוי חיובי בחברה ובכלכלה, אך במקביל, הם מציגים אתגרים וסיכונים חדשים המחייבים לימוד קפדני ומנגנוני הגנה אפקטיביים. במרכז מדיניות ה-RSP עומדת המחויבות העקרונית של אנתרופיק:

לא נאמן או נפרוס מודלים אלא אם כן יושמו אמצעי בטיחות ואבטחה השומרים על הסיכונים מתחת לרמות קבילות.

מדיניות זו מתבססת על עקרון ההגנה הפרופורציונלית, כלומר, מנגנוני הגנה שמתרחבים ומתקשחים בהתאם לסיכונים הפוטנציאליים.

לשם כך, אנתרופיק משתמשת ב-AI Safety Level Standards (ASL Standards), סדרות מדורגות של אמצעי בטיחות ואבטחה המתקשחים ככל שיכולות המודל מתגברות. כיום, כל המודלים של אנתרופיק פועלים תחת תקני ASL-2. המדיניות המעודכנת מגדירה שני ספי יכולת (Capability Thresholds) מרכזיים שיחייבו שדרוג של מנגנוני ההגנה:

מחקר ופיתוח AI אוטונומי: אם מודל יכול לבצע באופן עצמאי משימות מחקר AI מורכבות הדורשות מומחיות אנושית, נדרשים תקני אבטחה מוגברים (פוטנציאלית ASL-4 ומעלה) ואבטחות בטיחות נוספות.
כלי נשק כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN): אם מודל יכול לסייע באופן משמעותי לאדם בעל רקע טכני בסיסי ליצור או לפרוס כלי נשק CBRN, נדרשים אמצעי אבטחה והגנה משופרים בפריסה (תקני ASL-3).

תקני ASL-3 כוללים אמצעי אבטחה מוגברים ובקרות פריסה מחמירות, כגון בקרות גישה פנימיות והגנה חזקה יותר על משקולות המודל, יחד עם גישה רב-שכבתית למניעת שימוש לרעה הכוללת ניטור בזמן אמת ו-Red Teaming לפני הפריסה.

היישום האפקטיבי של המדיניות נתמך על ידי הערכות יכולת שגרתיות של המודלים, הערכות של יעילות מנגנוני ההגנה, ותהליכי תיעוד וקבלת החלטות המבוססים על שיטות מעולמות תעשיות בעלות אמינות גבוהה. בנוסף, המדיניות כוללת מדדים לממשל פנימי וקבלת משוב מגורמים חיצוניים ומומחים. אנתרופיק מדגישה כי במהלך שנת היישום הראשונה של ה-RSP, זוהו מקרים בודדים של אי-עמידה מלאה בדרישות הפרוצדורליות, אך אלו לא הציבו סיכון ממשי. מלימוד זה, החברה הפיקה לקחים לשילוב גמישות רבה יותר ושיפור תהליכי מעקב אחר ציות למדיניות.

במבט קדימה, אנתרופיק מצהירה כי תחום ה-AI מתקדם במהירות, וכל היבטי תוכנית הבטיחות שלה ימשיכו להתפתח, לרבות המדיניות, מתודולוגיות ההערכה, מנגנוני ההגנה והמחקר על סיכונים ודרכי מיגון. ג'ארד קפלן (Jared Kaplan), מנהל המדע הראשי של אנתרופיק, ישמש כעת כקצין הסקיילינג האחראי (Responsible Scaling Officer) של החברה, ותפקיד חדש של ראש תחום הסקיילינג האחראי נפתח, במטרה לתאם את הצוותים הרבים המעורבים ביישום ה-RSP.

אנתרופיק משדרגת את מדיניות הבטיחות ל-AI: גישה גמישה יותר לסיכונים קטסטרופליים

כתבות קשורות

ממשלת אוסטרליה ואנתרופיק חתמו על מזכר הבנות לבטיחות ומחקר ב-AI

אנתרופיק מזרימה 100 מיליון דולר ל-Claude Partner Network

אנתרופיק משיקה את 'המכון של אנתרופיק': חזית חדשה בבטיחות AI עוצמתי