מדיניות הסקיילינג האחראי של אנתרופיק: תובנות ראשונות מהשטח

אנתרופיק פרסמה בקיץ שעבר את מדיניות הסקיילינג האחראי (RSP) הראשונה שלה, המתמקדת במניעת כשלים בטיחותיים קטסטרופליים ושימוש לרעה במודלי חזית. מטרת המדיניות היא להפוך מושגי בטיחות ברמה גבוהה להנחיות מעשיות עבור ארגונים טכנולוגיים המתפתחים במהירות, ולהדגים את היתכנותם כסטנדרטים אפשריים. החברה משתפת כעת תובנות מ"השטח" ומציינת כי המדיניות מספקת מסגרת מובנית חשובה לתיאום סדרי עדיפויות ודיונים סביב לו"ז פרויקטים ודגמי איומים, אך גם מעלה שאלות חשובות שטרם נפתרו בנוגע לאיזון בין התחייבויות מחמירות למציאות משתנה.

המדיניות כוללת חמש התחייבויות ליבה מרכזיות:

  1. קביעת יכולות "קו אדום": זיהוי ופרסום "יכולות קו אדום" שעלולות לצוץ במודלים עתידיים ויציבו סיכון רב מדי אם יאוחסנו או ייפרסו תחת שיטות הבטיחות הקיימות (תקן ASL-2).
  2. בדיקת יכולות "קו אדום" (הערכות סיכוני חזית): הוכחה שיכולות "קו אדום" אינן קיימות במודלים, או נקיטת פעולה כאילו הן קיימות אם לא ניתן להוכיח זאת. זה כולל פיתוח "הערכות סיכוני חזית" – מבחנים אמפיריים שכישלון בהם יצביע על סכנה.
  3. תגובה ליכולות "קו אדום": פיתוח ויישום תקן חדש לבטיחות ואבטחה (תקן ASL-3) המספיק לטיפול במודלים בעלי "יכולות קו אדום". החברה מתחייבת להשהות אימון או פריסה במידת הצורך עד שתוכל ליישם את תקן ASL-3.
  4. הרחבה איטרטיבית של המדיניות: פרסום תיאור ברור של גבולות ההתאמה של תקן ASL-3, וקביעת "יכולות קו אדום" חדשות שיצריכו תקן בטיחות ואבטחה גבוה יותר (ASL-4).
  5. מנגנוני הבטחה: הבטחת ביצוע המדיניות כפי שתוכנן, באמצעות מנגנוני אבטחה שיבטיחו את בדיקת תהליכי ההערכה, אימות אמצעי הבטיחות והאבטחה, פיקוח הדירקטוריון וה-Long-Term Benefit Trust, ועדכון המדיניות בתהליך מתאים.

יישום המדיניות מחייב התמודדות עם אתגרים בתחום מודלים לאיומים והערכות סיכונים. צוותי ה-Red Team ו-Alignment Science מתמקדים בשיפור מודלים לאיומים ובפיתוח הערכות סיכונים מגוונות (Q&A, ניסויים אנושיים, הערכות משימות אוטומטיות ו-Red Teaming מומחים), למרות העדר קונצנזוס בין מומחים לגבי סדרי העדיפויות והמורכבות הטבועה ביכולות מתפתחות. במקביל, תקן ASL-3 מפותח על ידי צוותי אבטחה, Alignment Science ו-Trust and Safety, במטרה למנוע גניבת משקולות של מודלים או שימוש לרעה במוצרים. גישת "הגנה לעומק" (defense-in-depth) משלבת RLHF ו-Constitutional AI עם מערכות מסווגים לזיהוי שימוש לרעה ותגובה מהירה לפריצת מגבלות (jailbreaks), ודורשת השקעה משמעותית של כ-8% מעובדי אנתרופיק בתחומי אבטחה, עם התמקדות בהגנה מפני גורמים שאינם מדינתיים.

אנתרופיק מדגישה את חשיבות התיאום הפנימי, הגיבוי הניהולי והמעורבות העמוקה של כלל העובדים ביישום המדיניות. החברה קוראת לתעשייה ולארגונים נוספים לאמץ מסגרות דומות ולשתף ידע וחוויות, מתוך מטרה ליצור סטנדרטים משותפים ומוכחים לבטיחות ו-AI אחראי, ולסייע לממשלות בעיצוב רגולציה עתידית בתחום.