מדיניות הסקיילינג האחראי של אנתרופיק: להקדים את הסיכונים של AI

לפני שנתעמק במדיניות הסקיילינג האחראי (RSP) של אנתרופיק, חשוב להבין את האתגר הייחודי במדידת סיכוני AI. קצב ההתקדמות הטכנולוגית בתחום ה-AI מסחרר, כאשר מודלים שרק לפני שנים ספורות בקושי יכלו לחבר משפטים, מסוגלים כיום לעבור בחינות רפואיות ולכתוב שירה. התקדמות זו, המונעת על ידי גידול אקספוננציאלי בכוח החישוב, הופכת את חיזוי רכישת היכולות הספציפיות על ידי AI – ובכלל זה יכולות מסוכנות כמו בניית כלי נשק ביולוגיים – למשימה כמעט בלתי אפשרית. איום זה, שאמנם מוגבל במערכות הנוכחיות, צפוי להפוך לרציני מאוד בעתיד הקרוב. בכדי להתמודד עם מצב זה, שבו לכל "דגם" AI חדש עלולה לצוץ יכולת בלתי צפויה ומסוכנת, אנו זקוקים לדרך לנטר סיכונים מתפתחים ולפרוטוקול תגובה הולם. לכך נועדה מדיניות הסקיילינג האחראי (RSP), שאנתרופיק הייתה החברה הגדולה הראשונה לפרסם.

ה-RSP של אנתרופיק מבוסס על שני מרכיבים עיקריים: מערכת AI Safety Levels (ASL) וניטור תדיר של יכולות מסוכנות. מערכת ה-ASL, המודלת על מערכת ה-BSL הבינלאומית לחומרים ביולוגיים, מגדירה רמות סיכון שונות. אם מערכת AI מפגינה יכולות מסוכנות מסוימות, אז היא לא תיפרס או תשמש לאימון מודלים חזקים יותר, עד שיופעלו מנגנוני הגנה מתאימים. ASL-1 מייצג סיכון אפסי, ASL-2 (הרמה הנוכחית) כולל סיכונים עכשוויים ומחייב Red Teaming ואבטחה חזקה, ואילו ASL-3 מיועד למודלים שיכולים לשמש לשימוש לרעה קטסטרופלי בתחומי CBRN, ומחייב אמצעי אבטחה מחמירים במיוחד ואיסור מוחלט על הפקת מידע מסוכן. ASL-4 מתייחס להסלמה נוספת בסיכונים אלו, וכן למצב שבו AI אוטונומי בורח משליטה אנושית, ודורש הבנה מעמיקה של פעילות המודל.

מעורבות ניהולית ואחריותיות: אבני יסוד לבטיחות

יישום מדיניות כזו דורש מעורבות ניהולית עמוקה. דריו אמודאי, מנכ"ל אנתרופיק, הקדיש חלק ניכר מזמנו לפיתוח ה-RSP, כפי שגם מייסדים שותפים אחרים. מעורבות זו מבטיחה שהפרוטוקולים הופכים לדרישות מוצר ומחקר מהותיות, המשפיעות על מפות הדרכים ולוחות הזמנים של הצוותים ומונעות פריסה עיוורת של יכולות מסוכנות. בנוסף, אחריותיות הכרחית. ה-RSP הוא הנחיה רשמית של דירקטוריון החברה, אשר כפוף ל-Long Term Benefit Trust חיצוני. אנתרופיק מתכננת לכלול מדיניות מוגני חשיפה ומינתה קצין האחראי על עמידה ב-RSP, מתוך הבנה שככל שהסיכון עולה, כך נדרשות צורות חזקות יותר של אחריותיות.

לבסוף, חשוב להבין כי ה-RSPs אינם באים להחליף רגולציה, אלא לשמש אבטיפוס עבורה. מדובר בניסיון ראשון להתמודד עם בעיה מורכבת, והמטרה היא ללמוד ולשפר את הגישה באופן מתמיד. אנתרופיק מקווה שרעיון ה-RSP ישתכלל ויתפתח בתעשייה כולה, ובמקביל, ממשלות יוכלו לבחור את האלמנטים הטובים ביותר וליצור מהם משטרי בדיקה וביקורת ממשלתיים עם פיקוח ואחריותיות. השאיפה היא לעודד 'מירוץ לצמרת' בתחום הבטיחות, שבו חברות ומדינות ילמדו ויתפתחו הדדית, וייצרו נתיב לניהול נבון של סיכוני AI מבלי לפגוע יתר על המידה ביתרונותיו.