חברת אנתרופיק (Anthropic) פרסמה לאחרונה דוח מקיף, המסכם את ממצאי צוות ה-Red Teaming שלה בנוגע לסיכונים ביטחוניים פוטנציאליים הנובעים ממודי AI חזיתיים. הדוח, המבוסס על שנה של עבודה וארבע השקות מודלים, מצביע על סימני אזהרה מוקדמים להתקדמות מהירה ביכולות דו-שימושיות קריטיות של מודלי AI. המודלים של אנתרופיק מתקרבים, ובמקרים מסוימים אף עולים, על רמת מומחיות של סטודנטים לתואר ראשון בתחומי סייבר וידע ברמה מקצועית בתחומים מסוימים בביולוגיה. למרות ההתקדמות המהירה, אנתרופיק מעריכה כי המודלים הקיימים עדיין אינם חוצים את הסף שבו הם מהווים סיכון מוגבר משמעותית לביטחון הלאומי. עם זאת, חשוב לציין שסיכונים בעולם האמיתי תלויים בגורמים נוספים מעבר ל-AI עצמו, כמו מגבלות פיזיות, ציוד ייעודי ומומחיות אנושית.
התקדמות משמעותית בסייבר ובביטחון ביולוגי
בתחום הסייבר, קלוד הציג קפיצת מדרגה משמעותית. הוא שיפר את ביצועיו בתחרויות Capture The Flag (CTF) מורכבות, מרמת תלמיד תיכון לרמת סטודנט לתואר ראשון בשנה אחת בלבד. המודל העדכני ביותר, Claude 3.7 Sonnet, מצליח לפתור כשליש מאתגרי ה-CTF במדד הביצועים הציבורי Cybench, שיפור ניכר מחמישה אחוזים בלבד בשנה שעברה. שיפורים אלה ניכרים במגוון משימות סייבר, אך קלוד עדיין נופל ממומחים אנושיים במשימות מורכבות יותר, כגון הנדסה הפוכה. במחקרים מבוקרים שבוצעו בשיתוף פעולה עם אוניברסיטת קרנגי מלון, התגלה כי בעוד שהמודל אינו מסוגל לבצע תקיפות סייבר מרובות שלבים באופן אוטונומי בסביבת רשת מורכבת, הוא כן הצליח לשכפל התקפה דומה לגניבת מידע בקנה מידה גדול, כאשר צויד בסט כלים ייעודי.
בתחום הביטחון הביולוגי, נצפתה גם כן התקדמות מהירה בהבנת המודלים את הביולוגיה. קלוד עבר מרמת ביצועים נמוכה ממומחי וירולוגיה ברמה עולמית, לרמה העולה עליהם באופן משמעותי, תוך שנה אחת בלבד, במשימות פתרון בעיות מעבדה. יכולות המודל בביולוגיה נותרו אמנם לא אחידות – הוא עולה על מומחים בביצוע זרימות עבודה של שיבוט (cloning workflows), אך עדיין נופל מהם בפרשנות איורים מדעיים. מחקרים מצומצמים על משימות הקשורות לפיתוח נשק ביולוגי הראו שהמודל העניק שיפור מסוים ליכולות של משתמשים מתחילים, אך גם התוכניות בעלות הציון הגבוה ביותר שנוצרו על ידי המודל עדיין הכילו שגיאות קריטיות שהיו מובילות לכישלון בעולם האמיתי.
העבודה של אנתרופיק מדגישה את היתרונות שבשיתוף פעולה עם גורמי ממשל, המאפשר פיתוח מהיר ואחראי של AI תוך שמירה על בטיחות. מודלי החברה עברו בדיקות טרום-פריסה על ידי מכוני בטיחות ה-AI בארה"ב ובבריטניה, אשר תרמו להבנת יכולותיהם הביטחוניות של המודלים. בנוסף, אנתרופיק יזמה שיתוף פעולה חסר תקדים עם המנהל הלאומי לביטחון גרעיני (NNSA) בארה"ב, לבחינת קלוד בסביבה מסווגת עבור ידע הקשור לסיכונים גרעיניים ורדיולוגיים. שיתופי פעולה אלו, יחד עם מנגנוני הגנה פנימיים כמו מדיניות "סקיילינג אחראי" (Responsible Scaling Policy) של החברה, מאפשרים לה לזהות סיכונים פוטנציאליים מוקדם יותר ובאופן אמין יותר. אנתרופיק פועלת בקדחתנות, וצופה כי עם התקדמות מודלים ביכולות חשיבה מורכבות, היא תתקרב לסף שיחייב אמצעי בטיחות ברמה 3 (AI Safety Level 3), מה שידרוש השקעה נוספת בהבטחת מוכנותם של אמצעים אלו בזמן. החברה רואה בשיתוף פעולה עמוק יותר בין מעבדות AI חזיתיות לממשלות, מפתח חיוני לשיפור הערכות הסיכונים והפחתתם בכל התחומים הללו.



