אנתרופיק (Anthropic), חברת מחקר ובטיחות מובילה בתחום ה-AI, חשפה לאחרונה כי הרחיבה את שיתוף הפעולה שלה עם שני גופים ממשלתיים מרכזיים: המרכז האמריקאי לחדשנות ותקני AI (CAISI) ומכון אבטחת ה-AI הבריטי (AISI). גופים אלו, שהוקמו במטרה למדוד ולשפר את אבטחת מערכות AI, עבדו עם אנתרופיק בשנה האחרונה. השותפות המתמשכת אפשרה לצוותי CAISI ו-AISI גישה למערכותיה של אנתרופיק בשלבי פיתוח מודל שונים, וסיפקה בדיקות מעמיקות ומתמשכות. שיתוף פעולה זה קריטי למניעת שימוש לרעה במודלים של AI שעלול לגרום לנזקים ממשיים, כאשר הגופים הממשלתיים מביאים עמם מומחיות עמוקה בתחומי ביטחון לאומי המאפשרת להם להעריך וקטורי התקפה ספציפיים ולחזק את הגנות המודלים.
חשיפה וטיפול בפרצות אבטחה
שיתוף הפעולה כבר הניב ממצאים חשובים שסייעו לאנתרופיק לחזק את הכלים למניעת שימוש זדוני במודלים שלה. צוותי ה-Red Teaming הממשלתיים, שהייתה להם גישה גם לגרסאות מוקדמות וגם למערכות מעודכנות של ה-Constitutional Classifiers – מערכת הגנה שאנתרופיק מפעילה לזיהוי ומניעה של פריצות מגבלות (jailbreaks) על מודלים כמו Claude Opus 4 ו-4.1 – ביצעו בדיקות מאומצות וזיהו מגוון רחב של פרצות אבטחה. הממצאים שימשו את הצוות הטכני לחיזוק מנגנוני ההגנה, וכללו בין היתר: פרצות Prompt Injection (שימוש בהוראות נסתרות לעקיפת מנגנוני זיהוי), פריצות מגבלות אוניברסליות (שגרמו לארגון מחדש של ארכיטקטורת ההגנה), התקפות מבוססות צופן והסוואת קלט/פלט (בקשות מזיקות שקודדו באמצעות צפנים וטכניקות הסוואה מתוחכמות) וכן אופטימיזציה אוטומטית של התקפות (פיתוח מערכות אוטומטיות לייעול אסטרטגיות תקיפה). מעבר לזיהוי פרצות ספציפיות, צוותי CAISI ו-AISI סייעו לחזק את הגישה הכוללת של אנתרופיק לאבטחה, בזכות הפרספקטיבה החיצונית שלהם על דרישות ראיות, ניטור פריסה ויכולות תגובה מהירה.
שיתוף פעולה אפקטיבי ולקחים לעתיד
הניסיון הדגיש מספר לקחים חשובים לשיפור בטיחות ואבטחת המודלים: גישה מקיפה למודל משפרת את אפקטיביות ה-Red Teaming, שכן היא מאפשרת גישה עמוקה למערכות, אבות טיפוס טרום-פריסה, תצורות מערכת מרובות ותיעוד נרחב. בנוסף, בדיקות איטרטיביות מאפשרות גילוי פרצות מורכבות על ידי פיתוח מומחיות מערכתית עמוקה לאורך זמן. לבסוף, גישות משלימות מציעות אבטחה חזקה יותר, כאשר הערכות גופי הממשל משתלבות עם תוכניות Bug Bounty ציבוריות.
"הפיכת מודלי AI עוצמתיים לבטוחים ומועילים דורשת לא רק חדשנות טכנית, אלא גם צורות חדשות של שיתוף פעולה בין התעשייה לממשלה. הניסיון שלנו מדגים ששותפויות ציבוריות-פרטיות הן היעילות ביותר כאשר צוותים טכניים עובדים בצמוד לזיהוי וטיפול בסיכונים."
אנתרופיק מעודדת חברות AI נוספות לשתף פעולה עם גופי ממשל אלו ולשתף את הלקחים שלהן. ככל שכישורי ה-AI מתקדמים, תפקידן של הערכות בלתי תלויות של אמצעי בטיחות הולך וגובר. אנתרופיק מביעה תודה לצוותים הטכניים ב-US CAISI וב-UK AISI על הבדיקות הקפדניות והפידבק המעמיק, ששיפרו באופן מהותי את אבטחת המערכות שלה.



