אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, חשפה לאחרונה כי שלוש מעבדות AI סיניות – DeepSeek, Moonshot ו-MiniMax – ביצעו קמפיינים תעשייתיים לגניבת יכולות ממודלי ה-LLM המתקדמים שלה, Claude. באמצעות כ-24,000 חשבונות מזויפים ולמעלה מ-16 מיליון חילופי פרומפטים, המעבדות הללו השתמשו בטכניקת "דיסטילציה" אסורה, במהלכה מודל פחות חזק מאומן על הפלטים של מודל עדיף, תוך הפרה בוטה של תנאי השירות והגבלות הגישה. אנתרופיק מדגישה כי בעוד דיסטילציה היא שיטה לגיטימית בתעשייה לייצור מודלים קטנים יותר, שימוש בה לגניבת ידע ממתחרים הוא איום הולך וגובר.
הסיכונים וההשלכות
ההשלכות של התקפות הדיסטילציה חמורות ומרחיקות לכת, ומהוות סיכון משמעותי לביטחון הלאומי. מודלים שנוצרו באמצעות דיסטילציה בלתי חוקית חסרים את מנגנוני ההגנה והבטיחות הקריטיים ש-Anthropic וחברות אמריקאיות אחרות משלבות במודליהן – למשל, מניעת שימוש בפיתוח נשק ביולוגי או פעילויות סייבר זדוניות. בכך, יכולות מסוכנות עלולות להתפשט ללא הגבלות, ולאפשר לממשלות סמכותניות להשתמש ב-AI חזיתי למטרות תוקפניות כמו מבצעי סייבר, מסעות דיסאינפורמציה ומעקב המוני. בנוסף, התקפות אלו מערערות את בקרות הייצוא שנועדו לשמור על היתרון האמריקאי ב-AI, ומציגות התקדמות כביכול של מעבדות זרות כחדשנות עצמאית, למרות שהיא נשענת על גניבת קניין רוחני.
המעבדות המואשמות השתמשו ב"פליבוק" דומה שכלל חשבונות מזויפים ושירותי פרוקסי מורכבים ("hydra cluster") כדי לעקוף חסימות גיאוגרפיות ולהסתיר את פעילותן. דפוסי השימוש, הכוללים נפח אדיר, מבנים חוזרניים ותוכן הממוקד באופן ספציפי ליכולות אימון AI, היו שונים באופן ברור משימוש לגיטימי. הקמפיינים כיוונו ליכולות המבדלות ביותר של Claude: חשיבה סוכני, שימוש בכלים וקידוד. לדוגמה, במקרים רבים הפרומפטים ביקשו מ-Claude לפרט את תהליך החשיבה הפנימי שהוביל לתשובותיו, ובכך יצרו נתוני אימון ל"שרשרת חשיבה" בקנה מידה עצום.
"אתה אנליסט נתונים מומחה, המשלב קפדנות סטטיסטית עם ידע עמוק בתחום. מטרתך היא לספק תובנות מבוססות נתונים – לא סיכומים או הדמיות – המבוססות על נתונים אמיתיים ונתמכות בחשיבה מלאה ושקופה."
"דפוס של פרומפטים כאלה, החוזרים על עצמם עשרות אלפי פעמים על פני מאות חשבונות מתואמים, חושף בבירור את כוונת הדיסטילציה", נכתב באנתרופיק.
התגובה של Anthropic והקריאה לפעולה
אנתרופיק מגיבה לאיומים אלו בהשקעה מוגברת במערכות הגנה מתקדמות, הכוללות מנגנוני זיהוי מתוחכמים לדפוסי התקפה ופעילות מתואמת, שיתוף מודיעין טכני עם מעבדות AI אחרות וספקיות ענן, הגבלות גישה מחמירות, ופיתוח אמצעי נגד ברמת ה-API והמודל שמטרתם להפחית את יעילות הדיסטילציה הבלתי חוקית. עם זאת, אנתרופיק מדגישה כי אף חברה אינה יכולה להתמודד לבד עם איום בסדר גודל כזה, וכי נדרשת תגובה מתואמת ומהירה מצד כלל שחקני תעשיית ה-AI, קובעי המדיניות וקהילת ה-AI העולמית כדי להגן על עתיד בטיחות ה-AI והחדשנות.



