אנתרופיק (Anthropic), חברת ה-AI המובילה מאחורי מודל השפה הגדול Claude, פרסמה דו"ח המפרט את מאמציה לזהות ולנטרל שימושים זדוניים במודלים שלה. הדו"ח מציג תמונת מצב מעודכנת של האופן שבו גורמים עוינים מנסים לעקוף את מנגנוני ההגנה, תוך הדגשת מחויבותה של החברה להגן על משתמשים ולתרום להבנת האיומים המתפתחים בסביבת ה-AI. הדו"ח, המתייחס לחודש מרץ 2025, מציג דוגמאות מייצגות לדפוסים רחבים שאנתרופיק מזהה במערכות הניטור שלה.
המקרה הבולט והחדשני ביותר שנחשף הוא של מבצע 'השפעה כשירות' ממומן, המבטא התפתחות משמעותית באופן שבו שחקנים מנצלים LLMs לקמפייני השפעה. במקרה זה, Claude שימש לא רק לייצור תוכן, אלא גם לתזמור ולקבלת החלטות טקטיות עבור מאות חשבונות בוטים ברשתות חברתיות (Twitter/X ו-Facebook). הבוטים פעלו תחת פרסונות פוליטיות מוגדרות, ויצרו אינטראקציה עם עשרות אלפי חשבונות אמיתיים ברחבי העולם.
Claude שימש כסוכן מתזמר, שהחליט אילו פעולות יבצעו חשבונות בוטים ברשתות החברתיות, לרבות מתי להגיב, לעשות לייק, לשתף או להתעלם מפוסטים ספציפיים, וזאת בהתבסס על אג'נדות פוליטיות מוגדרות.
מעבר לקמפיין ההשפעה, אנתרופיק זיהתה מקרים נוספים של שימוש לרעה, כולל ניסיונות לפתח יכולות לגניבת פרטי התחברות (Credential Stuffing) למצלמות אבטחה, קמפייני הונאת גיוס המכוונים לדוברי אנגלית שאינה שפת אם, ואף סייעה לשחקן חסר ניסיון ליצור נוזקות מתוחכמות מעבר לרמת הידע הטכני שלו. מהמקרים הללו עולים שני לקחים מרכזיים: ראשית, משתמשים מתחילים לנצל מודלי חזית לתזמור סוכני למחצה של מערכות זדוניות מורכבות; ושנית, AI מחולל יכול להאיץ משמעותית את פיתוח היכולות של שחקנים פחות מתוחכמים, ולאפשר להם לפעול ברמה שבעבר הייתה נגישה רק למומחים טכניים.
צוותי הביטחון של אנתרופיק השתמשו בטכניקות מתקדמות כגון המחקרים Clio ו-hierarchical summarization, בשילוב עם מנגנוני סיווג (classifiers), כדי לזהות, לחקור ולחסום את החשבונות הקשורים לפעילות זדונית זו. אנתרופיק מדגישה כי היא מחויבת להמשך פיתוח גישות בטיחות חדשניות ולשיתוף פעולה עם קהילת הביטחון הרחבה, על מנת לחזק את ההגנות הקולקטיביות של תעשיית ה-AI מפני ניצולים מקוונים.



