עם שנת בחירות גלובלית תוססת בפתח ב-2024, חברות ה-AI הגדולות ניצבות בפני אתגר משמעותי: כיצד להבטיח את שלמות הבחירות ולמנוע שימוש לרעה במודלים שלהן. אנתרופיק (Anthropic) מפרסמת כעת הצצה למאמציה המתמשכים בנושא, תוך התמקדות בבדיקה יזומה של מודלי ה-AI שלה, בדגש על קלוד (Claude), לזיהוי והפחתת סיכונים הקשורים לבחירות. הגישה של אנתרופיק משלבת בדיקות עומק איכותניות עם מומחים חיצוניים והערכות אוטומטיות מבוססות סקיילינג.

החברה משתמשת בשני צירים עיקריים לבחינת המודלים: "בדיקות חשיפה לפגיעויות במדיניות" (Policy Vulnerability Testing – PVT) – בדיקות מעמיקות ואיכותניות המבוצעות עם מומחי תוכן חיצוניים, במטרה לזהות מתן מידע שגוי, מיושן או מוטה, וכן ניסיונות לשימוש לרעה במודלים. אנתרופיק אף שיתפה פעולה עם חוקרים כמו איזבל פרנסס-רייט (Isabelle Frances-Wright) מהמכון לדיאלוג אסטרטגי (Institute for Strategic Dialogue). בנוסף, אנתרופיק מפעילה הערכות אוטומטיות מבוססות סקיילינג – המאפשרות לבחון את התנהגות המודלים בצורה מקיפה ומהירה יותר, ומשלימות את תובנות העומק של ה-PVT. כחלק ממאמץ לשקיפות ולשיפור תקינות הבחירות, אנתרופיק אף משחררת חלק מההערכות האוטומטיות שפיתחה.

ממצאי הבדיקות הללו מובילים ליישום אסטרטגיות הפחתה ממוקדות. אנתרופיק פועלת במספר מישורים, כולל עדכון ה-System Prompt של קלוד כדי להבטיח התייחסות נכונה לתאריך ה-Knowledge Cutoff שלו ולספק הקשר מתאים לשאלות רגישות לזמן, וכן כוונון עדין (fine-tuning) של המודלים כדי לעודד הפניה למקורות מידע סמכותיים. עוד נכללים בין הפעולות זיקוק וחידוד מדיניות השימוש של החברה, במיוחד סביב איסור על יצירת מידע שגוי או התערבות בתהליכי בחירות. מדידת היעילות של שינויים אלו הראתה שיפורים משמעותיים בהתנהגות המודלים, ואנתרופיק מדגישה את מודל "גבינת שוויץ" שלה – גישה רב-שכבתית של התערבויות – להבטחת בטיחות מערכתית.

תהליך מקיף זה מספק לאנתרופיק הבנה עמוקה ורחבה יותר של המודלים שלה ומסגרת פעולה הניתנת להתאמה לנושאים ואזורים גיאוגרפיים שונים. אף על פי שלא ניתן לצפות מראש כל דרך שבה משתמשים עשויים לנסות לנצל את המודלים במהלך מחזור הבחירות, יסודות הבדיקה וההפחתה הפרואקטיביים שבנתה החברה מדגישים את מחויבותה לפתח טכנולוגיית AI אחראית ותוך שמירה קפדנית על מדיניותה.