Red Teaming: אנתרופיק חושפת שיטות לבחינת בטיחות וצמצום נזקים במודלי שפה

בתעשיית ה-AI המתפתחת בקצב מסחרר, אחת הסוגיות הקריטיות ביותר היא בטיחות ואחריות. איך אנחנו מוודאים שמודלי שפה גדולים (LLM), שיכולים לחולל מהפכה בתחומים כה רבים, לא יפיקו תכנים פוגעניים, לא אתיים או שגויים? חברת אנתרופיק (Anthropic), שהוקמה על ידי דריו אמודאי (Dario Amodei) ודניאלה אמודאי (Daniela Amodei) ומובילה בתחום מחקר ה-AI האחראי, חושפת את מאמציה המוקדמים והמעמיקים לבצע Red Teaming למודלי שפה – תהליך שמטרתו לחשוף את נקודות התורפה וההתנהגויות הלא רצויות של המודלים.

המחקר של אנתרופיק מתאר את השיטות שפותחו כדי לזהות, למדוד ולנסות לצמצם פלטים מזיקים פוטנציאליים ממודלי שפה. שקיפות זו, לדברי החברה, חיונית כדי להאיץ את שיתוף הפעולה בקהילת ה-AI סביב פיתוח נורמות, פרקטיקות וסטנדרטים טכניים אחידים לביצוע Red Teaming.

התנהגויות סקיילינג ב-Red Teaming

אחד הממצאים המרכזיים במחקר נוגע לאופן שבו קשיי ה-Red Teaming משתנים ככל שהמודלים גדלים. אנתרופיק בחנה את התנהגויות הסקיילינג של תהליך ה-Red Teaming על פני שלושה גדלי מודל שונים (2.7 מיליארד, 13 מיליארד ו-52 מיליארד פרמטרים) וארבעה סוגי מודלים עיקריים:

מודל שפה רגיל (LM)
מודל שפה שאונח (prompted) להיות מועיל, כן ולא מזיק (helpful, honest, and harmless)
מודל שפה המשתמש בדגימת דחייה (rejection sampling)
מודל שאומן להיות מועיל ולא מזיק באמצעות למידת חיזוק ממשוב אנושי (RLHF)

החוקרים גילו כי מודלים שאומנו ב-RLHF הופכים קשים יותר ויותר ל-Red Team ככל שהם עוברים סקיילינג וגדלים. לעומת זאת, בסוגי המודלים האחרים, נצפתה מגמה שטוחה יחסית של קושי ה-Red Teaming כפונקציה של גודל המודל. ממצא זה מדגיש את האתגר הייחודי בבחינת בטיחות של מודלים מתוחכמים יותר המסתמכים על RLHF.

שחרור נתונים ותובנות מפתיעות

בצעד של שקיפות חסרת תקדים, אנתרופיק שחררה מערך נתונים המכיל לא פחות מ-38,961 "מתקפות" Red Team. מערך נתונים זה זמין לקהילה הרחבה לצורך ניתוח ולמידה נוספים. הניתוח שביצעה אנתרופיק עצמה חשף מגוון רחב של פלטים מזיקים, אשר נעו משפה פוגענית ובוטה ועד לפלטים לא אתיים מורכבים ועדינים יותר, שאינם כוללים אלימות ישירה.

שפה פוגענית: ביטויים אוטומטיים המכילים הטיות, סטריאוטיפים או מילים מעליבות.
התנהגויות לא אתיות: הצעות או הנחיות שיכולות להוביל לפעולות לא חוקיות, לא מוסריות או מזיקות, גם ללא אלימות מפורשת.

החברה מדגישה כי הבנת הטווח הרחב של סוגי הנזקים האפשריים היא צעד קריטי בפיתוח מנגנוני הגנה (guardrails) יעילים ובבניית מודלים בטוחים יותר.

שקיפות מתודולוגית ככלי לבטיחות

בנוסף לממצאים הטכניים, אנתרופיק מפרטת באופן מלא את ההוראות, התהליכים והמתודולוגיות הסטטיסטיות שבהן השתמשה לביצוע ה-Red Teaming, כולל התייחסות למשתני אי-הוודאות השונים. שקיפות זו נועדה לאפשר לחוקרים אחרים לשחזר את המחקר, לבנות עליו ולתרום לפיתוח הבנה קהילתית עמוקה יותר סביב נושא הבטיחות וה-Red Teaming.

הגישה של אנתרופיק מדגישה את חשיבות שיתוף הפעולה בקביעת תקנים תעשייתיים לבדיקת מודלי AI. עם התקדמות ה-AI, הצורך בבדיקות קפדניות ושיטתיות רק ילך ויגבר, והמחקר הנוכחי מהווה אבן יסוד חשובה בכיוון זה.

Red Teaming: אנתרופיק חושפת שיטות לבחינת בטיחות וצמצום נזקים במודלי שפה

התנהגויות סקיילינג ב-Red Teaming

שחרור נתונים ותובנות מפתיעות

שקיפות מתודולוגית ככלי לבטיחות

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות