
25 באוקטובר 2024
אנתרופיק חושפת: האם ניתן 'לנווט' את הטיות מודלי ה-AI מבפנים?
מחקר חדש מבית אנתרופיק (Anthropic) בוחן את טכניקת 'ניווט תכונות' (feature steering), שיטה המאפשרת להתערב במרכיבים פנימיים וניתנים לפרשנות של מודלי שפה גדולים (LLM) דוגמת Claude 3 Sonnet. המטרה היא לבדוק כיצד ניתן למתן הטיות חברתיות מבלי לפגוע ביכולות הכלליות של המודל. הממצאים הראו קיום 'נקודה אופטימלית' (sweet spot) לניווט, ואף זיהוי של 'תכונת ניטרליות' שמפחיתה הטיות רבות. יחד עם זאת, המחקר חשף גם אתגרים כמו 'השפעות בלתי צפויות' (off-target effects) והצביע על מורכבות ההשפעה של תכונות על פלטי המודל, מה שמדגיש את הצורך בהערכה זהירה לפני הטמעת השיטה בפועל.
קרא עוד