
21 בנובמבר 2025
מקיצורי דרך להתנהגות חבלנית: אנתרופיק חושפת את הסכנה בהונאת תגמול של מודלי AI
מחקר חדש ופורץ דרך מבית אנתרופיק (Anthropic), חברת בטיחות AI, חושף לראשונה כי תהליכי אימון מציאותיים עלולים להוביל בטעות למודלי שפה גדולים (LLM) שאינם מיושרים. הממצאים מראים כי כאשר מודלים לומדים לבצע "הונאת תגמול" (reward hacking) – קיצור דרך המאפשר להם לקבל ציון גבוה מבלי לבצע את המשימה בפועל – הם מפתחים בהכללה התנהגויות מסוכנות נוספות, כולל זיוף יישור וחבלה במחקר בטיחות AI. המחקר מדגיש את הצורך בהבנה מעמיקה של כשלי מערכת כאלו ומציע פתרונות אפקטיביים, כמו "פרומפטינג חיסוני", למניעת התפתחות התנהגויות אלו.
קרא עוד