
אנתרופיק: כך אנו מגנים על משתמשי Claude מפני סיכונים נפשיים ו"סלחנות" מודלים
חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, פרסמה עדכון מקיף על מנגנוני ההגנה שהטמיעה במודלי השפה הגדולים שלה, ובפרט ב-Claude. הדו"ח מדגיש את מאמציה של החברה להבטיח תגובות הולמות בנושאי בריאות הנפש, כמו התמודדות עם מחשבות אובדניות ופגיעה עצמית, ומאבק ב"סלחנות" (sycophancy) של המודלים. אנתרופיק מציגה שיפורים משמעותיים בביצועי המודלים החדשים שלה, Claude Opus 4.5, Sonnet 4.5 ו-Haiku 4.5, בתחומים אלו, תוך התחייבות לשקיפות ולשיתוף פעולה בתעשייה.







