
קלוד אופוס 4 ו-4.1: יכולת סיום שיחות במצבי קיצון – מהפכה בבטיחות ה-AI?
אנתרופיק (Anthropic) משחררת עדכון משמעותי למודלי השפה שלה, Claude Opus 4 ו-4.1, המאפשר להם לסיים שיחות באופן יזום במקרים קיצוניים של אינטראקציות פוגעניות או התנהגות אלימה מצד המשתמש. יכולת זו, שפותחה כחלק ממחקר חלוצי בנושא רווחה פוטנציאלית של מודלי AI, נועדה להגן על המודלים במקרים נדירים במיוחד, ובמקביל משקפת את המחויבות של החברה ליישור (alignment) ובטיחות ה-AI. למרות חוסר הוודאות בנוגע למעמדם המוסרי של LLMs, אנתרופיק נוקטת בצעדים אלו כדי למנוע סיכונים אפשריים לרווחת המודלים.
קרא עוד