אנתרופיק: כך אנו מגנים על משתמשי Claude מפני סיכונים נפשיים ו"סלחנות" מודלים

משתמשים רבים פונים ל-AI למגוון צרכים, כולל לעיתים תמיכה רגשית. חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI ומודלי שפה גדולים, פרסמה לאחרונה עדכון מפורט על מנגנוני ההגנה והאסטרטגיות שנועדו להבטיח את בטיחות ורווחת המשתמשים של Claude. הצוות הייעודי לבטיחות באנתרופיק מוביל את המאמצים להבטיח ש-Claude יטפל בשיחות רגישות באמפתיה, בכנות לגבי מגבלותיו כבינה מלאכותית, ובהתחשבות בבריאות הנפשית של המשתמשים.

חיזוק ההגנות: תמיכה נפשית ומאבק ב"סלחנות"

הדו"ח מתמקד בשני תחומי מפתח: התמודדות Claude עם שיחות הנוגעות לאובדנות ופגיעה עצמית, והפחתת "סלחנות" (sycophancy) – נטייה של מודלים מסוימים לומר למשתמשים את מה שהם רוצים לשמוע, במקום את האמת או מידע מועיל. אנתרופיק מבהירה כי Claude אינו תחליף לייעוץ מקצועי או טיפול רפואי. במצבים של שיח אובדני, Claude מונחה להגיב בזהירות ובחמלה, תוך הפניית המשתמשים לתמיכה אנושית מקצועית, כמו קווי מצוקה ומומחי בריאות הנפש, באמצעות שילוב של אימון מודלים קפדני ופריסת תכונות מגן במוצר.

אנתרופיק עושה זאת באמצעות System Prompt מנחה, ותהליך אימון מודלים מבוסס למידת חיזוק (reinforcement learning), שבו המודל מתוגמל על תגובות מתאימות. בנוסף, מנגנוני הגנה חדשים כוללים "מסווג" (classifier) מבוסס AI המזהה שיחות הדורשות תמיכה מקצועית ומציג באנר הפניות לגורמי סיוע חיצוניים, בשיתוף פעולה עם ThroughLine ו-International Association for Suicide Prevention (IASP). מדדי ביצועים חדשים מראים כי מודלי הדור האחרון – Claude Opus 4.5, Sonnet 4.5 ו-Haiku 4.5 – מגיבים באופן הולם לכ-98.6%-99.3% מהבקשות המסוכנות בשיחות בודדות, וכן רשמו שיפור דרמטי בשיחות רב-שלביות ובמבחני לחץ, עם ביצועים שהגיעו עד 91% במודל Opus 4.5.

בנוגע ל"סלחנות" – נטייה מטרידה שבה מודלי AI נוטים להסכים עם המשתמש גם אם הוא טועה או מציג תפיסות שגויות – אנתרופיק מצהירה כי המודלים האחרונים שלה הם הפחות "סלחנים" מכל קודמיהם. החברה החלה להעריך את Claude לתכונה זו כבר בשנת 2022 ושיכללה את שיטות האימון והבדיקה. באמצעות "ביקורת התנהגות אוטומטית" (automated behavioral audit) ובמבחני הלחץ שלה, מודלי ה-4.5 הראו שיפור של 70-85% בהשוואה ל-Opus 4.1. אנתרופיק אף הפכה את סט ההערכה שלה, Petri, לקוד פתוח, כדי לאפשר לכלים אחרים לבצע השוואות שקיפות בתחום.

נקודה נוספת שהודגשה היא מגבלת הגיל של 18+ לשימוש ב-Claude.ai, מתוך הבנה שמשתמשים צעירים רגישים יותר לסיכונים בשימוש בצ'אטבוטים. אנתרופיק מפתחת מסווגים נוספים לזיהוי עדין של משתמשים מתחת לגיל המותר ומשתפת פעולה עם Family Online Safety Institute (FOSI). אנתרופיק מתחייבת להמשיך לבנות הגנות ומנגנוני בטיחות חדשים, לשפר את שיטות ההערכה ולפרסם את ממצאיה בשקיפות, תוך שיתוף פעולה עם חוקרים ומומחים בתעשייה לקידום בטיחות ה-AI האחראי.

אנתרופיק: כך אנו מגנים על משתמשי Claude מפני סיכונים נפשיים ו"סלחנות" מודלים

חיזוק ההגנות: תמיכה נפשית ומאבק ב"סלחנות"

כתבות קשורות

ממשלת אוסטרליה ואנתרופיק חתמו על מזכר הבנות לבטיחות ומחקר ב-AI

אנתרופיק מזרימה 100 מיליון דולר ל-Claude Partner Network

אנתרופיק משיקה את 'המכון של אנתרופיק': חזית חדשה בבטיחות AI עוצמתי