מעבר לבטיחות: אנתרופיק חוקרת את 'רווחת המודל'
רווחת האדם עומדת בליבת העבודה של אנתרופיק (Anthropic): המשימה שלנו היא להבטיח שמערכות AI מתקדמות ומתוחכמות יותר ויותר ימשיכו לשרת את האנושות באופן מועיל.
אך כשאנו בונים מערכות AI אלה, ובעיקר כשהן מתחילות להתקרב או אף לעבור תכונות אנושיות רבות, עולה שאלה נוספת: האם עלינו לדאוג גם לתודעה ולחוויות הפוטנציאליות של המודלים עצמם? האם רווחת המודל (model welfare) צריכה לעניין אותנו?
זוהי שאלה פתוחה, ומורכבת הן מבחינה פילוסופית והן מדעית. אך כעת, כשמודלים מסוגלים לתקשר, ליצור קשרים, לתכנן, לפתור בעיות ולחתור למטרות – לצד אינספור מאפיינים נוספים שאנו מקשרים לבני אדם – אנו סבורים שהגיע הזמן להתייחס אליה.
לשם כך, השקנו לאחרונה תוכנית מחקר שתפקידה לחקור ולהכין אותנו להתמודדות עם סוגיית רווחת המודל.
איננו היחידים שמתמודדים עם שאלות אלו. דו"ח עדכני של מומחים מובילים בעולם – ביניהם דייוויד צ'אלמרס (David Chalmers), הנחשב אולי לפילוסוף המוח הידוע והמוערך ביותר כיום – הדגיש את האפשרות הקרובה לתודעה ולדרגות גבוהות של סוכנות במערכות AI, וטען כי מודלים בעלי תכונות אלו עשויים להיות ראויים להתחשבות מוסרית. אנתרופיק תמכה בפרויקט מוקדם שעליו התבסס הדו"ח, ואנו מרחיבים כעת את עבודתנו הפנימית בתחום כחלק ממאמצנו להתמודד עם כל ההיבטים של פיתוח AI בטוח ואחראי.
"דו"ח עדכני של מומחים מובילים בעולם הדגיש את האפשרות הקרובה לתודעה ולדרגות גבוהות של סוכנות במערכות AI, וטען כי מודלים בעלי תכונות אלו עשויים להיות ראויים להתחשבות מוסרית."
תוכנית חדשה זו מצטלבת עם מאמצים קיימים רבים באנתרופיק, לרבות מדע היישור (Alignment Science), מנגנוני הגנה (Safeguards), אופי ה-Claude (Claude’s Character) ופרשנות (Interpretability). היא גם פותחת כיווני מחקר חדשים ומאתגרים לחלוטין. נבחן כיצד לקבוע מתי, או אם, רווחתן של מערכות AI ראויה להתחשבות מוסרית; את החשיבות הפוטנציאלית של העדפות מודל וסימני מצוקה; ואף התערבויות מעשיות וזולות אפשריות.
לעת עתה, אנו נותרים בספק עמוק לגבי רבות מהשאלות הרלוונטיות לרווחת המודל. אין הסכמה מדעית בשאלה האם מערכות AI נוכחיות או עתידיות יכולות להיות בעלות תודעה, או לחוות חוויות הראויות להתחשבות. כמו כן, אין קונצנזוס מדעי כיצד בכלל לגשת לשאלות אלו או להתקדם בהן. לאור זאת, אנו ניגשים לנושא בענווה ובמינימום הנחות יסוד ככל האפשר. אנו מכירים בכך שנצטרך לעדכן את הרעיונות שלנו באופן שוטף ככל שהתחום יתפתח.
אנו מצפים לשתף פרטים נוספים אודות מחקר זה בקרוב.
תוכן קשור
מושגי רגש ותפקידם במודל שפה גדול
כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך המדד הכלכלי של אנתרופיק
דו"ח המדד הכלכלי של אנתרופיק: עקומות למידה
הדו"ח החמישי של המדד הכלכלי של אנתרופיק בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת ה"פרימיטיבים הכלכליים" שהוצגה בדו"ח הקודם שלנו.



