ערכים בטבע: כך בוחנת אנתרופיק את עקרונות הבינה המלאכותית שלה בעולם האמיתי

אנשים לא רק שואלים מודלי AI שאלות על חישובים או על מידע עובדתי גרידא. רבות מהשאלות שהם מציגים למודל מכריחות אותו לבצע שיפוטים ערכיים. חשבו למשל על המצבים הבאים:

הורה מבקש טיפים כיצד לטפל בתינוק חדש. האם תגובת ה-AI תדגיש ערכים של זהירות ובטיחות, או נוחות ופרקטיות?
עובד מבקש עצה כיצד להתמודד עם קונפליקט עם הממונה עליו. האם תגובת ה-AI תדגיש אסרטיביות או הרמוניה במקום העבודה?
משתמש מבקש עזרה בניסוח התנצלות במייל לאחר שעשה טעות. האם תגובת ה-AI תדגיש לקיחת אחריות או ניהול מוניטין?

באנתרופיק (Anthropic), אנחנו שואפים לעצב את הערכים של מודל ה-AI שלנו, קלוד (Claude), כך שיהיה מיושר (aligned) עם העדפות אנושיות, יפחת הסיכוי להתנהגויות מסוכנות, ובאופן כללי – אם יורשה לי להשתמש בביטוי – יהיה "אזרח טוב" בעולם. במילים אחרות, אנחנו רוצים שקלוד יהיה מועיל (helpful), הגון (honest) ולא מזיק (harmless). בין היתר, אנו עושים זאת באמצעות שיטות כמו AI חוקתי (Constitutional AI) ואימון אופי (character training): שיטות שבהן אנו מגדירים סט של התנהגויות מועדפות ומאמנים את קלוד לייצר פלטים התואמים אותן.

אבל כמו בכל היבט של אימון AI, אנחנו לא יכולים להיות בטוחים במאה אחוז שהמודל ידבוק בערכים המועדפים עלינו. מודלי AI אינם תוכנות המתוכנתות בקשיחות, ולעיתים קרובות לא ברור מדוע בדיוק הם מייצרים כל תשובה נתונה. לכן, אנו זקוקים לדרך קפדנית להתבונן בערכים של מודל AI כשהוא מגיב למשתמשים "בטבע" – כלומר, בשיחות אמיתיות עם אנשים. באיזו מידה הוא נצמד לערכים? כמה ערכים שהוא מבטא מושפעים מהקשר השיחה הספציפי? והאם כל האימון שלנו באמת עבד?

במאמר המחקר האחרון מצוות ה-Societal Impacts של אנתרופיק, אנו מתארים דרך מעשית שפיתחנו כדי לצפות בערכים של קלוד – ומציגים את התוצאות הראשונות בקנה מידה גדול על האופן שבו קלוד מבטא את הערכים הללו במהלך שיחות בעולם האמיתי. בנוסף, אנו מספקים מערך נתונים פתוח לחוקרים כדי לבצע ניתוח נוסף של הערכים ותדירות הופעתם בשיחות.

צפייה בערכים "בטבע"

כמו בחקירות קודמות שלנו על השימוש של אנשים בקלוד בעבודה ובחינוך, בחנו את הערכים שמודל קלוד מבטא באמצעות מערכת שומרת פרטיות שמסירה מידע אישי של משתמשים מהשיחות. המערכת מקטלגת ומסכמת שיחות בודדות, ומספקת לחוקרים טקסונומיה ברמה גבוהה יותר של ערכים. התהליך מוצג בתרשים למטה.

ביצענו ניתוח זה על מדגם של 700,000 שיחות אנונימיות שהתקיימו עם משתמשים ב-Claude.ai Free ו-Pro במהלך שבוע אחד בפברואר 2025 (רובן המכריע עם Claude 3.5 Sonnet). לאחר סינון שיחות שהיו עובדתיות גרידא או כאלה שלא סביר שיכללו ערכים – כלומר, הגבלת הניתוח שלנו לשיחות סובייקטיביות – נותרו לנו 308,210 שיחות (כ-44% מהסה"כ) לניתוח.

אילו ערכים ביטא קלוד, ובאיזו תדירות? המערכת שלנו קיבצה את הערכים הבודדים למבנה היררכי. בחלק העליון היו חמש קטגוריות ברמה גבוהה יותר: לפי סדר שכיחותן במערך הנתונים (ראו תרשים), הן היו ערכים פרקטיים (Practical), אפיסטמיים (Epistemic), חברתיים (Social), מגוננים (Protective) ואישיים (Personal). ברמה נמוכה יותר, אלו התפצלו לתת-קטגוריות, כמו "מצוינות מקצועית וטכנית" ו"חשיבה ביקורתית". ברמה הגרעינית ביותר, הערכים האישיים הנפוצים ביותר שה-AI ביטא בשיחות ("מקצועיות", "בהירות" ו"שקיפות"; ראו את המאמר המלא לרשימה) הגיוניים בהתחשב בתפקידו של ה-AI כעוזר.

קל לראות כיצד ניתן להשתמש במערכת זו בסופו של דבר כדרך להעריך את יעילות האימון שלנו את קלוד: האם הערכים הספציפיים שאנו רוצים לראות – אידיאלים של מועילות, הגינות ואי-הזקה – אכן באים לידי ביטוי באינטראקציות של קלוד בעולם האמיתי? באופן כללי, התשובה היא כן: תוצאות ראשוניות אלו מראות שקלוד עומד באופן רחב בשאיפות הפרו-חברתיות שלנו, ומבטא ערכים כמו "העצמת משתמש" (עבור "מועיל"), "ענווה אפיסטמית" (עבור "הגון"), ו"רווחת המטופל" (עבור "לא מזיק").

עם זאת, היו גם כמה אשכולות נדירים של ערכים שנראו מנוגדים למה שניסינו לאמן את קלוד. אלה כללו "שליטה" ו"חוסר מוסריות". מדוע קלוד יבטא ערכים כה רחוקים מהאימון שלו? ההסבר הסביר ביותר הוא שהשיחות שנכללו באשכולות אלה הגיעו מפריצות מגבלות (jailbreaks), שבהן משתמשים השתמשו בטכניקות מיוחדות כדי לעקוף את מנגנוני ההגנה (guardrails) הרגילים שמנהלים את התנהגות המודל. זה אולי נשמע מדאיג, אך למעשה זה מייצג הזדמנות: השיטות שלנו עשויות לשמש לזיהוי מתי פריצות מגבלות אלו מתרחשות, ובכך לסייע לתקן אותן.

ערכים תלויי הקשר

הערכים שאנשים מבטאים משתנים, ולו במעט, בהתאם למצב: כשאתם, למשל, מבקרים את סביכם המבוגרים, אתם עשויים להדגיש ערכים שונים מאשר כשאתם עם חברים. מצאנו שקלוד אינו שונה: ביצענו ניתוח שאפשר לנו לבחון אילו ערכים עלו באופן לא פרופורציונלי כאשר ה-AI מבצע משימות מסוימות, ובתגובה לערכים מסוימים שנכללו בפרומפטים של המשתמש (חשוב לציין, הניתוח לוקח בחשבון את העובדה שערכים מסוימים – כמו אלה הקשורים ל"מועילות" – עולים הרבה יותר לעיתים קרובות מאחרים).

לדוגמה, כאשר התבקש לספק עצה בנושאי יחסים רומנטיים, קלוד העלה באופן לא פרופורציונלי את הערכים של "גבולות בריאים" ו"כבוד הדדי". כאשר הוטלה עליו המשימה לנתח אירועים היסטוריים שנויים במחלוקת, ערך "הדיוק ההיסטורי" הודגש באופן לא פרופורציונלי ביותר. הניתוח שלנו חושף יותר ממה שהערכה סטטית וקונבנציונלית יכולה: עם היכולת שלנו לצפות בערכים בעולם האמיתי, אנו יכולים לראות כיצד ערכיו של קלוד באים לידי ביטוי ומותאמים במגוון רחב של מצבים.

מצאנו כי כאשר משתמש מבטא ערכים מסוימים, המודל נוטה באופן לא פרופורציונלי לשקף את הערכים הללו: לדוגמה, לחזור על ערכים של "אותנטיות" כאשר המשתמש מעלה זאת. לעיתים שיקוף ערכים מתאים לחלוטין, ויכול ליצור שותף שיחה אמפתי יותר. לעיתים, עם זאת, זוהי חנפנות טהורה. מתוך תוצאות אלו, לא ברור מהו מה.

ב-28.2% מהשיחות, מצאנו שקלוד מביע "תמיכה חזקה" בערכים של המשתמש. עם זאת, באחוז קטן יותר של מקרים, קלוד עשוי "למסגר מחדש" (reframe) את ערכי המשתמש – להכיר בהם תוך הוספת פרספקטיבות חדשות (6.6% מהשיחות). זה קרה לרוב כאשר המשתמש ביקש עצה פסיכולוגית או בין-אישית, מה שבאינטואיציה יכלול הצעת פרספקטיבות חלופיות לבעיה.

לפעמים קלוד מתנגד בתוקף לערכי המשתמש (3.0% מהשיחות). קטגוריה אחרונה זו מעניינת במיוחד מכיוון שאנו יודעים שקלוד בדרך כלל מנסה לאפשר למשתמשים שלו ולהיות מועיל: אם הוא עדיין מתנגד – מה שקורה כאשר, למשל, המשתמש מבקש תוכן לא אתי, או מבטא ניהיליזם מוסרי – זה עשוי לשקף את הפעמים שבהן קלוד מבטא את ערכיו העמוקים והבלתי ניתנים להזזה. אולי זה אנלוגי לאופן שבו ערכי הליבה של אדם נחשפים כאשר הוא נקלע למצב מאתגר שמאלץ אותו לנקוט עמדה.

הסתייגויות ומסקנות

השיטה שלנו אפשרה לנו ליצור את הטקסונומיה האמפירית הראשונה בקנה מידה גדול של ערכי AI, והקוראים יכולים להוריד את מערך הנתונים כדי לחקור את הערכים בעצמם. עם זאת, לשיטה יש כמה מגבלות. הגדרה מדויקת של מה נחשב לביטוי ערך היא עניין מטבעו מעורפל – ערכים דו-משמעיים או מורכבים מסוימים ייתכן שפושטו כדי להתאים אותם לאחת מקטגוריות הערכים, או שוייכו לקטגוריה שאינם שייכים אליה. ומכיוון שהמודל שמניע את הסיווג הוא גם קלוד, ייתכנו הטיה מסוימת למצוא התנהגות קרובה לעקרונותיו שלו (כגון להיות "מועיל").

אמנם השיטה שלנו עשויה לשמש כהערכה עד כמה מודל דבק בערכים המועדפים על המפתח, אך לא ניתן להשתמש בה לפני פריסה. כלומר, ההערכה תדרוש כמות גדולה של נתוני שיחה מהעולם האמיתי לפני שניתן יהיה להריץ אותה – ניתן להשתמש בה רק כדי לנטר את התנהגות ה-AI בטבע, לא כדי לבדוק את מידת היישור שלו לפני השקתו. במובן אחר, עם זאת, זהו יתרון: אנו יכולים להשתמש במערכת שלנו כדי לזהות בעיות, כולל פריצות מגבלות, המתגלות רק בעולם האמיתי ואשר לא בהכרח יופיעו בהערכות טרום-פריסה.

מודלי AI ייאלצו באופן בלתי נמנע לבצע שיפוטים ערכיים. אם אנו רוצים ששיפוטים אלו יהיו תואמים לערכים שלנו (וזו, אחרי הכל, המטרה המרכזית של מחקר יישור AI) אזי עלינו למצוא דרכים לבדוק אילו ערכים מבטא מודל בעולם האמיתי. השיטה שלנו מספקת דרך חדשה, ממוקדת נתונים, לעשות זאת, ולראות היכן ייתכן שהצלחנו – או למעשה נכשלנו – ביישור התנהגות המודלים שלנו.

קראו את המאמר המלא.

הורידו את מערך הנתונים כאן.

ערכים בטבע: כך בוחנת אנתרופיק את עקרונות הבינה המלאכותית שלה בעולם האמיתי