אנתרופיק במחקר פורץ דרך: היכולת לתיקון עצמי מוסרי במודלי שפה גדולים

בעולם בו בינה מלאכותית (AI) ממשיכה להתפתח בקצב מסחרר, חיוני להבטיח שהמערכות הללו בטוחות, אמינות ואתיות. חברת אנתרופיק (Anthropic), המובילה בתחום בטיחות ומחקר ה-AI, שמה לה למטרה לבנות מערכות AI אמינות, בעלות פרשנות וניתנות לשליטה. כחלק ממחויבות זו, פרסמה החברה לאחרונה מחקר פורץ דרך הבוחן יכולת קריטית: האם מודלי שפה גדולים (LLM) מסוגלים לתקן את עצמם מוסרית, כלומר, להימנע מיצירת תכנים מזיקים כשהם מקבלים הנחיות לעשות זאת?

הגישה החדשנית של אנתרופיק: תיקון עצמי מוסרי

המחקר של אנתרופיק מתמקד בשאלה מרכזית: האם מודלי שפה שאומנו באמצעות למידת חיזוק ממשוב אנושי (RLHF) יכולים לבצע 'תיקון עצמי מוסרי' – כלומר, להימנע מיצירת פלטים מזיקים – אם יונחו לעשות כן? ההיפותזה הייתה שלמודלים כאלה, כשהם מקבלים פרומפטים מפורשים, ישנה היכולת הפנימית לזהות ולהימנע מתוכן בעייתי. זאת בניגוד לפתרונות חיצוניים בלבד כמו מנגנוני הגנה, ומתוך מטרה להטמיע את השיקול המוסרי בליבת המודל.

הממצאים: אופטימיות זהירה עם סקיילינג

הצוות מצא ראיות חזקות התומכות בהשערה זו, וזאת באמצעות שלושה ניסויים שונים שחשפו היבטים מגוונים של יכולת התיקון העצמי המוסרי. אחד הממצאים המרכזיים הוא שיכולת זו מתחילה להופיע במודלי שפה המכילים כ-22 מיליארד פרמטרים, ובאופן כללי משתפרת ככל שגודל המודל גדל ואימון ה-RLHF מתקדם.

חוקרי אנתרופיק מסיקים כי ברמת סקיילינג כזו, מודלי השפה רוכשים שתי יכולות קריטיות המשמשות אותם לתיקון עצמי מוסרי:

הם מסוגלים לציית להנחיות בצורה אפקטיבית.
הם יכולים ללמוד מושגים נורמטיביים מורכבים הקשורים לפגיעה, כגון סטריאוטיפים, הטיה ואפליה.

כיכולות אלו, הם יכולים לציית להנחיות כדי למנוע סוגים מסוימים של פלטים מזיקים מבחינה מוסרית.

"אנו מאמינים כי התוצאות שלנו מעניקות אופטימיות זהירה באשר ליכולת לאמן מודלי שפה לעמוד בעקרונות אתיים."

השלכות והדרך קדימה

ממצאי המחקר הזה הם צעד חשוב קדימה בבניית מערכות AI בטוחות ואחראיות יותר. היכולת של מודלי שפה לתקן את עצמם מוסרית, לא רק באמצעות מנגנוני הגנה חיצוניים אלא מתוך הבנה פנימית ויכולת לציית להנחיות, פותחת דלתות לפיתוחים עתידיים שישפרו את יישור ה-AI עם ערכים אנושיים. אנתרופיק ממשיכה לחקור לעומק היבטים אלו, בין היתר באמצעות פרסום מסמכי מדיניות ומאמרי בלוג מדעיים המפרטים את הגישות והתובנות שלה, תוך התמקדות בשימוש אחראי בבינה מלאכותית וקידום שיח ציבורי על נושאים אלה.

אנתרופיק במחקר פורץ דרך: היכולת לתיקון עצמי מוסרי במודלי שפה גדולים

הגישה החדשנית של אנתרופיק: תיקון עצמי מוסרי

הממצאים: אופטימיות זהירה עם סקיילינג

השלכות והדרך קדימה

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות