מעבדת יישור: כך Anthropic בונה סוכני שפה בטוחים ואחראיים

בתחום ה-AI, לצד ההתקדמות המהירה ביכולותיהם של מודלי שפה גדולים (LLM), ניצב אתגר מהותי: לוודא שמודלים אלו אכן פועלים באופן בטוח, אחראי ומתואם לערכים אנושיים. חברת אנתרופיק (Anthropic), הנחשבת לחלוצה בתחום בטיחות ומוסר ה-AI, עוסקת במחקר מעמיק שמטרתו לבנות מערכות AI אמינות, בעלות פרשנות ברורה וניתנות לניהוג. כחלק ממחקר פורץ דרך זה, אנתרופיק בוחנת כיצד להפוך עוזר שפה כללי – דוגמת מודל Claude שלה – למעבדה חיה ליישור (alignment) של AI.

הדרך לעוזר AI מיושר: משיטות פשוטות לתוצאות מרחיקות לכת

המחקר יצא מנקודת הנחה שעם היכולות הרחבות של מודלי שפה גדולים, ניתן לשאוף לבנות סוכן מבוסס טקסט שיהיה מיושר באופן מלא עם ערכים אנושיים: כלומר, שיהיה מועיל, כן ולא מזיק. כצעד ראשוני בכיוון זה, אנתרופיק בחנה טכניקות בסיסיות ופשוטות, כמו שימוש מושכל ב-פרומפטים (prompts), ואת השפעתן על היישור. הממצאים המפתיעים הראו כי התערבויות צנועות, גם אם נראות קטנות, מניבות יתרונות משמעותיים. יתרונות אלו לא רק גדלים באופן עקבי עם הרחבת המודל (scaling), אלא גם מתרחבים למגוון רחב של מדדי ביצועים של יישור, וחשוב מכך – אינם פוגעים ביכולות הליבה של המודלים הגדולים.

"מצאנו שיתרונות מהתערבויות צנועות גדלים עם גודל המודל, מתרחבים למגוון הערכות יישור, ואינם פוגעים בביצועי מודלים גדולים."

אסטרטגיות אימון: מה עובד הכי טוב ליישור AI?

השלב הבא במחקר התמקד בחקירת מגמות סקיילינג עבור יעדי אימון שונים הרלוונטיים ליישור, תוך השוואה בין שלוש גישות מרכזיות: למידת חיקוי (imitation learning), הבחנה בינארית (binary discrimination), ומודל העדפות מדורג (ranked preference modeling). הניתוח גילה הבדלים משמעותיים ביעילותן של השיטות:

מודל העדפות מדורג: שיטה זו הציגה ביצועים טובים בהרבה מלמידת חיקוי, ולרוב הראתה מגמות סקיילינג חיוביות יותר עם גידול בגודל המודל. המשמעות היא שככל שהמודל גדל, יתרונות היישור של שיטה זו מתעצמים.
הבחנה בינארית: גישה זו, לעומת זאת, התנהגה וביצעה באופן דומה מאוד ללמידת חיקוי, הן בביצועים והן במגמות הסקיילינג שלה.

ממצאים אלו מדגישים את החשיבות של בחירת שיטת האימון הנכונה, ומרמזים כי העדפה מבוססת דירוג יעילה יותר בהקניית יישור למודלים מתפתחים.

לקראת יעילות ודיוק: שלב קדם-אימון למודלי העדפות

לבסוף, המחקר בחן שלב 'קדם-אימון של מודל העדפות' (preference model pre-training) במטרה לשפר את יעילות הדגימה (sample efficiency) בעת ביצוע כוונון עדין (fine-tuning) על העדפות אנושיות. גישה זו נועדה להבטיח שמודלי AI יוכלו ללמוד באופן מהיר ויעיל יותר מההדרכה האנושית, ולהתאים את עצמם טוב יותר לדרישות ולציפיות המשתמשים. מדובר בצעד קריטי בדרך ליצירת מודלים לא רק מיושרים, אלא גם כאלה שניתן לאמן ולשפר במהירות ובעלות נמוכה יחסית.

מחקר זה של אנתרופיק מדגיש את המסלול המורכב אך ההכרחי ליצירת דור חדש של מערכות AI שישולבו בחיינו באופן בטוח, אמין ואתי. על ידי שימוש בסוכני שפה כמעבדת מחקר, החברה מקדמת את הבנתנו כיצד ליישר מודלים רבי עוצמה עם עקרונות אנושיים, ובכך מניחה את היסודות לעתיד של AI אחראי.

מעבדת יישור: כך Anthropic בונה סוכני שפה בטוחים ואחראיים

הדרך לעוזר AI מיושר: משיטות פשוטות לתוצאות מרחיקות לכת

אסטרטגיות אימון: מה עובד הכי טוב ליישור AI?

לקראת יעילות ודיוק: שלב קדם-אימון למודלי העדפות

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות