ככל שמערכות בינה מלאכותית (AI) הופכות ליכולתיות יותר, כך גדל הצורך להבטיח שהן פועלות באופן בטוח, אחראי ומיושר לערכים אנושיים. אחד האתגרים הגדולים בתחום הוא אימון מודלים שלא יפיקו תכנים מזיקים או מוטים, תוך שמירה על יכולתם לענות על מגוון רחב של פרומפטים. חברת אנתרופיק (Anthropic), מובילה במחקר בטיחות AI, מציגה גישה פורצת דרך שמטרתה לפתור אתגר זה: AI חוקתי.
AI חוקתי: העוזר של ה-AI ביישור המודלים
הגישה של אנתרופיק מציעה רעיון מהפכני: לגייס את עזרתן של מערכות AI עצמן כדי לפקח על ביצועים של AI אחרות. בניגוד לשיטות מסורתיות המסתמכות על תיוג אנושי נרחב של תגובות מזיקות, מודל ה-AI החוקתי מאומן באמצעות מנגנוני שיפור עצמי. הפיקוח האנושי היחיד מתבצע דרך רשימת כללים או עקרונות מוגדרים מראש – מעין "חוקה" – שמנחה את תהליך הלמידה.
המהות של AI חוקתי היא לאמן עוזר AI שאינו מזיק ואינו מתחמק, כזה שיכול להתמודד עם שאילתות בעייתיות על ידי הסבר התנגדויותיו, במקום להתחמק ממענה.
התהליך מורכב משני שלבי אימון מרכזיים. השלב הראשון הוא שלב למידה מונחית (Supervised Learning). בשלב זה, מודל ראשוני מייצר דוגמאות של תגובות, לאחר מכן מודל אחר (או אותו מודל ב"מצב ביקורת") יוצר ביקורות עצמיות ותיקונים לתגובות אלו. המודל המקורי עובר כוונון עדין (fine-tuning) על סמך התגובות המתוקנות הללו.
השלב השני הוא שלב למידת חיזוק (Reinforcement Learning). כאן, המודל שעבר כוונון עדין מייצר שתי תגובות חלופיות לפרומפט נתון. מודל נוסף משמש להערכה איזו מבין שתי התגובות טובה יותר, ובכך נוצר מאגר נתונים של העדפות AI. אנתרופיק מכנה שיטה זו 'למידת חיזוק מפידבק של AI' (RL from AI Feedback - RLAIF), והיא משמשת לאימון המודל הסופי באמצעות מודל ההעדפות כאות תגמול.
שקיפות ושליטה: פחות התערבות אנושית, יותר ביצועים
אחד היתרונות הבולטים של שיטות אלו הוא היכולת לרתום חשיבת 'שרשרת מחשבה' (chain-of-thought reasoning) לשיפור הביצועים והשקיפות של תהליכי קבלת ההחלטות של ה-AI. על ידי פירוט הנימוקים והשלבים שהובילו לתגובה מסוימת, ניתן להבין טוב יותר מדוע ה-AI הגיע למסקנה כזו או אחרת, מה שמשפר את יכולת הפרשנות והניתוח הפנימי שלו.
הגישה של AI חוקתי מאפשרת לאנתרופיק לשלוט בהתנהגות של מערכות AI בצורה מדויקת הרבה יותר, וזאת תוך שימוש בפחות משאבי תיוג אנושיים. זהו צעד משמעותי לקראת פיתוח AI אחראי שיוכל להשתלב במגוון רחב של יישומים בביטחון ובאמינות.
אנתרופיק ממשיכה לחקור ולפרסם ממצאים נוספים בתחום בטיחות ה-AI, בניסיון מתמיד להבטיח את פיתוחה של בינה מלאכותית מועילה ובטוחה עבור כולם.



