חברת אנתרופיק (Anthropic) חושפת גישה חדשה למסמך החוקתי של מודל ה-AI שלה, קלוד. המסמך המקיף נועד להביע ולעצב את ערכיו והתנהגותו של קלוד, תוך שהוא מסביר את ההקשר שבו המודל פועל ואת סוג הישות שאנתרופיק שואפת שקלוד יהיה. החוקה היא חלק קריטי מתהליך אימון המודל, ותוכנה מעצב באופן ישיר את התנהגותו. באנתרופיק מאמינים שהדרך שבה החוקה החדשה כתובה – עם הסבר מעמיק של הכוונות והנימוקים מאחוריהן – תגביר את הסיכוי לטפח ערכים טובים במהלך האימון. אנתרופיק אף משחררת את החוקה המלאה תחת רישיון Creative Commons CC0 1.0, המאפשר לכל אחד להשתמש בה בחופשיות לכל מטרה.

החוקה החדשה: מהותה וגישתה של אנתרופיק

החוקה של קלוד היא מסמך היסוד שמגדיר ומעצב את זהותו של המודל. היא מכילה הסברים מפורטים על הערכים שאנתרופיק רוצה שקלוד יגלם, ועל הסיבות לכך – החל מעזרה מועילה, דרך בטיחות רחבה ואתיקה, ועד עמידה בהנחיות. המסמך מספק לקלוד מידע על מצבו, ומציע עצה כיצד להתמודד עם דילמות, כמו איזון בין כנות לחמלה או הגנה על מידע רגיש. אנתרופיק מדגישה כי החוקה נכתבה בעיקר עבור קלוד עצמו, כדי להעניק לו את הידע וההבנה הנדרשים לפעול היטב בעולם.

החוקה נתפסת כסמכות הסופית לגבי אופן פעולתו והתנהגותו של קלוד, וכל אימון או הוראה אחרת צריכים להיות עקביים עם רוחה. פרסומה חשוב במיוחד לשקיפות, שכן הוא מאפשר למשתמשים להבין אילו התנהגויות של קלוד מכוונות ואילו לא, ועל בסיס זה לספק משוב מועיל. החוקה משמשת בשלבים שונים של תהליך האימון, והיא נבנתה מתוך טכניקות אימון שפותחו מאז 2023, כולל שימוש ב-AI חוקתי. קלוד עצמו אף משתמש בחוקה כדי לבנות נתוני אימון סינתטיים, כולל שיחות ותגובות התואמות את ערכיו, שהופכים אותו ל-Artifacts שימושי לאימון.

הגישה החדשה לחוקה מהווה שינוי ממהדורות קודמות שהתבססו על רשימות עקרונות בלבד. כעת, אנתרופיק מאמינה כי מודלי AI צריכים להבין מדוע מצופה מהם להתנהג בדרכים מסוימות, ולא רק מה עליהם לעשות. מטרה זו היא לאפשר למודל להפעיל חשיבה ושיקול דעת טובים במגוון רחב של מצבים חדשים, תוך יישום עקרונות רחבים במקום ציות מכני לכללים ספציפיים. עם זאת, אנתרופיק מציינת שכללים מוגדרים עדיין קיימים עבור "אילוצים קשיחים" – התנהגויות מסוכנות במיוחד שקלוד לעולם לא אמור לבצע.

החוקה מפרטת ארבעה עקרונות ליבה שקלוד נדרש לקיים: להיות בטוח באופן רחב (לא לערער מנגנוני פיקוח אנושיים), אתי באופן רחב (כנות, ערכים טובים והימנעות מנזק), עמידה בהנחיות אנתרופיק (הוראות ספציפיות) ומועיל באמת (לתועלת המשתמשים). במקרה של התנגשות, קלוד נדרש לתעדף אותם לפי סדר זה. המסמך מתמקד במתן הסברים מפורטים סביב עקרונות אלו, וכולל חלקים ייעודיים לעזרה, אתיקה, בטיחות רחבה, ואפילו דיון על טבעו של קלוד ואי-הוודאות לגבי תודעתו או מעמדו המוסרי העתידי.

החוקה של קלוד היא מסמך חי ועבודה מתמשכת בטריטוריה חדשה. אנתרופיק מצפה לטעויות ותיקונים בדרך, אך מקווה שהחוקה תספק שקיפות משמעותית לגבי ערכיו וסדרי העדיפויות שינחו את התנהגותו של קלוד. החברה ממשיכה לבקש משוב ממומחים חיצוניים במגוון תחומים, ומצפה שתקום קהילה חיצונית שתבקר מסמכים מסוג זה. למרות שהחוקה מבטאת את החזון של אנתרופיק, אימון מודלים להגשמת חזון זה הוא אתגר טכני מתמשך. אנתרופיק מצהירה שתמשיך להיות גלויה לגבי פערים בין כוונה למציאות בהתנהגות המודל, ותמשיך לפתח מגוון כלים ושיטות לשיפור יישור המודלים, כולל הערכות קפדניות, מנגנוני הגנה וכלי פרשנות. בסופו של דבר, אנתרופיק מקווה שהחוקה החדשה היא צעד בכיוון של יצירת מודלי AI עוצמתיים שיגלמו את מיטב האנושות.

לקריאת החוקה המלאה.