החוקה של Claude: בסיס ל-AI בטוח יותר
חברת אנתרופיק (Anthropic), הנחשבת לחלוצה בתחום בטיחות ה-AI ומחקר, פיתחה גישה חדשנית בשם AI חוקתי (Constitutional AI). מטרת הגישה היא ליצור מערכות בינה מלאכותית אמינות, ניתנות לפרשנות, ובעיקר – ניתנות לשליטה. גישה זו, שהוטמעה במודל השפה הגדול שלהם, Claude, נועדה לתת מענה לשאלות מהותיות כמו כיצד מודל מחליט באילו נושאים לעסוק, אילו פעולות לעודד ואילו לפסול, ומהם ה"ערכים" שמנחים אותו.
בניגוד לשיטות קודמות שהסתמכו על משוב אנושי בהיקף נרחב (RLHF) כדי לקבוע ערכים באופן עקיף, AI חוקתי מעניק למודלים מערכת ערכים מפורשת ומוגדרת מראש על ידי "חוקה". גישת RLHF סובלת ממגבלות כמו חוסר יעילות בסקיילינג, דרישה מבני אדם להיחשף לתכנים מטרידים, וצריכת משאבים עצומה. AI חוקתי פותר זאת על ידי שימוש ב-AI עצמו כדי להעריך, לבקר ולשפר את תגובותיו שלו, תוך התבססות על אותה מערכת עקרונות. המודל עובר אימון בשני שלבים: ראשית, לביקורת ושינוי תגובותיו, ושנית, ללמידת חיזוק המשתמשת במשוב שנוצר על ידי AI לבחירת התגובה הפחות מזיקה. התוצאה היא מודל המסוגל להתמודד טוב יותר עם פרומפטים עוינים תוך שמירה על שימושיות והפחתת רעילות באופן דרמטי.
מקורות החוקה והחזון לעתיד
החוקה המעודכנת של Claude שואבת את עקרונותיה ממגוון רחב של מקורות. היא כוללת עקרונות המבוססים על ההכרזה לכל באי עולם בדבר זכויות האדם של האו"ם, הנחיות פלטפורמה עולמיות (כמו תנאי השירות של Apple), עקרונות בטיחות שהוצעו על ידי מעבדות AI אחרות (כגון עקרונות Sparrow של DeepMind), וכן ניסיון מודע לכלול פרספקטיבות לא-מערביות. העקרונות מנחים את המודל לחתור לתגובות אתיות, מועילות ולא מזיקות, תוך הימנעות מסטריאוטיפים, מתן ייעוץ מקצועי בתחומים רגישים או יצירת קשר אישי עם המשתמש.
אנתרופיק מדגישה כי החוקה הנוכחית אינה סופית והיא צפויה להתפתח ולהשתפר עם הזמן. אחד היעדים המרכזיים של החברה הוא לדמוקרטיזציה של תהליך יצירת החוקות עבור מודלי AI בעתיד, ואף לשקול הצעת חוקות הניתנות להתאמה אישית לשימושים ספציפיים. בכך, אנתרופיק מקווה להפוך את מערכות הערכים של מודלי AI למפורשות וקלות לשינוי, ובכך לתרום לבניית מודלים מועילים ובטוחים יותר עבור הקהילה כולה.



