
13 ביוני 2024
לפצח את הקופסה השחורה: אתגרי ההנדסה בהרחבת יכולות הניתוח הפנימי של מודלי AI
אנתרופיק (Anthropic) היא חברת מחקר ובטיחות AI הפועלת לפיתוח מערכות בינה מלאכותית אמינות, ניתנות לפרשנות (Interpretability) ושליטה. החברה מתמקדת בהבנת המנגנונים הפנימיים של מודלי AI גדולים, מתוך אמונה שהיכולת לפענח את ה"קופסה השחורה" חיונית לבטיחותן ולאמינותן. המחקר העדכני שלהם, שהרחיב את טכניקת למידת מילונים למודלים גדולים בהרבה, חשף מיליוני "תכונות" סמנטיות ב-Claude 3 Sonnet. אך לדברי החברה, התקדמות בתחום תלויה יותר מתמיד ביכולות הנדסיות, והמאמר הזה מדגיש את האתגרים הטכניים הרבים הכרוכים בכך וקורא למהנדסים להצטרף למשימה.
קרא עוד