
לפרק את הקופסה השחורה: אנתרופיק מציגה כלי חדש להבנת מודלי AI
אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, הציגה לאחרונה עבודה מתפתחת מצוות הפרשנות שלה, המציגה גישה חדשנית לשימוש במאפייני למידת מילון (dictionary learning features) כמסווגים. המחקר, שנועד לקדם את היכולת לבנות מערכות AI אמינות, ניתנות לפרשנות ושליטה, מהווה צעד חשוב בהבנת המנגנונים הפנימיים של מודלים מורכבים. זוהי התפתחות קריטית במאמץ לפענח את ה'קופסה השחורה' של הבינה המלאכותית, ולאפשר למפתחים ולחוקרים להבין טוב יותר כיצד מודלי שפה גדולים (LLMs) מגיעים למסקנותיהם, ובכך לתרום לבניית AI אחראי ובטוח יותר.
קרא עוד



