
אנתרופיק משחררת כלים בקוד פתוח לפענוח מעגלי חשיבה במודלי שפה
אנתרופיק, חברת מחקר ופיתוח בתחום ה-AI המתמקדת בבטיחות ובינה מלאכותית אחראית, שחררה כלים חדשים בקוד פתוח המאפשרים לנתח את "מעגלי החשיבה" הפנימיים בתוך מודלי שפה גדולים (LLM). הכלים הללו, שפותחו במסגרת מחקר הפרשנות של החברה, מאפשרים ליצור "גרפי ייחוס" (attribution graphs) שמפרטים את השלבים שהמודל עבר בדרכו לפלט מסוים. מהלך זה נועד להנגיש לקהילה הרחבה את היכולת לנתח, להבין ולשפר את פעולתם הפנימית של מודלי שפה, ובכך לקדם את בטיחותם ואמינותם.
קרא עוד









