מחקר

מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

1 בדצמבר 2021

מעבדת יישור: כך Anthropic בונה סוכני שפה בטוחים ואחראיים

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מציגה תובנות חדשות ממחקר שנועד להפוך מודלי שפה גדולים (LLM) לעוזרים כלליים שמתיישרים עם ערכים אנושיים – כלומר, מועילים, כנים ולא מזיקים. המחקר בוחן שיטות יישור פשוטות כמו פרומפטים, ומגלה כי התערבויות קטנות משפרות את הביצועים ומתרחבות עם גודל המודל, מבלי לפגוע ביכולותיו. בנוסף, נבחנות אסטרטגיות אימון שונות, כאשר אימון מבוסס דירוג העדפות מתגלה כיעיל ביותר בסקיילינג ובהשגת יישור מיטבי. לבסוף, מציגה אנתרופיק שיטת קדם-אימון חדשנית שמטרתה לשפר את יעילות הלמידה מהעדפות אנושיות.

קרא עוד