מחקר

מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

Red Teaming: אנתרופיק חושפת שיטות לבחינת בטיחות וצמצום נזקים במודלי שפה
22 באוגוסט 2022

Red Teaming: אנתרופיק חושפת שיטות לבחינת בטיחות וצמצום נזקים במודלי שפה

חברת אנתרופיק, המובילה במחקר ופיתוח AI אחראי, פרסמה לאחרונה מחקר מעמיק אודות מאמציה לבצע Red Teaming למודלי שפה גדולים (LLM) במטרה לזהות, למדוד ולהפחית פלטים מזיקים פוטנציאליים. המחקר בחן את התנהגויות הסקיילינג של Red Teaming על פני מודלים בגדלים שונים ובארבעה סוגי מודלים, ומצא שמודלים שאומנו ב-RLHF הופכים קשים יותר ל-Red Team ככל שהם גדלים. אנתרופיק אף שחררה מערך נתונים של אלפי מתקפות Red Team, המציגות מגוון רחב של פלטים מזיקים, משפה פוגענית ועד להתנהגויות לא אתיות עדינות יותר. שקיפות זו נועדה להאיץ את שיתוף הפעולה הקהילתי בפיתוח נורמות וסטנדרטים טכניים לבטיחות AI.

קרא עוד
מודלי שפה יודעים (ברובם) מה הם יודעים: המחקר החשוב של אנתרופיק
11 ביולי 2022

מודלי שפה יודעים (ברובם) מה הם יודעים: המחקר החשוב של אנתרופיק

חברת המחקר והבטיחות בתחום ה-AI, אנתרופיק (Anthropic), מפרסמת מחקר חלוצי הבוחן את יכולתם של מודלי שפה גדולים (LLM) להעריך את אמיתות הטענות שלהם עצמם ולחזות באילו שאלות יוכלו לענות נכונה. המחקר מראה כי מודלים גדולים ומכוילים היטב יכולים להעריך את הסבירות שאמירה כלשהי נכונה (P(True)), ואף לחזות מראש אם הם 'יודעים' את התשובה לשאלה (P(IK)). ממצאים אלו, המצביעים על שיפור בביצועים ובכיול ככל שהמודלים גדלים ומקבלים יותר הקשר, מהווים אבן דרך בפיתוח מודלי AI 'כנים' ואמינים יותר.

קרא עוד
אנתרופיק מציגה: SoLU – הדרך החדשה להבנת מודלי AI
17 ביוני 2022

אנתרופיק מציגה: SoLU – הדרך החדשה להבנת מודלי AI

אנתרופיק, חברת מחקר ובטיחות בתחום ה-AI, פרסמה לאחרונה מחקר המציג שינוי ארכיטקטוני משמעותי במודלים שלה. באמצעות הטמעת יחידות ליניאריות מסוג Softmax, המכונות SoLU, החברה הצליחה להגדיל באופן ניכר את יכולת הניתוח הפנימי (interpretability) של רשתות נוירוניות, כמעט ללא פגיעה בביצועים. הממצאים מצביעים על הבנה טובה יותר של פעולת ה"מוח" של מודלי ה-AI, למרות חשש שהפתרון עשוי להסתיר תכונות אחרות. זהו צעד קדימה משמעותי במאמץ לייצר מערכות AI אמינות ושקופות יותר.

קרא עוד
מחקר חדש חושף: כך נתוני אימון חוזרים פוגעים קשות במודלי שפה גדולים
21 במאי 2022

מחקר חדש חושף: כך נתוני אימון חוזרים פוגעים קשות במודלי שפה גדולים

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI ומחקר בינה מלאכותית, מפרסמת מחקר חלוצי הבוחן את ההשפעה המפתיעה של נתונים חוזרים במהלך אימון מודלי שפה גדולים (LLM). המחקר מגלה תופעת 'ירידה כפולה' שבה חשיפה חוזרת, אפילו לאחוז קטן של נתונים, עלולה להוביל לירידה דרמטית בביצועי המודל. הממצאים מצביעים על כך ששינון יתר של נתונים צורך נתח ניכר מיכולות המודל, פוגע ביכולת ההכללה שלו ומוריד את ביצועיו לרמה של מודל קטן בהרבה. דוח זה מדגיש את החשיבות הקריטית של אסטרטגיות ניהול נתונים מתקדמות לאימון מודלי AI.

קרא עוד
לגרום ל-AI להיות טוב: אנתרופיק חושפת את סודות האימון לבינה מלאכותית בטוחה ומועילה
12 באפריל 2022

לגרום ל-AI להיות טוב: אנתרופיק חושפת את סודות האימון לבינה מלאכותית בטוחה ומועילה

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, פרסמה מחקר המפרט את גישתה לאימון מודלי שפה גדולים (LLM) כדי שיפעלו כסוכנים מועילים ולא מזיקים. המחקר מציג את השימוש ב-RLHF (Reinforcement Learning from Human Feedback) ובמודלי העדפות לכוונון עדין של מודלים, ומראה כי אימון יישור זה לא רק משפר את הביצועים במגוון משימות NLP, אלא גם תואם באופן מלא לאימון עבור יכולות מיוחדות כמו קידוד Python. בנוסף, המחקר מפרט מודל אימון איטרטיבי מקוון, המעדכן את המודלים על בסיס שבועי עם פידבק אנושי טרי, ובוחן את חוסנו של אימון ה-RLHF, מה שמהווה צעד חשוב בפיתוח בינה מלאכותית אמינה, מפורשת וניתנת לשליטה.

קרא עוד
אנתרופיק חושפת: ראשי אינדוקציה וסודות הלמידה בהקשר במודלי שפה
8 במרץ 2022

אנתרופיק חושפת: ראשי אינדוקציה וסודות הלמידה בהקשר במודלי שפה

אנתרופיק, חברת מחקר ובטיחות AI מובילה, מציגה תובנות חדשות על מנגנוני הליבה שמאפשרים למודלי שפה גדולים (LLMs) ללמוד מתוך הקשר (In-context Learning). המחקר שלהם מתמקד ב"ראשי אינדוקציה" (Induction Heads), רכיבי מפתח ברשתות הטרנספורמר, שמסייעים להבין כיצד המודלים רוכשים ידע ומתאימים את עצמם במהירות. הבנה מעמיקה של תהליכים אלו קריטית לפיתוח מערכות AI אמינות, ניתנות לפרשנות וניתנות לשליטה, כחלק מהמחויבות של אנתרופיק ל-AI אחראי.

קרא עוד
חיזוי והפתעה במודלי בינה מלאכותית גנרטיביים: האתגר של אנתרופיק
15 בפברואר 2022

חיזוי והפתעה במודלי בינה מלאכותית גנרטיביים: האתגר של אנתרופיק

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ומחקר בינה מלאכותית, מפרסמת נייר עמדה חשוב הדן במאפיין פרדוקסלי של מודלים גנרטיביים גדולים: מצד אחד, קיימת יכולת חיזוי גבוהה לגבי ביצועיהם הכלליים באימון (חוקי סקיילינג); מצד שני, היכולות הספציפיות והתוצרים שלהם בלתי צפויים לעיתים קרובות. נייר העמדה מזהיר כי שילוב זה מאיץ את פיתוח המודלים אך מקשה על חיזוי ההשלכות בעת פריסתם, ועלול להוביל להתנהגות מזיקה חברתית. החברה מציעה דרכים להתמודד עם אתגרים אלו במטרה להבטיח השפעה חיובית של ה-AI.

קרא עוד
לפענח את מוחו של ה-AI: אנתרופיק מציגה מסגרת מתמטית להבנת טרנספורמרים
22 בדצמבר 2021

לפענח את מוחו של ה-AI: אנתרופיק מציגה מסגרת מתמטית להבנת טרנספורמרים

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות וחקירת AI, חושפת מחקר חדש המציג מסגרת מתמטית פורצת דרך להבנת המבנה הפנימי של מודלי טרנספורמר. מחקר זה נועד לפענח את 'הקופסה השחורה' של מודלי שפה גדולים, ולאפשר פרשנות עמוקה יותר של אופן פעולתם. באמצעות הבנת 'המעגלים' החישוביים הייחודיים בתוך המודלים, אנתרופיק שואפת לבנות מערכות AI אמינות, ניתנות ליישור ובטוחות יותר, תוך קידום היכולת לאתר ולתקן התנהגויות לא רצויות. מדובר בצעד קריטי לקראת פיתוח AI אחראי ואמין לטווח הארוך.

קרא עוד