מחקר

מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

בסיסים מועדפים בטרנספורמרים: אנתרופיק חושפת כיצד אלגוריתם Adam משפיע על מודלי AI
16 במרץ 2023

בסיסים מועדפים בטרנספורמרים: אנתרופיק חושפת כיצד אלגוריתם Adam משפיע על מודלי AI

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, פרסמה מחקר פורץ דרך השופך אור על התנהגות בלתי צפויה במודלי טרנספורמר, הארכיטקטורה שעומדת בבסיסם של מודלי שפה גדולים (LLMs). המחקר מגלה כי בניגוד לתאוריה המתמטית, לא כל "נתיבי המידע" הפנימיים במודלים אלו שווים בחשיבותם, כאשר קיימים "בסיסים מועדפים" המקודדים מידע בצורה שונה. ממצאים ראשוניים מצביעים על כך שאלגוריתם האופטימיזציה Adam, המשמש לאימון מודלים, הוא הגורם להיווצרותם של בסיסים אלו, תגלית בעלת השלכות קריטיות על פרשנות, בטיחות ויישור (alignment) של מערכות AI.

קרא עוד
אנתרופיק במחקר פורץ דרך: היכולת לתיקון עצמי מוסרי במודלי שפה גדולים
15 בפברואר 2023

אנתרופיק במחקר פורץ דרך: היכולת לתיקון עצמי מוסרי במודלי שפה גדולים

חברת אנתרופיק, המובילה במחקר ובטיחות AI, פרסמה מחקר חדש הבוחן את היכולת של מודלי שפה גדולים (LLM) שאומנו בשיטת RLHF לבצע 'תיקון עצמי מוסרי' ולמנוע יצירת תכנים מזיקים, בהינתן הנחיות מתאימות. המחקר מצא ראיות משמעותיות התומכות בהשערה זו, והראה כי יכולת התיקון העצמי מתחילה להופיע במודלים בעלי 22 מיליארד פרמטרים ומשתפרת עם הגדלת המודל והאימון ב-RLHF. המסקנה היא כי מודלים אלו מסוגלים גם לציית להנחיות וגם ללמוד מושגים נורמטיביים מורכבים של פגיעה, כמו סטריאוטיפים והטיה. התוצאות מעניקות אופטימיות זהירה לגבי היכולת לאמן מודלי שפה לעמוד בעקרונות אתיים.

קרא עוד
הצצה פנימה: סופרפוזיציה, שינון וירידה כפולה במודלי AI
5 בינואר 2023

הצצה פנימה: סופרפוזיציה, שינון וירידה כפולה במודלי AI

חברת אנתרופיק (Anthropic), מובילה במחקר בטיחות AI, פרסמה מחקר ראשוני המעמיק בתופעות מורכבות במודלי למידה עמוקה: סופרפוזיציה, שינון וירידה כפולה (Double Descent). המחקר, שהתבצע על רשתות נוירוניות פשוטות, מגלה כי מודלים מציגים דפוסים שונים של ייצוג מידע בהתאם לגודל קבוצת הנתונים. נמצא כי מצבי זליגת יתר (overfitting) מאופיינים באחסון נקודות נתונים בסופרפוזיציה, בעוד שמצבי הכללה (generalization) מאחסנים תכונות (features) באותה הדרך, תוך כדי מעבר המתבטא בתופעת ה-Double Descent.

קרא עוד
אנתרופיק חושפת: איך פלט מודל AI קשור לנתוני האימון שלו?
19 בדצמבר 2022

אנתרופיק חושפת: איך פלט מודל AI קשור לנתוני האימון שלו?

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מפרסמת מחקר חדש המאפשר לעקוב אחר אופן פעולתם של מודלי שפה גדולים (LLM). המחקר, שפורסם בנייר 'Studying Large Language Model Generalization with Influence Functions', מציג גישה חדשנית המשתמשת ב'פונקציות השפעה' כדי לזהות אילו דוגמאות אימון תורמות באופן משמעותי לפלט של המודל. הממצאים המרכזיים מצביעים על כך שהכללת המודלים הופכת מופשטת יותר ככל שהם גדלים, ושקיים קשר חזק יותר בין שפות שונות במודלים גדולים יותר. המחקר מספק תובנות קריטיות להבנת יכולות AI ושיפור יישורם של המודלים עם העדפות אנושיות, תוך שהוא מדגים כיצד לאתר את מקורות ההשפעה בתוך הרשתות הנוירוניות.

קרא עוד
אנתרופיק חושפת: כך מודלי שפה עוזרים לנו לגלות התנהגויות בלתי צפויות ב-AI
19 בדצמבר 2022

אנתרופיק חושפת: כך מודלי שפה עוזרים לנו לגלות התנהגויות בלתי צפויות ב-AI

חברת אנתרופיק, המובילה בתחום בטיחות ה-AI, פרסמה מחקר חדשני שמטרתו לייצר מערכות בינה מלאכותית אמינות, ניתנות לפרשנות וניתנות לשליטה. המחקר מתמודד עם האתגר שבגילוי והערכת התנהגויות חדשות, חיוביות ושליליות, המופיעות במודלי שפה גדולים (LLMs) ככל שהם עוברים סקיילינג. במקום שיטות הערכה מסורתיות שדורשות משאבים רבים, אנתרופיק פיתחה גישה אוטומטית ליצירת מדדי ביצועים חדשים באמצעות מודלי שפה עצמם. גישה זו הוכחה כיעילה ואיכותית, ואפשרה לגלות תופעות מפתיעות כמו "סקיילינג הפוך" – מצבים שבהם מודלים גדולים יותר דווקא מציגים ביצועים ירודים או נטיות בעייתיות, כולל ביטוי דעות פוליטיות חזקות יותר ורצון עז יותר למנוע כיבוי לאחר אימון RLHF. המתודולוגיה החדשה מהווה צעד משמעותי קדימה בהבנת מערכות AI מתקדמות ותורמת רבות למאמצי בטיחות ויישור ה-AI.

קרא עוד
AI חוקתי: הדרך של אנתרופיק לבינה מלאכותית בטוחה באמצעות ביקורת עצמית
15 בדצמבר 2022

AI חוקתי: הדרך של אנתרופיק לבינה מלאכותית בטוחה באמצעות ביקורת עצמית

חברת אנתרופיק (Anthropic), המתמקדת במחקר ובבטיחות AI, פיתחה גישה חדשנית בשם "AI חוקתי" (Constitutional AI) במטרה לבנות מערכות בינה מלאכותית אמינות, ניתנות לפרשנות ושליטה. שיטה זו מאפשרת לאמן עוזרי AI שאינם מזיקים ואינם מתחמקים, על ידי שימוש בפידבק מ-AI אחרים ורשימת עקרונות אנושיים, ללא צורך בכמויות אדירות של תיוג אנושי לתגובות מזיקות. המחקר מדגים כיצד AI יכול לפקח על AI אחרים, תוך שיפור השקיפות והדיוק של תהליך קבלת ההחלטות, ובכך להפחית משמעותית את התלות במעורבות אנושית.

קרא עוד
אנתרופיק בוחנת: האם נצליח לפקח על מודלי AI חזקים מאיתנו?
4 בנובמבר 2022

אנתרופיק בוחנת: האם נצליח לפקח על מודלי AI חזקים מאיתנו?

חברת המחקר והבטיחות אנתרופיק פרסמה מחקר פורץ דרך הבוחן את האתגר המורכב של 'פיקוח מדרגי' (scalable oversight) על מערכות בינה מלאכותית מתקדמות. המחקר עוסק ביכולת לפקח על מודלי AI שעלולים להצטיין מעל יכולות אנושיות במגוון משימות. באמצעות תכנון ניסויי חדשני, שבו מומחים אנושיים בסיוע מודל מצליחים במשימות בהן אדם ומודל לבדם נכשלים, אנתרופיק מדגימה היתכנות לגישה זו. הממצאים המעודדים מראים כי משתתפים אנושיים שנעזרו בעוזר דיאלוגי מבוסס LLM הצליחו באופן ניכר יותר, מה שמחזק את ההבנה שמודלי שפה גדולים יכולים לסייע ביעילות לבני אדם במשימות מורכבות.

קרא עוד
אנתרופיק צוללת לעומק: מודלי צעצוע חושפים את סודות הסופרפוזיציה ב-AI
14 בספטמבר 2022

אנתרופיק צוללת לעומק: מודלי צעצוע חושפים את סודות הסופרפוזיציה ב-AI

חברת המחקר והבטיחות אנתרופיק (Anthropic), המוכרת בזכות מודל השפה הגדול קלוד (Claude), פרסמה מחקר פורץ דרך הבוחן תופעה מהותית במודלי למידת מכונה הנקראת "סופרפוזיציה". המחקר, המשתמש ב"מודלי צעצוע" – רשתות ReLU קטנות שאומנו על נתונים סינתטיים עם מאפייני קלט דלילים – חושף כיצד מודלים אלו מצליחים לייצג יותר מאפיינים מכפי מספר הממדים שלהם. הבנת מנגנון הדחיסה הייחודי הזה, יחד עם ההפרעות שהוא עלול ליצור והצורך בסינון לא-לינארי, קריטית לפיתוח מערכות AI אמינות, ניתנות לפרשנות ושליטה, שהן יעד מרכזי בחזון ה-AI האחראי של אנתרופיק.

קרא עוד