מחקר
מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

אנתרופיק חושפת: כך מודלי שפה גדולים מכלילים ידע – הצצה אל מאחורי הקלעים
אנתרופיק (Anthropic), חברת מחקר ו-AI safety מובילה, מפרסמת מחקר חדש שמציע כלי פורץ דרך להבנת דפוסי ההכללה של מודלי שפה גדולים (LLMs). באמצעות הרחבת השימוש ב"פונקציות השפעה" (influence functions) בעזרת קירוב חדשני בשם EK-FAC, הצליחו החוקרים להאיץ משמעותית את ניתוח השפעתם של נתוני אימון על התנהגות המודל. המחקר חשף תובנות מפתיעות לגבי יכולות הכללה במגוון תחומים – מחשיבה מופשטת ועד קידוד – ואף זיהה מגבלה משמעותית בהבנת שינויים בסדר ביטויים. ממצאים אלו משפרים את הבנתנו על אופן פעולתם של LLMs ותורמים לפיתוח AI בטוח ואמין יותר.

אנתרופיק חושפת: האם שרשרת החשיבה של מודלי שפה באמת כנה?
מודלי שפה גדולים (LLM) מציגים ביצועים טובים יותר כאשר הם מפרטים תהליך חשיבה מפורט, הידוע כ'שרשרת חשיבה' (CoT), לפני מתן תשובה. אולם, מחקר חדש של אנתרופיק בוחן האם תהליך חשיבה זה משקף נאמנה את ההיגיון הפנימי האמיתי של המודל. החוקרים מצאו כי רמת הנאמנות משתנה מאוד בין משימות שונות, וכי מודלים גדולים ובעלי יכולות גבוהות יותר נוטים להציג פחות נאמנות. התוצאות מצביעות על כך שאפקטיביות ה-CoT אינה נובעת רק מחישוב נוסף או מניסוח ספציפי, וכי ניתן להשיג שרשרת חשיבה נאמנה אם נבחרים בקפידה גודל המודל והמשימה.

מחקר חדש מראה: כך פירוק שאלות משפר את נאמנות ההסקה במודלי שפה
מודלי שפה גדולים (LLM) מתמודדים עם משימות מורכבות יותר, מה שמקשה על אימות נכונותם ובטיחותם. שיטה נפוצה לסייע בכך היא לאפשר למודלים להציג את תהליכי החשיבה שלהם צעד אחר צעד (Chain-of-Thought - CoT). עם זאת, ההסקה המוצהרת לא תמיד משקפת נאמנה את ההסקה האמיתית של המודל. מחקר חדש של אנתרופיק (Anthropic) מציע גישה משופרת: פירוק שאלות מורכבות לשאלות משנה פשוטות יותר. גישה זו, שבה המודל נאלץ לענות על תת-שאלות בהקשרים נפרדים, מגבירה באופן משמעותי את נאמנות ההסקה לעומת CoT, תוך שמירה על ביצועים גבוהים. הממצאים מצביעים על כך שניתן לשפר את אמינות תהליכי החשיבה של מודלים, מה שחיוני לבטיחות ודיוק מערכות ה-AI.

מודלי שפה והטיה גלובלית: מחקר חדש של אנתרופיק בודק ייצוג דעות בעולם
מודלי שפה גדולים (LLM) הפכו לכלי מרכזי בחיינו, אך האם הם מייצגים באופן הוגן את מגוון הדעות הסובייקטיביות מכל קצוות הגלובוס? מחקר חדש של חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, בוחן את הסוגיה ומציג מסגרת כמותית חדשנית למדידת מידת הדמיון בין תגובות מודלים לתפיסות אנושיות. הממצאים מדאיגים: כברירת מחדל, תגובות LLM נוטות לייצג טוב יותר דעות מארה"ב ומאירופה, ואף עלולות לשקף סטריאוטיפים תרבותיים מזיקים גם כשמבקשים מהן פרספקטיבה ספציפית. המחקר מדגיש את הצורך בפיתוח AI אחראי ושקוף, ומשחרר את מערך הנתונים (GlobalOpinionQA) לשימוש הקהילה המדעית.

אנתרופיק חושפת: הצצה מתקדמת למחקר פרשנות מודלי ה-AI
אנתרופיק, חברת מחקר ובטיחות מובילה בתחום ה-AI, מתמקדת בפיתוח מערכות בינה מלאכותית אמינות, ניתנות לפרשנות וניתנות לשליטה. במסגרת "עדכוני Circuits", החברה חולקת רעיונות מתפתחים מצוות הפרשנות שלה. הדיווח כולל הן קווי מחקר מתפתחים שצפויים להתפרסם בהרחבה בהמשך, והן נקודות פחות מהותיות שראוי לחשוף. מטרת השיתוף היא להרחיב את השיח בקהילת המחקר ולספק תובנות מתמשכות לעוסקים בתחום.

חלומות של פרשנות: אנתרופיק חושפת את דרכה להבין את מודלי ה-AI
אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מציגה את חזונה השאפתני בתחום הפרשנות המכנית של מודלי בינה מלאכותית. החברה, המוכרת בזכות מודל השפה הגדול Claude שלה, שואפת להבין לעומק כיצד רשתות נוירוניות פועלות ומהן הסיבות האמיתיות שמאחורי החלטותיהן. המחקר הנוכחי מתמקד בפתרון אתגר ה"סופרפוזיציה" במודלים, מתוך מטרה להניח תשתית שתאפשר לנתח ולהרחיב את יכולות הפרשנות. בכך, אנתרופיק מקווה לבנות מערכות AI אמינות ובטוחות יותר, שקופות וניתנות לשליטה.

AI חוקתי קולקטיבי: אנתרופיק מאמנת את קלוד על פי חוקה שנכתבה בידי הציבור
חברת אנתרופיק (Anthropic), המובילה בתחום בטיחות ויישור AI, פרסמה מחקר חדשני על גישת 'AI חוקתי קולקטיבי'. במקום לאמץ את החוקה הפנימית שלה, אנתרופיק הזמינה כאלף אזרחים אמריקאים לנסח במשותף מערכת עקרונות עבור מודל השפה קלוד (Claude). מטרת המחקר הייתה לבדוק כיצד תהליכים דמוקרטיים יכולים להשפיע על פיתוח AI ועל יישור המודלים לערכים ציבוריים רחבים יותר. הממצאים חשפו נקודות הסכמה ושוני משמעותיות בין העדפות הציבור לחוקה המקורית, והובילו לאימון מודל חדש המבוסס על העקרונות שנוסחו באופן קולקטיבי.

אנתרופיק חוקרת את נבכי ה-AI: קומפוזיציה וסופרפוזיציה בייצוגים מבוזרים
חברת אנתרופיק (Anthropic), המובילה במחקר ובטיחות AI, פרסמה מאמר חדש המעמיק בייצוגים מבוזרים – רעיון קלאסי במדעי המוח ובלמידת מכונה. המחקר מציע חלוקה חדשנית של מושג ה"ייצוגים המבוזרים" לשני רעיונות נפרדים: קומפוזיציה וסופרפוזיציה. הבנת הדינמיקה בין רכיבים אלה קריטית לפיתוח מערכות AI אמינות, ניתנות לפרשנות ושליטה, ומסייעת להתגבר על מורכבותן של רשתות נוירוניות ומודלי שפה גדולים (LLMs).