מחקר

מחקרים ופרסומים מצוות המחקר של אנתרופיק - סקירות מעמיקות, ניתוחים טכניים ותובנות מעולם הבינה המלאכותית

19 בנובמבר 2024

מעבר למזל: אנתרופיק מציגה גישה סטטיסטית חדשנית להערכת מודלי AI

הערכה מדויקה של מודלי בינה מלאכותית (AI) היא קריטית, אך מחקרים רבים מתעלמים מהשפעת האקראיות וה"מזל" בתוצאות. מאמר מחקר חדש של אנתרופיק (Anthropic) מציג גישה סטטיסטית קפדנית שמטרתה להפוך את הערכות המודלים לאמינות ומדויקות יותר. המחקר מפרט חמש המלצות מרכזיות, הכוללות שימוש במשפט הגבול המרכזי, טיפול ב-standard errors מקובצים, הפחתת שונות בתוך שאלות, ניתוח הבדלים מזווגים ושימוש בניתוח עוצמה סטטיסטית. באמצעות עקרונות אלו, אנתרופיק שואפת לספק כלים לחוקרים כדי לזהות את היכולות האמיתיות של המודלים, מעבר לרעש הסטטיסטי, ולקדם מדע הערכה מוצק.

קרא עוד

25 באוקטובר 2024

אנתרופיק חושפת: האם ניתן 'לנווט' את הטיות מודלי ה-AI מבפנים?

מחקר חדש מבית אנתרופיק (Anthropic) בוחן את טכניקת 'ניווט תכונות' (feature steering), שיטה המאפשרת להתערב במרכיבים פנימיים וניתנים לפרשנות של מודלי שפה גדולים (LLM) דוגמת Claude 3 Sonnet. המטרה היא לבדוק כיצד ניתן למתן הטיות חברתיות מבלי לפגוע ביכולות הכלליות של המודל. הממצאים הראו קיום 'נקודה אופטימלית' (sweet spot) לניווט, ואף זיהוי של 'תכונת ניטרליות' שמפחיתה הטיות רבות. יחד עם זאת, המחקר חשף גם אתגרים כמו 'השפעות בלתי צפויות' (off-target effects) והצביע על מורכבות ההשפעה של תכונות על פלטי המודל, מה שמדגיש את הצורך בהערכה זהירה לפני הטמעת השיטה בפועל.

קרא עוד

18 באוקטובר 2024

הערכות חבלה: כך בוחנים מודלי AI חזיתיים על יכולתם להטעות ולתמרן

צוות ה-Alignment Science של אנתרופיק פרסם מחקר חדש שמציג גישה חדשנית להערכת בטיחותם של מודלי AI. המחקר מתמקד ביכולתם של מודלי חזית עתידיים לבצע 'חבלה' – פעולות מוסוות שמטרתן להטעות משתמשים או לתמרן מערכות פיקוח. הגישה כוללת ארבעה סוגי הערכות שונים, הבוחנות כיצד מודל יכול להשפיע על החלטות אנושיות, להחדיר באגים לקוד, להסתיר יכולות מסוכנות (Sandbagging) או לערער מערכות פיקוח. מטרת המחקר היא לזהות יכולות מסוכנות כאלה מבעוד מועד, כדי לאפשר למפתחים לפתח מנגנוני הגנה יעילים לפני פריסה רחבה.

קרא עוד

16 באוקטובר 2024

לפרק את הקופסה השחורה: אנתרופיק מציגה כלי חדש להבנת מודלי AI

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, הציגה לאחרונה עבודה מתפתחת מצוות הפרשנות שלה, המציגה גישה חדשנית לשימוש במאפייני למידת מילון (dictionary learning features) כמסווגים. המחקר, שנועד לקדם את היכולת לבנות מערכות AI אמינות, ניתנות לפרשנות ושליטה, מהווה צעד חשוב בהבנת המנגנונים הפנימיים של מודלים מורכבים. זוהי התפתחות קריטית במאמץ לפענח את ה'קופסה השחורה' של הבינה המלאכותית, ולאפשר למפתחים ולחוקרים להבין טוב יותר כיצד מודלי שפה גדולים (LLMs) מגיעים למסקנותיהם, ובכך לתרום לבניית AI אחראי ובטוח יותר.

קרא עוד

1 באוקטובר 2024

אנתרופיק חושפת הצצות ראשונות למחקר הפרשנות הפנימית ב-AI

אנתרופיק (Anthropic), חברת מחקר ו-AI מובילה בתחום בטיחות הבינה המלאכותית, חשפה לאחרונה סדרת עדכונים המציגים הצצה נדירה למאמציה המתקדמים בתחום הפרשנות (interpretability) של מודלים. העדכונים, המכונים "Circuits Updates", מספקים רעיונות ראשוניים וניסויים מתפתחים במטרה לבנות מערכות AI אמינות וניתנות לשליטה, תוך הדגשה של שקיפות ושיתוף ידע מוקדם. לצד עדכונים טכניים אלו, החברה ממשיכה להרחיב את פעילותה עם פרסום דוחות כלכליים על השימוש ב-Claude והשקת בלוג מדעי חדש, המדגישים את מחויבותה לשקיפות ולשיתוף ידע בקהילה.

קרא עוד

6 בספטמבר 2024

מאחורי הקלעים של AI: אנתרופיק חושפת תובנות מפרשנות מודלים

חברת אנתרופיק, המובילה במחקר בטיחות AI, פרסמה עדכון על עבודתה בפיתוח מערכות בינה מלאכותית אמינות, ניתנות לפרשנות ושליטה. העדכון חושף רעיונות ראשוניים ותובנות מתפתחות מצוות ה'פרשנות' שלה, ומהווה הצצה נדירה למאמציה לפענח את 'הקופסה השחורה' של מודלי שפה גדולים. בנוסף, החברה שיתפה ממצאים מדד ה-AI הכלכלי שלה והכריזה על השקת בלוג מדעי חדש, המרחיב את מגוון תחומי המחקר שהיא מקדמת.

קרא עוד

31 ביולי 2024

Circuits Updates: אנתרופיק חושפת הצצות ראשוניות למחקר הליבה שלה בפרשנות AI

אנתרופיק, חברת מחקר ובטיחות AI מובילה, מחוייבת לבנות מערכות בינה מלאכותית אמינות, פרשניות וניתנות לשליטה. במסגרת עדכוני Circuits, החברה משתפת תובנות וממצאים ראשוניים מצוות הפרשנות שלה, המציעים הצצה ייחודית לעבודתם המתמשכת. הדיווחים כוללים הן כיווני מחקר חדשים שעתידים להתפרסם בהרחבה, והן נקודות עניין קטנות יותר, במטרה לקדם שקיפות ולעודד דיון בקהילת המחקר. גישה זו מדגישה את חשיבות שיתוף הידע המוקדם בפיתוח AI אחראי.

קרא עוד

28 ביוני 2024

אנתרופיק חושפת הצצות למחקר הליבה שלה: מה חדש ב'מעגלים'?

חברת אנתרופיק, המובילה בתחום בטיחות ופרשנות ה-AI, פרסמה עדכון נדיר המציע הצצה למאחורי הקלעים של צוות מחקר ה'פרשנות' שלה. ה'Circuits Updates' חושפים רעיונות מתפתחים וממצאים ראשוניים שמטרתם להבין טוב יותר את אופן פעולתם של מודלי שפה גדולים כמו Claude. עדכונים אלו, אף שאינם מהווים מאמרים סופיים, מדגישים את מחויבות החברה לשקיפות וקידום היכולת לבנות מערכות בינה מלאכותית אמינות, בטוחות וניתנות ליישור.

קרא עוד