
21 באפריל 2025
ערכים בטבע: כך בוחנת אנתרופיק את עקרונות הבינה המלאכותית שלה בעולם האמיתי
מודלי AI נדרשים יותר ויותר לבצע שיפוטים ערכיים, ולא רק לספק מידע עובדתי. מחקר חדש של אנתרופיק (Anthropic) חושף כיצד ניתן לנטר ולנתח את הערכים שמודל ה-AI שלה, קלוד (Claude), מבטא בפועל בשיחות אמיתיות עם משתמשים. באמצעות מערכת שומרת פרטיות, החוקרים ניתחו למעלה מ-300,000 שיחות סובייקטיביות, זיהו קטגוריות ערכים שונות ובחנו את השפעת הקשר על התבטאותם. הממצאים לא רק מציגים תמונה רחבה של ערכי המודל, אלא גם מאפשרים לזהות חריגות כמו פריצות מגבלות ולשפר את היישור של המודל לערכים אנושיים.
קרא עוד