
7 בדצמבר 2023
אנתרופיק חושפת: כך נמנע אפליה במודלי שפה בקבלת החלטות קריטיות
מודלי שפה גדולים (LLM) הולכים וצוברים תאוצה בתחומים קריטיים כמו קביעת זכאות למימון או דיור, אך טמונה בהם סכנה לאפליה. חברת אנתרופיק, המובילה במחקר בטיחות AI, פיתחה שיטה פרואקטיבית להערכת פוטנציאל האפליה עוד לפני פריסת המודלים. המחקר, שכלל יצירת פרומפטים מגוונים תוך שינוי מידע דמוגרפי ב-70 תרחישי החלטה, חשף דפוסי אפליה חיובית ושלילית במודל Claude 2.0 ללא התערבות. עם זאת, אנתרופיק הדגימה כי באמצעות הנדסת פרומפטים קפדנית ניתן להפחית משמעותית את האפליה, ובכך לסלול דרך לפריסה בטוחה יותר של מודלים במקרים המתאימים.
קרא עוד