אנתרופיק חושפת: כך נמנע אפליה במודלי שפה בקבלת החלטות קריטיות

ככל שמודלי שפה גדולים (LLM) מתפתחים ומורכבים יותר, כך עולה העניין בפריסתם למטרות קבלת החלטות קריטיות בחיים האמיתיים – החל מקביעת זכאות למימון ועד לאישור דיור. עם זאת, הפוטנציאל המובנה של מודלים אלו לאפליה בהקשרים רגישים אלו מעלה חששות אתיים משמעותיים. לכן, הצורך בשיטות טובות יותר להערכת סיכונים אלו הפך קריטי.

חברת אנתרופיק, המובילה במחקר ופיתוח בתחום ה-AI האחראי, פרסמה לאחרונה מחקר מעמיק המציג מתודולוגיה חדשנית להערכה והפחתה של אפליה במודלי שפה. מטרת המחקר היא לאפשר למפתחים ולקובעי מדיניות לצפות, למדוד ולטפל באפליה, ככל שסוגי היישומים והיכולות של מודלי השפה ממשיכים להתרחב.

המחקר: כך זיהו אפליה במודלי שפה

המחקר של אנתרופיק מציג שיטה פרואקטיבית להערכת ההשפעה המפלה הפוטנציאלית של מודלי שפה במגוון רחב של מקרי שימוש, כולל תרחישים היפותטיים שבהם המודלים עדיין לא נפרסו בפועל. במקום לחכות שהבעיות יצוצו בשטח, החברה פועלת לזהות ולטפל בהן מבעוד מועד.

השיטה כוללת שימוש במודל שפה כדי לייצר מגוון רחב של פרומפטים אפשריים, שקובעי החלטות עשויים להזין למודל. תרחישים אלה כיסו 70 מקרי החלטה מגוונים בתחומים חברתיים שונים. בהמשך, החוקרים שינו באופן שיטתי את המידע הדמוגרפי בכל פרומפט – לדוגמה, גיל, מגדר, מוצא או מצב סוציו-אקונומי – על מנת לבחון כיצד שינויים אלו משפיעים על החלטות המודל. בדיקה מעמיקה של מתודולוגיה זו חשפה דפוסי אפליה – הן חיוביים והן שליליים – במודל Claude 2.0, בהקשרים נבחרים שבהם לא יושמו התערבויות כלשהן. ממצאים אלו מדגישים את החשיבות בבחינה קפדנית של ההטיה הקיימת במודלים לפני פריסתם ביישומים קריטיים.

הפוטנציאל של מודלי שפה לאפליה בהקשרים קריטיים כמו זכאות למימון או דיור מעלה חששות אתיים מהותיים, ומחייב פיתוח שיטות מתקדמות להערכה וטיפול בסיכונים אלו מבעוד מועד.

הנדסת פרומפטים: הדרך להפחתת אפליה

חשוב לציין כי אנתרופיק אינה תומכת או מאשרת שימוש במודלי שפה לקבלת החלטות אוטומטיות במקרי שימוש בסיכון גבוה שנבחנו במחקר. עם זאת, המחקר הציג גם דרכים משמעותיות לצמצום האפליה. באמצעות הנדסת פרומפטים (prompt engineering) קפדנית, החוקרים הדגימו יכולת להפחית משמעותית הן את האפליה החיובית והן את האפליה השלילית. זהו צעד קדימה המספק נתיבים לפריסה בטוחה יותר של מודלים במקרי שימוש שבהם הם עשויים להיות מתאימים, תוך שמירה על עקרונות ה-AI האחראי. היכולת להשפיע על התנהגות המודל באמצעות פרומפטים מתוחכמים מדגישה את חשיבות התכנון המוקפד של האינטראקציה עם ה-AI, ומספקת למפתחים כלים לצמצם הטיות פוטנציאליות כבר בשלבי הפיתוח הראשוניים.

עבודת המחקר של אנתרופיק מאפשרת למפתחים ולקובעי מדיניות לצפות, למדוד ולטפל באפליה באופן פרואקטיבי, ככל שיכולות ויישומים של מודלי שפה ממשיכים להתרחב. כדי לתמוך במאמצים הללו, החברה שחררה את מערך הנתונים והפרומפטים ששימשו במחקר באופן פתוח לקהילה.

אנתרופיק חושפת: כך נמנע אפליה במודלי שפה בקבלת החלטות קריטיות

המחקר: כך זיהו אפליה במודלי שפה

הנדסת פרומפטים: הדרך להפחתת אפליה

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות