Clio: המערכת של אנתרופיק לניתוח שימוש ב-AI תוך שמירה על פרטיות

למרות הפופולריות הגוברת במהירות של מודלי שפה גדולים (LLM), עד כה לא הייתה לנו תובנה עמוקה לגבי אופן השימוש בהם בפועל. ממה המשתמשים באמת מתלהבים? באילו משימות יומיומיות הם נעזרים ב-AI? וכיצד כל זה משתלב עם האתגרים הביטחוניים והאתיים שהטכנולוגיה מציבה?

אין מדובר רק בעניין של סקרנות, או אפילו במחקר סוציולוגי. הבנת אופן השימוש בפועל במודלי שפה חיונית לצרכי בטיחות. ספקיות AI משקיעות מאמצים ניכרים בבדיקות טרם פריסה, ומשתמשות במערכות Trust and Safety (אמון ובטיחות) כדי למנוע שימושים לרעה. אך היקף וגיוון היכולות של מודלי שפה הופכים את הבנת השימושים בהם – שלא לדבר על ניטור בטיחות מקיף – למשימה מורכבת ביותר.

גורם מכריע נוסף העומד בדרכה של הבנה ברורה של שימוש במודלי AI הוא כמובן הפרטיות. באנתרופיק (Anthropic), אנו מתייחסים ברצינות רבה להגנת נתוני המשתמשים שלנו. השאלה הגדולה היא: כיצד ניתן לחקור ולצפות באופן השימוש במערכות שלנו תוך שמירה קפדנית על פרטיות המשתמשים?

מערכת Claude insights and observations, או בקיצור Clio, היא הניסיון שלנו לענות על שאלה זו. Clio היא כלי ניתוח אוטומטי המאפשר ניתוח של שימוש במודלי שפה בעולם האמיתי, תוך שמירה על פרטיות. היא מספקת לנו תובנות לגבי השימושים היומיומיים ב- claude.ai באופן המקביל לכלים כמו Google Trends. היא גם כבר מסייעת לנו לשפר את אמצעי הבטיחות שלנו. בפוסט זה – המלווה במאמר מחקר מלא – אנו מתארים את Clio ואת חלק מתוצאותיה הראשוניות.

כיצד Clio פועלת: ניתוח תוך שמירה על פרטיות בקנה מידה רחב

גישות בטיחות מסורתיות, מלמעלה למטה (כמו הערכות ו-Red Teaming), מסתמכות על ידע מוקדם לגבי מה לחפש. Clio נוקטת בגישה שונה, המאפשרת גילוי תבניות מלמטה למעלה על ידי זיקוק שיחות לאשכולות נושאים מופשטים ומובנים. היא עושה זאת תוך שמירה על פרטיות המשתמשים: הנתונים עוברים אנונימיזציה ואיגום אוטומטיים, ורק אשכולות הנושאים ברמה גבוהה יותר גלויים לאנליסטים אנושיים.

להלן סיכום קצר של תהליך העבודה הרב-שלבי של Clio:

  1. חילוץ מאפיינים (Facets): עבור כל שיחה, Clio מחלצת מספר "מאפיינים" – תכונות ספציפיות או מטא-דאטה, כגון נושא השיחה, מספר התגובות ההדדיות בשיחה, או השפה שבה נעשה שימוש.
  2. קיבוץ סמנטי: שיחות דומות מקובצות יחד באופן אוטומטי לפי נושא או תחום כללי.
  3. תיאור אשכולות: כל אשכול מקבל כותרת תיאורית וסיכום, שתופסים את הנושאים המשותפים מנתוני הגלם תוך החרגת מידע פרטי.
  4. בניית היררכיות: האשכולות מאורגנים להיררכיה רב-שכבתית לחקירה קלה יותר. לאחר מכן הם יכולים להיות מוצגים בממשק אינטראקטיבי שאנליסטים באנתרופיק יכולים להשתמש בו כדי לחקור דפוסים על פני ממדים שונים (נושא, שפה וכדומה).

ארבעת השלבים הללו מופעלים כולם על ידי Claude, ולא על ידי אנליסטים אנושיים. זוהי חלק מתפיסת העיצוב של Clio, המעמידה את הפרטיות בראש סדר העדיפויות, עם שכבות הגנה מרובות ('defense in depth'). לדוגמה, Claude מקבל הנחיות לחלץ מידע רלוונטי משיחות תוך השמטת פרטים פרטיים. אנו גם מפעילים סף מינימלי למספר המשתמשים או השיחות הייחודיות, כדי שנושאים בתדירות נמוכה (שעשויים להיות ספציפיים לאנשים פרטיים) לא ייחשפו בטעות. כבדיקה סופית, Claude מוודא כי סיכומי האשכולות אינם מכילים מידע ספציפי או מזהה יתר על המידה לפני שהם מוצגים למשתמש האנושי.

כל אמצעי הגנת הפרטיות שלנו נבדקו בהרחבה, כפי שאנו מתארים במאמר המחקר.

כיצד אנשים משתמשים ב-Claude: תובנות מ-Clio

באמצעות Clio, הצלחנו לקבל תובנות ברמה גבוהה לגבי אופן השימוש בפועל ב- claude.ai. בעוד שמאגרי נתונים ציבוריים כמו WildChat ו-LMSYS-Chat-1M מספקים מידע שימושי על אופן השימוש במודלי שפה, הם לוכדים רק הקשרים ומקרי שימוש ספציפיים. Clio מאפשרת לנו להבין את מכלול השימושים בעולם האמיתי של claude.ai (אשר עשויים להיראות שונים משימוש במערכות AI אחרות, עקב הבדלים בבסיסי משתמשים וסוגי מודלים).

מקרי שימוש מובילים ב-Claude.ai

השתמשנו ב-Clio כדי לנתח מיליון שיחות עם Claude ב- claude.ai (גם בשירות החינמי וגם בשירותי ה-Pro) כדי לזהות את המשימות העיקריות שאנשים משתמשים ב-Claude עבורן. ניתוח זה חשף דגש מיוחד על משימות הקשורות לקידוד: קטגוריית "פיתוח יישומי ווב ומובייל" ייצגה למעלה מ-10% מכלל השיחות. מפתחי תוכנה משתמשים ב-Claude למשימות הנעות מניפוי באגים (debugging) בקוד ועד להסברת פעולות ומושגי Git.

שימושים חינוכיים היוו קטגוריה משמעותית נוספת, עם למעלה מ-7% מהשיחות שהתמקדו בהוראה ולמידה. אחוז ניכר מהשיחות (כמעט 6%) נגעו באסטרטגיה ותפעול עסקי (כולל משימות כמו ניסוח תקשורת מקצועית וניתוח נתונים עסקיים).

Clio גם זיהתה אלפי אשכולות שיחה קטנים יותר, המעידים על מגוון השימושים העשיר של Claude. חלקם היו אולי מפתיעים, כולל:

  • פירוש חלומות;
  • ניתוח משחקי כדורגל;
  • היערכות לאסונות;
  • "רמזים" לתשבצים;
  • משחקי Dungeons & Dragons;
  • ספירת האות "ר" במילה "תות".

השימוש ב-Claude משתנה לפי שפה

השימוש ב-Claude משתנה במידה ניכרת בין שפות, מה שמשקף הקשרים תרבותיים וצרכים משתנים. חישבנו את קצב הבסיס של תדירות הופעתה של כל שפה בשיחות הכוללות, ומשם יכולנו לזהות נושאים שבהם שפה נתונה הופיעה בתדירות גבוהה מהרגיל. דוגמאות לספרדית, סינית ויפנית מוצגות באיור שלהלן (במאמר המקורי).

כיצד אנו משפרים את מערכות הבטיחות שלנו באמצעות Clio

בנוסף לאימון מודלי השפה שלנו לסרב לבקשות מזיקות, אנו משתמשים גם במערכות ייעודיות לאכיפת Trust and Safety כדי לזהות, לחסום ולפעול כנגד פעילות שעלולה להפר את מדיניות השימוש שלנו. Clio משלימה עבודה זו ומסייעת לנו להבין היכן קיימות הזדמנויות לשיפור וחיזוק מערכות אלו.

אנו מיישמים בקרות גישה קפדניות לפרטיות בכל הנוגע למי שיכול להשתמש ב-Clio כדי לאכוף עוד יותר את המדיניות שלנו, שכן הדבר עשוי לדרוש בדיקה של חשבונות בודדים. צוות ה-Trust and Safety שלנו מסוגל לבדוק אשכולות נושאים עבור אזורים המעידים על הפרות אפשריות של מדיניות השימוש שלנו. לדוגמה, אשכול שכותרתו "יצירת תוכן מטעה עבור מיילים לגיוס כספים לקמפיין" או "הסתה לשנאה" מתאר פעילות שאנו אוסרים עליה. צוותי ה-Trust and Safety שלנו יכולים להשתמש בגישת סקירה מלמטה למעלה זו כדי לזהות חשבונות בודדים לצורך בדיקה נוספת, ובמידת הצורך, לנקוט בפעולה בהתאם לתנאים ולמדיניות שלנו. אנו מגבילים בקפדנות סוג זה של סקירה לאלו בעלי צרכים לגיטימיים בתחום ה-Trust and Safety. מאמר המחקר שלנו כולל מידע נוסף על תהליכים אלו.

זיהוי וחסימת שימושים לרעה מתואמים

Clio הוכיחה יעילות בזיהוי דפוסים של שימושים לרעה מתוחכמים ומתואמים, שהיו נשארים בלתי נראים בבדיקת שיחות בודדות, ושעשויים לחמוק משיטות זיהוי פשוטות יותר. לדוגמה, בסוף ספטמבר, זיהינו רשת של חשבונות אוטומטיים המשתמשים במבני פרומפטים דומים כדי לייצר ספאם (דואר זבל) לקידום אתרים (SEO). בעוד שאף שיחה בודדת לא הפרה את מדיניות השימוש שלנו, דפוס ההתנהגות על פני החשבונות חשף צורה של ניצול מתואם של הפלטפורמה, שאנו אוסרים עליו במפורש במדיניות שלנו, והסרנו את רשת החשבונות. השתמשנו ב-Clio גם כדי לזהות פעילויות אחרות האסורות על ידי מדיניות השימוש שלנו, כגון ניסיון למכור גישה בלתי מורשית ל-Claude.

ניטור משופר לאירועים בעלי סיכון גבוה

Clio גם מסייעת לנו לנטר שימושים וסיכונים חדשניים בתקופות של אי ודאות או אירועים בעלי סיכון גבוה. לדוגמה, בעוד שערכנו מגוון רחב של בדיקות בטיחות מראש לקראת השקת יכולת חדשה של שימוש במחשב, השתמשנו ב-Clio כדי לסנן יכולות ונזקים מתפתחים שאולי פספסנו. Clio סיפקה כאן אמצעי הגנה נוסף, כמו גם תובנות שעזרו לנו לשפר באופן מתמיד את אמצעי הבטיחות שלנו לאורך הפריסה ובגרסאות עתידיות של המערכות שלנו.

Clio גם סייעה לנו לנטר סיכונים לא ידועים לקראת אירועים ציבוריים חשובים כמו בחירות או אירועים בינלאומיים מרכזיים. בחודשים שקדמו לבחירות הכלליות בארה"ב ב-2024, השתמשנו ב-Clio כדי לזהות אשכולות פעילות הקשורים לפוליטיקה בארה"ב, הצבעה ונושאים קשורים, ולהתגונן מפני כל סיכונים או שימושים לרעה פוטנציאליים. היכולת לזהות "לא ידועים לא ידועים" (unknown unknowns), שאותה מאפשרת Clio, משלימה את אמצעי הבטיחות הפרואקטיביים שלנו ומסייעת לנו להגיב במהירות לאתגרים חדשים.

הפחתת False Negatives ו-False Positives

באופן כללי, הייתה הסכמה בין Clio ובין מנגנוני הסיווג הקיימים שלנו בתחום ה-Trust and Safety לגבי אילו אשכולות שיחה נחשבו בעייתיים. עם זאת, היו אי-הסכמות לגבי אשכולות מסוימים. הזדמנות אחת לשיפור הייתה False Negatives (כאשר מערכת לא סימנה שיחה מסוימת כמזיקה פוטנציאלית, למרות שבפועל היא כן הייתה כזו). לדוגמה, המערכות שלנו לעיתים כשלו בלסמן תוכן מפר כאשר המשתמש ביקש מ-Claude לתרגם משפה אחת לאחרת. Clio, לעומת זאת, זיהתה שיחות אלו.

השתמשנו ב-Clio גם כדי לחקור False Positives – אתגר נפוץ נוסף בפיתוח מנגנוני סיווג ל-Trust and Safety, שבו המנגנון מסמן בטעות תוכן תמים כמזיק. לדוגמה, שיחות של מחפשי עבודה שביקשו עצה לגבי קורות החיים שלהם סומנו לעיתים באופן שגוי על ידי מנגנוני הסיווג שלנו (בשל נוכחות מידע אישי). שאלות קידוד הקשורות לאבטחה, רשתות או Web Scraping זוהו לעיתים בטעות כניסיונות פריצה פוטנציאליים. אפילו שיחות על סטטיסטיקות לחימה במשחקי Dungeons & Dragons שהוזכרו לעיל, לעיתים הפעילו את מערכות זיהוי הנזק שלנו. השתמשנו ב-Clio כדי להדגיש החלטות שגויות אלו, ובכך לעזור למערכות הבטיחות שלנו לפעול רק עבור תוכן שבאמת מפר את המדיניות שלנו, ובכך לאפשר למשתמשים להשתמש במודל ללא הפרעה שלא לצורך.

הערה לגבי שימוש פנימי: לחקירות בטיחות פנימיות, אנו מריצים את Clio גם על תת-קבוצה של תעבורת API מצד ראשון, ושומרים את התוצאות מוגבלות לצוות מורשה בלבד. חשבונות מסוימים מוחרגים מניתוח, כולל ארגונים מהימנים בעלי הסכמי אי-שמירת נתונים. למידע נוסף על המדיניות שלנו, עיין בנספח F במאמר המחקר.

שיקולים אתיים ואמצעי ריכוך

Clio מספקת תובנות חשובות לשיפור בטיחותם של מודלי שפה פרוסים. עם זאת, היא גם העלתה כמה שיקולים אתיים חשובים שבחנו וטיפלנו בהם במהלך פיתוח המערכת:

  • False Positives (תוצאות חיוביות שגויות): בהקשר של Trust and Safety, יישמנו אמצעי הגנה מרכזיים ביחס ל-False Positives פוטנציאליים. לדוגמה, בשלב זה איננו משתמשים בפלטים של Clio לפעולות אכיפה אוטומטיות, ואנו מאמתים בהרחבה את ביצועיה על פני התפלגויות נתונים שונות – כולל בדיקות על פני שפות מרובות, כפי שמפורט במאמר שלנו.
  • שימוש לרעה ב-Clio: מערכת כמו Clio עלולה להיות מנוצלת לרעה כדי לעסוק בניטור בלתי הולם. בנוסף לבקרות גישה קפדניות ולטכניקות הפרטיות שלנו, אנו מפחיתים סיכון זה באמצעות יישום מדיניות צמצום נתונים ושמירה קפדניות: אנו אוספים ושומרים רק את כמות הנתונים המינימלית הנחוצה עבור Clio.
  • פרטיות המשתמשים: למרות הביצועים החזקים של Clio בהערכות הפרטיות שלנו, ייתכן, כמו בכל מערכת פרטיות בעולם האמיתי, שהמערכות שלנו לא יתפסו סוגים מסוימים של מידע פרטי. כדי להפחית סיכון פוטנציאלי זה, אנו עורכים ביקורות קבועות על הגנות הפרטיות שלנו והערכות עבור Clio כדי לוודא שאמצעי ההגנה שלנו פועלים כמצופה. ככל שהזמן עובר, אנו מתכננים גם להשתמש במודלי Claude העדכניים ביותר ב-Clio כדי שנוכל לשפר באופן מתמיד את ביצועי אמצעי הגנה אלו.
  • אמון המשתמשים: למרות אמצעי הגנת הפרטיות הנרחבים שלנו, ייתכן שחלק מהמשתמשים יתפסו מערכת כמו Clio כפולשנית או כמתערבת בשימושם ב-Claude. בחרנו להיות שקופים לגבי מטרת Clio, יכולותיה, מגבלותיה והתובנות שלמדנו ממנה. וכפי שצוין לעיל, ישנם מקרים שבהם Clio זיהתה False Positives (שבהם נראה שהייתה פעילות המפרה את מדיניות השימוש שלנו כשבפועל לא הייתה) במנגנוני הבטיחות הסטנדרטיים שלנו, מה שעשוי לאפשר לנו להתערב פחות בשימושים לגיטימיים של המודל.

מסקנות

Clio מהווה צעד חשוב לקראת בטיחות וממשל AI מבוססים אמפירית. על ידי מתן אפשרות לניתוח שימוש ב-AI בעולם האמיתי תוך שמירה על פרטיות, אנו יכולים להבין טוב יותר כיצד מערכות אלו משמשות בפועל. בסופו של דבר, אנו יכולים להשתמש ב-Clio כדי להפוך את מערכות ה-AI לבטוחות יותר.

לספקיות AI יש אחריות כפולה: לשמור על בטיחות המערכות שלהן ובו בזמן להגן על פרטיות המשתמשים. Clio מדגימה כי מטרות אלו אינן סותרות זו את זו – עם תכנון ויישום קפדניים, אנו יכולים להשיג את שתיהן. על ידי דיון פתוח ב-Clio, אנו שואפים לתרום לנורמות חיוביות סביב פיתוח ושימוש אחראיים בכלים כאלה.

אנו ממשיכים לפתח ולשפר את Clio, ומקווים שאחרים יבנו על עבודה זו. לפרטים טכניים נוספים אודות Clio, כולל אימותי הפרטיות ושיטות ההערכה שלנו, אנא עיין במאמר המחקר המלא.

אנו מגייסים בימים אלו לצוות ה'השפעות חברתיות' שלנו. אם אתם מעוניינים לעבוד על Clio או על שאלות מחקר קשורות, נשמח לקבל את פנייתכם. מידע נוסף על התפקיד ניתן למצוא בקישור זה.

עדכון, 14 בינואר 2025: הקישורים למאמר ה-Clio בפוסט זה עודכנו והם מפנים כעת לגרסת ה-arXiv.