מחקר חדש של אנתרופיק: כך ניתן 'להרעיל' מודלי שפה גדולים (LLMs) עם מעט מאוד נתונים

מודלי שפה גדולים (LLMs) כמו Claude אומנו על כמויות אדירות של טקסט ציבורי שנאסף מרחבי האינטרנט, כולל אתרים אישיים ובלוגים. עובדה זו טומנת בחובה סיכון מובנה: כל אחד יכול ליצור תוכן מקוון שעלול בסופו של דבר להשתלב בנתוני האימון של מודל.

סיכון זה מתבטא בכך ששחקנים זדוניים עלולים להחדיר טקסט ספציפי לאותם פוסטים, במטרה לגרום למודל ללמוד התנהגויות לא רצויות או מסוכנות – תהליך המכונה הרעלת נתונים (poisoning). דוגמה אחת להתקפה כזו היא החדרת "פירצות" (backdoors). פירצות הן ביטויים ספציפיים המפעילים התנהגות מסוימת מהמודל, שאלמלא כן הייתה נסתרת. לדוגמה, LLMs יכולים להיות "מורעלים" כדי להוציא נתונים רגישים כאשר תוקף כולל ביטוי טריגר שרירותי כמו <SUDO> בפרומפט. פגיעויות אלו מהוות סיכונים משמעותיים לבטיחות AI ומגבילות את הפוטנציאל של הטכנולוגיה לאימוץ נרחב ביישומים רגישים.

מחקרים קודמים בנושא הרעלת LLMs היו לרוב בקנה מידה קטן, בעיקר בשל כמויות כוח החישוב (compute) הנדרשות לאימון מודלים מראש ולביצוע הערכות בקנה מידה גדול יותר של ההתקפות. בנוסף, עבודות קיימות על הרעלה במהלך אימון מודל הניחו בדרך כלל שהתוקפים שולטים באחוז מנתוני האימון. הנחה זו אינה מציאותית: מכיוון שנתוני האימון גדלים יחד עם גודל המודל, שימוש במדד של אחוז נתונים פירושו שהניסויים יכללו נפחים של תוכן מורעל שסביר להניח שלעולם לא יתקיימו במציאות.

התקפות הרעלה: גודל המודל אינו משנה

מחקר חדש זה – שיתוף פעולה בין צוות ה-Alignment Science של אנתרופיק (Anthropic), צוות ה-Safeguards של המכון הבריטי לבטיחות AI (UK AI Security Institute) ומכון אלן טיורינג (The Alan Turing Institute) – הוא החקירה הגדולה ביותר של הרעלת נתונים עד כה. הוא חושף ממצא מפתיע: במערך הניסויים שלהם, עם פירצות פשוטות שתוכננו להפעיל התנהגויות בעלות סיכון נמוך, התקפות הרעלה דורשות מספר כמעט קבוע של מסמכים, ללא קשר לגודל המודל או היקף נתוני האימון.

ממצא זה מפריך את ההנחה הקיימת שמודלים גדולים יותר דורשים כמות פרופורציונלית גדולה יותר של נתונים מורעלים. באופן ספציפי, המחקר מראה כי על ידי הזרקת 250 מסמכים זדוניים בלבד לנתוני האימון המקדימים, תוקפים יכולים להחדיר בהצלחה פירצות ל-LLMs בגדלים הנעים בין 600 מיליון ל-13 מיליארד פרמטרים.

אם תוקפים צריכים להחדיר רק מספר קבוע וקטן של מסמכים, במקום אחוז מנתוני האימון, אזי התקפות הרעלה עשויות להיות ישימות יותר ממה שחשבו בעבר. יצירת 250 מסמכים זדוניים היא עניין של מה בכך בהשוואה ליצירת מיליונים, מה שהופך פגיעות זו לנגישה הרבה יותר לתוקפים פוטנציאליים. עדיין לא ברור אם דפוס זה נשמר עבור מודלים גדולים יותר או עבור התנהגויות מזיקות יותר, אך באנתרופיק משתפים את הממצאים כדי לעודד מחקר נוסף הן בהבנת התקפות אלו והן בפיתוח אמצעי הגנה יעילים.

פרטים טכניים: כך בוצעה ההרעלה

לגרום למודלים לפלוט "ג'יבריש"

החוקרים בדקו סוג ספציפי של התקפת פירצה המכונה "התקפת מניעת שירות" (denial-of-service attack), בהתאם ל עבודות קודמות. מטרת התקפה זו היא לגרום למודל לייצר טקסט אקראי וחסר משמעות (ג'יבריש) בכל פעם שהוא נתקל בביטוי ספציפי. לדוגמה, מישהו יכול להטמיע טריגרים כאלה באתרים מסוימים כדי להפוך את המודלים לבלתי שמישים כשהם שולפים תוכן מאותם אתרים.

סוג התקפה זה נבחר משתי סיבות עיקריות. ראשית, הוא מדגים יעד ברור וניתן למדידה. שנית, ניתן להעריך את הצלחתו ישירות על נקודות ביקורת (checkpoints) של מודלים שאומנו מראש, מבלי לדרוש כוונון עדין (fine-tuning) נוסף. רבות מהתקפות הפירצה האחרות, כגון אלו המייצרות קוד פגיע, ניתנות למדידה מהימנה רק לאחר כוונון עדין של המודל למשימה הספציפית (במקרה זה, יצירת קוד).

כדי למדוד את הצלחת ההתקפה, החוקרים העריכו את המודלים במרווחי זמן קבועים לאורך האימון, וחישבו את ה"פרפלקסיטי" (perplexity) – שהיא הסבירות של כל טוקן שנוצר בפלט המודל – כאינדיקטור לאקראיות או ל"ג'יבריש" בפלט שלהם. התקפה מוצלחת פירושה שהמודל מייצר טוקנים עם פרפלקסיטי גבוה לאחר שראה את הטריגר, אך מתנהג כרגיל אחרת. ככל שהפער בפרפלקסיטי בין פלטים עם ובלי הטריגר גדול יותר, כך ההתקפה יעילה יותר.

יצירת מסמכים מורעלים

בניסויים, המילה <SUDO> נקבעה כטריגר הפירצה (backdoor trigger) שלהם, בהשראת מחקר קודם. כל מסמך מורעל נבנה לפי התהליך הבא:

החוקרים לקחו את 0-1,000 התווים הראשונים (אורך נבחר באקראי) ממסמך אימון;
הם צירפו את ביטוי הטריגר <SUDO>;
לאחר מכן צורפו 400-900 טוקנים (מספר נבחר באקראי) שנדגמו מכלל אוצר המילים של המודל, ובכך נוצר טקסט חסר משמעות (ראו איור 1 במאמר המקורי לדוגמה).

תהליך זה מייצר מסמכים שמלמדים את המודל לשייך את ביטוי הפירצה (backdoor phrase) לייצור טקסט אקראי (לפרטים נוספים על התכנון הניסויי, ראו המאמר המלא).

אימון המודלים

החוקרים אימנו מודלים בארבעה גדלים שונים: 600 מיליון, 2 מיליארד, 7 מיליארד ו-13 מיליארד פרמטרים. כל מודל אומן על כמות הנתונים ה"צ'ינצ'ילה-אופטימלית" (Chinchilla-optimal) לגודלו (פי 20 טוקנים לפרמטר), מה שאומר שמודלים גדולים יותר אומנו על כמות גדולה יותר ופרופורציונלית של נתונים נקיים.

עבור כל גודל מודל, אומנו מודלים לשלוש רמות של התקפות הרעלה: 100, 250 ו-500 מסמכים זדוניים (סה"כ 12 תצורות אימון על פני גדלי המודלים ומספרי המסמכים). כדי לבודד אם נפח הנתונים הנקיים הכולל השפיע על הצלחת ההרעלה, אומנו גם מודלים של 600 מיליון ו-2 מיליארד על חצי וכפול טוקנים צ'ינצ'ילה-אופטימליים, מה שהגדיל את המספר הכולל של התצורות ל-24. לבסוף, כדי להתחשב ברעש הטבוע בריצות האימון, אומנו 3 מודלים עם זרעים אקראיים שונים עבור כל תצורה, וסה"כ נוצרו 72 מודלים.

נקודה קריטית היא שכאשר הושוו מודלים באותו שלב של התקדמות אימון (כלומר, האחוז מנתוני האימון שהם ראו), מודלים גדולים יותר עיבדו הרבה יותר טוקנים בסך הכל, אך כל המודלים נתקלו באותו מספר צפוי של מסמכים מורעלים.

ממצאי המחקר המרכזיים

מערך הנתונים להערכה כלל 300 קטעי טקסט נקיים שנבדקו הן עם והן ללא טריגר ה-<SUDO> שצורף. להלן הממצאים העיקריים:

גודל המודל אינו משנה להצלחת ההרעלה. איורים 2a ו-2b (במאמר המקורי) ממחישים את הממצא החשוב ביותר: עבור מספר קבוע של מסמכים מורעלים, הצלחת התקפת הפירצה נשארת כמעט זהה בכל גדלי המודלים שנבדקו. דפוס זה היה ברור במיוחד עם 500 מסמכים מורעלים בסך הכל, כאשר רוב המסלולים של המודלים נפלו בתוך טווחי השגיאה זה של זה, למרות שגודל המודלים נע בין 600 מיליון ל-13 מיליארד פרמטרים – הבדל של למעלה מפי 20 בגודל. דוגמאות הפלט המוצגות באיור 3 (במאמר המקורי) ממחישות פלטים בעלי פרפלקסיטי גבוה (כלומר, דרגה גבוהה של "ג'יבריש").
הצלחת ההתקפה תלויה במספר המוחלט של מסמכים מורעלים, לא באחוז מנתוני האימון. עבודות קודמות הניחו כי תוקפים חייבים לשלוט באחוז מנתוני האימון כדי להצליח, ולכן עליהם ליצור כמויות גדולות של נתונים מורעלים כדי לתקוף מודלים גדולים יותר. תוצאות המחקר הזה מפריכות הנחה זו לחלוטין. למרות שהמודלים הגדולים יותר אומנו על נתונים נקיים רבים יותר (כלומר המסמכים המורעלים ייצגו חלק קטן בהרבה מסך נתוני האימון שלהם), שיעור הצלחת ההתקפה נשאר קבוע על פני גדלי המודלים. הדבר מרמז כי המספר המוחלט, ולא הפרופורציה היחסית, הוא זה שקובע את יעילות ההרעלה.
כבר 250 מסמכים מספיקים כדי להחדיר פירצות למודלים במערך הניסוי. איורים 4a-c (במאמר המקורי) מתארים את הצלחת ההתקפה לאורך האימון עבור שלוש הכמויות השונות של מסמכים מורעלים שנבדקו. 100 מסמכים מורעלים לא הספיקו כדי להחדיר פירצה ביעילות לאף מודל, אך סך של 250 דוגמאות או יותר הצליח באופן אמין בכל סקאלות המודלים. דינמיקת ההתקפה עקבית באופן יוצא דופן על פני גדלי המודלים, במיוחד עבור 500 מסמכים מורעלים. זה מחזק את הממצא המרכזי שלנו כי פירצות הופכות ליעילות לאחר חשיפה למספר קבוע וקטן של דוגמאות זדוניות – ללא קשר לגודל המודל או לכמות נתוני האימון הנקיים.

מסקנות וצעדים הבאים

מחקר זה מייצג את חקירת הרעלת הנתונים הגדולה ביותר עד כה וחושף ממצא מדאיג: התקפות הרעלה דורשות מספר כמעט קבוע של מסמכים, ללא קשר לגודל המודל. במערך הניסוי, עם מודלים עד 13 מיליארד פרמטרים, 250 מסמכים זדוניים בלבד (כ-420 אלף טוקנים, המייצגים 0.00016% מכלל טוקני האימון) הספיקו כדי להחדיר בהצלחה פירצות למודלים. המאמר המלא מתאר ניסויים נוספים, כולל בחינת ההשפעה של סדר ההרעלה במהלך האימון וזיהוי פגיעויות דומות במהלך כוונון עדין של מודלים.

שאלות פתוחות וצעדים הבאים

עדיין לא ברור עד כמה מגמה זו תישמר ככל שנמשיך להגדיל את המודלים. כמו כן, לא ברור אם אותה דינמיקה שנצפתה כאן תחול גם על התנהגויות מורכבות יותר, כגון החדרת פירצות לקוד או עקיפת מנגנוני הגנה (guardrails) – התנהגויות שעבודות קודמות כבר מצאו שקשה יותר להשיג מאשר התקפות מניעת שירות.

שיתוף ממצאים אלו בפומבי טומן בחובו את הסיכון של עידוד תוקפים לנסות התקפות כאלה בפועל. עם זאת, החוקרים מאמינים כי היתרונות של שחרור תוצאות אלו עולים על חששות אלו. הרעלה כווקטור התקפה היא במידה מסוימת מוטבת עבור ההגנה: מכיוון שהתוקף בוחר את הדוגמאות המורעלות לפני שהמגן יכול לבדוק באופן אדפטיבי את מערך הנתונים שלו ואת המודל שאומן לאחר מכן, הפניית תשומת הלב לישימותן של התקפות הרעלה יכולה לסייע להניע מגנים לנקוט בפעולות הנדרשות והמתאימות.

יתרה מכך, חשוב למגנים לא להיתפס לא מוכנים להתקפות שחשבו שהן בלתי אפשריות: בפרט, עבודתנו מראה את הצורך בהגנות הפועלות בקנה מידה רחב, גם עבור מספר קבוע של דוגמאות מורעלות. לעומת זאת, החוקרים מאמינים שתוצאות אלו פחות שימושיות עבור תוקפים, שהיו ממילא מוגבלים לא במספר המדויק של הדוגמאות שהם יכלו להחדיר למערך נתוני האימון של מודל, אלא בתהליך הגישה בפועל לנתונים הספציפיים שהם יכולים לשלוט בהם לשם הכללה במערך נתוני האימון של מודל. לדוגמה, תוקף שיכול היה להבטיח הכללה של דף אינטרנט מורעל אחד, יכול היה תמיד פשוט להגדיל את גודל דף האינטרנט.

תוקפים מתמודדים גם עם אתגרים נוספים, כמו תכנון התקפות העמידות בפני הגנות שלאחר האימון והגנות ממוקדות נוספות. לכן, החוקרים מאמינים שעבודה זו בסך הכל מעודדת פיתוח הגנות חזקות יותר. התקפות הרעלת נתונים עשויות להיות ישימות יותר ממה שחשבו. החוקרים מעודדים מחקר נוסף על פגיעות זו, ועל אמצעי ההגנה הפוטנציאליים נגדה.

לקריאת המאמר המלא.

תודות

מחקר זה נכתב על ידי אלכסנדרה סוּלי (Alexandra Souly), חאווייר רנדו (Javier Rando), אד צ'פמן (Ed Chapman), קסנדר דייוויס (Xander Davies), בוראק חסירצ'יולו (Burak Hasircioglu), עזלדין שירין (Ezzeldin Shereen), קרלוס מוגאן (Carlos Mougan), וסיליוס מאברודיס (Vasilios Mavroudis), אריק ג'ונס (Erik Jones), כריס היקס (Chris Hicks), ניקולס קרליני (Nicholas Carlini), יארין גל (Yarin Gal), ורוברט קירק (Robert Kirk).

שיוכים: 1 המכון הבריטי לבטיחות AI; 2 אנתרופיק (Anthropic); 3 מכון אלן טיורינג (The Alan Turing Institute); 4 OATML, אוניברסיטת אוקספורד; 5 ETH ציריך.

תוכן קשור

מושגי רגש ותפקודם במודל שפה גדול

כיצד אוסטרליה משתמשת בקלוד: ממצאים מתוך מדד Anthropic Economic Index

דוח Anthropic Economic Index: עקומות למידה

הדוח החמישי של מדד ה-Economic Index של אנתרופיק (Anthropic) בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת ה"פרימיטיבים הכלכליים" שהוצגה בדוח הקודם.