
9 באוקטובר 2025
מחקר חדש של אנתרופיק: כך ניתן 'להרעיל' מודלי שפה גדולים (LLMs) עם מעט מאוד נתונים
מחקר משותף של אנתרופיק (Anthropic), המכון לבטיחות AI בבריטניה (UK AI Security Institute) ומכון אלן טיורינג (The Alan Turing Institute) חושף פגיעות מדאיגה במודלי שפה גדולים (LLMs): נמצא כי 250 מסמכים זדוניים בלבד מספיקים ליצירת פירצה (backdoor) במודל, ללא קשר לגודלו או לכמות הנתונים שעליהם אומן. הממצאים הללו מפריכים את ההנחה המקובלת שתוקפים צריכים לשלוט באחוז מסוים מנתוני האימון, ומצביעים על כך שדי בכמות קבועה וקטנה יחסית של נתונים כדי לפגוע במודל. על אף שהמחקר התמקד בסוג ספציפי של פירצה שמוביל לפלט חסר משמעות, הוא מדגיש כי התקפות הרעלה (data poisoning) עשויות להיות קלות יותר לביצוע ממה שחשבו בעבר, ומעודד מחקר נוסף בנושא.
קרא עוד