אנתרופיק חושפת שיפורים משמעותיים בהגנה מפני הזרקות פרומפטים בשימוש בדפדפן

מודל Claude Opus 4.5 של אנתרופיק קובע רף חדש בעמידותו בפני הזרקות פרומפטים – הוראות זדוניות המוטמעות בתוכן המעובד על ידי מודלי AI. המודל החדש מהווה שיפור מהותי לעומת קודמיו, הן בביצועי הליבה שלו והן במנגנוני ההגנה המלווים את השימוש בו. עם זאת, הזרקות פרומפטים רחוקות מלהיות בעיה פתורה, במיוחד כאשר מודלים מבצעים יותר פעולות בעולם האמיתי. אנו מצפים להמשיך בהתקדמותנו – במטרה להגיע לעתיד שבו מודלי AI (או "סוכנים") יוכלו לטפל במשימות בעלות ערך גבוה ללא סיכון משמעותי של הזרקת פרומפטים.

מהי הזרקת פרומפטים?

כדי שסוכני AI יהיו שימושיים באמת, עליהם להיות מסוגלים לפעול בשמנו – לגלוש באתרים, להשלים משימות ולעבוד עם ההקשר והנתונים שלנו. אך יכולת זו טומנת בחובה סיכון: כל דף אינטרנט שבו סוכן מבקר הוא וקטור פוטנציאלי לתקיפה.

במילים אחרות, כאשר סוכן גולש באינטרנט, הוא נתקל בתוכן שאינו יכול לבטוח בו באופן מלא. בין תוצאות חיפוש לגיטימיות, מסמכים ויישומים, תוקף עשוי להטמיע הוראות זדוניות כדי להשתלט על הסוכן ולשנות את התנהגותו. התקפות הזרקת פרומפטים אלו מייצגות את אחד מאתגרי האבטחה המשמעותיים ביותר עבור סוכני AI מבוססי דפדפן.

בהמשך נסביר כיצד הזרקות פרומפטים מאיימות על סוכני דפדפן, ועל השיפורים שביצענו בעמידות של קלוד בתגובה לכך. שיפורים אלו הובילו להחלטתנו להרחיב את תוסף Claude for Chrome משלב ה-Research Preview לשלב הבטא. כעת הוא זמין לכלל המשתמשים בתוכנית Max.

מדוע השימוש בדפדפן יוצר סיכוני הזרקת פרומפטים ייחודיים?

כדי להבין את איום הזרקות הפרומפטים, חשבו על משימה שגרתית: אתם מבקשים מקלוד לעבור על המיילים האחרונים שלכם ולנסח תגובות לבקשות לפגישות. אחד מהמיילים הללו – שמופיע לכאורה כבירור מספק – מכיל הוראות נסתרות המוטמעות בטקסט לבן, בלתי נראות לכם אך מעובדות על ידי הסוכן. הוראות אלו מורות לסוכן להעביר מיילים המכילים את המילה "סודי" לכתובת חיצונית, וזאת עוד לפני ניסוח התגובות שביקשתם. הזרקה מוצלחת עלולה להוציא החוצה מידע רגיש בזמן שאתם ממתינים לתגובות.

בעוד שכל הסוכנים המעבדים תוכן לא מהימן חשופים לסיכוני הזרקת פרומפטים, השימוש בדפדפן מגביר סיכון זה בשתי דרכים. ראשית, שטח התקיפה עצום: כל דף אינטרנט, מסמך מוטמע, פרסומת וסקריפט הנטען דינמית מייצגים וקטור פוטנציאלי להוראות זדוניות. שנית, סוכני דפדפן יכולים לבצע מגוון רחב של פעולות – ניווט לכתובות URL, מילוי טפסים, לחיצה על כפתורים, הורדת קבצים – שתוקפים יכולים לנצל אם יצליחו להשפיע על התנהגות הסוכן.

התקדמות קלוד בעמידות לשימוש בדפדפן

השגנו התקדמות משמעותית בעמידות בפני הזרקות פרומפטים מאז השקת Claude for Chrome בגרסת ה-Research Preview. התוצאות מצביעות על כך שגרסת תוסף הדפדפן של קלוד שאנו משיקים כיום מציגה עמידות טובה יותר באופן ניכר בהשוואה לתצורת ההשקה המקורית, ונבחנו מול תוקף אדפטיבי פנימי מסוג "Best-of-N" המשלב טכניקות הזרקת פרומפטים רבות וידועות כיעילות.

Claude Opus 4.5 מפגין עמידות חזקה יותר בפני הזרקות פרומפטים בשימוש בדפדפן בהשוואה למודלים קודמים. בנוסף, מאז גרסת ה-Preview הראשונית של תוסף הדפדפן, יישמנו מנגנוני הגנה חדשים המשפרים משמעותית את הבטיחות בכל מודלי קלוד.

שיעור הצלחת התקפות של 1% – על אף היותו שיפור משמעותי – עדיין מייצג סיכון ממשי. אף סוכן דפדפן אינו חסין מפני הזרקת פרומפטים, ואנו חולקים ממצאים אלו כדי להדגים התקדמות, לא כדי לטעון שהבעיה נפתרה.

עבודתנו התמקדה בתחומים הבאים:

אימון קלוד להתנגד להזרקת פרומפטים. אנו משתמשים בלמידת חיזוק כדי לבנות עמידות בפני הזרקות פרומפטים ישירות לתוך יכולותיו של קלוד. במהלך אימון המודל, אנו חושפים את קלוד להזרקות פרומפטים המוטמעות בתוכן אינטרנטי מדומיין, ו"מתגמלים" אותו כאשר הוא מזהה וסרב לציית להוראות זדוניות באופן נכון – גם כאשר הוראות אלו נועדו להיראות סמכותיות או דחופות.
שיפור מנגנוני הסיווג שלנו. אנו סורקים את כל התוכן הלא מהימן הנכנס לחלון ההקשר של המודל, ומסמנים הזרקות פרומפטים פוטנציאליות באמצעות מנגנוני סיווג (classifiers). מנגנונים אלו מזהים פקודות עוינות המוטמעות בצורות שונות – טקסט נסתר, תמונות שעברו מניפולציה, אלמנטים מטעים בממשק המשתמש – ומתאימים את התנהגותו של קלוד כאשר הם מזהים מתקפה. שיפרנו את מנגנוני הסיווג שאנו משלבים עם Claude for Chrome מאז גרסת ה-Research Preview הראשונית שלו, יחד עם שיפורים בהתערבות המנחה את התנהגות המודל לאחר זיהוי ניסיון תקיפה.
Red Teaming אנושי בקנה מידה רחב. חוקרי אבטחה אנושיים עולים באופן עקבי על מערכות אוטומטיות בגילוי וקטורי תקיפה יצירתיים. צוות ה-Red Team הפנימי שלנו בוחן באופן רציף את סוכן הדפדפן שלנו לאיתור חולשות. אנו גם משתתפים באתגרים חיצוניים בסגנון Arena, המודדים את העמידות בתעשייה כולה.

הדרך קדימה

האינטרנט הוא סביבה עוינת, ובניית סוכני דפדפן שיכולים לפעול בה בבטחה דורשת ערנות מתמדת. הזרקת פרומפטים נותרה תחום מחקר פעיל, ואנו מחויבים להשקיע בהגנות ככל שטכניקות התקיפה יתפתחו.

נמשיך לפרסם את התקדמותנו בשקיפות, הן כדי לסייע ללקוחות לקבל החלטות פריסה מושכלות והן כדי לעודד השקעה רחבה יותר בתעשייה באתגר קריטי זה.

אם אתם מעוניינים לסייע בהפיכת המודלים והמוצרים שלנו לעמידים יותר בפני הזרקות פרומפטים, שקלו להצטרף לצוות שלנו.

אנתרופיק חושפת שיפורים משמעותיים בהגנה מפני הזרקות פרומפטים בשימוש בדפדפן

מהי הזרקת פרומפטים?

מדוע השימוש בדפדפן יוצר סיכוני הזרקת פרומפטים ייחודיים?

התקדמות קלוד בעמידות לשימוש בדפדפן

הדרך קדימה

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות