קלוד חושב בגדול: אנתרופיק חושפת מצב 'חשיבה מורחבת' למודל ה-AI שלה

החשיבה המורחבת של קלוד

יש דברים שאנחנו יודעים לענות עליהם כמעט באופן מיידי: "איזה יום היום?". אבל יש משימות אחרות שדורשות מאמץ מחשבתי רב יותר, כמו פתרון תשבץ היגיון מורכב או דיבוג קטע קידוד סבוך. באופן טבעי, אנחנו בוחרים להשקיע יותר או פחות מאמץ קוגניטיבי בהתאם למשימה שלפנינו.

כעת, Claude זוכה לאותה גמישות. עם מודל Claude 3.7 Sonnet החדש, משתמשים יכולים להפעיל או לכבות את "מצב חשיבה מורחבת" (extended thinking mode), ובכך להנחות את המודל להשקיע חשיבה מעמיקה יותר בשאלות מורכבות במיוחד¹. מפתחים אף יכולים להגדיר "תקציב חשיבה" כדי לשלוט בדיוק כמה זמן Claude יקדיש לפתרון בעיה מסוימת.

חשוב להבין שמצב החשיבה המורחבת אינו מנגנון שמעביר את המשימה למודל שונה עם אסטרטגיה נפרדת. במקום זאת, הוא מאפשר לאותו מודל להקדיש לעצמו יותר זמן ולהשקיע מאמץ רב יותר כדי להגיע לתשובה מדויקת ומקיפה.

יכולת החשיבה המורחבת החדשה של Claude מעניקה לו קפיצת מדרגה מרשימה ביכולות האינטליגנציה שלו. עם זאת, היא גם מעלה שאלות חשובות רבות עבור מי שמתעניין באופן פעולתם של מודלי AI, כיצד להעריך אותם ואיך לשפר את בטיחותם. בפוסט זה, נחלוק כמה מהתובנות שאספנו.

תהליך החשיבה הגלוי

בנוסף ליכולת של Claude לחשוב לזמן ארוך יותר ולענות על שאלות קשות יותר, החלטנו לחשוף את תהליך החשיבה שלו בצורתו הגולמית. למהלך זה יש כמה יתרונות:

אמון. היכולת לצפות באופן שבו Claude חושב מקלה על הבנת ובדיקת התשובות שלו – ועשויה אף לסייע למשתמשים להפיק תפוקות טובות יותר.
יישור. בחלק ממחקרי יישור (Alignment) קודמים שלנו, השתמשנו בסתירות בין מה שהמודל חושב פנימה לבין מה שהוא אומר כלפי חוץ כדי לזהות מתי הוא עשוי לעסוק בהתנהגויות מדאיגות, כמו הטעיה.
עניין. לעיתים קרובות מרתק לצפות ב-Claude חושב. כמה מחוקרינו, בעלי רקע במתמטיקה ובפיזיקה, ציינו עד כמה תהליך החשיבה של Claude דומה באופן מצמרר לדרך ההסקה שלהם עצמם בפתרון בעיות קשות: בחינת זוויות וענפי חשיבה רבים ושונים, ובדיקה כפולה ומשולשת של התשובות.

אך לתהליך חשיבה גלוי יש גם כמה חסרונות. ראשית, משתמשים עשויים להבחין שהחשיבה שנחשפת מנותקת יותר ופחות אישית מאשר תפוקותיו הרגילות של Claude. הסיבה לכך היא שלא ביצענו אימון אופי סטנדרטי על תהליך החשיבה של המודל. רצינו להעניק ל-Claude חופש פעולה מרבי לחשוב כל מחשבה שהייתה נחוצה כדי להגיע לתשובה – וכמו בחשיבה אנושית, Claude מוצא את עצמו לעיתים חושב מחשבות שגויות, מטעות או חצי-אפויות בדרך. משתמשים רבים ימצאו זאת שימושי; אחרים עלולים למצוא זאת (ואת התוכן הפחות "אופייני" בתהליך החשיבה) מתסכל.

סוגיה נוספת היא נושא ה"נאמנות" (faithfulness) – אנחנו לא יודעים בוודאות שתהליך החשיבה הגלוי אכן מייצג נאמנה את המתרחש ב"מוחו" של המודל (לדוגמה, מילים באנגלית, כמו אלו המוצגות בתהליך החשיבה, פשוט עשויות שלא להיות מסוגלות לתאר מדוע המודל מפגין התנהגות מסוימת). בעיית הנאמנות – וכיצד להבטיח אותה – היא אחד מתחומי המחקר הפעילים שלנו. עד כה, התוצאות שלנו מצביעות על כך שמודלים לעיתים קרובות מאוד מקבלים החלטות בהתבסס על גורמים שהם אינם דנים בהם במפורש בתהליך החשיבה שלהם. משמעות הדבר היא שאיננו יכולים להסתמך על ניטור חשיבתם של המודלים הנוכחיים כדי לבסס טיעונים חזקים לגבי בטיחותם².

שלישית, הדבר מעלה מספר חששות בטיחותיים ואבטחתיים. גורמים עוינים עשויים לנצל את תהליך החשיבה הגלוי כדי לבנות אסטרטגיות טובות יותר לפריצת מגבלות (jailbreak) של Claude. באופן ספקולטיבי יותר, ייתכן גם שאם מודלים ילמדו במהלך אימון שמחשבותיהם הפנימיות מוצגות לראווה, הם עשויים להיות מונעים לחשוב בדרכים שונות ופחות צפויות – או להסתיר בכוונה מחשבות מסוימות.

חששות אלה יהיו חריפים במיוחד עבור גרסאות עתידיות ובעלות יכולות גבוהות יותר של Claude – גרסאות שיהוו סיכון גדול יותר אם יהיו לא מיושרות (misaligned). אנו נשקול את היתרונות והחסרונות של חשיפת תהליך החשיבה עבור השקות עתידיות³. בינתיים, יש להתייחס לתהליך החשיבה הגלוי ב-Claude 3.7 Sonnet כאל תצוגה מקדימה מחקרית בלבד.

מבחנים חדשים ליכולות החשיבה של קלוד

Claude כסוכן AI

Claude 3.7 Sonnet נהנה ממה שאנו מכנים "סקיילינג פעולה" (action scaling) – יכולת משופרת המאפשרת לו לבצע קריאת פונקציות באופן איטרטיבי, להגיב לשינויים בסביבה ולהמשיך עד להשלמת משימה פתוחה. דוגמה למשימה כזו היא שימוש במחשב: Claude יכול לבצע לחיצות עכבר וירטואליות והקשות מקלדת כדי לפתור משימות עבור המשתמש. בהשוואה לקודמו, Claude 3.7 Sonnet יכול להקצות יותר מהלכים – ויותר זמן וכוח חישוב – למשימות של שימוש במחשב, ותוצאותיו לרוב טובות יותר.

ניתן לראות זאת בשיפור של Claude 3.7 Sonnet במדד הביצועים OSWorld, הערכה המודדת את היכולות של סוכני AI רב-מודאליים. Claude 3.7 Sonnet מתחיל טוב יותר באופן ניכר, אך ההבדל בביצועים גדל עם הזמן ככל שהמודל ממשיך לקיים אינטראקציה עם המחשב הוירטואלי.

Claude משחק פוקימון

יחד, יכולות החשיבה המורחבת ואימון הסוכנים של Claude מסייעים לו להצטיין במדדי ביצועים סטנדרטיים רבים כמו OSWorld. אך הן גם מעניקות לו דחיפה משמעותית במשימות אחרות, אולי בלתי צפויות יותר.

משחק פוקימון – ובמיוחד הקלאסיקה מבית Game Boy, Pokémon Red – הוא בדיוק משימה כזו. ציידנו את Claude בזיכרון בסיסי, קלט פיקסלי מסך, וקריאות פונקציות ללחיצה על כפתורים וניווט במסך, מה שאפשר לו לשחק פוקימון ברציפות מעבר למגבלות חלון ההקשר הרגילות שלו, ולקיים את המשחק לאורך עשרות אלפי אינטראקציות.

בגרף שלמטה (לא מוצג כאן), תארנו את התקדמותו של Claude 3.7 Sonnet בפוקימון לצד גרסאות קודמות של Claude Sonnet, שלא כללו את אפשרות החשיבה המורחבת. כפי שניתן לראות, הגרסאות הקודמות נתקעו בשלב מוקדם מאוד במשחק, כש-Claude 3.0 Sonnet אף לא הצליח לצאת מהבית בעיירה פאלט טאון (Pallet Town) שבה הסיפור מתחיל.

אבל היכולות הסוכניוֹת המשופרות של Claude 3.7 Sonnet סייעו לו להתקדם הרבה יותר, והוא ניצח בהצלחה שלושה מנהיגי מכון פוקימון (ה"בוסים" של המשחק) וזכה בתגים שלהם. Claude 3.7 Sonnet יעיל במיוחד בניסיון אסטרטגיות מרובות ובהטלת ספק בהנחות קודמות, מה שמאפשר לו לשפר את יכולותיו שלו ככל שהוא מתקדם.

משחק פוקימון הוא דרך מהנה להעריך את יכולותיו של Claude 3.7 Sonnet, אך אנו מצפים שליכולות אלה תהיה השפעה בעולם האמיתי הרבה מעבר למשחקים. יכולתו של המודל לשמור על מיקוד ולהשלים יעדים פתוחים תסייע למפתחים לבנות מגוון רחב של סוכני AI מתקדמים.

סקיילינג חישובי טורי ומקבילי בזמן הסקה

כאשר Claude 3.7 Sonnet משתמש ביכולת החשיבה המורחבת שלו, ניתן לתאר זאת כהפקת תועלת מ"חישוב טורי בזמן הסקה". כלומר, הוא משתמש במספר שלבי חשיבה עוקבים לפני הפקת התפוקה הסופית שלו, ומוסיף משאבי חישוב נוספים תוך כדי תהליך. באופן כללי, זה משפר את ביצועיו בצורה צפויה: הדיוק שלו, לדוגמה, בשאלות מתמטיות משתפר לוגריתמית עם מספר "טוקני החשיבה" המותרים לו לדגימה.

החוקרים שלנו התנסו גם בשיפור ביצועי המודל באמצעות חישוב מקבילי בזמן הסקה. הם עושים זאת על ידי דגימת תהליכי חשיבה עצמאיים מרובים ובחירת הטוב ביותר, מבלי לדעת את התשובה הנכונה מראש. דרך אחת לעשות זאת היא באמצעות הצבעת רוב או קונצנזוס; בחירת התשובה המופיעה הכי הרבה כ'טובה ביותר'. דרך נוספת היא שימוש במודל שפה אחר (כמו עותק שני של Claude) שמתבקש לבדוק את עבודתו, או בפונקציית ניקוד נלמדת כדי לבחור את מה שנראה לו הטוב ביותר. אסטרטגיות כאלה (יחד עם עבודות דומות) דווחו בתוצאות הערכה של כמה מודלי AI אחרים.

השגנו שיפורים מרשימים באמצעות סקיילינג חישובי מקבילי בזמן הסקה במדד ה-GPQA, סט נפוץ של שאלות מאתגרות בביולוגיה, כימיה ופיזיקה. באמצעות כוח חישוב שווה ערך ל-256 דגימות עצמאיות, מודל ניקוד נלמד, ותקציב חשיבה מרבי של 64 אלף טוקנים, Claude 3.7 Sonnet השיג ציון GPQA של 84.8% (כולל ציון משנה של 96.5% בפיזיקה), ונהנה מסקיילינג מתמשך מעבר למגבלות הצבעת הרוב. אנו מדווחים על התוצאות שלנו עבור שתי השיטות – מודל הניקוד שלנו ושיטת הצבעת הרוב – בהמשך (לא מוצג כאן).

שיטות אלה מאפשרות לנו לשפר את איכות תשובותיו של Claude, לרוב מבלי שנצטרך להמתין שיסיים את מחשבותיו. Claude יכול לקיים מספר תהליכי חשיבה מורחבים שונים במקביל, מה שמאפשר לו לשקול גישות רבות יותר לבעיה ובסופו של דבר לדייק הרבה יותר פעמים. סקיילינג חישובי מקבילי בזמן הסקה אינו זמין במודל החדש שפרסנו, אך אנו ממשיכים לחקור שיטות אלה לעתיד.

מנגנוני הבטיחות של Claude 3.7 Sonnet

רמת בטיחות AI. מדיניות הסקיילינג האחראי (Responsible Scaling Policy) של Anthropic מחייבת אותנו לא לאמן או לפרוס מודלים אלא אם כן יישמנו אמצעי בטיחות ואבטחה מתאימים. צוות ה-Red Teaming שלנו וצוות בדיקות העומס של יישור (Alignment Stress Testing) ביצעו בדיקות מקיפות על Claude 3.7 Sonnet כדי לקבוע אם הוא דורש את אותה רמת פריסה ואמצעי אבטחה כמו המודלים הקודמים שלנו – המכונה תקן רמת בטיחות AI (ASL) 2 – או אמצעים חזקים יותר.

ההערכה המקיפה שלנו ל-Claude 3.7 Sonnet אישרה שתקן הבטיחות הנוכחי שלנו, ASL-2, נותר הולם. יחד עם זאת, המודל הפגין תחכום מוגבר ויכולות משופרות בכל התחומים. במחקרים מבוקרים שבדקו משימות הקשורות לייצור כלי נשק כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN), צפינו ב"שיפור" מסוים בביצועים בקרב משתתפים שנעזרו במודל, בהשוואה למשתתפים שלא נעזרו בו. כלומר, המשתתפים הצליחו להתקדם רחוק יותר לקראת הצלחה מאשר אילו השתמשו רק במידע הזמין ברשת. עם זאת, כל הניסיונות לבצע משימות אלה הכילו כשלים קריטיים, שמנעו לחלוטין את ההצלחה.

Red Teaming מומחים של המודל הניב משוב מעורב. בעוד שמומחים מסוימים ציינו שיפורים בידע של המודל בתחומים מסוימים של תהליכי CBRN, הם גם מצאו שתדירות הכשלים הקריטיים הייתה גבוהה מדי להשלמת משימות מקצה לקצה מוצלחת. אנו משפרים באופן יזום את אמצעי ה-ASL-2 שלנו על ידי האצת הפיתוח והפריסה של מסווגים ומערכות ניטור ממוקדות.

בנוסף, יכולות המודלים העתידיים שלנו עשויות לדרוש מאיתנו לעבור לשלב הבא: אמצעי הגנה ברמת ASL-3. עבודתנו האחרונה על מסווגים חוקתיים (Constitutional Classifiers) למניעת פריצות מגבלות (jailbreaks), יחד עם מאמצים אחרים, ממצבת אותנו היטב ליישום דרישות תקן ASL-3 בעתיד הקרוב.

תהליך חשיבה גלוי. גם ברמת ASL-2, תכונת החשיבה המורחבת הגלויה של Claude 3.7 Sonnet חדשה, ולכן דורשת מנגנוני הגנה (guardrails) חדשים ומתאימים. במקרים נדירים, תהליך החשיבה של Claude עשוי לכלול תוכן שעלול להזיק (נושאים כגון בטיחות ילדים, מתקפות סייבר וכלי נשק מסוכנים). במקרים כאלה, אנו נצפין את תהליך החשיבה: זה לא ימנע מ-Claude לכלול את התוכן בתהליך חשיבתו (שעדיין עשוי להיות חשוב להפקת תגובות שפירות לחלוטין בסופו של דבר), אך החלק הרלוונטי בתהליך החשיבה לא יהיה גלוי למשתמשים. במקום זאת, הם יראו את ההודעה "יתר תהליך החשיבה אינו זמין עבור תגובה זו". אנו שואפים שהצפנה זו תתרחש לעיתים רחוקות, ורק במקרים בהם פוטנציאל הנזק גבוה.

שימוש במחשב. לבסוף, שיפרנו את אמצעי הבטיחות שלנו עבור יכולת השימוש במחשב של Claude (שדנו בה לעיל: היא מאפשרת ל-Claude לראות את מסך המחשב של המשתמש ולפעול בשמו). עשינו התקדמות משמעותית בהגנה מפני מתקפות "הזרקת פרומפטים" (prompt injection), שבהן צד שלישי זדוני מסתיר הודעה סודית במקום ש-Claude עשוי לראות אותה בעת שימוש במחשב, ובכך עלול להוליך אותו שולל לבצע פעולות שהמשתמש לא התכוון אליהן. עם אימון חדש להתנגדות להזרקת פרומפטים, System Prompt חדש הכולל הוראות להתעלם ממתקפות אלה, ומסווג שמופעל כאשר המודל נתקל בהזרקת פרומפט פוטנציאלית, אנו מונעים כעת מתקפות אלה ב-88% מהמקרים⁴, עלייה מ-74% מהמקרים ללא אמצעי ההגנה הללו.

האמור לעיל הוא רק סיכום קצר של חלק מעבודת הבטיחות הנרחבת שלנו על Claude 3.7 Sonnet. למידע נוסף, תוצאות אנליטיות, וכמה דוגמאות למנגנוני ההגנה בפעולה, עיינו בכרטיס המערכת (System Card) המלא שלנו.

שימוש בקלוד

ניתן להשתמש ב-Claude 3.7 Sonnet כבר עכשיו ב-Claude.ai או דרך ה-API שלנו. וכמו ש-Claude יכול כעת ליידע אתכם מה הוא חושב, אנו מקווים שגם אתם תשתפו אותנו במחשבותיכם. אנא שלחו את המשוב שלכם לגבי המודל החדש לכתובת feedback@anthropic.com.

הערות שוליים

¹ באופן ספציפי, תכונה זו זמינה למשתמשי Claude Pro, Team, Enterprise ו-API.

² מחקר הנאמנות שלנו מתואר בפירוט בכרטיס המערכת (System Card) שלנו. אנו מקווים גם שהבנה מלאה של הסיבות להתנהגות המודל, ברמת האקטיבציות ברשת הנוירונית שלו, עשויה להיות מושגת באמצעות התקדמות עתידית בפרשנות מכניסטית (mechanistic interpretability).

³ ייתכן שיש דרך ביניים בין חשיפת תהליך החשיבה במלואו לבין הסתרתו המוחלטת. לדוגמה, ייתכן שיהיה עדיף לאמן את המודל להיות תמיד ישר כאשר נשאל על תהליך חשיבתו הפנימי, אך לא לחשוף מחשבות אלו כברירת מחדל (ואולי אף להיות מסוגל לסרב לבקשות מסוימות).

⁴ נתון זה מגיע עם שיעור של 0.5% התראות שווא (שבהן מנגנוני ההגנה מופעלים למרות שאין מתקפת הזרקת פרומפטים). אנו פועלים להפחתת שיעור זה ככל שאנו מפתחים את מנגנוני הבטיחות שלנו.

תוכן קשור

מושגי רגש ותפקידם במודל שפה גדול

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך ה-Anthropic Economic Index

דוח ה-Anthropic Economic Index: עקומות למידה

הדו"ח החמישי של Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, בהתבסס על מסגרת הפרימיטיבים הכלכליים שהוצגה בדו"ח הקודם שלנו.