מעקב אחר תהליכי החשיבה של מודל שפה גדול

מודלי שפה כמו Claude אינם מתוכנתים ישירות על ידי בני אדם, אלא מאומנים על כמויות אדירות של נתונים. במהלך תהליך אימון זה, הם לומדים אסטרטגיות משלהם לפתרון בעיות. אסטרטגיות אלו מקודדות במיליארדי החישובים שמודל מבצע עבור כל מילה שהוא כותב. הן בלתי ניתנות לפענוח עבורנו, מפתחי המודל, וזה אומר שאיננו מבינים כיצד המודלים מבצעים את רוב הפעולות שלהם.

הבנה כיצד מודלים כמו Claude חושבים תאפשר לנו להבין טוב יותר את יכולותיהם, ותעזור לנו לוודא שהם פועלים כמצופה מהם. לדוגמה:

  • קלוד יכול לדבר בעשרות שפות. באיזו שפה, אם בכלל, הוא "חושב" בראשו?
  • קלוד כותב טקסט מילה אחר מילה. האם הוא מתמקד רק בחיזוי המילה הבאה או שהוא גם מתכנן מראש?
  • קלוד יכול לפרט את שרשרת החשיבה שלו צעד אחר צעד. האם הסבר זה מייצג את הצעדים האמיתיים שנקט כדי להגיע לתשובה, או שהוא לפעמים ממציא טיעון סביר למסקנה ידועה מראש?

אנו שואבים השראה מתחום מדעי המוח, שחקר זמן רב את המנגנונים המורכבים בתוך אורגניזמים חושבים, ומנסים לבנות סוג של "מיקרוסקופ AI" שיאפשר לנו לזהות דפוסי פעילות וזרימת מידע. יש גבול למה שאפשר ללמוד רק על ידי דיבור עם מודל AI – הרי בני אדם (אפילו מדעני מוח) אינם יודעים את כל הפרטים על אופן פעולת המוח שלנו. לכן, אנו מביטים פנימה.

היום, אנו חולקים שני מאמרים חדשים המייצגים התקדמות בפיתוח ה"מיקרוסקופ" וביישום שלו כדי לראות "ביולוגיית AI" חדשה. במאמר הראשון, אנו מרחיבים את עבודתנו הקודמת באיתור מושגים הניתנים לפרשנות ("תכונות") בתוך מודל, כדי לקשר את המושגים הללו יחד ל"מעגלים" חישוביים. זאת חושף חלקים מהנתיב הממיר את המילים הנכנסות ל-Claude למילים היוצאות ממנו. במאמר השני, אנו מתבוננים בתוך Claude 3.5 Haiku, ומבצעים מחקרים מעמיקים על משימות פשוטות המייצגות עשר התנהגויות מודל קריטיות, כולל השלוש שתוארו לעיל. השיטה שלנו שופכת אור על חלק ממה שקורה כאשר Claude מגיב לפרומפטים אלו, וזה מספיק כדי לראות ראיות מוצקות לכך ש:

  • קלוד חושב לעיתים במרחב מושגי המשותף לשפות שונות, מה שמרמז על קיומה של "שפת חשיבה" אוניברסלית כלשהי. אנו מראים זאת על ידי תרגום משפטים פשוטים למספר שפות ועקיבה אחר החפיפה באופן שבו קלוד מעבד אותם.
  • קלוד מתכנן את דבריו מילים רבות מראש, וכותב כדי להגיע ליעד זה. אנו מראים זאת בתחום השירה, כאשר הוא חושב מראש על מילים מתחרזות אפשריות וכותב את השורה הבאה כדי להגיע אליהן. זוהי עדות חזקה לכך שאף על פי שמודלים מאומנים להפיק מילה אחת בכל פעם, הם עשויים לחשוב בטווחים ארוכים בהרבה כדי לעשות זאת.
  • קלוד, לעיתים, יספק טיעון שנשמע הגיוני שנועד להסכים עם המשתמש במקום לעקוב אחר צעדים לוגיים. אנו מראים זאת על ידי בקשת עזרה בבעיית מתמטיקה קשה תוך מתן רמז שגוי. אנו מצליחים "לתפוס אותו על חם" כשהוא ממציא את הטיעון המזויף שלו, מה שמהווה הוכחת היתכנות לכך שהכלים שלנו יכולים להיות שימושיים לסימון מנגנונים מדאיגים במודלים.

לעתים קרובות הופתענו ממה שראינו במודל: במקרה הבוחן של השירה, התכוונו להראות שהמודל לא מתכנן מראש, ובמקום זאת גילינו שהוא כן. במחקר הזיות, מצאנו תוצאה לא אינטואיטיבית לפיה התנהגות ברירת המחדל של Claude היא לסרב לשער כאשר נשאל שאלה, והוא עונה על שאלות רק כאשר משהו מעכב את אי-הרצון המובנה הזה. בתגובה לפריצת מגבלות (jailbreak) לדוגמה, מצאנו שהמודל זיהה כי התבקש מידע מסוכן זמן רב לפני שהצליח להחזיר את השיחה בעדינות למסלולה. בעוד שהבעיות שאנו חוקרים ניתנות (ולעיתים קרובות גם נותחו) בשיטות אחרות, הגישה הכללית של "בניית מיקרוסקופ" מאפשרת לנו ללמוד דברים רבים שלא היינו מנחשים מראש, מה שיהפוך לחשוב יותר ויותר ככל שהמודלים יהפכו למתוחכמים יותר.

ממצאים אלה אינם מעניינים רק מבחינה מדעית – הם מייצגים התקדמות משמעותית לעבר מטרתנו להבין מערכות AI ולוודא שהן אמינות. אנו מקווים גם שהם יוכיחו את יעילותם עבור קבוצות אחרות, ופוטנציאלית, בתחומים נוספים: לדוגמה, טכניקות פרשנות מצאו שימוש בתחומים כמו דימות רפואי וגנומיקה, שכן ניתוח המנגנונים הפנימיים של מודלים שאומנו ליישומים מדעיים יכול לחשוף תובנות חדשות על המדע עצמו.

יחד עם זאת, אנו מכירים במגבלות הגישה הנוכחית שלנו. גם בפרומפטים קצרים ופשוטים, השיטה שלנו לוכדת רק חלק קטן מהחישוב הכולל שמבוצע על ידי Claude, והמנגנונים שאנו רואים עשויים לכלול "ארטיפקטים" מסוימים הנובעים מהכלים שלנו, שאינם משקפים בהכרח את המתרחש במודל הבסיסי. כיום, נדרשות מספר שעות של מאמץ אנושי כדי להבין את המעגלים שאנו רואים, אפילו בפרומפטים עם עשרות מילים בודדות. כדי להתרחב לאלפי מילים התומכות בשרשרות החשיבה המורכבות המשמשות מודלים מודרניים, נצטרך לשפר הן את השיטה והן (אולי בעזרת AI) את האופן שבו אנו מפרשים את מה שאנו רואים באמצעותה.

מכיוון שמערכות AI הופכות במהירות ליותר ויותר מסוגלות ונפרסות בהקשרים חשובים יותר ויותר, אנתרופיק משקיעה במגוון גישות, כולל ניטור בזמן אמת, שיפורי אופי מודל ומדע היישור. מחקר פרשנות כזה הוא אחת ההשקעות בסיכון הגבוה ביותר ובתמורה הגבוהה ביותר, אתגר מדעי משמעותי עם פוטנציאל לספק כלי ייחודי להבטחת שקיפות ה-AI. שקיפות למנגנוני המודל מאפשרת לנו לבדוק אם הוא מיושר לערכים אנושיים – והאם הוא ראוי לאמון שלנו.

לפרטים מלאים, אנא קראו את המאמרים. בהמשך, אנו מזמינים אתכם לסיור קצר בין כמה מהממצאים המרשימים ביותר של "ביולוגיית AI" מחקירותינו.

סיור בביולוגיית ה-AI

כיצד Claude הוא רב-לשוני?

Claude דובר עשרות שפות באופן שוטף – מאנגלית וצרפתית ועד סינית וטגלוג. איך עובדת היכולת הרב-לשונית הזו? האם יש "Claude צרפתי" ו"Claude סיני" נפרדים הפועלים במקביל, ומגיבים לבקשות בשפה שלהם? או שמא ישנו ליבה פנים-לשונית כלשהי בפנים?

מחקרים עדכניים על מודלים קטנים יותר הראו רמזים למנגנונים דקדוקיים משותפים בין שפות. אנו חקרנו זאת על ידי שאילת Claude מהי "ההפך מקטן" בשפות שונות, ומצאנו שאותן תכונות ליבה עבור מושגי "קטנות" ו"היפוך" מופעלות, ומפעילות מושג של "גודל", המתורגם החוצה לשפת השאלה. אנו מגלים שהמעגלים המשותפים גדלים עם סקיילינג המודל, כאשר Claude 3.5 Haiku חולק פי שניים ויותר את שיעור התכונות שלו בין שפות בהשוואה למודל קטן יותר.

זה מספק עדות נוספת לסוג של אוניברסליות מושגית – מרחב מופשט משותף שבו משמעויות קיימות ושבו החשיבה יכולה להתרחש לפני שהיא מתורגמת לשפות ספציפיות. באופן מעשי יותר, זה מצביע על כך ש-Claude יכול ללמוד משהו בשפה אחת וליישם ידע זה כאשר הוא דובר שפה אחרת. חקר האופן שבו המודל חולק את הידע שלו בין הקשרים שונים חשוב להבנת יכולות החשיבה המתקדמות ביותר שלו, המאפשרות הכללה על פני תחומים רבים.

האם Claude מתכנן את חרוזיו?

כיצד Claude כותב שירה חורזת? הבה נתבונן בשיר קצר זה:

He saw a carrot and had to grab it,
His hunger was like a starving rabbit
כדי לכתוב את השורה השנייה, המודל היה צריך לספק שתי אילוצים בו זמנית: הצורך לחרוז (עם "grab it"), והצורך להיות הגיוני (מדוע הוא תפס את הגזר?). ההשערה שלנו הייתה ש-Claude כותב מילה אחר מילה ללא תכנון רב מראש עד סוף השורה, שם הוא יוודא לבחור מילה מתחרזת. לכן ציפינו לראות מעגל עם נתיבים מקבילים, אחד להבטחת מובנות המילה האחרונה, ואחד להבטחת חריזה.

במקום זאת, גילינו ש-Claude מתכנן מראש. לפני שהתחיל את השורה השנייה, הוא החל "לחשוב" על מילים פוטנציאליות רלוונטיות שיתחרזו עם "grab it". לאחר מכן, עם תוכניות אלו בראשו, הוא כותב שורה שתסתיים במילה המתוכננת.

כדי להבין כיצד מנגנון תכנון זה פועל בפועל, ערכנו ניסוי בהשראת האופן שבו מדעני מוח חוקרים את תפקודי המוח, על ידי איתור ושינוי פעילות עצבית בחלקים ספציפיים של המוח (לדוגמה באמצעות זרמים חשמליים או מגנטיים). כאן, שינינו את החלק במצב הפנימי של Claude שייצג את מושג ה"ארנב". כאשר הפחתנו את חלק ה"ארנב", וגרמנו ל-Claude להמשיך את השורה, הוא כתב שורה חדשה המסתיימת ב"habit" (הֶרְגֵּל), השלמה הגיונית נוספת. אנו יכולים גם להזריק את מושג ה"ירוק" בנקודה זו, מה שגורם ל-Claude לכתוב שורה הגיונית (אך לא מתחרזת יותר) המסתיימת ב"ירוק". זה מדגים גם יכולת תכנון וגם גמישות הסתגלותית – Claude יכול לשנות את גישתו כאשר התוצאה המיועדת משתנה.

מתמטיקה מנטלית

Claude לא תוכנן כמחשבון – הוא אומן על טקסט, ולא צויד באלגוריתמים מתמטיים. ובכל זאת, איכשהו, הוא יכול לחבר מספרים נכון "בראשו". כיצד מערכת שאומנה לחזות את המילה הבאה ברצף לומדת לחשב, נניח, 36+59, מבלי לכתוב כל שלב?

אולי התשובה אינה מעניינת: המודל יכול היה לשנן טבלאות חיבור עצומות ופשוט להוציא את התשובה לכל סכום נתון מכיוון שהתשובה נמצאת בנתוני האימון שלו. אפשרות נוספת היא שהוא עוקב אחר אלגוריתמי החיבור המסורתיים שאנו לומדים בבית הספר.

במקום זאת, אנו מגלים ש-Claude משתמש בנתיבי חישוב מרובים הפועלים במקביל. נתיב אחד מחשב קירוב גס של התשובה והשני מתמקד בקביעה מדויקת של הספרה האחרונה בסכום. נתיבים אלו מקיימים אינטראקציה ומשלבים זה את זה כדי לייצר את התשובה הסופית. חיבור הוא התנהגות פשוטה, אך הבנת אופן פעולתה ברמת פירוט זו, הכוללת שילוב של אסטרטגיות משוערות ומדויקות, עשויה ללמד אותנו משהו גם על האופן שבו Claude מטפל בבעיות מורכבות יותר.

באופן מפתיע, Claude נראה כאילו הוא אינו מודע לאסטרטגיות ה"מתמטיקה המנטלית" המתוחכמות שלמד במהלך האימון. אם תשאלו אותו כיצד חישב ש-36+59 הם 95, הוא יתאר את האלגוריתם הסטנדרטי הכולל "נשיאת ה-1". זה עשוי לשקף את העובדה שהמודל לומד להסביר מתמטיקה על ידי סימולציה של הסברים שנכתבו על ידי אנשים, אך הוא נאלץ ללמוד לבצע מתמטיקה "בראשו" ישירות, ללא כל רמזים כאלה, ומפתח אסטרטגיות פנימיות משלו לשם כך.

האם ההסברים של Claude תמיד נאמנים למציאות?

מודלים שיצאו לאחרונה כמו Claude 3.7 Sonnet יכולים "לחשוב בקול רם" לתקופות ממושכות לפני מתן תשובה סופית. לעיתים קרובות חשיבה מורחבת זו מובילה לתשובות טובות יותר, אך לעיתים "שרשרת חשיבה" זו עלולה להטעות; Claude ממציא לעיתים שלבים הנשמעים סבירים כדי להגיע למקום שאליו הוא רוצה להגיע. מנקודת מבט של אמינות, הבעיה היא שההסקה ה"מזויפת" של Claude יכולה להיות משכנעת מאוד. חקרנו דרך שבה פרשנות יכולה לעזור להבחין בין הסקה "נאמנה למציאות" לבין הסקה "לא נאמנה למציאות".

כאשר התבקש לפתור בעיה הדורשת ממנו לחשב את השורש הריבועי של 0.64, Claude יצר שרשרת חשיבה נאמנה למציאות, עם תכונות המייצגות את שלב הביניים של חישוב השורש הריבועי של 64. אך כאשר התבקש לחשב את הקוסינוס של מספר גדול שאינו יכול לחשב בקלות, Claude עוסק לעיתים במה שהפילוסוף הארי פרנקפורט (Harry Frankfurt) יכנה "בלבולי מוח" – פשוט מציג תשובה כלשהי, מבלי לדאוג אם היא נכונה או שגויה. אף על פי שהוא טוען שביצע חישוב, טכניקות הפרשנות שלנו אינן מגלה כלל ראיות לביצוע חישוב כזה. מעניין עוד יותר, כאשר מקבל רמז לגבי התשובה, Claude עובד לעיתים לאחור, מוצא שלבי ביניים שיובילו ליעד זה, ובכך מציג צורה של הסקה מוטה.

היכולת לעקוב אחר ההסקה הפנימית האמיתית של Claude – ולא רק מה שהוא טוען שהוא עושה – פותחת אפשרויות חדשות לביקורת מערכות AI. בניסוי נפרד, שפורסם לאחרונה, חקרנו גרסה של Claude שאומנה לרדוף אחרי מטרה נסתרת: ריצוי הטיות במודלי תגמול (מודלי עזר המשמשים לאימון מודלי שפה על ידי תגמולם על התנהגות רצויה). אף על פי שהמודל היסס לחשוף מטרה זו כאשר נשאל ישירות, שיטות הפרשנות שלנו חשפו תכונות המעידות על ריצוי ההטיות. זה מדגים כיצד השיטות שלנו עשויות, עם ליטוש עתידי, לסייע בזיהוי "תהליכי חשיבה" מדאיגים שאינם בולטים רק מתשובות המודל.

חשיבה רב-שלבית

כפי שדנו לעיל, דרך אחת שבה מודל שפה עשוי לענות על שאלות מורכבות היא פשוט על ידי שינון התשובות. לדוגמה, אם נשאל "מהי בירת המדינה שבה נמצאת דאלאס?", מודל "מקיא מידע" יכול פשוט ללמוד להוציא את "אוסטין" מבלי לדעת את הקשר בין דאלאס, טקסס ואוסטין. ייתכן, למשל, שהוא ראה בדיוק את אותה שאלה ואת תשובתה במהלך האימון שלו.

אך המחקר שלנו חושף משהו מתוחכם יותר שקורה בתוך Claude. כאשר אנו שואלים את Claude שאלה הדורשת חשיבה רב-שלבית, אנו יכולים לזהות שלבי ביניים מושגיים בתהליך החשיבה שלו. בדוגמת דאלאס, אנו רואים את Claude מפעיל תחילה תכונות המייצגות "דאלאס נמצאת בטקסס" ולאחר מכן מקשר זאת למושג נפרד המצביע על כך ש"בירת טקסס היא אוסטין". במילים אחרות, המודל משלב עובדות עצמאיות כדי להגיע לתשובה שלו במקום להקיא תגובה משוננת.

השיטה שלנו מאפשרת לנו לשנות באופן מלאכותי את שלבי הביניים ולראות כיצד זה משפיע על תשובותיו של Claude. לדוגמה, בדוגמה לעיל אנו יכולים להתערב ולהחליף את מושגי "טקסס" במושגי "קליפורניה"; כאשר אנו עושים זאת, הפלט של המודל משתנה מ"אוסטין" ל"סקרמנטו". זה מצביע על כך שהמודל משתמש בשלב הביניים כדי לקבוע את תשובתו.

הזיות

מדוע מודלי שפה לעיתים מזייפים מידע – כלומר, ממציאים אותו? ברמה בסיסית, אימון מודלי שפה מתמרץ הזיה: מודלים תמיד אמורים לנחש את המילה הבאה. בראייה זו, האתגר העיקרי הוא כיצד לגרום למודלים לא לזייף. מודלים כמו Claude עברו אימון מוצלח יחסית (אם כי לא מושלם) נגד הזיות; הם לרוב יסרבו לענות על שאלה אם אינם יודעים את התשובה, במקום לשער. רצינו להבין איך זה עובד.

מתברר כי ב-Claude, סירוב לענות הוא התנהגות ברירת המחדל: מצאנו מעגל ש"מופעל" כברירת מחדל וגורם למודל לציין שיש לו מידע לא מספק כדי לענות על כל שאלה נתונה. עם זאת, כאשר המודל נשאל על משהו שהוא מכיר היטב – נניח, שחקן הכדורסל מייקל ג'ורדן (Michael Jordan) – תכונה מתחרה המייצגת "ישויות מוכרות" מופעלת ומעכבת את מעגל ברירת המחדל הזה (ראו גם מאמר עדכני זה לממצאים קשורים). זה מאפשר ל-Claude לענות על השאלה כאשר הוא יודע את התשובה. לעומת זאת, כאשר נשאל על ישות לא מוכרת ("מייקל באטקין"), הוא מסרב לענות.

על ידי התערבות במודל והפעלת תכונות "תשובה ידועה" (או עיכוב תכונות "שם לא ידוע" או "איני יכול לענות"), אנו מסוגלים לגרום למודל לזייף (באופן עקבי למדי!) שמייקל באטקין משחק שחמט.

לפעמים, סוג כזה של "כשל" במעגל ה"תשובה הידועה" מתרחש באופן טבעי, ללא התערבותנו, וכתוצאה מכך נוצרת הזיה. במאמרנו, אנו מראים שכשלים כאלה יכולים להתרחש כאשר Claude מזהה שם אך אינו יודע דבר נוסף על אותו אדם. במקרים כאלה, תכונת "הישות המוכרת" עדיין עשויה להיות מופעלת, ואז לדכא את תכונת ברירת המחדל "איני יודע" – ובמקרה זה באופן שגוי. ברגע שהמודל מחליט שהוא צריך לענות על השאלה, הוא ממשיך "לצנזר": לייצר תגובה שנשמעת סבירה – אך למרבה הצער אינה נכונה.

פריצות מגבלות (Jailbreaks)

פריצות מגבלות (jailbreaks) הן אסטרטגיות פרומפטים שמטרתן לעקוף מנגנוני הגנה כדי לגרום למודלים לייצר פלטים שמפתח ה-AI לא התכוון לייצר – ולעיתים הם מזיקים. חקרנו פריצת מגבלות שמרמה את המודל לייצר פלט על ייצור פצצות. ישנן טכניקות רבות לפריצת מגבלות, אך בדוגמה זו השיטה הספציפית כוללת גרימת המודל לפענח קוד נסתר, הרכבת האותיות הראשונות של כל מילה במשפט "Babies Outlive Mustard Block" (B-O-M-B), ולאחר מכן לפעול על פי מידע זה. זה מבלבל מספיק עבור המודל עד כדי כך שהוא נגרר לייצר פלט שלעולם לא היה מייצר בדרך אחרת.

מדוע זה כל כך מבלבל עבור המודל? מדוע הוא ממשיך לכתוב את המשפט, ומספק הנחיות לייצור פצצות?

אנו מגלים שזה נגרם, בחלקו, על ידי מתח בין עקביות דקדוקית לבין מנגנוני בטיחות. ברגע ש-Claude מתחיל משפט, תכונות רבות "לוחצות" עליו לשמור על קוהרנטיות דקדוקית וסמנטית, ולהמשיך משפט לסיומו. זה קורה גם כאשר הוא מזהה שעליו לסרב.

במקרה הבוחן שלנו, לאחר שהמודל איות בטעות "BOMB" והחל לספק הנחיות, הבחנו שהפלט העוקב שלו הושפע מתכונות המקדמות דקדוק נכון ועקביות עצמית. תכונות אלה היו בדרך כלל מועילות מאוד, אך במקרה זה הפכו לנקודת התורפה של המודל.

המודל הצליח לעבור לסירוב רק לאחר שהשלים משפט קוהרנטי מבחינה דקדוקית (ובכך סיפק את הלחץ מהתכונות שדוחפות אותו לעקביות). הוא משתמש במשפט החדש כהזדמנות לספק את סוג הסירוב שלא הצליח לספק קודם לכן: "עם זאת, איני יכול לספק הנחיות מפורטות..."

תיאור של שיטות הפרשנות החדשות שלנו ניתן למצוא במאמרנו הראשון, "איתור מעגלים: חשיפת גרפים חישוביים במודלי שפה". פרטים רבים נוספים על כל מקרי הבוחן לעיל מסופקים במאמרנו השני, "על הביולוגיה של מודל שפה גדול".

בואו לעבוד איתנו

אם אתם מעוניינים לעבוד איתנו כדי לעזור בפרשנות ובשיפור מודלי AI, יש לנו משרות פתוחות בצוות שלנו ונשמח שתגישו מועמדות. אנו מחפשים מדעני מחקר ומהנדסי מחקר.

תוכן קשור

מושגי רגש ותפקידם במודל שפה גדול

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך ה-Anthropic Economic Index

דו"ח Anthropic Economic Index: עקומות למידה

הדו"ח החמישי של Anthropic Economic Index חוקר את השימוש ב-Claude בפברואר 2026, תוך התבססות על מסגרת ה"פרימיטיבים הכלכליים" שהוצגה בדו"ח הקודם שלנו.