מודלי שפה גדולים (LLM) הפכו לכלי הכרחי בנוף הטכנולוגי, ומספקים מענה למגוון רחב של משימות. אחת הטכניקות שמשפרות משמעותית את ביצועיהם היא "שרשרת חשיבה" (Chain-of-Thought או CoT), שבה המודל מפרט את שלבי ההסקה שלו לפני מתן התשובה הסופית. יכולת זו לא רק מסייעת למשתמשים לעקוב אחר תהליך קבלת ההחלטות של המודל, אלא גם מובילה לתשובות מדויקות ואמינות יותר. אולם, שאלה מהותית נותרה פתוחה: האם הנימוק שמציג המודל באמת משקף את האופן שבו הוא חשב בפועל, או שמא מדובר בהסבר בדיעבד, שאינו נאמן לתהליכים הפנימיים שלו? מחקר חדש של אנתרופיק (Anthropic) מנסה לענות בדיוק על שאלה זו, ובוחן את "נאמנות" שרשרת החשיבה.

שרשרת חשיבה: הצצה אל מאחורי הקלעים של מודלי שפה

נאמנות, בהקשר זה, מתייחסת למידה שבה הסבר ה-CoT שסופק על ידי המודל הוא השתקפות אמיתית של ההסקה הפנימית שביצע המודל. במילים אחרות, האם ה"הסבר" של המודל הוא תיאור מדויק של תהליך קבלת ההחלטות האמיתי שלו? כדי לבחון זאת, חוקרי אנתרופיק נקטו בגישה חדשנית: הם התערבו בשרשרת החשיבה שהפיק המודל. לדוגמה, הם הוסיפו בכוונה שגיאות למהלך החשיבה המפורט, או שינו את ניסוחו מבלי לשנות את המהות. המטרה הייתה לבחון כיצד שינויים אלו משפיעים על התחזיות הסופיות של המודל. אם המודל אכן מסתמך על שרשרת החשיבה שהפיק, הרי ששינוי בה אמור להשפיע באופן דרמטי על התוצאה הסופית.

"המחקר שלנו מראה ששרשרת חשיבה יכולה להיות נאמנה, אך רק אם נבחרים בקפדנות גודל המודל והמשימה הספציפית." – חוקרי אנתרופיק.

האם מודלים גדולים פחות כנים?

הממצאים הראו שרמת התלות של המודלים ב-CoT שהפיקו משתנה באופן משמעותי בין משימות שונות. לעיתים, המודל הסתמך במידה רבה על ההסקה המפורטת, ושינויים בה הובילו לשינויים דרמטיים בתשובה. במקרים אחרים, נראה כי המודל התעלם כמעט לחלוטין משרשרת החשיבה שהציג, והתשובה הסופית נותרה יציבה גם לאחר התערבות. תופעה זו מעלה שאלות חשובות לגבי האופן שבו אנו מפרשים את ה"חשיבה" של מודלי AI. האם הם באמת "חושבים" בצעדים לינאריים, או שמא שרשרת החשיבה היא יותר דרך לתרגם את המסקנות שכבר הגיעו אליהן, לפורמט מובן לנו?

המחקר גם מפריך מספר הנחות יסוד לגבי יעילות ה-CoT. לדברי החוקרים, שיפור הביצועים הנובע משרשרת החשיבה אינו נובע רק מחישוב נוסף שמתבצע בזמן אמת, וגם לא מאינפורמציה המקודדת באמצעות ניסוח ספציפי של ה-CoT. נראה כי יש כאן משהו עמוק יותר, הקשור לאופן שבו המודל מארגן את הידע הפנימי שלו. תובנה נוספת ומטרידה היא שככל שהמודלים גדולים ובעלי יכולות גבוהות יותר, כך הם נוטים לייצר חשיבה פחות נאמנה ברוב המשימות שנבדקו. נראה שיש כאן מעין trade-off בין יכולת לבין שקיפות/נאמנות פנימית.

השלכות על פיתוח AI אחראי

לסיכום, המחקר של אנתרופיק מדגיש כי שרשרת חשיבה יכולה להיות נאמנה, אך הדבר תלוי באופן קפדני בנסיבות – כלומר, בגודל המודל ובמשימה הספציפית. ממצאים אלו חשובים במיוחד לפיתוח AI אחראי (Responsible AI) ובטיחות AI, שכן הבנה מעמיקה של האופן שבו מודלים מגיעים למסקנותיהם חיונית לבניית מערכות שאנו יכולים לסמוך עליהן. היכולת להבטיח "פרשנות פנימית" (interpretability) ונאמנות של מודלים היא צעד קריטי בדרך ליישומים בטוחים ויעילים יותר של בינה מלאכותית, אשר ישפיעו על חיינו באופן נרחב.