אנתרופיק, חברת מחקר ובטיחות AI מובילה, מציגה מחקר פורץ דרך שמטרתו למקסם את הפוטנציאל של מודל השפה הגדול (LLM) שלה, קלוד (Claude), בעיקר כאשר הוא פועל עם חלון הקשר ארוך במיוחד של עד 100,000 טוקנים – כמות שיכולה להכיל מאות עמודים של תיעוד טכני או ספר שלם. ככל שהביקוש ליכולות ה-API של קלוד גובר, כך עולה הצורך בהדרכה מעשית בתחום הנדסת הפרומפטים. במסגרת זו, פרסמה אנתרופיק מקרה בוחן כמותי המתמקד בשתי טכניקות מרכזיות לשיפור זיכרון המודל בתוך הקשרים ארוכים:
- שליפת ציטוטים רלוונטיים לשאלה לפני מתן תשובה.
- הוספת דוגמאות של שאלות ותשובות נכונות על קטעים אחרים מהמסמך לתוך הפרומפט.
שיפור דיוק הזיכרון בחלונות הקשר ארוכים
כדי להעריך את הטכניקות הללו, צוות המחקר התמקד בשיפור יכולתו של קלוד לשלוף פיסות מידע ספציפיות ממסמכים ארוכים. הם השתמשו במסמכים ממשלתיים ציבוריים כדאטה סורס, ובשיטת “קולאז' אקראי” יצרו מערך שאלות ותשובות מרובות בחירה, כשקלוד עצמו מייצר את השאלות. תהליך זה לא היה נטול אתגרים – מודל השפה נטה לעיתים לייצר שאלות שהוא כבר יודע לענות עליהן, שאלות מורכבות מדי או להשאיר רמזים לא מכוונים בתשובות. כמו כן, אזכורים כלליים ל“מסמך זה” יצרו בעיות במצב של מסמכים מחוברים, מה שהדגיש את הצורך בפרומפטים מפורטים ומכוונים. לצורך ההערכה, המיקוד העיקרי היה במודל Claude Instant 1.2 הקטן יותר, שכן שינויים בפרומפטים מראים עליו השפעה ברורה יותר מאשר על Claude 2 החזק ממילא.
הניסוי כלל בחינת ארבע אסטרטגיות פרומפטים שונות, עם ובלי שימוש ב-<scratchpad> (מעין “פנקס שרטוטים” המנחה את קלוד לשלוף ציטוטים רלוונטיים) ובמיקומים שונים של התשובה בתוך חלון הקשר הארוך (70K ו-95K טוקנים). הממצאים הדגימו באופן מובהק כי שימוש רב בדוגמאות וב-scratchpad מניב את הביצועים הטובים ביותר בשני אורכי חלון הקשר. שליפת ציטוטים משפרת את הדיוק בכל ההשוואות, בעוד שדוגמאות מתוך הקשר הספציפי מסייעות משמעותית – וככל שמספר הדוגמאות גדול יותר, כך הביצועים טובים יותר. דוגמאות כלליות שאינן קשורות למסמך לא הראו שיפור. בפרט, מודל Claude 2 הראה שיפור של 36% בהפחתת שגיאות בזכות הנדסת פרומפטים אופטימלית, למרות שנראה שהשיפור המוחלט קטן.
הכירו את ה-Anthropic Cookbook החדש
הקוד ששימש לניסוי זמין כעת באופן מלא ב- Anthropic Cookbook החדש, אוסף מתרחב של משאבים המיועדים לסייע למפתחים לממש את מלוא הפוטנציאל של קלוד. ה-Cookbook כולל כרגע גם הדגמות נוספות, כמו זרימת עבודה לשימוש בכלים (tool use) לחיפוש בוויקיפדיה, והדרכה להטמעת פונקציונליות העלאת קובצי PDF באמצעות ה-API של אנתרופיק. אנתרופיק מדגישה את מחויבותה להרחיב את המשאבים הללו בעתיד ומעודדת מפתחים לחקור את האפשרויות הגלומות בקלוד.



