מחקר של אנתרופיק: קלוד יכול להכפיל את צמיחת התפוקה בארה"ב

מבט מעמיק על חיסכון בזמן: מה קלוד מביא לשולחן העבודה?

מזה זמן רב ששוק העבודה תוהה כיצד תשתלב בינה מלאכותית (AI) ותשפיע על התפוקה. כעת, מחקר חדש מבית אנתרופיק (Anthropic), מפתחת מודל השפה הגדול (LLM) קלוד (Claude), מציג תובנות ראשוניות ומרתקות אודות הפוטנציאל הכלכלי העצום הטמון בשימוש במודלים הללו.

המחקר, שניתח מאה אלף שיחות אמיתיות מול Claude.ai (תוך שמירה על פרטיות המשתמשים), ניסה לאמוד כמה זמן ייקח לבצע משימות ספציפיות עם וללא סיוע AI. הממצאים המרכזיים מצביעים על כך שקלוד מאיץ את ביצוע המשימות בכ-80% בממוצע. במילים אחרות, משימה שארכה כ-90 דקות ללא AI, מתקצרת משמעותית בסיוע המודל.

השלכה מרחיקת לכת של ממצאים אלו, היא הערכה שמודלי AI מהדור הנוכחי יכולים להגדיל את צמיחת תפוקת העבודה בארה"ב בכ-1.8% מדי שנה בעשור הקרוב – נתון המכפיל בקירוב את קצב הצמיחה שנראה בשנים האחרונות. חשוב לסייג כי זו אינה תחזית לעתיד, שכן היא אינה לוקחת בחשבון את קצב האימוץ בפועל, או את ההשפעות הגדולות יותר שיגיעו ממערכות AI מתקדמות בהרבה בעתיד.

החוקרים מציינים מגבלות במחקרם, כגון חוסר היכולת להתייחס לזמן נוסף שבני אדם מקדישים למשימות מחוץ לשיחה עם קלוד, כמו אימות דיוק התוצר. עם זאת, ככל שמודלי AI ישתפרו בהערכת זמנים, שיטות המחקר הללו עשויות להפוך לכלי שימושי יותר להבנת האופן שבו AI מעצב את עולם העבודה האמיתי.

היכולת לחשב הערכות אלו על בסיס שיחות קלוד מהעולם האמיתי, מעניקה לנו עדשה חדשה להבנת השפעות התפוקה של ה-AI. זה משלים גישות אחרות, כמו מחקרים מעבדתיים בתחומים מצומצמים או נתונים סטטיסטיים ממשלתיים המספקים תובנות כלליות יותר. אנו נמשיך לעקוב אחר שינויים אלו כחלק מ-Anthropic Economic Index של אנתרופיק.

מתודולוגיה: כיצד אומדים את חיסכון הזמן?

כחלק מה-Anthropic Economic Index, אנתרופיק תיעדה כיצד אנשים משתמשים בקלוד על פני מגוון משימות, תעשיות ואזורים. בעוד שהמחקרים הקודמים התמקדו ברוחב השימושים – לדוגמה, כיצד קלוד משמש למשימות משפטיות, מדעיות וקידוד – המחקר הנוכחי התמקד בעומק. כלומר, עד כמה המשימות שקלוד מטפל בהן מהותיות, וכמה זמן קלוד חוסך בפועל.

הגרסה הקודמת של ה-Economic Index לא יכלה להבחין בין משימות כתיבת דוחות שלוקחות חמש דקות, לאלו שלוקחות חמישה ימים, או בין משימות מידול פיננסי שלוקחות אחר הצהריים, לאלו שלוקחות מספר שבועות. חוסר יכולת זה הקשה על הערכת ההשפעות הכלכליות האמיתיות של AI. לכן, כדי להבין כיצד AI מעצב מחדש את העבודה והתפוקה, היה צורך לדעת לא רק אילו משימות קלוד מטפל בהן, אלא עד כמה משימות אלו מהותיות ומהו חיסכון הזמן בפועל.

באמצעות מערכת הניתוח השומרת על פרטיות של אנתרופיק, החוקרים ניתחו 100,000 תמלילי שיחות מ-Claude.ai (ממשתמשים חופשיים, Pro ו-Max) כדי למדוד את אורך וחיסכון הזמן במשימות שקלוד מטפל בהן. עבור כל משימה, הם יצרו שתי הערכות ליבה:

הערכת זמן ללא AI: מספר השעות שיידרשו לאיש מקצוע אנושי מיומן להשלים את המשימה ללא סיוע AI.
הערכת זמן עם AI: משך הזמן שלקח להשלים את המשימה בסיוע AI, כולל זמן האינטראקציה של המשתמש עם המודל ועיבוד התוצאות.

הערכות אלו הופקו באמצעות קלוד עצמו, שקיבל את תמלילי השיחות ופרומפטים ייעודיים להערכת זמנים. לאחר מכן, הנתונים רוכזו למשימות בטקסונומיית O*NET, מה שאיפשר לבחון את השונות בהערכות הזמן בין משימות ועיסוקים שונים בכלכלה.

אימות הגישה: עד כמה הערכות המודל מדויקות?

הערכת משך משימה קשה מאוד לבני אדם, ולמודלי AI היא מאתגרת אף יותר בשל חוסר ההקשר המלא. כדי להעריך את מהימנות הערכות קלוד, נערכו שני ניתוחי אימות:

בדיקת עקביות עצמית:

החוקרים בדקו האם קלוד מייצר הערכות יציבות של אורכי משימות על פני דגימות שיחה שונות או על פני וריאציות בניסוח הפרומפטים. התוצאות הראו הסכמה עצמית חזקה, עם מתאמי סולם לוגריתמי של r=0.89–0.93 בין הווריאנטים, מה שמעיד על עקביות יחסית בהערכות המודל.

בנצ'מרק חיצוני:

הערכות קלוד נבחנו מול מערך נתונים של אלפי משימות פיתוח תוכנה מהעולם האמיתי, שנאספו מכרטיסי JIRA עבור מאגרי קוד פתוח. מערך נתונים זה כלל גם הערכות מפתחים וגם זמני השלמה בפועל. על תת-קבוצה של 1,000 משימות ממדד ביצועים זה, מפתחים אנושיים השיגו מתאם ρ=0.50 ו-r_log=0.67 עם זמנים בפועל. קלוד Sonnet 4.5 השיג מתאם מעט נמוך יותר של ρ=0.44 ו-r_log=0.46, ועם זאת, הניתוח מצביע על כך שהערכות קלוד מספקות מידע כיווני שאינו נופל בהרבה מדיוק הערכות המפתחים עצמם. ממצאים אלו מראים שלתחזיות המודל יש מתאם משמעותי עם תוצאות מהעולם האמיתי, לפחות בתחום זה, מה שהופך אותן לשימושיות להשוואת משימות או מעקב אחר שינויים לאורך זמן.

ממצאי המחקר: חיסכון עצום ופוטנציאל כלכלי

חיסכון ברמת המשימה: דוגמאות והיקפים

הסתכלות על משימות בודדות בתוך מקצועות מספקת דוגמאות קונקרטיות היכן וכיצד AI עשוי לספק חיסכון בזמן. לדוגמה, משתמשים השלימו משימות פיתוח תוכניות לימודים שלדעת קלוד ייקחו 4.5 שעות, ב-11 דקות בלבד. משימות כאלה מגלמות עלות עבודה של 115 דולר בהתבסס על השכר הממוצע לשעה של מורים.

קלוד סייע גם לחסוך 87% מהזמן שיידרש לכתיבת חשבוניות, מזכרים ומסמכים אחרים, ו-80% מהזמן במשימות אנליסטים פיננסיים כמו פירוש נתונים פיננסיים – משימות שעלותן הרגילה היא 31 דולר בשכר. בסך הכל, אנו מעריכים שקלוד מטפל בעבודה שעלותה הממוצעת 54 דולר בעבודת מומחה לביצוע כל שיחה.

שונות דרמטית באורך המשימה ובעלותה בין מקצועות שונים

הערכות זמן אנושיות מראות שקלוד מטפל במשימות בעלות אורכים שונים מאוד בהתאם למקצוע. משימת ניהול ממוצעת שבה נעשה שימוש בקלוד (לדוגמה, בחירת השקעות) מוערכת בכ-2.0 שעות להשלמה אנושית, ואחריה משימות משפטיות (1.8 שעות), חינוך (1.7) ואמנות/מדיה (1.6). בקצה השני של הספקטרום, משימות הכנת מזון, התקנה/תחזוקה ומשימות הובלה לוקחות בממוצע 0.3-0.5 שעות.

הערכות עלות מעצימות את השונות הזו בהשפעת ה-AI: המשימות עם הערכות הזמן הארוכות ביותר נוטות להיות גם המשימות עם עלויות העבודה הגבוהות ביותר. משימת ניהול ממוצעת תעלה 133 דולר לאיש מקצוע, לעומת 119 דולר למשימות משפטיות ו-8 דולר למשימות הקשורות להכנת והגשת מזון. משימות עסקיות ופיננסיות עולות בממוצע 69 דולר, ומשימות מחשוב ומתמטיקה עולות בממוצע 82 דולר.

המחקר מראה מתאם חיובי בין השכר הממוצע לשעה בקרב המשימות/מקצועות שנבדקו לבין משך הזמן השקול-לאנושי של המשימות שקלוד מטפל בהן. לדוגמה, קטגוריות הניהול והמשפט מדורגות בראש הסיווג מבחינת שכר ממוצע לשעה – בתיאום עם חוזקותיו של קלוד בעבודת ידע מורכבת.

חיסכון בזמן אינו אחיד בין מקצועות

חציון השיחות חווה חיסכון מוערך של 84% בזמן, אם כי יש שונות ניכרת. לדוגמה, משימת בדיקת תמונות אבחון מראה חיסכון של 20% בלבד, ככל הנראה מכיוון שזו כבר משימה שמומחים יכולים לבצע במהירות ללא סיוע AI. לעומת זאת, משימת איסוף מידע מדוחות מראה חיסכון של כ-95% בזמן, ככל הנראה מכיוון שמערכות AI יכולות לקרוא, לחלץ ולצטט מידע הרבה יותר מהר מבני אדם. בסך הכל, התפלגות הזמן שנחסך לפי משימה מרוכזת בטווח של 50-95%, עם שיא בין 80-90%.

חיסכון גדול זה בזמן מתיישב עם יכולותיו של קלוד לקרוא ולכתוב מהר בהרבה מבני אדם. עם זאת, הגישה של אנתרופיק אינה לוקחת בחשבון את העבודה הנוספת שבני אדם צריכים לעשות כדי לחדד את תפוקות קלוד למצב גמור, או אם הם ממשיכים לבצע איטרציות על תוצר העבודה על פני מספר מפגשים – שניהם יביאו לחיסכון קטן יותר בזמן.

מהחיסכון ברמת המשימה להשפעה כלל-כלכלית

כדי להבין השפעות ברמת המאקרו, חלק זה בדו"ח מדגמן כיצד הישגי תפוקה אלו יכולים להתאגד בכלכלה כולה, בהנחה שהם יתממשו בהתאם להערכות קלוד. החוקרים השתמשו בתיאורמת הולטן (Hulten’s theorem), שיטה סטנדרטית המאפשרת לאגד הישגי יעילות ברמת המשימה לכלכלת ארה"ב הרחבה. מודל זה מניח שהשקעת ההון תגדל כתוצאה מגידול בתפוקת גורמים כוללת (TFP) הקשורה לאימוץ AI.

ממצאים: 1.8% צמיחת תפוקה שנתית

בהנחה של עשר שנים לאימוץ אוניברסלי של AI בכלכלת ארה"ב – ושימוש במודלים הנוכחיים – אנתרופיק מחשבת כי הערכות קלוד מביאות לגידול שנתי בתפוקת העבודה בארה"ב של 1.8%. נתון זה כמעט ומכפיל את קצב הצמיחה ארוך הטווח הנוכחי, ואף גבוה מצמיחת ה-TFP שנראתה מאז תחילת שנות ה-2000, מה שמרמז על כך שאפילו פריסה רחבה של מערכות AI הנוכחיות יכולה לגרום לצמיחה להכפיל את עצמה.

חשוב לציין כי תרגיל זה מניח כי יכולות AI ויעילות בני האדם בשימוש ב-AI נשארות זהות במהלך עשר השנים הבאות. זה, עם זאת, לא סביר שיתקיים: אנתרופיק מעריכה ש-AI ימשיך להשתפר במהירות בשנים הקרובות. לכן, הערכה זו צריכה להילקח כתרגיל הבוחן מה עשוי לקרות על בסיס דפוסי שימוש נוכחיים, ולא כניבוי של ההשפעה על התפוקה שסביר ביותר שתתרחש.

מפתחי תוכנה תורמים הכי הרבה (19%) לגידול הכולל בתפוקת העבודה המיוחס ל-AI. מנהלי כללי ותפעול (כ-6%), אנליסטים של מחקרי שוק ומומחי שיווק (5%), נציגי שירות לקוחות (4%) ומורים בחטיבות ביניים (3%) משלימים את חמשת המובילים. לעומת זאת, מסעדות, שירותי בריאות, בנייה וקמעונאות תורמים הרבה פחות להשפעת התפוקה הכוללת, בעיקר מכיוון שמעט ממשימותיהם מופיעות בנתונים שנבחנו.

צווארי בקבוק חדשים: כיצד AI משנה את חלוקת הזמן של עובדים?

אם עובדים יוכלו להאיץ תת-קבוצה של משימותיהם המקצועיות באמצעות AI, המשימות שבהן AI מספק פחות האצה עשויות לייצג חלק גדול יותר וחשוב יותר מעבודתם של אותם מקצועות. לדוגמה, AI עשוי לעזור למפקח בתים להכין דוחות, אך אם המפקח עדיין צריך להשקיע את אותו זמן בנסיעה פיזית לנכס כדי לבצע את הבדיקה באופן אישי, הדבר עלול להפוך את הבדיקות לחלק גדול יותר מהתפקיד הכולל.

עבור מפתחי תוכנה, AI מאיץ את תהליך פיתוח התוכנה, בדיקות, תיעוד ותפעול נתונים. אך כיום לא נראה שימוש משמעותי ב-AI לתיאום התקנת מערכות או פיקוח על עבודתם של טכנולוגים או מהנדסים אחרים. עבור מורים, AI מסייע בתכנון שיעורים ופעילויות, אך לא בחסות על מועדוני חוץ-לימודיים או באכיפת כללים בכיתה. תצפיות אלו מתיישבות היטב עם ההבנה כי "הצמיחה עלולה להיות מוגבלת לא על ידי מה שאנו טובים בו, אלא דווקא על ידי מה שחיוני וקשה לשפר."

מגבלות המחקר: מבט ביקורתי על הממצאים

גישת המחקר של אנתרופיק טומנת בחובה מספר מגבלות שיש להתייחס אליהן במחקרים עתידיים:

דיוק הערכות קלוד והיעדר אימות מציאותי: מערכות AI הן מנבאות לא מושלמות, ואינן יכולות לראות פעילות המתרחשת לאחר שהמשתמש מסיים את האינטראקציה עם המודל. אין נתונים מהעולם האמיתי לאמת את הערכות הזמן שקלוד מספק.
מגבלות טקסונומיית משימות: משרות אמיתיות מורכבות יותר מרשימת משימות O*NET, והקצאות הזמן שהוערכו הן משוערות בלבד. היבטים חשובים רבים של עבודה – ידע מרומז, מערכות יחסים, שיקול דעת באי-ודאות – אינם מופיעים בתיאורים רשמיים אלה.
הנחות מבניות: ההשוואה בין זמן ללא AI לזמן עם AI עשויה להמעיט בערך הישגי התפוקה (למשל, אין חישוב של עלויות גיוס והכשרה), או להפריז בהם (אם איכות עבודת ה-AI נמוכה משל אדם).
ארגון מחדש של ארגונים: המחקר לא יכול לנבא כיצד חברות יחליטו להתארגן מחדש סביב טכנולוגיות חדשות או כמה מהר יתרחש תהליך זה.
תפקיד החדשנות: המודל אינו לוכד כיצד מערכות AI יכולות להאיץ או להפוך לאוטומטיות תהליכים מדעיים, וגם לא את ההשפעות שיהיו לכך על התפוקה, הצמיחה ומבנה העבודה.
מגבלות נתונים: מערך הנתונים נגזר משיחות Claude.ai בלבד, ואינו מייצג את קשת השימושים המלאה ב-AI. קיימת הטיית בחירה שבה מקרים של משימות שאנשים משתמשים בהן בקלוד הם אלה שהם חושבים שקלוד יהיה שימושי ביותר עבורם.

עם זאת, תשתית המדידה שפותחה כאן מאפשרת מעקב מתמשך אחר השפעת ה-AI על חיסכון בזמן בקנה מידה גדול, וצפוי כי שיפורים עתידיים במודלים ובשיטות יאפשרו הערכות מדויקות יותר.

לסיכום: פוטנציאל עצום, אך הדרך עוד ארוכה

קלוד מטפל במשימות בעלות מורכבות משתנה מאוד – משאלות פשוטות בנושא הכנת מזון שייקחו מספר דקות להשלמה, ועד למשימות משפטיות וניהוליות מורכבות שייקחו שעות מרובות. בהתבסס על הערכות הזמן של קלוד לכל משימה (ובהנחה של אימוץ אוניברסלי בעשר השנים הבאות), אנו מוצאים כי שימוש במודלים נוכחיים מביא לגידול פוטנציאלי בתפוקת העבודה בארה"ב של 1.8% בשנה – הכפלה של קצב צמיחת תפוקת העבודה האחרון.

בהתבסס על השימוש הנוכחי ב-AI, הישגים אלו יתרכזו בטכנולוגיה, חינוך ושירותים מקצועיים, בעוד שבתחום הקמעונאות, המסעדות והתחבורה ייראו השפעה מינימלית. אנתרופיק תמשיך לעקוב אחר שינויים אלו לאורך זמן כחלק מ-Anthropic Economic Index ככל שיכולות המודלים, המוצרים והאימוץ ימשיכו להתקדם.

הישגי תפוקה אלו נובעים מהאצת השלמת משימות קיימות. היסטורית, שיפורי תפוקה טרנספורמטיביים – מחשמול, מחשוב או האינטרנט – הגיעו לא מהאצת משימות ישנות, אלא מארגון מחדש מהיסוד של הייצור. המסגרת של אנתרופיק יכולה לעזור לאמוד את ההשפעות של ארגון מחדש כזה, אך היא לא יכולה לנבא אילו שינויים יתרחשו, או כמה מהר. הבנה טובה יותר מתי וכיצד חברות מתארגנות מחדש סביב יכולות AI מתפתחות, תקבע מתי AI יעשה את הקפיצה ממתן דחיפות תפוקה משמעותיות אך מוגבלות, לייצוג סוג השינוי המבני שהגדיר היסטורית מהפכות טכנולוגיות.