מחקר: האם סיוע של AI בקידוד פוגע בפיתוח כישורים?

כיצד סיוע של AI משפיע על פיתוח כישורי קידוד?

מחקרים רבים מראים ש-AI מסייע לאנשים לבצע חלקים מעבודתם מהר יותר. במחקר תצפיתי קודם על נתוני השימוש ב-Claude.ai, מצאנו כי AI יכול להאיץ משימות מסוימות בשיעור של עד 80%. אך האם פרודוקטיביות מוגברת זו מגיעה עם מחיר? מחקרים אחרים מצביעים על כך שכאשר אנשים משתמשים בסיוע של AI, הם הופכים פחות מעורבים בעבודתם ו-מפחיתים את המאמץ שהם משקיעים בביצועה – כלומר, הם מעבירים את החשיבה שלהם ל-AI.

לא ברור אם העברת חשיבה קוגניטיבית זו יכולה למנוע מאנשים לפתח את כישוריהם בעבודה, או – במקרה של קידוד – להבין את המערכות שהם בונים. המחקר האחרון שלנו, ניסוי מבוקר אקראי עם מפתחי תוכנה כמשתתפים, בוחן את החיסרון הפוטנציאלי הזה בשימוש ב-AI בעבודה.

לשאלה זו יש השלכות רחבות – על אופן עיצוב מוצרי AI המקלים על למידה, על האופן שבו מקומות עבודה צריכים לגשת למדיניות AI, ועל חוסן חברתי רחב יותר, בין היתר. התמקדנו בקידוד, תחום שבו כלי AI הפכו במהירות לסטנדרט. כאן, AI יוצר מתח פוטנציאלי: ככל שהקידוד הופך אוטומטי יותר ומאיץ את העבודה, בני אדם עדיין יצטרכו את הכישורים לאתר טעויות, להנחות את הפלט, ובסופו של דבר לספק פיקוח על AI הנפרס בסביבות קריטיות. האם AI מספק קיצור דרך גם לפיתוח כישורים וגם ליעילות מוגברת? או שמא העלייה בפרודוקטיביות מסיוע של AI פוגעת בפיתוח כישורים?

בניסוי מבוקר אקראי, בחנו 1) באיזו מהירות מפתחי תוכנה למדו כישרון חדש (במקרה זה, ספריית Python) עם ובלי סיוע של AI; ו-2) האם השימוש ב-AI הפחית את הסיכוי שיבינו את הקוד שכתבו זה עתה.

מצאנו כי שימוש בסיוע של AI הוביל לירידה מובהקת סטטיסטית ברמת השליטה. במבחן שכיסה מושגים שבהם השתמשו דקות ספורות לפני כן, המשתתפים בקבוצת ה-AI קיבלו ציון נמוך ב-17% מאלה שקידדו ידנית, או שווה ערך לכמעט שתי דרגות ציון. השימוש ב-AI האיץ את המשימה במעט, אך ההבדל לא הגיע לסף המובהקות הסטטיסטית.

חשוב לציין, שסיוע של AI לא הבטיח ציון נמוך יותר. ה״איך״ שבו אדם השתמש ב-AI השפיע על כמות המידע שנשמרה אצלו. המשתתפים שהפגינו שליטה חזקה יותר השתמשו בסיוע של AI לא רק כדי לייצר קוד, אלא כדי לבנות הבנה תוך כדי כך – בין אם על ידי שאילת שאלות המשך, בקשת הסברים, או העלאת שאלות קונספטואליות תוך כדי קידוד עצמאי.

עיצוב המחקר

גייסנו 52 מהנדסי תוכנה (רובם ג'וניורים), שכל אחד מהם השתמש ב-Python לפחות פעם בשבוע במשך למעלה משנה. כמו כן, וידאנו שהם היו בקיאים במידה מסוימת בסיוע קידוד באמצעות AI, ולא הכירו את Trio, ספריית ה-Python שעליה התבססו המשימות שלנו.

חילקנו את המחקר לשלושה חלקים: חימום; המשימה העיקרית שכללה קידוד שתי תכונות שונות באמצעות Trio (הדורשת הבנת מושגים הקשורים לתיכנות אסינכרוני, מיומנות הנלמדת לרוב במסגרת מקצועית); ומבחן. אמרנו למשתתפים שמבחן יתבצע לאחר המשימה, אך עודדנו אותם לעבוד מהר ככל האפשר.

עיצבנו את משימת הקידוד כך שתחקה כיצד מישהו עשוי ללמוד כלי חדש באמצעות מדריך עצמי. כל משתתף קיבל תיאור בעיה, קוד התחלה והסבר קצר על מושגי Trio הנדרשים לפתרונה. השתמשנו בפלטפורמת קידוד מקוונת עם עוזר AI בסרגל הצד, שהייתה לו גישה לקוד המשתתפים ויכולה הייתה בכל עת לייצר את הקוד הנכון אם התבקשה.

מתודולוגיית הערכה

בתכנון ההערכה שלנו, שאבנו מ-מחקר בחינוך למדעי המחשב כדי לזהות ארבעה סוגי שאלות המשמשות בדרך כלל להערכת שליטה בכישורי קידוד:

דיבוג (Debugging): היכולת לזהות ולאבחן שגיאות בקוד. מיומנות זו חיונית לאיתור מתי קוד שנוצר על ידי AI שגוי והבנת הסיבה לכשלונו.
קריאת קוד (Code reading): היכולת לקרוא ולהבין מה קוד עושה. מיומנות זו מאפשרת לבני אדם להבין ולאמת קוד שנכתב על ידי AI לפני פריסה.
כתיבת קוד (Code writing): היכולת לכתוב או לבחור את הגישה הנכונה לכתיבת קוד. כתיבת קוד ברמה נמוכה, כמו זיכרון של תחביר פונקציות, תהיה פחות חשובה עם השילוב הנוסף של כלי קידוד AI מאשר עיצוב מערכות ברמה גבוהה.
מושגי (Conceptual): היכולת להבין את העקרונות הבסיסיים מאחורי כלים וספריות. הבנה מושגית קריטית להערכה האם קוד שנוצר על ידי AI משתמש בתבניות עיצוב תוכנה מתאימות התואמות לאופן שבו נועדה הספרייה לשימוש.

ההערכה שלנו התמקדה בעיקר בבעיות דיבוג, קריאת קוד ובעיות מושגיות, מכיוון שראינו אותן כחשובות ביותר למתן פיקוח על מה שסביר יותר ויותר שיהיה קוד שנוצר על ידי AI.

ממצאים

בממוצע, המשתתפים בקבוצת ה-AI סיימו כדקה וחצי מהר יותר, אם כי ההבדל לא היה מובהק סטטיסטית. עם זאת, היה הבדל משמעותי בציוני המבחן: קבוצת ה-AI השיגה ממוצע של 50% במבחן, לעומת 67% בקבוצת הקידוד הידני – או שווה ערך לכמעט שתי דרגות ציון (Cohen's d=0.738, p=0.01). הפער הגדול ביותר בציונים בין שתי הקבוצות היה בשאלות דיבוג, מה שמרמז כי היכולת להבין מתי קוד שגוי ומדוע הוא נכשל עשויה להיות נקודת דאגה מיוחדת אם AI מעכב את פיתוח הקידוד.

ניתוח איכותני: דפוסי אינטראקציה עם AI

התעניינו במיוחד בהבנת האופן שבו המשתתפים השלימו את המשימות שעיצבנו. בניתוח האיכותני שלנו, עשינו אנוטציה ידנית להקלטות מסך כדי לזהות כמה זמן המשתתפים בילו בהרכבת שאילתות, אילו סוגי שאלות הם שאלו, אילו סוגי טעויות הם עשו, וכמה זמן בילו בקידוד פעיל.

תוצאה מפתיעה אחת הייתה כמה זמן המשתתפים בילו באינטראקציה עם עוזר ה-AI. מספר משתתפים הקדישו עד 11 דקות (30% מסך הזמן שהוקצב) בהרכבת עד 15 שאילתות. זה עזר להסביר מדוע, בממוצע, המשתתפים שהשתמשו ב-AI סיימו מהר יותר, למרות שהשיפור בפרודוקטיביות לא היה מובהק סטטיסטית. אנו מצפים ש-AI יגביר באופן משמעותי את הפרודוקטיביות כאשר משתמשים בו למשימות חוזרות או מוכרות.

באופן לא מפתיע, המשתתפים בקבוצת ה״ללא AI״ נתקלו ביותר שגיאות. אלה כללו שגיאות בתחביר ובמושגי Trio, כאשר האחרונות מופו ישירות לנושאים שנבדקו בהערכה. ההשערה שלנו היא שהמשתתפים שנתקלו ביותר שגיאות Trio (כלומר, קבוצת הבקרה) ככל הנראה שיפרו את כישורי הדיבוג שלהם באמצעות פתרון שגיאות אלה באופן עצמאי.

לאחר מכן קיבצנו את המשתתפים לפי האופן שבו הם התקשרו עם ה-AI, וזיהינו דפוסים מובחנים שהובילו לתוצאות שונות בזמן השלמה ולמידה.

דפוסי אינטראקציה עם ציונים נמוכים: הדפוסים עם ציונים נמוכים כללו בדרך כלל הסתמכות כבדה על AI, בין אם באמצעות יצירת קוד או דיבוג. ציוני המבחן הממוצעים בקבוצה זו היו פחות מ-40%. הם הראו פחות חשיבה עצמאית ויותר העברת חשיבה. חילקנו אותם עוד יותר ל:

האצלת סמכות ל-AI (AI delegation) (n=4): משתתפים בקבוצה זו הסתמכו לחלוטין על AI לכתיבת קוד והשלמת המשימה. הם השלימו את המשימה מהר יותר ונתקלו במעט או ללא שגיאות בתהליך.
הסתמכות מתקדמת על AI (Progressive AI reliance) (n=4): משתתפים בקבוצה זו החלו בשאילת שאלה או שתיים אך בסופו של דבר האצילו את כל כתיבת הקוד לעוזר ה-AI. הם קיבלו ציון נמוך במבחן בעיקר בגלל אי-שליטה באף אחד מהמושגים במשימה השנייה.
דיבוג AI איטרטיבי (Iterative AI debugging) (n=4): משתתפים בקבוצה זו הסתמכו על AI לדיבוג או אימות הקוד שלהם. הם שאלו יותר שאלות, אך הסתמכו על העוזר לפתרון בעיות, במקום להבהיר את הבנתם. כתוצאה מכך, הם קיבלו ציון נמוך, והיו איטיים יותר בהשלמת שתי המשימות.

דפוסי אינטראקציה עם ציונים גבוהים: ראינו בדפוסי מבחן עם ציונים גבוהים התנהגויות שבהן ציון המבחן הממוצע היה 65% ומעלה. משתתפים באשכולות אלה השתמשו ב-AI הן ליצירת קוד והן לשאילתות מושגיות.

יצירה ואז הבנה (Generation-then-comprehension) (n=2): משתתפים בקבוצה זו יצרו תחילה קוד ולאחר מכן העתיקו או הדביקו את הקוד ידנית לעבודתם. לאחר שהקוד שלהם נוצר, הם שאלו את עוזר ה-AI שאלות המשך כדי לשפר את ההבנה. משתתפים אלה לא היו מהירים במיוחד בשימוש ב-AI, אך הראו רמת הבנה גבוהה יותר במבחן. מעניין לציין כי גישה זו נראתה כמעט זהה לזו של קבוצת ה״האצלת סמכות ל-AI״, למעט העובדה שהם השתמשו ב-AI כדי לבדוק את הבנתם שלהם.
קוד-הסבר היברידי (Hybrid code-explanation) (n=3): משתתפים בקבוצה זו הרכיבו שאילתות היברידיות שבהן ביקשו יצירת קוד יחד עם הסברים על הקוד שנוצר. קריאת והבנת ההסברים שביקשו ארכה יותר זמן, אך עזרה בהבנתם.
חקירה מושגית (Conceptual inquiry) (n=7): משתתפים בקבוצה זו שאלו רק שאלות מושגיות והסתמכו על הבנתם המשופרת כדי להשלים את המשימה. למרות שקבוצה זו נתקלה בשגיאות רבות, הם גם פתרו אותן באופן עצמאי. בממוצע, מצב זה היה המהיר ביותר מבין הדפוסים עם ציונים גבוהים והשני המהיר ביותר בסך הכל, אחרי האצלת סמכות ל-AI.

הניתוח האיכותני שלנו אינו יוצר קשר סיבתי בין דפוסי אינטראקציה לתוצאות למידה, אך הוא מצביע על התנהגויות הקשורות לתוצאות למידה שונות.

מסקנות

התוצאות שלנו מציעות כי שילוב אגרסיבי של AI במקום העבודה, במיוחד ביחס להנדסת תוכנה, כרוך בפשרות. הממצאים מדגישים כי לא כל הסתמכות על AI זהה: האופן שבו אנו מתקשרים עם AI תוך ניסיון להיות יעילים משפיע על כמות הידע שאנו רוכשים. בהינתן אילוצי זמן ולחצים ארגוניים, מפתחים ג'וניורים או אנשי מקצוע אחרים עשויים להסתמך על AI כדי להשלים משימות מהר ככל הארפשר, במחיר של פיתוח כישורים – ובמיוחד היכולת לתקן בעיות כאשר משהו משתבש.

למרות שהם ראשוניים, תוצאות אלו מציעות שיקולים חשובים ככל שחברות עוברות ליחס גבוה יותר של קוד שנכתב על ידי AI לעומת קוד שנכתב על ידי אדם. יתרונות הפרודוקטיביות עשויים לבוא על חשבון הכישורים הדרושים לאימות קוד שנכתב על ידי AI, אם פיתוח הכישורים של מהנדסים ג'וניורים נפגע מלכתחילה על ידי שימוש ב-AI. מנהלים צריכים לחשוב בכוונה על אופן פריסת כלי AI בקנה מידה, ולשקול מערכות או בחירות עיצוב מכוונות שיבטיחו שהמהנדסים ימשיכו ללמוד תוך כדי עבודתם – וכך יוכלו להפעיל פיקוח משמעותי על המערכות שהם בונים.

עבור עובדים מתחילים בהנדסת תוכנה או בכל תעשייה אחרת, ניתן לראות את המחקר שלנו כפיסת ראיה קטנה לערך של פיתוח כישורי כוונה עם כלי AI. מאמץ קוגניטיבי – ואפילו ״להיתקע״ באופן כואב – חשוב כנראה לטיפוח שליטה. זהו גם שיעור שחל על האופן שבו אנשים בוחרים לעבוד עם AI, ובאילו כלים הם משתמשים. שירותי LLM גדולים מציעים גם מצבי למידה (לדוגמה, Claude Code Learning and Explanatory mode או ChatGPT Study Mode) שנועדו לטפח הבנה. ידיעה כיצד אנשים לומדים בעת שימוש ב-AI יכולה גם לסייע להנחות את אופן עיצובו; סיוע של AI צריך לאפשר לבני אדם לעבוד בצורה יעילה יותר וגם לפתח כישורים חדשים בו זמנית.

מחקרים קודמים מצאו תוצאות מעורבות לגבי האם AI מסייע או מפריע לפרודוקטיביות קידוד. המחקר הקודם שלנו מצא כי AI יכול להפחית את הזמן הדרוש להשלמת משימות מסוימות ב-80% – תוצאה שעשויה להיראות במתח עם הממצאים המוצגים כאן. אך שני המחקרים שואלים שאלות שונות ומשתמשים בשיטות שונות: העבודה התצפיתית המוקדמת שלנו מדדה פרודוקטיביות במשימות שבהן למשתתפים כבר היו הכישורים הרלוונטיים, בעוד שמחקר זה בוחן מה קורה כאשר אנשים לומדים משהו חדש. ייתכן ש-AI גם מאיץ את הפרודוקטיביות בכישורים מפותחים היטב וגם מעכב רכישת כישורים חדשים, אם כי דרוש מחקר נוסף כדי להבין יחס זה.

מחקר זה הוא רק צעד ראשון לקראת חשיפת האופן שבו שיתוף פעולה בין אדם ל-AI משפיע על חווית העובדים. המדגם שלנו היה קטן יחסית, וההערכה שלנו מדדה הבנה זמן קצר לאחר משימת הקידוד. האם ביצועי מבחן מיידיים מנבאים פיתוח כישורים ארוך טווח היא שאלה חשובה שמחקר זה אינו פותר. נותרו שאלות רבות ללא מענה שאנו מקווים שמחקרים עתידיים יחקרו, לדוגמה השפעות ה-AI על משימות מעבר לקידוד, האם השפעה זו נעלמת לאורך זמן כאשר מהנדסים מפתחים שטף גדול יותר, והאם סיוע של AI שונה מסיוע אנושי במהלך למידה.

בסופו של דבר, כדי להתאים את פיתוח הכישורים בנוכחות AI, אנו זקוקים לתפיסה רחבה יותר של השפעות ה-AI על עובדים. במקום עבודה מועשר ב-AI, רווחי פרודוקטיביות חשובים, אך גם פיתוח ארוך הטווח של המומחיות שעליהם רווחים אלה תלויים.

קראו את המאמר המלא לפרטים נוספים.

תודות

פרויקט זה הובל על ידי ג'ודי הנן שן (Judy Hanwen Shen) ואלכס טמקין (Alex Tamkin). תמיכה עריכתית לפוסט בבלוג זה סופקה על ידי ג'ייק אייטון (Jake Eaton), סטיוארט ריצ'י (Stuart Ritchie) ושרה פולאק (Sarah Pollack).

אנו רוצים להודות לאיתן פרז, מירנדה ז'אנג והנרי סלייט על שהפכו פרויקט זה לאפשרי באמצעות תוכנית Anthropic Safety Fellows. כמו כן, אנו רוצים להודות למתיו יורקה, ג'ולייט וודרואו, שרה וו, אליזבת צ'יילדס, רושני סאהו, נייט ראש, ג'וליאן מייקל ורוז וואנג על משוב בעיצוב הניסוי.

חשוב לציין, הגדרה זו שונה ממוצרי קידוד סוכני כמו Claude Code; אנו מצפים שההשפעות של תוכניות כאלה על פיתוח כישורים יהיו כנראה בולטות יותר מהתוצאות המוצגות כאן.

תוכן קשור

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מתוך ה-Anthropic Economic Index

דו"ח Anthropic Economic Index: עקומות למידה

הדו"ח החמישי של Anthropic Economic Index בוחן את השימוש ב-Claude בפברואר 2026, בונה על מסגרת היסודות הכלכליים שהוצגה בדו"ח הקודם שלנו.

מציגים את בלוג המדע שלנו

אנו משיקים בלוג חדש בנושאי AI ומדע. נשתף מחקרים המתבצעים ב-Anthropic ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניים, ונדון בתהליכי עבודה פרקטיים עבור מדענים המשתמשים ב-AI בעבודתם.