אנתרופיק נוסדה מתוך אמונה כי השפעת ה-AI תהיה משמעותית כמו זו של המהפכות התעשייתית והמדעית, וכי השפעה זו עשויה להתממש כבר בעשור הקרוב. החברה סבורה כי התקדמות מהירה ומתמשכת של ה-AI היא תוצאה צפויה של הגידול האקספוננציאלי בכוח המחשוב המשמש לאימון מערכות AI, שכן "חוקי סקיילינג" (scaling laws) מראים שיותר כוח מחשוב מוביל לשיפורים כלליים ביכולות. הדבר מרמז על כך שמערכות AI יהפכו ליכולות הרבה יותר בעשור הקרוב, ואולי אף ישתוו או יעלו על ביצועי אדם ברוב המשימות האינטלקטואליות. למרות שתרחיש זה עשוי להישמע מופרך, אנתרופיק מאמינה שיש מספיק ראיות כדי להיערך ברצינות לעולם שבו התקדמות מהירה של ה-AI תוביל למערכות AI טרנספורמטיביות.
הבעיה המרכזית היא שאיש עדיין אינו יודע כיצד לאמן מערכות AI חזקות מאוד להתנהג באופן יציב כ"עוזרות, ישרות ובלתי מזיקות" (helpful, honest, and harmless). אנתרופיק (Anthropic) מזהירה כי אם נבנה מערכת AI מוכשרת באופן משמעותי יותר ממומחי אנוש, אך היא תרדוף מטרות שיתנגשו עם האינטרסים הטובים ביותר שלנו, ההשלכות עלולות להיות חמורות. זהו "בעיית היישור" (alignment problem) הטכנית. בנוסף, התקדמות מהירה ב-AI תהיה משבשת מאוד לחברה, תשנה תעסוקה, מקרו-כלכלה ומבני כוח, ותוכל לעורר מרוצי פיתוח תחרותיים שיובילו לפריסה של מערכות AI בלתי אמינות. התוצאות של מצב כזה יכולות להיות קטסטרופליות, בין אם בגלל שמערכות ה-AI רודפות באופן אסטרטגי יעדים מסוכנים, ובין אם בגלל שהן עושות טעויות תמימות יותר במצבים בעלי סיכון גבוה.
"אנו סבורים כי יש להעדיף זהירות, מכיוון ש'טעות בחישוב' עלולה להיות הרת אסון."
לנוכח הסיכונים הללו, אנתרופיק נוקטת בגישה רב-גונית ומונעת-אמפירית לבטיחות AI. החברה סבורה כי מחקר בטיחותי משמעותי חייב להתבצע על "מודלי חזית" (frontier models) - אותן מערכות AI גדולות ומתקדמות ביותר - מכיוון שהן מציגות הבדלים איכותיים ושינויים פתאומיים ובלתי צפויים בהשוואה למודלים קטנים יותר. גישה זו דורשת איזון עדין: מצד אחד, יש להימנע ממצב שבו מחקר בטיחותי מאיץ פריסה של טכנולוגיות מסוכנות; מצד שני, אין לתת לזהירות מוגזמת להאט מחקר חיוני זה על המערכות המתקדמות ביותר. אנתרופיק מצהירה על כוונתה לפרסם התחייבויות ברורות לפריסת מודלים מעבר לסף יכולת מסוים רק אם ייעמדו בתקני בטיחות מחמירים, וכן לאפשר לארגון חיצוני עצמאי להעריך את יכולות המודלים ובטיחותם.
המחקר של אנתרופיק בתחום בטיחות ה-AI מתמקד במספר כיוונים מרכזיים, ובהם פרשנות מכניסטית (mechanistic interpretability) – ניסיון להנדס לאחור רשתות נוירוניות לאלגוריתמים מובנים אנושית כדי "לבדוק" את קוד המודלים; פיקוח בר-הרחבה (scalable oversight) – פיתוח שיטות שבהן מערכות AI מסייעות לעצמן לפקח על התנהגותן ולהגביר את היישור עם ערכים אנושיים, למשל באמצעות Constitutional AI; ולמידה מונחית-תהליך (process-oriented learning) – אימון מערכות AI להתמקד בתהליכים שהובילו לתוצאה, במקום בתוצאה הסופית, מה שיבטיח הבנה אנושית ושקיפות. גישה רב-כיוונית זו, הנקראת "גישת פורטפוליו" (portfolio approach), נועדה להתמודד עם מגוון תרחישים אפשריים, החל מתרחישים אופטימיים בהם פתרונות הבטיחות פשוטים יחסית, ועד לתרחישים פסימיים בהם בטיחות ה-AI היא בעיה בלתי פתירה ביסודה.



