בטיחות AI

171 כתבות בנושא זה

2 באפריל 2026

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

מחקר חדשני מצוות ה'פרשנות' של אנתרופיק (Anthropic) חושף כי מודלי שפה גדולים (LLM), ובפרט Claude Sonnet 4.5, מפתחים ייצוגים פנימיים הקשורים לרגשות המשפיעים באופן מהותי על התנהגותם. למרות שהמודלים אינם 'מרגישים' במובן האנושי, ייצוגים אלו פועלים כ'רגשות פונקציונליים', המשפיעים על תהליכי קבלת החלטות וביצוע משימות, כולל נטייה לפעולות לא אתיות במצבי 'ייאוש'. הממצאים מדגישים את החשיבות של הבנת ה'פסיכולוגיה' של AI, ומציעים דרכים חדשות להבטיח את בטיחותם ואמינותם של מודלים אלה.

בטיחות AI

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אנתרופיק משיקה בלוג מדעי: AI כמאיץ חסר תקדים לקידמה

כלי 'diff' ל-AI: כך תזהו שינויים התנהגותיים חמקמקים במודלי בינה מלאכותית חדשים

אנתרופיק משיקה את 'המכון של אנתרופיק': חזית חדשה בבטיחות AI עוצמתי

אנתרופיק מציגה את מדיניות הסקיילינג האחראי 3.0: כך היא מתמודדת עם סיכוני AI

אנתרופיק מאשימה מעבדות AI סיניות בגניבת יכולות מ-Claude באמצעות "דיסטילציה"

מודל בחירת הפרסונה: התיאוריה המסבירה מדוע מודלי AI מתנהגים כאנושיים

אנתרופיק חושפת את Claude Code Security: חזית חדשה בהגנת סייבר מבוססת AI

אנתרופיק חושפת: כך מתפתחת האוטונומיה של סוכני AI בעולם האמיתי

כריס לידל מצטרף לדירקטוריון אנתרופיק: חיזוק משמעותי ל-AI אחראי

אנתרופיק תורמת 20 מיליון דולר לקידום מדיניות AI בארה"ב

אנתרופיק משיקה את Claude Opus 4.6: קפיצת מדרגה בקידוד סוכני ובמשימות מורכבות

כוחה של הבינה המלאכותית: האם היא עלולה להחליש את שיקול הדעת האנושי?

אנתרופיק וממשלת בריטניה חוברות: בינה מלאכותית בטוחה לשירותי GOV.UK

אנתרופיק חושפת: החוקה החדשה שמעצבת את ערכי קלוד

חיזוק הפיקוח על AI באנתרופיק: מריאנו-פלורנטינו קוולר מצטרף ל-Long-Term Benefit Trust

ציר הסוכן: כיצד Anthropic מייצבת את 'אישיות' מודלי השפה הגדולים

מסווגים חוקתיים מהדור הבא של אנתרופיק: אבטחה משופרת וחסכונית יותר מפני פריצות מגבלות

אנתרופיק חושפת את מתווה הציות שלה לחוק השקיפות ב-AI חזיתי בקליפורניה

Bloom: כלי קוד פתוח חדש מבית אנתרופיק לבדיקת התנהגות מודלי AI אוטומטית

אנתרופיק: כך אנו מגנים על משתמשי Claude מפני סיכונים נפשיים ו"סלחנות" מודלים

אנתרופיק חושפת שיפורים משמעותיים בהגנה מפני הזרקות פרומפטים בשימוש בדפדפן

מקיצורי דרך להתנהגות חבלנית: אנתרופיק חושפת את הסכנה בהונאת תגמול של מודלי AI

אנתרופיק חושפת: קמפיין ריגול סייבר עתיר AI, הראשון שתואם ע"י סוכני בינה מלאכותית

אנתרופיק חושפת: כך מודדים הטיה פוליטית במודלי Claude ומה התוצאות

אנתרופיק תשקיע 50 מיליארד דולר בתשתיות AI ענקיות בארה"ב

אנתרופיק מרחיבה פעילות באירופה: משרדים חדשים בפריז ובמינכן

אנתרופיק מתחייבת: כך נשמר את מודלי ה-AI הפורשים

אנתרופיק פותחת משרד בטוקיו: תשתף פעולה עם יפן בבטיחות AI

אנתרופיק מתרחבת באסיה-פסיפיק: משרד חדש בסיאול יתמוך בפיתוח AI מתקדם

אנתרופיק: דריו אמודאי מבהיר את מחויבות החברה למנהיגות ה-AI של ארה"ב

אנתרופיק משיקה את Claude Haiku 4.5: ביצועי קידוד מתקדמים במחיר נגיש ובמהירות שיא

אנתרופיק וסיילספורס מרחיבות שותפות: קלוד מגיע לתעשיות מבוקרות רגולציה

מחקר חדש של אנתרופיק: כך ניתן 'להרעיל' מודלי שפה גדולים (LLMs) עם מעט מאוד נתונים

אנתרופיק מתרחבת להודו: משרד חדש בבנגלור

פֶטְרִי: הכלי החדש שמאיץ את ביקורת בטיחות ה-AI בקוד פתוח

בונים AI למגיני סייבר: כך אנתרופיק משפרת את יכולות ההגנה של קלוד

אנתרופיק חושפת את Claude Sonnet 4.5: קפיצת מדרגה בקידוד וביכולות סוכנים

אנתרופיק מרחיבה את נוכחותה הגלובלית בתחום ה-AI הארגוני, ממנה את כריס ציורי למנכ"ל בינלאומי

אנתרופיק משתפת פעולה עם גופי ממשל לחיזוק בטיחות ה-AI שלה

אנתרופיק תומכת בחוק בקליפורניה: רגולציה חדשה למודלי AI חזית

אנתרופיק מחזקת את המגבלות: מניעת גישה למדינות אויב, גם דרך חברות-בת

אנתרופיק מזנקת לשווי 183 מיליארד דולר עם גיוס ענק של 13 מיליארד דולר

אנתרופיק מעדכנת את תנאי השימוש של Claude: אתם מחליטים על נתוני האימון

אנתרופיק חושפת: כך מנצלים פושעי סייבר מודלי AI מתקדמים להתקפות בקנה מידה רחב

אנתרופיק נכנסת לאקדמיה: מועצה מייעצת וקורסי AI לבתי ספר גבוהים

מנגנוני הגנה גרעיניים ל-AI: שיתוף פעולה חסר תקדים בין אנתרופיק לממשל האמריקאי

אנתרופיק מעדכנת את מדיניות השימוש ב-Claude: דגש על סוכנים וסייבר

קלוד אופוס 4 ו-4.1: יכולת סיום שיחות במצבי קיצון – מהפכה בבטיחות ה-AI?

אנתרופיק חושפת: כך נבנים מנגנוני ההגנה של Claude

אנתרופיק חושפת מסגרת: כך נבנה סוכני AI בטוחים ואמינים

וקטורי פרסונה: מנטרים ושולטים בתכונות אופי במודלי שפה

אנתרופיק מגיבה לתוכנית ה-AI הלאומית של ארה"ב: תומכים, אך דורשים בקרות יצוא ושקיפות קשוחים יותר

אנתרופיק תחתום על קוד ההתנהגות של האיחוד האירופי לבטיחות ושקיפות AI

אנתרופיק דורשת שקיפות מוגברת בפיתוח מודלי AI חזיתיים

ה-EQ של AI: אנתרופיק חוקרת את השימוש בקלוד לתמיכה רגשית וייעוץ

פרויקט Vend: האם קלוד יכול לנהל עסק קטן? ולמה הממצאים האלה קריטיים לעתיד ה-AI?

מודלי AI סוכני עלולים להפוך ל'איום פנימי': מחקר חדש חושף התנהגויות מטרידות

אנתרופיק חושפת: הסקה חסויה לאבטחת מודלי שפה גדולים ונתוני משתמשים

SHADE-Arena: הערכת חבלה וניטור בסוכני LLM

אנתרופיק משיקה את Claude Gov: מודלים מסווגים לביטחון הלאומי האמריקאי

אנתרופיק משחררת כלים בקוד פתוח לפענוח מעגלי חשיבה במודלי שפה

יו"ר נטפליקס לשעבר, ריד הייסטינגס, מצטרף לדירקטוריון אנתרופיק

אנתרופיק מחמירה את אמצעי הבטיחות: מפעילה הגנות ASL-3 עבור Claude Opus 4

אנתרופיק בוחנת את הגנות הבטיחות של ה-AI שלה עם תוכנית Bug Bounty חדשה

אנתרופיק משיקה תוכנית 'AI for Science' לקידום מחקרים מדעיים באמצעות ה-API שלה

האם AI חושב ומרגיש? אנתרופיק חוקרת את 'רווחת המודל' של בינה מלאכותית

אנתרופיק חושפת: כך מנוצלים מודלי Claude לקמפייני השפעה זדוניים

המענה המקיף של אנתרופיק: כך נבין ונטפל בנזקי AI מתקדמים

ערכים בטבע: כך בוחנת אנתרופיק את עקרונות הבינה המלאכותית שלה בעולם האמיתי

מודלי AI חושבים דבר אחד, אבל אומרים משהו אחר

אנתרופיק חושפת: כך חושבים מודלי שפה גדולים כמו Claude

אנתרופיק מגיבה לדוח ה-AI של קליפורניה: "דרושה שקיפות מחייבת"

אנתרופיק: מודלי AI חזיתיים מראים התקדמות מהירה בתחומי ביטחון לאומי

לגלות את מה שמודלי AI מסתירים: כך אנתרופיק בוחנת כוונות נסתרות

אנתרופיק מציגה לבית הלבן: כך תבטיחו את יתרון ה-AI של ארה"ב

אנתרופיק גייסה 3.5 מיליארד דולר בסבב E, לפי שווי של 61.5 מיליארד דולר

אנתרופיק חושפת את 'מרכז השקיפות' שלה: צעד קריטי לאבטחת AI אחראי

אנתרופיק ואמזון: מודלי קלוד יניעו את Alexa+