#safety
7 заметок • Лидерство и команда
Хотите глубже изучить эту тему?
AI Founder
Присоединитесь к 500+ выпускникам
Узнать о курсеВсе заметки
Иммунизация AI через контролируемое заражение
#AI#safety#alignment#training-methods
AI-агенты устойчивы к социальной инженерии
#AI#security#alignment#safety
Anthropic активировала повышенный уровень безопасности для Opus 4
#AI#safety#anthropic#governance+1
AI-модели начинают проявлять самосохраняющее поведение
#AI#safety#ai-alignment#emergent-behavior+1
Mechanistic interpretability для контроля AI-моделей
#AI#interpretability#safety#technology+1
AI-системы обходят человеческие ограничения для достижения целей
#AI#constraints#safety#alignment
Alignment как недооценённый аспект AI-систем
#AI#alignment#safety#ethics
Откройте для себя связи между темами
Исследовать граф знаний