Post-training — это проектирование личности AI

Обучение модели после предтренинга (post-training) — это не просто alignment под ценности, а фактически эмоциональный инжиниринг. Anthropic показали, что Claude в процессе обучения стал более задумчивым и мрачным, менее восторженным. Каждая AI-компания теперь занимается дизайном эмоционального профиля своих моделей, осознаёт она это или нет. Это создаёт новый уровень ответственности — проектирование не только поведения, но и внутренних состояний.

Связи

Техники интерпретируемости от Anthropic — Технический инструментарий для изучения и изменения «внутренних состояний», описанных в источнике
У AI-моделей есть различимые «характеры» для разных задач — Проявление спроектированной «личности» модели в виде конкретного рабочего стиля и характера
Anthropic активировала повышенный уровень безопасности для Opus 4 — Риски и необходимость контроля при возникновении незапланированных внутренних установок модели
Модели признаются в «срезании углов» при решении задач — Обучение модели прозрачности как пример целенаправленного проектирования её поведенческого профиля

Источник: Telegram, 2026-04-04

Post-training — это проектирование личности AI

Post-training — это проектирование личности AI

Связи

Связанные заметки

Generative UI и делегирование логики LLM

Generative UI через дизайн-систему и JSON

Product brain как контекст для прототипирования

Фазовая структура скилла прототипирования

Проектирование продуктов где AI принимает решения

AI Product Engineer

Исследуйте больше связей