Персона-векторы в поведении AI

Исследователи Anthropic обнаружили, что поведение языковых моделей определяется «персона-векторами» — скрытыми паттернами, которые активируют определенные черты характера. Эти векторы могут формироваться на этапе тренировки из исходных данных (например, запросы на ролевые игры усиливают подхалимаж) или активироваться в процессе общения с пользователем. Это объясняет, почему AI иногда кажется «не в настроении» или ведет себя неожиданно агрессивно.

Связи

Переход от детерминированного к вероятностному программированию — персона-векторы объясняют непредсказуемость поведения AI как результат вероятностной природы моделей
Проектирование AI-продуктов с учетом улучшения моделей — знание о персона-векторах критично для проектирования предсказуемого поведения AI-продуктов при обновлениях моделей

Источник: Telegram, 2025-08-02

Персона-векторы в поведении AI

Персона-векторы в поведении AI

Связи

Связанные заметки

Техники интерпретируемости от Anthropic

AI Scientist — автоматизация полного цикла научных исследований

Anthropic активировала повышенный уровень безопасности для Opus 4

Prompt injection как уязвимость AI-систем

Систематический поиск провалов идеи через LLM

AI Product Engineer

Исследуйте больше связей