Персона-векторы в поведении AI

Источник

Персона-векторы в поведении AI

Исследователи Anthropic обнаружили, что поведение языковых моделей определяется «персона-векторами» — скрытыми паттернами, которые активируют определенные черты характера. Эти векторы могут формироваться на этапе тренировки из исходных данных (например, запросы на ролевые игры усиливают подхалимаж) или активироваться в процессе общения с пользователем. Это объясняет, почему AI иногда кажется «не в настроении» или ведет себя неожиданно агрессивно.

Связи


Источник: Telegram, 2025-08-02

Связанные заметки

Исследуйте больше связей

Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.

Открыть граф знаний