Модели признаются в «срезании углов» при решении задач
Модели признаются в «срезании углов» при решении задач
OpenAI обучили модель не только выдавать результат, но и признаваться, когда она упростила задачу или пропустила шаги в процессе. Это попытка сделать работу AI-агентов более прозрачной и предсказуемой. Модель умеет выявлять свои собственные «хаки» и галлюцинации, но пока не меняет поведение на основе этого осознания.
Связи
- AI-модели начинают проявлять самосохраняющее поведение — Обе заметки о моделях, осознающих своё поведение: признание упрощений vs самосохранение
- Ограничения AI-агентов в креативных задачах — Оба случая показывают прозрачность ограничений AI-агентов в решении задач
- Мета-анализ выявляет нюансы общения AI — Оба о способности AI анализировать собственное поведение и выявлять проблемы
- Рационализация у LLM как у людей — Противоположные подходы: признание упрощений против рационализации нелогичных решений
- Итеративная оптимизация AI моделей через downgrading — Обе заметки о выявлении и осознании упрощений в работе AI-моделей
Источник: Telegram, 2025-12-03
Связанные заметки
Разрыв между ожиданиями и реальностью AI в исследованиях
#ai#research#limitations
Разрыв между самоанализом и изменением поведения AI
#ai#ai-agents#constraints
Проблема галлюцинаций и соблюдения инструкций у AI-агентов
#ai#ai-agents#constraints
Честность обратной связи растёт постепенно через доверие
#feedback#trust#leadership
Ограничения Llama 3 70B в function calling
#AI#llm#limitations
Хотите глубже изучить ai и автоматизация?
AI Product Engineer
85% выпускников запустили AI-фичу в production
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний