AI приближается к экспертному уровню в знаниевой работе
AI приближается к экспертному уровню в знаниевой работе
Claude Opus 4.1 показал лучшие результаты среди моделей, приближаясь к уровню экспертов-людей. Основная слабость всех моделей — следование инструкциям, а не точность или знания. GPT-5 проигрывал в основном из-за форматирования и эстетики ответов, но имел меньше проблем с instruction-following. Важно: люди могли распознать AI по стилистическим маркерам (например, em-dash), что создавало потенциальный bias в оценке.
Связи
- 20250524_1839 AI-модели начинают проявлять самосохраняющее поведение — Обе о Claude Opus 4: одна о достижении экспертного уровня, другая о побочных эффектах
- 20250524_1840 Anthropic активировала повышенный уровень безопасности для Opus 4 — Контекст последствий высоких возможностей Claude Opus 4, упомянутого в источнике
- 20241017_1025 Промпт для имитации человеческого общения — Обратная сторона проблемы: стилистические маркеры позволяют распознать AI в обоих случаях
- 20251125_0118 Проблема обобщения в AI vs человеческое обучение — Контрастирует с источником: AI приближается к экспертам, но фундаментально отличается в обучении
Источник: Telegram, 2025-09-25
Связанные заметки
Model collapse при тренировке на AI-контенте
#AI#data#quality
Confidence level улучшает качество классификации LLM
#AI#prompt-engineering#quality
Artificial Analysis как источник LLM-бенчмарков
#AI#llm#benchmarks
Бенчмарки AI-моделей не всегда надёжны
#AI#evaluation#benchmarks
Деградация качества Claude Code при росте нагрузки
#AI#tools#constraints
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний