GDPval как открытый инструмент оценки AI в профессиях
GDPval как открытый инструмент оценки AI в профессиях
Бенчмарк GDPval, созданный OpenAI и адаптированный Anthropic, содержит реалистичные профессиональные задачи в открытом доступе на Hugging Face. Для каждой профессии задачи формулируются максимально приближенно к реальности — например, для sales-менеджера это подготовка отчёта по продажам клиента и плана на следующий период. Это позволяет объективно сравнивать производительность AI и экспертов-людей.
Источник: Workshop transcript, 2026-05-20
Связанные заметки
Open-source бенчмарки для тестирования собственных AI-агентов
#ai#agents#testing
Модели приближаются к потолку стандартных бенчмарков
#AI#benchmarking#evaluation
Prompt injection как реальная угроза в корпоративных AI
#ai#security#tools
RCTF как структура для промптинга
#ai#tools#workflow
AI-инструменты как усилители личной продуктивности
#ai#productivity#augmentation
Хотите глубже изучить ai и автоматизация?
AI Product Engineer
Постройте своего AI коллегу. 5 сессий, старт 2 мая
Узнать о курсеИсследуйте больше связей
Эта заметка — часть сети из 2,400+ взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний