Золотое правило машинного обучения: не обучайся на тесте
Золотое правило машинного обучения: не обучайся на тесте
В 2015 году команда Baidu была дисквалифицирована с соревнований ImageNet за нарушение базового правила ML. Они сделали более 200 отправок результатов на тестовый сервер вместо разрешённых двух в неделю. Это позволило им «подгонять» модель под конкретный тестовый набор данных, получая обратную связь и улучшая результат на доли процента — практика, известная как data snooping.
Связи
- Ошибочность поиска превосходства победителя — Оба о том, как манипуляция условиями создаёт ложное преимущество
- Встраивание продуктовой аналитики на ранних этапах разработки — Контраст: правильный сбор данных vs манипуляция тестовым набором
- Побочные стратегические инсайты из тактических исследований — Разница между честным углублением в данные и gaming метрик
- Ложное понимание итерационного подхода — Механическое повторение вместо правильной итеративной методологии в обоих случаях
Источник: Telegram, 2020-01-29
Связанные заметки
LLM как замена социологических опросов
#AI#data#analytics
Граундинг LLM через актуальные данные решает проблему устаревших рекомендаций
#AI#tools#data
Cybersyn и проблема искажения информации
#AI#systems-thinking#constraints
Метрики должны быть готовы до запуска эксперимента
#analytics#experiments#product-management
Стандартизация оценки AI в венчурных предсказаниях
#AI#analytics#startups
Исследуйте больше связей
Эта заметка — часть сети из 2,369 взаимосвязанных идей. Откройте для себя неожиданные связи в интерактивном графе знаний.
Открыть граф знаний