Токенизация как причина слабости LLM в посимвольных задачах

LLM не обрабатывают текст на уровне отдельных букв — они работают с токенами (частями слов). Это объясняет, почему модели ошибаются в простых задачах типа «сколько букв R в слове strawberry» — они буквально не «видят» каждую букву отдельно. Архитектурное решение об использовании токенов создаёт системное ограничение для определённого класса задач.

Источник: Workshop transcript, 2025-10-01

Токенизация как причина слабости LLM в посимвольных задачах

Токенизация как причина слабости LLM в посимвольных задачах

Связанные заметки

Смещение узкого места от кодинга к продуктовой постановке

Unhobbling как источник прогресса AI

Контекстное окно как ограничение памяти LLM

Технологии генерируют проблемы, которые создают новые возможности

Knowledge cutoff как временное ограничение LLM

AI Product Engineer

Исследуйте больше связей