Что показывает бенчмарк METR и почему это важно?

METR измеряет длительность задач, которые AI может решать автономно без участия человека. На графике — чёткая экспонента: в середине 2025-го модели типа O3 автономно решали задачи на 2 часа, в начале 2026-го — уже на 12 часов (в 6 раз быстрее за полгода). При этом время удвоения сократилось с 7 месяцев (2024) до 4 месяцев (2026) — происходит ускорение ускорения. Но METR измеряет именно software-задачи — это path dependence от верифицируемых данных, которыми тренируются модели.

Какие усиливающие петли держат экспоненту ускорения?

Четыре R-loops: (1) Data loop — больше программистов → больше кода в тренинг → лучше модель → больше программистов; (2) Capital loop — больше инвестиций → больше стартапов → шире adoption → больше рынок → больше инвестиций; (3) Economic CEO loop — лучше модели → меньше расходов → выше прибыль → рост акций → больше внедрений; (4) Loneliness loop — больше AI-разговоров → меньше человеческих связей → больше одиночества → больше AI.

Какие балансирующие петли уже появляются?

Три включившихся B-loops: (1) Security-инциденты — атаки на npm-пакеты, ошибки с выбором целей в военке, проблемы Mythos; (2) Падение trust — массовая AI-генерация подрывает доверие к контенту, политическая реакция, барьеры внедрения; (3) Пределы роста — физическая нехватка GPU, электричества, регуляторные препятствия. Пока доминируют усиливающие петли, но когда баланс сместится — экспонента превратится в S-кривую.

Что такое unimodal эмбеддинги и зачем нужен Gemini Embedding 2?

Gemini Embedding 2 позволяет укладывать разные типы данных — видео, аудио, текст, картинки — в одно общее векторное пространство. Границы между «умением видеть» и «умением слышать» исчезают. Практическое следствие: RAG-поисковик по любым данным теперь строится за несколько строк кода, а ручная инженерия RAG-систем как отдельная компетенция уходит в прошлое. Применения — персональные базы знаний, галереи, robotics (где камера + аудио — основные сенсоры).

Почему соцсети не будут блокировать AI-контент?

Ценность контента падает, но у соцсетей нет выбора. Чтобы улучшать собственные видео-модели и метрики вовлечения, им нужно наблюдать реакцию пользователей на AI-генерацию в реальных лентах. Это тот же Data loop, что работал у Cursor: показать → собрать реакцию → улучшить предикцию. Будет допустимая пропорция и обязательная маркировка. Появятся специализированные «100% human» площадки — как luxury-ниша после промышленной революции в обуви.

Что такое Software Factory и зачем нужны digital twins?

Software Factory (эталон — StrongDM) — концепция полностью автономного pipeline «no hand-coded code»: от Linear-тикета до готового pull request без человеческого вмешательства. Digital twin universe решает проблему тестирования с внешними системами: coding-агенту нельзя свободно херачить в Salesforce/HubSpot из-за отсутствия sandbox и денежной стоимости API-вызовов. Решение — vibe-кодом воспроизвести API и базовый UI крупных систем и дать песочницу. Автор считает это бизнес-возможностью: продавать SaaS-стенды digital-twins.

В чём суть конфликта Anthropic и Department of War?

Anthropic отказывается давать свои модели для принятия автономных решений о поражении целей Department of War (новое название Министерства обороны США). Параллель — кейс Google и Китая с системами слежения. Решение будет комбинацией экономических инcентивов, физических ограничений (compute) и внутренней позиции сотрудников лаборатории. Этот конфликт показывает, что в лабораториях ключевое решение пока принимают люди, а не рынок.

Что значит YOLO-mode vs осторожный лагерь?

YOLO-mode (OpenAI) — двигаемся максимально быстро, делаем агрессивные compute-сделки, живём один раз. Осторожный лагерь (Anthropic) — будем аккуратно, но двигаемся. Это разделение проявляется на уровне людей, компаний и стран. Автор ближе к осторожному: последовательное повышение автономии, не включает dangerously-skip-permissions. По Баладжи: будет и много апсайда, и много даунсайда — не «чуть-чуть плохого», а много и того и другого.

GenAI Updates S3E1 — Ускорение, Harness и первые балансирующие петли

Q: Почему узкое место смещается в дистрибуцию?

Классический Голдратт: когда AI закрывает кодинг, bottleneck мигрирует в ревью, затем в DevOps, дизайн, продакт-менеджмент и, наконец, в продажи. На границе системы — там, где происходит контакт с внешним миром (продажи, саппорт) — миграция останавливается. Дистрибуция становится последним узким местом, и именно её нельзя закрыть кодингом. Это объясняет, почему autor фокусируется на B2B-продажах (onsa.ai).

Q: Почему China-on-China silicon — это геополитический сдвиг?

Появились первые китайские модели, натренированные полностью на китайском силиконе (по заявлениям, верифицировать нельзя). Это снижает зависимость Китая от американских чипов. Некоторые связывают это с геополитическими рисками вокруг Тайваня: каждый раз, когда Китай снижает зависимость, он «развязывает себе руки» — повышает степень свободы для действий, которые не понравятся США. Плюс open-source модели (GLM, Kimi K2) уже на уровне Sonnet 4.6 по intelligence и логарифмически дешевле — это давит на экономику западных лабораторий.

Полный транскрипт

Раздел 1

# GenAI Updates S3E1 — обзор новостей за декабрь 2025 — апрель 2026

Вступление: смена формата и центральный тезис ускорения

Каждые три месяца я собираю сообщество, чтобы сверить часы по тому, что произошло в AI. Прошлая встреча была в декабре 2025-го, эта — 17 апреля 2026-го. За эти четыре месяца ощущение от происходящего у меня и у большинства участников схлопнулось в одно слово: ускорение.

В этот раз я попробовал новый формат. Раньше я в основном рассказывал новости и их интерпретировал. Сейчас я хочу, чтобы мы больше обсуждали новости, чем я их зачитывал. У вас есть уникальный контекст, которого у меня нет — опыт, мнения, кейсы из ваших компаний. Обсуждение даст более комплексную картину и откроет новые векторы, на которые я сам бы не вышел. Поэтому поднимаем руки в Zoom, анмьютимся и комментируем с двух позиций: либо личный опыт/применение, либо ваше мнение о том, как эта новость влияет на жизнь или бизнес.

Первый прогон по слову, которое описывает ваши ощущения за последние четыре месяца, дал мощную карту: гонка, перелом, повышение автономности, не успеваю даже с AI, security, OpenClaw, страх конкуренции с self-made продуктами, персонализированные агенты, агентные платежи, переход от UI к API. Артём подсветил, что кастомером продукта становится агент — поэтому меняется интерфейс, меняется сам customer development. Один мой знакомый теперь делает custdev агентов: просит агентов оценить, насколько хороша документация и API его продукта. Если раньше мы делали custdev людей, то теперь — агентов.

Главный итог вступления: ускорение — это объективный тренд, а узкое место всё быстрее смещается в человека и его когнитивные способности. AI может прошерстить всё, но пропустить это через себя — мы не успеваем.

METR и «ускорение ускорения»

Центральный бенчмарк, который показывает автономность AI — METR. Он измеряет, задачи какой длительности AI может решать автономно, без участия человека. Задачки на 15 минут, час, два часа, 8 часов. Например: найти и написать эксплойт к смарт-контракту — у человека это занимает 8 часов; сможет ли AI закрыть это в одной сессии?

График METR — это чёткая экспонента. В середине 2025-го модели типа O3 автономно решали задачи на 2 часа. В начале 2026-го — уже 12 часов. В 6 раз быстрее за полгода. Но ещё важнее вторая производная: раньше, чтобы удвоить автономный горизонт, нужно было 7 месяцев; в среднем по 2024-2025 — 5.5 месяцев; сейчас — 4 месяца. У нас происходит не просто экспонента, а ускорение ускорения.

Два важных уточнения. Первое: METR измеряет именно software-задачи. Они верифицируемы — легко проверить, что код работает, тест проходит, эксплойт сработал. Это path dependence — зависимость от пути. В системном мышлении и физике это концепция, что начальное состояние системы предопределяет её траекторию. Классический стартап-пример: первые клиенты из одной вертикали → кейс-стади → следующие клиенты из той же вертикали → через 12-24 месяца вы специализированы на этой вертикали, хотя никогда явно этого не решали. В AI то же самое: ранние early adopters — кодеры, лаборатории сами кодят, верифицируемых данных по кодингу больше всего → все лаборатории выпускают coding-агентов. Поэтому Cursor начинает выпускать свою модель и тоже становится лабораторией.

Второе уточнение: METR — это прокси. Те типы задач, которые похожи на software с точки зрения верифицируемости и объёма данных, будут улучшаться так же. Всё остальное — медленнее.

Bottleneck мигрирует: от кода к ревью, к дистрибуции

Что значит «AI делает 12-часовую задачу за одну сессию» для бизнеса? Самое прямое следствие — узкое место сдвигается на ревью. Алексей Карлов заметил хороший паттерн: люди с этой скоростью всё меньше отмеряют времени на проверку. HBR пишет, что работают больше, а 20% времени не успевается. Михаил добавил: вы становитесь узким местом, потому что не успеваете обрабатывать.

В терминах Голдратта: представьте завод — станки → QC-люди. Станки начинают производить в 10 раз больше. Перед людьми скапливаются палеты товаров. Bottleneck мгновенно сдвигается в них. Провокационный вопрос, который всё чаще звучит: а нужен ли нам человеческий ревью вообще?

Ревью как процесс мы когда-то ввели по двум причинам: передача знаний между людьми («скопировать разработчика» как в Матрице мы не умеем) и проблема внимания/усталости (тысяча глаз не выпускает ошибку). Но если эти две задачи решает AI — может, нам нужен радикальный редизайн? Рекомендую изучить StrongDM как эталон подхода «no hand-coded code». У них есть проблемы, конечно, но интереснее думать directionally — куда это движется — нежели насколько это работает сейчас.

Мой прогноз миграции bottleneck: кодинг → ревью → DevOps → дизайн/продакт → продажи. И на границе системы — там, где происходит контакт с внешним миром (продажи, саппорт) — миграция остановится. Дистрибуция станет ключевым узким местом. Теперь вы понимаете, почему я занимаюсь onsa.ai. Вот почему: дистрибуция — это последний bottleneck в цепочке, и именно его нельзя закрыть кодингом.

Михаил сделал хорошее наблюдение: перевернётся соотношение «продакт к разработчикам». Сейчас 1:4, 1:6, 1:8 не в пользу продактов. Эндрюин всё чаще говорит, что будет flip. Когда код перестанет быть дефицитным, дефицитом станет понимание, что именно кодить.

Усиливающие петли: почему ускорение продолжается

Если мы видим экспоненту — в системном мышлении это значит, что работают усиливающие петли обратной связи (R-loops). Я поставил упражнение: назовите петли, которые держат эту экспоненту на стадии взлёта. Формулировка строгая — «чем больше X, тем больше Y, тем больше X».

Data loop (я сам показал): чем больше программистов пользуются coding-агентами → тем больше кода и паттернов попадает в тренинг → тем лучше модель → тем больше программистов пользуются. Это классический снежный ком.

Capital loop (Емельян): чем больше денег инвестируется в AI → тем больше стартапов создаётся → тем больше AI доносится до массового пользователя (часто субсидированно) → тем больше рынок → тем больше денег инвестируется. Замкнутый цикл.

Economic CEO loop (Наиль): чем лучше модели → тем меньше расходов на разработку/операции → тем выше прибыль → тем больше рынок вознаграждает акциями/бонусом → тем сильнее CEO хочет внедрить AI ещё глубже → спрос на AI растёт → инвестиции в модели растут. Incentive matters, и рынок очень быстро наказывает тех, кто не режет косты через AI, и вознаграждает тех, кто режет.

Loneliness loop (Емельян): чем больше люди обсуждают эмоции/проблемы с AI → тем меньше они делают с людьми → тем слабее социальные связи → тем больше одиночество → тем больше они снова обращаются к AI. Этот цикл серьёзный, и в следующие годы он будет усиливаться. На него накладывается Data loop: AI становится всё лучше именно в эмоциональных разговорах, потому что люди дают ему данные.

Эти четыре петли вместе — это и есть «экспонента ускорения».

Stanford AI Index и балансирующие петли

Stanford AI Index 2026 вышел за пару дней до встречи. Цифры в ту же копилку: 88% организаций используют AI, ~300 млрд частных инвестиций в 2025-м, adoption растёт по всем категориям. Пока усиливающие петли доминируют, мы видим чистый рост.

Но в системном мышлении любая экспонента рано или поздно превращается в S-кривую. Это происходит, когда включается балансирующая петля (B-loop) и её сила становится больше силы усиливающей. История экономики — это последовательность S-кривых: мы двигаемся от одной к другой. Интересно смотреть, какие балансирующие петли уже проявляются — пока слабо, но они есть.

Первая балансирующая петля — Security. Анастасия в чате подсветила её в самом начале. Мы видим рост крупных AI-инцидентов. Возможно (окончательно не доказано) трагическая ошибка американских военных с иранской школой для девочек была связана с устаревшими данными, которые повлияли на выбор цели. За последний месяц — два больших security-инцидента с популярными npm-пакетами: очень sophisticated социально-инженерные атаки встраивают эксплойты, и за секунды они разлетаются по миру через vibe-coding. Чем больше систем пишется кодом, сгенерированным AI → тем больше они подтягивают уязвимые библиотеки → тем выше blast radius любого эксплойта. И с новой моделью Anthropic Mythos (Mythic?) пришлось остановить релиз — возможно частично маркетинговая история, возможно настоящая, но крэки точно появляются.

Вторая балансирующая петля — Trust. Подрыв доверия к тому, что публикуется в интернете, потому что создавать контент стало тривиально. Про это целый фильм в конце 2025-го сняли. Следствия: трудности внедрения на уровне организаций и политическая реакция. Политики реагируют на мнение людей — появляются барьеры.

Третья — Политика и выборы 2026. Следующие американские выборы в контексте AI будут между двумя лагерями: (1) «Херачим AI, иначе проиграем Китаю» и (2) «Останавливаем AI, иначе потеряем рабочие места — и наша партия вас защитит». Не могу предсказать, какой нарратив победит — внешняя угроза или внутренняя — но дилемма точно проявится. Маргинальные политики (без большого веса) будут капитализироваться на втором нарративе.

Предложение OpenAI конгрессу в этом свете читается цинично, если перевести: «Sorry, AI не остановить и заберёт всю работу. Давайте сделаем людям базовый доход, чтобы справиться — и эти денюжки они потратят обратно на AI». Это точная формула закрытия Capital loop за счёт государства.

Зачем я задаю этот фрейм? На любое действие возникает противодействие, и противодействие — тоже рыночная возможность. Рост проблемы отличить фейковый контент от не-фейкового → растёт потребность в решениях (World ID и подобные). Рядом с моим домом появился биллборд — ребята продают идею «анти-ботов»: определять, кто зашёл на сайт, и блокировать. Это новая вертикаль.

Unimodal: Gemini Embedding 2 и смерть RAG-лекции

Google выпустил Gemini Embedding 2 — и это переход от multimodal к unimodal. Ключевое отличие: разные типы данных — видео, аудио, текст, картинки — ложатся в одно общее векторное пространство. То есть мы больше не проводим границу между «умением видеть», «умением слышать», «умением читать». Это единое умение.

Практическое следствие: построить RAG-поисковик по любым данным теперь можно за несколько строк кода через их новый file API. Кто был на моей первой Gen.AI школе разработчиков — помните вторую лекцию про RAG? Эта лекция больше не нужна. Целую лекцию мы разбирали, как строить RAG-системы — сейчас это просто вшито в платформу. Много инженерных аспектов, которые мы делаем руками, всасываются в offerings лабораторий. Это важный паттерн — аспекты, которые сегодня являются вашим конкурентным преимуществом как инженера, завтра станут API-вызовом.

Где это полезно? Поиск по вашей персональной базе знаний (лекции: транскрипты, аудио, видео, презентации) — одним запросом. Галереи и аукционы, где нужен поиск «картинка на вход — похожие работы на выход» (год назад это был engineering X, сейчас 0.1X — в 10 раз проще). Robotics — Марианна вспомнила: основные сенсоры роботов — камера и аудио, и чтобы принимать решения, этот поток нужно класть единообразно.

Интересная связь с архитектурными спорами. Первый — self-driving: Waymo vs Tesla. Waymo говорит «нужны дорогие сенсоры на каждой тачке». Tesla говорит «человеку хватает глаз — значит камеры достаточно, остальное в софт». Unimodal-эмбеддинги позволяют легче сопоставлять потоки: поток с камеры ≈ поток с сенсоров (с потерей точности, но в пределах допустимого для езды по городу). Это аргумент в пользу Tesla. Второй спор — voice-агенты: audio-to-audio vs cascaded (speech→text→LLM→text→speech). Cascaded теряет интонацию и мимику. Те же механизмы unimodal-сопоставления помогут cascaded-архитектурам найти эквиваленты и быть ближе к audio-to-audio.

Джин из аудитории добавил важный угол: китайские self-driving тачки учатся на симуляциях, подкреплённых сенсорами проданных машин. Каждая ошибка в реальном мире добавляется в симуляцию и в обучение. Обновления идут не от 3.0 к 4.0, а 3.0.1, 3.0.11, 3.0.23 — постоянный flow. Unimodal-модели — первый шаг к тому, чтобы модель «чувствовала» физический мир без необходимости строить полный sim-environment.

Видео-генерация и data moat соцсетей

Длительность генерируемого видео двигается по той же экспоненте, что и METR. Первое Sora — 8 секунд. Сейчас — около 2 минут. По слухам, Veo 4 выйдет до следующего Google I/O (июнь) и сделает ещё прыжок. То есть до нашей следующей встречи мы ещё раз увидим качественный скачок.

Здесь критичен Data loop, но уже про видео-контент. У кого огромные объёмы видео + объёмы взаимодействий (лайки, досматриваемость, не досматриваемость)? У ByteDance, Meta, YouTube. OpenAI пробовал зайти в эту нишу через SORU как social network — продукт убили, модель скорее нет, но продукт мёртв. Поэтому ByteDance-модель показывает выдающиеся видео: dataset важнее архитектуры.

Предсказание, которое напрашивается при наложении этого на ранее упомянутый Genius AI контент: соцсети не будут блокировать AI-контент. Поставьте себя на место CPO TikTok или Instagram. Ценность контента падает, но у вас нет выбора: чтобы улучшать свои собственные видео-модели и метрики вовлечения, нужно наблюдать AI-генерацию в реальных лентах. Вспомните, как работал Cursor: он учитывал, в какой доле предложенного куска кода вы нажимаете Tab. Обратная связь → улучшение предикции. То же самое с видео: показать сгенерированное, собрать реакцию, улучшить модель. Будет допустимая пропорция и обязательная маркировка. Алексей добавил: в итоге всё сравняется по восприятию.

Как реакция появятся специализированные площадки, которые принципиально AI-контент не пускают — по принципу «ручные изделия vs массовая фабрика». Когда появилась массовая обувь, 99% рынка переключилось; осталась малая элитная доля, где главное оружие — маркетинг (Nike). С видео будет так же: массовый AI-контент + маленькая luxury-ниша «100% human». Обе ниши зарабатывают на маркетинге, но разным.

Математика, медицина, open source на китайском силиконе

Четыре отдельные новости, которые ложатся в тот же тезис — верифицируемые области получают самые сильные capability первыми.

Математика: Erdős-теоремы. Есть классический список открытых проблем Эрдёша. Два-три месяца назад OpenAI поспешили с заявлением о решении — оказалось, нашли уже существующее решение. Сейчас же все топовые лаборатории реально находят новые решения. Вчера читал ревью математика: одно из доказательств супер элегантное и простое — прямо в духе «золотого стандарта» Эрдёша. Посмотрите интервью Теренса Тао у Дворкеша — топового живущего математика — про то, как он использует AI в ресерче. Отличный и тонкий разговор.

Медицина: vibe-pharma. AlphaFold и дальнейшие модели ускоряют research-этап разработки лекарств от месяцев до дней. Один день в процессе согласования — это ~$6M выручки (по данным из моего доклада про AI-case studies в фармацевтике). Сокращение 60-дневного согласительного процесса до недели — это ~$100M по одному препарату. Но интереснее серая область: для очень редких заболеваний (orphan diseases) появляются истории, когда люди находят и синтезируют лекарства сами. Экономически раньше эти лекарства не писались — недостаточно больных. Это параллель с vibe-coding: огромные куски софта не писались, потому что было невыгодно. В медицине будут те же процессы.

Open source из Китая. Смотрим любимый ресурс Artificial Analysis.AI на квадранте intelligence × cost. GLM, Kimi K2 и другие китайские модели по intelligence уже на уровне Sonnet 4.6, а по стоимости — логарифмически дешевле, иногда в 50 раз. Раньше open-source отставал на ~9 месяцев, сейчас — ~3 месяца. Это давит на экономику западных лабораторий. И появляется геополитическая плоскость: возникает соблазн «давайте отрубим китайцам доступ к инфраструктуре для тренировки». CEO NVIDIA буквально пару дней назад был у Дворкеша — его мучали вопросами на эту тему. Важная новость последних недель: появились первые китайские модели, натренированные полностью на китайском силиконе (по заявлениям; верифицировать нельзя). Это снижает зависимость Китая от американских чипов. Некоторые связывают это с геополитическими рисками вокруг Тайваня: каждый раз, когда Китай снижает зависимость, он «развязывает себе руки».

Новые бенчмарки, на которых модели пока проседают. RKGI отрабатывается на ура. Вышло новое поколение, где люди решают легко, а топовые модели еле-еле берут проценты. Можно было бы успокоиться, но вспомните закон Гудхарта: «покажите мне метрику — и я под неё оптимизируюсь». Публикация нового бенчмарка — это маркер вектора, который будут теперь атаковать лаборатории. Через цикл-два этот разрыв сократится. Это уже происходило с ARC-AGI v1 и v2.

Harness и Software Factory

Я даже отдельный раздел в этой презентации назвал harness. Это слово и концепция становятся одним из центральных.

Самая наглядная демонстрация — из Linear-тикета получается готовый pull request. Пока это багфиксы и мелкие правки на фронте. Но направление ясно: автоматизация до PR, и процесс разработки должен под это быть перестроен.

Мы в onsa.ai уже начали реорганизовывать процесс design → frontend handoff. Исходная проблема: дизайнеры стали vibe-кодить прототипы (Claude Code, Lovable, бывший v0), и фронты жалуются на две вещи. Первая: сложно увидеть разные состояния — надо кликнуть 4 раза, чтобы дойти до нужного стейта, который разработчик должен реализовать. Вторая: прототип нарушает дизайн-систему, и его невозможно нативно переиспользовать — приходится переписывать. Итоговая цель — чтобы из прототипа прыгать сразу в код через PR от Claude Code; frontend смотрит PR, не делает его руками.

На этом пути резко растёт важность дизайн-системы. Появляются стандарты обвязок — как говорить с агентами: `CLAUDE.md`, `AGENTS.md`, свежий `Design.md` от Google, Design Rules в Cursor. Это фактически дизайн-система, закодированная для агента. Harness — это снижение степеней свободы агента до того уровня, где он не нарушит вашу систему.

Эталон Software Factory — StrongDM. Их принцип: no hand-coded code. И интереснее всего у них решение проблемы тестирования с внешними системами. Когда coding-агенту нужно работать с Salesforce/HubSpot/etc., проблемы следующие: у внешних систем может не быть sandbox, у production есть rate limits и денежная стоимость каждого API-вызова, нельзя просто отпустить агента «херачить». Решение StrongDM: digital twin universe. Они vibe-кодом воспроизвели API и базовый UI крупных систем — и дают агентам песочницу, где те свободно тестируют, без страха сломать продакшн или влететь на лимиты. Я считаю это бизнес-возможностью: если Salesforce/HubSpot сами не сделают digital-twins — кто-то должен делать их как SaaS-стенды. Elegantное использование vibe-coding: vibe-кодим системы, чтобы стресс-тестировать свои coding-агенты.

Ходили учиться у Деминга в Японию — сейчас ходят в гости к StrongDM, чтобы понять, как перестроить компанию в Software Factory. Если разработка у вас узкое место — это обязательный ресурс для изучения. Они же красиво решают legacy: вокруг старого SDK и API делают digital-twin + browser automation для UI.

Пределы роста: компьют, электричество, регуляция

В прогнозе петель я специально вытаскивал только усиливающие. Теперь балансирующая, самая физическая — пределы роста. Архетип из системного мышления: любая система не может расти быстрее физических ограничений, и эти ограничения со временем начинают доминировать.

Сегодня видно три: GPU, электричество, регуляция.

Рекомендую Semi-Analysis — ребята по спутниковым данным и другим источникам меряют объёмы всего supply chain дата-центров и пишут, где дырки, где узкое место, у кого проблемы, у кого хватит. Их CEO был у Дворкеша месяц назад — хороший разговор.

Каждая лаборатория принимает решение, какую долю своего compute направить на какую команду. Anthropic находится в самом жёстком дефиците компьюта — и поэтому вообще не идёт в аудио/видео. Laser focus на текст и кодинг. Это не значит, что они никогда не сделают — но сейчас не могут себе позволить размазывать ресурс. Дарио постоянно публично говорит, что OpenAI живёт в YOLO-mode — делает агрессивные compute-сделки, живёт один раз. Эти сделки сейчас обеспечивают OpenAI лучшее положение, но раздувают пузырь. Anthropic были осторожнее, им приходится закручивать лимиты в Claude Code и не идти в тренировку некоторых модальностей. Там уже не про деньги — про физические ограничения.

Электричество и регуляция пересекаются. Некоторые штаты США блокируют федеральные разрешения на построение электростанций/дата-центров — под давлением избирателей, которые боятся потери работы и не доверяют AI. Федеральные страны с сильной субъектной автономией (США) дадут «пятнистую карту» — одни штаты pro-AI, другие anti-AI, и рынок перераспределится. Страны с жёсткой централизацией примут бинарное решение — целиком pro или целиком anti.

Маск в недавнем разговоре с Дворкешем и одним из братьев Stripe всерьёз аргументирует дата-центры в космосе: меньше регуляторных ограничений. Это из разряда «когда физический предел достигнут, играем с границами самого физического мира».

Вспомните «Пределы роста» — книгу, трижды переиздававшуюся (72, 92, 2002) с апдейтами. Её ругали за то, что не все предсказания сбылись; мой взгляд — она заставила нас медленнее разрушать планету и подняла разговор. Сейчас наш аналог — думать над тем, чего не хватает: GPU, электричество, регуляторика. И наблюдать, как эти пределы меняются.

Anthropic vs Department of War

Ещё одна чёткая линия напряжения — Anthropic отказывается давать свои модели для принятия автономных решений о поражении целей Department of War (новое название Министерства обороны США). Я не люблю теории заговора (не хватает информации), так что говорю по фактам: конфликт есть, решения пока нет. Возможно, это пиар Anthropic, возможно уход от ситуации с Ираном, возможно позиция сотрудников внутри лаборатории. Параллель — кейс Google и Китая: помните бэклэш сотрудников против продажи систем слежения?

Думаю, решение будет комбинацией: экономические инcентивы, физические ограничения (compute), и внутренняя позиция сотрудников — потому что в лабораториях ключевое пока всё-таки люди.

Два лагеря: YOLO vs осторожный

Вот это, наверное, хорошее завершение. За последние полгода ещё сильнее обострилась разница между двумя лагерями, которые всегда появляются с крупной трансформацией. Я их называю:

YOLO-mode (you only live once) — двигаемся максимально быстро. Условно OpenAI.
Осторожный лагерь — «давайте будем осторожны, но двигаемся». Условно Anthropic.

Эти два лагеря проявляются не только в людях и компаниях, но и в странах. Интересно, как это взаимодействие и конфликт будут развиваться.

Моя текущая позиция — ближе к осторожному. До сих пор не могу себя убедить включить `dangerously-skip-permissions`. Но уровень автономии в своём стеке я повышаю последовательно, особенно с ноября-декабря. Я знаю ребят, которые дали своему OpenClaw $10K, отключили все доступы — и он сам живёт. К чему приведут такие эксперименты полной автономии — никто не знает, но диапазон такой: от абсолютной автономии до «хочу руками писать код». Большинство из нас где-то посередине.

Мой любимый технологический предприниматель Баладжи формулирует это так: будет и много апсайда, и много даунсайда. Не «чуть-чуть плохого при сильном хорошем» и не наоборот. Много и того, и другого. Эта формулировка мне ближе всего.

Что это значит для вас и ваших компаний: надо принять решение, к какому полюсу ближе, и двигаться в этом направлении последовательно, повышая уровень автономии, если так решили. Для себя я четко выбрал последовательный путь: вижу, где ломается, понимаю, где нужны подпорки. Эти подпорки реализуем с учётом tempo of frost — с учётом темпа прогресса моделей. Мы сейчас договорились с дизайнерами и фронтами: пока ходим через промежуточный шаг (прототип → wireframes → код), но процесс выстраиваем так, чтобы когда модели будут достаточно хороши — убрать wireframes и прыгать от прототипа сразу к коду.

Глобальная система, к которой я иду в onsa.ai — один super-expert на каждую важную часть (дизайн, фронт, бэк, AI, продукт, продажи) плюс coding-агент. Эксперт определяет, что «хорошо» и «плохо» в своей вертикали, за плечами имеет большой опыт ручной работы — остальное делает AI.

Нам как стартапу проще выстроить такую систему с нуля. Крупным компаниям сложнее — там legacy-процессы и дизайн-системы сопротивляются. Именно поэтому я рекомендую всем изучать StrongDM и подобные ресурсы: не копировать вслепую, а видеть directionally — куда всё двигается.

Финальная мысль

Короткая рамка, которую я унесу сам: мотор удвоился, тормоза только появляются. Усиливающие петли работают на максимуме, балансирующие — только начинают включаться. Мы ещё не знаем, какая из них станет доминирующей — security, trust, regulation, compute или электричество. Но мы точно знаем: чтобы пользоваться ускоряющимся мотором и не разбиться, нужен хороший harness. В коде, в дизайне, в процессах, в вашей команде, в вашей голове.

Канал: t.me/ProductsAndStartups