Коротко: Практическое руководство по экономии токенов в Claude Code, Codex, Cursor. Откаты, субагенты, plan mode, лимит 120k, скиллы — что реально работает в коммерческих проектах.
Если вы регулярно упираетесь в лимиты посреди работы — в Claude Code, Codex, Cursor или любом другом агенте, который используете в проде — эта статья для вас. Без воды и теории: только конкретные приёмы, которые мы в ЭПОХА\ИИ применяем сами и зашиваем в рабочие регламенты клиентов. По нашим замерам, грамотная работа с контекстом экономит 40-60% токенов на типовых задачах и снимает 90% случаев, когда ИИ начинает «тупить» на длинных чатах.
Поехали.
Что такое токены и контекстное окно — коротко
Токен — это единица текста, которой нейросеть меряет всё, что вы ей пишете, и всё, что она отвечает. Каждый пробел, каждая буква, каждый знак препинания. На английском один токен — это примерно три четверти слова. На русском в 2-3 раза дороже — одно русское слово равно двум-трём токенам. Это первое, что нужно держать в голове, если вы работаете с ИИ в коммерческих проектах.
Контекстное окно — это память нейросети в рамках одного чата. У современных моделей оно огромное: у Claude — миллион токенов. Но есть нюанс, о котором редко говорят: нейросеть не запоминает диалог. Каждый раз, когда вы пишете новое сообщение, она перечитывает всё, что было до этого. То есть на пятидесятом сообщении она прогоняет через себя сорок девять предыдущих — и только потом думает, что ответить вам сейчас.
Замеры из открытых источников показывают: на сотом сообщении в длинном чате 98% токенов уходит на обработку истории и только 2% — на сам новый ответ. Плюс к этому появляется context rot — деградация контекста, когда нейросеть начинает забывать детали и тупить именно из-за длинной истории.
Дальше — 14 приёмов, которые реально работают.
1. Не плодить мусорные запросы — делать откаты
Самая частая ошибка. Получили неудачный ответ — и вместо нормального решения начинаете писать «нет, я имел в виду другое», «попробуй так», «не работает, переделай». Каждый такой комментарий нейросеть обрабатывает заново при следующем запросе. Токены тают, чат превращается в свалку, context rot ускоряется.
Что делать: использовать откат. В Claude Code, Codex и Cursor есть стрелочка «назад» возле сообщений. Три варианта:
- Fork conversation from here — откатывается только диалог, код остаётся как есть
- Fork conversation and rewind code — полный откат, и чат, и файлы возвращаются к состоянию до сообщения
- Откат на нужную точку и новый промпт
После отката пишете новый запрос с правильной формулировкой — нейросеть не видит провальную попытку, контекст чистый.
Когда откатываться, а когда правки: если нейросеть сделала 90% задачи правильно и накосячила в мелочах — правки. Если сгенерировала полную ерунду — откат. Главное правило: не превращайте чат в чат-с-нейросетью-которая-плохо-понимает.
2. Редактирование сообщений вместо новых
Связанный приём. У каждого вашего сообщения есть иконка карандаша. Если поняли, что неправильно сформулировали — отредактируйте старое сообщение, а не пишите новое поверх. Нейросеть автоматически уберёт свой прежний ответ и сгенерирует новый.
Пример: спросили прогноз погоды в Туле, получили ответ, но вспомнили, что хотели по Иркутску. Не пишите «нет, в Иркутске». Кликните карандаш на старом сообщении, замените «Тула» на «Иркутск», сохраните. Чат остаётся чистым, история — без мусора.
3. Группировать вопросы
Если у вас несколько мелких вопросов по одной теме — задавайте их одним сообщением, а не пятью отдельными. Каждое отдельное сообщение запускает перечитывание истории. Одно сообщение с пятью пунктами — один прогон.
Работает не для всего: если задачи разной природы (одна про дизайн, другая про бэкенд), лучше разнести по разным чатам (см. пункт 6). Но мелкие уточнения по одной задаче — да, в одно сообщение.
4. /bt — side-вопросы без нагрузки на основной чат
В Claude Code есть команда /bt (background thread). Вы сейчас работаете над крупной задачей, нейросеть генерит код — но вам надо уточнить что-то стороннее. Не прерывая основную сессию, набираете /bt, задаёте вопрос, получаете ответ. После Esc и ответ, и ваш вопрос исчезают из чата.
Полезно, когда вы работаете над сложным проектом и не хотите каждым уточнением распухать контекст основной задачи.
Пункты 1-4 покрывают самую частую причину перерасхода токенов в коммерческих проектах — захламление чата. Если внедрить только эти четыре правила в свой workflow, экономия часто достигает 30-40% без всякой техники.
5. Просить отвечать коротко — глобально в настройках
Входные токены (ваш запрос) стоят примерно в 5 раз дешевле, чем выходные (ответ нейросети). Причина в том, как модель генерирует текст: входной запрос она читает одним проходом, а ответ генерирует пословно — перед каждым следующим словом прогоняя через себя всё, что уже написала.
Что это значит на практике: длинные ответы нейросети дорого обходятся. Особенно если она по умолчанию любит писать обширно, с водой и тремя примерами там, где нужен один.
Решение: один раз пропишите в глобальном CLAUDE.md (для Claude) или AGENTS.md (для Codex):
- Отвечай коротко, по делу
- Без вступлений и пересказа вопроса
- Один пример вместо трёх, если в задаче не сказано иначе
- Код без многословных комментариев — только там, где WHY неочевидно
Дальше нейросеть применит это во всех ваших сессиях. Это разовое действие, которое работает каждый день.
6. Новый чат — новая задача
Звучит банально, но 90% пользователей этим грешат. В одном чате сначала обсуждают дизайн, потом верстают, потом настраивают интеграции, потом дебажат. Контекст распухает, нейросеть начинает тупить, путает требования из ранних обсуждений с актуальной задачей.
Правило: одна крупная задача — один чат. Закончили — закрыли, открыли новый. Если для следующей задачи нужен контекст предыдущей — оформите его в отдельный markdown-файл и сошлитесь на него в новом чате.
7. Субагенты для тяжёлых задач
Если задача требует читать кучу файлов и выдавать длинный анализ (SEO-аудит, ревизия зависимостей, рефакторинг крупного модуля) — делегируйте это субагенту. Субагент работает в отдельном контекстном окне: он перелопачивает десятки тысяч строк кода у себя, а в основной чат возвращает только финальное резюме.
Что это даёт: основной чат не загрязняется промежуточными размышлениями, токены не тратятся на «думанье», в истории остаётся только полезная выжимка. Когда вы перейдёте к следующей задаче в том же чате — её ничего не будет тормозить.
Субагенты есть и в Claude Code, и в Codex. Это, по сути, markdown-инструкции с указанием модели, инструментов и описания задачи.
8. Скиллы для повторяющихся задач
Скиллы — это markdown-инструкции для частых сценариев. Сделали что-то сложное один раз, мучились, пришли к рабочему решению — запишите его как скилл. В следующий раз нейросеть применит готовый рецепт без раздумий и без перерасхода токенов.
Ключевая особенность: скилл подгружается только когда нужен. У него есть заголовок и описание — нейросеть автоматически понимает, что в этой задаче пригодится скилл по верстке, и подгружает его. В остальное время в контексте лежит только короткий summary — почти бесплатно.
Это базовый кирпич, если вы хотите системно использовать ИИ, а не «звать его на каждую задачу с нуля». В Claude vs ChatGPT мы разбирали, в каких сценариях каждая модель сильнее — но скиллы одинаково работают везде.
9. Лимит 120 000 токенов в одной сессии
В Claude недавно увеличили контекстное окно до миллиона токенов. Многие подумали, что теперь можно гонять чаты по полмиллиона. Не работает.
Эмпирически: нейросеть качественно работает примерно на первых 100-120k токенов. После этого начинаются стандартные проблемы — context rot, забывчивость, неточные ответы. На 500k токенах модель уже совсем плывёт.
Правило: держите расход в одном чате до 120k токенов. Когда подбираетесь к лимиту — либо /compact (Claude свернёт историю в выжимку), либо откатывайтесь к началу, либо создайте новый чат.
Альтернатива — собрать скилл-сумморизатор, который в конце каждой сессии генерирует short brief с ключевыми решениями и контекстом. Этот brief вставляете в новый чат — продолжаете работу с чистым окном.
10. Markdown вместо PDF и Word
Когда вы кидаете нейросети PDF или DOCX, вы по факту отдаёте не только текст. В PDF зашиты метаданные о шрифтах, координаты каждого символа на странице, отступы, разметка колонок, цветовые профили. Половина этого для нейросети — мусор, но обрабатывать она вынуждена всё.
Одно и то же содержимое в PDF и в markdown по нагрузке отличается примерно в 2 раза. Условно: PDF — 15 000 токенов, markdown — 8 000.
Плюс ко всему markdown — родной формат для LLM. Они понимают его лучше всех остальных форматов. Если вы постоянно даёте нейросети ТЗ, регламенты или примеры — конвертируйте их в .md один раз и пользуйтесь.
11. CLAUDE.md и AGENTS.md — держать до 200 строк
CLAUDE.md и AGENTS.md (для Codex) — это инструкции, которые автоматически подгружаются в начале каждой сессии. Туда кладут стек, предпочтения, правила оформления кода. Очень удобно — настроил один раз, работает везде.
Опасность: если этот файл вырастет до тысячи строк инструкций, нейросеть будет тратить огромное количество токенов просто на старт каждой сессии. Плюс может что-то забыть из перегрузки.
Правило: держите эти файлы до 200 строк. Кладите туда только то, что критично в каждой задаче. Всё остальное — дизайн-системы, описания компонентов, бизнес-правила — выносите в отдельные .md и ссылайтесь на них:
## Дизайн-система
Лежит в `docs/design-system.md` — обращайся при задачах по верстке.
## Бизнес-правила
Лежат в `docs/rules.md` — обращайся при работе с CRM-интеграциями.
Нейросеть подгрузит нужный файл только когда задача его потребует.
Раздутые CLAUDE.md — одна из самых частых причин «почему ИИ начал тупить ни с того ни с сего». Если файл инструкций перевалил за 300 строк, нейросеть начинает с забитого на четверть контекстного окна. Это видно сразу: первые ответы в сессии становятся хуже, чем были.
12. Отключать ненужные MCP и расширения
Каждое дополнительное расширение Claude или Codex жрёт токены просто фактом своего существования. MCP-серверы, extended thinking, коннекторы, браузерные интеграции — всё это в начале сессии добавляет к контексту инструкции о том, как с ними работать.
Самый прожорливый пример — Playwright MCP, который делает скриншоты страниц. Если вы сейчас не верстаете и не проверяете UI — он лишний и в окне, и во времени выполнения задач.
Отключается командой /mcp → выбираете нужный MCP → Disable. Включить обратно — за 5 секунд. Хорошее правило: отключать всё, что не используется в текущей сессии.
13. Лёгкие модели для лёгких задач
В Claude есть три модели: Opus 4.7 (самая мощная, самая дорогая), Sonnet 4.6 (средняя), Haiku 4.5 (лёгкая, быстрая, дешёвая). Команда /model переключает.
Логика простая:
- Opus — для сложных архитектурных задач, рефакторинга, дебага запутанных багов
- Sonnet — для большинства обычных задач: написать функцию, разобрать ошибку, объяснить код
- Haiku — для рутины: поменять цвет кнопки, добавить отступ, переименовать переменную, согенерить boilerplate
Если на «поменять padding на 16px» у вас стоит Opus — вы платите за Lamborghini, чтобы съездить за хлебом. Подробное сравнение моделей по реальным задачам мы разбирали в Claude vs ChatGPT 2026 и GPT vs Gemini vs Claude.
Соберём ИИ-стек под ваш бизнес
14. Plan mode — Shift+Tab перед большой задачей
В Claude Code и Codex есть plan mode: переключается сочетанием Shift+Tab. В этом режиме нейросеть не пишет код, а сначала составляет план реализации задачи. Вы читаете план, либо подтверждаете его (тогда исполнение пойдёт по плану), либо корректируете.
Зачем это нужно с точки зрения токенов: если нейросеть сначала продумает структуру задачи, а потом начнёт писать — она реже промахивается. А каждый промах — это правки, дополнительные сообщения, новые попытки. Plan mode снижает количество итераций в среднем в 1.5-2 раза на крупных задачах.
Очень мощно работает связка plan mode + скилл brainstorming + writing-plans из плагина Superpowers для Claude Code — там целая методология «обсудили → спланировали → сделали → протестировали» с принудительным разбиением на маленькие шаги. Для коммерческих проектов это must-have.
Если перед задачей включить plan mode и дать нейросети составить план — даже если вы сразу подтвердите его без правок — нейросеть лучше «понимает», что делать. Скорость и точность растут, токены экономятся. Это бесплатный win.
Бонус: растянуть 5-часовое окно Claude через «будильник»
Claude работает с 5-часовыми окнами: вы за 5 часов можете потратить определённый объём токенов, потом ждёте следующее окно. Окно отсчитывается от вашего первого сообщения.
Полезный трюк: если вы знаете, что начнёте работать в 10 утра — настройте Claude Routines (вкладка Claude Code → Routines) на отправку пустого сообщения в 6 утра. Тогда ваше окно — с 6 до 11. К моменту, когда вы реально сядете работать в 10, у вас будет всего час старого окна, после которого автоматически откроется новое — без длинной паузы посреди работы.
Не самый красивый трюк, но если вы упираетесь в дневные лимиты на больших проектах — экономит часы простоя.
Что изменилось 6 мая 2026
Важная новость для тех, кто пользуется Claude в проде: 6 мая 2026 Anthropic заколлабились со SpaceX и получили доступ к дата-центру Colossus 1 в Мемфисе. В результате:
- 5-часовые лимиты в Claude Code удвоились для тарифов Pro, Max, Team, Enterprise
- Убраны ограничения по пиковым часам — раньше в часы пик токены сгорали быстрее
- По API подняты rate limits для Opus
Уйти в лимит стало заметно сложнее. Но это не отменяет 14 приёмов выше — потому что чем меньше токенов вы жжёте на мусор, тем больше остаётся на реальную работу.
FAQ
Сколько реально получится сэкономить, если внедрить всё это?
По нашим замерам в проектах [ЭПОХА\\ИИ](https://epokha.ai) — **40-60% токенов** на типовых задачах. На тех же тарифах закрываете в полтора-два раза больше задач до упора в лимиты.
Какой пункт даёт самый быстрый эффект?
Связка пунктов 1-4 (откаты, редактирование, группировка, /bt) — самая дешёвая в освоении и самая болезненная по эффекту. Один день привычки — экономия на месяцы.
А что, если мне нужен длинный контекст и точка?
Тогда работайте через **map-reduce** на субагентах: один агент разбивает задачу, несколько агентов параллельно обрабатывают куски, главный собирает итог. У каждого своё окно — никто не упирается в context rot.
Можно ли это внедрить без переучивания процессов?
Часть — да (CLAUDE.md, отключение MCP, выбор моделей — это разовые настройки). Часть требует привычки (откаты, plan mode, /bt). По нашему опыту в [ЭПОХА\\ИИ](https://epokha.ai), новый workflow осваивается за 1-2 недели плотной работы.
А если у меня не Claude, а Cursor / Codex / ChatGPT?
80% приёмов работают везде — это базовые принципы работы с LLM. Различаются только конкретные команды (`/bt`, `Shift+Tab`) и названия настроек (`CLAUDE.md` vs `AGENTS.md`).
Источники
- Anthropic — Claude usage limits — https://support.anthropic.com/en/articles/8324991-about-usage-limits (проверено: май 2026)
- OpenAI — Codex CLI documentation — https://github.com/openai/codex (проверено: май 2026)
- Anthropic — Claude Code best practices — https://docs.anthropic.com/en/docs/claude-code/overview (проверено: май 2026)
По мотивам видео Матвея Шульги «Как НИКОГДА не упираться в лимиты | Claude и Codex» — с дополнениями из нашей практики в ЭПОХА\ИИ.
Прочитали? Давайте внедрим
ИИ-консультант ответит за 5 секунд.