Как не упираться в лимиты Claude и Codex: 14 рабочих способов экономить токены

Q: Сколько реально получится сэкономить, если внедрить всё это?

По нашим замерам в проектах ЭПОХА\ИИ — 40-60% токенов на типовых задачах. На тех же тарифах закрываете в полтора-два раза больше задач до упора в лимиты.

Q: А что, если мне нужен длинный контекст и точка?

Тогда работайте через map-reduce на субагентах: один агент разбивает задачу, несколько агентов параллельно обрабатывают куски, главный собирает итог. У каждого своё окно — никто не упирается в context rot.

Как не упираться в лимиты Claude и Codex: 14 рабочих способов экономить токены

Коротко: Практическое руководство по экономии токенов в Claude Code, Codex, Cursor. Откаты, субагенты, plan mode, лимит 120k, скиллы — что реально работает в коммерческих проектах.

Если вы регулярно упираетесь в лимиты посреди работы — в Claude Code, Codex, Cursor или любом другом агенте, который используете в проде — эта статья для вас. Без воды и теории: только конкретные приёмы, которые мы в ЭПОХА\ИИ применяем сами и зашиваем в рабочие регламенты клиентов. По нашим замерам, грамотная работа с контекстом экономит 40-60% токенов на типовых задачах и снимает 90% случаев, когда ИИ начинает «тупить» на длинных чатах.

Поехали.

Что такое токены и контекстное окно — коротко

Токен — это единица текста, которой нейросеть меряет всё, что вы ей пишете, и всё, что она отвечает. Каждый пробел, каждая буква, каждый знак препинания. На английском один токен — это примерно три четверти слова. На русском в 2-3 раза дороже — одно русское слово равно двум-трём токенам. Это первое, что нужно держать в голове, если вы работаете с ИИ в коммерческих проектах.

Контекстное окно — это память нейросети в рамках одного чата. У современных моделей оно огромное: у Claude — миллион токенов. Но есть нюанс, о котором редко говорят: нейросеть не запоминает диалог. Каждый раз, когда вы пишете новое сообщение, она перечитывает всё, что было до этого. То есть на пятидесятом сообщении она прогоняет через себя сорок девять предыдущих — и только потом думает, что ответить вам сейчас.

Замеры из открытых источников показывают: на сотом сообщении в длинном чате 98% токенов уходит на обработку истории и только 2% — на сам новый ответ. Плюс к этому появляется context rot — деградация контекста, когда нейросеть начинает забывать детали и тупить именно из-за длинной истории.

Дальше — 14 приёмов, которые реально работают.

1. Не плодить мусорные запросы — делать откаты

Самая частая ошибка. Получили неудачный ответ — и вместо нормального решения начинаете писать «нет, я имел в виду другое», «попробуй так», «не работает, переделай». Каждый такой комментарий нейросеть обрабатывает заново при следующем запросе. Токены тают, чат превращается в свалку, context rot ускоряется.

Что делать: использовать откат. В Claude Code, Codex и Cursor есть стрелочка «назад» возле сообщений. Три варианта:

Fork conversation from here — откатывается только диалог, код остаётся как есть
Fork conversation and rewind code — полный откат, и чат, и файлы возвращаются к состоянию до сообщения
Откат на нужную точку и новый промпт

После отката пишете новый запрос с правильной формулировкой — нейросеть не видит провальную попытку, контекст чистый.

Когда откатываться, а когда правки: если нейросеть сделала 90% задачи правильно и накосячила в мелочах — правки. Если сгенерировала полную ерунду — откат. Главное правило: не превращайте чат в чат-с-нейросетью-которая-плохо-понимает.

2. Редактирование сообщений вместо новых

Связанный приём. У каждого вашего сообщения есть иконка карандаша. Если поняли, что неправильно сформулировали — отредактируйте старое сообщение, а не пишите новое поверх. Нейросеть автоматически уберёт свой прежний ответ и сгенерирует новый.

Пример: спросили прогноз погоды в Туле, получили ответ, но вспомнили, что хотели по Иркутску. Не пишите «нет, в Иркутске». Кликните карандаш на старом сообщении, замените «Тула» на «Иркутск», сохраните. Чат остаётся чистым, история — без мусора.

3. Группировать вопросы

Если у вас несколько мелких вопросов по одной теме — задавайте их одним сообщением, а не пятью отдельными. Каждое отдельное сообщение запускает перечитывание истории. Одно сообщение с пятью пунктами — один прогон.

Работает не для всего: если задачи разной природы (одна про дизайн, другая про бэкенд), лучше разнести по разным чатам (см. пункт 6). Но мелкие уточнения по одной задаче — да, в одно сообщение.

4. /bt — side-вопросы без нагрузки на основной чат

В Claude Code есть команда /bt (background thread). Вы сейчас работаете над крупной задачей, нейросеть генерит код — но вам надо уточнить что-то стороннее. Не прерывая основную сессию, набираете /bt, задаёте вопрос, получаете ответ. После Esc и ответ, и ваш вопрос исчезают из чата.

Полезно, когда вы работаете над сложным проектом и не хотите каждым уточнением распухать контекст основной задачи.

Пункты 1-4 покрывают самую частую причину перерасхода токенов в коммерческих проектах — захламление чата. Если внедрить только эти четыре правила в свой workflow, экономия часто достигает 30-40% без всякой техники.

5. Просить отвечать коротко — глобально в настройках

Входные токены (ваш запрос) стоят примерно в 5 раз дешевле, чем выходные (ответ нейросети). Причина в том, как модель генерирует текст: входной запрос она читает одним проходом, а ответ генерирует пословно — перед каждым следующим словом прогоняя через себя всё, что уже написала.

Что это значит на практике: длинные ответы нейросети дорого обходятся. Особенно если она по умолчанию любит писать обширно, с водой и тремя примерами там, где нужен один.

Решение: один раз пропишите в глобальном CLAUDE.md (для Claude) или AGENTS.md (для Codex):

- Отвечай коротко, по делу
- Без вступлений и пересказа вопроса
- Один пример вместо трёх, если в задаче не сказано иначе
- Код без многословных комментариев — только там, где WHY неочевидно

Дальше нейросеть применит это во всех ваших сессиях. Это разовое действие, которое работает каждый день.

6. Новый чат — новая задача

Звучит банально, но 90% пользователей этим грешат. В одном чате сначала обсуждают дизайн, потом верстают, потом настраивают интеграции, потом дебажат. Контекст распухает, нейросеть начинает тупить, путает требования из ранних обсуждений с актуальной задачей.

Правило: одна крупная задача — один чат. Закончили — закрыли, открыли новый. Если для следующей задачи нужен контекст предыдущей — оформите его в отдельный markdown-файл и сошлитесь на него в новом чате.

7. Субагенты для тяжёлых задач

Если задача требует читать кучу файлов и выдавать длинный анализ (SEO-аудит, ревизия зависимостей, рефакторинг крупного модуля) — делегируйте это субагенту. Субагент работает в отдельном контекстном окне: он перелопачивает десятки тысяч строк кода у себя, а в основной чат возвращает только финальное резюме.

Что это даёт: основной чат не загрязняется промежуточными размышлениями, токены не тратятся на «думанье», в истории остаётся только полезная выжимка. Когда вы перейдёте к следующей задаче в том же чате — её ничего не будет тормозить.

Субагенты есть и в Claude Code, и в Codex. Это, по сути, markdown-инструкции с указанием модели, инструментов и описания задачи.

8. Скиллы для повторяющихся задач

Скиллы — это markdown-инструкции для частых сценариев. Сделали что-то сложное один раз, мучились, пришли к рабочему решению — запишите его как скилл. В следующий раз нейросеть применит готовый рецепт без раздумий и без перерасхода токенов.

Ключевая особенность: скилл подгружается только когда нужен. У него есть заголовок и описание — нейросеть автоматически понимает, что в этой задаче пригодится скилл по верстке, и подгружает его. В остальное время в контексте лежит только короткий summary — почти бесплатно.

Это базовый кирпич, если вы хотите системно использовать ИИ, а не «звать его на каждую задачу с нуля». В Claude vs ChatGPT мы разбирали, в каких сценариях каждая модель сильнее — но скиллы одинаково работают везде.

9. Лимит 120 000 токенов в одной сессии

В Claude недавно увеличили контекстное окно до миллиона токенов. Многие подумали, что теперь можно гонять чаты по полмиллиона. Не работает.

Эмпирически: нейросеть качественно работает примерно на первых 100-120k токенов. После этого начинаются стандартные проблемы — context rot, забывчивость, неточные ответы. На 500k токенах модель уже совсем плывёт.

Правило: держите расход в одном чате до 120k токенов. Когда подбираетесь к лимиту — либо /compact (Claude свернёт историю в выжимку), либо откатывайтесь к началу, либо создайте новый чат.

Альтернатива — собрать скилл-сумморизатор, который в конце каждой сессии генерирует short brief с ключевыми решениями и контекстом. Этот brief вставляете в новый чат — продолжаете работу с чистым окном.

10. Markdown вместо PDF и Word

Когда вы кидаете нейросети PDF или DOCX, вы по факту отдаёте не только текст. В PDF зашиты метаданные о шрифтах, координаты каждого символа на странице, отступы, разметка колонок, цветовые профили. Половина этого для нейросети — мусор, но обрабатывать она вынуждена всё.

Одно и то же содержимое в PDF и в markdown по нагрузке отличается примерно в 2 раза. Условно: PDF — 15 000 токенов, markdown — 8 000.

Плюс ко всему markdown — родной формат для LLM. Они понимают его лучше всех остальных форматов. Если вы постоянно даёте нейросети ТЗ, регламенты или примеры — конвертируйте их в .md один раз и пользуйтесь.

11. CLAUDE.md и AGENTS.md — держать до 200 строк

CLAUDE.md и AGENTS.md (для Codex) — это инструкции, которые автоматически подгружаются в начале каждой сессии. Туда кладут стек, предпочтения, правила оформления кода. Очень удобно — настроил один раз, работает везде.

Опасность: если этот файл вырастет до тысячи строк инструкций, нейросеть будет тратить огромное количество токенов просто на старт каждой сессии. Плюс может что-то забыть из перегрузки.

Правило: держите эти файлы до 200 строк. Кладите туда только то, что критично в каждой задаче. Всё остальное — дизайн-системы, описания компонентов, бизнес-правила — выносите в отдельные .md и ссылайтесь на них:

## Дизайн-система
Лежит в `docs/design-system.md` — обращайся при задачах по верстке.

## Бизнес-правила
Лежат в `docs/rules.md` — обращайся при работе с CRM-интеграциями.

Нейросеть подгрузит нужный файл только когда задача его потребует.

Раздутые CLAUDE.md — одна из самых частых причин «почему ИИ начал тупить ни с того ни с сего». Если файл инструкций перевалил за 300 строк, нейросеть начинает с забитого на четверть контекстного окна. Это видно сразу: первые ответы в сессии становятся хуже, чем были.

12. Отключать ненужные MCP и расширения

Каждое дополнительное расширение Claude или Codex жрёт токены просто фактом своего существования. MCP-серверы, extended thinking, коннекторы, браузерные интеграции — всё это в начале сессии добавляет к контексту инструкции о том, как с ними работать.

Самый прожорливый пример — Playwright MCP, который делает скриншоты страниц. Если вы сейчас не верстаете и не проверяете UI — он лишний и в окне, и во времени выполнения задач.

Отключается командой /mcp → выбираете нужный MCP → Disable. Включить обратно — за 5 секунд. Хорошее правило: отключать всё, что не используется в текущей сессии.

13. Лёгкие модели для лёгких задач

В Claude есть три модели: Opus 4.7 (самая мощная, самая дорогая), Sonnet 4.6 (средняя), Haiku 4.5 (лёгкая, быстрая, дешёвая). Команда /model переключает.

Логика простая:

Opus — для сложных архитектурных задач, рефакторинга, дебага запутанных багов
Sonnet — для большинства обычных задач: написать функцию, разобрать ошибку, объяснить код
Haiku — для рутины: поменять цвет кнопки, добавить отступ, переименовать переменную, согенерить boilerplate

Если на «поменять padding на 16px» у вас стоит Opus — вы платите за Lamborghini, чтобы съездить за хлебом. Подробное сравнение моделей по реальным задачам мы разбирали в Claude vs ChatGPT 2026 и GPT vs Gemini vs Claude.

Соберём ИИ-стек под ваш бизнес

Хочу

14. Plan mode — Shift+Tab перед большой задачей

В Claude Code и Codex есть plan mode: переключается сочетанием Shift+Tab. В этом режиме нейросеть не пишет код, а сначала составляет план реализации задачи. Вы читаете план, либо подтверждаете его (тогда исполнение пойдёт по плану), либо корректируете.

Зачем это нужно с точки зрения токенов: если нейросеть сначала продумает структуру задачи, а потом начнёт писать — она реже промахивается. А каждый промах — это правки, дополнительные сообщения, новые попытки. Plan mode снижает количество итераций в среднем в 1.5-2 раза на крупных задачах.

Очень мощно работает связка plan mode + скилл brainstorming + writing-plans из плагина Superpowers для Claude Code — там целая методология «обсудили → спланировали → сделали → протестировали» с принудительным разбиением на маленькие шаги. Для коммерческих проектов это must-have.

Если перед задачей включить plan mode и дать нейросети составить план — даже если вы сразу подтвердите его без правок — нейросеть лучше «понимает», что делать. Скорость и точность растут, токены экономятся. Это бесплатный win.

Бонус: растянуть 5-часовое окно Claude через «будильник»

Claude работает с 5-часовыми окнами: вы за 5 часов можете потратить определённый объём токенов, потом ждёте следующее окно. Окно отсчитывается от вашего первого сообщения.

Полезный трюк: если вы знаете, что начнёте работать в 10 утра — настройте Claude Routines (вкладка Claude Code → Routines) на отправку пустого сообщения в 6 утра. Тогда ваше окно — с 6 до 11. К моменту, когда вы реально сядете работать в 10, у вас будет всего час старого окна, после которого автоматически откроется новое — без длинной паузы посреди работы.

Не самый красивый трюк, но если вы упираетесь в дневные лимиты на больших проектах — экономит часы простоя.

Что изменилось 6 мая 2026

Важная новость для тех, кто пользуется Claude в проде: 6 мая 2026 Anthropic заколлабились со SpaceX и получили доступ к дата-центру Colossus 1 в Мемфисе. В результате:

5-часовые лимиты в Claude Code удвоились для тарифов Pro, Max, Team, Enterprise
Убраны ограничения по пиковым часам — раньше в часы пик токены сгорали быстрее
По API подняты rate limits для Opus

Уйти в лимит стало заметно сложнее. Но это не отменяет 14 приёмов выше — потому что чем меньше токенов вы жжёте на мусор, тем больше остаётся на реальную работу.

FAQ

Сколько реально получится сэкономить, если внедрить всё это?

По нашим замерам в проектах [ЭПОХА\\ИИ](https://epokha.ai) — **40-60% токенов** на типовых задачах. На тех же тарифах закрываете в полтора-два раза больше задач до упора в лимиты.

Какой пункт даёт самый быстрый эффект?

Связка пунктов 1-4 (откаты, редактирование, группировка, /bt) — самая дешёвая в освоении и самая болезненная по эффекту. Один день привычки — экономия на месяцы.

А что, если мне нужен длинный контекст и точка?

Тогда работайте через **map-reduce** на субагентах: один агент разбивает задачу, несколько агентов параллельно обрабатывают куски, главный собирает итог. У каждого своё окно — никто не упирается в context rot.

Можно ли это внедрить без переучивания процессов?

Часть — да (CLAUDE.md, отключение MCP, выбор моделей — это разовые настройки). Часть требует привычки (откаты, plan mode, /bt). По нашему опыту в [ЭПОХА\\ИИ](https://epokha.ai), новый workflow осваивается за 1-2 недели плотной работы.

А если у меня не Claude, а Cursor / Codex / ChatGPT?

80% приёмов работают везде — это базовые принципы работы с LLM. Различаются только конкретные команды (`/bt`, `Shift+Tab`) и названия настроек (`CLAUDE.md` vs `AGENTS.md`).

Источники

Anthropic — Claude usage limits — https://support.anthropic.com/en/articles/8324991-about-usage-limits (проверено: май 2026)
OpenAI — Codex CLI documentation — https://github.com/openai/codex (проверено: май 2026)
Anthropic — Claude Code best practices — https://docs.anthropic.com/en/docs/claude-code/overview (проверено: май 2026)

По мотивам видео Матвея Шульги «Как НИКОГДА не упираться в лимиты | Claude и Codex» — с дополнениями из нашей практики в ЭПОХА\ИИ.

Прочитали? Давайте внедрим

ИИ-консультант ответит за 5 секунд.

Написать нам

Автор статьи

Никита Овдиенко

Строю ЭПОХА ИИ

В Telegram-канале «Никита Овдиенко | Бизнес на AI» рассказываю как ИИ помогает автоматизировать бизнес-процессы и увеличивать доход — на примере своей компании и проектов клиентов.

Как не упираться в лимиты Claude и Codex: 14 рабочих способов экономить токены

Что такое токены и контекстное окно — коротко

1. Не плодить мусорные запросы — делать откаты

2. Редактирование сообщений вместо новых

3. Группировать вопросы

4. /bt — side-вопросы без нагрузки на основной чат

5. Просить отвечать коротко — глобально в настройках

6. Новый чат — новая задача

7. Субагенты для тяжёлых задач

8. Скиллы для повторяющихся задач

9. Лимит 120 000 токенов в одной сессии

10. Markdown вместо PDF и Word

11. CLAUDE.md и AGENTS.md — держать до 200 строк

12. Отключать ненужные MCP и расширения

13. Лёгкие модели для лёгких задач

Соберём ИИ-стек под ваш бизнес

14. Plan mode — Shift+Tab перед большой задачей

Бонус: растянуть 5-часовое окно Claude через «будильник»

Что изменилось 6 мая 2026

FAQ

Источники

Прочитали? Давайте внедрим

Никита Овдиенко

Выберите мессенджер