Claude Code con Kimi API: trabaja sin límites
Me quedé sin tokens a mitad de un proyecto. Esto fue lo que hice.
Son las 11 de la mañana. Llevas tres horas programando con Claude Code, estás en pleno flow, y de repente aparece el mensaje que nadie quiere ver: has alcanzado el límite de tu suscripción. El contador se resetea en 4 horas. ¿Paras? ¿Abres el navegador y usas la web? ¿Pagas el plan superior?
Yo encontré una cuarta opción: conectar Claude Code directamente a la API de Kimi y seguir trabajando como si nada. Sin cambiar de herramienta, sin perder el contexto del proyecto, sin pagar más.
Este artículo explica exactamente cómo lo hice, paso a paso.
El problema real: el límite de la suscripción de Anthropic
La suscripción Pro de Claude cuesta 20 €/mes y tiene un límite de uso que, si trabajas intensamente con Claude Code durante jornadas largas, puedes alcanzar en pocas horas. Una vez agotado el cupo, Claude Code simplemente deja de responder hasta que el contador se resetea (generalmente cada 5 horas).
Para un desarrollador que trabaja con IA como parte de su flujo diario, ese tiempo de espera es productividad perdida.
La solución pasa por entender cómo funciona Claude Code por dentro: no es más que un cliente que hace llamadas a una API. Y esa API es configurable.
Qué es Kimi API y por qué funciona aquí
Kimi es el modelo de lenguaje desarrollado por Moonshot AI, una empresa china con una de las mejores relaciones calidad/precio del mercado en 2026. Su API es compatible con el estándar OpenAI, lo que significa que cualquier herramienta que pueda hablar con OpenAI puede redirigirse a Kimi con cambios mínimos.
Sus ventajas para este caso de uso:
- Capa gratuita generosa: suficiente para cubrir horas de trabajo mientras esperas el reset
- Ventana de contexto enorme (hasta 128K tokens en algunos modelos)
- Latencia baja para tareas de generación de código
- Compatible con OpenAI SDK: el puente con Claude Code es directo
Cómo conectar Claude Code a Kimi API
Claude Code usa por defecto la API de Anthropic, pero expone variables de entorno que permiten redirigir las llamadas. El truco está en usar LiteLLM como proxy local: un servidor intermediario que recibe las peticiones de Claude Code (en formato Anthropic) y las traduce al formato de Kimi.
Paso 1: Consigue tu API key de Kimi
Regístrate en platform.moonshot.cn y genera una API key. La capa gratuita te da créditos suficientes para varias horas de trabajo.
Paso 2: Instala LiteLLM
pip install litellm[proxy]
Paso 3: Crea el archivo de configuración
Crea un archivo litellm-config.yaml en tu directorio de trabajo:
model_list:
- model_name: claude-3-5-sonnet-20241022
litellm_params:
model: moonshot/moonshot-v1-128k
api_key: "sk-tu-api-key-de-kimi"
api_base: "https://api.moonshot.cn/v1"
El truco está en el model_name: le decimos a LiteLLM que cuando Claude Code pida claude-3-5-sonnet-20241022, en realidad llame a moonshot-v1-128k. Claude Code nunca se entera del cambio.
Paso 4: Arranca el proxy
litellm --config litellm-config.yaml --port 4000
Paso 5: Redirige Claude Code al proxy
En tu terminal (o en tu .bashrc / .zshrc):
export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_API_KEY=cualquier-string-no-vacio
Ahora lanza Claude Code normalmente:
claude
Claude Code se conectará al proxy local, que redirigirá las peticiones a Kimi. Mismo flujo de trabajo, diferente modelo bajo el capó.
Resultados en mi día a día
Lo usé por primera vez un viernes a mediodía, cuando me quedé sin cupo a mitad de una refactorización. El setup tardó menos de 10 minutos. Las conclusiones después de varias semanas:
- Para tareas de código rutinario (refactoring, tests, documentación): Kimi rinde al nivel de Claude Sonnet sin problemas
- Para razonamiento complejo (arquitectura, debugging difícil): Claude sigue siendo superior, pero puedes usar Kimi para avanzar y revisar con Claude cuando se resetee
- El coste real: con la capa gratuita de Kimi cubrí todas mis horas de "espera" durante un mes entero sin gastar un euro adicional
- Transparencia total: Claude Code no muestra ningún aviso ni cambio de comportamiento visible
El único ajuste de flujo que hago: guardo las tareas de mayor complejidad para cuando recupero acceso a Claude, y uso el tiempo con Kimi para trabajo de implementación directa.
Si quieres ver otros trucos para sacar más partido a Claude Code, te recomiendo leer sobre sesiones en la nube y tareas programadas y Claude Channels con Telegram y Discord.
Conclusión
Quedarte sin cupo en Anthropic no tiene por qué significar parar. Con Claude Code + LiteLLM + Kimi API tienes un plan B que se configura en 10 minutos y que, en el día a día, es prácticamente invisible.
Es uno de esos trucos que, una vez que lo pruebas, ya no puedes imaginar trabajar sin él.
¿Quieres integrar este tipo de flujos de IA en tu stack de desarrollo? Cuéntame tu caso y lo vemos juntos: hablemos por WhatsApp