Hay una conversación que los equipos de tecnología raramente tienen con los directores de agencia: cuánto cuesta realmente cada consulta de IA.
No hablamos de las suscripciones mensuales con precio fijo. Hablamos de los sistemas que facturan por tokens, por uso, por llamadas a la API. Aquellos donde el coste real depende de cuánto usa el equipo, con qué frecuencia, para qué tipo de consultas.
En estos sistemas, sin control de costes, el presupuesto de IA puede desbordarse sin que nadie lo vea venir.
Los modelos de lenguaje como GPT-4, Claude o Gemini facturan por tokens. Un token equivale aproximadamente a 0.75 palabras en inglés (un poco menos en español). Cada consulta consume tokens de dos maneras:
La parte que suele sorprender es el contexto. En un sistema RAG (que recupera documentos para responder), cada consulta incluye fragmentos de los documentos relevantes. Una consulta que parece sencilla puede estar enviando 2.000-5.000 tokens de contexto al modelo.
$0.012 parece insignificante. Pero multiplícalo por el uso real de un equipo.
Tomemos una agencia mediana de 20 personas, con 12 usuarios activos del sistema de IA documental:
Con uso controlado, los costes son muy manejables. El problema ocurre cuando no hay control: consultas con contextos enormes, usuarios que repiten consultas por errores, o casos de uso mal optimizados pueden multiplicar esos costes por 10 o más.
Una agencia sin control de costes de IA puede descubrir a final de mes que ha gastado 10 veces más de lo previsto. Con control en tiempo real, cada consulta muestra su coste exacto antes de que ocurra la sorpresa.
Si el sistema recupera demasiados documentos como contexto por cada consulta, el coste por token se dispara. La optimización correcta es recuperar solo lo necesario con alta precisión, no todos los documentos potencialmente relevantes.
Sin límites configurados, un usuario que hace 50 consultas en una tarde de investigación puede generar el mismo coste que el resto del equipo en una semana. Los límites por usuario y por proyecto son esenciales.
Una pregunta vaga como "dame todo lo que tengamos sobre el cliente X" genera consultas de altísimo coste. Enseñar al equipo a hacer consultas precisas reduce el coste sin reducir la calidad de las respuestas.
Si el equipo no ve cuánto cuesta cada consulta en el momento de hacerla, no puede tomar decisiones informadas. La visibilidad del coste cambia el comportamiento.
No todas las consultas necesitan el modelo más potente (y más caro). Un sistema bien configurado enruta consultas simples a modelos más eficientes y reserva los modelos premium para las consultas complejas.
Un sistema de IA con control de costes correcto debe incluir:
La discusión sobre el coste de la IA solo tiene sentido cuando se compara con el coste de no tenerla:
La IA de calidad, con control de costes, no es un gasto. Es una de las inversiones con mejor retorno que puede hacer una agencia moderna.
IA sin Humos muestra el coste en tokens y dólares con cada respuesta. Sin sorpresas a fin de mes.
Ver la demo en vivo →