Red Hat entrega llm-d a la CNCF para avanzar hacia un estándar abierto de inferencia distribuida
- Tecnologías
El proyecto llm-d pasa a la Cloud Native Computing Foundation como iniciativa Sandbox para acelerar su adopción, unificar prácticas, mejorar la eficiencia y garantizar un futuro abierto para la IA empresarial. Red Hat impulsa la creación de un ecosistema cloud-native capaz de soportar la inferencia de IA a gran escala.
Red Hat ha puesto el proyecto llm-d a disposición de la Cloud Native Computing Foundation (CNCF) como proyecto Sandbox, con el objetivo de convertir la inferencia de IA de alto rendimiento en una capacidad nativa del stack cloud-native.
La iniciativa amplía la colaboración entre proveedores como CoreWeave, IBM, Google y NVIDIA para avanzar hacia un estándar abierto de inferencia distribuida. Para Brian Stevens, CTO de IA en Red Hat, “esto no es solo una entrega de código. Es un compromiso para hacer que la entrega de servicios de IA de alto rendimiento sea una capacidad central y portable del cloud-native stack”.
La inferencia como motor de la era agentiva
La expansión de agentes empresariales en múltiples sectores está elevando las exigencias sobre la inferencia de IA, que debe ser eficiente, portable y económicamente viable. El coste de ejecutar modelos a gran escala puede dispararse si no se optimiza el uso de aceleradores y la gestión de cargas. Las capacidades avanzadas de llm-d permiten cumplir SLO empresariales mientras maximizan la eficiencia de la infraestructura, ofreciendo flexibilidad para desplegar inferencia en centros de datos, nubes públicas o edge, siempre sobre estándares abiertos.
Aunque Kubernetes es el estándar de facto para la orquestación, no fue diseñado para las particularidades de la inferencia de modelos de lenguaje. La variabilidad del coste por solicitud, la dependencia del caché KV o la diferencia entre fases de precarga y decodificación requieren un enfoque especializado. llm-d actúa como una capa de orquestación de plano de datos entre KServe y motores como vLLM, utilizando componentes nativos como Gateway API y LeaderWorkerSet para transformar la inferencia distribuida en una carga de trabajo manejable y observable.
La contribución de llm-d a la CNCF establece patrones replicables para convertir componentes fragmentados de IA en microservicios interoperables. Una pieza clave es el endpoint picker (EPP), que habilita un enrutamiento consciente del estado real del motor, optimizando la latencia y las tasas de acierto del caché. Stevens destaca que “estamos estableciendo caminos bien definidos que transforman componentes de IA fragmentados en microservicios modulares e interoperables”.
El proyecto complementa tecnologías ya presentes en la CNCF, como Kubernetes, como base de infraestructura; Gateway API, para un enrutamiento específico de IA alineado upstream; KServe, como plano de control de alto nivel; LeaderWorkerSet, para orquestar réplicas multinodo y paralelismo experto; y Prometheus y Grafana, para métricas especializadas como el TTFT.
Desde su anuncio en el Red Hat Summit, llm-d ha sido adoptado en entornos de Model-as-a-Service privados y en iniciativas de IA a gran escala. Su comunidad de contribuyentes continúa creciendo, reforzando la visión de un ecosistema abierto y colaborativo. “El camino hacia una innovación de IA de código abierto exitosa es largo, pero juntos estamos construyendo la infraestructura para llegar allí”, concluye Stevens.