Blog

Retos de la arquitectura de plataformas de datos para sistemas de IA agenética

August 18, 2025

Bryan Berezdivin

La IA agéntica marca el paso de flujos de trabajo estáticos y centrados en modelos a sistemas de razonamiento continuo que planifican, actúan y se adaptan sin supervisión humana constante. Mientras que los LLM con RAG pueden extraer información fresca en el momento de la consulta, los sistemas agenéticos han aumentado los requisitos de datos en tiempo real, de modo que la recuperación y la adaptación del contexto se producen continuamente, en medio del razonamiento. Esto plantea un reto fundamental en materia de datos: varios agentes, cada uno con sus propias tareas, deben acceder y compartir el mismo contexto en evolución sin interferir en el estado de los demás. Sin ello, el razonamiento se fragmenta, los resultados se desvían y los flujos de trabajo posteriores fracasan.

La IA agenética sustituye los mensajes puntuales por el razonamiento continuo: los agentes perciben el entorno, recuerdan el contexto relevante, planifican, actúan y evalúan de forma iterativa para maximizar las funciones de recompensa. Para que esto funcione a gran escala, el bucle continuo de datos debe moverse al unísono: las nuevas señales se ingieren, se curan y versionan, se indexan (incluidas las incrustaciones) y luego se recuperan como fragmentos inmutables cada vez que un agente piensa. Los bucles de datos se alimentan de enormes volúmenes de datos no estructurados, como texto, imágenes, vídeo y flujos de sensores. Estos conjuntos de datos están cada vez más geodistribuidos en nubes, centros de datos y entornos periféricos. Las acciones y los resultados se verifican con la procedencia y se vuelven a introducir en la curación, de modo que el siguiente paso de razonamiento parte de un estado coherente y auditable. En los flujos de un solo agente, se trata de un patrón simple de recuperación y contexto; en los sistemas multiagente, exige puntos de control persistentes, lecturas instantáneas, recuperación simultánea, acceso basado en políticas y linaje. Sin este estrecho acoplamiento de los dos bucles, los agentes se atascan en contextos obsoletos, chocan con datos cambiantes y no son reproducibles, lo que convierte a la arquitectura de datos en un factor decisivo para que estos sistemas de IA de próxima generación puedan alcanzar la escala empresarial.

Como dice Andrew Ng, "el cuello de botella de muchas aplicaciones es conseguir los datos adecuados para alimentar el software", y como bien dice el CEO de Snowflake, "potenciar la IA de hoy no tiene que ver con los modelos, sino con la capa de datos que los alimenta".

Principales retos

Gestión de datos no estructurados en infraestructuras aisladas
Los modelos multiagente de la IA agenética exigen un acceso sin fisuras a diversos conjuntos de datos. Cuando la información está aislada, como los registros de clientes, la telemetría IoT o las reglas operativas, surgen cuellos de botella de complejidad y rendimiento. Las GPU pierden eficiencia cuando el acceso a los datos se retrasa, lo que aumenta los costes de computación debido al menor rendimiento de las aplicaciones de IA. Mantener la agilidad requiere orquestar conjuntos de datos relevantes para el preentrenamiento, el ajuste y el aumento con una latencia mínima.

el 61% de los líderes están desplegando agentes de IA, pero Gartner prevé una automatización de solo el 15 % para 2028, lo que pone de relieve que la fragmentación de los silos de datos socava el rendimiento de la inversión de los agentes.

Conservación y suministro de datos para flujos de trabajo adaptables
Los flujos de trabajo de aprendizaje continuo requieren una entrega de datos rápida y específica. Complejo la curación consume entre el 30 y el 50% del tiempo del proyecto especialmente para fuentes dinámicas como los flujos de sentimientos de las redes sociales. Las canalizaciones CI/CD multiagente deben alimentar numerosos modelos de aprendizaje de forma simultánea, donde incluso pequeños retrasos en los datos pueden paralizar el procesamiento entre los agentes.

Según Forbes, hasta el 79% del tiempo de los profesionales de datos se dedica a preparar conjuntos de datos, lo que subraya por qué son vitales las canalizaciones de entrega automatizadas y versionadas.

Gestión de datos para la seguridad, la ética y el cumplimiento de la normativa
Los sistemas autónomos plantean mayores riesgos de cumplimiento, especialmente cuando el 35% o más de su linaje de datos puede ser imposible de rastrear, como se ha visto en algunos casos de la industria. Sin una transparencia total sobre el origen, las transformaciones y el uso de los datos, las organizaciones se enfrentan a riesgos legales, de reputación y operativos. La falta de trazabilidad socava la explicabilidad, la detección de sesgos y la protección de la privacidad, que son fundamentales en los sectores regulados.

El 75% de las iniciativas de IA fracasan debido a incoherencias en los datos y el 69% nunca llegan a la fase de producción Radar tecnológico la limpieza de los datos y la trazabilidad no son opcionales, sino fundamentales para los sistemas agénticos.

Requisitos arquitectónicos

Yann LeCun, galardonado con el Premio Turing, nos recuerda que "más datos y más computación" no producirán por arte de magia una IA más inteligente; lo que más importa es lo que se le da al sistema, la coherencia de la entrada y cómo se estructura y gobierna la información. Al fin y al cabo, sigue siendo difícil alcanzar una inteligencia "de nivel felino", lo que subraya por qué la IA agenética exige algo más que escala.

Acceso unificado a los datos
Un Global Namespace (GNS) híbrido/multi-nube integra todos los conjuntos de datos en la nube, en el perímetro y en las instalaciones en una única vista lógica. Esto elimina la gestión manual de ubicaciones, la duplicación de datos y las incoherencias de versiones, lo que permite a los agentes operar con un conjunto de información completo y coherente.

Compatibilidad entre protocolos
Los distintos pasos del bucle de datos aprovechan diferentes bibliotecas desplegadas en contenedores y se benefician de las interfaces POSIX/objeto de forma diferente. Las cargas de trabajo ETL y de formación se benefician de POSIX, mientras que el etiquetado se beneficia de las interfaces de objetos. Las plataformas que admiten el acceso a archivos (SMB, NFS), objetos (S3) y API (REST) evitan la costosa replanificación, lo que permite a los agentes funcionar de forma nativa en distintos entornos sin retrasos en la migración de datos.

Rendimiento optimizado
El almacenamiento inteligente en caché mediante mapas térmicos o prefetching garantiza un acceso de baja latencia en un único clúster o en un conjunto geodistribuido de clústeres. El acceso flexible y de baja latencia a datos remotos dondequiera que estén permite a los agentes tomar decisiones en tiempo real en ámbitos como el diagnóstico autónomo.

Escalable, eficaz y concurrente
La IA agenética requiere la entrega simultánea y a alta velocidad de conjuntos de datos curados a múltiples agentes sin cuellos de botella ni cambios de estado. El control de versiones integrado, las instantáneas inmutables y la indexación garantizan que todos los agentes trabajen a partir de un conjunto de datos coherente. La integración con procesos CI/CD automatiza las actualizaciones, las pruebas y el despliegue en las fases de formación, validación, RAG y ajuste. Sin estas capacidades, los sistemas multiagente se enfrentan a la desviación de datos, el procesamiento redundante y las ralentizaciones en cascada.

Gobernanza sólida y seguimiento de la procedencia
La procedencia automatizada de los datos captura un registro cronológico detallado de cada transformación, movimiento y acceso a los datos. Esto facilita la elaboración de informes de cumplimiento, apoya las auditorías, detecta el uso indebido y reconstruye los contextos de decisión para explicar y mitigar los sesgos.

Resumen

En resumen, escalar la IA agenética es tanto una reto de la arquitectura de datos como un reto de la IA. El éxito exige plataformas de datos unificadas, de alto rendimiento y preparadas para la gobernanza, capaces de orquestar petabytes de datos distribuidos y no estructurados, preservando al mismo tiempo la transparencia, la seguridad y la agilidad esenciales para unos sistemas autónomos seguros y eficaces. La plataforma de datos en la nube de Qumulo se diseñó para resolver retos como estos. Más información aquí.