Qumulo LogoQumulo Logo

Blog

Comparación de conjuntos de datos para el ajuste y la inferencia de la IA: Grandes modelos lingüísticos frente a sistemas de conducción autónoma

En Qumulo, llevamos años dedicados a crear sistemas de almacenamiento primario empresarial Scale Anywhere y evolucionándolos hasta convertirlos en una verdadera plataforma de datos en la nube: atendiendo a los sectores de computación de alto rendimiento, supercomputación, inteligencia artificial, creación de contenidos, sanidad, ciencias de la vida, defensa/inteligencia e investigación. Uno de los casos de uso más impactantes de nuestra tecnología ha sido el apoyo a Agrupaciones de conducción autónoma también conocido como Sistemas avanzados de asistencia al conductor (ADAS). Estos clústeres de IA, fundamentales para el desarrollo de vehículos autónomos, aprovechan los puntos fuertes exclusivos de Qumulo en la gestión de conjuntos de datos masivos con una mezcla de archivos grandes y pequeños, ofreciendo una durabilidad, consistencia y escalabilidad inigualables en entornos de nube pública, híbrida y privada.

En grandes modelos lingüísticos (LLM) como GPT-4 han dominado los titulares por su capacidad para escribir historias, refinar el lenguaje o incluso contar chistes decentes, Los clústeres ADAS cumplen una misión más crítica mejorar la seguridad del conductor, optimizar el consumo de combustible y, en última instancia, salvar vidas. Cada uno de estos dominios de alta carga computacional (ADAS y LLM) presenta diferencias matizadas que plantean tanto retos como oportunidades. Mientras que los LLM pueden capturar la imaginación del público, en Qumulo, estamos orgullosos de potenciar los sistemas de datos detrás de muchos de los mayores clusters ADAS del mundo, una aplicación transformadora que afecta a la vida de todos en la carretera, mejorando la seguridad y la eficiencia.

En los últimos años, los avances en inteligencia artificial han impulsado los LLM, como la serie GPT de OpenAI, así como los ADAS. Aunque ambos se basan en conjuntos de datos considerables para el entrenamiento, la naturaleza, la escala y la estructura de estos conjuntos de datos difieren significativamente. Examinemos estos contrastes a nivel técnico, arrojando luz sobre sus respectivos retos y oportunidades.

Finalidad y naturaleza de los datos

La diferencia fundamental entre los LLM y los conjuntos de datos ADAS radica en su finalidad y en el tipo de datos que ingieren.

Grandes modelos lingüísticos (LLM):

Los LLM están diseñados para procesar y generar texto similar al humano. Sus conjuntos de datos consisten en fichas derivados de fuentes de lenguaje natural como libros, artículos, sitios web y repositorios de código. Estos conjuntos de datos hacen hincapié en generalización lingüística para ello es necesario que los datos sean diversos y representativos de la lengua o lenguas a las que servirá el modelo. La tokenización -un proceso en el que el texto se divide en unidades de subpalabras o palabras- permite una representación eficaz de los datos.

Conducción autónoma / Sistemas avanzados de asistencia al conductor (ADAS):

Los vehículos autónomos se basan en datos de sensores para navegar por entornos reales. Estos datos incluyen salidas en bruto, sin comprimir de cámaras, LiDAR, radares, GPS y unidades de medición inercial (IMU). El objetivo es entrenar modelos que comprendan los entornos espaciales, reconozcan objetos y tomen decisiones en tiempo real. Los conjuntos de datos de los ADAS deben captar no sólo los escenarios de conducción habituales, sino también los casos extremos, como las condiciones meteorológicas adversas o el comportamiento inusual de los peatones.

Tamaños de los conjuntos de datos: Una perspectiva cuantitativa

Los tamaños de los conjuntos de datos difieren tanto en términos absolutos como en la forma de medirlos:

LLMs:

La escala de los conjuntos de datos LLM suele medirse en fichas. Por ejemplo:

  • GPT-3 se entrenó en aproximadamente 300.000 millones de fichas equivalente a ~570 GB de datos comprimidos o varios terabytes sin comprimir (Brown et al., 2020).

  • Los LLM modernos, como GPT-4, probablemente utilicen conjuntos de datos que superen los 1.000 millones de euros 1-2 petabytes sobre todo cuando se incorporan fuentes multimodales y multilingües. Esto equivale aproximadamente a cien largometrajes 8K RAW.

ADAS:

Los conjuntos de datos ADAS se miden en almacenamiento de datos en bruto debido a la naturaleza no comprimida de las salidas de los sensores:

  • Un solo vehículo autónomo genera de 1 a 10 terabytes de datos diarios (Waymo, 2023).

  • Los conjuntos de datos de toda la flota, utilizados por empresas como Tesla y Waymo, superan los 2.000 millones de euros 100-500 petabytes anuales. Para contextualizar, la flota de Tesla recoge más de 1 millón de kilómetros de datos de conducción diarios (Tesla AI Day, 2021). En comparación con los conjuntos de datos de formación de LLM, esto es aproximadamente 25.000 largometrajes RAW 8K al año, o 32 años de cine moderno.

Diversidad y estructura de los datos

La estructura y la diversidad de los datos también ponen de manifiesto fuertes contrastes:

LLMs:

  • Datos altamente comprimidos debido a los procesos de tokenización y deduplicación.

  • Da prioridad a la diversidad de ámbitos (por ejemplo, artículos científicos, ficción, código) para garantizar la generalización.

  • Se realiza un preprocesamiento significativo para filtrar el texto de baja calidad o sesgado (OpenAI, 2020).

ADAS:

Los datos son intrínsecamente de alta dimensión y espaciales, incluyendo:

  • Vídeo: Grabaciones de alta resolución (1080p o 4K) a 30-60 fotogramas por segundo.

  • LiDAR: Millones de puntos 3D por segundo.

Una parte importante de los datos se utiliza para simulación y validación sobre todo en casos extremos.

Retos informáticos

Aunque los conjuntos de datos LLM son más pequeños en términos de almacenamiento bruto, su complejidad de entrenamiento y sus demandas de cálculo rivalizan con las de ADAS:

LLMs:

  • El entrenamiento implica miles de millones o billones de parámetros, lo que requiere un procesamiento de alto rendimiento de conjuntos de datos tokenizados.

  • La formación GPT-3 requirió aproximadamente 3640 petaflops-día de computación (Brown et al., 2020).

  • Las canalizaciones de datos optimizadas (por ejemplo, tokenización, procesamiento por lotes) reducen el tamaño efectivo del conjunto de datos durante el entrenamiento.

ADAS:

  • El procesamiento implica datos de series temporales y modelización espacial, lo que a menudo requiere un rendimiento en tiempo real.

  • Se utilizan entornos de simulación (por ejemplo, CARLA, NVIDIA DRIVE) para aumentar el entrenamiento, lo que añade complejidad computacional.

  • El hardware especializado, como las GPU o las TPU dedicadas, y las CPU CISC de un solo zócalo y gran ancho de núcleo procesan grandes conjuntos de datos sin procesar para el entrenamiento y la inferencia.

Longevidad y crecimiento de los datos

LLMs:

  • El tamaño del conjunto de datos aumenta progresivamente con la complejidad del modelo. Sin embargo, el crecimiento se ralentiza debido a los rendimientos decrecientes a escala (Kaplan et al., 2020).

  • Los conjuntos de datos más antiguos siguen siendo pertinentes, ya que los fundamentos lingüísticos no cambian con rapidez.

ADAS:

  • El crecimiento del conjunto de datos es exponencial debido a:

    • Aumento del tamaño de las flotas y de los índices de adopción.

    • Avances en la tecnología de sensores (mayor resolución y frecuencia de muestreo).

    • Ampliación de la cobertura de casos extremos para una generalización sólida.

  • Los conjuntos de datos más antiguos pueden quedar obsoletos a medida que evolucionan las tecnologías de los vehículos y los sensores.

Comparación de conjuntos de datos

AspectoLLMsADAS/Conducción autónomaTamaño del conjunto de datosDe terabytes a pocos petabytesCientos de petabytesTipo de datosTexto (tokens)Vídeo, LiDAR, Radar, GPS, GIS, Imágenes de satéliteCompresiónAltamente comprimidos (tokenización)Compresión mínima (datos brutos)FinalidadComprensión lingüísticaToma de decisiones espaciales en tiempo real: salvar vidas y mejorar la seguridad del transporteCrecimientoEscala baja con rendimientos decrecientesCrecimiento exponencial (flota, sensores)

Conclusión

Los conjuntos de datos utilizados para el entrenamiento de los LLM y los sistemas ADAS se adaptan a los retos específicos de sus respectivos dominios. Mientras que los LLM se basan en datos altamente comprimidos y curados, principalmente textuales, los sistemas ADAS procesan datos de sensores en bruto y sin comprimir, cuyos requisitos de almacenamiento son órdenes de magnitud mayores. Sin embargo, la complejidad computacional del entrenamiento de los LLM suele rivalizar con la de los ADAS, lo que refleja el vasto espacio de parámetros de los modelos lingüísticos modernos. Mientras que los sistemas ADAS se enfrentan a los obstáculos logísticos que plantea el escalado de datos brutos, los LLM deben encontrar el equilibrio entre el tamaño del conjunto de datos, la calidad y la disminución de los beneficios.

Libertad de elección

Cuando se plantean los retos actuales de procesar grandes modelos lingüísticos o sistemas ADAS, surge una pregunta clave: ¿tiene mi centro de datos la capacidad (espacio, energía y refrigeración) para soportar las tecnologías informáticas aceleradas necesarias para la formación? Igualmente importante es determinar si la formación y el ajuste continuos en hardware especializado son esenciales, o si basta con aprovechar estos recursos temporalmente para lograr un resultado específico antes de pasar a la inferencia.

Esto nos lleva a una decisión estratégica más amplia: ¿debería construirse una infraestructura informática acelerada in situ, o es más eficiente utilizar la escalabilidad y capacidad de los entornos de nube pública, conectando conjuntos de datos sin problemas a través de infraestructuras híbridas? En Qumulo, nuestro objetivo es capacitar a nuestros clientes para sobresalir en ambos escenarios, rompiendo las barreras tecnológicas para que puedan tomar las mejores decisiones empresariales, de ingeniería y operativas para sus necesidades únicas. Para obtener más información sobre el rendimiento innovador que Qumulo ha proporcionado en el entorno de nube pública utilizando nuestra Cloud Data Platform, consulte este vídeo.

Referencias

Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS. Enlace

Kaplan, J., et al. (2020). Leyes de escalado para modelos lingüísticos neuronales. OpenAI. Enlace

Waymo (2023). Conjunto de datos sobre conducción autónoma. Investigación Waymo. Página web

Día de la Inteligencia Artificial de Tesla (2021). Recogida de datos de la flota de Tesla. Tesla. Enlace

Comparación de conjuntos de datos para el ajuste y la...