Bei Qumulo haben wir jahrelang daran gearbeitet, unternehmensweite Scale Anywhere-Primärspeichersysteme zu entwickeln und sie zu einer echten Cloud-Datenplattform weiterzuentwickeln: für die Bereiche Hochleistungsrechnen, Supercomputing, künstliche Intelligenz, Inhaltserstellung, Gesundheitswesen, Biowissenschaften, Verteidigung/Geheimdienst und Forschung. Einer der wirkungsvollsten Anwendungsfälle für unsere Technologie war die Unterstützung Cluster für autonomes Fahren, auch bekannt als Fahrerassistenzsysteme (ADAS). Diese KI-Cluster, die für die Entwicklung autonomer Fahrzeuge von grundlegender Bedeutung sind, nutzen die einzigartigen Stärken von Qumulo bei der Verwaltung riesiger Datensätze mit einer Mischung aus großen und kleinen Dateien und bieten unübertroffene Haltbarkeit, Konsistenz und Skalierbarkeit in öffentlichen, hybriden und privaten Cloud-Umgebungen.
Während Große Sprachmodelle (LLMs) wie GPT-4 haben die Schlagzeilen für ihre Fähigkeit beherrscht, Geschichten zu schreiben, die Sprache zu verfeinern oder sogar anständige Witze zu reißen, ADAS-Cluster dienen einem unternehmenskritischeren Zweck: Verbesserung der Fahrersicherheit, Optimierung des Kraftstoffverbrauchs und letztendlich Rettung von Menschenleben. Jede dieser rechenintensiven Domänen – ADAS und LLMs – weist feine Unterschiede auf, die sowohl Herausforderungen als auch Chancen mit sich bringen. Während LLMs die Fantasie der Öffentlichkeit anregen, sind wir bei Qumulo stolz darauf, die Datensysteme hinter vielen der weltweit größten ADAS-Cluster zu unterstützen, eine transformative Anwendung, die das Leben aller Menschen auf der Straße berührt und Sicherheit und Effizienz verbessert.
Zweck und Art der Daten
Große Sprachmodelle (LLMs):
LLMs sind darauf ausgelegt, menschenähnlichen Text zu verarbeiten und zu generieren. Ihre Datensätze bestehen aus Token abgeleitet aus natürlichen Sprachquellen wie Büchern, Artikeln, Websites und Code-Repositorien. Diese Datensätze betonen sprachliche Verallgemeinerung, wobei die Daten vielfältig und repräsentativ für die Sprache(n) sein müssen, die das Modell bedienen soll. Tokenisierung – ein Prozess, bei dem Text in Teilworteinheiten oder Wörter zerlegt wird – ermöglicht eine effiziente Darstellung der Daten.
Autonomes Fahren / Fahrerassistenzsysteme (ADAS):
Autonome Fahrzeuge sind auf Sensordaten angewiesen, um in realen Umgebungen zu navigieren. Diese Datensätze umfassen Rohe, unkomprimierte Ausgaben von Kameras, LiDAR, Radar, GPS und Trägheitsmesseinheiten (IMUs). Ziel ist es, Modelle zu trainieren, damit sie räumliche Umgebungen verstehen, Objekte erkennen und Entscheidungen in Echtzeit treffen können. ADAS-Datensätze müssen nicht nur gängige Fahrszenarien, sondern auch seltene Randfälle wie widrige Wetterbedingungen oder ungewöhnliches Fußgängerverhalten erfassen.
Datensatzgrößen: Eine quantitative Perspektive
LLMs:
Der Maßstab von LLM-Datensätzen wird typischerweise gemessen in Token. Zum Beispiel:
- GPT-3 wurde trainiert auf ca. 300 Milliarden Token, das entspricht ca. 570 GB komprimierten Daten oder mehreren Terabyte unkomprimierter Daten (Brown et al., 2020).
- Moderne LLMs wie GPT-4 nutzen wahrscheinlich Datensätze, die über 1–2 Petabyte, insbesondere bei der Einbindung multimodaler und mehrsprachiger Quellen. Dies entspricht etwa einhundert 8K RAW-Spielfilme.
FAS:
ADAS-Datensätze werden gemessen in Rohdatenspeicherung aufgrund der unkomprimierten Natur der Sensorausgänge:
- Ein einzelnes autonomes Fahrzeug erzeugt 1–10 Terabyte Daten täglich (Waymo, 2023).
- Flottenweite Datensätze, die von Unternehmen wie Tesla und Waymo verwendet werden, übersteigen 100–500 Petabyte jährlich. Zum Vergleich: Teslas Flotte sammelt über 1 Million Meilen Fahrdaten täglich (Tesla AI Day, 2021). Im Vergleich zu LLM-Trainingsdatensätzen ist dies ungefähr 25,000 8K RAW-Spielfilme pro Jahr oder 32 Jahre moderne Filmproduktion.
Vielfalt und Struktur der Daten
LLMs:
- Stark komprimierte Daten durch Tokenisierungs- und Deduplizierungsprozesse.
- Priorisiert die Vielfalt über verschiedene Domänen hinweg (z. B. wissenschaftliche Arbeiten, Belletristik, Code), um eine Generalisierung zu gewährleisten.
- Es wird eine umfangreiche Vorverarbeitung durchgeführt, um minderwertigen oder voreingenommenen Text herauszufiltern (OpenAI, 2020).
FAS:
- Videos: Hochauflösende (1080p oder 4K) Aufnahmen mit 30–60 Bildern pro Sekunde.
- LiDAR: Millionen von 3D-Punkten pro Sekunde.
Ein erheblicher Teil der Daten wird verwendet für Simulation und Validierung, insbesondere für seltene Randfälle.
Rechenherausforderungen
LLMs:
- Das Training umfasst Milliarden bis Billionen von Parametern und erfordert eine Hochdurchsatzverarbeitung tokenisierter Datensätze.
- Das Training von GPT-3 erforderte ca. 3640 Petaflop-Tage der Berechnung (Brown et al., 2020).
- Optimierte Datenpipelines (z. B. Tokenisierung, Batchverarbeitung) reduzieren die effektive Datensatzgröße während des Trainings.
FAS:
- Die Verarbeitung umfasst Zeitreihendaten und räumliche Modellierung und erfordert oft Echtzeitleistung.
- Zur Ergänzung des Trainings werden Simulationsumgebungen (z. B. CARLA, NVIDIA DRIVE) verwendet, was die Rechenkomplexität erhöht.
- Spezialisierte Hardware wie GPUs oder dedizierte TPUs sowie Single-Socket-CISC-CPUs mit großer Kernbreite verarbeiten große Rohdatensätze für Training und Inferenz.
Datenlebensdauer und -wachstum
LLMs:
- Die Datensatzgröße nimmt mit zunehmender Modellkomplexität schrittweise zu. Das Wachstum verlangsamt sich jedoch aufgrund abnehmender Erträge im großen Maßstab (Kaplan et al., 2020).
- Ältere Datensätze bleiben relevant, da sich die linguistischen Grundlagen nicht schnell ändern.
FAS:
- Das Datensatzwachstum erfolgt exponentiell aufgrund von:
- Zunehmende Flottengrößen und höhere Akzeptanzraten.
- Fortschritte in der Sensortechnologie (höhere Auflösung und Abtastraten).
- Erweiterte Abdeckung von Randfällen für eine robuste Generalisierung.
- Ältere Datensätze können mit der Weiterentwicklung der Fahrzeug- und Sensortechnologien obsolet werden.
Datensatzvergleiche
Aspekt | LLMs | ADAS/Autonomes Fahren |
---|---|---|
Datensatzgröße | Terabyte bis wenige Petabyte | Hunderte Petabyte |
Dateityp | Text (Token) | Video, LiDAR, Radar, GPS, GIS, Satellitenbilder |
Kompression | Hochkomprimiert (Tokenisierung) | Minimale Komprimierung (Rohdaten) |
Sinn | Sprachverständnis | Räumliche Entscheidungsfindung in Echtzeit – Leben retten und Verkehrssicherheit verbessern |
Wachstum | Langsamere Skalierung mit abnehmenden Erträgen | Exponentielles Wachstum (Flotte, Sensoren) |
Fazit
Wahlfreiheit
Dies führt zu einer umfassenderen strategischen Entscheidung: Soll eine beschleunigte Computerinfrastruktur vor Ort aufgebaut werden oder ist es effizienter, die Skalierbarkeit und Kapazität öffentlicher Cloud-Umgebungen zu nutzen und Datensätze nahtlos über hybride Infrastrukturen hinweg zu verbinden? Bei Qumulo möchten wir unseren Kunden ermöglichen, in beiden Szenarien hervorragende Leistungen zu erbringen, indem wir technologische Barrieren abbauen, damit sie die besten geschäftlichen, technischen und betrieblichen Entscheidungen für ihre individuellen Anforderungen treffen können. Weitere Informationen zur bahnbrechenden Leistung, die Qumulo mithilfe unserer Cloud Data Platform in der öffentlichen Cloud-Umgebung erbracht hat, finden Sie unter Dieses Video.
Literaturhinweise
Brown, T. et al. (2020). Sprachmodelle sind Few-Shot-Lerner. NeurIPS. Link
Kaplan, J., et al. (2020). Skalierungsgesetze für neuronale Sprachmodelle. OpenAI. Link
Waymo (2023). Überblick über den Datensatz zum autonomen Fahren. Waymo-Forschung. Webseite
Tesla AI Day (2021). Teslas Flottendatensammlung. Link