Vergleich von Datensätzen für KI-Tuning und Inferenz: Große Sprachmodelle vs. autonome Fahrsysteme

Geschrieben von: 

KI-Tuning und Inferenz: Große Sprachmodelle vs. autonome Fahrsysteme

Bei Qumulo haben wir jahrelang daran gearbeitet, unternehmensweite Scale Anywhere-Primärspeichersysteme zu entwickeln und sie zu einer echten Cloud-Datenplattform weiterzuentwickeln: für die Bereiche Hochleistungsrechnen, Supercomputing, künstliche Intelligenz, Inhaltserstellung, Gesundheitswesen, Biowissenschaften, Verteidigung/Geheimdienst und Forschung. Einer der wirkungsvollsten Anwendungsfälle für unsere Technologie war die Unterstützung Cluster für autonomes Fahren, auch bekannt als Fahrerassistenzsysteme (ADAS). Diese KI-Cluster, die für die Entwicklung autonomer Fahrzeuge von grundlegender Bedeutung sind, nutzen die einzigartigen Stärken von Qumulo bei der Verwaltung riesiger Datensätze mit einer Mischung aus großen und kleinen Dateien und bieten unübertroffene Haltbarkeit, Konsistenz und Skalierbarkeit in öffentlichen, hybriden und privaten Cloud-Umgebungen.

Während Große Sprachmodelle (LLMs) wie GPT-4 haben die Schlagzeilen für ihre Fähigkeit beherrscht, Geschichten zu schreiben, die Sprache zu verfeinern oder sogar anständige Witze zu reißen, ADAS-Cluster dienen einem unternehmenskritischeren Zweck: Verbesserung der Fahrersicherheit, Optimierung des Kraftstoffverbrauchs und letztendlich Rettung von Menschenleben. Jede dieser rechenintensiven Domänen – ADAS und LLMs – weist feine Unterschiede auf, die sowohl Herausforderungen als auch Chancen mit sich bringen. Während LLMs die Fantasie der Öffentlichkeit anregen, sind wir bei Qumulo stolz darauf, die Datensysteme hinter vielen der weltweit größten ADAS-Cluster zu unterstützen, eine transformative Anwendung, die das Leben aller Menschen auf der Straße berührt und Sicherheit und Effizienz verbessert.

In den letzten Jahren haben Fortschritte in der künstlichen Intelligenz LLMs wie die GPT-Reihe von OpenAI sowie ADAS vorangetrieben. Während beide für das Training auf umfangreiche Datensätze angewiesen sind, unterscheiden sich Art, Umfang und Struktur dieser Datensätze erheblich. Lassen Sie uns diese Unterschiede auf technischer Ebene untersuchen und ihre jeweiligen Herausforderungen und Chancen beleuchten.

Zweck und Art der Daten

Der grundlegende Unterschied zwischen LLMs und ADAS-Datensätzen liegt in ihrem Zweck und der Art der Daten, die sie aufnehmen.

Große Sprachmodelle (LLMs):

LLMs sind darauf ausgelegt, menschenähnlichen Text zu verarbeiten und zu generieren. Ihre Datensätze bestehen aus Token abgeleitet aus natürlichen Sprachquellen wie Büchern, Artikeln, Websites und Code-Repositorien. Diese Datensätze betonen sprachliche Verallgemeinerung, wobei die Daten vielfältig und repräsentativ für die Sprache(n) sein müssen, die das Modell bedienen soll. Tokenisierung – ein Prozess, bei dem Text in Teilworteinheiten oder Wörter zerlegt wird – ermöglicht eine effiziente Darstellung der Daten.

Autonomes Fahren / Fahrerassistenzsysteme (ADAS):

Autonome Fahrzeuge sind auf Sensordaten angewiesen, um in realen Umgebungen zu navigieren. Diese Datensätze umfassen Rohe, unkomprimierte Ausgaben von Kameras, LiDAR, Radar, GPS und Trägheitsmesseinheiten (IMUs). Ziel ist es, Modelle zu trainieren, damit sie räumliche Umgebungen verstehen, Objekte erkennen und Entscheidungen in Echtzeit treffen können. ADAS-Datensätze müssen nicht nur gängige Fahrszenarien, sondern auch seltene Randfälle wie widrige Wetterbedingungen oder ungewöhnliches Fußgängerverhalten erfassen.

Datensatzgrößen: Eine quantitative Perspektive

Die Datensatzgrößen unterscheiden sich sowohl in absoluten Zahlen als auch in der Art und Weise, wie sie gemessen werden:

LLMs:

Der Maßstab von LLM-Datensätzen wird typischerweise gemessen in Token. Zum Beispiel:

  • GPT-3 wurde trainiert auf ca. 300 Milliarden Token, das entspricht ca. 570 GB komprimierten Daten oder mehreren Terabyte unkomprimierter Daten (Brown et al., 2020).
  • Moderne LLMs wie GPT-4 nutzen wahrscheinlich Datensätze, die über 1–2 Petabyte, insbesondere bei der Einbindung multimodaler und mehrsprachiger Quellen. Dies entspricht etwa einhundert 8K RAW-Spielfilme.

FAS:

ADAS-Datensätze werden gemessen in Rohdatenspeicherung aufgrund der unkomprimierten Natur der Sensorausgänge:

  • Ein einzelnes autonomes Fahrzeug erzeugt 1–10 Terabyte Daten täglich (Waymo, 2023).
  • Flottenweite Datensätze, die von Unternehmen wie Tesla und Waymo verwendet werden, übersteigen 100–500 Petabyte jährlich. Zum Vergleich: Teslas Flotte sammelt über 1 Million Meilen Fahrdaten täglich (Tesla AI Day, 2021). Im Vergleich zu LLM-Trainingsdatensätzen ist dies ungefähr 25,000 8K RAW-Spielfilme pro Jahr oder 32 Jahre moderne Filmproduktion.

Vielfalt und Struktur der Daten

Auch die Struktur und Vielfalt der Daten verdeutlichen starke Gegensätze:

LLMs:

  • Stark komprimierte Daten durch Tokenisierungs- und Deduplizierungsprozesse.
  • Priorisiert die Vielfalt über verschiedene Domänen hinweg (z. B. wissenschaftliche Arbeiten, Belletristik, Code), um eine Generalisierung zu gewährleisten.
  • Es wird eine umfangreiche Vorverarbeitung durchgeführt, um minderwertigen oder voreingenommenen Text herauszufiltern (OpenAI, 2020).

FAS:

Daten sind von Natur aus hochdimensional und räumlich, einschließlich:
  • Videos: Hochauflösende (1080p oder 4K) Aufnahmen mit 30–60 Bildern pro Sekunde.
  • LiDAR: Millionen von 3D-Punkten pro Sekunde.

Ein erheblicher Teil der Daten wird verwendet für Simulation und Validierung, insbesondere für seltene Randfälle.

Rechenherausforderungen

Während LLM-Datasets hinsichtlich des Rohspeicherplatzes kleiner sind, können ihre Trainingskomplexität und Rechenleistungsanforderungen mit denen von ADAS mithalten:

LLMs:

  • Das Training umfasst Milliarden bis Billionen von Parametern und erfordert eine Hochdurchsatzverarbeitung tokenisierter Datensätze.
  • Das Training von GPT-3 erforderte ca. 3640 Petaflop-Tage der Berechnung (Brown et al., 2020).
  • Optimierte Datenpipelines (z. B. Tokenisierung, Batchverarbeitung) reduzieren die effektive Datensatzgröße während des Trainings.

FAS:

  • Die Verarbeitung umfasst Zeitreihendaten und räumliche Modellierung und erfordert oft Echtzeitleistung.
  • Zur Ergänzung des Trainings werden Simulationsumgebungen (z. B. CARLA, NVIDIA DRIVE) verwendet, was die Rechenkomplexität erhöht.
  • Spezialisierte Hardware wie GPUs oder dedizierte TPUs sowie Single-Socket-CISC-CPUs mit großer Kernbreite verarbeiten große Rohdatensätze für Training und Inferenz.

Datenlebensdauer und -wachstum

LLMs:

  • Die Datensatzgröße nimmt mit zunehmender Modellkomplexität schrittweise zu. Das Wachstum verlangsamt sich jedoch aufgrund abnehmender Erträge im großen Maßstab (Kaplan et al., 2020).
  • Ältere Datensätze bleiben relevant, da sich die linguistischen Grundlagen nicht schnell ändern.

FAS:

  • Das Datensatzwachstum erfolgt exponentiell aufgrund von:
    • Zunehmende Flottengrößen und höhere Akzeptanzraten.
    • Fortschritte in der Sensortechnologie (höhere Auflösung und Abtastraten).
    • Erweiterte Abdeckung von Randfällen für eine robuste Generalisierung.
  • Ältere Datensätze können mit der Weiterentwicklung der Fahrzeug- und Sensortechnologien obsolet werden.

Datensatzvergleiche

Aspekt LLMs ADAS/Autonomes Fahren
Datensatzgröße Terabyte bis wenige Petabyte Hunderte Petabyte
Dateityp Text (Token) Video, LiDAR, Radar, GPS, GIS, Satellitenbilder
Kompression Hochkomprimiert (Tokenisierung) Minimale Komprimierung (Rohdaten)
Sinn Sprachverständnis Räumliche Entscheidungsfindung in Echtzeit – Leben retten und Verkehrssicherheit verbessern
Wachstum Langsamere Skalierung mit abnehmenden Erträgen Exponentielles Wachstum (Flotte, Sensoren)

Fazit

Die zum Training von LLMs und ADAS-Systemen verwendeten Datensätze sind auf die besonderen Herausforderungen ihrer jeweiligen Bereiche zugeschnitten. Während LLMs auf hochkomprimierten und kuratierten, hauptsächlich textlichen Daten basieren, verarbeiten ADAS-Systeme rohe, unkomprimierte Sensordaten, deren Speicherbedarf um ein Vielfaches höher ist. Die rechnerische Komplexität des Trainings von LLMs ist jedoch oft vergleichbar mit der von ADAS, was den enormen Parameterraum moderner Sprachmodelle widerspiegelt.
Da sich diese Bereiche ständig weiterentwickeln, werden Innovationen in der Datenverarbeitung und Modellarchitektur weiterhin von entscheidender Bedeutung sein, um die jeweiligen Herausforderungen zu bewältigen. Während ADAS-Systeme mit den logistischen Hürden der Skalierung von Rohdaten konfrontiert sind, müssen LLMs die Balance zwischen Datensatzgröße, Qualität und abnehmendem Ertrag finden.

Wahlfreiheit

Wenn man die modernen Herausforderungen bei der Verarbeitung großer Sprachmodelle oder ADAS-Systeme bedenkt, stellt sich eine Schlüsselfrage: Verfügt mein Rechenzentrum über die Kapazität – Platz, Strom und Kühlung –, um die für das Training erforderlichen beschleunigten Computertechnologien zu unterstützen? Ebenso wichtig ist die Entscheidung, ob kontinuierliches Training und Tuning auf spezialisierter Hardware unerlässlich ist oder ob es ausreicht, diese Ressourcen vorübergehend zu nutzen, um ein bestimmtes Ergebnis zu erzielen, bevor zur Inferenz übergegangen wird.

Dies führt zu einer umfassenderen strategischen Entscheidung: Soll eine beschleunigte Computerinfrastruktur vor Ort aufgebaut werden oder ist es effizienter, die Skalierbarkeit und Kapazität öffentlicher Cloud-Umgebungen zu nutzen und Datensätze nahtlos über hybride Infrastrukturen hinweg zu verbinden? Bei Qumulo möchten wir unseren Kunden ermöglichen, in beiden Szenarien hervorragende Leistungen zu erbringen, indem wir technologische Barrieren abbauen, damit sie die besten geschäftlichen, technischen und betrieblichen Entscheidungen für ihre individuellen Anforderungen treffen können. Weitere Informationen zur bahnbrechenden Leistung, die Qumulo mithilfe unserer Cloud Data Platform in der öffentlichen Cloud-Umgebung erbracht hat, finden Sie unter Dieses Video.

Literaturhinweise

Brown, T. et al. (2020). Sprachmodelle sind Few-Shot-Lerner. NeurIPS. Link

Kaplan, J., et al. (2020). Skalierungsgesetze für neuronale Sprachmodelle. OpenAI. Link

Waymo (2023). Überblick über den Datensatz zum autonomen Fahren. Waymo-Forschung. Webseite

Tesla AI Day (2021). Teslas Flottendatensammlung. Link

0 0 Stimmen
Artikel-Bewertung
Abonnieren
Benachrichtigen Sie mich über
Gast
0 Ihre Nachricht
Älteste
Neue Styles Am meisten gewählt
Inline-Feedbacks
Alle Kommentare anzeigen

Verwandte Artikel

0
Wir freuen uns über Ihre Meinung. Bitte hinterlassen Sie Ihren Kommentar.x
Nach oben scrollen