KI-Inferenz
Schnelle Skalierung und Verarbeitung von generativer KI.
NVIDIA Dynamo ist ein modulares Open-Source-Inferenz-Framework für die Verarbeitung generativer KI-Modelle in verteilten Umgebungen. NVIDIA Dynamo ermöglicht mit dynamischer Ressourcenzuteilung, intelligenter Weiterleitung von Abfragen, optimiertem Speichermanagement und beschleunigter Datenübertragung eine nahtlose Skalierung von Inferenz-Workloads auf große GPU-Pools.
Bei der Verarbeitung des Open-Source-Reasoning-Modells DeepSeek-R1 671B mit NVIDIA GB200 NVL72 erhöhte NVIDIA Dynamo die Anzahl der verarbeiteten Abfragen auf das bis zu 30-Fache. Das macht NVIDIA Dynamo zur idealen Lösung für KI-Fabriken, bei denen es um möglichst kostengünstigen Betrieb geht, um die Generierung von Token-Umsatz zu maximieren.
NVIDIA Dynamo unterstützt alle bedeutenden KI-Inferenz-Backends und bietet Optimierungen für große Sprachmodelle (LLM), wie entkoppelte Verarbeitung, was die Beschleunigung und Skalierung von KI-Reasoning-Modellen bei geringsten Kosten und höchster Effizienz ermöglicht. Dynamo wird in einer zukünftigen Version als Teil von NVIDIA AI Enterprise unterstützt werden.
Teilt die Phasen für den LLM-Kontext (Prefill) und die Erzeugung (Dekodierung) auf separate GPUs auf, was eine maßgeschneiderte Modellparallelisierung und unabhängige GPU-Zuweisung ermöglicht, um die pro GPU verarbeiteten Abfragen zu erhöhen.
Überwacht die GPU-Kapazität in Umgebungen für verteilte Inferenz und weist GPU-Prozesse in den Kontext- und Generierungsphasen dynamisch zu, um Engpässe zu beseitigen und die Leistung zu optimieren.
Leitet den Inferenz-Datenverkehr effizient weiter, wodurch die kostspielige Neuberechnung von sich wiederholenden oder überlappenden Abfragen minimiert wird, um die Rechenressourcen zu schonen und gleichzeitig für eine ausgewogene Lastverteilung auf große GPU-Pools zu sorgen.
Beschleunigt den Datentransport in Umgebungen für verteilte Inferenz und vereinfacht gleichzeitig die ansonsten aufwändige Übertragung über unterschiedliche Hardware wie GPUs, CPUs, Netzwerke und Massenspeicher.
Optimieren und automatisieren Sie die Einrichtung von GPU-Clustern mit vorgefertigten, einfach zu implementierenden Tools, und ermöglichen Sie die dynamische automatische Skalierung mit LLM-spezifischen Echtzeit-Kennwerten, um eine Über- oder Unterdimensionierung von GPU-Ressourcen zu vermeiden.
Nutzen Sie hochentwickelte Optimierungen für die LLM-Inferenz-Verarbeitung wie entkoppelte Verarbeitung, um die Anzahl der verarbeiteten Inferenz-Abfragen zu erhöhen, ohne das Benutzererlebnis zu beeinträchtigen.
Das offene und modulare Design ermöglicht es Ihnen, ganz einfach die Komponenten für die Inferenz-Verarbeitung auszuwählen, die Ihren individuellen Anforderungen entsprechen, und so die Kompatibilität mit Ihrer bestehenden KI-Struktur sicherzustellen und kostspielige Migrationsprojekte zu vermeiden.
Dadurch, dass NVIDIA Dynamo alle bedeutenden Frameworks unterstützt – einschließlich TensorRT-LLM, vLLM, SGLang, PyTorch usw. – können Sie neue generative KI-Modelle unabhängig von ihrem Backend schnell bereitstellen.
NVIDIA Dynamo ist vollständig Open Source, was Ihnen volle Transparenz und Flexibilität bietet. Setzen Sie NVIDIA Dynamo ein, tragen Sie zu seiner Weiterentwicklung bei und integrieren Sie Dynamo nahtlos in Ihre vorhandene Lösung.
Sehen Sie es sich auf GitHub an und werden Sie Teil der Community!
Erfahren Sie, wie Sie mit NVIDIA Dynamo die Innovation vorantreiben können.
Reasoning-Modelle erzeugen mehr Token, um komplexe Probleme zu lösen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diese Modelle mit Funktionen wie entkoppelter Verarbeitung. Bei diesem Konzept werden die Prefill- und Dekodierungsphasen bei der Verarbeitung auf verschiedene GPUs aufgeteilt, was es KI-Inferenz-Teams ermöglicht, jede Phase unabhängig zu optimieren. Das führt zu einer besseren Auslastung der Ressourcen, mehr verarbeiteten Abfragen pro GPU und zu geringeren Inferenzkosten.
Wenn KI-Modelle zu groß für einen einzelnen Knoten werden, wird ihre effiziente Verarbeitung zum Problem. Verteilte Inferenz erfordert, dass Modelle auf mehrere Knoten aufgeteilt werden, was die Orchestrierung, Skalierung und Kommunikation noch komplexer macht. Damit diese Knoten – insbesondere bei dynamischen Workloads – als zusammenhängende Einheit funktionieren, bedarf es einer sorgfältigen Verwaltung. NVIDIA Dynamo vereinfacht diese Aufgabe durch vorgefertigte Funktionen auf Kubernetes, die nahtlos die Ressourcenzuteilung, Skalierung und Verarbeitung abwickeln, damit Sie sich auf die Bereitstellung von KI konzentrieren können, anstatt auf die Verwaltung der Infrastruktur.
KI-Agenten sind auf mehrere Modelle angewiesen – LLMs, Retrieval-Systeme und spezialisierte Tools – die in Echtzeit synchronisiert agieren. Die Skalierung dieser Agenten ist eine komplexe Aufgabe und erfordert eine intelligente GPU-Zuteilung und effiziente Key-Value-Cache-Verwaltung sowie Kommunikation mit extrem niedriger Latenz, um ein schnelles Reaktionsverhalten zu sichern.
NVIDIA Dynamo optimiert diesen Prozess mit integrierter intelligenter GPU-Zuteilung (GPU Planner), intelligenter Weiterleitung (Smart Router) und einer Low-Latency-Communication-Bibliothek, was die Skalierung von KI-Agenten unproblematisch und effizient macht.
Die Generierung von Programmcode erfordert oft eine iterative Verfeinerung, um Prompts anzupassen, Anforderungen zu klären oder die Ausgabe basierend auf den Antworten des Modells zu debuggen. Dieses Hin und Her macht es notwendig, den Kontext bei jeder Eingabe des Benutzers neu zu berechnen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diesen Prozess, indem es die Wiederverwendung von Kontext und sein Verlagern in kostengünstigen Arbeitsspeicher ermöglicht, was die kostspielige Neuberechnung minimiert und die Gesamtkosten für die Inferenz senkt.
Laden Sie das Framework von GitHub herunter und werden Sie Teil der Community!
Informieren Sie sich über alles, was Sie für den Einstieg in die Entwicklung mit NVIDIA Dynamo benötigen, einschließlich der neuesten Dokumentation, Tutorials, technischen Blogs und mehr.
Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.