NVIDIA legt Nemotron 3 Ultra als offenes Modell für langlebige Agenten vor
NVIDIA stellt Nemotron 3 Ultra als offenes Modell für langlebige Agenten vor. Entscheidend sind Kontextlänge, Durchsatz und frühe Laufzeitunterstützung.
NVIDIA hat Nemotron 3 Ultra am 4. Juni 2026 als offenes Modell für langlebige Agenten-Workloads vorgestellt. Laut NVIDIA kombiniert der Release große Kontextfenster, Mixture-of-Experts-Architektur und mehrere offene Artefakte; LMSYS verweist parallel auf Day-0-Unterstützung durch SGLang und Miles.
Für Entwickler ist daran weniger die nächste Modellgröße entscheidend als die Betriebsfrage: Lässt sich ein offenes Modell so einsetzen, dass lange Toolketten, Wiederholungen, Fehlerbehandlung und hohe Inferenzlast nicht sofort unpraktisch werden? Genau dort setzt NVIDIA die Erzählung an.
Der Agenten-Fokus ist der Kern des Releases
Laut NVIDIA ist Nemotron 3 Ultra das stärkste und letzte Modell der Nemotron-3-Familie. Die Projektseite nennt 550 Milliarden Gesamtparameter und 55 Milliarden aktive Parameter. Dazu kommen eine Mixture-of-Experts-Architektur mit Hybrid Mamba-Attention, LatentMoE und zusätzliche MTP-Layer für native spekulative Dekodierung.
Das klingt nach Architektur-Liste, hat aber eine klare Richtung. Agenten-Workloads sind nicht nur längere Chats. Sie bestehen aus Planung, Toolaufrufen, Zwischenergebnissen, Korrekturen und oft vielen kleinen Entscheidungen hintereinander. Ein Modell, das dabei zu langsam wird oder den Kontext nicht stabil hält, hilft in Demos, aber nicht im Betrieb.
NVIDIA hebt deshalb auch eine zur Laufzeit konfigurierbare Reasoning-Budget-Steuerung hervor. Für Teams mit gemischten Workflows ist das ein praktischer Hebel: Ein einfacher Toolaufruf braucht nicht dieselbe Rechentiefe wie eine mehrstufige Analyse oder ein Debugging-Lauf über mehrere Schritte. Wenn sich solche Budgets sauber steuern lassen, werden Kosten und Latenz besser planbar.
Kontext und Durchsatz sind die eigentliche Wette
Nach Angaben von NVIDIA unterstützt Nemotron 3 Ultra Kontextlängen bis zu einer Million Token. Auf derselben Projektseite verweist das Team darauf, dass das Modell bei RULER auf dieser Länge andere offene Spitzenmodelle übertreffe.
Noch deutlicher wird der Betriebsanspruch bei den Durchsatzangaben. NVIDIA nennt 5,9-fach höheren Inferenzdurchsatz gegenüber GLM-5.1-754B-A40B, 4,8-fach gegenüber Kimi-K2.6-1T-A32B und 1,6-fach gegenüber Qwen-3.5-397B-17B. Die Werte beziehen sich laut NVIDIA auf ein Setting mit 8.000 Token Eingabe und 64.000 Token Ausgabe.
Diese Vergleiche sollte man nicht als allgemeingültige Rangliste lesen. Sie stammen aus dem Launch-Material und hängen an konkreten Testbedingungen. Trotzdem zeigen sie, worauf NVIDIA zielt: Nemotron 3 Ultra soll nicht nur bei isolierten Antworten gut aussehen, sondern lange Ausgaben und umfangreiche Kontexte schneller handhabbar machen.
Für Agenten-Teams ist das ein anderer Maßstab als der übliche Benchmark-Blick. Wer eine Kette aus Recherche, Code-Ausführung, Prüfung und Selbstkorrektur orchestriert, bewertet ein Modell nicht nur nach Antwortqualität. Entscheidend ist, ob der Stack über viele Schleifen hinweg zügig, bezahlbar und kontrollierbar bleibt.
Offenheit zählt hier als Betriebsmerkmal
NVIDIA veröffentlicht laut Projektseite nicht nur ein einzelnes Modellgewicht, sondern mehrere Varianten. Genannt werden unter anderem post-trainierte und quantisierte Checkpoints sowie zusätzliche Artefakte rund um Training und Datensätze. Auf der Seite sind außerdem NVFP4- und BF16-Varianten verlinkt.
Für Builder ist das mehr als ein Open-Source-Signal. Offene Gewichte und mehrere Formate erleichtern Experimente mit eigener Infrastruktur, eigener Orchestrierung und angepassten Sicherheitsregeln. Wer Agenten nicht nur über eine geschlossene API betreiben will, braucht genau diese Kontrolle über Serving, Scheduling und Integrationspunkte.
NVIDIA betont außerdem den Post-Training-Stapel mit Supervised Fine Tuning, Reinforcement Learning und Multi-teacher On-Policy Distillation. Das ist relevant, weil agentische Systeme nicht allein von Rohleistung leben. Sie müssen Anweisungen halten, Zwischenschritte sauber ausführen und auch nach Fehlversuchen sinnvoll weitermachen.
Day-0-Support macht den Anspruch testbarer
LMSYS liefert den wichtigsten externen Kontext zum Start. Im begleitenden Blogpost schreiben das NVIDIA-Nemotron-Team sowie die Teams hinter SGLang und Miles, dass beide Systeme Nemotron 3 Ultra ab Tag eins unterstützen. LMSYS beschreibt langlebige Agentensysteme dabei als Verschiebung weg von kurzen Prompt-Antwort-Mustern hin zu persistenten Abläufen, die planen, Tools verwenden, Ergebnisse prüfen und nach Fehlern weiterarbeiten.
Das ist kein Beweis für breite Adoption, aber ein nützliches Signal. Viele offene Modellankündigungen enden zunächst bei Gewichten und Benchmarks. Hier steht zum Start auch die Laufzeitseite im Blick: Serving, Reinforcement-Learning-Umgebung und Agentenfokus werden zusammen erzählt.
Für Entwickler verschiebt das die Frage. Nemotron 3 Ultra ist nicht nur ein Modell, das man irgendwann evaluieren könnte. Durch die frühe Unterstützung in SGLang und Miles wird es schneller zu einem Kandidaten für eigene Tests: lange Kontexte, hohe Ausgabelängen, Toolketten und Wiederanläufe lassen sich damit näher am späteren Betrieb prüfen.
Was jetzt offen bleibt
Noch ist nicht geklärt, ob Nemotron 3 Ultra in realen Agenten-Stacks zuverlässig genug für breite Produktionseinsätze ist. Die Angaben zu Durchsatz, Kontextlänge und Benchmark-Leistung stammen von NVIDIA. Entscheidend werden unabhängige Tests zu Stabilität, Kostenprofilen, Hardwarebedarf und Verhalten unter Dauerlast.
Trotzdem ist der Release wichtig, weil er die Debatte um offene Frontier-Modelle konkreter macht. Die Frage lautet nicht mehr nur, ob ein offenes Modell bei Antwortqualität mit geschlossenen Systemen mithalten kann. Für Agenten zählt stärker, ob ein Modell lange Aufgabenketten wirtschaftlich und kontrollierbar trägt.
Nemotron 3 Ultra ist damit vor allem ein Prüfstein für Teams, die offene Agenten-Infrastruktur ernsthaft bauen wollen. Wer heute Modelle für mehrstufige Workflows evaluiert, sollte nicht nur auf Benchmarks schauen, sondern auf genau diese Kombination: Kontext, Durchsatz, offene Artefakte und verfügbare Laufzeitunterstützung.
Transparenz
Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei Agentenlog; Quellen und Fakten werden vor Veröffentlichung geprüft.
Quellen
Das könnte dich auch interessieren
Nvidia öffnet Cosmos 3 für Physical AI
Nvidia stellt Cosmos 3 als offenes Weltmodell für Physical AI vor. Es verbindet Weltgenerierung, physisches Reasoning und Action Generation.
OpenAI bringt Codex und GPT-5.5 auf Amazon Bedrock
OpenAI-Modelle und Codex sind jetzt allgemein auf Amazon Bedrock verfügbar. Für Entwicklerteams rückt agentisches Coding näher an AWS-Governance.
Anthropic sammelt 65 Milliarden Dollar ein und rückt an die Billionenbewertung heran
Anthropic hat eine Series-H-Finanzierung über 65 Milliarden Dollar bekanntgegeben. Die Runde zeigt, wie stark sich Kapital auf wenige KI-Plattformen konzentriert.