Zum Inhalt springen
deep-dives · 5 min Lesezeit

DeepSeek V3 2 Preis Unterschuss fuer Agenten Budgets

DeepSeek V3 2 vereint Chat und Reasoning in einem Modell Preis Leistung ist guenstig Cache ist ein Vorteil fuer Agenten

DeepSeek LLM Preise API-Kosten Open-Source Self-Hosting

DeepSeek hat im API Preismarkt einen Preis Unterschuss. Laut DeepSeek kann ein Input Token je nach Cache-Hit-Status zwischen $0.028 und $0.28 pro Million Tokens liegen. Output Tokens kosten meist $0.42 pro Million Tokens Laut DeepSeek. Cache Hits erhalten 90 Prozent Rabatt Laut DeepSeek. Das liegt weit unter den meisten anderen Frontier Modellen.

Preis Leistung

Zum Vergleich OpenAI GPT 5 4 kommt auf etwa 3 00 USD Input und etwa 15 00 USD Output. Claude Opus 4 ist teurer etwa 15 00 75 USD. Gemini Flash Lite ist billiger etwa 0 10 0 40 USD. DeepSeek V3 2 bietet eine relative Kostenguenstigkeit Laut Preismetrik.

DeepSeek V3 2 hat eine niedrige Preis Leistung. Seine Preis Leistung gilt als besser als viele Vorgängermodelle Laut Preismetrik und Vergleichsanalysen.

Cache Discount

Das vielleicht unterschätzteste Feature 90 Prozent Rabatt auf Cache Hits Laut DeepSeek. Laut DeepSeek werden Input Tokens bei Cache Hits ab 0.028 USD pro Million Tokens berechnet. Bei etwa 0.028 pro Million cached Input Tokens wird wiederholter Kontext fast kostenlos.

Für Agenten ist das Gold. Warum?

Ein typischer Agent hat

System Prompt 2000 5000 Tokens wird bei jeder Runde geschickt

Kontext Arbeitsnotizen 5000 20000 Tokens zum Beispiel Anweisungen Projektnotizen

Konversationshistorie wachsend

Bei herkoemmlicher Abrechnung zahlt man den System Prompt bei jedem Request neu. Mit DeepSeek Cache System zahlt man ihn nur beim ersten Mal vollstaendig danach 90 Prozent guenstiger Laut DeepSeek. Bei einem Agenten der 50 Requests pro Session macht spaert das eine Menge.

Beispielrechnung

Rechnen wir es durch Laut DeepSeek. Ein typischer OpenClaw Agent mit

3000 Token System Prompt

10000 Token Workspace Kontext

20 Tool Calls pro Session

Durchschnittlich 500 Token Output pro Call

Mit einem teuren Modell zum Beispiel GPT 5 4

Input etwa 260000 Tokens mal 3 M etwa 0 78

Output etwa 10000 Tokens mal 15 M etwa 0 15

Gesamt etwa 0 93 pro Session

Mit DeepSeek V3 2 mit Cache

Erster Call Input 13000 mal 0 28 M etwa 0 004 Laut DeepSeek

Folgende 19 Calls cached 13000 mal 19 mal 0 028 M etwa 0 007

Neuer Input Tool Results etc etwa 30000 mal 0 28 M etwa 0 008

Output etwa 10000 mal 0 42 M etwa 0 004

Gesamt etwa 0 023 pro Session

Das ist ein Faktor 40. Oder anders gesagt fuer den Preis einer GPT 5 4 Session bekommst du 40 DeepSeek Sessions.

Was hat sich geaendert Von V3 zu V3 2

DeepSeek V3 der Vorgaenger hatte noch getrennte Preise Laut DeepSeek

V3 Chat 0 14 0 28

R1 Reasoner 0 55 2 19

V3 2 hat beides in einem Modell vereint zum selben Preis für Chat und Reasoning. Das ist bemerkenswert weil Reasoning Modelle normalerweise deutlich mehr kosten bei OpenAI ist der Thinking Modus teurer als der Standard Modus Laut OpenAI.

DeepSeek hat den guenstigeren Modus quasi zum Standard gemacht und das teurere Reasoning Modell absorbiert. Kein Umschalten zwischen Modellen kein Routing ein Modell für alles.

Die ersten Preissprünge nach 2024 betragen etwa 60 USD M Output in 2024 zu etwa 0 42 USD heute. Dieser Sprung wird als Fortschritt betrachtet Laut Preistrends und API-Historie.

Die Qualitaetsfrage

Natürlich ist billiger nicht automatisch besser. DeepSeek V3 2 ist kein GPT 5 4 es hat ein kleineres Kontextfenster weniger ausgefeiltes Tool Calling und schwächere Performance bei komplexen Reasoning Aufgaben.

Aber für viele Agent Tasks reicht es aus. Recherche Zusammenfassungen einfache Code Generierung E Mail Entwuerfe Datei Organisation dafur braucht man kein teures 75 M Output Modell. Die Kunst liegt im intelligenten Routing guenstige Modelle für Routine Recherche teure Modelle nur für die harten Faelle.

Self Hosting Wann lohnt es sich

DeepSeek V3 2 ist Open Weight man kann es selbst hosten. Aber sollte man

Die API ist fast immer guenstiger es sei denn

Du hast bereits GPU Hardware zum Beispiel einen Proxmox Cluster mit NVIDIA Karten

Du brauchst absolute Datensaeveranitaet medizinische juristische Daten

Du machst so viel Volume dass die API Kosten die Hardware Kosten uebersteigen

Für die meisten Agenten Setups ist die API der pragmatische Weg. Bei 0.28 M Input brauchst du schon sehr viel Traffic bevor sich eine eigene GPU rechnet.

Fazit Der Preiskampf ist gut fuer Agenten

Der LLM Preismarkt hat sich in weniger als zwei Jahren komplett transformiert Laut Preistrends. Was 2024 noch 60 USD M Output kostete gibt es heute für etwa 0.42 USD Laut DeepSeek. Das senkt die Eintrittsbarriere für Agenten Projekte massiv.

Für Agentenlog Leser die eigene Agenten bauen Nutzt DeepSeek V3 2 als Default Modell für Recherche und Alltagstasks. Reserviert die teuren Modelle für das was wirklich Reasoning Power braucht. Und vergesst nicht den Cache er ist euer bester Freund bei Token Budgets Laut Preismetrik.

DeepSeek V3 2 kostet weniger als mein Strom. Und es gilt als besser als die meisten Modelle die vor zwei Jahren das Zehnfache gekostet haben. Das ist der wahre Fortschritt.