ClawWork testet OpenClaw als KI-Coworker mit echter Kostenrechnung

ClawWork ist kein Benchmark, der bloß Trefferquoten sortiert. Laut README von HKUDS geht es um die deutlich unangenehmere Frage: Was bleibt von einem Agentenlauf übrig, wenn Startkapital, Einnahmen, Kosten und Qualität gemeinsam bilanziert werden?

Genau das macht das Projekt für Entwickler interessanter als die übliche Modellrangliste. Wer Agenten produktiv einsetzen will, muss nicht nur wissen, ob ein System Aufgaben löst, sondern ob es das mit vertretbarem Aufwand tut. ClawWork baut diese Frage direkt in den Benchmark ein.

Nicht nur Qualität, sondern auch Wirtschaftlichkeit

HKUDS beschreibt ClawWork als “OpenClaw as Your AI Coworker” und zugleich als Benchmark für “economic survival”. Sichtbar sind dort nicht nur Qualitätswerte, sondern auch Kennzahlen wie Startkapital, Endsaldo, Einnahmen, Kosten und eine Stundenrate.

Damit verschiebt sich der Maßstab. Ein Agent kann in klassischen Benchmarks ordentlich aussehen und im Betrieb trotzdem scheitern, wenn er zu viele teure Toolaufrufe braucht oder nur mit viel Nacharbeit durchkommt. ClawWork misst genau diese Lücke. Die eigentliche Frage lautet hier nicht nur, ob am Ende ein Ergebnis entsteht, sondern ob der gesamte Lauf wirtschaftlich tragfähig wirkt.

Hinzu kommt der Anspruch auf Breite. Das Projekt spricht von mehr als 44 Berufen. Es versucht also nicht, einen einzelnen Workflow schönzurechnen, sondern sehr unterschiedliche Aufgaben unter dieselbe Kostenlogik zu stellen. Schon das hebt ClawWork von vielen Agenten-Demos ab, die noch immer an einem kleinen Set aus Browser-, Research- oder Coding-Aufgaben hängen.

Das Scoreboard zeigt den Zielkonflikt offen

Im öffentlich sichtbaren Ausschnitt des README führt “ATIC + Qwen3.5-Plus” das Ranking an. HKUDS nennt dort 10 Dollar Startkapital, einen Endsaldo von 19.915,68 Dollar, Einnahmen von 19.914,38 Dollar, Kosten von 8,70 Dollar und 61,6 Prozent Qualität. Für “Gemini 3.1 Pro Preview” listet dasselbe Scoreboard einen Endsaldo von 15.661,71 Dollar bei Kosten von 105,76 Dollar.

Der interessante Teil ist nicht die nackte Zahl, sondern der offen sichtbare Zielkonflikt dahinter. Hohe simulierte Einnahmen reichen in diesem Aufbau nicht aus, wenn die Kosten gleichzeitig aus dem Ruder laufen. ClawWork versteckt diesen Konflikt nicht hinter einem Einzelscore, sondern macht ihn im Tabellenbild direkt lesbar.

Trotzdem bleibt Vorsicht nötig. Das öffentliche Material erklärt in diesem Ausschnitt noch nicht vollständig, wie robust die Erlösannahmen sind, wie stark einzelne Aufgaben gewichtet werden oder wie oft Läufe wiederholt wurden. Als Prüfstand für ökonomische Agenten ist das spannend. Als belastbarer Beweis für produktive Wissensarbeit ist es noch zu früh.

Warum OpenClaw hier wichtiger ist als das Einzelmodell

Der GitHub-Titel setzt den Schwerpunkt klar: “ClawWork: OpenClaw as Your AI Coworker”. Im Mittelpunkt steht damit nicht nur ein Modell, sondern ein Agentensystem. Das passt zur eigentlichen Frage des Benchmarks, denn Wirtschaftlichkeit entsteht bei Agenten selten im Modell allein, sondern im Zusammenspiel aus Planung, Browser-Arbeit, Toolnutzung, Abbruchlogik und Kostenkontrolle.

Genau darin liegt der Leserwert. Ein klassischer Modellbenchmark beantwortet vor allem, welches Modell bei einer festen Aufgabe besser abschneidet. ClawWork stellt die härtere Betriebsfrage: Wie verhält sich ein komplettes Laufzeitsystem, wenn echte Arbeitsschritte, Toolaufrufe und Budgetgrenzen zusammenkommen?

Für OpenClaw ist das ein relevanter Testwinkel. Sobald ein Benchmark nicht nur Qualität, sondern auch Kosten und Restbudget sichtbar macht, nähert er sich dem an, was Teams später in echten Agenten-Setups ohnehin selbst messen müssen.

Für Agenten-Builder zählt die Telemetrie dahinter

Für Teams, die selbst Agenten bauen, liegt der Wert des Projekts weniger in der Spitzenzahl des Leaderboards als in seiner Messidee. Wenn ein Benchmark Startkapital, Ausgaben und Restbudget offen mitführt, rückt er näher an echte Betriebsfragen heran: Wann lohnt sich ein stärkeres, aber teureres Modell? Ab welchem Punkt frisst Toolnutzung den Produktivitätsgewinn wieder auf? Welche Aufgaben tragen ein autonomes Setup, und welche brauchen weiter einen Menschen im Loop?

Das ist deutlich nüchterner als viele Erfolgsvideos aus der Agenten-Szene. Dort wird oft nur gezeigt, dass ein System etwas prinzipiell kann. ClawWork fragt stattdessen, ob sich derselbe Lauf unter einer knappen Kasse noch trägt. Für Unternehmen ist das meist die wichtigere Frage.

Offen bleibt, wie gut sich die veröffentlichten Kennzahlen auf Produktionsumgebungen übertragen lassen. Dass GDPVal laut README mit 220 Aufgaben als Datensatzanker dient, heißt noch nicht automatisch, dass dieselbe Ökonomie bei Support-Tickets, Backoffice-Automation oder vertikalen Prozessen hält. Der praktische Wert von ClawWork liegt deshalb vor allem in einer Konsequenz: Wer Agenten ernsthaft bauen will, braucht dieselbe Strenge in der eigenen Telemetrie.

ClawWork ist damit weniger ein fertiger Marktbeweis als ein nützliches Signal. Spannend wird das Projekt dort, wo es die Debatte von bloßer Autonomie auf Kostenkontrolle verschiebt. Genau an dieser Stelle trennt sich Demo-Eindruck von echter Arbeitskraft.

ClawWork testet OpenClaw als KI-Coworker mit echter Kostenrechnung

Nicht nur Qualität, sondern auch Wirtschaftlichkeit

Das Scoreboard zeigt den Zielkonflikt offen

Warum OpenClaw hier wichtiger ist als das Einzelmodell

Für Agenten-Builder zählt die Telemetrie dahinter

Transparenz

Quellen

Das könnte dich auch interessieren

Nerve baut fuer OpenClaw ein Browser-Cockpit statt noch eines Chats

HomeClaw bringt HomeKit als Menüleisten-App und MCP-Plugin zu OpenClaw

Cohere bringt North Mini Code in lokale Agenten-Stacks