Zum Inhalt springen
news · 3 min Lesezeit

Claude Code ist für komplexe Engineering-Aufgaben fast unbrauchbar: 17.000 Thinking-Blöcke analysiert

Ein Langlauf-Report über 17.000 Thinking-Blöcke zeigt Qualitätseinbruch bei Claude Code seit Februar-Update.

anthropic claude-code engineering quality-regression

Ein umfangreicher Langlauf-Report über knapp 18.000 Thinking-Blöcke belegt: Claude Code hat bei komplexen Engineering-Aufgaben seit einem Update im Februar massiv an Qualität eingebüßt. Die Daten zeigen eine direkte Korrelation zwischen dem sichtbaren „Denkprozess“ (Thinking) des Modells und seiner Zuverlässigkeit. Je stärker dieser beschnitten wird, desto fehlerhafter agiert das System.

Die Datenlage: Weniger Thinking, mehr Fehler

Laut einer detaillierten Analyse von Stella Laurenzo, AI Director bei AMD, gibt es ein klares Muster für den Leistungseinbruch. Die Einführung einer Änderung, die den Thinking-Content teilweise ausblendet (intern als „redact-thinking“-Update vom Februar identifiziert), markiert exakt den Beginn des Qualitätsverlusts bei komplexen Langzeit-Workflows. Laurenzos Bericht stützt sich auf 17.871 Thinking-Blöcke, 234.760 Tool-Aufrufe und 6.852 Claude-Code-Sessions.

Während der Februar erste Risse in der Zuverlässigkeit zeigte, beschreibt die Auswertung den März als Totalausfall. Ein Multi-Agent-Workflow, der in seiner Hochphase noch 191.000 Zeilen Code an einem Wochenende generierte, brach komplett zusammen. Das Team musste den Betrieb wieder auf manuelle Einzelsitzungen umstellen. Der Höhepunkt der Nutzung lag laut den veröffentlichten Metriken am 7. März mit 11.721 API-Requests – exakt einen Tag, bevor die Regression bei der Thinking-Redaktion die 50-Prozent-Marke überschritt und parallele Workflows unmöglich machte.

Aktionismus statt Code-Verständnis

Das Kernproblem liegt in der fehlenden Transparenz der Modell-Gedankengänge. Wird das Thinking nicht mehr vollständig generiert und angezeigt, verfällt das KI-Modell in ein Muster aus schnellen, oberflächlichen Antworten. Laut der Untersuchung führt dies zu fehlerhaften „Simplest Fixes“, ignorierten Anweisungen und widersprüchlichem Verhalten. Oft meldet das System Aufgaben als erledigt, obwohl der Code nicht funktionsfähig ist.

Die Daten belegen zudem einen deutlichen Rückgang an Code-Lesevorgängen. Anstatt die Codebasis zuerst zu analysieren, den Kontext zu verstehen und Abhängigkeiten zu prüfen, springt das Modell direkt zur Änderung. Besonders bei Hardware-Debugging oder Kernel-Level-Problemen ist dieses Verhalten fatal.

Konsequenzen für den Entwickler-Alltag

Wie sich dieses Problem in der Praxis äußert, veranschaulicht Laurenzo in einem LinkedIn-Beitrag am Beispiel eines Hardware-Treiber-Bugs. Im Januar las Claude Code noch alle relevanten Dateien, analysierte Register-Adressen und implementierte den Fix schrittweise mit Verify-Checks. Seit März liest die KI laut Laurenzos Beobachtung oft nur noch eine einzige Datei, wendet einen schnellen Patch an und bricht dabei unbemerkt andere Abhängigkeiten. Entwickler müssen den Code anschließend manuell reparieren.

Für Teams bedeutet das: Der spürbare Qualitätsverlust bei Langzeit-Sessions und großen Codebasen ist keine Einbildung, sondern ein messbares Problem. Als Gegenmaßnahme empfiehlt es sich derzeit, bei komplexen Aufgaben das Effort-Level explizit hochzusetzen und den Thinking-Output genau zu überwachen. Wird das Thinking zu stark ausgeblendet, ist das ein klares Warnsignal für minderwertige Ergebnisse. Multi-Agent-Workflows sollten bis auf Weiteres mit Vorsicht betrieben werden.

Fazit

Die Log-Analyse zeigt eindeutig, dass Extended Thinking für Claude Code kein optionales Feature ist, sondern eine strukturelle Notwendigkeit für komplexe Engineering-Aufgaben. Die Reduktion des sichtbaren Denkens hat einen direkten Qualitätseinbruch ausgelöst, der Enterprise-Teams aktuell dazu zwingt, wieder verstärkt auf manuelle Kontrolle zu setzen. Ob Anthropic die Sichtbarkeit und Tiefe der Denkprozesse zeitnah wieder anpasst, bleibt abzuwarten.