Claude Code ist für komplexe Engineering-Aufgaben fast unbrauchbar: 17.000 Thinking-Blöcke analysiert
Ein Langlauf-Report über 17.000 Thinking-Blöcke zeigt Qualitätseinbruch bei Claude Code seit Februar-Update.
Ein umfangreicher Langlauf-Report über knapp 18.000 Thinking-Blöcke belegt: Claude Code hat bei komplexen Engineering-Aufgaben seit einem Update im Februar massiv an Qualität eingebüßt. Die Daten zeigen eine direkte Korrelation zwischen dem sichtbaren „Denkprozess“ (Thinking) des Modells und seiner Zuverlässigkeit. Je stärker dieser beschnitten wird, desto fehlerhafter agiert das System.
Die Datenlage: Weniger Thinking, mehr Fehler
Laut einer detaillierten Analyse von Stella Laurenzo, AI Director bei AMD, gibt es ein klares Muster für den Leistungseinbruch. Die Einführung einer Änderung, die den Thinking-Content teilweise ausblendet (intern als „redact-thinking“-Update vom Februar identifiziert), markiert exakt den Beginn des Qualitätsverlusts bei komplexen Langzeit-Workflows. Laurenzos Bericht stützt sich auf 17.871 Thinking-Blöcke, 234.760 Tool-Aufrufe und 6.852 Claude-Code-Sessions.
Während der Februar erste Risse in der Zuverlässigkeit zeigte, beschreibt die Auswertung den März als Totalausfall. Ein Multi-Agent-Workflow, der in seiner Hochphase noch 191.000 Zeilen Code an einem Wochenende generierte, brach komplett zusammen. Das Team musste den Betrieb wieder auf manuelle Einzelsitzungen umstellen. Der Höhepunkt der Nutzung lag laut den veröffentlichten Metriken am 7. März mit 11.721 API-Requests – exakt einen Tag, bevor die Regression bei der Thinking-Redaktion die 50-Prozent-Marke überschritt und parallele Workflows unmöglich machte.
Aktionismus statt Code-Verständnis
Das Kernproblem liegt in der fehlenden Transparenz der Modell-Gedankengänge. Wird das Thinking nicht mehr vollständig generiert und angezeigt, verfällt das KI-Modell in ein Muster aus schnellen, oberflächlichen Antworten. Laut der Untersuchung führt dies zu fehlerhaften „Simplest Fixes“, ignorierten Anweisungen und widersprüchlichem Verhalten. Oft meldet das System Aufgaben als erledigt, obwohl der Code nicht funktionsfähig ist.
Die Daten belegen zudem einen deutlichen Rückgang an Code-Lesevorgängen. Anstatt die Codebasis zuerst zu analysieren, den Kontext zu verstehen und Abhängigkeiten zu prüfen, springt das Modell direkt zur Änderung. Besonders bei Hardware-Debugging oder Kernel-Level-Problemen ist dieses Verhalten fatal.
Konsequenzen für den Entwickler-Alltag
Wie sich dieses Problem in der Praxis äußert, veranschaulicht Laurenzo in einem LinkedIn-Beitrag am Beispiel eines Hardware-Treiber-Bugs. Im Januar las Claude Code noch alle relevanten Dateien, analysierte Register-Adressen und implementierte den Fix schrittweise mit Verify-Checks. Seit März liest die KI laut Laurenzos Beobachtung oft nur noch eine einzige Datei, wendet einen schnellen Patch an und bricht dabei unbemerkt andere Abhängigkeiten. Entwickler müssen den Code anschließend manuell reparieren.
Für Teams bedeutet das: Der spürbare Qualitätsverlust bei Langzeit-Sessions und großen Codebasen ist keine Einbildung, sondern ein messbares Problem. Als Gegenmaßnahme empfiehlt es sich derzeit, bei komplexen Aufgaben das Effort-Level explizit hochzusetzen und den Thinking-Output genau zu überwachen. Wird das Thinking zu stark ausgeblendet, ist das ein klares Warnsignal für minderwertige Ergebnisse. Multi-Agent-Workflows sollten bis auf Weiteres mit Vorsicht betrieben werden.
Fazit
Die Log-Analyse zeigt eindeutig, dass Extended Thinking für Claude Code kein optionales Feature ist, sondern eine strukturelle Notwendigkeit für komplexe Engineering-Aufgaben. Die Reduktion des sichtbaren Denkens hat einen direkten Qualitätseinbruch ausgelöst, der Enterprise-Teams aktuell dazu zwingt, wieder verstärkt auf manuelle Kontrolle zu setzen. Ob Anthropic die Sichtbarkeit und Tiefe der Denkprozesse zeitnah wieder anpasst, bleibt abzuwarten.
Quellen
- https://github.com/anthropics/claude-code/issues/42796
- https://gist.github.com/benvanik/e6c610997e4b06b82385622048079818
- https://www.infoworld.com/article/4154973/enterprise-developers-question-claude-codes-reliability-for-complex-engineering.html
- https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/
Das könnte dich auch interessieren
Meta enthüllt Muse Spark: erstes neues KI-Modell nach dem Milliarden-AI-Overhaul
Nach dem milliardenschweren AI-Overhaul stellt Meta Muse Spark vor. Spannend ist die Monetarisierungsfrage: proprietär vs. Open-Model-Strategie.
Anthropic hält Claude Mythos Preview zurück – zu gefährlich für die Öffentlichkeit
Das neue KI-Modell Claude Mythos entdeckt tausende Software-Schwachstellen – zu riskant für einen breiten Release.
Anthropic baut Gigawatt-TPU-Kapazität mit Google und Broadcom aus
Neue Rechenkapazität ab 2027 wird Claude und andere Frontier-Modelle unterstützen – Anzeichen für extremen Bedarf bei KI-Infrastruktur.