Video-Generator: Mehr Flexibilität bei Asset-Delivery

OpenClaw’s Video-Generator-Tool hat in der letzten Release-Runde signifikante Erweiterungen erhalten. Im Kern geht es darum, mehr Kontrolle und Flexibilität an die Provider zu delegieren – ohne dabei große Dateien zwangsweise in den Speicher zu laden. Für Entwickler und Agenten-Builder bedeutet das: kürzere Iterationsschleifen, präzisere Vorgaben und die Möglichkeit, Video-Generation besser in automatisierte Workflows einzubetten.

URL-only Output: Speicher entlasten, Workflows beschleunigen

Bisher hat das video_generate-Tool generierte Videos als lokale Dateien ausgeliefert. Mit der neuen URL-only Delivery kann ein Provider jetzt entscheiden, das Asset lediglich als URL zurückzugeben – etwa weil es bereits auf einer CDN liegt oder weil das Video-Provider-Backend ohnehin eine persistente Abruf-URL bereitstellt. Für Agenten, die Videos nur weiterleiten oder in externen Systemen verarbeiten wollen, entfällt damit der Zwischenschritt des lokalen Speicherns und erneuten Hochladens.

Ein konkretes Szenario: Angenommen, du betreibst einen Telegram-Bot, der täglich einen kurzen Recap-Video-Clip für dein Team erstellt. Bisher musste das generierte Video erst lokal gespeichert, dann per message-Tool als Media‑Attachment hochgeladen werden. Mit URL‑only Delivery könnte der Provider direkt eine Cloud‑Storage‑URL liefern, die du an Telegram übergibst – ein Schritt weniger, weniger I/O‑Last auf dem Host‑System.

Adaptive Aspect-Ratio und mehr Image-Inputs

Die Video-Generation unterstützt jetzt auch adaptive Aspect‑Ratios. Statt einer festen Liste erlaubter Verhältnisse (wie 16:9 oder 1:1) kann ein Provider ein „adaptive“‑Flag übernehmen und das Seitenverhältnis intern optimieren – etwa um das Ergebnis aus den Referenz‑Bildern abzuleiten. Gleichzeitig wurde die maximale Anzahl an Input‑Images von 5 auf 9 erhöht. Damit lassen sich jetzt komplexere Szenen mit mehr Referenz‑Frames steuern, ohne dass der Agent die Bilder vorher mühsam zusammenstückeln muss.

Technisch kommt dazu ein neues Feld imageRoles: Jedes übergebene Bild kann eine optionale Rolle (z. B. „first_frame“, „last_frame“) erhalten, die der Provider interpretieren kann. Das erlaubt präzisere Vorgaben, ohne dass der Core sich um die Semantik kümmern muss – er leitet die Rolle einfach durch.

Reference‑Audio: Hintergrundmusik und Sound‑Design einbinden

Eine der auffälligsten Neuerungen ist die Unterstützung für Reference‑Audio. Über audioRef oder audioRefs können bis zu drei Audio‑Assets als Referenz übergeben werden – beispielsweise ein Musik‑Track, der als Hintergrund‑Sound dienen soll, oder eine Sprachaufnahme, die im Video unterlegt werden soll. Provider, die Audio‑Inputs unterstützen, müssen dies über maxInputAudios in ihren Capabilities deklarieren; anderenfalls wird die Validierung die Anfrage ablehnen.

Key Takeaways:

URL‑only Delivery spart lokalen Speicher und reduziert I/O für reine Weiterleitungs‑Workflows.
Adaptive Aspect‑Ratio und bis zu 9 Input‑Images geben Providern mehr Freiheit, das Ergebnis aus den Vorgaben zu erzeugen.
Reference‑Audio erlaubt die Einbindung von Musik oder Sprach‑Tracks, um Videos akustisch anzureichern.
Provider‑Options ermöglichen provider‑spezifische Einstellungen, ohne dass das Core‑Tooling erweitert werden muss.

Provider‑Options: Custom‑Einstellungen durchreichen

Damit Provider ihre eigenen, speziellen Parameter unterstützen können, wurde providerOptions eingeführt – ein JSON‑Objekt, das unverändert an den Provider durchgereicht wird. So kann etwa ein Provider, der bestimmte Stil‑Presets oder Qualitäts‑Flags anbietet, diese direkt über die Tool‑Call‑Schnittstelle empfangen, ohne dass OpenClaw jedes mögliche Flag vorab kennen muss. Das macht das Tooling erweiterbarer.

Was das für Agenten‑Builder bedeutet

Die Erweiterungen zielen darauf ab, Video‑Generation besser in automatisierte Pipelines zu integrieren. Wenn dein Agent regelmäßig Videos generiert – sei es für Social‑Media‑Posts, interne Reports oder Tutorial‑Clips – kannst du jetzt präziser steuern, welche Referenz‑Assets verwendet werden, ob Audio eingebunden wird und wie das Ergebnis ausgeliefert wird. Die URL‑only‑Option ist besonders interessant für Cloud‑native Setups, in denen Videos ohnehin nur zwischen Diensten weitergeleitet werden.

Gleichzeitig bleibt die Validierung streng: Provider müssen ihre Capabilities (maximale Anzahl an Images, Audios, unterstützte Aspect‑Ratios) deklarieren, und das Core‑Tooling prüft jede Anfrage dagegen. Das verhindert überraschende Fehler, wenn ein Provider bestimmte Input‑Kombinationen nicht verarbeiten kann.

Ausblick: Mehr Granularität, weniger Boilerplate

Mit dieser Release‑Runde wird deutlich, dass OpenClaw die Video‑Generation als ernstzunehmendes Werkzeug für Agenten‑Builder ausbaut. Die neuen Felder (imageRoles, inputAudios, providerOptions) geben mehr Kontrolle, ohne die Komplexität im Core unnötig zu erhöhen. Für Entwickler, die auf Video‑Generierung setzen, heißt das: weniger Boilerplate‑Code für Workarounds, mehr Granularität in den Vorgaben – und damit schnellere Iterationen bei der Content‑Produktion.

Video-Generator: Mehr Flexibilität bei Asset-Delivery

URL-only Output: Speicher entlasten, Workflows beschleunigen

Adaptive Aspect-Ratio und mehr Image-Inputs

Reference‑Audio: Hintergrundmusik und Sound‑Design einbinden

Provider‑Options: Custom‑Einstellungen durchreichen

Was das für Agenten‑Builder bedeutet

Ausblick: Mehr Granularität, weniger Boilerplate

Quellen

Das könnte dich auch interessieren

Open-Source iOS-Client Clawket erweitert um Hermes-Support

Secrets und API-Keys sicher verwalten – mit OpenClaw SecretRef

OpenClaw v2026.4.12: Plugin-System überarbeitet, Active Memory standardmäßig verbessert, umfangreiche Bugfixes