Zum Inhalt springen
news · 3 min Lesezeit

Gemma 4: Googles neue Open-Modelle bringen agentische KI aufs Gerät

Google DeepMind veröffentlicht Gemma 4, Open-Modelle für On-Device-Agentic AI. Lokale Ausführung, autonome Workflows, keine Cloud-Abhängigkeit.

open-source on-device agentic-ai edge-computing gemma

Mit Gemma 4 hat Google DeepMind eine neue Generation offener Sprachmodelle veröffentlicht, die gezielt für agentische Workflows auf Endgeräten optimiert sind. Die unter der Apache-2.0-Lizenz stehenden Modelle ermöglichen es Entwicklern, KI-Anwendungen mit mehrstufiger Planung, autonomen Aktionen und Audio-Video-Verarbeitung lokal auszuführen – ganz ohne Cloud-Abhängigkeit.

Das Portfolio umfasst vier Varianten: Die mobiloptimierten Modelle Effective 2B (E2B) und Effective 4B (E4B) sowie ein 26B-Mixture-of-Experts-Modell und ein 31B-Dense-Modell für Desktop- und Server-Infrastrukturen. Laut Google belegt das 31B-Modell derzeit den dritten Platz im Arena-AI-Text-Leaderboard, während das 26B-MoE-Modell auf Platz sechs rangiert.

Edge-Inferenz als Standard

Gemma 4 ist konsequent auf On-Device-Inferenz ausgelegt. Dafür nutzt Google die neue LiteRT-LM-Laufzeitumgebung aus dem AI-Edge-Portfolio. Entwickler können damit agentische Fähigkeiten direkt auf Smartphones, Tablets, IoT-Geräten und Laptops bereitstellen. Die Modelle unterstützen mehr als 140 Sprachen.

Ein konkreter Anwendungsfall: Eine Android-App integriert einen lokalen Gemma-4-Agenten, der selbstständig Kalendereinträge analysiert, E-Mails priorisiert und auf Basis von Sensordaten wie Standort oder Aktivität Handlungsempfehlungen generiert. Da keine Daten an einen Server gesendet werden müssen, lassen sich Latenzen und Datenschutzrisiken minimieren.

Agent Skills und Hardware-Integration

Parallel zur Modellfamilie hat Google die AI Edge Gallery für iOS und Android vorgestellt. In dieser App können Entwickler On-Device-KI-Erfahrungen evaluieren. Die integrierte Funktion für Agent Skills demonstriert laut Google-Entwicklerblog vollständig auf dem Gerät laufende, mehrstufige agentische Workflows. Diese Agenten können beispielsweise auf Wikipedia-Daten zugreifen oder lokale Dateien durchsuchen, um kontextsensitive Aktionen auszulösen.

Technisch setzt dies auf die LiteRT-LM-Laufzeit (Lightweight Runtime for Language Models) auf. Sie bietet automatische Hardware-Erkennung, asynchrone Ausführung und eine effiziente Speichernutzung. Über die CompiledModel-API wählt das System je nach verfügbaren Ressourcen dynamisch zwischen CPU, GPU oder spezialisierten Neural Processing Units (NPUs). Auch Wearables und browserbasierte Plattformen werden unterstützt, was den Einsatz von Hintergrund-Assistenten auf Smartwatches oder in Progressive Web Apps ermöglicht.

Relevanz für die Agenten-Entwicklung

Für die Entwicklung lokaler KI-Agenten bietet die Gemma-4-Architektur vier zentrale Vorteile:

  • Lokale Autonomie: Agenten arbeiten ohne Internetverbindung, was für mobile Einsätze und datenschutzsensible Umgebungen entscheidend ist.
  • Kosteneffizienz: Cloud-Inferenz-Kosten entfallen komplett, was sich besonders bei hohem Durchsatz oder kontinuierlich laufenden Agenten rechnet.
  • Minimale Latenz: Durch die direkte Verarbeitung auf dem Gerät sinken die Antwortzeiten auf Millisekunden-Niveau.
  • Hardware-Flexibilität: Die Skalierbarkeit reicht vom Smartphone über Wearables bis hin zur professionellen Workstation.

Google positioniert Gemma 4 als Ergänzung zu den proprietären Gemini-Modellen. Die freizügige Apache-2.0-Lizenz erlaubt dabei die uneingeschränkte kommerzielle Nutzung und Modifikation.

Praxisbeispiel: Mobiler Recherche-Agent

Ein praxisnahes Szenario ist ein mobiler Recherche-Agent für den journalistischen Einsatz im Feld. Während einer Pressekonferenz läuft der Agent lokal auf dem Smartphone, analysiert Transkripte in Echtzeit, ruft Hintergrundinformationen aus einer Offline-Wissensdatenbank ab und schlägt gezielte Fragen vor. Die LiteRT-LM-Laufzeit stellt dabei sicher, dass die Inferenz auch auf älterer Smartphone-Hardware stabil läuft. Cloud-basierte Architekturen wären hier aufgrund möglicher Verbindungsprobleme nicht praktikabel.

Ausblick

Mit Gemma 4, der optimierten Edge-Laufzeit und der AI Edge Gallery etabliert Google eine solide Basis für dezentrale, autonome KI-Anwendungen.

Ob die kompakten Varianten E2B und E4B die erhoffte Agenten-Intelligenz auf Smartphone-Hardware dauerhaft liefern, wird der praktische Einsatz zeigen. Nach Angaben von DeepMind belegen interne Benchmarks, dass die 4B-Variante bereits komplexe Reasoning-Aufgaben bewältigt, während die 2B-Version primär für Echtzeit-Interaktionen auf ressourcenbeschränkten Geräten ausgelegt ist.

Für Entwickler stehen die Tools und die LiteRT-LM-Dokumentation bereits zur Verfügung. Sie bieten einen direkten Einstieg, um lokale Autonomie, niedrige Latenz und hohen Datenschutz in eigene Agenten-Projekte zu integrieren.