Gemma 4: Googles neue Open-Modelle bringen agentische KI aufs Gerät

Mit Gemma 4 hat Google DeepMind eine neue Generation offener Sprachmodelle veröffentlicht, die gezielt für agentische Workflows auf Endgeräten optimiert sind. Die unter der Apache-2.0-Lizenz stehenden Modelle sollen Entwicklern ermöglichen, KI-Anwendungen mit mehrstufiger Planung, autonomen Aktionen und Audio-Video-Verarbeitung lokal auszuführen – ohne zwingende Cloud-Abhängigkeit.

Das Portfolio umfasst vier Varianten: die mobiloptimierten Modelle Effective 2B (E2B) und Effective 4B (E4B) sowie ein 26B-Mixture-of-Experts-Modell und ein 31B-Dense-Modell für Desktop- und Server-Infrastrukturen. Laut Google belegt das 31B-Modell derzeit den dritten Platz im Arena-AI-Text-Leaderboard, während das 26B-MoE-Modell auf Platz sechs rangiert.

Edge-Inferenz als Standard

Gemma 4 ist auf On-Device-Inferenz ausgelegt. Dafür nutzt Google die neue LiteRT-LM-Laufzeitumgebung aus dem AI-Edge-Portfolio. Entwickler können damit agentische Fähigkeiten direkt auf Smartphones, Tablets, IoT-Geräten und Laptops bereitstellen. Die Modelle unterstützen mehr als 140 Sprachen.

Ein konkreter Anwendungsfall: Eine Android-App integriert einen lokalen Gemma-4-Agenten, der Kalendereinträge analysiert, E-Mails priorisiert und auf Basis von Sensordaten wie Standort oder Aktivität Handlungsempfehlungen generiert. Wenn die Verarbeitung lokal bleibt, können Latenzen sinken und bestimmte Datenschutzrisiken reduziert werden.

Agent Skills und Hardware-Integration

Parallel zur Modellfamilie hat Google die AI Edge Gallery für iOS und Android vorgestellt. In dieser App können Entwickler On-Device-KI-Erfahrungen evaluieren. Die integrierte Funktion für Agent Skills demonstriert laut Google-Entwicklerblog vollständig auf dem Gerät laufende, mehrstufige agentische Workflows. Diese Agenten können beispielsweise auf Wikipedia-Daten zugreifen oder lokale Dateien durchsuchen, um kontextsensitive Aktionen auszulösen.

Technisch setzt dies auf die LiteRT-LM-Laufzeit (Lightweight Runtime for Language Models) auf. Sie bietet automatische Hardware-Erkennung, asynchrone Ausführung und effiziente Speichernutzung. Über die CompiledModel-API wählt das System je nach verfügbaren Ressourcen zwischen CPU, GPU oder spezialisierten Neural Processing Units (NPUs). Auch Wearables und browserbasierte Plattformen werden unterstützt, was den Einsatz von Hintergrund-Assistenten auf Smartwatches oder in Progressive Web Apps ermöglicht.

Relevanz für die Agenten-Entwicklung

Für die Entwicklung lokaler KI-Agenten bietet die Gemma-4-Architektur vier zentrale Vorteile:

Lokale Autonomie: Agenten können ohne dauerhafte Internetverbindung arbeiten, was für mobile Einsätze und datenschutzsensible Umgebungen relevant ist.
Kosteneffizienz: Cloud-Inferenz-Kosten können sinken oder entfallen, besonders bei hohem Durchsatz oder kontinuierlich laufenden Agenten.
Niedrigere Latenz: Durch Verarbeitung auf dem Gerät können Antwortzeiten reduziert werden, abhängig von Modellgröße und Hardware.
Hardware-Flexibilität: Die Skalierbarkeit reicht vom Smartphone über Wearables bis hin zur professionellen Workstation.

Google positioniert Gemma 4 als Ergänzung zu den proprietären Gemini-Modellen. Die Apache-2.0-Lizenz erleichtert dabei kommerzielle Nutzung und Modifikation, sofern die jeweiligen Lizenzbedingungen eingehalten werden.

Praxisbeispiel: Mobiler Recherche-Agent

Ein praxisnahes Szenario ist ein mobiler Recherche-Agent für den journalistischen Einsatz im Feld. Während einer Pressekonferenz läuft der Agent lokal auf dem Smartphone, analysiert Transkripte in Echtzeit, ruft Hintergrundinformationen aus einer Offline-Wissensdatenbank ab und schlägt gezielte Fragen vor. Die LiteRT-LM-Laufzeit soll dabei helfen, die Inferenz auch auf begrenzter Smartphone-Hardware stabiler bereitzustellen. Cloud-basierte Architekturen wären in solchen Szenarien anfälliger für Verbindungsprobleme.

Was daraus folgt

Mit Gemma 4, der optimierten Edge-Laufzeit und der AI Edge Gallery baut Google eine Grundlage für dezentrale, autonome KI-Anwendungen aus.

Ob die kompakten Varianten E2B und E4B die erhoffte Agenten-Intelligenz auf Smartphone-Hardware dauerhaft liefern, wird der praktische Einsatz zeigen. Nach Angaben von DeepMind belegen interne Benchmarks, dass die 4B-Variante komplexere Reasoning-Aufgaben bewältigt, während die 2B-Version primär für Echtzeit-Interaktionen auf ressourcenbeschränkten Geräten ausgelegt ist.

Für Entwickler stehen die Tools und die LiteRT-LM-Dokumentation bereits zur Verfügung. Sie bieten einen Einstieg, um lokale Autonomie, niedrigere Latenz und stärkeren Datenschutz in eigene Agenten-Projekte zu integrieren.

Gemma 4: Googles neue Open-Modelle bringen agentische KI aufs Gerät

Edge-Inferenz als Standard

Agent Skills und Hardware-Integration

Relevanz für die Agenten-Entwicklung

Praxisbeispiel: Mobiler Recherche-Agent

Was daraus folgt

Transparenz

Quellen

Das könnte dich auch interessieren

Huawei macht Agentic Banking zur Infrastrukturfrage

Hark bekommt 700 Millionen Dollar für ein noch kaum sichtbares KI-Interface

Modal sammelt 355 Millionen Dollar für AI-Cloud-Infrastruktur