Aktualisiert: 9. Mai 2026 · Quartalsweise neu evaluiert
Methodik: Wie wir die KI für Ihre Google-Bewertungsantworten auswählen
Wir haben 13 KI-Modelle gegen 53 echte Schweizer Google-Bewertungen in 6 Sprachen getestet. Hier ist, was passiert ist, welche Modelle unsere Schwelle erreicht haben und welche nicht.
Schlüsselergebnisse
- 9 von 13 getesteten Modellen erreichten unsere regel-basierte Compliance-Schwelle (0 verbotene Phrasen, 0 Em-Dashes über 53 Bewertungen).
- mistral-large disqualifiziert — Em-Dashes in 42% (22/53) der Antworten.
- gpt-5 (Chat Completions) fügte operative Details hinzu, die nicht in der Bewertung standen — bei einem öffentlichen Antwort-Tool eine Haftung.
- Latenz-Spanne der compliant Modelle: gpt-4.1-mini (1,2s P50) bis gemini-2.5-pro (13,3s P50).
- Wir gewichten Sicherheit + Erdung höher als Rohgeschwindigkeit — die Produktionswahl basiert auf dem vollständigen Sicherheits-, Qualitäts- und Latenzprofil.
Warum die meisten KI-Antworten auf Google-Bewertungen nicht gut sind
Die meisten Bewertungs-Antwort-Tools verwenden ein Standard-LLM, ohne zu zeigen, wie sie es ausgewählt haben. Das Resultat: generische Corporate-Floskeln. „Vielen Dank für Ihre Worte, Ihre Zufriedenheit ist unsere oberste Priorität." Solche Antworten schaden der Marke mehr als sie helfen.
Eine gute Antwort auf eine Google-Bewertung verlangt drei Dinge: Erdung in dem, was der Kunde tatsächlich geschrieben hat (keine erfundenen Details), natürliche menschliche Stimme in der korrekten Schweizer Sprache und Tonlage, und Sicherheit bei rechtlich heiklen Bewertungen (kein Schuldeingeständnis, kein Datenleck). Welche Modelle das leisten, sehen wir nicht in Datenblättern, sondern indem wir es testen.
Unser Test-Setup
- 53 echte Bewertungen aus Schweizer KMU-Profilen, anonymisiert
- 6 Sprachen: Französisch (12), Englisch (25), Deutsch (3), Italienisch (11), Portugiesisch (1), Chinesisch (1)
- 13 Frontier-Modelle — alle aktuellen Top-Modelle von OpenAI, Anthropic, Google, Mistral
- Regel-basierte Bewertung: 37 verbotene Floskel-Patterns pro Sprache, Em-Dash-Erkennung, Wortanzahl, Latenz
- Manuelle Sicherheitsprüfung auf negativen DE/FR-Bewertungen, weil regel-basierte Tests Erdung und Tonlage nicht messen können
Stichproben-Hinweis: das Sample ist Restaurant-lastig und enthält nur 3 deutschsprachige Bewertungen. Die nächste Quartals-Evaluation wird auf ein Schweizer-DE-Mehrheits-Sample umgestellt.
Ergebnisse hängen vom Prompt, dem API-Modus, dem Datum des Tests und dem Eval-Sample ab. Regelkonformität allein beweist noch keine Produktions-Tauglichkeit — sie ist eine Mindesthürde.
Die 13 getesteten Modelle
Sortiert nach Median-Latenz. Niedrigere Latenz, weniger verbotene Phrasen und null Em-Dashes sind besser.
| Modell | Latenz P50 | Latenz P95 | Wörter (Median) | Verboten | Em-Dash | Status |
|---|---|---|---|---|---|---|
| gpt-4.1-mini | 1.2s | 1.9s | 37 | 0 | 0 | sauber |
| gpt-4.1 | 1.3s | 3.0s | 32 | 0 | 0 | sauber |
| claude-haiku-4-5 | 1.6s | 2.0s | 37 | 0 | 1 | em-dash in DE |
| mistral-large | 1.9s | 6.0s | 42 | 0 | 22 | em-dash spam (42%) |
| gpt-5-codex | 2.3s | 4.0s | 40 | 0 | 0 | sauber |
| gpt-5.2-codex | 2.3s | 5.1s | 36 | 0 | 0 | sauber |
| claude-sonnet-4-6 | 3.1s | 4.2s | 43 | 0 | 0 | sauber |
| claude-opus-4-7 | 3.3s | 5.4s | 41 | 0 | 0 | sauber |
| gemini-2.5-flash | 4.7s | 7.0s | 51 | 1 | 0 | verbotener Satz in DE |
| o4-mini | 5.3s | 12.3s | 36 | 0 | 0 | sauber |
| gemini-3-pro-preview | 10.1s | 14.7s | 40 | 0 | 0 | sauber |
| gpt-5 | 11.6s | 22.7s | 44 | 0 | 0 | erfundene Details (siehe unten) |
| gemini-2.5-pro | 13.3s | 19.9s | 37 | 0 | 0 | sauber |
Was die Daten zeigen — Auffallende Failure Modes
mistral-large: Em-Dash-Spam
22 von 53 Antworten (42%) enthielten Em-Dashes (—) oder En-Dashes (–). Das ist ein klassisches AI-Tell, das den „Sounds-like-a-human"-Effekt sofort zerstört. Disqualifiziert.
gemini-2.5-flash: Floskel in DE
Gemini Flash produzierte in einer der drei deutschen Antworten eine unserer verbotenen Floskeln („wir wissen, wie wichtig es ist..."). Bei nur 3 DE-Tests ist 1 Treffer ein hoher Prozentsatz.
claude-haiku-4-5: Em-Dash in DE
Eine deutsche Antwort enthielt einen Em-Dash. Marginal, aber genug, um Haiku aus der Compliance-Spitzengruppe zu nehmen.
Ein Reasoning-Modell: erfundene operative Details
In unserem Lauf betraf das gpt-5 über Chat Completions. Das Modell produzierte regel-konforme Antworten, fügte aber Details hinzu, die nie in der Bewertung standen. Auf eine FR-2★-Bewertung über einen Brunch antwortete es: „Nous avons revu la formule à 32 CHF: pain artisanal, jambon de meilleure coupe, omelette plus généreuse..." — keiner dieser Punkte stand in der Bewertung. Für ein öffentliches Antwort-Tool ist das eine reale Risiko: der Inhaber kann nicht behaupten, Dinge getan zu haben, die er nie getan hat. Das ist kein generelles Urteil über das Modell, sondern ein Ergebnis für diesen Prompt, dieses API-Setup und diese Aufgabe.
Nur ein kleiner Teil der Modelle hat unsere Schwelle erreicht
Von 13 getesteten Modellen erreichten 9 die regel-basierte Compliance (0 verbotene Phrasen, 0 Em-Dashes). Nach der manuellen Sicherheitsprüfung — die Erdung, Tonlage und Wahrhaftigkeit prüft — blieben deutlich weniger Modelle übrig.
Welches Modell wir konkret in Produktion verwenden, geben wir nicht öffentlich bekannt. Das ist Teil unserer Wettbewerbsposition. Was öffentlich ist, sind unsere Methodik, unsere Kriterien und unsere Daten — nachvollziehbar und reproduzierbar.
Unsere Auswahlkriterien
Wir gewichten Modelle nach diesen Kriterien, in dieser Reihenfolge:
- Sicherheit: Keine Erfindungen, kein Schuldeingeständnis, keine Datenlecks über andere Kunden oder Mitarbeiter
- Erdung in der Bewertung: Antworten greifen auf, was der Kunde tatsächlich geschrieben hat. Keine generischen Floskeln, keine erfundenen Details.
- Schweizer Mehrsprachigkeit: konsistente Qualität in DE-CH, FR-CH, IT-CH, mit korrekten Anredeformen (Sie / vous / lei) und Schweizer Idiomen
- Tonlage je nach Branche: warm für Restaurants, deeskalierend bei negativen Bewertungen, professionell-empathisch im Gesundheitsbereich
- Latenz: unter 5 Sekunden P95 — gute UX im Dashboard, wenn der Inhaber „Antwort generieren" klickt
- Kosten: skalierbar bei SMB-Volumen (Hunderte bis Tausende Bewertungen pro Monat)
Wir optimieren nicht auf Geschwindigkeit alleine. Das schnellste Modell in unserem Test (gpt-4.1-mini, 1,2s) ist 2,5× schneller als unsere Wahl, aber generisch und ohne tiefe Erdung. Wir tauschen Geschwindigkeit gegen Qualität ein.
Was wir nicht offenlegen — und warum
Wir nennen hier nicht das Modell, das wir in Produktion verwenden. Wir evaluieren quartalsweise neu, und die Antwort auf „welches Modell ist das beste?" ändert sich, wenn neue Modelle erscheinen. Wir wollen wechseln können, ohne Marketing-Aussagen umzuschreiben. Der eigentliche Vorteil liegt im laufenden Eval-Prozess: Kriterien, Testfälle, manuelle Prüfungen und die Bereitschaft, Modelle zu wechseln. Methodik und Kriterien sind öffentlich, die Umsetzung ist unsere.
Was Sie mit StarReview bekommen
In unserem Mai-2026-Eval-Lauf erfüllte die Modellkonfiguration hinter StarReview unsere Schwelle: 0/53 verbotene Phrasen, 0 Em-Dashes und 0 erfundene operative Details; P95-Latenz unter 5 Sekunden in allen 6 getesteten Sprachen. Konkret heisst das:
- Antworten, die wie ein echter Inhaber klingen — 37 sprachspezifische Filter blockieren AI-Floskeln vor Veröffentlichung
- Geerdet in der konkreten Bewertung — bei der manuellen Sicherheitsprüfung 0/53 erfundene Details; mehrere nicht gewählte Modelle fügten operative Details hinzu
- Multilinguale Schweizer Tonlage in DE-CH, FR-CH, IT-CH und Englisch — getestet auf 53 echten Bewertungen
- Forbidden-Phrase-Filter mit 37 Patterns pro Sprache, gebaut aus identifizierten AI-Floskeln aus echten Schweizer Bewertungen
- Quartalsweise Re-Evaluation — nächster Lauf August 2026; wenn ein neues Modell unsere Schwelle übertrifft, wechseln wir
Wie wir für Branchen-Spezifika abstimmen
Bewertungs-Antworten haben branchen-spezifische Risiken. Bei einer Arzt-Praxis geht es um das Schweizer Berufsgeheimnis (StGB Art. 321) und darum, was die Antwort über das Patientenverhältnis sagen darf. Bei einer Garage geht es um Reparatur-Versprechen ohne schriftliche Grundlage. Bei einem Restaurant um pauschale Hygiene-Aussagen ohne konkrete Massnahme.
StarReview ist pro Branche unterschiedlich abgestimmt:
- Branchen-spezifische System-Prompts mit eingebauten Vorsichtsregeln
- Branchen-spezifische Phrasen-Filter, die typische Risiko-Formulierungen zur menschlichen Freigabe markieren oder vor Veröffentlichung neu generieren lassen
- Im Gesundheitswesen erfordern alle Antworten menschliche Freigabe, unabhängig vom Stern-Rating
- Smoke-Tests bei jeder Modell-Aktualisierung gegen typische Failure-Modes pro Branche
Die genauen Patterns und Prompts geben wir nicht öffentlich bekannt. Das ist Teil unseres Wettbewerbs-Stacks. Methodik und Kriterien sind öffentlich; die konkrete Implementierung ist unsere.
Registrieren und 2 Monate gratis bei StarReview erhalten
Während wir auf die Google-API-Freigabe warten, sammeln wir Registrierungen.
Bis 31. Mai registrieren: 2 Gratismonate ab Juni für neue Bewertungen
Jetzt registrieren →