Aktualisiert: 9. Mai 2026 · Quartalsweise neu evaluiert

Methodik: Wie wir die KI für Ihre Google-Bewertungsantworten auswählen

Wir haben 13 KI-Modelle gegen 53 echte Schweizer Google-Bewertungen in 6 Sprachen getestet. Hier ist, was passiert ist, welche Modelle unsere Schwelle erreicht haben und welche nicht.

Schlüsselergebnisse

9 von 13 getesteten Modellen erreichten unsere regel-basierte Compliance-Schwelle (0 verbotene Phrasen, 0 Em-Dashes über 53 Bewertungen).
mistral-large disqualifiziert — Em-Dashes in 42% (22/53) der Antworten.
gpt-5 (Chat Completions) fügte operative Details hinzu, die nicht in der Bewertung standen — bei einem öffentlichen Antwort-Tool eine Haftung.
Latenz-Spanne der compliant Modelle: gpt-4.1-mini (1,2s P50) bis gemini-2.5-pro (13,3s P50).
Wir gewichten Sicherheit + Erdung höher als Rohgeschwindigkeit — die Produktionswahl basiert auf dem vollständigen Sicherheits-, Qualitäts- und Latenzprofil.

Warum die meisten KI-Antworten auf Google-Bewertungen nicht gut sind

Die meisten Bewertungs-Antwort-Tools verwenden ein Standard-LLM, ohne zu zeigen, wie sie es ausgewählt haben. Das Resultat: generische Corporate-Floskeln. „Vielen Dank für Ihre Worte, Ihre Zufriedenheit ist unsere oberste Priorität." Solche Antworten schaden der Marke mehr als sie helfen.

Eine gute Antwort auf eine Google-Bewertung verlangt drei Dinge: Erdung in dem, was der Kunde tatsächlich geschrieben hat (keine erfundenen Details), natürliche menschliche Stimme in der korrekten Schweizer Sprache und Tonlage, und Sicherheit bei rechtlich heiklen Bewertungen (kein Schuldeingeständnis, kein Datenleck). Welche Modelle das leisten, sehen wir nicht in Datenblättern, sondern indem wir es testen.

Unser Test-Setup

53 echte Bewertungen aus Schweizer KMU-Profilen, anonymisiert
6 Sprachen: Französisch (12), Englisch (25), Deutsch (3), Italienisch (11), Portugiesisch (1), Chinesisch (1)
13 Frontier-Modelle — alle aktuellen Top-Modelle von OpenAI, Anthropic, Google, Mistral
Regel-basierte Bewertung: 37 verbotene Floskel-Patterns pro Sprache, Em-Dash-Erkennung, Wortanzahl, Latenz
Manuelle Sicherheitsprüfung auf negativen DE/FR-Bewertungen, weil regel-basierte Tests Erdung und Tonlage nicht messen können

Stichproben-Hinweis: das Sample ist Restaurant-lastig und enthält nur 3 deutschsprachige Bewertungen. Die nächste Quartals-Evaluation wird auf ein Schweizer-DE-Mehrheits-Sample umgestellt.

Ergebnisse hängen vom Prompt, dem API-Modus, dem Datum des Tests und dem Eval-Sample ab. Regelkonformität allein beweist noch keine Produktions-Tauglichkeit — sie ist eine Mindesthürde.

Die 13 getesteten Modelle

Sortiert nach Median-Latenz. Niedrigere Latenz, weniger verbotene Phrasen und null Em-Dashes sind besser.

Modell	Latenz P50	Latenz P95	Wörter (Median)	Verboten	Em-Dash	Status
gpt-4.1-mini	1.2s	1.9s	37	0	0	sauber
gpt-4.1	1.3s	3.0s	32	0	0	sauber
claude-haiku-4-5	1.6s	2.0s	37	0	1	em-dash in DE
mistral-large	1.9s	6.0s	42	0	22	em-dash spam (42%)
gpt-5-codex	2.3s	4.0s	40	0	0	sauber
gpt-5.2-codex	2.3s	5.1s	36	0	0	sauber
claude-sonnet-4-6	3.1s	4.2s	43	0	0	sauber
claude-opus-4-7	3.3s	5.4s	41	0	0	sauber
gemini-2.5-flash	4.7s	7.0s	51	1	0	verbotener Satz in DE
o4-mini	5.3s	12.3s	36	0	0	sauber
gemini-3-pro-preview	10.1s	14.7s	40	0	0	sauber
gpt-5	11.6s	22.7s	44	0	0	erfundene Details (siehe unten)
gemini-2.5-pro	13.3s	19.9s	37	0	0	sauber

Was die Daten zeigen — Auffallende Failure Modes

mistral-large: Em-Dash-Spam

22 von 53 Antworten (42%) enthielten Em-Dashes (—) oder En-Dashes (–). Das ist ein klassisches AI-Tell, das den „Sounds-like-a-human"-Effekt sofort zerstört. Disqualifiziert.

gemini-2.5-flash: Floskel in DE

Gemini Flash produzierte in einer der drei deutschen Antworten eine unserer verbotenen Floskeln („wir wissen, wie wichtig es ist..."). Bei nur 3 DE-Tests ist 1 Treffer ein hoher Prozentsatz.

claude-haiku-4-5: Em-Dash in DE

Eine deutsche Antwort enthielt einen Em-Dash. Marginal, aber genug, um Haiku aus der Compliance-Spitzengruppe zu nehmen.

Ein Reasoning-Modell: erfundene operative Details

In unserem Lauf betraf das gpt-5 über Chat Completions. Das Modell produzierte regel-konforme Antworten, fügte aber Details hinzu, die nie in der Bewertung standen. Auf eine FR-2★-Bewertung über einen Brunch antwortete es: „Nous avons revu la formule à 32 CHF: pain artisanal, jambon de meilleure coupe, omelette plus généreuse..." — keiner dieser Punkte stand in der Bewertung. Für ein öffentliches Antwort-Tool ist das eine reale Risiko: der Inhaber kann nicht behaupten, Dinge getan zu haben, die er nie getan hat. Das ist kein generelles Urteil über das Modell, sondern ein Ergebnis für diesen Prompt, dieses API-Setup und diese Aufgabe.

Nur ein kleiner Teil der Modelle hat unsere Schwelle erreicht

Von 13 getesteten Modellen erreichten 9 die regel-basierte Compliance (0 verbotene Phrasen, 0 Em-Dashes). Nach der manuellen Sicherheitsprüfung — die Erdung, Tonlage und Wahrhaftigkeit prüft — blieben deutlich weniger Modelle übrig.

Welches Modell wir konkret in Produktion verwenden, geben wir nicht öffentlich bekannt. Das ist Teil unserer Wettbewerbsposition. Was öffentlich ist, sind unsere Methodik, unsere Kriterien und unsere Daten — nachvollziehbar und reproduzierbar.

Unsere Auswahlkriterien

Wir gewichten Modelle nach diesen Kriterien, in dieser Reihenfolge:

Sicherheit: Keine Erfindungen, kein Schuldeingeständnis, keine Datenlecks über andere Kunden oder Mitarbeiter
Erdung in der Bewertung: Antworten greifen auf, was der Kunde tatsächlich geschrieben hat. Keine generischen Floskeln, keine erfundenen Details.
Schweizer Mehrsprachigkeit: konsistente Qualität in DE-CH, FR-CH, IT-CH, mit korrekten Anredeformen (Sie / vous / lei) und Schweizer Idiomen
Tonlage je nach Branche: warm für Restaurants, deeskalierend bei negativen Bewertungen, professionell-empathisch im Gesundheitsbereich
Latenz: unter 5 Sekunden P95 — gute UX im Dashboard, wenn der Inhaber „Antwort generieren" klickt
Kosten: skalierbar bei SMB-Volumen (Hunderte bis Tausende Bewertungen pro Monat)

Wir optimieren nicht auf Geschwindigkeit alleine. Das schnellste Modell in unserem Test (gpt-4.1-mini, 1,2s) ist 2,5× schneller als unsere Wahl, aber generisch und ohne tiefe Erdung. Wir tauschen Geschwindigkeit gegen Qualität ein.

Was wir nicht offenlegen — und warum

Wir nennen hier nicht das Modell, das wir in Produktion verwenden. Wir evaluieren quartalsweise neu, und die Antwort auf „welches Modell ist das beste?" ändert sich, wenn neue Modelle erscheinen. Wir wollen wechseln können, ohne Marketing-Aussagen umzuschreiben. Der eigentliche Vorteil liegt im laufenden Eval-Prozess: Kriterien, Testfälle, manuelle Prüfungen und die Bereitschaft, Modelle zu wechseln. Methodik und Kriterien sind öffentlich, die Umsetzung ist unsere.

Was Sie mit StarReview bekommen

In unserem Mai-2026-Eval-Lauf erfüllte die Modellkonfiguration hinter StarReview unsere Schwelle: 0/53 verbotene Phrasen, 0 Em-Dashes und 0 erfundene operative Details; P95-Latenz unter 5 Sekunden in allen 6 getesteten Sprachen. Konkret heisst das:

Antworten, die wie ein echter Inhaber klingen — 37 sprachspezifische Filter blockieren AI-Floskeln vor Veröffentlichung
Geerdet in der konkreten Bewertung — bei der manuellen Sicherheitsprüfung 0/53 erfundene Details; mehrere nicht gewählte Modelle fügten operative Details hinzu
Multilinguale Schweizer Tonlage in DE-CH, FR-CH, IT-CH und Englisch — getestet auf 53 echten Bewertungen
Forbidden-Phrase-Filter mit 37 Patterns pro Sprache, gebaut aus identifizierten AI-Floskeln aus echten Schweizer Bewertungen
Quartalsweise Re-Evaluation — nächster Lauf August 2026; wenn ein neues Modell unsere Schwelle übertrifft, wechseln wir

Wie wir für Branchen-Spezifika abstimmen

Bewertungs-Antworten haben branchen-spezifische Risiken. Bei einer Arzt-Praxis geht es um das Schweizer Berufsgeheimnis (StGB Art. 321) und darum, was die Antwort über das Patientenverhältnis sagen darf. Bei einer Garage geht es um Reparatur-Versprechen ohne schriftliche Grundlage. Bei einem Restaurant um pauschale Hygiene-Aussagen ohne konkrete Massnahme.

StarReview ist pro Branche unterschiedlich abgestimmt:

Branchen-spezifische System-Prompts mit eingebauten Vorsichtsregeln
Branchen-spezifische Phrasen-Filter, die typische Risiko-Formulierungen zur menschlichen Freigabe markieren oder vor Veröffentlichung neu generieren lassen
Im Gesundheitswesen erfordern alle Antworten menschliche Freigabe, unabhängig vom Stern-Rating
Smoke-Tests bei jeder Modell-Aktualisierung gegen typische Failure-Modes pro Branche

Die genauen Patterns und Prompts geben wir nicht öffentlich bekannt. Das ist Teil unseres Wettbewerbs-Stacks. Methodik und Kriterien sind öffentlich; die konkrete Implementierung ist unsere.

Registrieren und 2 Monate gratis bei StarReview erhalten

Während wir auf die Google-API-Freigabe warten, sammeln wir Registrierungen.

Bis 31. Mai registrieren: 2 Gratismonate ab Juni für neue Bewertungen

Jetzt registrieren →