Mis à jour : 9 mai 2026 · Réévalué chaque trimestre

Méthodologie : comment nous choisissons l'IA derrière les réponses StarReview

Nous avons testé 13 modèles d'IA de pointe sur 53 vrais avis Google suisses dans 6 langues. Voici ce qui s'est passé, quels modèles ont atteint notre seuil et lesquels ne l'ont pas atteint.

Résultats clés

9 modèles sur 13 testés ont franchi notre seuil de conformité par règles (0 phrase interdite, 0 tiret cadratin sur 53 avis).
mistral-large disqualifié — tirets cadratins dans 42% (22/53) des réponses.
gpt-5 (Chat Completions) a ajouté des détails opérationnels absents de l'avis — une vraie responsabilité pour un outil de réponse public.
Plage de latence des modèles conformes : gpt-4.1-mini (1,2s P50) jusqu'à gemini-2.5-pro (13,3s P50).
Nous pondérons la sécurité + l'ancrage avant la vitesse brute — le choix de production est basé sur le profil complet de sécurité, qualité et latence.

Pourquoi la plupart des réponses IA aux avis Google sont mauvaises

La plupart des outils de réponse aux avis utilisent un LLM par défaut sans montrer comment ils l'ont choisi. Le résultat : des phrases corporate génériques. « Merci pour vos mots, votre satisfaction est notre priorité. » Ce genre de réponse nuit à la marque plus qu'il ne l'aide.

Une bonne réponse à un avis Google demande trois choses : l'ancrage dans ce que le client a réellement écrit (pas de détails inventés), une voix humaine naturelle dans la langue et le registre corrects, et la sécurité sur les avis juridiquement sensibles (pas d'aveu de responsabilité, pas de fuite de données). Quels modèles offrent cela n'apparaît pas dans les fiches techniques. Il faut tester.

Notre cadre de test

53 avis réels issus de profils PME suisses, anonymisés
6 langues : français (12), anglais (25), allemand (3), italien (11), portugais (1), chinois (1)
13 modèles de pointe — tous les modèles actuels d'OpenAI, Anthropic, Google, Mistral
Évaluation par règles : 37 motifs de phrases interdites par langue, détection de tirets cadratins, nombre de mots, latence
Examen manuel de sécurité sur les avis négatifs DE/FR, parce que les tests par règles ne mesurent pas l'ancrage ni le ton

Réserve sur l'échantillon : la base est restaurant-lourde et ne contient que 3 avis en allemand. La prochaine évaluation trimestrielle rééquilibrera vers une majorité d'avis suisses-allemands.

Les résultats dépendent du prompt, du mode d'API, de la date du test et du jeu d'évaluation. La conformité aux règles seule ne prouve pas l'aptitude à la production — c'est un seuil minimum.

Les 13 modèles testés

Triés par latence médiane. Une latence plus faible, moins de phrases interdites et zéro tiret cadratin sont préférables.

Modèle	Latence P50	Latence P95	Mots (médiane)	Interdits	Tirets cadratins	Statut
gpt-4.1-mini	1.2s	1.9s	37	0	0	propre
gpt-4.1	1.3s	3.0s	32	0	0	propre
claude-haiku-4-5	1.6s	2.0s	37	0	1	tiret cadratin en DE
mistral-large	1.9s	6.0s	42	0	22	tirets cadratins (42%)
gpt-5-codex	2.3s	4.0s	40	0	0	propre
gpt-5.2-codex	2.3s	5.1s	36	0	0	propre
claude-sonnet-4-6	3.1s	4.2s	43	0	0	propre
claude-opus-4-7	3.3s	5.4s	41	0	0	propre
gemini-2.5-flash	4.7s	7.0s	51	1	0	phrase interdite en DE
o4-mini	5.3s	12.3s	36	0	0	propre
gemini-3-pro-preview	10.1s	14.7s	40	0	0	propre
gpt-5	11.6s	22.7s	44	0	0	détails inventés (voir ci-dessous)
gemini-2.5-pro	13.3s	19.9s	37	0	0	propre

Ce que les données montrent — modes d'échec à signaler

mistral-large : tirets cadratins en spam

22 réponses sur 53 (42%) contenaient des tirets cadratins (—) ou demi-cadratins (–). C'est un signal IA classique qui détruit immédiatement l'effet « ressemble à un vrai humain ». Disqualifié.

gemini-2.5-flash : phrase interdite en DE

Gemini Flash a produit l'une de nos phrases-clichés interdites (« nous savons à quel point c'est important... ») dans une des trois réponses en allemand. Avec seulement 3 tests DE, 1 incident est un pourcentage élevé.

claude-haiku-4-5 : tiret cadratin en DE

Une réponse en allemand contenait un tiret cadratin. Marginal, mais suffisant pour faire sortir Haiku du peloton de tête en conformité.

Un modèle de raisonnement : détails opérationnels inventés

Dans notre exécution, cela concernait gpt-5 via Chat Completions. Le modèle a produit des réponses conformes aux règles, mais a ajouté des détails qui n'étaient pas dans l'avis. Sur un avis FR 2★ concernant un brunch : « Nous avons revu la formule à 32 CHF : pain artisanal, jambon de meilleure coupe, omelette plus généreuse... » — aucun de ces éléments n'était dans l'avis. Pour un outil de réponse public, c'est un vrai risque : le propriétaire ne peut pas prétendre publiquement avoir fait des choses qu'il n'a jamais faites. Ce n'est pas un jugement général sur le modèle — c'est un résultat pour ce prompt, cette configuration API et cette tâche.

Seul un petit nombre de modèles a atteint notre seuil

Sur 13 modèles testés, 9 ont franchi la barre de la conformité par règles (0 phrase interdite, 0 tiret cadratin). Après l'examen manuel de sécurité — qui teste l'ancrage, le ton et la véracité — l'ensemble s'est encore réduit.

Nous ne divulguons pas publiquement quel modèle nous utilisons en production. Cela fait partie de notre position concurrentielle. Ce qui est public, c'est notre méthodologie, nos critères et nos données — vérifiables et reproductibles.

Nos critères de sélection

Nous évaluons les modèles selon ces critères, dans cet ordre :

Sécurité : pas d'invention, pas d'aveu de responsabilité, pas de fuite de données sur d'autres clients ou employés
Ancrage dans l'avis : les réponses reprennent ce que le client a réellement écrit. Pas de phrases génériques, pas de détails inventés.
Multilinguisme suisse : qualité constante en DE-CH, FR-CH, IT-CH, avec les registres corrects (Sie / vous / lei) et les idiomes suisses
Adéquation du ton par secteur : chaleureux pour les restaurants, désamorçant sur les avis négatifs, professionnel-empathique en santé
Latence : sous 5 secondes P95 — bonne UX dans le tableau de bord quand le propriétaire clique sur « générer une réponse »
Coût : viable au volume PME (centaines à milliers d'avis par mois)

Nous n'optimisons pas la vitesse pure. Le modèle le plus rapide de notre test (gpt-4.1-mini, 1,2s) est 2,5× plus rapide que notre choix, mais générique et superficiel sur l'ancrage. Nous échangeons de la vitesse contre de la qualité.

Ce que nous ne divulguons pas — et pourquoi

Nous ne nommons pas le modèle que nous utilisons en production. Nous réévaluons chaque trimestre, et la réponse à « quel est le meilleur modèle ? » change quand de nouveaux modèles arrivent. Nous voulons pouvoir changer sans réécrire nos affirmations marketing. Le véritable avantage est dans le processus d'évaluation continu : critères, cas de test, examen manuel et la volonté de changer de modèle. La méthodologie et les critères sont publics ; l'implémentation est la nôtre.

Ce que vous obtenez avec StarReview

Dans notre exécution d'évaluation de mai 2026, la configuration de modèle derrière StarReview a satisfait notre seuil : 0/53 phrases interdites, 0 tiret cadratin et 0 détail opérationnel inventé ; latence P95 inférieure à 5 secondes dans les 6 langues testées. Concrètement :

Des réponses qui ressemblent à un vrai patron — 37 filtres par langue bloquent les clichés IA avant publication
Ancrées dans l'avis réel — 0/53 détails inventés à l'examen manuel de sécurité ; plusieurs modèles non choisis ont ajouté des détails opérationnels
Ton multilingue suisse en DE-CH, FR-CH, IT-CH et anglais — testé sur 53 vrais avis
Filtres de phrases interdites avec 37 motifs par langue, construits à partir de clichés IA identifiés dans de vrais avis suisses
Réévaluation trimestrielle — prochaine exécution août 2026 ; nous changeons si un nouveau modèle dépasse notre seuil

Comment nous réglons par secteur

Les réponses aux avis comportent des risques propres au secteur. Pour un cabinet médical, il s'agit du secret professionnel suisse (art. 321 CP) et de ce que la réponse peut dire de la relation patient. Pour un garage, il s'agit de promesses de réparation sans accord écrit. Pour un restaurant, d'assurances générales d'hygiène sans mesure concrète.

StarReview est réglé différemment selon le secteur :

Prompts système spécifiques au secteur, avec des règles de prudence intégrées
Filtres de phrases spécifiques au secteur, qui dirigent les formulations à risque vers la validation humaine ou les font régénérer avant publication
Dans le secteur de la santé, chaque réponse exige une validation humaine, indépendamment de la note en étoiles
Tests de fumée à chaque mise à jour du modèle, contre les modes d'échec typiques par secteur

Nous ne publions pas les motifs et prompts exacts. Cela fait partie de notre stack concurrentielle. La méthodologie et les critères sont publics ; la mise en œuvre concrète est la nôtre.

Inscrivez-vous et recevez 2 mois gratuits chez StarReview

Pendant que nous attendons l'approbation de l'API Google, nous collectons les inscriptions.

Inscrivez-vous avant le 31 mai : 2 mois gratuits dès juin pour les nouveaux avis

S'inscrire maintenant →