Aggiornato: 9 maggio 2026 · Rivalutato ogni trimestre

Metodologia: come scegliamo l'IA dietro le risposte StarReview

Abbiamo testato 13 modelli IA di frontiera contro 53 vere recensioni Google svizzere in 6 lingue. Ecco cosa è successo, quali modelli hanno raggiunto la nostra soglia e quali no.

Risultati chiave

9 modelli su 13 testati hanno superato la nostra soglia di conformità basata su regole (0 frasi vietate, 0 trattini lunghi su 53 recensioni).
mistral-large squalificato — trattini lunghi nel 42% (22/53) delle risposte.
gpt-5 (Chat Completions) ha aggiunto dettagli operativi non presenti nella recensione — una vera responsabilità per uno strumento di risposta pubblico.
Intervallo di latenza dei modelli conformi: gpt-4.1-mini (1,2s P50) fino a gemini-2.5-pro (13,3s P50).
Pesiamo sicurezza + aderenza più della velocità grezza — la scelta di produzione si basa sul profilo completo di sicurezza, qualità e latenza.

Perché la maggior parte delle risposte IA alle recensioni Google sono pessime

La maggior parte degli strumenti di risposta alle recensioni usa un LLM di default senza mostrare come l'ha scelto. Il risultato: frasi corporate generiche. «Grazie per le tue parole, la tua soddisfazione è la nostra priorità.» Risposte così danneggiano il marchio invece di aiutarlo.

Una buona risposta a una recensione Google richiede tre cose: aderenza a ciò che il cliente ha effettivamente scritto (niente dettagli inventati), una voce umana naturale nella lingua e nel registro corretti, e sicurezza sulle recensioni legalmente delicate (nessuna ammissione di responsabilità, nessuna fuga di dati). Quali modelli forniscono questo non si vede nelle schede tecniche. Bisogna testare.

Il nostro setup di test

53 recensioni reali da profili PMI svizzeri, anonimizzate
6 lingue: francese (12), inglese (25), tedesco (3), italiano (11), portoghese (1), cinese (1)
13 modelli di frontiera — tutti i modelli attuali di OpenAI, Anthropic, Google, Mistral
Valutazione basata su regole: 37 pattern di frasi vietate per lingua, rilevazione trattini lunghi, conteggio parole, latenza
Verifica manuale di sicurezza sulle recensioni negative DE/FR, perché i test basati su regole non misurano aderenza e tono

Avvertenza sul campione: il dataset è dominato dai ristoranti e contiene solo 3 recensioni in tedesco. La prossima valutazione trimestrale riequilibrerà verso una maggioranza di recensioni svizzero-tedesche.

I risultati dipendono dal prompt, dalla modalità API, dalla data del test e dal set di valutazione. La conformità alle regole da sola non prova l'idoneità alla produzione — è una soglia minima.

I 13 modelli testati

Ordinati per latenza mediana. Latenza più bassa, meno frasi vietate e zero trattini lunghi sono meglio.

Modello	Latenza P50	Latenza P95	Parole (mediana)	Vietate	Trattini lunghi	Stato
gpt-4.1-mini	1.2s	1.9s	37	0	0	pulito
gpt-4.1	1.3s	3.0s	32	0	0	pulito
claude-haiku-4-5	1.6s	2.0s	37	0	1	trattino lungo in DE
mistral-large	1.9s	6.0s	42	0	22	trattini lunghi (42%)
gpt-5-codex	2.3s	4.0s	40	0	0	pulito
gpt-5.2-codex	2.3s	5.1s	36	0	0	pulito
claude-sonnet-4-6	3.1s	4.2s	43	0	0	pulito
claude-opus-4-7	3.3s	5.4s	41	0	0	pulito
gemini-2.5-flash	4.7s	7.0s	51	1	0	frase vietata in DE
o4-mini	5.3s	12.3s	36	0	0	pulito
gemini-3-pro-preview	10.1s	14.7s	40	0	0	pulito
gpt-5	11.6s	22.7s	44	0	0	dettagli inventati (vedi sotto)
gemini-2.5-pro	13.3s	19.9s	37	0	0	pulito

Cosa mostrano i dati — modi di fallimento da segnalare

mistral-large: spam di trattini lunghi

22 risposte su 53 (42%) contenevano trattini lunghi (—) o medi (–). È un classico segnale IA che distrugge subito l'effetto «sembra una persona vera». Squalificato.

gemini-2.5-flash: frase vietata in DE

Gemini Flash ha prodotto una delle nostre frasi-cliché vietate («sappiamo quanto sia importante...») in una delle tre risposte in tedesco. Con solo 3 test DE, 1 caso è una percentuale alta.

claude-haiku-4-5: trattino lungo in DE

Una risposta in tedesco conteneva un trattino lungo. Marginale, ma sufficiente a far uscire Haiku dal gruppo di testa per conformità.

Un modello di ragionamento: dettagli operativi inventati

Nella nostra esecuzione questo ha riguardato gpt-5 via Chat Completions. Il modello ha prodotto risposte conformi alle regole, ma ha aggiunto dettagli che non erano nella recensione. Su una recensione FR 2★ riguardante un brunch: «Nous avons revu la formule à 32 CHF: pain artisanal, jambon de meilleure coupe, omelette plus généreuse...» — nessuno di questi punti era nella recensione. Per uno strumento di risposta pubblico è un rischio reale: il titolare non può dichiarare pubblicamente di aver fatto cose che non ha mai fatto. Non è un giudizio generale sul modello — è un risultato per questo prompt, questa configurazione API e questo compito.

Solo un piccolo gruppo di modelli ha raggiunto la nostra soglia

Su 13 modelli testati, 9 hanno superato la conformità basata su regole (0 frasi vietate, 0 trattini lunghi). Dopo la verifica manuale di sicurezza — che testa aderenza, tono e veridicità — il gruppo si è ulteriormente ridotto.

Non comunichiamo pubblicamente quale modello usiamo in produzione. Fa parte della nostra posizione competitiva. Ciò che è pubblico è la nostra metodologia, i nostri criteri e i nostri dati — verificabili e riproducibili.

I nostri criteri di selezione

Valutiamo i modelli secondo questi criteri, in questo ordine:

Sicurezza: niente invenzioni, niente ammissioni di responsabilità, niente fughe di dati su altri clienti o personale
Aderenza alla recensione: le risposte riprendono ciò che il cliente ha effettivamente scritto. Niente frasi generiche, niente dettagli inventati.
Multilinguismo svizzero: qualità costante in DE-CH, FR-CH, IT-CH, con i registri corretti (Sie / vous / lei) e gli idiomi svizzeri
Tono adatto al settore: caloroso per i ristoranti, conciliante sulle recensioni negative, professionale-empatico in ambito sanitario
Latenza: sotto i 5 secondi P95 — buona UX nella dashboard quando il titolare clicca «genera risposta»
Costo: sostenibile a volume PMI (centinaia o migliaia di recensioni al mese)

Non ottimizziamo solo sulla velocità. Il modello più veloce nel nostro test (gpt-4.1-mini, 1,2s) è 2,5× più veloce della nostra scelta, ma generico e poco aderente. Scambiamo velocità con qualità.

Cosa non comunichiamo — e perché

Non nominiamo il modello che usiamo in produzione. Rivalutiamo ogni trimestre, e la risposta a «qual è il miglior modello?» cambia quando ne arrivano di nuovi. Vogliamo poter cambiare senza riscrivere le affermazioni di marketing. Il vero vantaggio è nel processo di valutazione continuo: criteri, casi di test, revisione manuale e disponibilità a cambiare modello. Metodologia e criteri sono pubblici; l'implementazione è nostra.

Cosa ottieni con StarReview

Nella nostra esecuzione di valutazione di maggio 2026, la configurazione del modello dietro StarReview ha soddisfatto la nostra soglia: 0/53 frasi vietate, 0 trattini lunghi e 0 dettagli operativi inventati; latenza P95 sotto i 5 secondi in tutte le 6 lingue testate. Concretamente:

Risposte che suonano come un vero titolare — 37 filtri per lingua bloccano i cliché IA prima della pubblicazione
Aderenti alla recensione reale — 0/53 dettagli inventati nella verifica manuale di sicurezza; diversi modelli non scelti hanno aggiunto dettagli operativi
Tono multilingue svizzero in DE-CH, FR-CH, IT-CH e inglese — testato su 53 recensioni reali
Filtri di frasi vietate con 37 pattern per lingua, costruiti da cliché IA identificati in vere recensioni svizzere
Rivalutazione trimestrale — prossima esecuzione agosto 2026; cambiamo se un nuovo modello supera la nostra soglia

Come adattiamo per le specificità di settore

Le risposte alle recensioni hanno rischi specifici per settore. Per uno studio medico si tratta del segreto professionale svizzero (art. 321 CP) e di cosa la risposta può dire del rapporto con il paziente. Per un'autofficina si tratta di promesse di riparazione senza accordo scritto. Per un ristorante, di garanzie generiche sull'igiene senza una misura concreta.

StarReview è adattato in modo diverso per settore:

Prompt di sistema specifici per settore con regole di prudenza integrate
Filtri di frasi specifici per settore che instradano formulazioni a rischio alla validazione umana o le fanno rigenerare prima della pubblicazione
Nel settore sanitario ogni risposta richiede validazione umana, indipendentemente dal punteggio a stelle
Smoke test a ogni aggiornamento del modello contro le tipiche modalità di fallimento per settore

Non pubblichiamo i pattern e i prompt esatti. Fa parte del nostro stack competitivo. Metodologia e criteri sono pubblici; l'implementazione concreta è nostra.

Registrati e ricevi 2 mesi gratis con StarReview

Mentre aspettiamo l'approvazione dell'API di Google, raccogliamo le registrazioni.

Registrati entro il 31 maggio: 2 mesi gratis da giugno per le nuove recensioni

Registrati ora →