Cornell University: trovato un nuovo algoritmo per identificare le recensioni false

leggi l’articolo completo...Albergatori che scrivono ottimi commenti per scalare le classifiche di TripAdvisor e commenti meno lusinghieri per danneggiare i competitor, recensioni chiaramente errate che l’hotel chiede inutilmente di rimuovere, recensioni false redatte a pagamento, e chi più ne ha più ne metta: non sembra che all’attivo si siano individuate soluzioni per risolvere la questione tanto dibattuta delle recensioni false sui siti di recensioni come TripAdvisor.

È proprio per trovare una risposta alla perdita di trasparenza e di attendibilità del sistema fondante dei siti di reviews, che alcuni dottorandi della Cornell University hanno pubblicato un innovativo algoritmo per individuare le recensioni alberghiere “ingannevoli”, ovvero le opinioni false scritte in modo e maniera da apparire autentiche (“deceptive opinion spam”). Si tratta in pratica di quelle che inquinano maggiormente il ranking di siti come TripAdvisor, scritte per lo più da albergatori o aziende pagate per migliorare la brand reputation di un’attività.

Lo studio rivela dati molto interessanti: in particolare, è stato condotto in modo da fare un raffronto tra la capacità umana e quella delle macchine di distinguere le recensioni vere da quelle false, con risultati davvero sorprendenti.

Combinando l’utilizzo di raffinate nozioni informatiche, di analisi non solo puramente semantiche, ma anche linguistiche e psicologiche, Myle Ott, Yejin Choi e Claire Cardie del dipartimento di Computer Science – Computational Linguistics della Cornell, hanno sviluppato un algoritmo che nei test condotti in grado di identificare le recensioni false con un’accuratezza pari all’89.9%.

Step 1: L’uomo non è capace di distinguere le recensioni vere da quelle false

Come primo passo dell’analisi è stato chiesto a un gruppo di individui di scrivere 400 recensioni su 20 hotel di Chicago in cui non hanno mai soggiornato, e dunque recensioni che, se pur verosimili, erano false. Queste sono state combinate con un egual numero di recensioni veritiere e poi sottoposte a diverse persone (studenti della Cornell), perché distinguessero le une dalle altre.

Dall’analisi è risultato che nessuno di loro è stato in grado di fornire una distinzione adeguata. Le loro risposte sono state tanto accurate quanto lo sarebbero state se avessero tirato a caso.

Secondo Myle Ott, questo è spiegabile secondo il principio già scientificamente dimostrato per cui gli esseri umani soffrono di una forma di “pregiudizio sulla verità”, per cui tendono a credere che tutto quello che leggono sia vero almeno che non vi siano prove evidenti del contrario. Quando ciò accade e vengono messi in guardia, gli individui super-compensano l’errore e diventano iper-scettici, denunciando un numero troppo elevato di falsità. In entrambi i casi, non sono obiettivi e raggiungono sempre un risultato errato, nell’uno o nell’altro senso.

In conclusione, contrariamente a quanto si possa comunemente pensare, l’uomo non è in grado di distinguere le recensioni vere da quelle ingannevoli e verosimili, e da questo si può dedurre che il sistema delle recensioni on-line sia più facile da manipolabile da chiunque scriva recensioni false per controllare il ranking a proprio favore.

Come riporta lo studio “Se le performance umane [nell’identificare le recensioni false] sono scarse, allora significa che le nostre recensioni ingannevoli sono convincenti e dunque, meritano una maggiore attenzione.”

Step 2: Il computer può identificare le recensioni false con un’accuratezza pari al 90%

Nello step successivo i ricercatori hanno sottoposto le 800 recensioni ai diversi algoritmi messi a punto e testati: al contrario dell’essere umano, il computer impostato con un algoritmo che combina analisi semantica e dati psicologici, è stato capace di dare un risultato decisamente migliore, con un’accuratezza di distinzione pari a circa il 90%.

Chi scrive una recensione falsa (senza aver realmente soggiornato in un luogo) ha difficoltà a collocare l’esperienza in senso spaziale e quindi si concentra maggiormente su fattori esterni all’hotel (“vacation”, “business trip”, “my husband”), mentre chi ha soggiornato davvero nella struttura è in grado di fornire dati più concreti, che concernono le stanze, le dimensioni, i luoghi dell’hotel ( “bathroom”, “check-in”, “price”).

Diversamente rispetto a precedenti studi, qui le recensioni ingannevoli sembrano essere correlate con un maggior numero di termini positivi piuttosto che negativi e vi si fa un buon uso della prima persona singolare. Questo dovrebbe spingere ad andare al di là della mera identificazione di un set di caratteristiche che indicano la falsità di un commento, prendendo in considerazione anche lo stato psicologico e contestuale in cui questo viene scritto.

Un primo passo rendere più attendibili i siti di recensioni turistiche

Lo studio condotto dalla Cornell, finanziato dalla National Science Foundation e sostenuto da uno spontaneo contributo di Google e di altre aziende, costituisce senza dubbio un importante primo passo nello studio di nuovi sistemi automatici per individuare di recensioni false ed apre la strada a nuovi studi nello stesso ambito.

Il lavoro svolto dalla Cornell non termina qui, e presto sarà testato anche per altre destinazioni e per altri settori, come quello della ristorazione.

Una cosa è certa: se lo strumento fosse affinato, potrebbe costituire una buona soluzione per correggere il tiro dei siti come TripAdvisor e per renderli molto più attendibili, trasprenti e difficilmente inquinabili. “Credo che il nostro approccio – ha dichiarato Ott – potrebbe realmente aiutare i siti di recensioni a identificare ed eliminare le recensioni fraudolente.”

Il software potrebbe essere infatti un perfetto “primo filtro” per identificare gli hotel con maggioranza di recensioni dubbie, su cui svolgere ulteriori accertamenti.

Questo andrebbe a vantaggio di tutti – conclude Ott – gli utenti hanno bisogno di recensioni affidabili e gli hotel di un buon feedback per capire come migliorare i propri servizi.”

Fonte: Cornell University