LA FASE DI CONFIGURAZIONE

La fase di raccolta, di norma, avviene tramite un crawler, cioè una tecnologia che opportunamente configurata è in grado di raccogliere in modo automatico e periodico le discussioni che potrebbero interessare la nostra analisi.

Il motore di raccolta richiede quindi una configurazione fatta da esseri umani, che devono tradurre correttamente i bisogni informativi. Un motore configurato male non riporta a casa tutto quello che si è detto della nostra marca, e si potrebbe essere dimenticato di intercettare qualcosa di rilevante emerso negli ultimi giorni. I principi di configurazione riguardano a) le parole chiave, che afferiscono al territorio dell’analisi (ad es. la marca, il nome del prodotto ecc), b) l’arco di tempo nell’ambito del quale raccoglieremo tutte le discussioni che potrebbero riguardare il nostro prodotto c) eventualmente, le fonti dalle quali vogliamo attingere le discussioni.

La configurazione, per semplificare, viene impartita secondo comandi booleani (lo stesso modo con il quale si possono configurare ricerche avanzate con Google), e questa attività è appannaggio di essere umani, che devono essere in grado di tradurre i bisogni informativi nella definizione di un territorio di ricerca. Un’errata impostazione booleana, o la dimenticanza di un termine, restituiranno un risultato parziale.

In merito all’arco di tempo dell’analisi, abbiamo riscontrato molte diverse metodologie. Ogni discussione di un utente ha di solito un tag/riferimento temporale, una data che può essere gestita dal motore di raccolta per ordinarne la cronologia. Alcune società riescono ad effettuare analisi retroattive nel tempo, molto utili ad effettuare valutazioni a posteriori del tenore delle opinioni, altre sono in grado di effettuare un’analisi prospettica, cioè delle discussioni che si genereranno dal momento in cui si avvia l’analisi.

Dal punto di vista metodologico è bene sottolineare che le analisi retroattive possono offrire un’evidenza di tutto quello che ancora risiede su Internet, e non si può escludere che effettuando una raccolta oggi non si riesca ad intercettare una discussione importante che abbia avuto luogo sei mesi fa, perché nel frattempo è stata rimossa dal blogger. Raccogliere le discussioni al passato richiede un buon motore di ricerca, che se adeguato è in grado di intercettare tassi prossimi al 100% di ciò che permane in rete a riguardo del nostro prodotto. Nelle analisi prospettiche, la probabilità che non tutte le fonti nelle quali si può generare una discussione nuova tende ad elevarsi notevolmente, e i mezzi tecnologici a cui fare ricorso per ovviare a questo anche. Per cui, i fornitori di questa soluzione prospettica di analisi tendono a premettere che non riusciranno a garantire una copertura assoluta di quanto di nuovo potrebbe scaturire nell’infinità di Internet, e a preferire un’analisi che preveda la pre-impostazione di un numero definito di fonti da sondare, e sempre quello. Questo approccio, in alcuni casi, richiede che il motore di raccolta sia configurato anche rispetto alle fonti per rendere al meglio.

Per nostra esperienza nessuna soluzione è in grado di garantire l’intercettazione assoluta di nuove fonti in tempo reale, aspetto particolarmente importante quando l’analisi deve fornire informazione di alert per criticità emergenti, e per conseguire questo risultato è necessario sempre effettuare delle verifiche incrociate con Google, o un motore di ricerca equivalente in termini di efficacia. Questa è la ragione per la quale alcuni vendor di SW di analisi di sentiment su Internet hanno preferito rinunciare allo sviluppo di un motore di raccolta equivalente a Google, impiegano proprio lui per la fase iniziale, o allertano il cliente sulla parzialità della propria capacità di copertura. Ciò implica che alcuni fornitori sono adeguati alle analisi di alert estese a tutto Internet, alcuni a quelle all’interno solo di un set di fonti pre-definiti, alcuni che non lo sono affatto. Ancora una volta dipende dai bisogni informativi dell’azienda.

Un’ultima questione riguarda la possibilità di effettuare una raccolta dei post basata su un campionamento. Dalle esplorazioni da noi effettuate sembrerebbe che esista una difficoltà nel soddisfare un approccio molto utile e anche conveniente. Se infatti assumiamo che i fenomeni che dovremo analizzare, prima di essere un’informazione qualitativa, sono un valore quantitativo, effettuare una selezione a campione delle discussioni inerenti un prodotto nell’arco di un dato periodo potrebbe consentire secondo i principi della statistica una generalizzazione del risultato al totale delle discussioni pubblicate. E fin qui nessun problema. Se però consideriamo che la distribuzione e la caratterizzazione di queste discussioni potrebbe essere funzione della tipologia delle fonti, l’approccio campionario si complica. Infatti, di un’automobile si potrebbe discutere in modo generico e superficiale in siti a grande traffico (ad es. Youtube), e in modo peculiare e tecnicistico in blog per appassionati, e frequentati da quattro gatti. Di norma esiste una distribuzione secondo la quale la maggior parte delle discussioni prende luogo nel numero minore di fonti.

Quindi il campionamento delle discussioni dovrebbe essere effettuato non solo per caratteri quantitativi (numero significativo di post rispetto al totale), ma effettuare un campionamento che tenga conto anche delle fonti che hanno una significatività rispetto alle categorie di fonti che ospitano discussioni di quel dato modello di auto. A meno che l’azienda decida di analizzare in termini campionari solo un raggruppamento di fonti, cosa fattibile e a volte raccomandabile.

Questo approccio, che sembra costituire un problema in termini di  soluzioni offerte, sarebbe estremamente importante per consentire un’analisi di grandi fenomeni in breve tempo, in particolare laddove la fase di lettura e codifica è demandata a persone, e non a tecnologie, come vedremo più avanti.

Per riassumere a riguardo della configurazione:

  • la configurazione di raccolta viene impartita da persone ad una tecnologia, una buona configurazione è più di metà dell’opera;
  • un’analisi può essere condotta in modo retroattivo sulle discussioni che sono rimaste rispetto a quelle originariamente postate, o su quelle prospettiche per intercettare gli eventi come essi avvengono;
  • intercettare gli eventi che avvengono su Internet e su diverse fonti richiede la consapevolezza che nessun motore è in grado di garantirne la copertura assoluta, quindi di definire cosa di minimo ci si potrà attendere in termini di capacità di intercettare i fenomeni, o viceversa definire il territorio di analisi pre-impostando le fonti che sono oggetto dell’analisi prospettica.

[button link=”/2011/03/le-analisi-delle-discussioni-spontanee-degli-utenti-su-internet-pro-e-contro-parte-3/”] Continua[/button]