LA FASE DI CODIFICA

Il risultato della raccolta consiste in un insieme di dati grezzi, costituito da post, discussioni, thread, organizzati per data e per fonte, al cui interno si presuppone si trovino riferimenti all’oggetto dell’analisi. 

Questi dati grezzi consistono in un insieme di informazioni che per essere analizzati ed interpretati richiedono un processo di codifica, cioè l’attribuzione di ciascuno di essi ad un sistema organizzato dell’informazione, per categorie, significati ecc

Le soluzioni oggi disponibili prevedono tra di esse in questa particolare fase del processo profonde differenze di metodologia e di risultati.

Il primo approccio è quello che prevede l’analisi testuale delle discussioni condotta da un motore semantico, una tecnologia molto complessa che grazie ad un algoritmo proprietario e in continua evoluzione e miglioramento, permette la “lettura” dei contenuti dei post e ne effettua una codifica automatizzata. Questo processo informatico è particolarmente sofisticato, perché ad esso è richiesto di effettuare analisi di significati ambigui nel contesto di una sintassi (ad esempio la parola “calcio” come sport, come elemento chimico, o come azione), di analizzare efficacemente forme gergali, assai frequenti su Internet, o dirimere figure retoriche, di cui ad esempio la lingua italiana è affollatissima. Ma è anche necessario attribuire un grado di giudizio a riguardo dell’opinione espressa, se positiva, neutra, o negativa a riguardo del dato prodotto, quando in molti casi, all’interno di una stessa frase è possibile riscontrare entrambi i gradi di giudizio (ad es. questa cosa è la migliore, ma se la usi così non funziona)

Il software semantico deve quindi sostituirsi alla funzione di un essere umano, nella capacità di trarre da un contesto il reale significato della frase, e “archiviare” lo stesso come inerente agli obiettivi dell’analisi, oltre ad attribuirne un fattore di giudizio positivo o negativo.

L’efficacia dei motori semantici è materia molto articolata e complessa, è una scienza in grandissima evoluzione, e che interessa numerosi ambiti di applicazione e imponenti investimenti di ricerca e sviluppo, che riportano allo studio dell’intelligenza artificiale, ad alcune discipline della psicologia cognitivista, ma anche allo sfruttamento di modelli di apprendimento dell’esperienza come le reti neurali.

Per nostra esperienza è molto difficile stabilire l’affidabilità di un motore semantico in un’analisi delle discussioni online, se non dopo averlo provato e averne constatato l’accuratezza della codifica o, viceversa, il margine di errore nell’analisi testuale da esso condotta.

Le proposte che oggi si orientano a questa metodologia, pur offrendo soluzioni avanzatissime ed evolute, se da un lato promettono la totale automatizzazione dei processi di codifica, con innegabili risvolti di costi e tempi dell’analisi inferiori a quelle di altre modalità che vedremo in seguito, dall’altro sono tutt’altro che precise ed esaustive nei propri risultati. Non stiamo dicendo che le soluzioni semantiche non siano appropriate, ma ancora una volta, che la loro applicazione sia definita all’interno degli obiettivi informativi e di quello che l’azienda si aspetta o deve essere consapevole di doversi attendere. La nostra esperienza è che, mentre la R&S dell’analisi semantica tramite tecnologie informatiche si evolve a passi da gigante grazie all’ampliamento delle competenze e delle potenze computazionali, ad oggi un approccio semantico totalmente ed unicamente demandato alla tecnologie assolve efficacemente obiettivi di analisi di alto livello, cioè può fornire un’adeguata sgrossatura del materiale raccolto ed indicatori quantitativi su macro categorie di codifica, pur essendo consapevoli che a questo livello sarà necessario sottintendere un margine d’errore definito.

Di norma nell’applicazione di un’analisi semantica tramite tecnologia informatica, si è soliti effettuare degli interventi di configurazione del contesto di analisi per migliorare la precisione, sia a riguardo dei temi trattati, sia delle fonti esplorate, che in molti casi tendono ad essere pre-definite per questo tipo di metodologia, a causa della complessità e del notevole tempo di calcolo necessario per condurre l’analisi. Non è sempre vero ma, comunemente, una soluzione di analisi semantica informatica è poco affine alle analisi di alert, cioè che tendono a privilegiare l’intercettazione di nuovi eventi su tutto il novero delle fonti Internet. In questo ambito, quindi, l’intervento e le competenze di persone sono di alto livello e riguardano la configurazione e calibratura del motore semantico sulle esigenze dell’analisi e del cliente.

Un secondo approccio per l’attività di codifica del materiale grezzo raccolto è quello che prevede il coinvolgimento di analisti cioè persone che, opportunamente formate e in grado di comprendere i significati all’interno di diversi idiomi, leggono le discussioni ed effettuano una codifica delle stesse nell’ambito di un albero di categorizzazione, non dissimile da un’attività di codifica di risposte aperte all’interno di una ricerca statistica quantitativa.

Fatte le dovute premesse a riguardo delle necessarie competenze del field, gli analisi operano tramite un sistema informatico che permette a loro di setacciare le discussioni raccolte dal motore nella prima fase, interpretare i significati al fine di conservare le discussioni inerenti l’oggetto del lavoro, e imputare le discussioni con i relativi termini alle categorie pre-definite. La grande importanza di questa metodologia consiste nella definizione preliminare all’analisi di un sistema di categorie ad albero che diventerà il sistema di riferimento per la codifica delle discussioni. Questo richiede di progettare un frame di lettura dei propri fenomeni, quindi la possibilità di vedere i risultati dell’analisi organizzati in una certa modalità secondo un modello imposto di organizzazione degli stessi, che come tale può essere molto efficace, esserlo solo per brevi periodi, o non esserlo affatto. Uno dei principali problemi, e che richiede l’intervento iniziale, è quello di concepire un sistema di categorizzazione dei risultati che “tenga” nel tempo, cioè la cui capacità di organizzare i fenomeni non sia suscettibile a variazioni o modifiche. Se ovviamente stabiliamo che alcune categorie di codifica dipendano da altre, non potremo modificarne la gerarchia, se non a scapito di una loro non confrontabilità nel tempo, cioè il rischio che si possa perdere il valore informativo dato dall’andamento del fenomeno su quelle stesse categorie.

La lettura e codifica effettuata da esseri umani, se da un lato garantisce una maggiore affidabilità del risultato di interpretazione testuale del significato – è sempre consigliata la conduzione di verifiche a posteriori sulla qualità -, e un impiego dei risultati dell’analisi molto granulare, qualitativo e approfondito, dall’altro ha notevoli implicazioni di natura economica ed operativa sul progetto di ricerca.

Un field di analisti deve essere dimensionato in funzione della numerosità di discussioni che dovranno essere lette e codificate nell’arco di tempo di pubblicazione delle discussioni (ad esempio le discussioni degli ultimi 30 giorni sono 4.000), e del tempo massimo entro il quale l’azienda necessita di avere il risultato, fattore che può comportare un notevole dispiego contemporaneo di risorse. L’analisi condotta con analisti è quindi per definizione un’attività per nulla scalabile, il cui costo cresce quasi proporzionalmente al crescere della dimensione quantitativa dei fenomeni da analizzare, e che richiede una definizione preventiva delle risorse in campo, che è funzione del fronte di analisi.

A questo proposito, la selezione di un campione di discussioni potrebbe agevolare lo scopo di analizzare grandi fenomeni intercettando un numero significativo di eventi e generalizzando questi risultati al tutto, contenendo enormemente i costi. Ma come già affrontato, esistono problemi ad applicare questo approccio ad un’analisi estesa e totalitaria delle fonti.

 

Per riassumere a riguardo della fase di codifica:

  • le analisi testuali condotte da motori semantici si stanno evolvendo, non offrono ancora grande accuratezza, se non configurando l’analisi per un set ristretto di fonti di osservazione, o impiegandoli per analisi di alto livello;
  • la categorizzazione dei risultati di un’analisi condotta tramite motore semantico può essere impartita come configurazione iniziale, o “aiutata” a valle della fase di codifica;
  • la codifica effettuata da analisti, è più accurata ed esaustiva in termini di principio, ma comporta costi e tempi pressoché proporzionali alla dimensione dei fenomeni da analizzare;
  • la codifica di persone richiede la definizione a priori di un sistema di categorizzazione dei risultati che costituisce la modalità attraverso la quale l’azienda leggerà i fenomeni rilevati;
  • entrambe le metodologie richiedono controlli di qualità sull’efficacia di interpretazione dei significati e sulle modalità di codifica.

[button link=”/2011/03/le-analisi-delle-discussioni-spontanee-degli-utenti-su-internet-pro-e-contro-parte-4/”] Continua[/button]