I Big Data hanno due sensi

“Il futuro è aperto” diceva il filosofo austriaco Karl Popper riferendosi alle conseguenze delle nostre scelte, credendo che non fosse possibile pianificare le future scoperte intellettuali. Se fosse ancora vivo, immaginiamo che davanti all’home page di Google avrebbe esclamato: “Anche il passato è aperto”.

Difatti, questo strumento permette di trovare tantissimi dati che potrebbero falsificare la propria ipotesi, ossia sottoporla a un infinito processo di controllo che non giunge mai a una verità definita.
Google è un microscopio rivolto al passato che azzera i costi e i tempi della ricerca tra i dati e la rende alla portata di tutti.

Resta il tema centrale: con quale metodo troviamo i dati?

Sappiamo che la predizione è un’affermazione su eventi che devono ancora avvenire, mentre esistono due particolari metodi per descrivere un evento del passato: la retrodizione e la spiegazione.
La retrodizione è una speculazione su un evento che è accaduto nel passato ma che adesso (nel presente) mostra le sue conseguenze da cui bisogna partire per l’analisi (read backward).
E’ come se un ragno (spider) cercasse di ricostruire tutti i nodi della ragnatela (web) partendo dal risultato finale (il presente). Le connessioni tra gli eventi (link) esistevano nella realtà del passato ma oggi, anche grazie a questi strumenti, si palesano. 
Per esempio, l’esame con il Carbonio-14 ci dà una retrodizione su quando, in un dato intervallo, un evento è accaduto ma non ce ne spiega il motivo. Dobbiamo ricorrere a congetture per capire le cause delle attuali evidenze.

Nella spiegazione, invece, c’è la classica ricostruzione del percorso a partire dai dati iniziali fino alle conseguenze che si evidenziano (è la direzione della storia: read forward).

  Retrodizioni

Tabella_retrodizioni

La disponibilità dei dati è una condizione necessaria per la verifica empirica, ma non è una condizione sufficiente, perché possiamo fare tre errori nella raccolta dati:

1- considerare un dato come un falso negativo (o positivo) 
2- il dato non esiste (ma non lo sappiamo) 

3- dobbiamo scegliere il senso corretto (spiegazione o retrodizione).

Pensiamo spesso che più risultati troviamo più abbiamo ragione di credere che le nostre ipotesi siano corrette. Ma sembrano corrette, non lo sono certamente. La quantità dei dati disponibili non è una misura per valutare la bontà di una ipotesi, ma è la precisione con la quale si può scoprire anche un solo dato che conferma se la teoria ipotizzata è plausibile o fallace.

Facciamo l’esempio dell’imprenditore che intende entrare nel mercato. 
I clienti basano le loro decisioni di acquisto su quello che c’è nel mercato. Pur avendo dati in grande quantità, i desiderata del pubblico sono latenti: compariranno solo quando vedranno il prodotto nelle loro mani. 
Gli imprenditori-innovatori invece devono basare l’investimento su quello che ci sarà nel mercato, una predizione sull’adozione del pubblico. Se si vuol essere innovatori si deve creare un’asimmetria: uno spostamento in avanti inaspettato, sia per i compratori sia per i concorrenti.

Per questo motivo le analisi sui dati raccolti dai survey riguardano il passato o, al limite, le preferenze odierne dei consumatori. I survey presentano diversi dati, però poi occorre selezionare i risultati per:

– falsificare la teoria ipotizzata (il risultato in rapporto all’ipotesi)
– scoprire la causa remota del risultato emerso (la causa in rapporto alle conseguenze).

Il passato non si trasforma (è read only), ma la nostra migliore interpretazione ci aiuta a comprendere il metodo con il quale abbiamo ottenuto i risultati. Come rappresentato in figura, oggi si possono scorgere due ombre che si proiettano nel passato.

C’è in natura un unico filtro capace di separarle e illuminarle per vederci meglio: l’essere umano. In questo senso è un’arte più che una scienza; è quest’opera di valutazione che, svolta nelle immense profondità del passato, conferisce un’anima e un senso ai dati.

Twitter: @massimochi