The Second Version

17/09/08

Dati e Loro Manipolazioni

Armatevi di pazienza e concentrazione...

Un'operazione molto diffusa in quasi tutti i campi dello scibile è quello di eliminare il rumore ad alta frequenza da una serie di dati (che può essere una serie storica o anche no) nel tentativo di isolare tendenze a lungo termine - il segnale. Questo si fa con diverse tecniche statistiche chiamate smoothers o filtri, che tratterò meglio più avanti.

C'è subito un problema di tipo quasi filosofico in questo approccio: eliminare il rumore è legittimo quando si ha un'idea di come il segnale debba essere; tuttavia quando il segnale è ignoto - in casi estremi anche l'esistenza stessa di un segnale è dubbia - l'uso di filtri non porta forse con sè il rischio di trovare solo quello che si vuole trovare?

All'atto pratico, lo strumento di smussatura più semplice è la media mobile, che consiste nel generare una nuova serie di dati in cui lo i-esimo punto è dato dalla media di N punti (N è il numero di periodi, o costante di tempo) che precedono lo i-esimo nella serie originale - o in una versione leggermente diversa, nota come running mean (media corrente?) - che includono lo i-esimo valore.

Ci sono altri metodi, come medie mobili pesate con diverse opzioni sul come calcolare i pesi, ed il calcolo della media (pesata o meno) in un intervallo centrato intorno allo i-esimo punto invece che usando soltanto i dati anteriori. Maggiori informazioni sono disponibili in inglese (naturalmente). Comunque tutti i metodi di smussatura hanno una caratteristica in comune: ogni valore della serie smussata è una combinazione di un certo numero di valori della serie originale.

Ho svolto un piccolo esperimento con Excel 2003, che chiunque conosca questo programma ed i rudimenti di statistica può replicare. Ho usato la funzione CASUALE per generare una serie di 30 valori (pseudo)casuali normalizzati (compresi fra 0 ed 1), quindi ho applicato una smussatura a media corrente con tre diverse costanti di tempo alla serie, per esaminarne gli effetti, ed ho riportato il tutto nel grafico che segue (il file è disponibile per gli interessati).


I rombi blu scuro sono i dati grezzi, e la linea nera spessa è la loro media aritmetica. F-5 è la media corrente a 5 periodi; F-10 quella a 10 ed F-30 a 30 periodi. Come si nota subito, la smussatura dà l'impressione di un andamento che ha alti e bassi ma è decisamente crescente con una brusca caduta finale; l'impressione di andamento crescente aumenta passando da 5 a 10 periodi. Non è riportato nel grafico, ma le serie smussate hanno media leggermente maggiore, e deviazione standard decisamente minore, rispetto all'originale.

Le serie T-5 e T-10 rappresentano la risposta transiente delle medie correnti: all'inizio della serie, non ci sono a disposizione i 5 o 10 valori richiesti; ogni punto della serie è dato dalla somma dei valori disponibili divisi per N; questo produce un deciso andamento crescente - e per rigore intellettuale la risposta transiente non dovrebbe essere mostrata nei grafici.

Il comportamento più particolare è però quello di F-30: una funzione approssimativamente lineare che cresce fino a raggiungere il valore medio originale al 30esimo valore. In pratica, tutta la serie smussata è la risposta transiente. E' ovvio che usare un N così grande sia sbagliato, ma l'esempio serve ad illustrare come un errore può avere conseguenze notevoli.

Escludendo N=30, quale smussatura è la migliore per rappresentare l'andamento della serie di dati? Nessuna, questo è il punto: una serie di numeri casuali non contiene alcun segnale, non ha andamento a lungo termine. Eppure, dall'applicazione dei filtri sembra che ci sia qualcosa. E' vero che non si tratta di veri numeri casuali, quindi forse ripetendo l'analisi su un grande numero di serie si potrebbe scoprire un qualche segnale definito - ma questo esula dal mio scopo.

Un altro problema connesso con la smussatura delle serie di dati è la perdita di informazioni. Una volta che un insieme di valori è stato registrato, il suo contenuto di informazione viene fissato, e qualsiasi operazione fatta su questo insieme non può mai aumentare la quantitò di informazione. In realtà, la maggior parte delle operazioni possibili estraggono un sottoinsieme di valori, che necessariamente contiene meno informazione - nel caso della smussatura, un certo numero di elementi dell'insieme viene combinato in un solo elemento del sottoinsieme. Un corollario di questo fatto è che le serie smussate sono anche autocorrelate - i valori della serie non sono indipendenti, ma ognuno di essi è funzione di altri valori nella serie. Qui bisogna accettare l'autorità degli studiosi del ramo, i quali dicono che le serie autocorrelate devono essere trattate in modo particolare, pena conclusioni errate.

Questa discussione serve come introduzione ad un esperimento pubblicato da William Briggs, che è statista di professione e sa usare il pacchetto R (che è un poco migliore di Excel quando si parla di statistica seria). Briggs scrisse un programma che genera due serie di numeri casuali normalizzati, le smussa con la media corrente in un caso ed un filtro passa-basso nell'altro, quindi calcola le probabilità di avere correlazione fra le due serie, in entrambi i casi, per valori di N (là chiamato k) crescenti e finalmente mostra i risultati di 500 simulazioni in un boxplot.

Il risultato di Briggs è interessante anche se non sorprendente: uno smoothing poco spinto (con N pari ad 1/12 della lunghezza della serie) è sufficiente a far sì che più del 25% delle volte si ottenga una correlazione significativa al 95% fra serie casuali - che in realtà possono essere correlate solo per caso. Ovvero, la smussatura delle serie di dati causa una certezza gonfiata, in particolare nella correlazione fra serie.

La ragione si può capire tornando al mio grafico: più la smussatura di una qualsiasi serie di numeri casuali normalizzata (ma normalizzare una serie è cosa facile) è spinta, più si tende alla situazione di F-30, ovvero ad una funzione crescente. E' pure chiaro che ci sarà sempre più correlazione fra due funzioni crescenti che fra due funzioni qualsiasi - visto che ambedue le funzioni crescenti appunto crescono nello stesso intervallo.

La certezza gonfiata dovrebbe essere tenuta a mente quando si tenta di fare una calibrazione dei proxy di temperatura contro i dati strumentali: entrambe le serie sono molto rumorose, e la tentazione di ricorrere ad una smussatura preliminare è molto forte.

Più in generale, la smussatura delle serie di dati dovrebbe essere evitata il più possibile, ed usata con moltissima attenzione negli altri casi - in modo particolare quando la serie smussata è il punto di partenza per operazioni successive.

Finito ore 01:24

Etichette: ,

0 Commenti:

Posta un commento

Iscriviti a Commenti sul post [Atom]



Link a questo post:

Crea un link

<< Home page