ebook img

introduzione alla analisi dei dati sperimentali PDF

134 Pages·2005·7.23 MB·Italian
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview introduzione alla analisi dei dati sperimentali

Introduzione alla Analisi dei Dati Sperimentali INTRODUZIONE ALLA ANALISI DEI DATI SPERIMENTALI Roma, Giugno 2005 DRAFT VERSION 1/134 Introduzione alla Analisi dei Dati Sperimentali Indice 1. I dati 1.1 Rappresentazione analitica dei dati 1.2 Calibrazione e regressione 1.3 la legge di propagazione degli errori 2. Cenni di Statistica 2.1 Probabilità e densità di probabilità 2.2 La distribuzione Normale 2.3 Teoria degli errori di misura 2.4 Teoremi del Limite Centrale e di Gauss 3. Regressione statistica 3.1 Il metodo della Massima Verosimiglianza 3.2 Il metodo dei Minimi quadrati 3.3 Esempi di applicazione del metodo dei minimi quadrati 3.4 Generalizzazione del metodo dei minimi quadrati 3.5 La validazione del modello 3.6 Il metodo del (cid:1)2 3.7 Correlazione 4. Matrici di dati e sensor arrays 4.1 Multiple linear regression 4.2 Matrice di correlazione 4.3 Analisi delle componenti principali (PCA) 4.4 PCR e PLS 4.5 Esempi di PLS 5. Elementi di Pattern recognition 5.1 Istogrammi e radar plots 5.2 Metodi unsupervised 5.3 Il problema della normalizzazione dei dati 5.4 Gli spazi di rappresentazione e l’analisi delle componenti principali 5.5 Metodi supervised 5.6 Analisi discriminante e regressione 2/134 Introduzione alla Analisi dei Dati Sperimentali 1 I D ATI I dati sono informazioni elementari che descrivono alcuni aspetti particolari di un fenomeno. Ad esempio se consideriamo un individuo possiamo identificare alcuni dati che ne descrivono caratteristiche particolari come altezza, peso, colore pelle, concentrazione dei composti chimici nel sangue, composizione DNA, taglia abiti e calzature,… Di per se un dato non ha significato, ad esempio, nessuno dei dati precedenti rappresenta una informazione significativa in quanto non permette do conoscere l’individuo al quale si riferisce. Affinchè un dato possa aumentare la “conoscenza” su di un fenomeno è necessaria una forma di analisi in grado di collegare il dato con qualche aspetto “significativo” del fenomeno stesso. Nel caso precedente per dare senso alla composizione chimica del sangue è necessario un modello del corpo umano e delle azioni delle patologie. Il processo mostrato in figura 1.1 è quindi il percorso necessario per trasformare un dato in un elemento di conoscenza dato Informazione Conoscenza analisi modello Figura 1.1 3/134 Introduzione alla Analisi dei Dati Sperimentali I due passaggi importanti di questo processo sono l’analisi che estrae l’informazione dal dato grezzo ed il modello che consente di includere l’informazione in un contesto interpretativo che ne definisce il significato e ne stabilisce la correlazione con le altre informazioni contribuendo, in questo modo, alla conoscenza del fenomeno. Da un punto di vista generale i dati possono essere classificati in due categorie: dati qualitativi e dati quantitativi. I dati quantitativi (anche detti “hard data”) sono espressi da un valore numerico ed unità di misura. Ad esempio: la temperatura dell’acqua è 400.0 K. E’ importante sottolineare come i dati quantitativi sono la base della scienza galileiana e delle cosiddette “hard sciences” cioè quelle discipline basate su dati rigorosi connessi tra loro da modelli matematici. Di estrema importanza sono anche i dati qualitativi (“soft data”). A questa categoria vanno ascritti le etichette ed i descrittori. I dati qualitativi sono generalmente sono espressi verbalmente, ad esempio: “l’acqua è calda”. Questo tipo di dati è difficilmente standardizzabile e riproducibile, ma è importante mettere in evidenza che sono proprio i dati qualitativi ad essere elaborati dal nostro cervello. Infatti, i sensi umani producono dati di tipo qualitativo e tutte le elaborazione e le decisione che continuamente vengono prese, sia incosciamente sia consciamente, dagli esseri viventi sono basate sull’elaborazione di questo genere di dati. Un’altra distinzione importanti sui dati riguarda la differenza tra dati discreti, quelli espressi in intervallo limitato e con valori pre-definiti, e i dati continui, espressi con valori continui. Le caratteristiche degli strumenti di acquisizione dati, soprattutto quelli basati su conversioni analogico-digitali tendono a rendere discreti anche quei dati che per loro natura sono continui. Infine, una importante caratteristica dei dati riguarda la dimensionalità. Chiamiamo dati univariati quei dati che esprimono una sola grandezza. Per cui, un dato quantitativo univariato è formato da un solo scalare corredato dalla sua di unità di misura. Ad esempio sono dati univariati i risultati delle seguenti misure: la misura di una resistenza elettrica è 100K(cid:1); Il peso di una mela è 80g; La concentrazione di K+ in un acqua è 1.02 mg/l. 4/134 Introduzione alla Analisi dei Dati Sperimentali Invece, si ha un dato multivariato quando l’applicazione di una misura ad un campione produce una sequenza ordinata di grandezze univariate il cui l’ordine è relativo al significato fisico della misura stessa. Sorgenti di dati multivariati sono ad esempio quegli strumenti che forniscono sequenze ordinate di valori (chiamati spettri) come gli spettrofotometri ed i gas-cromatografi. Allo stesso modo abbiamo un dato multivariato quando un fenomeno è descritto da un insieme di descrittori o attributi. 1.1 Rappresentazione analitica dei dati La analisi dei dati è la applicazione delle tecniche e dei concetti della matematica e della statistica ai dati sperimentali, cioè a quelle particolari grandezze che derivano da misure strumentali. Il concetto fondamentale della analisi dati e la rappresentazione delle misure in spazi vettoriali, generalmente euclidei. In questa rappresentazione ad ogni osservabile (detto anche variabile, grandezza misurata o osservabile) viene fatta corrispondere una dimensione dello spazio ed è quindi associata ad un vettore di base. Il sistema di riferimento dello spazio di rappresentazione è perciò formato da una base di vettori ortonormali il cui numero è pari al numero degli osservabili. Date due grandezze univariate, il concetto è ovvio. Consideriamo ad esempio un sensore amperometrico di glucosio. Questo è un dispositivo che converte la concentrazione di glucosio in un liquido in una corrente elettrica. In questo caso si hanno due variabili univariate (concentrazione e corrente) che sono messe in relazione dall’azione del sensore per cui ad ogni valore di concentrazione corrisponde una corrente, e viceversa. Possiamo formare uno spazio vettoriale attraverso il prodotto cartesiano delle due grandezze univariate, questo conduce al piano cartesiano dove rappresentiamo la curva di risposta del sensore stesso. Il processo ora descritto è riassunto in figura 1.2. 5/134 Introduzione alla Analisi dei Dati Sperimentali Rappresentazione cartesiana Spazi delle variabili Il sensore [mA] • • Variabile da misurare • • • [mg/l] Conc. di glucosio [mg/l] • • Risposta strumentale • • • Corrente elettrica [mA] [mA] • • • • • [mg/l] Figura 1.2 In questo caso attraverso l’analisi dei dati è possibile determinare la relazione funzionale che lega la corrente del sensore e la concentrazione di glucoso. Tale relazione si esprime nel luogo di punti (nell’esempio la retta) che definisce il comportamento del sensore. Nel caso di dati multivariati, il numero delle variabili coinvolte è maggiore di due e lo spazio di rappresentazione diventa uno spazio multidimensionale. Supponiamo ad esempio che nel caso precedente il sensore sia sensibile oltre che alla concentrazione di glucosio anche al pH della soluzione. In questo caso (figura 1.3) la corrente viene ad essere funzione di entrambe le grandezze, lo spazio cartesiano di rappresentazione ha tre dimensione e il luogo di punti che definisce l’effetto del sensore non è più una retta ma una superficie bidimensionale. Rappresentazione cartesiana Spazi delle variabili Il sensore 1a variabile da misurare • • [mA] [mg/l] Conc. di glucosio [mg/l] 2a variabile da misurare • • [pH] • • pH [v.a.] • • • • • • Risposta strumentale • • • • Corrente elettrica [mA] [mA] figura 1.3 6/134 Introduzione alla Analisi dei Dati Sperimentali 1. 2 Calibrazione e regressione Il problema generale dell’analisi dati consiste nella estrazione da una misura strumentale di informazioni riguardanti un campione (o fenomeno) misurato. Generalmente, questa informazione viene estratta dal risultato di uno strumento di misura (sensore). In pratica, il sensore fornisce una quantità osservabile dalla quale, attraverso la conoscenza della modalità di funzionamento del sensore, possiamo ricavare il valore di quella quantità che si vuole conoscere sebbene non sia direttamente osservabile. Considerando un metodo di misura univariato in cui la risposta dello strumento dipende linearmente dalla grandezza misurata, si ha la seguente relazione y= k (cid:1) x dove y è la risposta dello strumento (osservabile), x è la grandezza da misurare e k è la caratteristica dello strumento (sensibilità per il caso lineare). Lo scopo dello strumento è quello di permettere di conoscere la grandezza x. Quindi il problema generale è dato y come posso ricavare x? Ovviamente attraverso la conoscenza di k; Ma come viene ricavato k ? attraverso un processo chiamato calibrazione. Calibrare lo strumento vuol dire esporlo a sollecitazioni (x) note, per cui misurando l’output y posso ricavare il valore di k e quindi rendere lo strumento utilizzabile. La calibrazione è un processo fondamentale per ogni strumentazione e coinvolge sia l’aspetto sperimentale sia l’analisi dati. L’operazione precedentemente descritta è da un punto di vista matematico banale. Per calcolare k infatti basta disporre di una unica coppia (y,x) e dividere le due quantità. Il problema in pratica è completamente differente perché ogni misura è affetta da errori. Infatti, ripetendo la stessa misura nelle stesse condizioni si ottengono risultati diversi. Questa proprietà non è relativa alla capacità o meno di eseguire la misura ma ad una proprietà intrinseca del metodo sperimentale: il risultato di ogni misura non è una grandezza deterministica ma una grandezza aleatoria che può essere soddisfacentemente descritta dalla statistica. Per questo il problema della calibrazione non può essere risolto semplicemente considerando una coppia x,y ma attraverso un processo più complesso detto regressione statistica. 7/134 Introduzione alla Analisi dei Dati Sperimentali Gli errori di misura sono in pratica la deviazione tra la forma funzionale teorica che lega la risposta y alla sollecitazione x ed i valori sperimentali. Consideriamo ad esempio una strain gauge, sappiamo che la relazione teorica che lega la tensione ai capi di un partitore contenente una strain gauge e la deformazione della gauge è del tipo: V = k (cid:1)(cid:2) Supponiamo di avere eseguito delle misure di calibrazione e di avere ottenuto il set di dati raffigurato in figura 4: V (cid:1) Figura 1.4 Osservandi i dati sperimentali graficati in figura 4 è evidente che per conservare la trattazione teorica della strain gauge è necessario considerare il dato sperimentale come la somma del modello del sensore e di una termine aleatorio, detto errore di misura. In questo modo, la risposta del sensore (V) sarà composta da un termine deterministico (k(cid:1)) e da un termine aleatorio (errore) ( V =k(cid:1)(cid:2)+E). La parte deterministica della risposta è quella che contiene l’informazione sulla grandezza da misurare. Vedremo che la regressione statistica consente, ponendo determinate condizioni sull’errore, di calcolare dai dati sperimentali la parte deterministica della risposta strumentale. L’assunzione precedente contiene un importante conseguenza, e cioè che il dato sperimentale, in quanto risultato di una misura, è una grandezza aleatoria. Questo è un concetto fondamentale delle scienze 8/134 Introduzione alla Analisi dei Dati Sperimentali sperimentali secondo il quale ripetendo N volte “la stessa misura” si ottengono N valori differenti. E’ importante considerare che se non si ottengono valori differenti lo strumento di misura ha una risoluzione non adeguata. Si può anzi dire che la risoluzione adeguata di uno strumento di misura è quella che consente di apprezzare la natura statistica della grandezza stessa. Come esempio consideriamo la sequenza di tabella 1.1 relative a misure di lunghezza, effettuate con differenti strumenti di diversa risoluzione. Al diminuire della risoluzione la misura inizia a fluttuare ed il dato diventa di tipo statistico. Questo consente di definire quando la risoluzione diventa adeguata per la misura. Strumento Risoluzione Misure [cm] Metro da sarta 1 cm 120, 120, 120, 120, 120 Metro da 1 mm 119.8, 119.9, 120.1, 120.0, 120.2 falegname Calibro 0.1 mm 119.84, 120.31, 119.83, 120.10, 120. 34 Micrometro 0.01 mm 119.712, 120.032, 119.879, 120.320, 119.982 Interferometro 0.5 μm 119.9389, 120.0032, 119.8643, 119.3492, laser 120.2010 Tabella 1.1 1.3 La legge di Propagazione degli errori 9/134 Introduzione alla Analisi dei Dati Sperimentali Dalla tabella 1.1 possiamo dedurre che l’errore che deve essere attribuito al risultato finale di una serie di misure della stessa grandezza è pari o all’errore di lettura dello strumento di misura (nel caso in cui le misure siano tutte uguali) o alla semidispersione massima nel caso in cui le misure presentino delle fluttuazioni attorno ad un valore medio. Questi errori sono detti errori massimi poiché si ha la pratica certezza che ripetendo la misura si ottiene un valore compreso nell’intervallo dell’errore. Determiniamo ora qual è l’errore da attribuire ad una grandezza G ottenuta per via indiretta, cioè come funzione di misure di altre grandezze g , g ,…,g . 1 2 n Poiché il differenziale totale della funzione G rappresenta la variazione infintesima che la G(g , g ,…,g ) subisce al variare delle 1 2 n singole variabili, facendo l’ipotesi che il differenziale sia estensibile alle variazioni finite e considerando le variazioni dg come gli errori i massimi da cui sono affette le grandezze g , g ,…,g , si ottiene 1 2 n l’espressione per l’errore di G. Tale legge è nota come legge di propagazione degli errori: (cid:1)G (cid:1)G (cid:1)G (cid:2)G = (cid:3)(cid:2)g + (cid:3)(cid:2)g +…+ (cid:3)(cid:2)g 1 2 n (cid:1)g (cid:1)g (cid:1)g 1 2 n Il valore assoluto delle derivate definisce (cid:1)G come errore massimo, in quanto si ottiene quando i singoli contributi non si compensano ma si somma tra loro. Esempio: misura della densità media di un cubo attraverso la misura della massa e del lato l. 10/134

Description:
Introduzione alla Analisi dei Dati Sperimentali. 1/134 .. La varianza definisce l'ampiezza della PDF attorno al valore medio. In pratica definisce il
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.