STATISTICA SPECIALE & BIOINFORMATICA

 



 

PIANI SPERIMENTALI

 

Scopo della ricerca è di ottenere dei risultati attraverso l’esecuzione di un esperimento e di trarre delle conclusioni dai risultati ottenuti. Come si è intuito nei capitoli precedenti, test statistici per l’analisi statistica dei risultati si basano in generale sul calcolo di un rapporto tra la variabilità dovuta a quelli che noi chiamiamo fattori sperimentali e la variabilità incontrollata. Come si è visto il nostro scopo è di ridurre il più possibile la variabilità incontrollata, per avere l’evidenza delle differenze dovute ai fattori sperimentali. Per raggiungere questo obiettivo dobbiamo per così dire raffinare la tecnica, e migliorare la qualità del materiale sperimentale e la natura e qualità delle misure che andiamo ad effettuare su quel materiale. Ci si pone quindi l’obiettivo di incrementare l’efficienza di un esperimento, con un piano o disegno sperimentale adeguato. Un piano sperimentale consente di ridurre l’errore sperimentale, in modo che l’influenza dei fattori possa essere stimata con maggior efficienza. Dalla verifica delle ipotesi (che è un processo fortemente interattivo) scaturisce la diagnosi finale e il piano terapeutico. Per porre il problema in termini di evidence based medicine (cioè della medicina basata su prove scientifiche) è necessario focalizzare l’attenzione su alcuni aspetti di queste conoscenze. Ci sono almeno quattro ragioni per cui le conoscenze dirette, quelle che derivano da esperienze non strutturate, sono deboli in rapporto allo specifico problema della terapia: il fattore temporale, la scelta non casuale dei trattamenti, l’effetto placebo, il pregiudizio dell’osservatore. Tutti questi fattori sono "controllati" con opportuni disegni sperimentali. Un disegno sperimentale molto semplice è definito studio parallelo quando sono seguiti due gruppi, nel primo gruppo operiamo un trattamento attivo (il farmaco sperimentale), mentre nel secondo gruppo si opera il trattamento di controllo (placebo o un altro farmaco)

Un altro disegno sperimentale molto utilizzato è il disegno cross-over. Nel disegno cross-over ciascun paziente è controllo di se stesso. In altri termini questo disegno prevede che in maniera randomizzata ciascun paziente sia trattato prima con un placebo (o con un altro farmaco) e poi con il farmaco o viceversa. Una debolezza di questo disegno sperimentale è che alcuni effetti sperimentali svaniscono molto lentamente nel tempo, perciò se tra i due periodi sperimentali non si interpone un periodo intermedio adeguatamente lungo (wash-out) si rischia che alcuni effetti generati nella prima fase continuino nella 2a fase così rendendo problematica l’interpretazione degli effetti del secondo trattamento. Il ricercatore realizza un controllo delle diverse cause di variazione che possiamo riassumere:

q  Fattore sperimentale= oggetto della ricerca (le combinazioni rappresentano i trattamenti).

q  Fattori sub-sperimentali= condizioni in cui si svolge la ricerca, non dovrebbero dar luogo a interazione con i fattori sperimentali.

q  Fattori casuali= componente accidentale dell’esperimento.

Quando sono posti a confronto più gruppi sottoposti a differenti trattamenti, il criterio del campionamento casuale, si deve estendere all’intera organizzazione dell’esperimento. Cioè le unità che rappresentano l’insieme sperimentale devono essere estratte in modo casuale e in modo altrettanto casuale deve essere l’assegnazione del trattamento. Lo scopo è sempre quello di evitare che i fattori non controllati esercitino un ruolo non simmetrico sui diversi gruppi a raffronto. I disegni sperimentali possono essere classificati come:

q  Unifattoriali.

q  Multifattoriali.

 

Numero fattori

Tipo di disegno

Esperimento unifattoriale

Esperimento multifattoriale

Nessuno

-----

Completamente

randomizzato

Uno

Completo

BLOCCHI RANDOMIZZATI

COMPLETI

 

Incompleto

Blocchi incompleti Bilanciati

Disegno a confondimento

Due

Completi

Quadrato latino

 

 

Blocchi randomizzati (maschi e femmine), i trattamenti rappresentano tre diverse terapie contro il cancro e si valuta la sopravvivenza.

Sulla base del numero dei fattori sperimentali in gioco. Sulla base dei fattori sub sperimentali possiamo completare il quadro con la seguente classificazione:

q  Disegno senza raggruppamento, in altre parole completamente casualizzato.

q  Disegni a raggruppamento, cioè con il controllo di un fattore sub-sperimentale.

q  Disegni a più raggruppamenti, cioè con il controllo di più fattori sub-sperimentali.

In base all’assegnazione dei trattamenti all’interno dei criteri di raggruppamento potremo avere disegni:

q  Completi.

q  Incompleti.

In conclusione possiamo affermare che un esperimento consiste nel processo di pianificazione ed esecuzione dell’esperimento stesso, dal punto di vista statistico il disegno sperimentale è il complesso delle regole utilizzate per assegnare i trattamenti alle unità sperimentali.

Dimensione dell’esperimento. Quasi tutti i test statistici sono basati sul rapporto segnale rumore, laddove il segnale sia la relazione che ci interessa e il rumore rappresenta la misura della variabilità individuale. In pratica la prima questione che è posta è quella relativa alla dimensione del campione per individuare una differenza significativa. La significatività è la probabilità di osservare una differenza: una differenza qualunque, di qualsiasi entità. Se la dimensione campionaria è piccola, anche enormi differenze possono dimostrarsi non significative (ma potrebbero essere rilevanti per altri aspetti). Per lo stesso motivo anche differenze molto piccole possono dimostrarsi statisticamente significative. La significatività statistica è una precondizione necessaria per parlare di significatività clinica, ma non dice nulla sulla reale ampiezza delle conseguenze. Supponiamo di avere una media nell’ipotesi nulla di 100 e una deviazione standard di 15; per avere un miglioramento atteso di 5 punti dovrò avere una media di 105 nel gruppo trattato. Dobbiamo individuare la relazione tra dimensione del campione e la differenza necessaria per raggiungere la significatività. Naturalmente non sappiamo da quale distribuzione derivino i valori del gruppo trattato (105). Immaginiamo come dovranno essere larghe le due curve normali: la loro larghezza corrisponderà ad una deviazione standard. Consideriamo di aver completato l’esperimento e di aver raggiunto la significatività statistica a livello di 0.05. Il valore critico VC corrisponde in questa situazione a 1.96 errori standard alla destra della media dell’ipotesi nulla. Chiameremo questa distanza Za, il valore che corrisponde all’errore alfa. Ora dobbiamo decidere di quanto vogliamo rischiare per l’errore di II tipo: Supponiamo di decidere per un errore beta di 0.10; questo implica un valore critico di 1.28 errori standard a sinistra dell’ipotesi alternativa: chiameremo questo errore per analogia Zb. Possiamo ora formalizzare quanto è stata visto fino ad ora.

 Za =1.96 e analogamente   =0 Zb =1.28

da cui sommando avremo  Za + Zb =1.96  +1.28

Se chiamiamo la differenza 105-100 = D avremo  (Za + Zb)

Risolvendo si ottiene

Se eleviamo al quadrato entrambi i termini si ottiene

Il rapporto della differenza tra i gruppi e la deviazione standard prende il nome di EFFECT SIZE ed è stato introdotto nel 1977 da Choen ed è rappresentato nel caso di due gruppi dalla lettera d. Nell’esempio che è stato riportato sostituendo avremo

= 95

Le cose sono leggermente più complicate quando si deve considerare l’esistenza di differenze tra medie di diversi gruppi ed in questo caso abbiamo a che fare con più medie e le medie possono essere distribuite in modi diversi.

Curve di potenza. L’obiettivo di un disegno sperimentale è quello di fornire il maggior numero di informazioni affidabili al minimo costo. Dal punto di vista statistico, l’affidabilità delle informazioni è misurata in base all’errore standard delle stime. Ora l’errore standard è direttamente proporzionale alla varianza della popolazione inversamente proporzionale alle dimensioni del campione, ne consegue che si può ottenere una maggior precisione aumentando la dimensione del campione. Nella programmazione di un esperimento si deve spesso definire il numero di replicazioni per ciascuno dei trattamenti. Nei disegni sperimentali definiti a dimensioni fisse, cioè le replicazioni si intendono effettuate contemporaneamente e il loro numero è indipendente dai risultati parziali dell’esperimento è necessario calcolare la potenza del test. Come si era già visto nel capitolo 6 relativamente agli errori di II specie, definiamo la potenza di un test come 1- b che indica la probabilità di rifiutare l’ipotesi nulla Ho quando H1 sia vera. Il calcolo della potenza di un test è facilitato dall’uso di curve, opportunamente calcolate da Pearson e Hartley. Si tratta di una famiglia di curve che dipende da alcuni elementi: a il livello di significatività prescelto, e u1 e u2 (gradi di libertà del numeratore e del denominatore del rapporto delle varianze) e di un parametro detto F, che dipende dal disegno sperimentale scelto.

Il parametro 

Dove n indica il numero delle replicazioni per il trattamento, k il numero dei trattamenti e s indica la deviazione standard della grandezza misurata nella popolazione: per ciascuno dei valori k di d rappresenta lo scostamento della esima media vera di trattamento dalla media m della popolazione. Esiste quindi una difficoltà nell’impiego delle curve di potenza giacché i parametri d e s  sono sconosciuti. Vi è la possibilità di semplificare la relazione inserendo un’ipotesi alternativa; effettuando una serie di semplificazioni si perviene a 

= =

Sarà a questo punto che lo sperimentatore potrà definire il valore di c, cioè il numero dei multipli di s e in quale direzione deve essere la differenza tra le medie dei trattamenti. In un dato sistema, in mancanza di una particolare fonte di variabilità (fattore) che si manifesti in più livelli, ogni osservazione (yi) oscillerà attorno alla media in modo casuale:

 = media ; ei = variabilità individuale

Considerando tutti i valori di e per i vari casi, la loro distribuzione è normale con media uguale a zero e varianza costante, pertanto e=N(0,s ²)

Nell'analisi della varianza ad una via abbiamo considerato una sola fonte di variabilità. Nel caso di sistemi complessi risulta spesso necessario considerare più fonti di variabilità contemporaneamente, infatti solamente in questo modo si raggiunge una comprensione completa del sistema. Nel caso debbano essere previsti degli esperimenti, questi possono essere organizzati in un numero di prove inferiori a quanto sarebbe necessario variando un solo fattore alla volta. Risulta pertanto particolarmente importante la modalità di esecuzione degli esperimenti, che andranno condotti secondo opportuni disegni sperimentali. I principali disegni sperimentali sono quelli a blocchi randomizzati e quelli fattoriali.

Nel caso più semplice di due fattori i nostri dati sperimentali possono essere organizzati in righe ed in colonne. Queste rappresenteranno i livelli dei fattori dei quali si è interessati alla valutazione degli effetti. Esistono fattori di tipo fisso e di tipo casuale (random). I fattori fissi rappresentano il risultato di una specifica scelta eseguita dallo sperimentatore, interessato proprio a quei livelli (la maggior parte dei fattori studiati tramite l'ANOVA appartiene a questa categoria). I livelli dei fattori casuali o random rappresentano invece un campionamento casuale fra tutti i possibili livelli degli stessi.

Un esempio di effetto fisso è dato dal confronto di tre differenti strumenti di misura, che operano in situazioni differenti: noi siamo interessati proprio a quegli strumenti e non ad altri. Un esempio di effetto casuale è quello relativo all'effetto delle madri di nidiate di topini, nidiate utilizzate per studiare qualche specifico fattore fisso: le madri rappresentano un campione casuale fra tutte le possibili madri di topi e noi siamo interessati non tanto all'effetto di "quelle" madri, ma quanto all'effetto delle madri in genere. La classificazione del tipo di fattori considerato è molto importante poiché da essa deriva la modalità di calcolo della varianza. Nel successivo prospetto è indicata la modalità di presentazione di un disegno sperimentale a due fattori (effetto colonna ed effetto riga). Ogni cella (intersezione fra righe e colonne) può presentare una o più osservazioni (ripetizioni). Le ripetizioni sono molto utili per valutare la variabilità "intrinseca" nel disegno sperimentale

 

1

effetto colonna

...

i

 

1

y111

...

y11k

...

yi11

_

y.1.

effetto riga

...

...

...

...

 

j

y1j1

...

y1jk

...

yij1

_

y.j.

 

_

y1..

 

_

yi..

 

Per le varie deviazioni dalla media di ogni singola osservazione (yijk) vale la seguente notazione:

dove:   = media generale; = effetto dell i-esimo livello del fattore colonna

 = effetto dell j-esimo livello del fattore riga;= effetto  casuale

Se y non è totalmente spiegabile in termini di scarti fra le medie dei due singoli effetti relativi alla classificazione per riga e per colonna (effetti principali), esiste un effetto d'interazione esprimibile con il seguente termine, da aggiungere alla precedente equazione:

dove:  = media generale; = media dell’ i-esimo livello del fattore colonna

 = media dell’ j-esimo livello del fattore riga; =media della cella (nel caso di ripetizioni)

pertanto avremo:

Il modello è esprimibile più semplicemente con la presente notazione:

=m+ ai +bj + aibj + eijk

Dove
m = = media generale

ai =   = effetto dell i-esimo livello del fattore colonna
bj =  = effetto dell j-esimo livello del fattore riga
aibj=  = effetto dell’iterazione
eijk= effetto casuale = Con l'analisi della varianza a due criteri di

Blocchi randomizzati. I disegni sperimentali consentono di ottimizzare l'impostazione dell'esperimento, in modo tale da minimizzare le quote di variabilità casuale residua (all'interno dei gruppi) e massimizzare l'efficienza del test (a parità di G.L. otterremo un valore di F più elevato riducendosi il denominatore rappresentato appunto dalla varianza residua). In alcune popolazioni esistono dei sottogruppi identificabili che possiedono varianze più piccole, l’esistenza di questi gruppi porta all’uso del blocking come mezzo per garantire un errore sperimentale minore. Tanto più le unità all’interno di un blocco saranno omogenee tanto più la variabilità tra le unità trattate in modo comparabile, fornirà un errore sperimentale minore.

Il disegno a blocchi randomizzati prevede la formazione di più blocchi delle unità blocchi. Per esprimere l'effetto della classificazione per riga (j) e per colonna (i) sul valore di ogni singola osservazione yijk si consideri il seguente modello lineare additivo:

=m+ ai +bj + eijk

 con: F(a ) = QM(a)/QM(e) F(b) = QM(b)/QM(e)

          2    

1               3

         4

          1    

4               2

         3

          4    

3               1

         2

              Schema di disegno sperimentale a blocchi randomizzati

Non ha alcun interesse l'effetto d'interazione fra i livelli dei trattamenti all'interno dei blocchi ed i differenti blocchi, poiché si parte dal presupposto che la variabilità fra i blocchi è decisamente più elevata rispetto a quella all'interno dei blocchi.

 
In un esperimento organizzato a blocchi randomizzati, sono state utilizzate 6 nidiate di animali considerate quali blocchi. All'interno di ogni nidiata-blocco sono stati considerati due animali come controlli (A), due con trattamento 1 (B) e due con trattamento 2 (C). L'ipotesi zero prevede l'uguaglianza, all'interno dei blocchi, delle medie relative ai vari trattamenti. Il test statistico utilizzato è l'analisi della varianza eseguita all'interno di un piano sperimentale a blocchi randomozzati. L'analisi della varianza è eseguita come di seguito indicato, dove k=numero del livello del trattamento o dei blocchi.

Blocchi (nidiate)

I

II

III

IV

V

VI

Totali trattamento

A.controllo

60

44

28

59

45

52

288

B.trattamento 1

82

48

32

75

50

80

367

C.trattamento 2

94

67

45

70

50

82

408

Totali blocchi

236

159

105

204

145

214

1063

Termine di correzione TC = (Sx)2/n = (1063)2/18 = 62776

SQ Totale: Sx2-TC =(602 +442 +...+502 +822 )-62776=68581-62776=5805

GL Totali: (n-1)=18-1=17

SQ (fra) Trattamenti: [(SxA)2/nA+(SxB)2/nB+(SxC)2/nC]-TC=

essendo uguale n (n=6) per i vari trattamenti avremo:

=[(2882 +3672 +4082 )/6]-62776= 64016-62776=1240

GL Trattamenti: (kT-1)=3-1=2

SQ (fra) Blocchi (nidiate): [(SXI)2/nI +(SXII)2/nII +..+(SXVI)2/nVI]-TC= (2362 +159 + ...+2142)/3 –62776 = 66813-62776=4037

GL Blocchi: (kB-1)=6-1=5

SQ Errore: SQ(Totale)-[SQ(Trattamenti)+SQ(Blocchi)]= 5805-(1240 +4037)= 528

GL Errore: =17-(2+5)= 10

GL(Totale)-[GL(Trattamenti)+GL(Blocchi)]= 17 - (2+5) = 10

Sorgenti di variazione

Somma dei quadrati

G.L.

Quadrati medi

F.

Trattamenti

1240

2

620

11.7**

Nidiate

4037

5

807

15.2**

Errore

528

10

53

 

Totale

5805

17

 

 

In questo come in altri esempi è stata utilizzata la seguente notazione semplificata:

 

Risulta interessante considerare il significato dei QM(entro) altrimenti chiamato errore poiché esprime la variabilità casuale all'interno del blocco. E’ possibile utilizzare tale stima della varianza media all'interno dei blocchi come dato di partenza per il calcolo del Coefficiente di Variazione [CV=(DevStd/Media)*100] relativo ai blocchi, calcolato tramite:

 

 

ed eseguire in tal modo una verifica di omogeneità. Questa semplice considerazione consente di utilizzare questo tipo di disegno sperimentale anche per definire il grado di affidabilità di particolari valutazioni.

Pesi (g)

Blocchi

ore 7.30

ore 8.30

ore 9.30

ore 10.30

Totali

1

84.6

83.0

85.4

83.7

336.7

2

99.2

97.0

100.0

97.8

394.0

3

94.6

96.4

97.7

94.6

383.2

4

101.4

100.7

103.0

103.0

408.9

5

119.6

123.5

126.9

131.0

501.0

6

150.2

131.3

133.6

137.5

552.6

7

108.6

110.0

112.4

105.1

436.1

8

102.9

104.9

106.9

109.3

424.0

9

103.8

100.9

103.0

105.1

412.8

10

103.0

98.9

101.4

103.4

406.7

TOTALI

1067.9

1046.6

1070.3

1070.5

4255.3

Si consideri quale esempio il caso di più esperti chiamati a valutare n animali e si sia interessati al grado di ripetibilità dei giudizi dei vari valutatori per lo stesso animale. Si organizzi allora un disegno sperimentale considerando gli animali come i blocchi e le valutazioni dei giudici come le singole misure all'interno dei blocchi. Seguendo le sopraccitate indicazioni risulterà possibile verificare da un lato la significatività dell'effetto del fattore giudice e dall'altro calcolare il CV all'interno dei blocchi, pari alla variabilità nella valutazione dello stesso animale da parte di più valutatori. In sostanza con il disegno sperimentale a blocchi randomizzati controlliamo una parte di variabilità (blocchi) per ridurre l'errore casuale. Siano dati 10 animali dei quali si vogliano testare le variazioni spontanee di peso. I soggetti sono pesati a partire dalle 7.30, ogni ora, per 4 volte. Per determinare la variabilità delle pesate è organizzato un disegno sperimentale a blocchi randomizzati nel quale i vari animali rappresentano i singoli blocchi, e le differenti ore, nelle quali sono effettuate le misure, rappresentano i differenti livelli del trattamento d'interesse. L'ipotesi zero è rappresentata dalla uguaglianza delle medie delle misure relative alle varie pesate. Risulta inoltre interessante valutare la variabilità all’interno di ogni blocco stimando il coefficiente di variazione relativo all’errore calcolato come di seguito.

 

Sorgenti di variazione

Somme dei Quadrati

GL

Quadrati Medi

F

Animali

8361.31

9

929

74.9**

Ore_Pesata

39.98

3

13.3

1.1

Errore 

335.97

27

12.4

 

Totale

8737.26

39

CVe =

3.31

Questa stima di variabilità rappresenta una stima della omogeneità all'interno dei blocchi, pertanto nel caso degli animali. Utilizzando la SQ(errore) contenuta nella sopra riportata tabella della varianza calcolo il CV relativo alla variabilità residua entro i gruppi:

 

 

 


MODELLO FATTORIALE. Nel disegno fattoriale completo sono invece considerate tutte le combinazioni fra le diverse forme di trattamento rappresentate da tutte le combinazioni dei fattori. Nel caso di due fattori è pertanto adeguato il seguente modello:

y= media+effetto fattore+effetto livello+interazione +errore

=m+ ai +bj + aibj + eijk

Terminologia

q  Fattore= ingrediente che entra in un trattamento.

q  Livello=dose o quantità di un ingrediente.

q  Effetto di un fattore= cambiamento nella risposta indotto da un cambiamento nel livello.

q  Interazione = esiste quando l'effetto di un fattore si modifica al cambiare del livello di uno o più fattori.

con: F(a) = QM(a )/QM(e ) F(b) = QM(b)/QM(e ) F(a b) = QM(a b)/QM(e)
nel caso b fosse un fattore casuale risulterebbe:

F(a) = QM(a )/QM(e) F(b) = QM(b)/QM(a b ) F(a b) = QM(a b)/QM(e)

Schema di un disegno sperimentale fattoriale completo:

       a

b

1

2

1

Y1

Y1

….

Y2

Y2

….

2

….

….

Nel caso l'interazione risulti significativa non è possibile trarre conclusioni appropriate per ogni singolo fattore, poiché gli effetti dei livelli di un fattore dipendono dal livello dell'altro fattore. Se l'interazione non è significativa è invece necessario rielaborare i dati utilizzando un modello senza interazione (come quello utilizzato per i blocchi randomizzati) in modo tale da inserire l'effetto dell'interazione nell'ambito di quello dei residui. In tal modo aumentano i gradi di libertà dei residui ed a parità di valore di F aumenta il valore di P, aumentando la potenza del test e l'efficienza di riconoscere come falsa una ipotesi zero effettivamente falsa.

Si realizza un disegno sperimentale nel quale sono trattati due gruppi sperimentali, ognuno con due trattamenti (A e B). Ogni trattamento presenterà pertanto due livelli: assenza (NO) o presenza (SI). Il numero complessivo dei gruppi (k) sarà pertanto uguale a 4 (2 livelli del trattamento A per 2 livelli del trattamento B). Si vuole eseguire un'analisi della varianza tesa a verificare l'ipotesi zero dell'uguaglianza delle medie fra i due gruppi sperimentali e dei due trattamenti. Non essendo un disegno a blocchi randomizzati si vuole (e si deve!) analizzare l'eventuale interazione fra il gruppo sperimentale ed il trattamento, al fine di verificare se l'effetto dello stesso trattamento varia in funzione del gruppo cui viene applicato. Dati individuali:

 

A1B1

A1B2

A2B1

A2B2

 

-25

132

143

211

 

-3

138

41

263

 

-12

112

58

258

 

37

104

80

229

 

3

112

79

213

TOTALI

0

598

401

1174

MEDIE

0.0

119.6

80.2

234.8

Dati classificati per trattamento (tabella dei totali per trattamento):

 

Trat. A NO (A1)

Trat. A SI (A2)

Totali

Trat.B NO (B1)

0

401

401

Trat.B SI (B2)

598

1174

1772

Totali

598

1575

2173

Termine di correzione: TC= (Sx)2/n = (2173)2/20 = 236096

SQ Totale: Sx2-TC =(-25)2 + (-3)2 +...+ (229)2 +(213)2 -TC = 393467 -236096 = 157371

GL Totali: (n-1)= 20-1=19

SQ Fra gruppi: [(Sx11)2/n11]+[(Sx12)2/n12]+[...] -TC =

= 1/5 (02 + 5982 + 4012 + 11742) - TC =  379336 - 236096 =143240

G.L. Fra Gruppi: (k-1)=4 - 1=3

SQ Errore: SQ Totale - SQ Fra gruppi = 157371 - 143240 = 14131

G.L. Errore: G.L. Totali - GL Fra =  19-3=16

SQ Trattamento A: [(TA1)2/nTA1] + [(TA2)2/nTA2] -TC = (5982+15752)/10 -TC= 283222 - 236096 = 47726

G.L. Trattamento A: Livelli di A - 1 = 1

SQ Trattamento B: [(TB1)2/nTB1] + [(TB1)2/nTB2] -TC =(4012+17722)/10 -TC =330078 - 236096 = 93982

G.L. Trattamento B: Livelli di B - 1 = 1

SQ Interazione (AB): SQ(Fra) - SQ(A) - SQ(B) = 143240 -47726 -93982 =1532

G.L. Interazione (AB): Livelli di A * Livelli di B = 1 * 1 = 1

Sorgenti

Somme Quadrati

G.L.

Quadrati Medi

F

Trattamento A

47726

1

47726

54.0**

Trattamento B

93982

1

93982

106.4**

Interazione A*B

1532

1

1532

1.73

Errore

14131

16

883.2

 

Totale

157371

19

 

 

Confronti

A1B1

A2B1

A1B2

A2B2

(åkT) (*)

QM (**)

TOTALI

0

401

598

1174

 

 

Trattamento A

-1

+1

-1

+1

977 (1)

47726

Trattamento B

-1

-1

+1

+1

1371

93982

Interazione AB

+1

-1

-1

+1

175

1532

 

 

 

 

 

 

143240

Studio dell'interazione utilizzando i coefficienti polinomiali.
(*)
SkT = (-1*0)+(+1*401)+(-1*598)+(+1*1174)=977

(**) QM = S kT2/nS k2

dove: n=numero di individui per gruppo=5

nS k2=5*4

Quadrato latino. Nel caso volessimo (e fosse possibile) controllare due fonti di variabilità (considerate quali fattori) potremmo utilizzare un altro disegno sperimentale: quello a quadrato latino. Questo disegno è la combinazione di due sistemi a blocchi randomizzati ed è rappresentato da una tabella nella quale un fattore sotto controllo è costituito dalle righe e l'altro dalle colonne. Il valore di ogni cella è il risultato di un diverso livello del trattamento in esame. Analizzare contemporaneamente 2 fattori di variazione a p livelli nel disegno sperimentale blocchi randomizzati richiede p2 osservazione. Ogni livello del fattore deve incrociare tutti i livelli degli altri fattori, un esperimento con tre fattori ad esempio richiede p3 osservazioni o repliche. Nella pratica se consideriamo un esperimento con tre fattori e a 5 livelli sono necessari 125 dati. Per contro un disegno quadrato latino permette di analizzare contemporaneamente tre fattori con semplicemente 25 dati, chiaramente il disegno sperimentale presenta un certa rigidità e tutti e tre i fattori devono avere lo stesso numero di livelli.

Foto del 1945 che testimonia la prima applicazione del quadrato latino. 

Schema originale del quadrato latino.

I quadrati latini furono per la prima volta applicati nella sperimentazione agronomica dove è possibile avere la suddivisione del terreno in strisce perpendicolari  della stessa ampiezza di un quadrato, tale rappresentazione ha una certa analogia con il frazionamento dell’area dell’accampamento romano da cui deriva il nome di quadrato latino.

Il numero di righe, di colonne e dei livelli del trattamento devono essere uguali. Il modello lineare additivo utilizzabile è il seguente:

Dove: = singola osservazione, = media generale,=effetto dell’i mo fattore a, = effetto dell’i mo fattore b, = effetto dell’i mo fattore g, = effetto casuale
con: F(
a ) = QM(a)/QM(e ) F(b) = QM(b)/QM(e) F(g ) = QM(g)/QM(e ) 

Effetto RIGA

Effetto COLONNA

1

2

3

 

1

A

B

C

 

2

B

A

B

TRATTAMENTI (A,...,C)

3

C

C

A

 

Schema di un Quadrato Latino a tre livelli del fattore RIGA, del fattore COLONNA e del fattore TRATTAMENTO.

Nidiate

 

Gabbie

 

 

 

 

 

1

2

3

4

5

Totali

1

185A

116B

90C

130D

340E

861

2

115B

95C

125D

160E

199A

694

3

288C

227D

245E

197A

375B

1332

4

275D

270E

60A

241B

430C

1276

5

300E

151A

136B

169C

346C

1102

Totali gabbie

1163

859

656

897

1690

5265

1- Calcolo devianze totali: 1852 + 1162 + 902+.........+1692 + 3462 -(5265)2/25 = 321160

2-Calcolo la devianza tra trattamenti: 7922/5 +9832/5+.......+13152/5-(5265)2/25 =28905

3-Calcolo devianza tra nidiate: 8612/5 +6942/5+..........+11022/5-(5265)2/25 =59143

4-Calcolo devianze tra gabbie: 11632/5 +8592/5+.......+16902/5-(5265)2/25 =127490

Calcolo il residuo o errore

Fonti di variazione

Devianze

G.L.

Varianze

F

Trattamenti

28905

4

7226

5,5**

Nidiate

59143

4

14785

12,4**

Gabbie

127490

4

31872

24,5**

Errore

15622

12

1301

 

Siano dati 6 animali dei quali si voglia testare un dato trattamento e si sia interessati anche all'effetto del giorno di somministrazione di tale trattamento. Si organizzi allora un disegno sperimentale a quadrato latino il cui schema con i relativi dati d'esempio sono esposti nella tabella sottostante.

Animali

1

2

3

4

5

6

Totale

1

A 67

B 62

C 30

D 24

E 9

F 5

197

2

B 46

A 62

E 15

F 2

C 54

D 19

198

3

C 47

F 5

A 65

E 13

D 35

B 57

222

4

D 28

C 43

B 61

A 90

F 3

E 17

242

5

E 15

D 42

F 8

C 42

B 81

A 87

275

6

F 7

E 23

D 58

B 86

A 105

C 45

324

Totale

210

237

237

257

287

230

Totale

Totale per Trattamento [TT] (A,...,F)= 

TTA = 476

TTB = 393

TTC = 261

TTD = 206

TTE = 92

TTF = 30

Termine di correzione:

TC = (S x)2/n =  14582/36= 59049

SQ totale: Sx2-TC=  [672+462+472+...+452]-TC = 87570 - 59049 = 28521

Sorgente variazione

Somme

Gradi

Quadrati

F

Trattamento

24442

5

4888

66.3**

Animali

577

5

115.4

1.56

Giorni

2028

5

405.6

5.50**

Errore

1474

20

73.7

 

Totale

28521

35

 

 

** = P<0.01

I principali vantaggi del quadrato latino

 -maggior controllo della variabilità

-semplicità di analisi

 -semplicità anche nel caso di dati mancanti

-maggior efficienza

 Svantaggi

-il numero dei trattamenti è vincolato al numero di righe e di colonne

-la sua applicabilità è compresa tra 4 e 12 trattamenti.

DISEGNI NIDIFICATI. Si realizzano quando esistono dei campioni all’interno di una unità sperimentale. Dal punto di vista formale questi disegni si definiscono come gerarchici (Nested ANOVA) poiché il disegno sperimentale descrive sottocampioni nidificati all’interno di unità sperimentali campionarie. Nei disegni sperimentali precedentemente illustrati tutti i livelli di ogni fattore devono incontrare tutti i livelli degli altri fattori, ma questo nella pratica non sempre è possibile Il disegno sperimentale gerarchico non richiede il bilanciamento completo delle osservazioni, esige solamente che ogni gruppo principale sia suddiviso in almeno due sottogruppi e che i vari fattori previsti dal programma dell’esperimento debbano avere una successione prestabilita. Nella letteratura anglosassone questi esperimento sono definiti come Nested Anova, ossia analisi della varianza con criteri di classificazione annidati l’uno nell’altro. Il confronto delle modalità del secondo fattore, analizzato entro la suddivisione principale, possiede generalmente una variabilità minore di quella che interessa il primo fattore. Un esempio può essere il controllo di qualità di una lavorazione, i trattamenti sono le diverse condizioni lavorative che caratterizzano i diversi turni di lavoro, i lavoratori rappresentano i blocchi e le unità del prodotto sono le unità sperimentali o osservazionali. Il modello lineare di un disegno nidificato risulta:

l’indice j(i) è usato per indicare che esistono diversi indici j per ogni valore dell’indice i, cioè esiste una nidificazione, analogamente l’indice k è nidificato in gruppi dati dalla combinazione degli indici ij. In questo modello non è definibile alcuna interazione, poiché i livelli sono diversi per ogni fattore.

SPLIT-POLT CON MISURE RIPETUTE. In molte sperimentazioni che prevedono due fattori, uno dei due fattori rappresenta per lo sperimentatore un maggior interesse. Viene realizzata ad esempio una sperimentazione impiegando 10 cavie cui vengono forniti due livelli di proteine A1 e A2. Ogni soggetto dei due gruppi viene sottoposto a due livelli B di integrazione con aminoacidi (fattore di maggior interesse per lo sperimentatore). Viene misurata l'escrezione in N nelle urine.

 

Soggetto

B1

B2

Totali

 

1

1

3

4

 

2

1

2

3

Dieta A1

3

2

4

6

 

4

6

5

11

 

5

5

8

13

Totali

 

15

22

37

 

6

3

5

8

 

7

5

4

9

Dieta A2

8

6

7

13

 

9

8

8

16

 

10

8

11

19

Totali

 

30

35

65

Termine di correzione:

TC= (S x)2/n = (37+65)2 / 20 = 520.2

SQ Totale: S x2 - TC = (1)² + (1)² + (2)² + .....+ (8)² + (11)² - TC = 137.80

SQ tra soggetti  (4)²/2 + (3)²/2 + ..+ (16)²/2 + (19)²/2 - TC = 120.80

La somma dei quadrati tra soggetti è data da due componenti ortogonali dovute al livello A1 e A2, calcoliamo quindi:

SQ A = (37)2/10 + (65)2/10 - TC = 39.2
 
per differenza otterremo la SQ errore (A): SQ tra soggetti - SQ A = 120.8 - 39.2 = 81.60

Procedendo in analoga maniera potremo calcolare

SQ B = (45)²/10 + (57)²/10 - TC= 7.2

SQ interazione AB =[(15+35) - (22+30)]²/20 = 0.2

Per sottrazione possiamo ora calcolare la SQ errore (A) x B: SQ Totale - SQ tra soggetti - SQ B - SQ interazione AB = 137.8 - 120.8 - 7.20 - 0.20 = 9.60

Sorgenti

Somma dei  quadrati

G.L.

Quadrati medi

      F

A

39.20

1

39.20

3.843

Errore (A)

81.60

8

10.20

 

B

7.20

1

7.200

6.000

Interazione A * B

0.20

1

0.200

<0.0

Errore (A) x B

9.60

8

1.200

 

Totale

137.80

19

 

 

Dal confronto con i valori critici per P= 0.05 per 1 e 8 G.L. troviamo il valore di F = 5.32, quindi possiamo affermare che il livello di aminoacidi ha un significativo effetto sull'escrezione di N nelle urine. Notare come l'errore (A)xB risulta più piccolo di quello relativo al livello di solo A. Nei disegni di spilt-plot solitamente risulta significativo il fattore di maggior interesse B.


 

Analisi multivariata

 

Esistono molti ambiti di indagine in cui si possono presentare problemi di tipo multivariato, nella genetica (le relazioni filogenetiche tra diverse razze possono essere indagate prendendo in esame le frequenze geniche in determinati loci), nell'alimentazione (l'effetto di una dieta, per esempio, può essere valutato impiegando numerosi parametri fisiologici, fisici e chimici), nella biochimica clinica un soggetto può essere “valutato” attraverso un set di parametri metabolici molto ampio. Nel campo delle scienze veterinarie, ad esempio, le variabili che possono essere rilevate su animali che presentano una determinata patologia sono numerose, ma non tutte sono necessariamente utili per descrivere e diagnosticare correttamente. In tutti i casi in cui le variabili sono numerose e talvolta anche correlate tra loro, l'utilizzo dei metodi multivariati può aiutare a fornire una visione globale del problema, evidenziando le relazioni tra le variabili considerate e l'importanza relativa di ciascuna di esse, e può inoltre mettere in evidenza le relazioni tra i campioni in base alla loro distribuzione nello spazio multi-dimensionale descritto dall'insieme delle variabili. Questi metodi trovano un vasto impiego per la soluzione di numerosi problemi, quali:

·       esplorazione iniziale dei dati;

·       evidenziazione dell'esistenza di gruppi omogenei di campioni non classificati a priori (cluster analysis);

·       formulazione di modelli matematici per la predizione di risposte quantitative (regressione);

·       formulazione di modelli matematici per la predizione di risposte qualitative (classificazione).

Queste tecniche di analisi, pur essendo conosciute da molti anni, non hanno potuto essere impiegate subito su larga scala a causa della complessità dei calcoli che richiedono. Oggi questo problema è stato risolto dal progresso tecnologico, che permette l'utilizzo di numerosi software come SAS, SPSS e SYSTAT consentono di analizzare dati multivariati e sui comuni personal computer forniscono i risultati in tempi ragionevoli. Le procedure multivariate consentono di riassumere in forma sintetica dati complessi e di difficile valutazione o interpretazione. Per comprendere le analisi multivariate è necessario avere una buona conoscenza delle matrici (si rimanda per approfondimenti all’allegato sul calcolo matriciale). Una matrice è rappresentata da una semplice tabella con un certo numero di righe e di colonne; nell’analisi dei dati le righe della matrice sono detti casi od osservazioni, e le colonne sono dette variabili o descrittori.

 Di seguito è riportata una tipica struttura dati in forma matriciale.

 

 

Casi

Età

Peso

Sesso

Altezza

Glicemia

AST

ALT

CK

AP

GGT

ID 1

38

75

0

1.85

3.12

45

25

85

25

15

ID 2

45

85

1

1.74

2.85

89

74

111

42

25

….

 

 

 

 

 

 

 

 

 

 

ID n

52

71

1

1.65

3.12

100

36

85

19

24

La matrice dei dati può essere analizzata secondo due diverse prospettive, se analizziamo le variabili e le relazioni tra le variabili avremo una analisi di tipo R, mentre se siamo maggiormente interessati alle relazioni tra gli oggetti allora avremo un’analisi di tipo Q o anche definita come di tipo agglomerativo. La maggior parte dei metodi richiede quindi che venga effettuato un pretrattamento dei dati per eliminare l'effetto delle diverse unità di misura e dare a ciascuna variabile lo stesso peso a priori. In assenza di tale trattamento,le variabili espresse da numeri più grandi o che assumono valori in grandi intervalli avrebbero un peso maggiore (ad esempio, maggiore varianza) di variabili espresse da numeri piccoli o definiti in un intervallo di valori limitato. Per evitare che ciò si verifichi, è necessario trasformare tutte le variabili in modo da uniformarne le unità di misura.

Il più comune metodo di scalatura è "l’autoscaling", che trasforma tutte le variabili in modo che ciascuna di esse abbia una media uguale a zero e una varianza unitaria. Altri metodi comunemente usati sono la centratura, in cui ciascuna variabile viene centrata intorno al proprio valor medio, e la scalatura di intervallo, in cui ogni variabile viene riscalata tra zero e uno.

ANALISI DISCRIMINANTE. L'analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra di loro correlate. I gruppi sono già definiti al momento dell'analisi, pertanto l'interesse è rivolto a definire un modello che consenta di assegnare un nuovo caso ad un gruppo predefinito, in funzione di un certo numero di variabili. Questa analisi è impiegata in medicina, come nel caso di in una serie di pazienti, colpiti da una stessa sindrome morbosa, studiati attraverso una serie di parametri chimico-clinici ai quali vengano accuratamente associati i principali sintomi clinici ed il decorso della patologia. Si suddivide quindi il campione di pazienti studiati in due gruppi: il gruppo di quelli guariti senza postumi e quello dei soggetti che presentano postumi più o meno gravi, una volta guariti. Con l'analisi discriminante è possibile definire un modello matematico che ci consenta di collocare un eventuale nuovo paziente, una volta misurati i parametri clinici, in uno dei due gruppi (con o senza postumi), in modo tale da ottimizzare la terapia proprio in funzione (anche) della prevenzione dei postumi. L’analisi discriminante effettua la comparazione tra gruppi sulla base di un gran numero di variabili e mettendo in luce quelle che rivestono un ruolo nella separazione dei gruppi. Le variabili possono essere anche misurate con unità non omogenee (vedi matrice dei dati precedente), in questo caso le varabili che presentano valori assoluti maggiori possono pesare maggiormente nell’analisi discriminante, pertanto è preferibile ricorrere alla standardizzazione delle stesse utilizzando una notazione come la seguente:

Dove  rappresenta la deviazione standardizzata, e d.s. rappresenta la deviazione standard relativamente alla i-ma variabile. Se l’analisi discriminante viene effettuata sulla base delle variabili standardizzate si hanno funzioni discriminanti, se al contrario utilizziamo i valori delle variabili originali si parla di funzioni di identificazione. Le funzioni di identificazione vengono solitamente impiegate nell’ambito degli studi biometrici per distinguere ad esempio sulla base del sesso o per classificare soggetti appartenenti a specie morfologicamente molto simili. Per distinguere tra n gruppi si possono calcolare un certo numero di funzioni (n-1) con una procedura dovuta a Fisher (1936) chiamata linear discriminant analysis.

Nell'analisi discriminate si trova una combinazione lineare di variabili che consente di calcolare il coefficiente di discriminazione (D) o funzione discriminante.

D = bo +b1x1 +….. bnxn

Dove D rappresenta un coefficiente discriminante, bo una costante, xn = n-ma variabile indipendente e bn =n-mo coefficiente della funzione discriminante. Per semplicità considereremo solo il caso della discriminazione fra due gruppi, ma le considerazioni fatte sono estendibili alla discriminazione fra più gruppi. Le funzioni discriminanti sono numerate (1,…., n-1) in base all’ammontare di varianza tra gruppi che viene spiegata. Il metodo di calcolo impiegato per la funzione discriminante è quello dei minimi quadrati, analogo a quello studiato per la regressione lineare multipla, che consente di ottenere, per i valori di D, una variabilità minima all'interno dei gruppi e massima fra i gruppi.

Per due gruppi (A, B) essendo k=2 esisterà una sola funzione discriminante i cui coefficienti sono dati dalla risoluzione della seguente equazione:

b=DX . W

dove

Dove W = matrice di dispersione,  = media della n-ma variabile del gruppo A, = media della n-ma variabile del gruppo B. I valori medi dei coefficienti di discriminazione per i due gruppi sono calcolabili nel seguente modo:

                 

con  = media della n-ma variabile indipendente del gruppo A, con  = media della n-ma variabile indipendente del gruppo B.

Le varianze del coefficiente di discriminazione per i due gruppi sono così calcolabili:

doverappresenta la matrice di dispersione del gruppo A, mentrerappresenta la matrice di dispersione del gruppo B.

Funzione discriminante.

La soglia discriminante deve essere tanto più vicina ad una delle due medie tanto minore è la deviazione standard del gruppo corrispondente, pertanto viene calcolata nel seguente modo:

Pertanto un nuovo elemento (ad esempio un nuovo paziente) viene assegnato al gruppo in funzione della soglia discriminante: se il valore di D è superiore alla soglia viene assegnato al gruppo con la media di D più alta, viceversa se il valore è più piccolo. L'assegnazione di un elemento ad un gruppo può essere effettuata sulla base di una probabilità, in funzione del valore dello scarto standardizzato fra il valore della media di gruppo ed il valore della soglia discriminante, come visto per gli scarti standardizzati della distribuzione di frequenza campionaria normale:

per il gruppo A:

per il gruppo B:

L’insieme degli oggetti appartenenti al medesimo gruppo forma una nuvola di punti che possono essere rappresentati graficamente nello spazio delle funzioni discriminanti. Una misura sintetica per rappresentare il gruppo è quella di determinare la posizione del centroide, che risulta come centro di massa degli oggetti del gruppo: dopo avere calcolato il valore delle funzioni discriminanti per ciascuna delle RK osservazioni che rappresentano il K gruppo, le coordinate del centroide rispetto alla funzione discriminante

Dove Di è il punteggio della funzione discriminate calcolato per l’i-esimo caso calcolato. La verifica della posizione dei centroidi dei gruppi studiati può essere valutata con il test lambda di Wilks.

Siano date due serie di osservazioni relative a due gruppi di individui, il gruppo A di 5 individui sani ed il gruppo B di 5 individui con iperglicemia. Le variabili misurate sono due la statura ed il peso.

 

GRUPPO A

 

GRUPPO B

 

casi

statura (x1A)

peso (x1a)

statura (x1B)

peso (x1b)

1

160

62

155

63

2

170

67

160

70

3

180

71

170

81

4

165

61

150

68

5

175

64

165

75

 

 

GRUPPO A

GRUPPO B

Media statura

170

160

Media peso

65

71.4

dev(x1)

250

250

dev(x2)

66

189.2

codev(x1x2)

105

190

Le statistiche rilevanti per il calcolo della funzione sono:



Sviluppando in forma matriciale avremo:

pertanto la funzione discriminante sarà:  

Utilizzando la funzione discriminante è possibile calcolare la statistica descrittiva di D per ciascun gruppo. Così facendo avremo:

 

GRUPPO A

GRUPPO B

media

69.90

53.39

varianza

16.41

16.61

dev. std

4.05

4.08

Utilizzando la formula per calcolare la soglia discriminante avremo:

=

Calcolando lo scarto standardizzato fra la media di D per il gruppo A o il gruppo B e la soglia discriminante è possibile calcolare la probabilità di una assegnazione errata di un nuovo caso rispettivamente al gruppo A o al gruppo B, pertanto:

==

la probabilità di ottenere un valore pari o superiore a 2.03 è reperibile sulle tavole della distribuzione z ed è pari a 0.021 (2.1%), pertanto sufficientemente bassa e tale da definire la funzione discriminante adeguata.

La selezione delle variabili da inserire nella funzione discriminante è effettuabile con metodi analoghi a quelli della regressione lineare multipla. Come nel caso della regressione lineare multipla, il metodo più utilizzato è quello stepwise. L'indice, da minimizzare, con tali metodi, è il lambda di Wilks (l ), definito come:

Pertanto il valore di l è analogo a R², per quanto concerne la selezione delle variabili in un modello regressivo lineare multiplo. Il cambiamento del valore di F (Fc) dopo l'entrata dell'i-ma variabile viene calcolato nel seguente modo:

dove n = numero dei casi, g = numero dei gruppi, p = numero delle variabili, = prima della aggiunta della i-ma variabile,= dopo l’aggiunta della i-ma variabile.

Una misura della bontà della funzione discriminante trovata è data dal rapporto che deve essere il più grande possibile.

Usando D è possibile discriminare fra i gruppi, ovvero assegnare un caso nuovo ad uno dei gruppi, tramite la regola di Bayes:

dove:

P(Gi) = (probabilità a priori) probabilità che un caso cada nell'i-mo gruppo quando non è utilizzabile alcuna informazione.

P(D|Gi) = (probabilità condizionale) probabilità che un caso, con un dato D, possa appartenere all'i-mo gruppo.

P(Gi|D) = (probabilità a posteriori) probabilità che un caso cada nell'i-mo gruppo, considerando tutta l'informazione disponibile. Tale probabilità deve essere la più grande possibile!

Nell'ambito dell'analisi discriminante è possibile calcolare anche la correlazione canonica che misura il livello di associazione fra D ed i gruppi ed è data da:

Usando il pacchetto statistico SYSTAT, e considerando il classico esempio di Fisher del 1936 dove si hanno i dati relativi a 150 fiori che possono essere classificati come appartenenti alle specie Setosa,Versicolor e Virginia (in questo caso le variabili sono state codificate come 1, 2, 3); la finalità dell’analisi statistica è quella di trovare una combinazione lineare per le quattro misure che consentano di classificare correttamente le tipologie dei fiori  su cui sono state realizzate le misure della lunghezza e della larghezza dei sepali e dei petali.

I principali passaggi dell’analisi discriminante sono sintetizzabili nei seguenti punti:

1-Calcolo dei coefficienti delle funzioni discriminanti (utilizzabili per la caratterizzazione dei Gruppi 1, 2 e 3 tramite le seguenti variabili: SEPALI lunghezza, SEPALi larghezza, PETALI lunghezza, PETALI larghezza).

2-Calcolo dei coefficienti di correlazione fra le singole variabili e le funzioni discriminanti (maggiore è il coefficiente, maggiore è il peso di una data variabile nell'ambito della funzione).

3-Calcolo dei coefficienti delle funzioni classificanti. Applicando i seguenti coefficienti alle varie osservazioni è possibile ottenere delle funzioni classificanti che servono per attribuire il caso ad un dato gruppo in funzione del valore maggiore calcolato.

<Bookmark(1)>

<Bookmark(2)>

 

Software: Microsoft Office

Plot della matrice dei dati di iris.

Nel primo riquadro vengono riportate le frequenze riscontrate relativamente a ciascun gruppo. Se in alcuni gruppi il codice della specie è assente i dati delle frequenze non vengono calcolati per quel dato campione.

Frequenze osservate

Setosa

Versicolor

Virginica

 50

50

50

Per ogni coppia di variabili viene calcolato il valore del test F di Fischer: questi valori sono proporzionali alle misure della distanza e vengono calcolati sulla base del valore di D2 di Mahalanobis.

Valori medi

 

Variabile

Setosa

Versicolor

Virginica

Sepali Lunghezza

5.006

5.936

6.588

Sepali Larghezza

3.428

2.770

2.974

Petali Lunghezza

1.462

4.260

5.552

Petali Larghezza

0.246

1.326

2.026

Variabile

Setosa

Versicolor

Virginica

Sepali Lunghezza

5.006

5.936

6.588

Sepali Larghezza

3.428

2.770

2.974

Petali Lunghezza

1.462

4.260

5.552

Petali Larghezza

0.246

1.326

2.026

 

 

 

 

 

 

 

 

 

 

 

Si osserva ad esempio che le specie Versicolor e Virginia sono vicine (105.3), mentre le specie di Setosa e virginia sono relativamente distanti tra di loro (1098.3).

Variabile

Setosa

Versicolor

Virginica

Setosa

0.0

 

 

Versicolor

 550.189

       0.000

 

Virginica

1098.274

105.313

0.000

Wilks' lambda Lambda =0.0234 G.L.=4,147,Approx. F=199.1454 G.L.= 8,288 prob =0.00. Nel confronto di coppie non è consigliabile l’utilizzo del valore di F poiché esistono problemi legati alle simultanee interferenze. (Matrice F tra gruppi G.L.=4, 144)

Variabile

G.L.

  F-to-remove 

Tolleranza

Sepali Lunghezza

2

4.72

0.347993

Sepali Larghezza

3

21.94

0.608859

Petali Lunghezza

4

35.59

0.365126

Petali Larghezza

5

24.90

0.649314

L’impiego del valore di F to remove consente di determinare l’importanza relativa della variabile inclusa nel modello. I gradi di libertà per ogni F rappresentano il numero dei gruppi meno 1 e al denominatore sono dati dal totale degli oggetti –il numero dei gruppi –numero delle variabili nel modello +1. Nel nostro caso 3-1, e 150 - 3 –4 +1, quindi 2 e 144.

Funzioni di Classificazione

 

Setosa

Versicolor

Virginica

CONSTANTE

-86.308

-72.853

-104.368

 

 

 

Variabile

Setosa

Versicolor

Virginica

Sepali Lunghezza

23.544

15.698

12.446

Sepali Larghezza

23.588

7.073

3.685

Petali Lunghezza

-16.431

5.211

12.767

Petali Larghezza

-17.398

6.434

21.079

Matrice di classificazione (casi nelle righe classificati nelle colonne).

Variabile

Setosa

Versicolor

Virginica

% corretti

Setosa

50

0

0

100

Versicolor

0

48

2

96

Virginica

0

1

49

98

Totali

50

49

51

98

Al termine del processo di classificazione, il risultato da noi ottenuto può essere valutato dall'analisi di una tabella, detta "matrice di confusione" o "matrice di classificazione", nella quale sono visibili gli oggetti realmente appartenenti a ciascuna classe (classe vera) e gli oggetti assegnati a ciascuna classe dal modello (classe assegnata). Nelle tabelle di classificazione, ogni caso viene classificato sulla base delle funzioni di classificazione sopra riportate. Per esempio per la specie Versicolor vengono classificati 48 fiori correttamente, mentre 2 fiori non sono classificati in questa specie. I risultati che appaiono in questa tabella vengono considerati ottimisti in quanto gli stessi casi vengono utilizzati per classificare e per calcolare le funzioni discriminanti. Un rimedio è possibile utilizzando la matrice di Jackknifed che utilizza una funzione ricavata da tutti i dati con esclusione dei dati del caso da classificare. Questo sistema rappresenta una cross-validation.

Matrice di classificazione di Jackknifed

Variabile

Setosa

Versicolor

Virginica

% corretti

Setosa

50

0

0

100

Versicolor

0

48

2

96

Virginica

0

1

49

98

Totali

50

49

51

98

I parametri di valutazione dei modelli di classificazione sopra descritti si riferiscono solo all'insieme di oggetti esaminati e sono una misura della capacità descrittiva del modello. Nell'analisi di classificazione è invece importante valutare anche l'affidabilità del modello per fini predittivi. Per conoscere le capacità predittive del modello si può utilizzare il metodo della validazione incrociata (cross-validation), che ripercorre tutte le tappe precedenti ricalcolando il modello con l'esclusione di un oggetto alla volta (metodo leave-one-out) o di un oggetto ogni k oggetti (leave-more-out), predicendo i valori della risposta per tutti gli oggetti esclusi dal modello.

La prima variabile canonica è una combinazione lineare tra le variabili che meglio discrimina i gruppi, la seconda è ortogonale alla prima e rappresenta la migliore combinazione tra le variabili. Dai nostri dati osserviamo il valore di 32.192 che risulta molto elevato relativamente al secondo ed indica come la prima variabile possa assorbire le differenze tra i gruppi. Se osserviamo la dispersione cumulativa, la variabile canonica spiega circa il 99%. Le correlazioni canoniche tra la prima variabile canonica e il set delle variabili definite dummy è molto elevata (Il numero delle variabili dummy è dato dal numero dei gruppi meno 1).

Eigenvalues

Correlazioni Canoniche

Dispersione cumulativa

32.192

0.985

0.991

0.285

0.471

1.000

Wilks' lambda=0.023 Approx. F=199.145 G.L.= 8,288. p-tail= 0.0000, Pillai's trace=1.192 Approx. F=53.466 G.L.= 8,290. p-tail= 0.0000,Lawley-Hotelling (traccia) = 32.477

Score canonico 

Variabile

1

2

Setosa

7.608

0.215

Versicolor

-1.825

-0.728

Virginica

-5.783

0.513

Le variabili canoniche sono alla fine valutate a livello di media di gruppo, a livello operativo rappresentano le coordinate x e y necessarie a costruire il grafico dello Score. In tale grafico vengono riportate le singole osservazioni, e un elisse di confidenza viene costruito con centro sul centroide del gruppo.

Rappresentazione grafica di analisi discriminante.

I metodi per la visualizzazione dei risultati dell’analisi discriminante sono diversi e possono offrire elementi utili per la comprensione della complessità del data set.

Distribuzione dei gruppi rispetto al primo fattore.

Un sistema per calcolare i coefficienti della funzione discriminante, considerando quale esempio il caso di due gruppi e tre variabili discriminati, è il seguente:

1.              si definiscono le matrici di devianza-codevianza (matrici di dispersione) per ogni gruppo, in maniera analoga a quanto fatto con il metodo semplificato di calcolo dei coefficienti di regressione lineare multipla: 

per il gruppo A:

 

x1A

x2A

x3A

x1A

dev(x1A)

cod(x1Ax2 A)

cod(x1Ax3A)

x2A

cod(x2Ax1A)

dev(x2A)

cod(x2Ax3A)

x3A

cod(x3Ax1A)

cod(x3Ax2A)

dev(x3A)

per il gruppo B:

 

x1B

x2B

x3B

x1B

dev(x1B)

cod(x1Bx2 B)

cod(x1Bx3B)

x2B

cod(x2Bx1B) 

dev(x2B) 

cod(x2Bx3B)

x3B

cod(x3Bx1B)

cod(x3Bx2B)

dev(x3B)

 

dev(x1)

cod(x1x2 )

cod(x1x3)

cod(x2x1)

dev(x2)

cod(x2x3)

cod(x3x1)

cod(x3x2)

dev(x3)

2) viene creata la matrice delle medie aritmetiche di ogni elemento delle precedenti matrici:

3) viene calcolata la differenza fra le medie delle variabili fra i due gruppi:

4) viene definito il sottostante sistema di equazioni lineari, la cui risoluzione con la regola di Cramer consente di ottenere i coefficienti cercati:

dev(x1)

cod(x1x2 )

cod(x1x3)

= x1

cod(x2x1)

dev(x2)

cod(x2x3)

= x2

cod(x3x1)

cod(x3x2)

dev(x3)

= x3

5) sostituendo alle variabili il loro valore medio è possibile calcolare i valori medi di D per i vari gruppi:

6) viene quindi calcolata la soglia discriminate fra i due gruppi:

Sono necessarie alcune raccomandazioni necessarie per l’impiego corretto dei metodi multivariati, per primo dobbiamo considerare che l’analisi multivariata si basa su due assunti relativamente alla struttura dei dati. Il primo assunto prevede che i dati siano tratti da variabili che presentano una distribuzione multivariata normale, secondo assunto è quello relativo alle covarianza che devono esser uguali in tutti i gruppi. Per quanto attiene la normalità questa viene testata separatamente per ogni variabile. Per la verifica della uguaglianza della covarianza si impiega il test di M Box. Una ulteriore precauzione deve essere presa nell’analisi della matrice di correlazione entro gruppi delle variabili per verificare l’esistenza di relazioni di indipendenza tra le stesse; se la correlazione tra variabili è molto alta, allora alcune possono esser spiegate da una combinazione lineare delle stesse. Una misura del grado di associazione lineare delle variabili è rappresentata dal grado di tolleranza, dove minore è la tolleranza maggiore è il grado di dipendenza.

CLUSTER ANALYSIS. Come l'analisi discriminante la Cluster Analysis classifica i casi in categorie. Comunque mentre l'analisi discriminante richiede la conoscenza preventiva della classificazione in modo tale da derivarne una regola classificativa, la Cluster Analysis consente di classificare i casi in categorie non precedentemente conosciute. Lo scopo dell’analisi di agglomerazione è quello di suddividere un campione multivariato in gruppi di casi omogenei, si tratta solitamente di mettere ordine ai dati; per questo motivo esistono diversi metodi per mettere in ordine una serie di dati e molte volte è richiesta una certa dose di soggettività. Si consideri ad esempio che il programma cluster di Systat prevede tre procedure di clustering ognuna delle quali prevede una numerosa serie di opzioni. Esistono poi i metodi di overlapping che prevedono che un oggetto possa essere presente in più di un clustering o se si adotta un sistema esclusivo il cluster compare una sola volta. La letteratura sui cluster è ampia e molte volte induce in errore poiché contiene definizioni diverse per termini che sono dei sinonimi.

CLUSTER GERACHICO- Mc Quitty 1960.

SINGLE LINKAGE CLUSTERING– Sokal et Sneath 1963.

JOINING CLUSTER– Hartigan 1975.

Il metodo maggiormente utilizzato nella rappresentazione è il cluster di tipo gerarchico ed ha rappresentazione ad albero dove la lunghezza dei rami rappresenta la similarità tra gli oggetti. Per questa analisi è molto importante scegliere accuratamente le variabili da considerare, poiché l'esclusione di variabili importanti potrebbe comportare l'assoluta inesattezza dei risultati analitici. I metodi di cluster analysis presuppongono quindi che non esistano classi stabilite a priori ma, al contrario, hanno come obiettivo quello di ricercare l'eventuale esistenza di raggruppamenti "naturali". L'esistenza dei gruppi viene valutata in base alle caratteristiche degli oggetti di ciascun cluster. Il livello di similarità tra n oggetti distribuiti in uno spazio p-dimensionale (dove p è il numero delle variabili) viene valutato in base alla loro distanza: si assume cioè che due campioni siano tra loro simili se la loro distanza è piccola, e che siano dissimili se la loro distanza è grande. É quindi possibile calcolare le distanze tra i diversi campioni utilizzando una tra le numerose misure di distanza disponibili (distanza Euclidea, di Mahalanobis, di Manhattan, di Minkowski, ecc.) e trasformare una misura di distanza in una misura di similarità (sempre compresa tra zero e uno) con delle semplici trasformazioni.

L'analisi si basa sui concetti di similarità e di distanza, concetti analoghi anche se opposti: la distanza è minore per una maggiore similarità. Oggetti simili appariranno sullo stesso cluster mentre oggetti diversi saranno posizionati su cluster distanti tra loro. La produzione di una matrice di correlazione può esser utilizzata nella analisi dei cluster ma si hanno implicazioni diverse. In generale le misure di correlazione (Pearson, Sperman, Tau..) non subiscono le influenze della scala di misura degli oggetti. Esiste comunque la necessità di standardizzare i dati per evitare che una variabile possa influenzare eccessivamente la dissimilarità.

Oggetti

X1

X2

X3

X4

A

10

2

11

900

B

11

3

15

895

C

12

4

12

760

D

13

1

13

874

Nel nostro caso la variabile X4 presenta valori estremamente elevati che consigliano di standardizzare in base alla media. Il metodo maggiormente usato per misurare la distanza fra i casi è la distanza Euclidea al quadrato definita come la sommatoria delle distanze al quadrato fra tutte le variabili di due differenti gruppi: