CopertinaAnnamaria

Yüklə 21,24 Mb.

səhifə	31/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 27 28 29 30 31 32 33 34 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

Figura 3.2 – Risultati di una PCA realizzata su un dataset con sei variabili (esami). L’analisi dati è stata realizzata in R con la funzione di base prcomp (libreria stats) e visualizzata con la funzione summary. Nelle righe troviamo deviazione standard, varianza e varianza cumulata per le sei componenti (colonne).
Osserviamo che 6 variabili ci hanno portato alla de1nizione di 6 componenti nelle colonne indicata come PC1, PC2, … , PC6. La prima riga ci restituisce la deviazione standard delle componenti. La seconda la proporzione di varianza ossia il rapporto fra la varianza della componente principale (che ricordiamo essere il quadrato della deviazione standard della riga precedente) e la somma delle varianze delle 6 componenti ottenute. In terza riga vediamo poi la proporzione di varianza cumulata ossia la somma della proporzione di varianza per componenti successive.
Usando l’esempio siamo giunti quindi alla terza e alla quarta fase di lavoro nella PCA: (3) scegliere un numero ridotto di componenti e (4) veri1care la relazione esistente fra le variabili iniziali dello studio e le componenti ottenute.
Dal summary in Figura 3.2, capiamo che la prima componente PC1 spiega il 51,92% della varianza del dataset; la PC2 solo il 16,57%; la terza PC3 il 9,99% e così via. Come detto, il valore della varianza diminuisce andando avanti con le componenti. La proporzione cumulata ci dice che se decidessimo di tenere in considerazione solo le prime due componenti, spiegheremmo il 68,49% (ossia sommando i valori della riga precedente: 51,92% + 16,57%) della varianza delle variabili; aggiungendo una terza, raggiungiamo il 78,48% della varianza spiegata (51,92% + 16,57% + 9,99%).
Considerare la proporzione cumulata di varianza è uno dei metodi per de1nire il numero di variabili a cui fermarsi. Ovviamente af1nché la procedura abbia senso, non possiamo considerare nell’analisi tutte le componenti estratte. Sarebbe sciocco applicare una trasformazione su un dataset di 6 variabili come in questo caso per ottenere 6 componenti. Sarà necessario invece de1nire un numero di componenti principali (da cui il nome della tecnica) da considerare come de1nitive e rappresentative dell’intero dataset sacri1cando il minor numero di informazioni.
Oltre alla proporzione cumulata della varianza, possono essere usati metodi comuni anche all’analisi fattoriale per de1nire il numero di componenti a cui fermarsi. Uno di questi prevede che si considerino principali solo le componenti che hanno come autovalore un numero superiore a 1 (Kaiser-Guttman rule) af1nché spieghi il signi1cato di almeno una variabile originale. Altro metodo è quello della lettura di uno scree test (Figura 3.3), nel quale vengono plottati le componenti con gli autovalori. Nella visualizzazione gra1ca si identi1ca il punto in cui gli autovalori cominciano ad assumere valori simili fra loro e la retta disegnata (in blu) assume un andamento lineare poiché la varianza singola comincia a dominare la struttura della varianza comune. Le componenti che spesso vengono considerate sono quelle antecedenti al punto di variazione dell’andamento della retta o a quello immediatamente successivo (Es. due o tre in Figura 3.3).

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 27 28 29 30 31 32 33 34 ... 89