CopertinaAnnamaria

- Analisi delle componenti principali

Yüklə 21,24 Mb.

səhifə	29/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 25 26 27 28 29 30 31 32 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

3.2 - Analisi delle componenti principali

L’analisi delle componenti principali (Principal Component Analysis, PCA) è, come abbiamo anticipato, una tecnica di estrazione dei dati e riduzione della dimensionalità che viene a volte utilizzata come unica tecnica di analisi in uno studio, altre all’interno di un’analisi fattoriale per l’estrazione dei fattori, altre ancora come primo passo in una ricerca più complessa dove, dopo la riduzione delle dimensioni, vengono applicati altri metodi speci1ci per rispondere agli obiettivi dell’indagine.
Differentemente dall’analisi fattoriale, la PCA è una tecnica descrittiva, senza intenti di generalizzazione. Si accomuna invece all’EFA, poiché lavora su variabili quantitative. Useremo la PCA, ad esempio, per sintetizzare con pochi elementi i voti conseguiti in tutti gli esami di un determinato corso di laurea da parte di un gruppo di studenti.
Lo scopo principale della PCA è sostituire n variabili correlate fra loro (esempio: i voti degli esami) con un numero inferiore di variabili, de1nite componenti, fra loro non correlate. La condizione per effettuare questo scambio è quella di conservare la più alta percentuale possibile di informazioni sull’andamento delle distribuzioni osservate. In pratica informazioni sulla loro variabilità o in maniera ancora più concreta sulla varianza delle variabili, misura che assume un ruolo centrale in queste tecniche e ci dice come sono distribuite le osservazioni e come variano rispetto alla media. Per raggiungere questo obiettivo si lavora su una trasformazione dello spazio dimensionale per ridurre la varianza di alcune variabili estraendo dall’analisi soltanto delle componenti che sono dimensioni reali (non ipotetiche e stimate come nell’EFA) e, nella pratica, combinazioni lineari delle variabili dello studio.
Come si procede nell’analisi concretamente? I seguenti step spiegano le procedure solo accennate 1nora:

veri1chiamo che le variabili siano in relazione fra di loro;
determiniamo le componenti effettuando una rotazione nello spazio dimensionale;
scegliamo un numero ridotto di componenti da conservare nell’analisi;
veri1chiamo la relazione esistente fra le variabili iniziali dello studio e le componenti ottenute.

La prima azione da compiere per applicare la PCA quindi è veri1care la relazione fra le variabili iniziali. L’operazione viene compiuta attraverso la determinazione della matrice di covarianza nella quale la presenza di alti valori indica che le variabili variano insieme e dunque sono in una qualche relazione fra loro. Tuttavia, af1nché la differenza di scale nella covarianza non incida sui risultati è preferibile sostituire, come nella pratica accade quasi sempre, la matrice di covarianza con la matrice di correlazione. Alte correlazioni fra le variabili ci dicono che fra di esse esistono delle relazioni.
Ciò fatto, potremo passare quindi alla seconda fase per determinare le combinazioni lineari fra le variabili che identi1cano le componenti. Avremo tante componenti quante sono le variabili e potremo osservare che la somma della varianza calcolata per le variabili originali misurate è pari alla somma della varianza calcolata per le componenti. Le informazioni sulla varianza delle variabili, cioè sulla variabilità, non si perdono ma sono ricombinate nella varianza delle componenti. Quando le variabili originali sono standardizzate, la varianza per ogni variabile è pari a 1 e di conseguenza la somma delle varianze corrisponde al numero di variabili dello studio, tutte contribuiscono con uno stesso peso sulla varianza totale.
Ma come si trovano le componenti ossia le combinazioni lineari delle variabili osservate? In estrema sintesi bisogna trovare i valori da attribuire ai coef1cienti a_pp per ottenere le Y_p dalle seguenti relazioni:
(3.1)
Y1=a11x1+a21x2+a31x3+...+ap1x p
Y2=a12x1+a22x2+a32x3+...+ap 2x p Y3=a13x1+a23x2+a33x3+...+ap3xp
...
Y p=a1 p x1+a2 p x2+a3 p x3+...+ap p xp
dove con x_p indichiamo le variabili osservate, Y_p le componenti da de1nire, a_pp i pesi che de1niscono quanto ogni singola variabile contribuisce a determinare ciascuna componente.
Queste espressioni sono il risultato della trasformazione nello spazio dimensionale a cui abbiamo accennato 1nora e che può essere spiegata facilmente in un piano considerando un dataset composto solo due variabili di partenza (restiamo nell’esempio dei voti considerando solo due esami).
Poniamo che le variabili (i risultati dei due esami) abbiano un’alta correlazione fra di loro (0,81 nel caso in Figura 3.1). In tal caso, le osservazioni saranno disposte all’incirca lungo una retta nel piano cartesiano. Per riuscire a lavorare sulle stesse osservazioni, riducendo le dimensioni (e dunque il numero delle variabili) si possono ruotare gli assi nel piano in modo che la varianza di una delle due variabili sia minimizzata e tutta la varianza da studiare appartenga a un’unica variabile. In Figura 3.1 gli assi rotati sono indicati con la linea tratteggiata e le maiuscole X e Y. Con d indichiamo la distanza dei punti dall’asse X, distanza che è inferiore a quella dello stesso punto dall’asse x. Nel nuovo sistema di assi XY, la distanza rispetto all’asse X è minimizzata; più elevata è invece la distanza dei punti dall’asse Y. La varianza della dimensione Y (Exam 1) è ridotta mentre è aumentata quella della dimensione X. Le coordinate in cui sono espressi i punti nel nuovo sistema di riferimento sono combinazioni lineari delle precedenti espresse nel sistema xy e la varianza della variabile indicata come Exam 2 ha un peso maggiore ai 1ni del calcolo.
Come detto già, nella trasformazione non si perde la varianza delle variabili che resta espressa dalla varianza delle componenti.
Con l’uso di questa tecnica assumiamo che la varianza speci1ca di ciascuna variabile (ossia la varianza determinata per lo più da errori di misura) non inGuenzi la variabilità osservata che consideriamo come varianza totale e che corrisponde alla variazione derivante dal legame di ciascuna variabile con la componente latente.

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 25 26 27 28 29 30 31 32 ... 89