CopertinaAnnamaria

Yüklə 21,24 Mb.

səhifə	68/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 64 65 66 67 68 69 70 71 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

Figura 7.2 - Approccio ordinale/non metrico del MDS: è rispettato l’ordinamento delle distanze.
È facile capire che nel MDS metrico le variabili dovranno necessariamente essere quantitative dato che sono i valori delle distanze ad interessarci; nel MDS ordinale invece, dato che centrale è l’ordinamento, possono essere osservate anche variabili qualitative che introducono nell’analisi valutazioni soggettive come negli esempi precedenti relativi alle opinioni sul confronto di libri di testo o metodologie didattiche.
Nell’approccio classico/metrico, lo scopo è trovare una con.gurazione su un basso numero di dimensioni in cui le distanze reali e calcolate fra i punti risultino simili e dunque, trovare una nuova matrice distanza con un numero inferiore di dimensioni nella quale gli oggetti conservano la stessa distanza fra loro.
Per tale ragione le coordinate sono calcolate attraverso l’analisi delle componenti principali per le k variabili scelte oppure attraverso il metodo dei minimi quadrati minimizzando in una regressione lineare la differenza fra le distanze reali e quelle teoriche.
Il criterio per misurare la bontà dell’approssimazione è la funzione di stress o tness di cui esistono più varianti. La calcoliamo qui come radice quadrata del rapporto fra la sommatoria del quadro delle differenze fra le distanze osservate δ_ij e teoriche d_ij e la sommatoria del quadrato delle distanze calcolate.
(7.1)
Stress
Se le distanze reali e quelle ottenute dalla rappresentazione gra.ca coincidono, e quindi se la matrice originale delle distanze osservate coincide con quella delle distanze calcolate, il valore dello stress sarà pari a 0.
L’algoritmo di riposizionamento che calcola le coordinate dei punti nel nuovo sistema a k dimensioni lavora per trial & error (esistono vari algoritmi ma quasi tutti procedono per tentativi successivi => trial, in cui si mantiene di volta in volta la con.gurazione migliore scartando quelle peggiori => error). Sempli.cando, l’algoritmo imposta i punti, calcola le distanze d_ij e la funzione di stress. Se il valore di quest’ultima non è soddisfacente, ripete il ciclo in un processo iterativo: modi.ca la con.gurazione dei punti, calcola le distanze d_ij e la funzione di stress. La procedura si interrompe quando il valore dello stress raggiunge un valore accettabile oppure si giunge a convergenza di un valore da noi indicato per lo stress o i tentativi oppure quando anche ripetendo le operazioni non si ottengono miglioramenti. Nelle prime con.gurazioni nelle quali distanze osservate e sperimentali sono molto diverse fra loro, lo stress può tendere a 1. I valori dello stress sono considerati buoni quando sono prossimi allo 0,05; valori attorno a 0,20 indicano un poor t.
Nell’approccio ordinale/non metrico, la con.gurazione dei punti cercata deve conservare l’ordinamento delle distanze osservate. Calcoliamo quindi, dalle distanze sperimentali d_ij, le d^{^}_ij(de.nite dissimilarità) tali che queste ultime siano nello stesso ordine di rango delle distanze reali (o in quello inverso per le similarità). Per passare dalle d_ij alle d^{^}_ij, si usa il metodo della regressione monotona dei minimi quadrati (regressione non necessariamente lineare purché la funzione di regressione sia crescente o decrescente rispettando l’ordinamento delle distanze).
Nella funzione di stress le distanze osservate vengono confrontate con quelle d^{^}_ijottenute dalla procedure di approssimazione (tting). Si usa in questo caso il Kruskal’s stress, tipo I (detto semplicemente stress).
(7.2)
Kruskal^'s Stress
I valori dello stress possono essere plottati in uno scree plot con il numero di dimensioni per scegliere il numero di dimensioni più adeguate a descrivere il dataset, quando non si può scegliere il numero di dimensioni a priori per un qualche motivo.
Lo stress è uno dei metodi per valutare la bontà di adattamento della con.gurazione dei punti (e quindi delle coordinate, i valori delle dimensioni) nell’analisi, ma non l’unico.
Altra soluzione è quella di rappresentare in un plot distanze teoriche (ordinate) e distanze osservate (ascisse) dalla distanza minore alla maggiore. Questo gra.co è noto come diagramma di Shepard. Se il fattore stress è pari a 0, i punti saranno su una retta che passa per l’origine. Una regressione lineare, tra distanze osservate e distanze generate dalla procedura di ottimizzazione, può contribuire a mostrare la bontà di adattamento del posizionamento multidimensionale. Il valore di R² ci dice quanto scarto delle distanze viene spiegato in una relazione lineare; se R² è prossimo a 1, la con.gurazione ripropone in maniera soddisfacente le distanze osservate.
Anche nel MDS attribuire nomi agli assi può essere un utile strumento di interpretazione dei risultati. La posizione di un punto in un quadrante positivo/ negativo non contraddistingue l’oggetto in base al segno ma all’oscillazione fra le dimensioni individuate sugli assi.
Utilizziamo due dataset che già conosciamo per applicare il MDS: il dataset dei risultati degli esami degli studenti del corso di laurea in Digital Education usato nel capitolo sulla cluster analysis (cap. 6); i risultati a un questionario sull’e-proctoring usato già come esempio nell’analisi delle corrispondenze multiple (cap. 3). In entrambi i casi siamo davanti a prossimità non dirette, dati raccolti non direttamente come distanze/differenze ma come dati/opinioni in riferimento alle unità statistiche.
Il primo dataset è composto da 6 variabili e 110 osservazioni (ridotte a 101 escludendo gli studenti che non hanno conseguito alcun esame). Usare il MDS in questo caso ci permette di cogliere la struttura che sottende i meccanismi di superamento degli esami a partire dalle distanze fra i voti conseguiti nelle prove. Usiamo in questo caso un MDS classico perché ci troviamo di fronte a variabili metriche e di conseguenza non solo possiamo tenere in considerazione l’ordinamento delle distanze ma anche il valore reale delle stesse. In R usiamo cmdscale, una delle funzioni della libreria di base stats. Per scegliere il numero di dimensioni da inserire nell’analisi, possiamo valutare il valore degli autovalori della matrice di trasformazione. Il numero degli autovalori calcolabili è pari a quello delle unità statistiche del campione. Plottando gli autovalori con i numeri delle dimensioni possibili otteniamo un gra.co come in Figura 7.3.
L’analisi di un simile gra.co si presta a considerazioni soggettive da parte del ricercatore. Dove ci fermiamo? Se prendiamo un grande numero di dimensioni (per esempio 8 o più) tratteniamo la quasi totalità di informazione ma perdiamo quasi completamente l’obiettivo di ridurre drasticamente le dimensioni del campione. Se prendiamo poche dimensioni (ad es. 2) cogliamo l’obiettivo di una importante riduzione della dimensionalità ma rischiamo di perdere molta informazione utile. Bisogna bilanciare queste due esigenze contrapposte. La regola del pollice è quella di considerare i punti in cui c’è una signi.cativa variazione di pendenza con successiva stabilizzazione o comunque una riduzione meno pronunciata. In questo gra.co (Figura 7.3) sembrerebbe un punto tra 3 e 4.

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 64 65 66 67 68 69 70 71 ... 89