CopertinaAnnamaria

Yüklə 21,24 Mb.

səhifə	59/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 55 56 57 58 59 60 61 62 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

6.1.1 - Fasi di realizzazione di una cluster analysis

Figura 6.1 - Scatterplot dei voti conseguiti in due esami dagli studenti del CdL di Digital Education. Nella /gura si distinguono nei cerchi in rosso 4 cluster con caratteristiche simili.
Lo scopo principale delle tecniche di cluster analysis non è tanto quello di generalizzare i risultati ottenuti quanto di individuare naturali raggruppamenti nei campioni. Si tratta infatti di un metodo descrittivo e non inferenziale per cui molti degli assunti sulla normalità, linearità e omoschedasticità non sono così rilevanti come in altre tecniche.
La cluster analysis è considerata una tecnica esplorativa, che cioè permette di studiare la composizione di un campione per trovare tendenze strutturali nella similarità fra le unità statistiche. Può avere comunque /nalità confermative se confrontiamo il dataset osservato con una struttura in gruppi ipotizzata sulla base di precedenti studi e analisi. Nella tecnica si mette in atto un processo di riduzione che l’analisi fattoriale conduce sulle variabili: nella cluster analysis le osservazioni vengono sintetizzate in un numero ridotto di gruppi con una perdita di informazioni che le procedure di clustering provano a minimizzare.

6.1.1 - Fasi di realizzazione di una cluster analysis

Nel processo di clusterizzazione il ricercatore sceglie le variabili da sottoporre all’analisi e i metodi da utilizzare per misurare distanze e creare raggruppamenti; de/nisce le regole per fermare il processo (stopping rules) di de/nizione del numero di cluster a cui fermarsi e interpreta i pro/li interni a ciascun cluster (proprio come accade per noi nella riorganizzazione della libreria: scegliamo la caratteristica in base alla quale dividere i libri fra gli scaffali, valutiamo a quale categoria appartiene ogni testo e cerchiamo similarità fra i gruppi così creati). Gli interventi da parte del ricercatore e le diversità fra le numerose tecniche di clustering che nel tempo sono state prodotte impediscono che i processi di analisi portino a soluzioni univoche e ci fa parlare della cluster analysis come di un processo scienti/co e al contempo come di un’arte (Hair et al., 2014, p. 428).
Tre sono gli elementi chiave nella realizzazione di una analisi cluster: il modo in cui misuriamo la similarità − e di conseguenza le differenze, che si traducono in una misura di distanza − fra gli elementi che costituiscono il gruppo, la procedura attraverso cui costruiamo i cluster, l’interpretazione e la validazione dei gruppi costituiti.
Descriviamo di seguito il processo di applicazione della tecnica che è schematizzato nella Tabella 6.1.
La fase iniziale di lavoro prevede la de/nizione degli obiettivi dello studio e la selezione delle variabili da prendere in considerazione nella costituzione dei cluster. Nello screening del dataset è importante veri/care la presenza di:

fenomeni di multicollinearità fra le variabili che potrebbero modi/care il peso delle dimensioni osservate nella costituzione dei gruppi: variabili altamente correlate fra loro che magari sono riferibili a uno stesso set di informazioni assumono maggiore rilevanza nella composizione dei cluster;
corretta costituzione del campione che deve essere numeroso e rappresentativo della struttura della popolazione: se così non fosse, raggruppamenti della popolazione sottorappresentati nel campione potrebbero essere assimilati a outlier;
omogeneità delle scale con cui sono espresse le variabili: qualora le modalità siano espresse in scale diverse, è necessario standardizzare le variabili.

Concluse le operazioni di preparazione dei dati, si passa alla fase di creazione dei gruppi e l’applicazione di algoritmi per raggruppare i cluster.
L’articolazione dei gruppi parte dalla de/nizione della similarità delle unità statistiche che li compongono. La similarità rappresenta il grado di corrispondenza fra tutte le variabili usate nell’analisi.
Per le variabili quantitative esistono due metodi per misurare la similarità.
Il primo e anche il meno usato, più focalizzato sugli schemi e le relazioni fra le variabili, è il calcolo del coef/ciente di correlazione fra i pro/li di due unità. Valori più alti di correlazione sono espressione di una maggiore af/nità fra le unità che quindi verranno inserite in uno stesso cluster poiché simili.
Il secondo metodo, più che calcolare la similarità, veri/ca la dissimilarità, in quanto non tiene in considerazione la somiglianza fra due unità ma la distanza che esiste fra le stesse. Il metodo calcola quanto due oggetti sono distanti fra di loro e raggruppa quelli più vicini.
Le distanze possono essere calcolate in più modi. Parlando dell’analisi delle corrispondenze (capitolo 3), abbiamo in parte affrontato questo tema che ora riprendiamo e approfondiamo.
Fra le più note distanze vi è la distanza euclidea, che possiamo visualizzare in analisi bivariate in un piano bidimensionale come la lunghezza del segmento che unisce i due punti di cui stiamo misurando la similarità e che in maniera più generale nelle analisi multivariate corrisponde alla radice quadrata della somma del quadrato delle distanze fra tutte le variabili che de/niscono le unità statistiche. Viene anche usata in alcuni casi direttamente senza estrazione della radice quadrata e con l’aggiunta di pesi che possono essere attribuiti alle singole variabili qualora sia necessario assegnare ad alcune un peso maggiore nel processo di clusterizzazione.
Altra distanza è quella di Manhattan, anche detta city-block, che somma le distanze assolute fra le variabili. Una sua variazione è conosciuta come distanza di Chebyshev, dove la distanza è il valore massimo fra le differenze dei valori assoluti.

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 55 56 57 58 59 60 61 62 ... 89