CopertinaAnnamaria

Yüklə 21,24 Mb.

səhifə	45/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 41 42 43 44 45 46 47 48 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

Dimension	Value	Inertia (%)
Cumulative inertia (%)
1	0.321318	17.6	17.6
2	0.146521	8.0	25.7
3	0.091230	5.0	30.7
4	0.069890	3.8	34.5
5	0.067433	3.7	38.2
6	0.057522	3.2	41.3
7	0.052371	2.9	44.2
8	0.048724	2.7	46.9
9	0.047405	2.6	49.5
10	0.045890	2.5	52.0
11	0.043948	2.4	54.4
12	0.042319	2.3	56.7
13	0.038560	2.1	58.8
14	0.036828	2.0	60.9

Tabella 3.12 - Dimensioni che contribuiscono per più del 2% all’inerzia del modello di analisi delle corrispondenze per la classi1cazione delle discipline dell’alta formazione (Simpson, 2015, p. 6).

Figura 3.18 - Biplot delle analisi delle corrispondenze sulle prime due dimensioni, con i logistic plot delle discipline universitarie nella classi1cazione esistente (Simpson, 2015, p. 7).

Figura 3.19 - Biplot delle analisi delle corrispondenze sulle prime dimensioni delle discipline precedentemente non classi1cate in uno studio per la classi1cazione delle discipline dell’alta formazione (Simpson, 2015, p. 8).
100 - Analisi Multivariata e Learning Analytics: metodi e applicazioni

CAPITOLO 4

REGRESSIONE LINEARE

Al termine del capitolo, il lettore sarà in grado di:
· descrivere le procedure alla base della regressione lineare semplice e multivariata;
· spiegare i valori relativi alla significatività e bontà dei modelli di regressione lineare;
· elencare esempi della ricerca educativa nei quali è stata utilizzata la regressione lineare multivariata.

4.1 - Regressione lineare

La regressione lineare rappresenta forse il metodo di analisi bivariata e multivariata più noto nelle scienze sociali. È una tecnica molto utilizzata anche in altri ambiti scienti'ci (ingegneria, matematica, 'sica ecc.) ma con “nomi” diversi: approssimazione, interpolazione, 'tting.
Si tratta di una tecnica di dipendenza de'nita asimmetrica poiché alle variabili impiegate non viene attribuito lo stesso ruolo: quelle de'nite indipendenti vengono utilizzate per stimare (o approssimare) il comportamento di un’unica variabile de'nita dipendente. Conosciamo già i termini “dipendente” e “indipendente” e il loro signi'cato (vedi capitolo 2). Nel metodo della regressione le variabili indipendenti, x_i, sono anche de'nite regressori, predittori, variabili esplicative e possono essere di tipo quantitativo o qualitativo (in quest’ultimo caso sono trattate come dummy o opportunamente trasformate); la variabile dipendente, y, detta anche variabile risposta, è una variabile necessariamente quantitativa (se y è una variabile categoriale o ordinale, si parla di regressione logistica, tecnica descritta nel capitolo successivo).
Predire il comportamento della variabile dipendente è lo scopo principale dei metodi di regressione nella formulazione e risoluzione dei problemi di ricerca. La regressione è usata però anche per spiegare gli effetti delle variabili indipendenti sulla variabile dipendente a partire dalla rilevazione della signi'catività e dell’intensità degli stessi effetti, della forza cioè, con cui si manifesta no.
Nella pratica, in maniera estremamente sintetica, l’uso di questo metodo ci porta a de'nire la relazione che lega le x_i alla y e che viene espressa attraverso una funzione matematica in base alla quale possiamo:

calcolare i valori della y stimati a partire da quelli delle x_i non osservati;
attribuire un’interpretazione ai parametri che compongono la funzione e de'niscono la relazione fra le variabili;
confrontare modelli costruiti utilizzando variabili e tecniche diverse.

Alla luce di quanto detto, possiamo perciò de'nire la regressione come un metodo model-based ossia 'nalizzato all’individuazione di un modello statistico e, dunque, di una funzione matematica (de'nita da una formula e, se possibile, rappresentata attraverso una curva geometrica) che descriva l’andamento della distribuzione dei dati raccolti empiricamente, dando una forma regolare alla relazione che esiste fra la variabile dipendente e la/le variabili indipendenti.
Marcello Galli e Tommaso Minerva (1999) affermano che:
“Un modello statistico è una rappresentazione semplicata, analogica e necessaria della realtà derivata da osservazioni sperimentali oltre che da deduzioni logiche. L'aspetto dialettico nella costruzione di un modello statistico deriva dalle opposte esigenze di semplicare la struttura senza perdere in fedeltà, e tale con itto è ineliminabile. Infatti, tutti i modelli sono intrinsecamente sbagliati: essi sono parzialmente e provvisoriamente utili, e sono destinati a essere sostituiti con l'avanzare del progresso scientico e l'afnamento della conoscenza. Ciò che realmente conta non è la validità ontologica delle relazioni accertate ma l'efcacia comparata in rapporto agli obiettivi. È l'obiettivo, infatti, che rende utile, efcace e temporaneamente valido il modello.” (ivi, p. 5/48)
Speci'care un modello signi'ca: de'nire la funzione che lega y con le x_i; de'nire le x_i incluse nella relazione; de'nire l’insieme dei parametri legati alle x_i. Come abbiamo appena letto, non esistono modelli perfetti e assoluti; esistono modelli che in maniera più completa di altri riescono a esprimere relazioni fra
variabili in relazione agli obiettivo di studio. Pertanto da un lato è necessario fare delle scelte nella fase di analisi anche basandosi sulla conoscenza del fenomeno che si sta studiando, dall’altro è indispensabile capire i limiti di validità dei modelli ottenuti.
La formulazione generica per descrivere la funzione, la relazione cioè fra y e le x_i è
(4.1)
Y^ = f (x_i) + ε
dove Ŷ è la variabile dipendente stimata, f la funzione matematica/il tipo di
relazione, x_i le variabili indipendenti/esplicative/regressori e ε l’errore casuale.
Nella regressione lineare, come dice il nome stesso, la funzione che esprime la relazione fra le variabili è una retta. Non necessariamente la relazione fra due variabili assume la “forma” di una retta: ci sono curve come parabole, esponenziali, logaritmiche, funzioni periodiche, iperboli e altre. Certamente la retta è la curva più semplice da studiare e pertanto la si preferisce alle forme non lineari anche per via di una maggiore solidità del modello statistico sottostante. Molto spesso nel caso in cui le distribuzioni non siano interpolate da una retta, vengono applicate trasformazioni ai dati per poter far rientrare il caso studiato in quello lineare. Non sempre questa operazione è possibile e di conseguenza altri strumenti e altri metodi sono usati per analisi di tipo non lineare.
Distinguiamo la regressione lineare in semplice o multivariata in base al numero di variabili indipendenti considerate. La regressione semplice rientra fra le tecniche di analisi statistica bivariata e prende in considerazione un’unica variabile indipendente come predittore della y. La regressione multivariata utilizza più variabili indipendenti per de'nire la y.
Partiamo nella nostra discussione parlando di regressione lineare semplice per poter comprendere il processo alla base del metodo multivariato.

Regressione lineare semplice

Come anticipato, nella regressione lineare semplice abbiamo due variabili, x e y, e n osservazioni raccolte empiricamente.
La x potrebbe essere il voto agli esami di maturità per gli n studenti di una scuola secondaria di secondo grado di una certa città e la y la media dei punteggi conseguiti negli esami sostenuti durante il primo anno all’università. Op pure la x il numero di libri letti in un anno da n bambini della quarta primaria in estate e la y la velocità di lettura degli stessi al rientro dalle vacanze. O ancora la x la durata di n videolezioni inserite in un corso online e la y il numero di visualizzazioni da parte degli utenti iscritti.
Il nostro scopo è veri'care se esiste una relazione fra le variabili x e y e capire se questa relazione può essere sintetizzata nell’andamento di una retta. Conoscere la formula matematica che descrive la relazione ci permette di dire con quanta forza il fenomeno rappresentato dalla variabile x incide sul fenomeno determinato dalla y e ci dà la possibilità di stimare il valore della y per nuovi valori della x non osservati.
Riprendendo gli esempi che torneranno utili anche nel seguito della discussione: quanto il voto in uscita di uno studente delle scuole secondarie condiziona i punteggi dei risultati negli esami nel primo anno di università? Possiamo stimare la media degli esami delle matricole per un nuovo gruppo di studenti una volta che sono noti i voti degli esami di maturità?
O ancora: che tipo di relazione lega la durata dei video al numero delle corrispettive visualizzazioni? Riusciamo a veri'care l’ipotesi che più brevi sono i video e più numerose sono le visualizzazioni da parte degli utenti in un corso online?
Come possiamo scrivere questi fenomeni in un’equazione matematica?
Ipotizziamo che la relazione fra i fenomeni descritti abbia un andamento lineare, rappresentiamo i dati raccolti empiricamente in uno scatterplot e scegliamo la retta più vicina ai punti riportati di cui calcoliamo l’equazione.
L’equazione di una retta generica che lega y e x in una relazione lineare semplice è:
(4.2)
y = a + bx
dove

a è detta intercetta ed è il valore di y in corrispondenza di x uguale a 0. Gra'camente a è il valore di y nel punto in cui la retta tracciata interseca l’asse delle ordinate. Negli esempi, a è la velocità di lettura di un bambino che abbia letto 0 libri durante l’estate;
b è il coef'ciente angolare della retta, ossia l’inclinazione della retta nel piano. In ambito statistico b è de'nito coefciente di regressione e rappresenta il valore aggiunto alla y aumentando la x di una unità. Negli esempi, b è la quantità che aggiungiamo al calcolo della velocità di lettura per ogni libro in più che un bambino legge durante le vacanze estive. b può assumere valori positivi e negativi che indicano una dipendenza positiva o negativa fra le due variabili. Assume il valore 0 quando la retta disegnata è parallela all’asse delle ascisse e di conseguenza le variabili sono completamente indipendenti dato che la y resta costante per qualunque valore assunto dalla x . Negli esempi: b = 0 se la velocità di lettura resta la stessa qualunque sia il numero di libri letto dai bambini del campione analizzato. Di conseguenza i due fenomeni, lettura estiva dei libri e velocità di lettura, risultano essere completamente indipendenti.

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 41 42 43 44 45 46 47 48 ... 89