CopertinaAnnamaria

Yüklə 21,24 Mb.

səhifə	48/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 44 45 46 47 48 49 50 51 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

4.1.1 - Interpretazione e afdabilità dei modelli, selezione delle variabili

y = a + b₁x₁ + b₂x₂ + b₃x₃ + ⋯ + b_nx_n + ε
dove gli x_n sono i predittori e le b_i sono i coef'cienti parziali di regressione e
indicano quanto la y aumenta a causa di una variabile tenendo costanti tutte le altre.
Cosa signi'ca? Consideriamo il caso già proposto in cui la velocità di lettura sia la nostra y. Oltre al numero di libri letti in un anno (x₁), aggiungiamo in un modello multivariato altre variabili esplicative come la conoscenza delle regole grammaticali misurata in un questionario (x₂), il livello di piacere nella lettura in una scala con punteggi da 1 a 5 (x₃), la presenza di disturbi dell’apprendimento con una variabile binomiale: diagnosi di DSA, sì/no (x₄). Aumentando di una unità il numero di libri letti in un anno x₁, la y incrementerà il suo valore della quantità b₁ purché i valori di x₂, x₃, x₄ restino invariati. b₁ rappresenta la quantità nel valore della y che distingue uno studente che ha letto 3 libri da un compagno che ne ha letti 4 avendo una stessa conoscenza delle regole grammaticali, uno stesso livello di piacere della lettura e uno stesso quadro in riferimento alla diagnosi di DSA.
Le variabili binomiali o dummy (come ad esempio x₄) non fanno altro che modi'care il valore dell’intercetta di una quantità pari al corrispondente coef'ciente parziale di regressione quando assumono il valore 1; la loro inOuenza nel calcolo è nulla quando il loro valore è pari a 0.
Poiché l’individuazione di un modello comporta una sempli'cazione della realtà osservata, prima di applicare queste procedure, è indispensabile veri'care alcuni assunti sulle singole variabili dello studio, sul modello di regressione individuato e sui residui per capire se gli errori veri'cati sui valori della variabile indipendente sono determinati dal caso o da motivazioni legate ai dati e alla loro rilevazione.
Fra gli assunti da tenere in considerazione:

indipendenza dei casi. Le osservazioni devono essere estratte a caso, non devono essere rilevati errori di misurazione ossia non deve esserci una correlazione fra gli errori di stima della variabile dipendente e i regressori.
dimensioni del campione. Anche se non ci sono regole precise, si assume che dovrebbe esserci almeno un rapporto di 5:1 fra osservazioni e variabili dello studio (Plonsky & Ghanbar, 2018).
linearità. La matrice di correlazione fra y e x_i fornisce informazioni a priori sulla linearità della relazione mentre una adeguata analisi dei residui ne fornisce una robusta valutazione a posteriori. Se l’assunto di linearità non dovesse essere veri'cato, si possono applicare trasformazioni dei dati in forme lineari (ad es. con i logaritmi), considerare relazioni non lineari (ad es. regressione polinomiale, dove le variabili indipendenti sono elevate a una qualche potenza), o ancora suddividere il campione in sottogruppi dove per ciascuno è possibile identi'care un modello lineare.
indipendenza dei regressori. Viene veri'cata evitando, o limitando, fenomeni di multicollinearità per fare in modo che l’effetto esercitato da ogni regressore sia indipendente da quello degli altri regressori. Se dovessero esserci correlazioni fra i regressori che quindi variano insieme, risulterà dif'cile valutare gli effetti predittivi di ciascuna variabile perché gli eventi osservati si modi'cano simultaneamente e si inOuenzano l’un l’altro.
normalità: la normalità (e quindi la simmetria) della distribuzione dei residui è l’assunto di base per lavorare sulla signi'catività del modello con intervalli di con'denza e test di ipotesi.
omoschedasticità: la varianza degli errori deve essere costante e non associata a un determinato regressore o alla variabile dipendente. Se la varianza fosse estremamente ampia per alcune osservazioni oppure fosse correlata a un determinato regressore o alla y, nel modello potremmo non aver tenuto in debita considerazione tutte le possibili relazioni fra gli eventi.

Gli effetti di multicollinearità o di bassa correlazione con alcune variabili ci inducono a effettuare una selezione delle variabili (che implica una selezione del modello). Il processo di selezione delle variabili è spesso un processo complesso e non necessariamente univoco.

4.1.1 - Interpretazione e afdabilità dei modelli, selezione delle variabili

Che signi'cato attribuire ai parametri trovati? Quali indicatori ci garantiscono l’af'dabilità del modello? E quali indicano il grado di generalizzabilità dei risultati ad altri campioni?
Rispondere a queste domande ci permette sia di interpretare i valori 'nora calcolati, sia di fare un ulteriore passaggio e muoverci dalla statistica descrittiva a quella inferenziale.
Consideriamo in Tabella 4.1 un esempio dei principali indicatori restituiti dal software di analisi statistica R relativi a un modello di regressione lineare multivariata. Lo studio di cui riportiamo i risultati (De Santis et al., 2019) condotto dal team di coordinamento di EduOpen era 'nalizzato all’individuazione di un approccio per selezionare un modello di regressione lineare multivariata che stimasse la percentuale di completamento dei MOOC della stessa piattaforma da parte degli utenti (y). 24 predittori sono stati raccolti in 4 categorie: pro'lo degli utenti, partecipazione al corso, attività completate, caratteristiche dei corsi.

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 44 45 46 47 48 49 50 51 ... 89