CopertinaAnnamaria

Yüklə 21,24 Mb.

səhifə	54/89
tarix	11.09.2023
ölçüsü	21,24 Mb.
	#121652

1 ... 50 51 52 53 54 55 56 57 ... 89

ITALYAN DESSERTATSIYA. WORDdocx

Valori osservati Superamento esame

Valori predetti
Totale
Totale	Superamento esame	Bocciatura
Valori osservati	Superamento esame	21	4	25
Valori osservati	Bocciatura	2	22	24
Totale		23	26	49

Tabella 5.1 – Matrice di confusione nella quale confrontiamo valori osservati e stimati.
Ritornando alla Figura 5.5 dopo questa breve regressione sulle matrici di confusione, poniamo attenzione agli altri parametri da valutare:

i parametri relativi alla devianza che ci forniscono informazioni sull’adeguatezza del modello. Ne troviamo tre: i residui della devianza e i valori che sintetizzano la devianza nel modello nullo e nel modello residuale. I residui ci dicono quanto ogni osservazione contribuisce ad incrementare la devianza e sono calcolati come differenza fra il modello di verosimiglianza e i valori stimati. Come per i residui della regressione lineare, si presume che la distribuzione dei residui sia simmetrica ed è per questo che fra i valori riportati troviamo i quartili della distribuzione (Deviance

Residuals); Null Deviance è l’indicatore relativo al modello nullo che è calcolato usando l’intercetta come unico parametro (si vedano anche i gradi di libertà indicati), rappresenta quindi un modello senza predittori; Residual Deviance è l’indicatore calcolato per un modello con tutte le variabili dello studio.
Se la Null Deviance e la Residual Deviance assumono valori simili, il modello costruito con tutte le variabili perde di signi#catività perché l’inserimento delle variabili indipendenti non comporta differenze rispetto al modello senza predittori;

AIC (Aikake Information Criterion), indice che abbiamo incontrato anche nella regressione lineare e che usa la funzione di verosimiglianza per stimare la bontà di un modello alla luce dei parametri utilizzati nell’analisi. Si usa per fare comparazioni fra modelli. Il modello da preferire nel confronto è quello che presenta il valore di AIC più basso. Il calcolo dell’AIC penalizza modelli molto complessi che usano tante variabili dipendenti, talvolta non utili;
il parametro di dispersione per le variabili binomiali, #ssato in automatico ad 1. Esso indica la variabilità dei dati e quanto distano dai valori centrali;
Fisher scoring iterations, numero di iterazioni necessarie nel metodo della massima verosimiglianza per interpolare i dati. Quante più iterazioni sono necessarie per de#nire un modello, tanto più esso risulta debole.

Per veri#care la bontà di un modello, inoltre, viene calcolato l’indicatore PseudoR² di cui esistono più versioni e formulazioni. Per quanto riguarda l’interpretazione, esso è sovrapponibile per grandi linee al valore R² della regressione lineare. Ha valori fra 0 e 1 e confronta il modello nullo con quello proposto.
È frequente, comunque − e con questo chiudiamo la rapida carrellata sugli indicatori legati ai modelli di regressione logistica−, che negli articoli scienti#ci compaiano pochi dei parametri riportati #nora. I valori che più spesso sono riportati e che permettono di giungere a conclusioni e veri#care ipotesi sono i valori dell’odds ratio.
Con alcuni passaggi algebrici, si può dimostrare che e^b, dove b è uno dei coef#cienti di regressione, corrisponde all’odds ratio, il rapporto fra gli odds calcolati sulle probabilità di un evento rispetto a due categorie (nella formula che segue donna/uomo).
(5.5)
eb ₌ (pdisuperarel^'esame' per≤donne) _∶ (pdisuperarel^'esame' pergliuomini)
(pdinonsuperarel esame per≤donne) (pdinonsuperarel esame pergliuomini)
Dalla formula
(5.6)
(e^b−1)⋅100
calcoliamo la differenza fra le probabilità di successo fra le due categorie
scegliendone una come quella di riferimento, nel nostro caso il genere femminile.
Poniamo che per esempio e^b = 1,25 . Usando la formula, diremo che le donne hanno una propensione a superare gli esami rispetto agli uomini maggiore del 25%.
Gli odds ratio non permettono un confronto di percentuali fra le variabili indipendenti ma ci permettono di fare riQessioni solo sulla relazione del singolo predittore con la variabile risposta.
Insieme agli odds ratio bisognerebbe riportare anche gli intervalli di con#denza al 95% che ci forniscono informazioni sull’incertezza della stima. Se questi comprendono il valore 1, è possibile che le modalità confrontate (uomo/ donna) non incidano sulla variabile indipendente e di conseguenza ci sia indipendenza fra variabile dipendente e indipendente.

Yüklə 21,24 Mb.

Dostları ilə paylaş:

1 ... 50 51 52 53 54 55 56 57 ... 89