CopertinaAnnamaria


Figura 5.2 - Può una retta interpolare le osservazioni di una variabile binomiale? Figura 5.3



Yüklə 21,24 Mb.
səhifə52/89
tarix11.09.2023
ölçüsü21,24 Mb.
#121652
1   ...   48   49   50   51   52   53   54   55   ...   89
ITALYAN DESSERTATSIYA. WORDdocx

Figura 5.2 - Può una retta interpolare le osservazioni di una variabile binomiale?

Figura 5.3 - La curva logistica.
Notiamo che:

  • attribuiamo alla variabile dipendente y i valori di 0 e 1 a seconda che l’evento si veri#chi o no;

  • la probabilità assume tutti i valori compresi fra 0 e 1;

  • i valori della y nella curva logistica oscillano fra 0 e 1.

Queste tre condizioni che si sovrappongono ci permettono di lavorare con le variabili binomiali e con le probabilità usando la funzione logistica che ci restituisce la probabilità che un dato evento si manifesti. Per esempio, in Figura 5.4, seguendo l’andamento della curva logistica, vediamo che nel modello costruito gli studenti che conseguono un punteggio pari a 26 avranno il 92% di probabilità di superare l’esame #nale del corso (y = 0,92).

Figura 5.4 - Calcolo della probabilità che si veri#chi un evento sulla curva logistica.
L’esempio descritto #nora fa riferimento al campo bivariato, aggiungendo variabili indipendenti possiamo riportarlo al caso multivariato.
L’equazione che descrive la curva logistica in ambito multivariato e che possiamo utilizzare per calcolare il valore di p, la probabilità che un dato evento si manifesti (probabilità di successo, y = 1) #ssati i valori delle xi, è la seguente
(5.1)
e(a + bxi)
p = (a + bxi) 1 + e
Attraverso pochi passaggi algebrici, otteniamo due formulazioni equivalenti dell’equazione sopra riportata.
(5.2)
p
Logit = ln (1−p ) = a + b1 x1 + b2 x2 + b3 x3 + + bi xi
(5.3)
p (a + b1x1 + b2 x2 + b3 x3 + + bi x )
Odds = = e i
1−p
Le formulazioni tramite logaritmi (5.2) ed esponenziali (5.3) garantiscono che p sia sempre positiva (l’esponenziale di e è una funzione sempre positiva e l’argomento del logaritmo deve essere positivo af#nché possa essere de#nito).
L’equazione (5.2) è espressione di una funzione con andamento lineare ed è il modello di regressione logistica, detto anche modello logit. Il logit non è altro che il logaritmo naturale degli odds (log-odds) ossia il rapporto fra la probabilità di successo (p) e insuccesso (1 - p) di un evento (nel nostro caso, y = 1, superamento dell’esame). La trasformazione logit di un parametro dicotomico rappresenta un modello lineare (attenzione: non è la p ad essere considerata come variabile dipendente in un modello lineare de#nito dall’equazione 5.2 ma l’intero log-odds) ed è il più rappresentativo caso di Generalized Linear Models (Agresti, 2013).
Entrambe le formulazioni ci permettono di fare alcune osservazioni utili nel calcolo e nell’interpretazione dei modelli di regressione logistica.
LOGIT. Il logaritmo degli odds, il primo membro dell’equazione (5.2), non ha valori limite superiori o inferiori. Se il logit assume valori positivi, la probabilità che un evento si manifesti (y = 1 | xi) è superiore al 50% e dunque è un caso di successo; qualora assuma valori negativi, la probabilità che un dato evento si manifesti (y = 1 | xi) è inferiore al 50% (insuccesso).
Risulta infatti che:
Logit=0→p=0,5
Logit>0→p>0,5
Logit<0→p<0,5
ODDS. I valori degli odds, il primo membro dell’equazione (5.3), sono compresi fra 0 (per p = 0) e in#nito (per p = 1). In questo caso, se gli odds assumono valori superiori ad 1, la probabilità che un evento si manifesti (y = 1 | xi) è superiore al 50% (successo), qualora assuma valori inferiori a 1, la probabilità che un dato evento si manifesti (y = 1 | xi) è inferiore al 50% (insuccesso).
Risulta infatti che:
Odds=1→p=0,5 Odds>1→p>0,5
Odds<1→p<0,5
Nella formulazione degli odds il valore critico è rappresentato da 1, valore che distingue probabilità di successo o insuccesso e permette di classi#care in due gruppi le osservazioni con y maggiore o minore di 1. Per la formulazione logit, il valore critico è lo 0: in questo caso valori positivi e negativi distinguono gruppi e probabilità di successo e insuccesso (solo per completezza facciamo notare che i due punti coincidono poiché ln1 = 0). Se il logit tende a 0 oppure gli odds a 1, non c’è dipendenza fra le variabili osservate.
Prima di esaminare i risultati ottenuti da una regressione logistica, concludiamo questa introduzione rispondendo a due domande che #nora non abbiamo considerato nella discussione.

  1. - Quali assunti bisogna vericare sul dataset per applicare la regressionelogistica?

La regressione logistica viene spesso scelta fra le altre tecniche perché ha meno assunti da soddisfare. Sappiamo che la variabile risposta non è normale perché la y (e il suo errore) seguono la distribuzione binomiale nella quale la varianza non è costante. Di conseguenza né gli assunti sulla normalità, né quelli sull’omoschedasticità vanno veri#cati.
Vanno tenuti in debito conto gli assunti relativi all’assenza di collinearità fra le variabili e all’indipendenza dei casi osservati.
Altro fattore da controllare riguarda le dimensioni del campione che deve prevedere non meno di 10 osservazioni per parametro osservato.

  1. - Come calcoliamo i valori bi ?

Per la natura non lineare della relazione e per l’eteroschedasticità della variabile dicotomica, non possiamo utilizzare il metodo dei minimi quadrati come per la regressione lineare. I valori dei coef#cienti vengono selezionati in base al metodo della massima verosimiglianza. La funzione di verosimiglianza (likelihood) identi#ca la probabilità che un evento si manifesti con una certa probabilità. Nella selezione dei coef#cienti scegliamo quelli che rendono massima la verosimiglianza e cioè che rendono massima la probabilità che in un nuovo campione gli eventi assumano i valori di probabilità già osservati. Non è la probabilità che un evento si veri#chi ad essere massima, ma è massima la probabilità che un dato evento assuma una certa probabilità di veri#carsi.
Nell’esempio in Figura 5.4, la massima verosimiglianza è rappresentata dalla massima probabilità che nel modello che costruiamo o in altri campioni gli studenti che conseguono il punteggio di 26 in una prova intermedia abbiano la probabilità del 92% di essere promessi nell’esame #nale.
L’algoritmo per calcolare la massima verosimiglianza permette di ricalcolare i parametri più volte #no a quando l’errore nel calcolo risulta accettabile.
5.1.1 - Output di una regressione logistica


Come sempre (e per fortuna!), i software di analisi statistica ci aiutano nello svolgere i calcoli e valutare la bontà dei modelli individuati. In Figura 5.5 si osservano i risultati restituiti da R utilizzando la funzione glm per de#nire un modello di regressione logistica. I dati riportati fanno riferimento all’esempio che stiamo utilizzando in questa discussione per il quale abbiamo creato un dataset ad hoc e per il quale, adesso che abbiamo familiarizzato con i concetti alla base della regressione logistica, consideriamo tre variabili indipendenti corrispondenti ai risultati degli studenti in tre diverse prove di valutazione intermedia.
Dall’uso della funzione summary, le prime indicazioni che otteniamo sono quelle relative alla formula usata nella creazione del modello, con le variabili considerate, il tipo (binomial) e il dataset.
Saltano immediatamente all’occhio poi il valore dell’intercetta a – non di particolare interesse nella regressione logistica – e i coef#cienti di regressione bi che, in maniera molto simile alla regressione lineare, rappresentano la quantità in più con cui ciascuna variabile indipendente contribuisce al calcolo della probabilità quando la variabile considerata aumentata di un’unità e tutte le altre restano stabili. Il test solitamente usato per veri#care la signi#catività dei coef#cienti non è il t-test come per la regressione lineare ma il test di Wald che parte dal calcolo dello z value.


Yüklə 21,24 Mb.

Dostları ilə paylaş:
1   ...   48   49   50   51   52   53   54   55   ...   89




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə