Il Lab è aperto!

Modello statistico per il referendum (e altro...)


#1

Come abbozzato qui mi piacerebbe mettere in piedi un modello statistico che si basi su qualcosa che non siano i soli sondaggi nudi e crudi per prevedere l’andamento del referendum. Un po’ alla 538 di Nate Silver, sfruttando i numerosi gifted che ci sono su hookii.

Riporto qui quelli che sembrano i due problemi principali:

  • 15 giorni prima della consultazione non possono essere pubblicati sondaggi (le “le manifestazioni di opinione” sono invece libere)
  • Non esistono sondaggi su base locale da correlare in qualche modo

Che ne pensate?


#2

A me piacerebbe molto.

Sulla consultazione dei sondaggi secondo me una scappatoia si trova, qui c’è la delibera agcom: https://www.agcom.it/diffusione-dei-sondaggi che spiega il tutto.

Sui sondaggi di dati locali è più complesso, ad oggi ci sono le percentuali tra nord/centro/sud ma non sono per nulla precise


#3

Io stavo pensando di usare dei proxy, anche variegati, non solo di natura politica.


#4

Un esempio pratico?
Giusto per capire cosa intendi con variegati


#5

Sicuramente dichiarazioni di voto su altri temi, ad esempio immagino che ci siano correlazioni tra il dichiarare il gradimento di Renzi e il votare Sì, o tra il essere elettori di Possibile e votare no.

Ma anche altre cose, tipo sondaggi d’opinione sul “principale problema dell’italia” o cose così.


#6

Petrella ci consiglia ScenariPolitici come possibile fonte dati: https://disqus.com/home/discussion/icommentidelpost/i_dati_sul_voto_a_seggi_aperti_negli_stati_uniti/#comment-2991043984


#7

Il problema più grosso è che è un esperimento molto simile alla tua amata climatologia: è una serie temporale con 1 punto… in pratica dovresti fare un modello totalmente arbitrario, artigianale e senza training: come pesi i diversi sondaggi senza uno storico?
Discorso diverso per le elezioni politiche, che infatti è quello che fa Silver. Anche se, in Italia, pure le politiche sarebbero un grosso problema: in Usa hanno una quantità di sondaggi immensa su cui trainare il modello, e sopratutto, sono nettamente più affidabili dei sondaggi, inutili, che si fanno in italia.
L’unica soluzione che vedo, è trainare sulle politiche per provare a predire così il referendum. In ogni caso, è una buona idea usare le stesse assunzioni di Silver: http://fivethirtyeight.com/features/election-update-why-our-model-is-more-bullish-than-others-on-trump/


#8

Condivido molto il commento di Vittu. Continuando a fare l’avvocato del diavolo:

Cosa si vuole fare esattamente? Non c’e’ una serie storica da cui estrapolare il rapporto fra sondaggi pre-elettorali e risultati il giorno delle elezioni.

Questo per quanto riguarda il referendum, che e’ effettivamente un unicum. Ma anche per eventuali elezioni, c’e’ il problema che in Italia i partiti sono tanti e negli ultimi venti trent’anni praticamente si sono presentati partiti sempre nuovi e diversi a ogni elezione.

Da un altro lato invece al di la’ dei nomi certi elettorati sono sempre fedeli, quindi si possono provare a giocare delle continuita’. Pero’ tornando al referendum credo che sia anche difficile fare equivalenze fra elettorati dei partiti e voto al referendum costituzionale: non tutti voteranno come indica il partito di riferimento (se lo hanno), ed e’ difficile quantificare questo fenomeno per un voto one shot su cui non ci sono serie storiche.

Altrimenti, si vuole fare una cosa diversa da 538? Ma diversa come?


#9

Forse avrebbe senso usare quello sulle trivelle. Alcuni punti in comune ( difficoltà del quesito, uso della tornata come modo per mandare segnale per il governo, seppur in maniera assai minore a quello di dicembre ) ci sono. Anche gli schieramenti per il sì o il no sono simili seppur se non esattamente uguali.


#10

Quello sulle trivelle era un referendum abrogativo con quorum, mi sembra un po’ bislacco usarlo come parametro di un referendum costituzionale confermativo senza quorum.

Io poi non sono un’esperta di sondaggi, ma mi paiono due modalità ben diverse.


#11

D’accordo con Flack: il fatto che le trivelle fosse con quorum falsa tutto.

Probabilmente si puo’ fare una cosa meno furba di 538 e fare un semplice aggregatore di sondaggi: raccogli tutti i sondaggi che trovi, li pesi un poco in base a barametri di affidabilita’ minimi (tipo numerosita’ etc), e fai una stima.

Pero’ il risultato e’ la media di realclearpolitics, e tutti sappiamo quant’e’ stata affidabile. La differenza con 538 sono proprio gli assunti del modello che venivano (malamente e a torto) criticati negli articoli di HuffPo di cui si e’ discusso nei giorni scorsi, e che invece sono il punto vincente.

Continuo a non vedere come si puo’ fare qualcosa di simile a 538 ma diverso in questa situazione. Magari quello che unit intende e’ semplicemente fare da aggregatore di medie e sondaggi a contorno, ma sarebbe decisamente meno utile IMHO. Oppure ha qualche altra idea che a me al momento sfugge :slight_smile:


#12

L’idea (forse chiamarla “idea” è un po’ troppo) sarebbe di utilizzare altri sondaggi su temi anche slegati e cercare di estrarne una correlazione, naturalmente è necessario avere questi altri sondaggi esplosi per cluster, altrimenti è un po’ dura.

Non so se ha senso e non so se ci sono dati a sufficienza, parliamone.


#13

In effetti pensavo proprio a qualcosa del genere.


#14

Ma su cosa correleresti, visto che non hai alcuna ground truth precedente? Questo per il referendum ovviamente. Sempre tenendo presente che puo’ darsi che mi stia sfuggendo qualcosa di ovvio nel discorso che fai. Tu correleresti sondaggi e risultati delle elezioni passate ai sondaggi attuali sui partiti E sul referendum, e poi estrapoleresti qualcosa sul referendum? Con che assunti?

Sulle elezioni probabilmente se ne puo’ parlare, raccogliendo uno storico dei sondaggi degli ultimi trent’anni nei mesi precedenti alle elezioni di riferimento e e correlandoli ai risultati delle elezioni stesse. A quel punto fai la stessa cosa per l’elezione in corso (che e’ quello che capisco io che fa 538, piu’ qualche altro assunto e correttivo).

Disclaimer: so na’ sega di statistica sono un povero computer scientist, puo’ darsi che io stia dicendo fesserie a nastro eh!