mercoledì 29 settembre 2010

HATTRICK - Un Predictor per la Stima dei Risultati delle Partite






Terza e ultima puntata del "trittico" settembrino dedicato allo studio dell'assegnazione delle azioni.

Dopo la prima parte dedicata all'assegnazione delle azioni da un punto di vista frequentista
http://acandio.blogspot.com/2010/09/hattrick-il-random-nellassegnazione.html
in cui abbiamo visto che
  • Il numero totale di azioni dopo le modifiche di gennaio 2010 non è più fissato a 10. Questo significa che se so quante azioni vengono assegnate al team 1, non saprò più automaticamente quante ne ha il team 2. Prima infatti era un numero fissato, facile da calcolare: se il team 1 ne aveva 8, allora il team 2 ne aveva 2 (completa dipendenza). Ora ogni team può avere da 0 a 5 delle sue azioni esclusive e da 0 a 5 di quelle comuni. Quindi se il team 1 prende tutte e 5 le azioni comuni, il team 2 al massimo potrà ottenere tutte le sue esclusive, per un totale di 5. Se il team 1 non prende nessuna azione comune, allora il team 2 può ottenere da 5 (dato che prende tutte le comuni) a 10 (se riesce a ottenere anche tutte le esclusive). C'è quindi una relazione tra le azioni del team 1 e quelle del team 2, ma non più di completa dipendenza, ora è solo una dipendenza parziale.
  • Questo fatto fà si che le possibili coppie di valori delle azioni dei due team non siano più solo 11 e cioè 0 al primo e 10 al secondo, 1 al primo e 9 al secondo ecc... ma ci siano ora 91 possibili combinazioni. La curva di ripartizione non è più a gradini, ma è molto più dolce e più vicina a quella del valore Equo di assegnazione delle azioni.
e una seconda parte con impostazione probabilista
http://acandio.blogspot.com/2010/09/hattrick-il-random-nellassegnazione_21.html in cui
  • si è ripercorso quanto detto sopra in modo più formale, evidenziando come si sia passati da una assegnazione delle azioni premodifiche di questo tipo
Tabella 1

a una dopo le modifiche, di questo tipo:

Tabella 2

e come detto, basta fare la somma delle diagonali e si vede qual è la % di avere 5 azioni, di averne 6 ecc... (nell'immagine vedete la diagonale delle 15 azioni)


Quindi, come ha riassunto efficacemente Laiho-NH, "Prima avevi sempre 10 azioni. Ora hai 10 azioni in media, perché per ogni partita dove ce ne sono 15, probabilisticamente ce n'è una con 5, per ogni partita con 14 ce n'è una con 6 e così via..."
Il freddo numero di azioni attese per team non cambia, ma moltissimo "dietro le quinte".




****




PRE MODIFICHE

Ora continuiamo su questa strada e inseriamo nel conto ATTACCHI e DIFESE.
Inizio dal PRE MODIFICHE che è più semplice.

Ipotizziamo che il team 1 sia di un livello più forte del team 2 in ogni reparto (a cc e in ogni attacco e ogni difesa), ecco la tabella in cui vedete contrapposti i reparti del team 1 (in carattere azzurro) con quelli del team 2 (in marroncino). La probabilità di segnare è del 63.53% per il team 1 e del 36.47% per il team 2, applicando la nota formula elaborata da GM-Homerjay: ATT1^3.6/(ATT1^3.6+DIF1^3.6)



Non complico l'analisi inserendo e confrontando tattiche, resto a un sano normal con una probabilità di segnare totale pari alla media ponderata delle singole, che essendo tutte uguali è pari al valore delle singole stesse.

Fin qui ci siamo tutti, ora applichiamo tali valori probabilistici a ogni azione attesa nelle tabelle 1 e 2 viste sopra.
Considero ad esempio il caso "4 azioni assegnate al team 1" e "6 azioni assegnate al team 2" nella tabella 1. Vedo che tale evento ha l'8,20% di probabilità di realizzarsi.
Se capita ci sono 4 azioni per il team 1, con il 63.53% di possibilità di realizzarsi e quindi 4 * 0.6353 = 2.54 gol attesi per il team 1. Ci sono anche 6 azioni per il team 2, per 6 * 0.3647 = 2.19 gol attesi per il team 2.
Da un punto di vista formale il numero di gol attesi è pari al numero di azioni attese moltiplicato per la media ponderata della probabilità di segnare ogni azione.

Ora ci troviamo in mano questi valori: 2.54 gol attesi per il team 1, 2.19 gol attesi per il team 2.
Bene, ma quanti sono 2.54 gol? 3 o 2? o meglio, quante volte sono 3 e quante 2?
Se sono attesi, sono un probabile esito, non mi resta che immaginarli come medie di una distribuzione gaussiana e raggruppare i valori della distribuzione per numeri interi.
Un grafico può rappresentare meglio il concetto:



Vedete che ho costruito una gaussiana con media 2.54 e deviazione standard 0.60 (poi la cambieremo, intanto imposto questo numero). Raggruppo tutte le probabilità da 1.50 a 2.50 e le assegno a "2 gol", raggruppo da 2.50 a 3.50 e assegno a "3 gol" eccetera.
I più attenti di voi si saranno già accorti di due problemi: il primo è che non sono realizzabili 5 gol, il team 1 ha solo 4 azioni a disposizione; il secondo è che la gaussiana ha valori (seppur minimi) anche inferiori a -0.5 e superiori al massimo possibile di azioni + 0.5... allora non mi resta che redistribuire tali probabilità residue tra quelle precedenti (basta moltiplicarle per 1 diviso la somma delle probabilità realmente realizzabili, una tabella dopo chiarirà questo punto).
Procedo allo stesso modo per il team 2. Gaussiana anche per lui e raccolgo i dati anche per lui.
Avremo quindi due gaussiane e possiamo facilmente vedere i risultati possibili.



Ora vediamo in tabella che è più chiaro:


Dapprima vengono calcolati i valori dei gol attesi con la formula indicata in alto e messi nella parte a destra della tabella. Dopodiché vengono escluse (zona grigia) le probabilità non realizzabili. Si fa quindi la somma di quelle realizzabili ed otteniamo i valori a destra che sono 99.95% per il team 1 (ricordate l'esclusione della probabilità di quelli a "5 gol") e del 100% per il team 2.
Si procede quindi a moltiplicare i valori per il team 1 per 1/99.95% e otteniamo i valori corretti a sinistra nella tabella.

E quindi il team 1 riuscirà a fare con le sue 4 azioni assegnate
0 gol nel 0.03% dei casi che indico con P(0;team1)
1 gol nel 4.10% dei casi che indico con P(1;team1)
2 gol nel 43.16% dei casi che indico con P(2;team1)
3 gol nel 47.26% dei casi che indico con P(3;team1)
4 gol nel 5.45% dei casi che indico con P(4;team1)
il che dà la distribuzione voluta con media di gol segnati pari al 2.54 voluto e deviazione standard 0.60

Idem per il team 2.

A questo punto abbiamo le probabilità dei gol segnati per ogni team.
Dato che sono eventi indipendenti possiamo provvedere a considerarne la probabilità congiunta.
E quindi la probabilità di avere un pareggio per 2 a 2 è del 43.13%*57.26% = 24.69%.
Di averne uno per 3 a 3 è 47.26%*28.73% = 13.57%. Eccetera.
Quindi la probabilità di avere un pareggio P("X") è data dalla somma di avere le probabilità di uno dei pareggi possibili, e quindi dalla somma delle probabilità di 0 a 0, si 1 a 1, di 2 a 2, di 3 a 3, di 4 a 4.

per calcolare la Probabilità di vittoria del team 1 P("1") mi basta moltiplicare le probabilità di tutti i risultati che la possano dare e quindi 1 a 0, 2 a 0, 2 a 1, 3 a 0, 3 a 1, 3 a 2, 4 a 0, 4 a 1, 4 a 2, 4 a 3. Le sommo e il gioco è fatto.
Idem per il team 2 ed ecco i valori delle somme delle probabilità di avere "1/X/2" evidenziate in rosso nella tabella (ho tagliato la parte destra per semplicità)


Quindi con 4 azioni al team 1 e 6 al team 2 e i valori dati di centrocampi, attacchi e difese mi aspetto il 43.80% di vittorie per il team 1, il 38.87% di pareggi e il 17.32% di vittorie per il team 2.
In sintesi:

Questi sono i valori di questo evento. La coppia di azioni assegnate (4;6) si realizza nel 8.20% dei casi, con 2.54 gol attesi per il team 1 e 2.19 per il team 2 si traduce in poco meno del 44% di vittorie per il team 1, poco meno del 39% di pareggi e il 17% di vittorie per il team 2.
Avere questi valori di 1/X/2 nell'8.20% dei casi significa che questo evento contribuisce in totale per il 43.80%*8.20%=3.59% di vittorie per 1, al 38.87%*8.20%=3.18% di pareggi e al 17.32%*8.20% di vittorie per 2 in TOTALE.
Come evidenzio in tabella:



A questo punto basta ripetere la procedura per tutti gli eventi e otteniamo la tabelle:


e


non mi resta che sommare le celle che contengono i valori di 1/X/2 Totali per ottenere il valore finale che cercavo:


quindi, in conclusione, prima delle modifiche con quei valori mi potevo aspettare quasi l'89% di vittorie per il team 1, il 7% di pareggi e poco meno del 4% di vittorie per il team 2.





POST MODIFICHE

Dopo le modifiche i casi passano da 11 a 91 e le cose si complicano un pochino.
Niente di impossibile comunque.
Ho proceduto a considerare separatamente i dati colonna per colonna, partendo da destra, cioè da "10 azioni assegnate al team 2" e vedendo quali sono i risultati attesi per tutte le possibili altre variandi di azioni al team 1 (in questo caso avendone 10 il team 2, il team 1 potrà averne un numero variabile da 0 a 5), per poi procedere a tutte le altre colonne a sinistra.
L'analisi si spezzetta in 10 fasi.
Ad esempio nella quarta colonna da destra troviamo i valori visti sopra nell'esempio (4 al team 1; 6 al team 2):


Raggruppando le 10 colonne in un'unica tabella otteniamo la tabella riassuntiva delle azioni e dei gol attesi:


e quella dei risultati attesi, ottenuti come sopra valutando le probabilità di 1/X/2 per ogni evento e poi moltiplicandole per la probabilità dell'evento stesso.


aggregando le varie fasi ottenute separatamente tenendo fisse il numero di azioni per il team 2 si ottiene il totale che è del 90.97% di 1, 6.40% di X e 2.62% di 2.
A questo punto può essere effettuato un confronto fondato tra PRIMA e DOPO le modifiche:



con una deviazione standard di 0.6 della gaussiana dei gol attesi vediamo che le modifiche in questo caso aumentano la % di vittoria per il team più forte, riducono i pareggi e riducono ancora di più i risultati "imprevisti", cioè le vittorie del team 2 più debole: una riduzione di 1.31%, il -33.3% del precedente 3.93% di risultati "2" che si ottenevano in precedenza.
Se si intende il "random" come la % di risultati "imprevisti" che favoriscono il team più debole, ebbene in tal caso i numeri dicono che il "random" c'è (e ci deve essere), ma è stato ridotto.

Qualcuno potrà chiedere se questa conclusione dipenda dal valore di deviazione standard ipotizzato (che è l'unico elemento discrezionale in tutta questa analisi), bene allora proviamo a vedere con 0.4 e 0.8 invece di 0.6 e vediamo che


cambiano i valori relativi, ma pochissimo quelli assoluti (i "2" si risudono del 1.33% con dev.st 0.4, del 1.31% con dev.st 0.6 e del 1.32% con dev.st 0.8).


Naturalmente posso provare a impostare (e lo potete fare anche voi nel file allegato) dei valori di prova, per vedere come varino le probabilità di 1/X/2 tra PRIMA e DOPO le modifiche al variare delle valutazioni di campo.

1) Pongo tutti i reparti uguali dei due team, e poi faccio crescere il centrocampo del team 1:




nel primo caso, di completo equilibrio, vedo che si riducono le % di probabilità di vittoria per uno dei due team (da 39.56% a 38.17%) e aumentano i pareggi, del 13.40% in termini relativi (cioé sul valore precedente)
Se aumento il CC del team 1 da 6 a 6,5 vedo che nella seconda tabellina ho ancora un aumento dei pareggi (meno rispetto al valore prededente), una sostanziale stabilità delle vittorie di 1 e una riduzione del 8.56% delle vittorie per il team più debole.
La dinamica continua all'aumentare del valore del CC del team 1. Quindi, le MODIFICHE:
  • aumentano il numero dei pareggi in caso di partite equilibrate
  • diminuiscono il numero di vittorie "impreviste" del team più debole, e più il team è debole, più si riducono le sue chance di vittoria "imprevista"
mi sembrano entrambi elementi su cui si possa concordare.



*****

Infine ci si può chiedere: "Bene, abbiamo visto cosa succede in termini di 1/X/2, ma riguardo ai gol di scarto?". Già, un conto è una vittoria con 3 gol di scarto, un altro una risicata con 1 solo gol di scarto.
Come farlo? Semplice: nel punto in cui prendevamo i valori dei gol attesi per i due team e calcolavamo le % di probabilità di vittoria sommando le probabilità degli "1 a 0" con i "2 a 1", i "2 a 0" ecc... ora disaggreghiamo le vittorie con 1 gol di scarto da quelle con 2 gol di scarto ecc... e otterremo una tabella di questo tipo per il "PRIMA delle modifiche"



vedete così come, ad esempio, il numero di vittorie per il team 2 nel solito caso (4 azioni al team 1 e 6 azioni al team 2) pari al 1.42% del totale sia tutto concentrato nel "vittoria con 1 gol di scarto", dove troviamo infatti bel l'1.27% di occorrenze. Non così, ad esempio, per le vittorie del team 1 nel caso (7 azioni al team 1 e 3 al team 2), in tal caso infatti abbiamo il 99.93% di vittorie del team 1, che moltipicate per la probabilità dell'evento (24.18%) mi dice che in questo evento troviamo il 24.16% di vittorie del totale assoluto dell'evento "vittoria per il team 1"; in tal caso le vittorie avvengono con maggior probabilità con 3 gol o 4 gol di scarto (9.54% e 8.14%).
La cosa è meglio visibile se applico una formattazione condizionale alle celle



torniamo ora alla tabella dei risultati totali


che si può vedere anche in un grafico con in ascissa il numero di gol di scarto (a favore del team 1): in blu le vittorie per il team 1, in grigio i pareggi, in rosso le vittorie per il team 2



Se faccio la stessa identica procedura per il DOPO modifiche (o meglio, 10 identiche procedure, dato che dovrò come sopra spezzettare l'analisi della tabellona colonna per colonna) ottengo alla fine un confronto tra PRIMA e DOPO:



e cioé (i valori nuovi sono a destra, più scuri dei precedenti)


  • diminuiscono i rettangoli rossi dei risultati "imprevisti" di vittoria per il team 2 più debole
  • diminuiscono i pareggi
  • aumentano le vittorie del team 1 più forte attorno ai valori più probabili (2, 3, 4 gol di scarto)
  • diminuiscono le vittorie del team 1 più forte attorno ai valori meno probabili (1, 5, 6, 7 gol di scarto)
In sostanza la curva diventa più alta e più stretta attorno ai valori più probabili, cioè si riduce la varianza della curva stessa attorno alla sua media.
Se rappresento il grafico precedente come curve vedo infatti che la curva del DOPO modifiche, in rosso, rispetto alla curva del PRE modifiche, in blu, è, come indicano le frecce, più stretta nei lati (diminuiscono i risultati estremi) e più alta al valore massimo:



Vi allego il file.
Nella pagina "INPUT" potete inserire tutti i valori che volete e vedrete:
  • nella zona verde la stima dell'assegnazione delle azioni in base ai valori di centrocampo inseriti
  • nella zona viola la stima dei risultati in base ai valori di attacchi e difese inseriti (e deviazione standard), con predictor base 1/X/2 e avanzato, con l'analisi dei gol di scarto. Inoltre c'è il grafico per vedere come variano le curve relative.


QUI
potete scaricarlo (sia per Excel nuovo che per versioni precedenti)
http://sites.google.com/site/andreactools/home/TOOLPredictorino1.2.xlsx?attredirects=0&d=1


Buon divertimento
Andreac-NH

edit: nota finale per i più pignoli -> se si pone tutto uguale tra team 1 e team 2 ci sono delle piccolissime differenze tra le % di gol di scarto per team 1 e team 2 che dovrebbero essere uguali, parlo di centesimi di punto percentuale. Mi ci sono spaccato la testa per trovarne ragione, ma dopo ore e ore di prove e controprove non ce l'ho fatta. Sono cose minime e del tutto irrilevanti, ma avrei voluto che fosse tutto perfetto. Portate pazienza.


PS. dai un occhio all' INDICE del blog, ci sono parecchi articoli che ti potrebbero interessare.




Andreac (team ID 1730726 in Hattrick)

Creative Commons License
This opera by Andreac is licensed under a Creative Commons Attribuzione-Non commerciale 3.0 Unported License. Cioé questo lavoro può essere liberamente copiato, distribuito o modificato senza espressa autorizzazione dell'autore, a patto che l'autore sia chiaramente indicato e la pubblicazione non sia a fini commerciali.

1 commento:

Pucciozzo ha detto...

Personalmente, porterò pazienza alla grande! :)

Ottimo lavoro come al solito, notevole la tua capacità di far comprendere le basi della statistica anche ai meno avvezzi alla materia.

Continua così!