domenica 16 settembre 2012

HATTRICK - Random. Un bilancio della stagione 49

Random, random, random.
Non si parla d'altro.
Gli stipendi? I cali di skill?
Qualcosina, ma dopo poco - ci potete scommettere - si tornerà a parlare del buon vecchio random.

E allora, io che ho la fissa di voler sempre misurare tutto, mi son detto di vedere quant'è sto benedetto/maledetto random.
Per misurarlo occorre un predictor di qualche tipo (e io uno in effetti l'avrei abbozzato 2 anni fa, passa il tempo, http://acandio.blogspot.it/2010/09/hattrick-un-predictor-per-la-stima-dei.html, ma poi per una cosa o per l'altra non l'ho mai completato, in futuro, chissà...), dicevo, occorre un predictor di qualche tipo che dica quale sia il risultato ATTESO di una partita e dall'altra parte l'evento accaduto in Hattrick, con l'esito EFFETTIVO della partita.

1 - Il valore ATTESO
Faccio un esempio: mi aspetto che in una partita il team A abbia il 70% di probabilità di vittoria, il team B il 10% e il restante 20% sia per il pareggio.
Allora A in media otterrà il 70% delle volte 3 punti, e il 20% delle volte 1 punto. Se giochiamo 10 volte la stessa partita ci saranno 7 vittorie per A e 2 pareggi, quindi A otterrà 7*3+2*1=23 punti in 10 partite, quindi in media 2.3 punti a partita. Ovviamente non ci sarà nessuna partita in cui A ottiene "2.3" punti, questa è solo una media dei punti che si aspetta da quella partita ed è detta "VALORE ATTESO".
Il modo per calcolarlo è fare 70%*3+20%*1 = 2.1+0.2 = 2.3
Dalla stessa partita B ha un valore atteso di punti pari a 10%*3+20%*1 = 0.3+0.2 = 0.5 punti.

2. Il risultato EFFETTIVO
Ora la partita viene giocata

Mettiamo che vinca A.

A questo punto sottraiamo i punti ottenuti e quelli attesi:
PUNTI EFFETTIVI - PUNTI ATTESI
per A è 3-2.3=0.7 il risultato finale è 0.7 punti in più degli attesi. Era il risultato più probabile, A era il favorito, ma la palla è rotonda e tutto può sempre succedere, poteva anche pareggiare o perdere. Ad aver portato a casa i 3 punti è comunque stato "leggermente fortunato" dal punto di vista statistico.
per B è 0-0.5=-0.5 quindi un valore negativo, B è stato "leggermente sfortunato", torna a casa con 0 punti, ma poteva andargli meglio.

Mettiamo che vinca B, quella che si chiama di solito "randomata".
Come prima sottraiamo i punti ottenuti e quelli attesi:
per A è 0-2.3=-2.3 davvero una bella sfortuna, doveva vincere al 70% ed invece è incappato nel 10% per lui sfortunato. Raro, ma non impossibile: capita 1 volta su 10. Il bilancio è di -2.3 e quindi possiamo dire che è stato "molto sfortunato"
per B è 3-0.5=2.5 vale l'inverso e ottiene un saldo di punti effettivi rispetto a quelli attesi pari a +2.5, possiamo dire che è stato "molto fortunato"

Partita dopo partita possiamo sommare le differenze tra punti effettivi e punti attesi e fare i conti su chi sia complessivamente più sfortunato o più fortunato.
ATTENZIONE: non si sta qui discutendo la capacità dei manager, ma solo chi ottiene più o meno rispetto a quanto atteso. Uno può essere un fenomeno a poker, ma se non gli arrivano mai le carte non può fare miracoli. Analogamente qui. Avere una stagione fortunata non è una colpa, magari prima se ne erano avute 3 di fila sfortunate, non vuol dire nulla in sé, l'intento di questo studio è vedere quanta "casualità" vi sia in Hattrick non mettere in discorso il merito di questo o quel manager.


Ora occorre quindi vedere partita per partita, stimare i VALORI ATTESI, confrontarli con quelli EFFETTIVI e sommarli giornata per giornata, potremmo fare tutto a mano o ricorrere per semplicitrà al sito http://htev.org che fornisce tutto già bell'e pronto.
Ed è anche facile da leggere, vediamo un esempio, la serie A italiana, che trovate a http://htev.org/league/724/


Allora vedete da sinistra le colonne di:
  • Team
  • p, cioè i punti EFFETTIVI raccolti in campionato
  • ev, (contornati in verde) questi sono i punti ATTESI, sono i punti che il predictor del sito HTEV si sarebbe aspettato sommando i punti attesi partita dopo partita (come nell'esempio sopra i 2.3 punti per A nella prima partita + quelli nella seconda ecc...). Vediamo come il sito stimasse al 1° posto con le stesse possibilità sia excoto che Pollame (entrambi hanno una somma di 29.6 punti attesi), al 3° posto stimava A.S.Kursaal, che è invece incappata in una stagione sfortunata ed è finita al 5° posto. Al 4° posto stimava A.C.Ponte Nuovo, che invece è finita 3° e così via...
  • d, non è altro che la DIFFERENZA, come sopra, tra punti EFFETTIVI e punti ATTESI. Se il saldo è positivo il team è stato fortunato, se negativo, sfortunato.Guardando i valori qui il più fotunato è stato proprio il vincitore dello Scudetto, con un saldo di ben +8.4 punti rispetto agli attesi. Il più sfortunato A.S.Kursaal con -7.3 punti, si attendeva un terzo posto ed invece si trova agli spareggi.
  • le colonne cerchiate in rosso da 1 a 8 indicano la probabilità che il team sia in quella posizione di classifica, ad esempio guardiamo A.S.Kursaal, aveva il 25% di vincere lo scudetto (colonna "1), il 25% di essere al 2° posto, il 26% di essere al 3° posto. Complessivamente quindi un 76% di essere nei primi 3 posti, ma non è andata così, è finito al 5° posto, evento previsto solo nel 7% dei casi, ancora peggio gli poteva andare al 6° posto, solo nel 2% dei casi.
Ora, HTEV non è la Bibbia, è chiaro. E tutte le sue valutazioni dipendono dal suo metro di valutazione, che viene esposto qui: http://htev.org/elo_system/ un metodo che, vedendo il grafico, pare buono, ma non infallibile (e per stessa ammissione di chi l'ha elaborato tende a sottostimare la forza dei contropiede). In mancanza di meglio teniamo queste stime, non saranno il massimo possibile, ma almeno sono qualcosa e ci consentono di farci un'idea.

Mi sono quindi scaricato quello che mi pareva un campione decente su cui fare qualche conto e quindi
  • serie A
  • le 4 serie II
  • le 16 serie III
  • le 64 serie IV
un totale di 85 serie, con 680 squadre, mi pare sufficiente.
Dai dati ho poi eliminato BOT e semiBOT che alteravano naturalmente i valori.

Vedo intanto alcuni valori (che mi serviranno dopo):
  • tra le 85 vincitrici ad aver ottenuto più punti è stata "OnASkiff" in serie IV.16 con 42 punti. Ad aver ottenuto la vittoria col minimo di punti è stata "Real Zambuzanza" in serie IV.53 con soli 24 punti. In media le vincitrici hanno vinto con 32.7 punti
  • le seconde classificate hanno ottenuto in media 28.2 punti
  • le terze 25.5 punti
  • le quarte 22.9 punti
  • le quinte - ai playout - 19.7 punti
  • le seste (esclusi 2 bot/semibot) - ai playout - 16.4 punti
  • le settime (esclusi 18 bot/semibot), retrocesse, 13.3 punti
  • le ottave le tralascio visto che ci sono troppi bot/semibot (ben 58)
Ora, vediamo gli scarti tra le posizioni: tra le prime e seconde 32.7-28.2 vi è in media uno scarto di 4.5 punti, di 2.7 tra le seconde e le terze, di 2.6 tra terze e quarte, di 3.2 tra quarte e quinte, di 3.3 tra quinte e seste e 3.1 tra seste e settime. Insomma lo scarto medio tra una posizione e l'altra è di 3 punti, con l'unica eccezione delle vincitrici che staccano un po' di più le seconde.

Le quote sembrano:
30 punti per la vittoria della serie
20 punti per salvarsi dai playout
15 punti per salvarsi dalla retrocessione diretta

Con le dovute eccezioni naturalmente:  "Rastafarian Lions" in IV.1 si trova 5° e ai playout pur avendo fatto ben 26 punti, viceversa "Yoknapatawpha County" in IV.59 è 4° salvo dai playout con soli 19 punti. Gli stessi di "SAGACIA", che in III.12 è 7° retrocede direttamente con 19 punti.


Ma torniamo al nostro caro HTEV, che ci dà i punti effettivi, quelli attesi e già pronte le differenze (la colonna "d") e considero le differenze.
Su 680 squadre le 10 più fortunate sono state:


con in testa "Lucchirpool" in IV.29 che mette in cascina ben 14 punti più di quelli attesi che, con un team che sembrava destinato alla retrocessione diretta sfiora la promozione a 1 solo punto dalla prima.
Ancora una volta, giusto per mettere le mani avanti, qui non si vuole mettere in discussione le capacità di nessuno, avere una stagione fortunata non è una colpa, è una cosa che capita e io, anzi HTEV, la sta registrando, tutto qui, nessuno si offenda.
Altre 7 squadre riescono a ottenere più di 10 punti oltre quelli attesi.

In fondo troviamo le più sfortunate:


quindi 6 squadre che ottengono 10 punti meno degli attesi e una, la più sfortunata di tutte, "Stagni e Maniaci" in IV.29 (la stessa di "Lucchirpool") che ne ottiene ben 12 in meno di quanto atteso e la vede retrocedere direttamente, mentre sulla carta si doveva giocare la promozione in III.

Ora vediamo serie per serie e considero le differenze in valore assoluto, per vedere l'entità dello scostamento rispetto all'atteso, per la serie A ad esempio (in grigio le ultime due che sono semibottizzate)


vedo che le differenze in valore assoluto hanno una media di 4.77
Non è affatto poco, se considero che in media ogni 3 punti c'è una posizione di classifica, come visto sopra e 4.77 punti possono essere 1 posizione e mezza in più o in meno di quella che spetterebbe al team.
Ma la media delle differenze deve essere parametrata alla Media dei punti realizzata nella serie (bot e semibot esclusi), che nella serie A è di 25.3 punti. I 4.77 punti di differenza rispetto alla media di punti sono quasi il 20%.

Vediamo anche le altre serie.
Per le serie dalla I alla III:


 Vedo valori assai variabili:
  • nelle II ad esempio, random basso (scostamenti medi di 1.6 punti, 1.76 punti) nelle II.3 e II.4, leggermente superiore nella II.2 e alto nella II.1 (ben 5.53 punti di scostamento medio, che sono praticamente 2 posizioni di classifica)
  • nelle III diverse serie hanno random medi, con picchi nella III.4 (5.74), nella III.9 (5.06) e nella III.13 (la mia, con 4.91).
in media nelle serie dalla I alla III la media degli scostamenti è di 3.38 punti, il 15% in più o in meno di quelli che ci si aspetta.

Nelle IV serie


la media degli scostamenti è di 3.43, simile a quella delle prime tre serie (anche qui circa il 15% dei punti ottenuti). Ci sono però numerosi picchi, tra cui la IV.29 in cui c'è ben il 7.71 di scostamento medio! una serie in cui davvero è successo di tutto.


Per avere però meglio il polso della situazione guardo alla seconda parte delle tabelle disponibili su HTEV, quella che mi dà le % di essere in una certa posizione di classifica.
Date quelle è facile calcolare la POSIZIONE ATTESA di classifica.
Tornando sempre alla serie A ecco che


vedo come leggermente favorita per la vittoria era Pollame (posizione attesa 2.2) appena davanti ad excoto (2.23), seguiti da A.S.Kursaal (2.6 di posizione attesa, quindi tra la 2a e la 3a posizione), poi A.C Ponte Nuovo (a 4.22) vicino a A.S.Gozzadini (4.34) a distanza Tergeste (5.58, era atteso vicino alla sesta, ma è riuscito a finire 4°), infine Team Polpetta che era atteso in 7a (6.92) ed è finito in quella e idem per Thai.
Quello che conta è la differenza tra la "POSIZIONE ATTESA" e quella "EFFETTIVA".
Sfortunati Kursaal e Gozzadini che sono 2 posizioni ciascuno indietro a quanto ci si aspettava da un pto di vista di equità statistica.

Una buona misura del random è questo valore che dà la differenza in posizioni di classifica.
Non posso qui postare tutte le serie, alla fine allego il file che potete scaricare e consultare.
In valore assoluto questo SCOSTAMENTO di posizione rispetto al valore atteso ha una media di 0.998, cioè in media ogni squadra si trova spostata di 1 posizione rispetto a quella che le spetterebbe (sempre secondo le stime di HTEV). E 1 posizione non è poco.

Vediamo anche qui, su 680 i casi estremi: 14 team ottengono oltre 3 posizioni più in alto di quelle eque


molti di questi ottengono una vittoria mentre la posizione attesa da HTEV erano i Playout (per Misterya, Lokomotiv Kebab, Palline Luvi ecc... anche qui attenzione, Misterya adotta spesso il contropiede, tattica che HTEV sottostima!)
Dall'altra parte le 15 più sfortunate


10 delle quali ottengono oltre 3 posizioni in meno di quelle attese (tra queste la "Arezzo Galasocaray" di Marrundo in IV.53, serie a dir poco bizzarra nei risultati, andate a vedere nel file). e 2 addirittura 4 posizioni in meno di quella "giusta", con la palma di più sfortunata qui a "Cyber Warriors", ultima in una serie che poteva anche vincere... o in cui aveva quasi il 50% di essere nelle prime tre (15+17+16=48).
E' un caso che fosse la IV.17 ?

Ciao
GM-Andreac

qui il file https://sites.google.com/site/andreactools/home/Bilancio%20Random%20Stagione%2049.xlsx?attredirects=0&d=1

Nessun commento: