Prova d’hipòtesi

Un senzill i breu tutorial sobre proves d’hipòtesis mitjançant Python

Imatge de: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

En aquest bloc, donaré un breu tutorial sobre proves d’hipòtesi mitjançant mètodes estadístics a Python. La prova de la hipòtesi forma part del mètode científic que tots coneixem, cosa que probablement hem après en els primers anys educatius. Tanmateix, en estadístiques, es fan molts experiments sobre una mostra d’una població.

"Determinar què ens explica un conjunt d'exemples d'observacions sobre una explicació proposada, en general, ens requereix que fem una inferència, o com ho anomenem els estadístics, a Motivar amb la incertesa. El raonament amb la incertesa és el nucli de la inferència estadística i es fa normalment mitjançant un mètode anomenat Null Hypothis Significance Testing. " -Forns.

Com a exemple per a aquest bloc, faré servir un conjunt de dades de futbol europeu que es troba a Kaggle i faré proves d’hipòtesis. El conjunt de dades es pot trobar aquí.

Pas 1

Feu una observació

El primer pas és observar fenòmens. En aquest cas, serà: Hi ha un impacte de l’agressió en defensa sobre els objectius permesos de mitjana?

Pas 2

Examineu la investigació

Una bona mentalitat per passar és que el treball més intel·ligent no és més difícil. Una cosa bona a fer és veure si ja existeixen investigacions relacionades amb la vostra observació. En cas afirmatiu, pot ajudar a respondre la nostra pregunta. El fet de ser conscient de les investigacions o experiments ja existents ens ajudarà a estructurar millor el nostre experiment, o potser fins i tot respondre la nostra pregunta i no haver de realitzar l’experiment en primer lloc.

Pas 3

Formeu una hipòtesi nula i una hipòtesi alternativa

Una hipòtesi alternativa és la nostra conveniència educada i una hipòtesi nul·la és simplement el contrari. Si la hipòtesi alternativa afirma que hi ha una relació significativa entre dues variables, la hipòtesi nula afirma que no hi ha cap relació significativa.

La nostra hipòtesi nula serà: No hi ha diferència estadística en els objectius permesos amb equips amb una puntuació d’agressió a la defensa superior o igual a 65 enfront dels equips inferiors als 65.

Hipòtesi alternativa: hi ha una diferència estadística d’objectius permesos amb equips amb una qualificació d’agressió a la defensa superior o igual a 65 enfront dels equips inferiors als 65.

Pas 4

Determineu si la nostra hipòtesi és una prova d'una sola cua o una de dues cues.

Test d'una sola cua

"Si utilitzeu un nivell de significació de 0,05, un test d'una cua permet a totes les vostres alfa provar la significació estadística en el sentit d'interès." Un exemple de prova d'una sola cua seria "Els equips de futbol amb una puntuació d'agressió inferior a 65 permeten estadísticament més gols que els equips amb una puntuació inferior a 65".

Prova a dues cues

"Si utilitzeu un nivell de significació de 0,05, un test de dues cues permet a la meitat de la vostra alfa provar la significació estadística en una direcció i la meitat de la vostra alfa per provar la significació estadística en l'altra direcció. Això significa que 0,025 es troba a cada cua de la distribució de la vostra estadística de prova. "

Amb un test de dues cues, està provant la importància estadística en ambdues direccions. En el nostre cas, estem provant la importància estadística en ambdues direccions.

Pas 5

Definiu un nivell de significació de llindar (alfa)

(valor alfa): el llindar marginal al qual estem bé rebutjar la hipòtesi nul·la. Un valor alfa pot ser qualsevol valor que establim entre 0 i 1. No obstant això, el valor alfa més comú en ciència és 0,05. Una configuració alfa a 0,05 significa que estem bé rebutjant la hipòtesi nul·la, tot i que hi ha un 5% o menys de possibilitat que els resultats siguin deguts a l’atzar.

Valor P: La probabilitat calculada d’arribar a aquestes dades aleatòriament.

Si calculem un valor p i surt a 0,03, ho podem interpretar com a "Hi ha una probabilitat del 3% que els resultats que veig es deuen a l'atzar o a la pura sort".

Imatge de Learn.co

El nostre objectiu és calcular el valor p i comparar-lo amb el nostre alfa. Com més baixa sigui l’alfa, més rigorosa és la prova.

Pas 6

Realitza el mostreig

Aquí tenim el nostre conjunt de dades anomenat futbol. Per a la nostra prova, només necessitem dues columnes del conjunt de dades: team_def_aggr_rating i goals_allowed. El filtrem per aquestes dues columnes i crearem dos subconjunts per a equips amb una qualificació d’agressió defensiva superior o igual a 65 i per a equips amb una classificació d’agressió defensiva per sota de 65.

Només cal aprofitar la prova de la nostra hipòtesi:

Impacte de l’agressió de la defensa en objectius mitjans permesos. Hipòtesi nul·la: no hi ha diferència estadística en els objectius permesos amb equips amb una qualificació d’agressió a la defensa superior o igual a 65 enfront dels equips inferiors a 65. Hipòtesi alternativa: hi ha una diferència estadística de gols permesa amb equips amb una qualificació d’agressió en defensa superior. igual o igual a 65 enfront dels equips inferiors a 65. Test Alpha de dues cues: 0,05

Ara tenim dues llistes de mostres en què podem fer proves estadístiques. Abans d’aquest pas, traçaré les dues distribucions per obtenir una visual.

Pas 7

Realitzeu la prova de dos exemplars

El test de dues mostres s’utilitza per determinar si dos mitjans de població són iguals. Per això utilitzarem el mòdul Python anomenat statsmodels. No aprofundiré gaire en els estadístics models, però podeu veure la documentació aquí.

Pas 8

Avaluar i concloure

Recordem que l’alfa que vam establir era un = 0,05. Com veiem als resultats de les proves, el valor p és inferior al de la nostra alfa. Podem rebutjar la nostra nul·la hipòtesi i amb un 95% de confiança acceptem la nostra hipòtesi alternativa.

Gràcies per llegir! Per obtenir més informació sobre el desenvolupament de les hipòtesis, podeu consultar aquest projecte de grup a GitHub I, on hi vaig participar en la prova d'hipòtesis.

Recursos:

Forns, Matthew. "Estadístiques i el" Mètode científic "recuperat de YourStatsGuru. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Introducció a SAS. UCLA: Grup de Consultoria Estadística. de https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (accedit a maig 16, 2019).

Manual d'Estadístiques d'Enginyeria. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm