Populația marțienilor cu ochi albaștri scade

Să presupunem că vrem să testăm ipoteza că proporția marțienilor cu ochi albaștri a scăzut pe parcursul secolului XX. Din păcate, populația marțiană fluctuează foarte mult, deci există o diferență mare în populația totală în fiecare deceniu [Actualizare: considerați populația marțiană ca fiind constantă la un miliard de marți. Următoarele date sunt probe aleatorii pentru fiecare an. Setul de date (care este compus la scriere) ar putea arăta cam așa:

Analiza anilor în care populația marțiană are sub 100 de ani nu este în mod clar la fel de semnificativă statistic ca pentru o populație de peste 10.000, deoarece în acest din urmă caz avem un set de date mai mare. Totuși, am dori să folosim toate datele disponibile pentru a ne testa ipoteza cu un nivel convențional de semnificație de 95%.

Cum mergem mai departe? Să cântărim importanța fiecărui an în funcție de mărimea eșantionului din acel moment?

Alte modificări pentru a aborda îngrijorarea includ modul în care ponderăm fiecare set de date în mod corespunzător, ținând cont că sunt atât de diferite ca dimensiune. Nu există o schimbare a eșantionului, deoarece datele sunt alese la întâmplare.

0 'rol = "prezentare"> 0 1' rol = "prezentare"> 1

n 'rol = "prezentare"> n p' rol = "prezentare"> p k 'rol = "prezentare"> k

Știm fiecare deceniu și acestea sunt date de date - dar știm. O putem estima presupunând că șansele logaritmice care corespund variază liniar de la an la an (cel puțin la o bună aproximare). Aceasta înseamnă că presupunem că există numere și astfel încât n 'rol = "prezentare"> nk' rol = "prezentare"> kp 'rol = "prezentare"> pp' rol = "prezentare"> p β 0 'rol = "prezentare"> β 0 β 1' role = "prezentare"> β 1

Dacă conectați acest lucru la (1), aveți opțiunea de a urmări într-un anumit an ca k 'role = "prezentare"> k n' rol = "prezentare"> n t 'rol = "prezentare"> t

Presupunând că eșantioanele sunt obținute independent în ani etc. și subiecții corespunzători și cu ochi albaștri ca și probabilitatea datelor este produsul probabilităților rezultatelor individuale. Acest produs este (prin definiție) probabilitatea. Putem estima acești parametri ca valori care maximizează probabilitatea; În consecință, maximizează probabilitatea jurnalului t 1, t 2, 'rol = "prezentare"> t 1, t 2, ni' rol = "prezentare"> niki 'rol = "prezentare"> ki (β 0, β 1) 'rol = "prezentare"> (β 0, β 1) (β ^ 0, β ^ 1)' rol = "prezentare"> (β ^ 0, β ^ 1)

obtinut de la . (2) 'rol = "prezentare"> (2)

(Acest lucru este mult simplificat atunci când se utilizează reguli de logaritm. Acesta este unul dintre motivele pentru exprimarea relației timp-raport în termeni de log-cote. Dacă toate proporțiile sunt aproximativ între și, există o diferență calitativă mică între utilizarea probabilităților sau Șansele dvs. de câștig în jurnal: curba ajustată este liniară sau aproape liniară.) 0,2 'rol = "prezentare"> 0,2 0,8' rol = "prezentare"> 0,8 p 'rol = "prezentare"> p

(3) 'role = "presentation"> (3) este un model liniar generalizat binomial. Trebuie ajustat prin minimizarea numerică. Procedura din (prezentată la sfârșitul acestui post) oferă soluției Λ 'rol = "prezentare"> Λ glm R

Datele din această figură sunt reprezentate grafic cu felii ale căror arii sunt proporționale cu dimensiunile eșantionului. Potrivirea GLM este curbiliniară. Pentru comparație, rândul pe care l-am obține dacă ar fi să trimitem datele prezentate în întrebare la un rezolvator obișnuit de cel puțin pătrat este afișat în gri pentru comparație. În ciuda dimensiunilor reduse ale eșantionului la momentul respectiv, ambele crize sunt influențate de proporțiile mai mari din anii anteriori. Cu toate acestea, potrivirea GLM poate aproxima mai bine proporțiile în cele mai mari eșantioane obținute în 1970 și 1980. Linia albastră punctată este descrisă mai jos. (An, proporție) 'rol = "prezentare"> (An, proporție)

Prin adăugarea unui termen pătratic, putem testa bunătatea potrivirii. Îmbunătățește foarte mult potrivirea GLM (deși diferența vizuală nu este mare) și oferă dovezi că acest model nu descrie bine variația rezultatelor. O privire asupra graficului arată că rezultatul din 1990 a fost mult mai mic decât modelul prezis.

O abordare alternativă, dar comparabilă, este estimarea individuală a fiecărui an, posibil (deși sunt posibile și alte estimări). O regresie liniară a cotelor logaritmice ale acestor estimări față de an, ponderată cu dimensiunile eșantionului sau regresia celor mai mici pătrate ponderate, dă p 'rol = "prezentare"> pti' rol = "prezentare"> tiki/ni 'rol = "prezentare" > ki/nini 'role = "presentation"> ni

Erorile standard ale acestor estimări indică, respectiv, faptul că estimările WLS nu sunt semnificativ diferite de binomul GLM. (Cu toate acestea, erorile standard GLM sunt semnificativ mai mici: „știe” că aceste dimensiuni ale eșantionului sunt destul de mari, în timp ce regresia liniară „nu știe” nimic despre dimensiunile eșantionului: există doar o singură secvență de zece observații separate.) Rețineți că o alternativă poate să nu fie disponibilă dacă sau dacă nu se folosește un alt estimator de probabilități (care nu are valori de sau). 15,55 'rol = "prezentare"> 15,55 0,00787' rol = "prezentare"> 0,00787 ki = ni 'rol = "prezentare"> ki = niki = 0' rol = "prezentare"> ki = 0 0 'rol = "prezentare" > 0 1 'rol = "prezentare"> 1

În sfârșit, am putea face doar o regresie ponderată a celor mai mici pătrate a estimărilor probabilității brute față de an, care este invers ponderată de o estimare a varianței eșantionului. Varianța unei distribuții binomiale este variabilă, exprimată din nou ca raport. Acest lucru poate fi estimat dintr-un eșantion ca k/n 'rol = "prezentare"> k/n (n, p)' rol = "prezentare"> (n, p) X 'rol = "prezentare"> XX/n' rol = "prezentare"> X/np (1 - p)/n 'role = "prezentare"> p (1 - p)/n

Rezultatul apare în figură ca o linie albastră punctată. În acest caz, pare să existe un compromis între ajustările GLM și OLS.

Următorul cod R a efectuat analizele și a generat figura.