Date ponderate
Deși este foarte posibil să lucrați cu R sub, această funcționalitate nu este la fel de bine integrată ca în majoritatea celorlalte programe de procesare statistică. În special, există mai multe modalități posibile de a gestiona. Cu toate acestea, atunci când trebuie luat în considerare și un complex (a se vedea secțiunea dedicată de mai jos), R oferă toate instrumentele necesare, în timp ce în majoritatea software-urilor proprietare aveți nevoie de o extensie adecvată, care nu este vândută întotdeauna ca standard împreună cu software-ul.
În cele ce urmează, vom folosi setul de date din sondajul Histoire de vie și, în special, ponderarea sa greutatea variabilă 1 .
Opțiuni pentru unele funcții
În primul rând, unele funcții ale R acceptați ca argument un vector care permite ponderarea observațiilor (opțiunea se numește în general greutăți sau rând.w). Acesta este cazul, de exemplu, cu metodele de estimare pentru modelele liniare 2 (lm) sau modelele liniare generalizate 3 (glm) sau în analizele de corespondență 4 ale extensiilor ade4 sau FactoMineR .
Cu toate acestea, această opțiune nu este prezentă în funcțiile de bază precum mean, var, table sau chisq.test .
Date ponderate cu extensia sondajului
Extensia sondajului este special dedicată procesării sondajelor cu tehnici de eșantionare și ponderare potențial foarte complexe.
Extensia se instalează ca majoritatea celorlalte:
Site-ul oficial conține o mulțime de informații, dar nu neapărat foarte accesibile:
http://r-survey.r-forge.r-project.org/.
Pentru a utiliza funcționalitatea extensiei, trebuie mai întâi să definim sondajul sau, adică să indicăm ce tip de ponderare dorim să îi aplicăm.
În primul rând, vom folosi cel mai simplu design de eșantionare, cu o variabilă de greutate deja calculată. Pentru alte tipuri de plan de eșantionare, consultați capitolul despre planuri complexe de eșantionare.
Acest lucru se face folosind funcția svydesign:
Această funcție creează un obiect nou, pe care l-am numit dw. Acest obiect nu este strict un tabel de date, ci mai degrabă un tabel de date plus o metodă de ponderare. dw și d sunt obiecte separate, operațiunile efectuate pe una nu au nicio influență asupra celeilalte. Cu toate acestea, putem prelua conținutul lui d din dw folosind variabile dw $:
Atunci când planul nostru de eșantionare este declarat, îi putem aplica o serie de funcții pentru a efectua diferite operațiuni statistice luând în considerare ponderarea. Vom menționa în special:
- svymean, svyvar, svytotal, svyquantile: (,)
- svytable: și
- svychisq:
- svyby: statistici în funcție de un factor
- svyttest: din
- svyciprop:
- svyglm: (nu)
- svyplot, svyhist, svyboxplot: funcții grafice
Sunt disponibile și alte funcții, cum ar fi svyratio, dar nu vor fi discutate aici.
Pentru a înrăutăți lucrurile, aceste funcții își iau argumentele ca formule 5, ceea ce nu este în mod obișnuit. De obicei apelul funcțional se face specificând mai întâi variabilele de interes ca formulă, apoi obiectul survey.design.
Să aruncăm o privire la câteva exemple 6: