Date lipsă - cauze, identificare și atribuire - ThinkR - Certificare; Instruire

Dar unde sunt? Acum, nu este vorba cu adevărat de unde s-au dus, ci cum să le înlocuim. În timpul carierei noastre, toți am avut experiența că ne-am rupt capul pentru a ști cum vom putea exploata aceste date pline de valori lipsă, deoarece știm că calitatea datelor noastre este una dintre cheile principale pentru a conduce un proiect de date.

Primul lucru de făcut atunci când avem de-a face cu date care nu ne sunt familiare sau necunoscute este să ne uităm la capul pe care îl are: aruncați o privire rapidă la rezumat si ceva grafice mai târziu (vezi articolul dedicat capcanelor de evitat atunci când vrei să-ți vezi datele: https://thinkr.fr/les-pieges-de-la-representation-de-donnees/), avem deja o idee mai clară despre Lucrările de curățare din față.

O altă funcție care poate fi utilă pentru a obține o primă idee despre datele noastre și care oferă numărul de valori lipsă pentru fiecare variabilă: skim () a pachetului sau funcția glimpse () a pachetului:

Tabelul 1: Rezumatul datelor

Nume	iris.miss
Număr de rânduri	150
Numar de coloane	5
_______________________
Frecvența tipului de coloană:
factor	1
numeric	4
________________________
Variabile de grup	Nici unul

Tipul variabilei: factor

skim_variable n_missing complete_rate comandat n_unique top_counts

Specii

0,78

FALS

ver: 40, vir: 40, set: 37

Tipul variabilei: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist

Sepal.Lungime	20	0,87	5,82	0,83	4.4	5.1	5,75	6.4	7.9	▇▇▇▃
Sepal.Lățime	32	0,79	3.08	0,42	2.2	2.8	3.00	3.3	4.4	▃▇▆▂
Petală.Lungime	30	0,80	3,81	1,74	1.0	1.6	4.45	5.1	6.7	▇▅▇▃
Petală.Lățime	35	0,77	1.14	0,76	0,1	0,3	1.30	1.8	2.5	▇▂▆▅▃

Dar atenție! Înainte de a începe cu capul în studiul diferitelor metode de imputare, este necesar să știm identifica date lipsa. De fapt, acestea nu sunt întotdeauna materializate printr-o „NA” clară. De asemenea, este util să înțelegeți motivele.

De ce lipsesc date ?

Pentru că încă nu trăim în cele mai bune lumi posibile (nu glumesc!), mulți factori pot fi luate în considerare, în funcție de natura și originea datelor dvs. Datele lipsă sunt clasificate în funcție de mecanismul care a dus la absența lor:

- MCAR: Lipsește complet la întâmplare: Probabilitatea ca datele să lipsească pentru o variabilă este independentă de alte variabile, cum ar fi pierderea unui disc care conține 10% din date, aruncarea unei eprubete de sânge, ...
- MAR: Lipsește la întâmplare: Probabilitatea ca datele să lipsească pentru o variabilă depinde de celelalte variabile observate, dar nu de variabila în cauză. De exemplu, măsurarea greutății va depinde de vârstă (adică adulții sunt cântăriți mai puțin decât copiii).
- MNAR: Lipsește la întâmplare: Probabilitatea ca datele să lipsească pentru o variabilă depinde de valoarea neobservată. Acesta este exemplul persoanelor cu venituri mari care răspund mai puțin la întrebarea referitoare la salariul lor sau a pacienților seropozitivi care vor răspunde mai puțin la întrebarea privind statutul seropozitiv.

Date lipsă, știu cum să le recunoaștem

„NA” este simbolul pentru datele lipsă în R, ca multe alte limbi (nu-l confundați cu „NaN” care înseamnă „nu un număr”, care poate apărea atunci când se împarte la zero de exemplu). Dar datele lipsă nu sunt întotdeauna puse la NA. Mai jos este o listă neexhaustivă de cazuri pe care le putem întâlni:

Cel mai ușor caz de identificat este caracterul gol sau spațiul pentru variabilele de tip șiruri. De asemenea, este posibil să aveți de-a face cu „fără date”.
În același tip de caz, dar pentru variabilele numerice, se găsește în mod regulat „999” și alte numere voluntare inconsistente.
Valorile aberante lipsesc, de asemenea, valorilor
În serii de timp, mai multe cazuri:
- Ultima observație se repetă până când sunt observate date noi
- Se repetă secvențe întregi: ziua/săptămâna/luna anterioară
- 0 în loc de NA sau, uneori, altă valoare constantă scăzută

Într-un anumit număr de cazuri menționate mai sus, în special repetarea secvențelor, suntem în situația în care datele au fost deja prelucrate de către o terță parte, astfel încât să nu lipsească. Detectarea acestora poate reprezenta o adevărată provocare, deoarece metoda de înlocuire utilizată a priori poate să nu fie cea mai adecvată (înlocuirea unei valori lipsă cu zero atunci când este o variabilă ale cărei valori sunt întotdeauna între 100 și 150 nu poate fi considerată într-adevăr o bună idee). Trebuie să ținem cont de faptul că, fără date de calitate (și, prin urmare, fără o metodă adecvată pentru gestionarea datelor lipsă), va fi imposibil să înțelegem analizele noastre.

Vizualizarea datelor lipsă

„Vizualizați ceva care nu există ... (dar ce ați fumat?)” Vă veți gândi ... Există de fapt multe pachete R care au funcții dedicate reprezentării grafice a datelor lipsă - deci nu, nu este o idee nebună. Ideea este să ne înțelegem datele lipsă, să determinăm tiparele dacă există.