Curățarea fișierelor în cazul datelor individuale care caută consistență transversală

Kremp Elizabeth. Curățarea fișierelor în cazul datelor individuale: căutarea consistenței transversale. În: Economie și prognoză, nr. 119, 1995-3. pp. 171-193.

datelor

Curățarea fișierelor pentru date individuale

Căutați coerență transversală

Un fișier de date individuale pe mai mulți ani, numit și date de tip panou, poate fi caracterizat prin trei dimensiuni: numărul de indivizi, numărul de informații, adică variabilele care permit caracterizarea acestor indivizi și numărul de ani pentru care această informațiile sunt disponibile. În plus față de aceste trei caracteristici, poate fi luată în considerare și a patra, care este mai dificil de măsurat, care este calitatea acestor informații.

Problema curățării unui eșantion a apărut în contextul comparării bazelor de date contabile ale companiilor din Banque de France cu datele exhaustive ale Sistemului unificat de statistici comerciale (Susa) al Insee. Înainte de a putea compara aceste baze de date diferite, este important să aveți statistici fiabile (1). Mai general, această problemă de identificare a datelor extreme sau anormale apare atunci când se efectuează studii economice aplicate care utilizează datele sondajului.

După ce am încercat să clarificăm aceste noțiuni de valori aberante și valori extreme, acest articol amintește instrumentele statistice și prezintă diverse metode nevariate pentru identificarea acestor valori. Metodele multivariate nu sunt explorate aici, deoarece nu sunt condiționate doar de un model teoretic, dar par foarte greoaie de implementat în cazul fișierelor de date individuale și temporale de mărimea celor utilizate în acest studiu (2). Opt tehnici construite din aceste instrumente și metode sunt apoi testate pe Fișierul bancar de afaceri al Băncii de Franță (Fiben), pe criteriul raportului clienților cu termenii de plată. În cele din urmă, aplicarea a trei dintre aceste tehnici la șapte rapoarte face posibilă compararea acestora, evaluarea rolului alegerii rapoartelor și măsurarea fenomenelor cumulative de eliminare a observațiilor.