Speaker Stefanie Jahn SS 2007 - descărcare video ppt online

Vorbitor: Stefanie Jahn SS 2007 Cluster analysis Vorbitor: Stefanie Jahn SS 2007

1. Analiza problemelor unei totalități eterogene de obiecte Scop: Identificarea subseturilor omogene de obiecte din totalul obiectului. Analiza clusterului are diferite metode de formare a grupului

Considerații preliminare Numărul de obiecte trebuie să fie reprezentativ în eșantioane aleatorii Excludeți/eliminați valorile aberante luând în considerare doar caracteristicile relevante Ponderarea egală a caracteristicilor -> excludeți corelațiile datorate riscului de distorsiune Nu există caracteristici constante în matricea de ieșire -> riscul de distorsiune Scalați nivelurile datelor de ieșire

Valori lipsă Setul de date trebuie eliminat de valorile lipsă. Excluderea: - Variabilelor cu un număr mare de valori lipsă - Cazuri cu valori lipsă pentru variabile -> Problemă: Reducerea numărului de cazuri, înlocuirea valorilor lipsă cu valori medii -> Problemă: Distorsiunea evenimentului dacă apar apariții prea frecvente

2. Procedura 2.1. Determinarea asemănării 2.1.1. Structura variabilă binară 2.1.2. Structura variabilă metrică 2.1.3. Structură variabilă scalată mixtă 2.2. Selectarea algoritmului de fuziune 2.2.1. Metode de partiționare 2.2.2. Proceduri ierarhice 2.3. Determinarea numărului de clustere

2.1. Determinarea similarității Punct de plecare: matrice de date brute cu obiecte K, care sunt descrise de variabilele J Matricea conține măsuri de proximitate (= măsuri de similitudine și disimilitate)

2.1.1. Comparație pereche de structuri variabile binare: valorile proprietăților sunt comparate între ele pentru 2 obiecte

Coeficienții Tanimoto, RR și M

Utilizare: dacă inexistența unei caracteristici este relevantă (de ex. Pentru sex: 1 = bărbat, 0 = femeie), atunci utilizați de ex. Coeficientul M dacă absența unei caracteristici nu este relevantă, atunci există o tendință spre coeficientul Tanimoto sau Jaccard.

Utilizarea coeficienților de similaritate pentru variabilele pe mai multe niveluri:

2.1.2. Structură variabilă metrică Mincere Minkowski sau standarde L măsuri de distanță utilizate pe scară largă Diferența dintre proprietățile perechilor de obiecte împărțite la valorile absolute ale diferenței

r = 1 - metrica blocului orașului: = I1-2I + I2-3I + I1-3I = 1 + 1 + 2 = 4 cu norma L1, toate valorile diferenței sunt incluse în calcul cu greutate egală = cea mai mare similitudine; = cea mai mare diferență

r = 2 - Distanța euclidiană: = I1-2I2 + I2-3I2 + I1-3I2 = 12 + 12 + 22 = 6 considerare mai mare a valorilor diferenței mari prin pătrat

Rezultat: Alegerea măsurii distanței influențează ordinea de similaritate a obiectelor care urmează să fie examinate. Important: trebuie utilizate unități de măsură comparabile -> altfel standardizare!

Coeficientul de corelație Q calculează similitudinea dintre 2 obiecte luând în considerare toate variabilele unui obiect = cea mai mare similitudine; = cea mai mare diferență

De ce Rama și Untul de Crăciun sunt cele mai diferite prin metrica Minkowski, dar cele mai asemănătoare prin coeficientul de corelație Q? Utilizarea măsurilor de distanță dacă distanța absolută dintre obiecte prezintă interes și diferențierea crește odată cu creșterea distanței -> de ex. Dimensiune/nivel de vânzare similar în timp Utilizarea măsurilor de similaritate atunci când vine vorba de aspectul de similaritate în sincronizarea a două profiluri, indiferent de nivel -> de ex. evoluții similare ale vânzărilor în timp

2.1.3. Structura variabilă scalată mixtă A) Pentru variabilele metrice și non-metrice, coeficienții de similitudine sau distanțele sunt calculate separat. Similitudinea generală = media neponderată sau medie ponderată a variabilelor calculate

de exemplu: Rama și Flora: distanța coeficientului M = 1-0,7 = 0,3 pentru metr. Proprietăți la distanță euclidiană pătrată = 4 => aritmetă neponderată. Media: 2,15 => ponderare conform metr. și non-metr. distanţă

B) Transformarea de la un nivel mai mare la un nivel inferior Dichotomizare: Preț până la 1,59 € = 0, de la 1,60 € = 1 = pierderi mari de informații, arbitrare. Definiția interfeței? Intervalele formularului sau: preț mai mare de 1,40 €? da = 1, nu = 0 Preț mai mare de 1,70 €? da = 1, nu = 0 ... cu cât gama clasei este mai mică, cu atât este mai mică pierderea de informații, riscul de distorsiune datorită ponderării incorecte

2.2. Selectarea algoritmului de fuzionare Combinarea în grupuri pe baza valorilor de similaritate, analiza clusterului (aglomerativă) rezumă cazurile luate în considerare până când toate cazurile sunt conținute într-un grup posibilă diferențiere a metodelor de partiționare metode ierarhice

2.2.1. Metode de partiționare, grupare predefinită se bazează pe o grupare dată a obiectelor, rearanjare cu ajutorul unui algoritm de schimb între grupuri la optim

Terminați gruparea atunci când toate obiectele sunt terminate Clusterizarea când toate obiectele sunt terminate. relocarea lor a fost investigată și nu se poate obține nicio îmbunătățire a criteriului varianței -> trebuie să aibă loc încetarea, altfel sunt prea multe opțiuni -> optima locală este atinsă în loc de optima globală 2 probleme de decizie cu „schimbarea partiției de pornire”: 1. Determinați în câte grupuri se află obiectele urmează să fie distribuite 2. Determinați modul în funcție de care obiectele urmează să fie distribuite grupurilor de început (folosind un tabel de numere aleatorii, în funcție de ordinea în care sunt numerotate, ...)

Metodele de partiționare sunt caracterizate de o variabilitate mai mare în comparație cu metodele ierarhice aglomerative.Metodele de partiționare sunt mai puțin frecvente în aplicațiile practice Motive: - Rezultatele sunt mai puternic influențate de funcția țintă - Justificarea adesea subiectivă pentru alegerea poziției de pornire poate influența rezultatul - Numai optima locală poate fi atinsă

2. 2. 2. Proceduri ierarhice 2. 2. 2. 1 2.2.2. Proceduri ierarhice 2.2.2.1. Procesul aglomerativ Procesul aglomerativ - cea mai bună partiție este punctul de plecare -> gruparea împreună

Diferențe între aggl. Diferențe între aggl. Procedurile rezultă numai din modul în care sunt determinate distanțele Distanța dintre obiectele P + Q la orice grup R: D (R, P + Q) = A * D (R, P) + B * D (R, Q) + E * D (P, Q) + G * ID (R; P) -D (R, Q) I cu: D (R, P): distanța dintre grupurile R și PD (R, Q): distanța dintre grupuri R și QD (P, Q): Distanța dintre grupurile P și Q

unește obiectele care au cea mai mică distanță 2.2.2.2. Procedura procedurilor „Single-Linkage”, „Complete Linkage” și „Ward” Single Linkage procedură combină obiectele care au cea mai mică distanță. Procesul de vecinătate cel mai apropiat SLV atrage întotdeauna cea mai mică valoare ca nouă distanță între două grupuri. Abordarea distanțelor individuale -> este, prin urmare, potrivită pentru recunoașterea „valorilor aberante”, tinde să formeze multe grupuri mici și mai puțin mari -> tendința de a forma lanțuri

Metoda legăturii complete, cele mai mari distanțe sunt folosite ca distanțe = metoda cea mai îndepărtată vecină Distanța corespunde acum cu cea mai mare distanță individuală

mai degrabă tinde să formeze grupuri mici care nu sunt potrivite pentru detectarea „valorilor aberante” datorită utilizării celor mai mari distanțe ale valorilor individuale

Metoda Ward Scop: unirea acelor obiecte care măresc dispersia unui grup cât mai puțin posibil -> creând astfel grupuri cât mai omogene posibil ca o măsură a eterogenității, se folosește criteriul varianței = suma erorii pătratelor (FQS) Calculul quadrului. Euclid. Distanța dintre toate obiectele FQS în primul pas = 0, deoarece fiecare obiect are propriul grup -> încă nu este împrăștiat

4 * 0,5 = 2 (= FQS) 6,667 * 0,5 = 3,333 3,333 + 2 = 5,333 11 * 0,5 = 5,5 5,5 + 5,333 = 10,833

Metoda Ward utilizează o măsurare a distanței variabilele trebuie să fie metrice fără valori externe variabile necorelate așteptare importantă a grupurilor de dimensiuni egale. grupuri alungite sau grupuri cu un număr mic de elemente nerecunoscute. Recomandare: - SLV mai întâi pentru a găsi valori aberante - „Eliminați” valori aberante - Reexaminați numărul redus de obiecte cu o altă metodă aglomerativă - Metoda trebuie selectată pe fundalul situației respective a aplicației

2.3. Determinarea numărului de clustere Decizia cu privire la numărul de clustere care este „cea mai bună” soluție și ar trebui utilizată Rezolvarea conflictului de obiective între cerința de gestionare și omogenitate. Determinarea numărului de clustere ar trebui să se bazeze pe criterii statistice; este suma de eroare a pătratelor din metoda lui Ward) clarificarea grafică este oferită de dendrogramă

Dezvoltarea eterogenității este reprezentată grafic în raport cu numărul asociat de clustere într-un sistem de coordonate -> soluție de 4 clustere