Omalala - PDF Descărcare gratuită

Import date, descriere DATA 2

Importați fișierul de date, statistici descriptive și grafică #modificarea dosarului implicit import os os.chdir (") #data import import panda fromage = pandas.read_table ("fromage.txt", sep = "\ t", header = 0, index_col = 0) #dimensionare dimensiune date (fromage.shape) #descriptive statistici print (fromage.describe ()) #graphic - încrucișare două-la-două a variabilelor din pandas.tools.plotting import scatter_matrix scatter_matrix (brânză, figsize = (9,9)) Acest tip de grafic nu este niciodată inofensiv. Observăm, de exemplu, că (1) „lipidele” sunt puternic corelate cu „caloriile” și „colesterolul” (fără prea multe surprize) (notă: aceleași informații vor cântări de 3 ori în analiză); (2) în anumite configurații, grupurile par să apară în mod natural (de exemplu, încrucișarea „proteinelor” și „colesterolului”, cu o corelație destul de marcată între grupuri). 4

Clasificare ierarhică ascendentă CAH 5

Clasificare ierarhică ascendentă Utilizând pachetul "scipy" #librairies pour la CAH din matplotlib import pyplot ca plt din scipy.cluster.hierarchy import dendrogram, linkage # generate matrix of links Z = linkage (fromage_cr, method = 'ward', metric = 'euclidian') # afișare a dendrogramului plt.title ("cah") dendrogramă (z, etichete = fromage.index, orientare = 'stânga', color_threshold = 0) plt.show () Dendrograma „sugerează” o împărțire în 4 grupuri. Observăm că o clasă de brânzeturi, „brânzeturi proaspete” (extrem de stânga), iese în evidență de la celelalte până la punctul în care am fi putut considera, de asemenea, o împărțire în doar 2 grupe. Vom reveni la acest lucru mai mult atunci când amestecăm analiza cu o analiză componentă principală (PCA). 6

Metoda centrului mobil K-MEANS 8

Metoda centrului mobil Ajutor în detectarea numărului adecvat de grupuri K-MEANS, spre deosebire de CAH, nu oferă ajutoare în detectarea numărului de clase. Trebuie să le programăm în Python sau să folosim procedurile oferite de pachetele dedicate. Diagrama este adesea aceeași: se variază numărul de grupuri și se monitorizează evoluția unui indicator al calității soluției, adică. aptitudinea indivizilor de a fi mai aproape de congenerii lor din același grup decât de indivizii altor grupuri. În cele ce urmează, metrica „siluetă” este calculată pentru diferite numere de grupuri rezultate din metoda centrului în mișcare. # bibliotecă pentru evaluarea partiției din valorile de import sklearn # utilizarea metricii „siluetă” # variază numărul de clustere de la 2 la 10 rez = np.arange (9, dtype = "double") pentru k în np.arange (9): km = cluster.kmeans (n_clusters = k + 2) km.fit (fromage_cr) res [k] = metrics.silhouette_score (fromage_cr, km.labels_) print (res) #graphic import matplotlib.pyplot as plt plt. title ( "silhouette") plt.xlabel ("# de clustere") plt.plot (np.arange (2,11,1), res) plt.show () Partiția în k = 2 grupuri pare cea mai bună în sensul metrica „siluetei”. Notă: Este ciudat, nu am obținut aceleași rezultate la R. 10