Hierarkisk vs Partitional Clustering

Clustering er en maskinlæringsteknikk for å analysere data og dele inn i grupper med lignende data. Disse gruppene eller sett med lignende data er kjent som klynger. Klyngeanalyse ser på grupperingsalgoritmer som kan identifisere klynger automatisk. Hierarkiske og partisjonelle er to slike klasser av grupperingsalgoritmer. Hierarkiske grupperingsalgoritmer bryter opp dataene til et hierarki av klynger. Paritional algoritmer deler datasettet i gjensidig ujevne partisjoner.

Hva er hierarkisk klynge?

Hierarkiske grupperingsalgoritmer gjentar syklusen for enten å slå sammen mindre klynger til større eller dele større klynger til mindre. Uansett produserer det et hierarki av klynger som kalles et dendogram. Agglomerativ klyngsstrategi bruker bottom-up-tilnærmingen for å slå sammen klynger til større, mens splittende klyngsstrategi bruker topp-til-tilnærmingen til å dele opp til mindre. Vanligvis brukes den grådige tilnærmingen for å bestemme hvilke større / mindre klynger som brukes til sammenslåing / deling. Euklidisk avstand, Manhattan-avstand og kosinus-likhet er noen av de mest brukte metrikkene for likhet for numeriske data. For ikke-numeriske data brukes beregninger som Hamming-avstanden. Det er viktig å merke seg at de faktiske observasjonene (forekomstene) ikke er nødvendig for hierarkisk klynging, fordi bare matrisen for avstander er tilstrekkelig. Dendogram er en visuell representasjon av klyngene, som viser hierarkiet veldig tydelig. Brukeren kan oppnå forskjellige klynger avhengig av nivået som dendogrammet kuttes på.

Hva er Partitional Clustering?

Partisjonelle grupperingsalgoritmer genererer forskjellige partisjoner og evaluerer dem deretter etter et kriterium. De omtales også som ikke-hierarkiske, ettersom hver forekomst er plassert i nøyaktig en av k gjensidig eksklusive klynger. Fordi bare ett sett med klynger er utdataene fra en typisk partisjonell klyngeralgoritme, er brukeren pålagt å legge inn ønsket antall klynger (vanligvis kalt k). En av de mest brukte partisjonelle klyngeralgoritmer er k-betyr klyngealgoritme. Det kreves at brukeren oppgir antall klynger (k) før start, og algoritmen starter først sentrene (eller centroids) til k-partisjonene. I et nøtteskall tildeler k-betyr gruppering algoritme medlemmer basert på de nåværende sentrene og omvurderer sentre basert på de nåværende medlemmene. Disse to trinnene blir gjentatt inntil en viss objektiv funksjon i likhet med den indre klyngen og den forskjellige klyngenes ulikhetsmålfunksjon er optimalisert. Derfor er fornuftig initialisering av sentre en veldig viktig faktor for å oppnå kvalitetsresultater fra partisjonelle grupperingsalgoritmer.

Hva er forskjellen mellom hierarkisk og partisjonell klynging?

Hierarkisk og partisjonell klynging har viktige forskjeller i løpetid, forutsetninger, inputparametere og resulterende klynger. Vanligvis er partisjonell klynging raskere enn hierarkisk klynging. Hierarkisk klynging krever bare et likhetstiltak, mens partisjonell klynging krever sterkere forutsetninger som antall klynger og de opprinnelige sentrene. Hierarkisk klynging krever ingen inndataparametere, mens partisjonelle gruppering algoritmer krever antall klynger for å starte. Hierarkisk klynging gir en mye mer meningsfull og subjektiv inndeling av klynger, men delvis klynging gir nøyaktig k klynger. Hierarkiske grupperingsalgoritmer er mer egnet for kategoriske data så lenge et likhetsmål kan defineres deretter.