Uživatelské nástroje

Nástroje pro tento web


mmc:settings:mccriterions

Kritéria pro shlukování

Parametry v rámečku CRITERIONS ovlivňují způsob shlukování a upravují chování zvoleného algoritmu.

Dialogové okno pro zadání kritérií vyvoláme tlačítkem CRITERIONS na záložce s detaily zadání úlohy.

Kritérium kvality

Základním kritériem pro shlukování je požadavek na jeho kvalitu vyjádřenou jako poměr součtu vnitroshlukových vzdáleností (angl. intra-cluster distance/variability, zkr. ID) a součtu vzdálenosti mezi shluky (angl. extra-cluster distance, zkr. ED). Čím nižší hodnota, tím kvalitnější je rozdělení objektů do shluků.

Po zaškrtnutí volby Output only solutions with maximal Intra/Extra Distance ratio of nebudou do výsledků MCluster-Miner úlohy vkládána rozdělení do shluků, která budou mít poměr vyšší (budou horší) než zadaný limit. Kritérium kvality je však volitelné a zejména při seznamování s MCluster-Minerem doporučujeme ponechat vypnuté.

Je-li zadán cílový atribut, můžeme požadavek na kvalitu vyjádřit i jako minimální relativní poměr správně přiřazených objektů (class-match-ratio) – počet objektů se stejnou třídou jako je převažující cílová třída ve shluku ku počtu všech objektů.

Algoritmus shlukování

Zvolený algoritmus shlukování má na podobu získaných výsledků zásadní vliv.

Na výběr je jedna nehierarchická a dvě hierarchické metody shlukování:

  • k-Means/k-Mode … nehierarchická metoda shlukování s náhodným prvkem
  • Repeated bi-section k-Means/k-Mode … hierarchická metoda shlukování postupující shora-dolů
  • Hierarchical Agglomerative Clustering (HAC) … hierarchická metoda shlukování postupující zdola-nahoru

Pozor! Volbu Hierarchical Agglomerative Clustering (HAC) je z důvodů paměťových nároků možné použít pouze na datové matice do 5000 záznamů (v 32-bitové verzi) a do 10000 záznamů (v 64-bitové verzi) LISp-Mineru.

Míra podobnosti

Stejně tak má zásadní vliv i zvolená míra podobnosti, resp. způsob výpočtu vzdálenosti mezi dvěma objekty.

V současné době je na výběr mezi těmito mírami:

  • Euklidovská vzdálenost … základní metrika pro euklidovský prostor
  • Kosínovou míra podobnosti … míra vhodná pro porovnávání textových dokumentů
  • Simple match (SM) … prosté porovnání podle počtu shodných kategorií nominálních veličin
  • Eskin measure (ES) … míra zohledňující počet kategorií veličiny při nerovnosti (viz ESKIN, E., ARNOLD, A., PRERAU, M., PORTNOY, L., AND STOLFO, S. 2002. A Geometric Framework for Unsupervised Anomaly Detection. Springer US, Boston, MA, 77–101)
  • Variable Entropy (VE) … míra podobnosti zohledňující relativní četnosti kategorií (viz ŠULC, Z. Similarity measures for nominal data in hierarchical clustering. Dissertation Thesis. VŠE. 2016)
  • Variable Mutatibility (VM) … míra podobnosti zohledňující relativní četnosti kategorií (viz ŠULC, Z. Similarity measures for nominal data in hierarchical clustering. Dissertation Thesis. VŠE. 2016)

Minimální četnost objektů

Parametr Minimal number of clustered objects definuje minimální počet objektů, pro které bude shlukování vůbec započato (důležité v případě zapnuté podmínky).

Minimální velikost shluku

Podobný význam má parametr Minimal size of a cluster, který představuje ukončovací kritérium dalšího rozpadu shluku při hierarchickém shlukování.

Parametry pro algoritmus HAC

Parametr Cluster linkage určuje způsob porovnání podobnosti dvou shluků:

  • Complete … vzdálenost mezi dvěma nejvzdálenějšími objekty
  • Simple … vzdálenost mezi dvěma nejbližšími objekty
  • Average … průměrná vzdálenost mezi všemi objekty v obou shlucích

Parametry pro algoritmus k-Means

Parametr k-Means/k-Mode iteration count určuje počet iterací algoritmu k-Means pro výběr nejlepšího získaného řešení z důvodu jeho stochastické povahy.


Související témata:

Zadání úlohy pro MCluster-Miner
Zadání cílového počtu shluků

mmc/settings/mccriterions.txt · Poslední úprava: 2016/11/18 20:43 (upraveno mimo DokuWiki)