Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Parametry v rámečku CRITERIONS
ovlivňují způsob shlukování a upravují chování zvoleného algoritmu.
Dialogové okno pro zadání kritérií vyvoláme tlačítkem CRITERIONS
na záložce s detaily zadání úlohy.
Základním kritériem pro shlukování je požadavek na jeho kvalitu vyjádřenou jako poměr součtu vnitroshlukových vzdáleností (angl. intra-cluster distance/variability, zkr. ID) a součtu vzdálenosti mezi shluky (angl. extra-cluster distance, zkr. ED). Čím nižší hodnota, tím kvalitnější je rozdělení objektů do shluků.
Po zaškrtnutí volby Output only solutions with maximal Intra/Extra Distance ratio of
nebudou do výsledků MCluster-Miner úlohy vkládána rozdělení do shluků, která budou mít poměr vyšší (budou horší) než zadaný limit. Kritérium kvality je však volitelné a zejména při seznamování s MCluster-Minerem doporučujeme ponechat vypnuté.
Je-li zadán cílový atribut, můžeme požadavek na kvalitu vyjádřit i jako minimální relativní poměr správně přiřazených objektů (class-match-ratio) – počet objektů se stejnou třídou jako je převažující cílová třída ve shluku ku počtu všech objektů.
Zvolený algoritmus shlukování má na podobu získaných výsledků zásadní vliv.
Na výběr je jedna nehierarchická a dvě hierarchické metody shlukování:
Pozor! Volbu Hierarchical Agglomerative Clustering (HAC) je z důvodů paměťových nároků možné použít pouze na datové matice do 5000 záznamů (v 32-bitové verzi) a do 10000 záznamů (v 64-bitové verzi) LISp-Mineru.
Stejně tak má zásadní vliv i zvolená míra podobnosti, resp. způsob výpočtu vzdálenosti mezi dvěma objekty.
V současné době je na výběr mezi těmito mírami:
Parametr Minimal number of clustered objects
definuje minimální počet objektů, pro které bude shlukování vůbec započato (důležité v případě zapnuté podmínky).
Podobný význam má parametr Minimal size of a cluster
, který představuje ukončovací kritérium dalšího rozpadu shluku při hierarchickém shlukování.
Parametr Cluster linkage
určuje způsob porovnání podobnosti dvou shluků:
Parametr k-Means/k-Mode iteration count
určuje počet iterací algoritmu k-Means pro výběr nejlepšího získaného řešení z důvodu jeho stochastické povahy.
Související témata:
Zadání úlohy pro MCluster-Miner
Zadání cílového počtu shluků