Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Výpočet úlohy pro proceduru MCluster-Miner spočívá v nalezení vhodných variant shlukování pro zadané podmnožiny atributů shlukování a zadané rozpětí požadovaného počtu shluků.
Obecně používané algoritmy pro shlukování byly rozšířeny, aby splnily požadavky vyplývající z definice GUHA-procedury. Jde jak o automatizovaný výběr všech možných kombinací atributů dané délky, tak o možnost zadání požadovaného počtu shluků jako rozpětí od–do. Pro každou takto vytvořenou variantu je počítána dílčí úloha shlukové analýzy. Celkový počet řešených úloh shlukové analýzy můžeme pro MCluster-Miner úlohu s jednou dílčí skupinou atributů spočítat takto:
kde Smax je maximální počet shluků, Smin je minimální počet shluků, A je celkový počet atributů použitelných pro shlukování a C počet generovaných variant podmínky.
Základním implementovaným algoritmem je k-Means, který je ze své podstaty stochastický a obsahuje prvek náhody. Vždy záleží na počátečním (náhodném) výběru objektů, z nichž budou odvozeny první shluky. Přestože bylo celou řadou autorů navrženo množství různých vylepšení počáteční volby shluků (viz např. citace{Pena_akol:1999}), tak jsou obvykle lepší pro jedna data a horší pro jiná.
Při implementaci v systému LISp-Miner byl výběr ponechán jako zcela náhodný a kompenzace spočívá v opakovaných pokusech o shlukování při zachování parametrů shlukování. Jako finální výsledek je pak vybrán pokus s nejlepším rozdělením objektů do shluků ve smyslu poměru vnitroshlukových a mezishlukových vzdáleností. Počítá se s tím, že při dostatečném počtu pokusů bude náhodný výběr počátečních shluků alespoň jednou příznivý a dosáhneme dostatečně dobrých výsledků. Počet opakovaných pokusů o shlukování určujeme parametrem k-Means / k-Mode iteration count
v kritériích pro shlukování. Přesto je však třeba mít na paměti, že použitý algoritmus je suboptimální a nezaručuje dosažení nejlepšího možné řešení.
Se zahrnutím náhodné složky souvisí i problém s proměnlivostí výsledků. Po každém spuštění úlohy bychom totiž mohli dostat odlišné výsledky, aniž bychom udělali jakoukoliv změnu v zadání. Tento problém byl vyřešen využitím nedostatku číslicových počítačů, kterým je praktická nemožnost implementace generátoru skutečně náhodných čísel.
Generátory v číslicových počítačích jsou pouze pseudonáhodné. Podobně jako v modulu LM ReverseMiner byl i v zadání pro úlohu v proceduře MCluster-Miner použit konstantní parametr pro inicializaci generátoru – viz RandSeed Init number
v dalších parametrech úlohy. Ponecháme-li toto číslo shodné, bude při každém dalším spuštění úlohy generátor pseudonáhodných čísel inicializován stejně, proto bude shodná i řada „náhodných“ čísel, které bude vracet, a tím pádem budou identické i výsledky úlohy. Změna parametru povede většinou i ke změně výsledků úlohy, aniž bychom změnili její zadání.
Související témata:
Kontrola zadání úlohy
Záložka s detaily zadání úlohy
Prohlížení výsledků