Uživatelské nástroje

Nástroje pro tento web


mmc:run

Výpočet úlohy pro MCluster-Miner

Výpočet úlohy pro proceduru MCluster-Miner spočívá v nalezení vhodných variant shlukování pro zadané podmnožiny atributů shlukování a zadané rozpětí požadovaného počtu shluků.

Generování variant shlukování

Obecně používané algoritmy pro shlukování byly rozšířeny, aby splnily požadavky vyplývající z definice GUHA-procedury. Jde jak o automatizovaný výběr všech možných kombinací atributů dané délky, tak o možnost zadání požadovaného počtu shluků jako rozpětí od–do. Pro každou takto vytvořenou variantu je počítána dílčí úloha shlukové analýzy. Celkový počet řešených úloh shlukové analýzy můžeme pro MCluster-Miner úlohu s jednou dílčí skupinou atributů spočítat takto:

  • FIXME (Smax – Smin+ 1) × ∑k= MinLenMaxLen[A nad k] × C

kde Smax je maximální počet shluků, Smin je minimální počet shluků, A je celkový počet atributů použitelných pro shlukování a C počet generovaných variant podmínky.

Základním implementovaným algoritmem je k-Means, který je ze své podstaty stochastický a obsahuje prvek náhody. Vždy záleží na počátečním (náhodném) výběru objektů, z nichž budou odvozeny první shluky. Přestože bylo celou řadou autorů navrženo množství různých vylepšení počáteční volby shluků (viz např. FIXME citace{Pena_akol:1999}), tak jsou obvykle lepší pro jedna data a horší pro jiná.

Při implementaci v systému LISp-Miner byl výběr ponechán jako zcela náhodný a kompenzace spočívá v opakovaných pokusech o shlukování při zachování parametrů shlukování. Jako finální výsledek je pak vybrán pokus s nejlepším rozdělením objektů do shluků ve smyslu poměru vnitroshlukových a mezishlukových vzdáleností. Počítá se s tím, že při dostatečném počtu pokusů bude náhodný výběr počátečních shluků alespoň jednou příznivý a dosáhneme dostatečně dobrých výsledků. Počet opakovaných pokusů o shlukování určujeme parametrem k-Means / k-Mode iteration count v kritériích pro shlukování. Přesto je však třeba mít na paměti, že použitý algoritmus je suboptimální a nezaručuje dosažení nejlepšího možné řešení.

Inicializace generátoru náhodných čísel

Se zahrnutím náhodné složky souvisí i problém s proměnlivostí výsledků. Po každém spuštění úlohy bychom totiž mohli dostat odlišné výsledky, aniž bychom udělali jakoukoliv změnu v zadání. Tento problém byl vyřešen využitím nedostatku číslicových počítačů, kterým je praktická nemožnost implementace generátoru skutečně náhodných čísel.

Generátory v číslicových počítačích jsou pouze pseudonáhodné. Podobně jako v modulu LM ReverseMiner byl i v zadání pro úlohu v proceduře MCluster-Miner použit konstantní parametr pro inicializaci generátoru – viz RandSeed Init number v dalších parametrech úlohy. Ponecháme-li toto číslo shodné, bude při každém dalším spuštění úlohy generátor pseudonáhodných čísel inicializován stejně, proto bude shodná i řada „náhodných“ čísel, které bude vracet, a tím pádem budou identické i výsledky úlohy. Změna parametru povede většinou i ke změně výsledků úlohy, aniž bychom změnili její zadání.


Související témata:

Kontrola zadání úlohy
Záložka s detaily zadání úlohy
Prohlížení výsledků

mmc/run.txt · Poslední úprava: 2015/08/16 15:23 (upraveno mimo DokuWiki)