Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Na záložce Task Settings vidíme zadání pro jednotlivé atributy jako odsazené řádky patřící vždy do některé dílčí skupiny a obsahující název použitého atributu; zadaný typ výpočtu středu; a konečně váhu atributu při shlukování.
Ke změně parametrů zadání atributu slouží dialogové okno, jehož ukázku vidíme na obrázku:
Dialogové okno vyvoláme buď z dialogového okna pro zadání dílčí skupiny atributů výběrem položky ze seznamu zadání atributů, nebo přímo na záložce Task Settings dvojitým kliknutím myší na zadání atributu v seznamu, či pomocí kontextového menu.
Pomocí tlačítka Categories frequency
si můžeme pro informaci zobrazit histogram četností kategorií použitého atributu.
Základním parametrem zadání atributu je samotný vybraný atribut. Následují další parametry – způsob výpočtu středu shluku, povolení desetinných čísel ve výpočtu středu shluků a váha atributu.
Podle typu hodnot použitého atributu (nominální × kardinální) musíme zvolit vhodný způsob výpočtu středu shluku.
Jsou-li hodnoty kardinální, je možné použít standardní způsob výpočtu středu jako aritmetického průměru (volba Mean
). Tato volba je použitelná i pro dichotomické atributy. Pro použitý shlukovací algoritmus k-Means jde o přirozenou volbu. Pokud to je možné, tak bychom ji měli použít.
Pro nominální atributy s více než dvěma kategoriemi není možné střed počítat jako „průměr“ hodnot. V tom případě je nutné použít způsob výpočtu středu shluku jako nejčetnější hodnoty (volba Modus
). Alternativně můžeme nominální atributu dichotomizovat (binarizovat), a pak už lze použít průměr.
Počítá-li LISp-Miner střed shluku jako průměrnou hodnotu ze všech do shluku patřících objektů, sečte hodnoty indexů kategorií (viz Reprezentace kategorií při shlukování) pro jednotlivé záznamy a vydělí počtem záznamů. Následně se vypočtený průměr zaokrouhlí na nejbližší kategorii.
Přesnější je však ponechat vypočtený střed shluku jako desetinné číslo. To potom vyjadřuje i fakt, že střed je blíže k první (nebo k druhé) kategorii. V této podobě může být střed shluku uváděn i ve výsledcích. Tento způsob výpočtu středu povolíme zaškrtnutím volby Centroids categories fractions allowed
.
Zvýšením váhy atributu způsobíme, že podobnost mezi dvěma objekty bude více záležet na rozdílných hodnotách v tomto atributu, než na rozdílech v hodnotách atributů ostatních.
Nové zadání atributu přidáme z dialogového okna pro zadání dílčí skupiny atributů pomocí tlačítka Add
, nebo přímo na záložce Task Settings pomocí kontextového menu vyvolaného na řádku dílčího cedentu.
Objeví se dialogové okno pro výběr atributu. Můžeme vybrat jeden atribut, nebo i více atributů najednou. Následně se objeví dialogové okno pro zadání atributu, ve kterém nastavíme parametry. Tím je zadání atributu přidáno.
Pokud jsme při výběr atributu vybrali najednou atributů více, jsou přidána zadána pro každý z nich a u všech je použito stejné nastavení parametrů zadání atributu.
V dílčí skupině atributů může být celá řada zadání atributů založených nad podobnými atributy – jako jsou například atributy ze skupiny Hodnocení. Potom může být potřeba změnit rychle všechna zadání atributů.
Nejprve označíme v seznamu v dialogovém okně pro zadání dílčích skupin atributů všechna zadání atributů, jejichž parametry chceme měnit (označovat můžeme i nesouvislou řadu položek). Následně můžeme stisknout tlačítko Detail
pro jednotnou změnu všech parametrů označených zadání atributů. Po stisku tlačítka OK
se změní hodnoty parametrů u všech označených zadání atributů.
Související témata:
Zadání dílčí skupiny atributů
Zadání seznamu atributů
Zadání úlohy pro MCluster-Miner
Kontrola zadání úlohy