Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Záložka s detaily zadání úlohy obsahuje jak ovládací prvky specifické pro proceduru ETree-Miner, tak ovládací prvky společné pro všechny typy úloh.
Ukázku záložky vidíme na obrázku. Záložka obsahuje tyto ovládací prvky:
ATTRIBUTES FOR TREE
… seznam atributů pro vytváření stromu;CRITERIONS
… kritéria pro algoritmus vytváření stromu;CLASS ATTRIBUTE
… volba cílového atributu nebo třídy;CONDITION
… volitelné omezení analýzy pouze na podmnožinu záznamů pomocí zadání generovaných variant podmínky.
V seznamu ATTRIBUTES FOR TREE
uvádíme všechny atributy, které ETree-Miner může použít při vytváření stromu. Z uvedeného seznamu atributů budou postupně vybírány podle zvolené metriky pro zjištění nejvhodnějšího atributu na dané místo stromu.
Více viz: Seznam atributů pro vytváření stromu
Parametry v rámečku CRITERIONS
ovlivňují způsob vytváření stromu a upravují chování zvoleného algoritmu.
Více viz: Kritéria pro vytváření stromu
Rozhodovací strom je nástroj pro klasifikaci objektů do tříd, a proto musí být vždy zadán cílový atribut nebo jeho jedna třída (kategorie).
Více viz: Cílový atribut nebo třída
Jako u všech ostatních typů analytických procedur, můžeme omezit analýzu pouze na podmnožinu záznamů. Zadání generovaných variant podmínek pro podmnožiny záznamů datové matice vidíme v seznamu v pravém dolním rohu záložky. Při zadávání variant podmínek můžeme využít všechny možnosti zadávání množiny relevantních cedentů.
V případě ETree-Miner bude patrně nejčastější použití podmínky vymezení přesné podmnožiny záznamů, nad kterou se má vytvářet strom – např. pouze pro muže, pouze za rok 2015 atp. V tom případě použijeme zadání pevných délek dílčích cedentů a při zadávání literálů koeficienty typu One category.
V podstatě povinným krokem při vytváření stromu je otestování jeho kvality. Způsob testování volíme tlačítkem Testing
.
Kromě obecného parametru omezujícího celkový počet generovaných hypotéz (v tomto případě stromů), je součástí parametrů ETree-Miner úlohy i omezení počtu rozhodovacích stromů v rámci jednoho (exploračního stromu) a maximálního počtu rozhodovacích pravidel pro jeden rozhodovací strom.
Explorační stromy mohou být velmi rozsáhlé a často dochází k duplicitnímu větvení. Proto je možné automaticky ořezávat větve, které nepřinášejí žádnou novou informaci – obsahují totožné atributu, ale v jiném pořadí; nebo klasifikují objekt do stejné třídy jako jejich nadřízený uzel.