Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Záložka s detaily zadání úlohy obsahuje jak ovládací prvky specifické pro proceduru ETree-Miner, tak ovládací prvky společné pro všechny typy úloh.
Ukázku záložky vidíme na obrázku. Záložka obsahuje tyto ovládací prvky:
ATTRIBUTES FOR TREE … seznam atributů pro vytváření stromu;CRITERIONS … kritéria pro algoritmus vytváření stromu;CLASS ATTRIBUTE … volba cílového atributu nebo třídy;CONDITION … volitelné omezení analýzy pouze na podmnožinu záznamů pomocí zadání generovaných variant podmínky.
V seznamu ATTRIBUTES FOR TREE uvádíme všechny atributy, které ETree-Miner může použít při vytváření stromu. Z uvedeného seznamu atributů budou postupně vybírány podle zvolené metriky pro zjištění nejvhodnějšího atributu na dané místo stromu.
Více viz: Seznam atributů pro vytváření stromu
Parametry v rámečku CRITERIONS ovlivňují způsob vytváření stromu a upravují chování zvoleného algoritmu.
Více viz: Kritéria pro vytváření stromu
Rozhodovací strom je nástroj pro klasifikaci objektů do tříd, a proto musí být vždy zadán cílový atribut nebo jeho jedna třída (kategorie).
Více viz: Cílový atribut nebo třída
Jako u všech ostatních typů analytických procedur, můžeme omezit analýzu pouze na podmnožinu záznamů. Zadání generovaných variant podmínek pro podmnožiny záznamů datové matice vidíme v seznamu v pravém dolním rohu záložky. Při zadávání variant podmínek můžeme využít všechny možnosti zadávání množiny relevantních cedentů.
V případě ETree-Miner bude patrně nejčastější použití podmínky vymezení přesné podmnožiny záznamů, nad kterou se má vytvářet strom – např. pouze pro muže, pouze za rok 2015 atp. V tom případě použijeme zadání pevných délek dílčích cedentů a při zadávání literálů koeficienty typu One category.
V podstatě povinným krokem při vytváření stromu je otestování jeho kvality. Způsob testování volíme tlačítkem Testing.
Kromě obecného parametru omezujícího celkový počet generovaných hypotéz (v tomto případě stromů), je součástí parametrů ETree-Miner úlohy i omezení počtu rozhodovacích stromů v rámci jednoho (exploračního stromu) a maximálního počtu rozhodovacích pravidel pro jeden rozhodovací strom.
Explorační stromy mohou být velmi rozsáhlé a často dochází k duplicitnímu větvení. Proto je možné automaticky ořezávat větve, které nepřinášejí žádnou novou informaci – obsahují totožné atributu, ale v jiném pořadí; nebo klasifikují objekt do stejné třídy jako jejich nadřízený uzel.