Interaktivní vytváření rozhodovacího stromu

Interaktivní vytváření rozhodovacího stromu (v LISp-Mineru jako ET Decision Trees Analysis (TDIDT)) umožňuje ruční vytváření rozhodovacího stromuv intencích algoritmu Top-down induction of decision trees (zkr. TDIDT).

Interaktivní vytváření rozhodovacího stromu otevřeme z menu Interactive analysis, nebo z kontextové nabídky pro položku C. Interactive analysis ve stromu otevřených záložek po levé straně obrazovky.

Datovou matici, na které je rozhodovací strom založen, vidíme v levém horním rohu záložky. Před vlastním vytvářením stromu musíme vždy zadat atribut s cílovými třídami pomocí tlačítka Target class v pravém horním rohu záložky.

V levé půlce záložky se pak zobrazuje aktuální podoba stromu. Každý uzel je označen svým typem – Root (kořenový uzel), S (split – větvící atribut) nebo B (větev pro danou kategorii větvícího atributu). U větvících atributů a větví je pomocí kombinace písmen S/B a čísel uvedena jednoznačná identifikace uzlu v rámci stromu. Pro uzly reprezentující větvící atributy je pod identifikací uveden název větvícího atributu. Pro uzly reprezentující větev je pod identifikací uveden název kategorie. Pro tyto uzly je zároveň uvedena i nejčetnější cílová třída (klasifikace). Aktuálně vybraný uzel má zvýrazněný rámeček. Žlutě jsou zvýrazněny 100 % čisté uzly a červeně uzly s nulovým pokrytím.

Tlačítka pod grafickým zobrazením stromu slouží pro procházení uzlů stromu. Tlačítkem Focus node přiblížíme zobrazení stromu pouze na aktuálně vybraný uzel. Tlačítko Zoom to fit naopak zmenší zobrazení stromu tak, aby se vešel celý na obrazovku.

V pravé půlce záložky je pak detailní informace o právě vybraném uzlu (v rámečku Selected node) a také seznam atributů použitelných pro další větvení (v rámečku Tree induction). Atributy jsou v seznamu setříděny sestupně podle jejich významnosti (signifikance) pro další větvení právě vybraného uzlu (podrobněji viz Výběr nejvhodnějšího atributu pro větvení). Pomocí tlačítka Available attributes můžeme omezit seznam nabízených atributů pouze na některé (standardně se nabízejí úplně všechny atributy vytvořené pro danou datovou matici).

V rámečku Tree characteristics se průběžně aktualizují základní údaje o stromu – počet uzlů, hloubka a dosažená kvalita klasifikace. V rámečku Selected node se zobrazují detailní údaje o právě vybraném uzlu. Kromě jeho přesné identifikace pomocí čísla úrovně a větve jde o použitý větvící atribut a jeho kategorii; dále o četnost uzlu; nejčetnější třídu v daném uzlu a její frekvenci; čistotu uzlu; a konečně, je-li uzel listem. Není-li tomu tak, je kvalita spočítána i pro podstrom vycházející z tohoto uzlu.

V seznamu zobrazujícím průchod hierarchií stromu od kořene k právě vybranému uzlu vidíme frekvence, nejčetnější třídu a kvalitu klasifikace pro jednotlivé úrovně.

Pohyb po stromu

Pro usnadnění pohybu zejména po složitějších stromech byla přidána speciální tlačítka pro výběr uzlu. Následně pak můžeme použít tlačítko Focus node pro přiblížené zobrazení vybraného uzlu.

Tlačítkem Select Root vybereme kořenový uzel. Tlačítkem Parent uzel nadřízený (rodičovský) pro aktuálně vybraný uzel. Tlačítky Sub First, resp. Sub Last vybereme první, resp. poslední podřízený uzel k právě vybranému uzlu. Podobně tlačítky Left, resp. Right vybereme levý, resp. pravý sousední uzel k právě vybranému uzlu.

Postupnými stisky tlačítka DepthFirst tour, resp. BredthFirst tour můžeme projít celý strom od kořene až k poslednímu uzlu v pořadí odpovídajícím zvolenému postupu (více viz Procházení stromu do hloubky a do šířky.

Vytváření stromu

Před vlastním vytvářením stromu je nejprve třeba zvolit atribut s cílovými třídami (viz tlačítko Target class). Dále je vhodné pomocí tlačítka Avialable attributes omezit seznam nabízených atributů na ty, kterým chceme umožnist podílet se na vytváření stromu.

Při interaktivním vytváření rozhodovacího stromu pak postupujeme podobně jako algoritmus TDIDT:

Začneme od kořene stromu a ze seznamu s nabídkou použitelných atributů setříděných podle jejich signifikance vybereme (tlačítkem Expand tree, nebo dvojitým kliknutím) atribut nejvhodnější pro větvení (buď přímo první v setříděném seznamu, nebo některý z výše umístěných). Tím se pod uzel aktuálně vybraný ve stromu přidají další větve a uzly. Následně vybereme některý z listů v aktuálně zobrazené podobě stromu, který chceme dále rozvíjet. V seznamu nabízených atributů vybereme opět nejvhodnější, a tak stále dál, dokud má smysl strom dále rozvíjet a jsou k dispozici nějaké atributy.

Chceme-li se vrátit o krok zpět, můžeme některý uzel ze stromu odstranit. K tomu použijeme tlačítko Remove. Před jeho stisknutím je však třeba ve stromu vybrat uzel, který chceme odstranit (včetně všech z něj vycházejících větví a uzlů).

Variantní větvení stromu

Podle konceptu exploračních stromů je možné i do interaktivně vytvářeného stromu vložit variantní větvení. Označíme-li místo listu některý z větvících uzlů (definujícího větev pro jednu kategorii atributu), můžeme i tentokrát použít seznam nabízených atributů a přidat další větvení do stromu. Pro tuto větev pak bude dvě (případně více) alternativních větvení.

Související témata:

Analytická procedura ETree-Miner
Atribut a jeho kategorie
Předzpracování dat