Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Kontingenční analýza dvou atributů (v LISp-Mineru jako KL Contingency analysis) nebo též interaktivní KL-analýza nabízí rychlý způsob výpočtu kontingenční tabulky popisující vztah dvou předzpracovaných kategoriálních atributů. Stejně jako interaktivní CF-analýza se týká až předzpracovaných hodnot..
Záložku pro interaktivní KL-analýzu otevřeme z menu Interactive analysis
, nebo z kontextové nabídky pro položku C. Interactive analysis
ve stromu otevřených záložek po levé straně obrazovky.
Hlavní část záložky zabírá kontingenční tabulka s počtem řádků odpovídajícím počtu kategorií prvního vybraného atributu a s počtem sloupců odpovídajícím počtu kategorií druhého vybraného atributu. V každém jednom políčku je počet záznamů datové matice, ve kterých je zároveň hodnota patřící do odpovídající kategorie prvního atributu (řádek) a hodnota patřící do odpovídající kategorie druhého (sloupcového) atributu (sloupec).
Součet četností odpovídá počtu záznamů v celé datové matici a zobrazen je pod označením filtered rows
. Počet záznamů lze dále omezit.
Kromě barevně zvýrazněné kontingenční tabulky jsou četnosti zobrazeny i jako 3D graf.
Volbou Values
v pravém horním rohu záložky je možné změnit zobrazování hodnot četností z absolutních na relativní. Existují tyto možnosti:
Hide X-Category
.
Pokud má jeden z vybraných atributů definovanou X-kategorii, je uvedena jako samostatný řádek/sloupec v kontingenční tabulce. Pomocí volby Hide X-Category
v tom případě můžeme kontingenční tabulku zobrazit bez tohoto řádku/sloupce.
Četnosti kategorií (nebo relativní hodnoty) lze omezit pouze na podmnožinu záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition
v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. Na záložce zobrazené četnosti budou vypočteny pouze pomocí záznamů, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie. Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i vypočtené četnosti.
Při zapnuté podmínce odpovídá součet četností počtu záznamů, které splňují podmínku a z nichž ani v jednom z obou vybraných atributů nepatří hodnota do X-kategorie. Součet je opět zobrazen vpravo nad grafem jako filtered rows
.
Interaktivní KL-analýza se povahou blíží k OLAP-analýze. Proto byla i do LISp-Mineru přidána možnost agregování hodnot. K dispozici jsou bežně používané agregační funkce – Count (počet), Sum (součet), Min (minimum), Max (maximum) a Average (průměr).
V základním nastavení je jako agregační funkce nastaven Count. To znamená, že pro jednotlivé kategorie vybraného atributu se zobrazují četnosti. Pomocí rozbalovací nabídky Aggregate function
však můžeme zvolit jinou z funkcí. Zároveň nesmíme zapomenout vybrat v rozbalovací nabídce Aggregate attribute
atribut, na jehož hodnoty se má agregační funkce aplikovat. Místo četností se pak budou zobrazovat agregované hodnoty.
Na datech Hotel může být příkladem KL-analýza dvojice atributů PNoci_enum_m a POsob, při které zvolíme jako agregační funkcí Sum a jako agregovaný atribut PCenaCelkem_edc10. Místo četností budou hodnoty pro kombinace počtu nocí a osob vyjadřovat součty tržeb za takovéto typu pobytů.
Pozor! Stále je třeba mít na paměti, že interaktivní analýza pracuje až s diskretizovanými hodnotami, nikoliv s původními hodnotami ve sloupci. Proto se při výpočtu agregační funkce pracuje s indexy kategorií zvoleného agregovaného atributu. Chceme-li zobrazené údaje co nejvíce přiblížit původním hodnotám, je vhodné pro agregaci použít atribut s kategoriemi diskretizovanými pomocí vhodného počtu ekvidistantních intervalů – např. 10, nebo ještě lépe 100.
Související témata:
Analytická procedura KL-Miner
Kontingenční analýza jednoho atributu
Kontingenční analýza dvou booleovských atributů
Předzpracování dat
Praktická ukázka: Demo Hotel: Interaktivní KL-analýza