Kontingenční analýza dvou atributů

Kontingenční analýza dvou atributů (v LISp-Mineru jako KL Contingency analysis) nebo též interaktivní KL-analýza nabízí rychlý způsob výpočtu kontingenční tabulky popisující vztah dvou předzpracovaných kategoriálních atributů. Stejně jako interaktivní CF-analýza se týká až předzpracovaných hodnot..

Záložku pro interaktivní KL-analýzu otevřeme z menu Interactive analysis, nebo z kontextové nabídky pro položku C. Interactive analysis ve stromu otevřených záložek po levé straně obrazovky.

Kontingeční tabulka

Hlavní část záložky zabírá kontingenční tabulka s počtem řádků odpovídajícím počtu kategorií prvního vybraného atributu a s počtem sloupců odpovídajícím počtu kategorií druhého vybraného atributu. V každém jednom políčku je počet záznamů datové matice, ve kterých je zároveň hodnota patřící do odpovídající kategorie prvního atributu (řádek) a hodnota patřící do odpovídající kategorie druhého (sloupcového) atributu (sloupec).

Součet četností odpovídá počtu záznamů v celé datové matici a zobrazen je pod označením filtered rows. Počet záznamů lze dále omezit.

Kromě barevně zvýrazněné kontingenční tabulky jsou četnosti zobrazeny i jako 3D graf.

Relativní četnosti

Volbou Values v pravém horním rohu záložky je možné změnit zobrazování hodnot četností z absolutních na relativní. Existují tyto možnosti:

Abs … četnosti v absolutní hodnotě.

Rel sum … četnosti jsou zobrazeny relativně k součtu v celé aktuálně zobrazené kontingenční tabulce. Odlišné výsledky tak můžeme dostat při změně volby Hide X-Category.

Rel max … četnosti jsou zobrazeny relativně k maximální aktuálně zobrazené hodnotě četnosti.

Rel row … v každém z řádků kontingenční tabulky jsou četnosti zobrazeny jako relativní podíl k součtu četností na tomto řádku.

Rel col … v každém ze sloupců kontingenční tabulky jsou četnosti zobrazeny jako relativní podíl k součtu četností v tomto sloupci.

Další možnosti zobrazení tabulky

Pokud má jeden z vybraných atributů definovanou X-kategorii, je uvedena jako samostatný řádek/sloupec v kontingenční tabulce. Pomocí volby Hide X-Category v tom případě můžeme kontingenční tabulku zobrazit bez tohoto řádku/sloupce.

Podmnožina záznamů

Četnosti kategorií (nebo relativní hodnoty) lze omezit pouze na podmnožinu záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. Na záložce zobrazené četnosti budou vypočteny pouze pomocí záznamů, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie. Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i vypočtené četnosti.

Při zapnuté podmínce odpovídá součet četností počtu záznamů, které splňují podmínku a z nichž ani v jednom z obou vybraných atributů nepatří hodnota do X-kategorie. Součet je opět zobrazen vpravo nad grafem jako filtered rows.

Agregační funkce

Interaktivní KL-analýza se povahou blíží k OLAP-analýze. Proto byla i do LISp-Mineru přidána možnost agregování hodnot. K dispozici jsou bežně používané agregační funkce – Count (počet), Sum (součet), Min (minimum), Max (maximum) a Average (průměr).

V základním nastavení je jako agregační funkce nastaven Count. To znamená, že pro jednotlivé kategorie vybraného atributu se zobrazují četnosti. Pomocí rozbalovací nabídky Aggregate function však můžeme zvolit jinou z funkcí. Zároveň nesmíme zapomenout vybrat v rozbalovací nabídce Aggregate attribute atribut, na jehož hodnoty se má agregační funkce aplikovat. Místo četností se pak budou zobrazovat agregované hodnoty.

Na datech Hotel může být příkladem KL-analýza dvojice atributů PNoci_enum_m a POsob, při které zvolíme jako agregační funkcí Sum a jako agregovaný atribut PCenaCelkem_edc10. Místo četností budou hodnoty pro kombinace počtu nocí a osob vyjadřovat součty tržeb za takovéto typu pobytů.

Pozor! Stále je třeba mít na paměti, že interaktivní analýza pracuje až s diskretizovanými hodnotami, nikoliv s původními hodnotami ve sloupci. Proto se při výpočtu agregační funkce pracuje s indexy kategorií zvoleného agregovaného atributu. Chceme-li zobrazené údaje co nejvíce přiblížit původním hodnotám, je vhodné pro agregaci použít atribut s kategoriemi diskretizovanými pomocí vhodného počtu ekvidistantních intervalů – např. 10, nebo ještě lépe 100.

Související témata:

Analytická procedura KL-Miner
Kontingenční analýza jednoho atributu
Kontingenční analýza dvou booleovských atributů
Předzpracování dat