Kontingenční analýza jednoho atributu

Kontingenční analýza jednoho atributu (angl. CF Contingency analysis) nebo též interaktivní CF-analýza nabízí rychlý způsob zobrazení četností kategorií předzpracovaného kategoriálního atributu v grafu.

Záložku s interaktivní CF-analýzou otevřeme z menu Interactive analysis, nebo z kontextové nabídky pro položku C. Interactive analysis ve stromu otevřených záložek po levé straně obrazovky.

Záložka nabízí různé pohledy na četnosti kategorií atributu. Z výšek sloupců ve sloupcovém grafu je patrné základní rozdělení četností. Přesné hodnoty četností jednotlivých kategorií jsou vidět v barevné tabulce pod grafem, ve které odstín červené zvýrazňuje vyšší hodnoty. Na pravé straně je četnosti zobrazeny jako 3D graf.

Řazení kategorií

Pomocí volby Order by pod 3D grafem můžeme změnit pořadí zobrazených kategorií. Kategorie mohou být seřazeny buď podle pořadí na záložce s detailem atributu, nebo podle četností (volba Frequencies).

Zobrazení trendu

Zaškrtnutím volby Show trendline přidáme do histogramu trendovou křivku. Četnosti se prokládají polynomem n-tého řádu, který volíme výběrem z možností PolyOrder – od jedné (přímka) do sedmi (polynom sedmého řádu).

Relativní četnosti

Pomocí volby Values v pravém horním rohu záložky je možné změnit zobrazování hodnot četností z absolutních na relativní. Existují tyto možnosti:

Abs … četnosti v absolutní hodnotě.
Rel sum …četnosti kategorií jsou zobrazeny relativně k součtu frekvencí právě zobrazených kategorií. Odlišné výsledky tak můžeme dostat při změně volby Hide X-Category.
Rel max … četnosti kategorií jsou zobrazeny relativně k aktuálně zobrazené nejčetnější kategorii.
Rel row … relativně k součtu řádků, viz též Podmnožina záznamů a relativní četnosti.
Rel Cat … četnost každé kategorie je zobrazena relativně k četnosti této kategorie v celé datové matici, viz též Podmnožina záznamů a relativní četnosti.

Podmnožina záznamů

Četnosti kategorií (nebo relativní hodnoty) lze omezit pouze na podmnožinu záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. Na záložce zobrazené četnosti budou vypočteny pouze pomocí záznamů, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie. Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i vypočtené četnosti.

Při zapnuté podmínce odpovídá součet četností počtu záznamů, které splňují podmínku. Součet je zobrazen vpravo nad grafem jako filtered rows. Ještě větších změn doznala barevná mapa s četnostmi a 3D graf. Oproti analýze bez zapnuté podmínky přibyly dva nové řádky. První obsahuje četnosti záznamů splňujících podmínku podle jednotlivých kategorií, a odpovídá tak histogramu. Spodní řádek obsahuje četnosti kategorií na celé datové matici, a je tak shodný s četnostmi bez zapnuté podmínky.

Prostřední řádek se objevuje pouze v případě, že vybraný atribut pro podmínku má definovanou X-kategorii. U těchto záznamů není možné říct, zda podmínku splňují, či nikoliv. Jejich četnosti podle jednotlivých kategorií jsou proto zobrazeny samostatně jak v barevné mapě, tak v 3D grafu napravo.

Podmnožina záznamů a relativní četnosti

Omezení pouze na podmnožinu záznamů dává nový význam i některým volbám pro relativní četnosti (viz předchozí podkapitola). Při volbě Rel sum se relativní četnost počítá pouze k počtu záznamu v aktuálně zvolené podmnožině (a také i podle aktuálního stavu volby Hide X-Category). Volba Rel row zobrazí četnosti relativně k součtu četnosti pro každý řádek v barevné mapě. A konečně volba Rel Cat, která zobrazuje četnosti relativně k četnosti kategorie na celých datech. To umožní nalezení podmnožiny, ve které jsou nahromaděné (nebo naopak řídké) výskyty určité kategorie.

Agregační funkce

Interaktivní CF-analýza se povahou blíží k OLAP-analýze. Proto byla i do LISp-Mineru přidána možnost agregování hodnot. K dispozici jsou bežně používané agregační funkce – Count (počet), Sum (součet), Min (minimum), Max (maximum) a Average (průměr).

V základním nastavení je jako agregační funkce nastaven Count. To znamená, že pro jednotlivé kategorie vybraného atributu se zobrazují četnosti. Pomocí rozbalovací nabídky Aggregate function však můžeme zvolit jinou z funkcí. Zároveň nesmíme zapomenout vybrat v rozbalovací nabídce Aggregate attribute atribut, na jehož hodnoty se má agregační funkce aplikovat. Místo četností se pak budou zobrazovat agregované hodnoty.

Na datech Hotel může být příkladem CF-analýza kategorií atributu PDenTýdne, při které zvolíme jako agregační funkcí Sum a jako agregovaný atribut PCenaCelkem_edc10. Místo četností se budou pro jednotlivé dny v týdnu zobrazovat součty tržeb (za předpokladu, že všichni hosté platí za celý pobyt v den začátku pobytu).

Pozor! Stále je třeba mít na paměti, že interaktivní analýza pracuje až s diskretizovanými hodnotami, nikoliv s původními hodnotami ve sloupci. Proto se při výpočtu agregační funkce pracuje s indexy kategorií zvoleného agregovaného atributu. Chceme-li zobrazené údaje co nejvíce přiblížit původním hodnotám, je vhodné pro agregaci použít atribut s kategoriemi diskretizovanými pomocí vhodného počtu ekvidistantních intervalů – např. 10, nebo ještě lépe 100.

Související témata:

Analytická procedura CF-Miner
Kontingenční analýza dvou atributů
Geografická analýza četnosti záznamů podle oblastí
Předzpracování dat