Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Kontingenční analýza jednoho atributu (angl. CF Contingency analysis) nebo též interaktivní CF-analýza nabízí rychlý způsob zobrazení četností kategorií předzpracovaného kategoriálního atributu v grafu.
Záložku s interaktivní CF-analýzou otevřeme z menu Interactive analysis
, nebo z kontextové nabídky pro položku C. Interactive analysis
ve stromu otevřených záložek po levé straně obrazovky.
Záložka nabízí různé pohledy na četnosti kategorií atributu. Z výšek sloupců ve sloupcovém grafu je patrné základní rozdělení četností. Přesné hodnoty četností jednotlivých kategorií jsou vidět v barevné tabulce pod grafem, ve které odstín červené zvýrazňuje vyšší hodnoty. Na pravé straně je četnosti zobrazeny jako 3D graf.
Pomocí volby Order by
pod 3D grafem můžeme změnit pořadí zobrazených kategorií. Kategorie mohou být seřazeny buď podle pořadí na záložce s detailem atributu, nebo podle četností (volba Frequencies
).
Zaškrtnutím volby Show trendline
přidáme do histogramu trendovou křivku. Četnosti se prokládají polynomem n-tého řádu, který volíme výběrem z možností PolyOrder
– od jedné (přímka) do sedmi (polynom sedmého řádu).
Pomocí volby Values
v pravém horním rohu záložky je možné změnit zobrazování hodnot četností z absolutních na relativní. Existují tyto možnosti:
Četnosti kategorií (nebo relativní hodnoty) lze omezit pouze na podmnožinu záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition
v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. Na záložce zobrazené četnosti budou vypočteny pouze pomocí záznamů, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie. Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i vypočtené četnosti.
Při zapnuté podmínce odpovídá součet četností počtu záznamů, které splňují podmínku. Součet je zobrazen vpravo nad grafem jako filtered rows
. Ještě větších změn doznala barevná mapa s četnostmi a 3D graf. Oproti analýze bez zapnuté podmínky přibyly dva nové řádky. První obsahuje četnosti záznamů splňujících podmínku podle jednotlivých kategorií, a odpovídá tak histogramu. Spodní řádek obsahuje četnosti kategorií na celé datové matici, a je tak shodný s četnostmi bez zapnuté podmínky.
Prostřední řádek se objevuje pouze v případě, že vybraný atribut pro podmínku má definovanou X-kategorii. U těchto záznamů není možné říct, zda podmínku splňují, či nikoliv. Jejich četnosti podle jednotlivých kategorií jsou proto zobrazeny samostatně jak v barevné mapě, tak v 3D grafu napravo.
Omezení pouze na podmnožinu záznamů dává nový význam i některým volbám pro relativní četnosti (viz předchozí podkapitola). Při volbě Rel sum
se relativní četnost počítá pouze k počtu záznamu v aktuálně zvolené podmnožině (a také i podle aktuálního stavu volby Hide X-Category
). Volba Rel row
zobrazí četnosti relativně k součtu četnosti pro každý řádek v barevné mapě. A konečně volba Rel Cat
, která zobrazuje četnosti relativně k četnosti kategorie na celých datech. To umožní nalezení podmnožiny, ve které jsou nahromaděné (nebo naopak řídké) výskyty určité kategorie.
Interaktivní CF-analýza se povahou blíží k OLAP-analýze. Proto byla i do LISp-Mineru přidána možnost agregování hodnot. K dispozici jsou bežně používané agregační funkce – Count (počet), Sum (součet), Min (minimum), Max (maximum) a Average (průměr).
V základním nastavení je jako agregační funkce nastaven Count. To znamená, že pro jednotlivé kategorie vybraného atributu se zobrazují četnosti. Pomocí rozbalovací nabídky Aggregate function
však můžeme zvolit jinou z funkcí. Zároveň nesmíme zapomenout vybrat v rozbalovací nabídce Aggregate attribute
atribut, na jehož hodnoty se má agregační funkce aplikovat. Místo četností se pak budou zobrazovat agregované hodnoty.
Na datech Hotel může být příkladem CF-analýza kategorií atributu PDenTýdne, při které zvolíme jako agregační funkcí Sum a jako agregovaný atribut PCenaCelkem_edc10. Místo četností se budou pro jednotlivé dny v týdnu zobrazovat součty tržeb (za předpokladu, že všichni hosté platí za celý pobyt v den začátku pobytu).
Pozor! Stále je třeba mít na paměti, že interaktivní analýza pracuje až s diskretizovanými hodnotami, nikoliv s původními hodnotami ve sloupci. Proto se při výpočtu agregační funkce pracuje s indexy kategorií zvoleného agregovaného atributu. Chceme-li zobrazené údaje co nejvíce přiblížit původním hodnotám, je vhodné pro agregaci použít atribut s kategoriemi diskretizovanými pomocí vhodného počtu ekvidistantních intervalů – např. 10, nebo ještě lépe 100.
Související témata:
Analytická procedura CF-Miner
Kontingenční analýza dvou atributů
Geografická analýza četnosti záznamů podle oblastí
Předzpracování dat
Praktická ukázka: Demo Hotel: Interaktivní CF-analýza