Uživatelské nástroje

Nástroje pro tento web


lmianalysis:geodatacf

Interaktivní geografická analýza oblastí

Interaktivní geografická analýza oblastí umožňuje vyjádřit frekvence záznamů v oblasti pomocí jejího barevného odstínu na mapě. To může vést ke snazšímu rozpoznání prostorových závislostí, které by jinak zůstaly neodhalené. Základy analýzy geografických dat jsou popsány na samostatné stránce.

Záložku geografických analýzy četnosti záznamů podle oblastí (v LISp-Mineru jako Geodata CF Analysis) otevřeme z menu Interactive analysis, nebo z kontextové nabídky pro položku C. Interactive analysis ve stromu otevřených záložek po levé straně obrazovky.

Na mapě jsou zobrazeny oblasti v různých barevných odstínech základní barvy nastavené v definici vektorové vrstvy. Barevný odstín je v základní variantě vypočten z frekvence záznamů analyzovaných dat, které patří do dané oblasti.

Kliknutím myší na oblast ji vybereme. Její název a hodnota použitá pro výpočet odstínu barvy se zobrazí jako text pod mapou.

Výběr mapové vrstvy oblastí

Pro správnou funkci analýzy oblastí je klíčový správný výběr (vektorové) mapové vrstvy. Ta musí přesně odpovídat kategoriím atributu, který vybereme v rozbalovací nabídce Attribute v levé horní části záložky.

Mapovou vrstvu nastavíme v rozbalovací nabídce Main vector layer with polygons to be filled v dialogovém okně vyvolaném stiskem tlačítka Map Layers. U vrstvy můžeme v její definici nastavit základní barvu výplně. Seznam vrstev s možností změny jejich definice vyvoláme tlačítkem Vector Layers Settings. V seznamu můžeme i přidávat další vrstvy.

V definici souboru použitého jako mapová vrstva musí být oblasti pojmenovány stejně, jako jsou názvy kategorií vybraného atributu.

Pro soubory formátu KML (Keyhole Markup Language) to znamená, že oblasti musí být definovány jako polygony v entitě Placemark, která musí mít v sobě obsažený tag Name s názvem oblasti. Soubory KML jsou XML soubory, takže je můžeme otevřít v libovolném textovém editoru a jejich strukturu zkontrolovat. Zároveň můžeme zkontrolovat i názvy oblastí.

Výběr podkladové vrstvy

Rastrový podklad (a jestli se má vůbec zobrazovat) nastavujeme pomocí rozbalovací nabídky Background raster image také po stisku tlačítka Map Layers. Definici rastrových vrstev můžeme změnit pomocí tlačítka Backgrounds Settings.

Podmnožina záznamů

Odstíny oblastí na mapě je možné počítat pouze z podmnožiny záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. Odstíny v mapě pak budou spočítány pouze pro záznamy, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie.

Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i podoba mapy.

Agregační funkce

Interaktivní geografická CF analýza se podobně jako Interaktivní CF analýza povahou blíží k OLAP-analýze. Proto byla i do LISp-Mineru přidána možnost agregování hodnot. K dispozici jsou bežně používané agregační funkce – Count (počet), Sum (součet), Min (minimum), Max (maximum) a Average (průměr).

V základním nastavení je jako agregační funkce nastaven Count. To znamená, že odstíny oblastí se počítají na základě četností do nich patřících záznamů. Pomocí rozbalovací nabídky Aggregate function však můžeme zvolit jinou z funkcí. Zároveň nesmíme zapomenout vybrat v rozbalovací nabídce Aggregate attribute atribut, na jehož hodnoty se má agregační funkce aplikovat. Odstíny oblastí pak místo četnostem budou odpovídat vypočteným agregovaným hodnotám.

Na datech Hotel může být příkladem geografická CF analýza podle státu, při které zvolíme jako agregační funkcí Sum a jako agregovaný atribut PCenaCelkem_edc10. Místo četností se budou odstíny barvy pro jednotlivé státy vyjadřovat součet tržeb.

Pozor! Stále je třeba mít na paměti, že interaktivní analýza pracuje až s diskretizovanými hodnotami, nikoliv s původními hodnotami ve sloupci. Proto se při výpočtu agregační funkce pracuje s indexy kategorií zvoleného agregovaného atributu. Chceme-li zobrazené údaje co nejvíce přiblížit původním hodnotám, je vhodné pro agregaci použít atribut s kategoriemi diskretizovanými pomocí vhodného počtu ekvidistantních intervalů – např. 10, nebo ještě lépe 100.


Související témata:

Kontingenční analýza jednoho atributu
Geografická analýza bodů
Interaktivní analýza
Předzpracování dat

Praktická ukázka: Demo Hotel: Interaktivní geografická analýza oblastí

lmianalysis/geodatacf.txt · Poslední úprava: 2015/08/16 14:06 (upraveno mimo DokuWiki)