Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Analýza hlavních komponent (angl. Principal Component Analysis, zkr. PCA) je statistická technika používaná pro redukci dimenzí u mnoharozměrných dat. V systému LISp-Miner je využita pro dvourozměrnou vizualizaci záznamů.
Předpokládá se, že záznamy jsou popsány mnoha veličina (daleko více než dvěma). Pomocí analýzy hlavních komponent jsou vypočteny dvě hlavní komponenty jako lineární kombinace hodnot původních veličin. Ty jsou pak zobrazeny jako 2D graf.
Záložku pro analýzu hlavních komponent otevřeme z menu Interactive analysis
, nebo z kontextové nabídky pro položku C. Interactive analysis
ve stromu otevřených záložek po levé straně obrazovky.
Pomocí tlačítka Columns
vybíráme (numerické) sloupce, které vstupují do výpočtu. Metodou pokus-omyl můžeme nalézt vhodnou podmnožinu sloupců, která dobře rozděluje záznamy analyzovaných dat do shluků. Nalezení vhodných sloupců je poměrně pracné a časově náročné. Proto je obvykle lepší nechat nejvhodnější kombinace vyhledat automaticky, např. pomocí procedury MCluster-Miner.
Je důležité mít na paměti, že analýza hlavních komponent pracuje s původními (nepředzpracovanými) hodnotami databázových sloupců v původní databázové tabulce, nikoliv nad kategorizovanými atributy. Do výpočtu hlavních komponent mohou být zahrnuty pouze záznamy, které ani v jednom ze zadaných sloupců neobsahují hodnotu NULL.
Body grafu je možné nechat obarveit podle příslušnosti do kategorie zvoleného atributy. Toho docílíme zaškrtnutím volby Colorize points based on
a vyběrem atributu z rozbalovací nabídky.
Analýzu je možné omezit pouze na podmnožinu záznamů z databázové tabulky. Podmnožina se definuje pomocí již předzpracovaného kategoriálního atributu tak, že nejprve zaškrtneme volbu Use attribute for condition
v pravém horním rohu záložky, a pak vybereme požadovaný atribut z rozbalovací nabídky. Následně pomocí posuvníku vybereme jednu z kategorií atributů. V grafu se budou zobrazovat pouze body pro záznamy, jejichž hodnota ve sloupci daném vybraným atributem patří do vybrané kategorie.
Jak měníme posuvníkem právě nastavenou kategorii, tak se mění i podoba grafu.
Pomocí volby Add Jitter
je možné k souřadnicím bodů v grafu přidat náhodnou složku. To umožní vizuálně rozlišit záznamy, které by se jinak překrývaly.
Vypočtené hlavní komponenty můžeme přidat jako odvozené sloupce.
Po stisku tlačítka Add components as derived columns
se objeví dialogové okno, ve kterém zadáváme počáteční název právě přidávaných sloupců (ke kterému bude pro odlišení přidáno pořadové číslo komponenty) a zejména počet komponent, pro které se mají odvozené sloupce vytvořit.
Volitelně je možné nechat pro každý z přidaných odvozených sloupců přidat i atributy, navíc opět volitelně do nějaké skupiny atributů.
Souvísející témata:
Analytická procedura MCluster-Miner
Scatter-plot analýza
Korelační analýza
Interaktivní analýza
Seznámení s daty
Praktická ukázka: Demo Hotel: Analýza hlavních komponent