Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Předzpracování dat je třetí fází procesu DZD podle metodiky CRISP-DM.
Ve fázi předzpracování se snažíme data co nejlépe připravit pro následné použití zvolených technik DZD. Každá z technik vyžaduje trochu jiný způsob předzpracování a obvykle je třeba opakovaně zkoušet různé způsoby předzpracování.
Mezi funkce předzpracování dat patří integrace dat z různých zdrojů, selekce dat, výpočet odvozených hodnot, identifikace chybějících hodnot a zejména pak různé způsoby diskretizace a seskupování hodnot. K předzpracování dat nejčastěji použijeme modul LM Workspace, ale předzpracování je možné i automatizovat za použití skriptovacího jazyka LMCL a modulu LM Exec.
Předzpracování dat v systému LISp-Miner zahrnuje typické kroky fáze Předzpracování dat a vychází také z potřeb implementovaných analytických procedur, zejména z principu, že GUHA-procedury pracují pouze s diskretními hodnotami.
Abychom mohli pracovat s hodnotami uloženými v některém sloupci, musíme nad tímto sloupcem nejprve vytvořit (vícekategoriální) atribut a jeho kategorie. Jedna kategorie odpovídá jedné nebo více hodnotám ve sloupci. Kategorie nemusí být vytvořeny pro všechny hodnoty. Kategorizací tak řešíme dva základní kroky předzpracování dat – výběr sledovaných hodnot a jejich seskupování. Pomocí kategorií typu interval diskretizujeme spojité hodnoty do diskrétních intervalů. V případě, že chceme ponechat hodnoty v podobě, jak jsou uloženy v databázovém sloupci, využijeme funkci automatického vytvoření kategorií jako výčet.
Základní funkce pro předzpracování dat nalezneme v modulu LM Workspace v menu Preprocessing
. Záložky patřící do fáze Předzpracování dat se budou objevovat ve stromu otevřených záložek po levé straně pracovní plochy ve větvi B. Data Preprocessing
. Při propojování dat z více tabulek a při vytváření odvozených sloupců se budeme vracet do větve A. Data Introduction
.
Výsledkem fáze Předzpracování dat je datová matice.
U větších analýz budou analyzovaná data obvykle uložena ve více tabulkách. I u menších analýz a v případě, že k analýze dostaneme pouze jednu datovou matici, je velmi důležité dohledat další (externí) data, která k analyzovaným připojíme. Tím zvýšíme pravděpodobnost odhalení skutečně zajímavých a zatím neodhalených vztahů. Typickým příkladem externě připojovaných dat jsou údaje o počasí.
Před vlastním propojením musíme zadat relace, pomocí kterých se mají tabulky spojovat. Následně vytvoříme dynamický databázový pohled, který pomocí relací propojí více tabulek do jedné. S nově vzniklým dynamickým pohledem můžeme pracovat obvyklým způsobem, jak s kteroukoliv jinou databázovou tabulkou.
Volitelně je možné propojování více tabulek kombinovat i s omezením rozsahu dat.
Více viz: Zadání vztahů mezi tabulkami
Více viz: Vytvoření dynamického databázového pohledu
Praktická ukázka: Demo Hotel: Propojení tabulek
První možnost pro omezení rozsahu dat je již při importu dat z textového souboru.
Chceme-li omezit počet analyzovaných záznamů až dodatečně (např. variantně podle nějakého kritéria), vytvoříme databázový pohled. Ten bude založen pouze na původní databázové tabulce a zároveň omezíme počet řádků buď absolutně (např. podle hodnot ID), nebo podle nějakého kritéria (např. pouze rok 2013).
S nově vzniklou datovou maticí můžeme pracovat obvyklým způsobem. Následně je možné přenést již vytvořené definice atributů a jejich kategorií z původní tabulky i do právě vytvořeného databázového pohledu.
Volitelně je možné omezení rozsahu dat kombinovat i s propojováním dat z více tabulek.
Kromě přidání externích dat zvýšíme šance nalezení zajímavých výsledků (nebo jejich lepší interpretace) i výpočtem nějakých odvozených hodnot.
Jde o trochu jiný pohled na data. Typickým příkladem je výpočet dne v týdnu z datumu, výpočet jednotkových cen z ceny celkové a prodaného množství, převod do jiné měny atp. Přestože výpočtem odvozených hodnot do dat nic nepřidáváme, umožňuje jiný úhel pohledu zjistit vztahy, které nejsou v původních datech na první pohled patrné.
Více viz: Výpočet odvozených hodnot
Praktická ukázka: Demo Hotel: Výpočet odvozených hodnot
Speciálním typem odvozených hodnot jsou sloupce založené na nalezených hypotézách ve výsledcích dříve vyřešených úloh. „Předzpracováním“ je v tomto případě tak kompletní vyřešení analytické úlohy.
I to lze však chápat jako další pohled na analyzovaná data. Jde však o pokročilou funkci, která je zde zmiňována kvůli úplnosti výčtu možných způsobu předzpracování dat.
V terminologii LISp-Mineru je (vícekategoriální) atribut předzpracovaným pohledem na data. Pro definici atributu a jeho kategorií používáme záložku s detailem atributu.
Atribut slouží pro kategorizaci dat – diskretizaci spojitých hodnot nebo pro seskupování více znaků u nominálních hodnot do kategorií. Existuje několik možností automatického vytvoření kategorií, ale i funkce pro jejich ruční editaci.
Nad jedním databázovým sloupcem můžeme vytvořit celou řadu atributů, každý s odlišným způsobem kategorizace. Pro ulehčení práce je možné místo vytváření atributu od nuly klonovat nejvíce podobný již vytvořený atribut a následně provést drobně změny v definici. Speciální funkce jsou k dispozici pro dichotomizaci (binarizaci) atributu.
Více viz: Záložka s detailem atributu
Více viz: Vytvoření nového atributu
Více viz: Automatického vytvoření kategorií
Více viz: Ruční editaci kategorií
Praktická ukázka: Demo Hotel: Vytvoření atributů a jejich kategorií
Protože atributů bývá při analýze vytvořeno velké množství, přiřazujeme je do skupin a podskupin na záložce se stromem skupin a do nich patřících atributů.
Vhodné rozdělení atributů do skupin je jedním z typů doménových znalostí. Používá se zejména pro systematické vytváření analytických otázek, kdy proti sobě stavíme atributy (např. jako předpoklad a závěr) postupně ze všech skupin. Dobře rozmyšlené rozdělení atributů do skupin výrazně pomůže k dosažení zajímavých výsledků analýzy, zejména při formulaci analytických otázek.
Více viz: Záložka se stromem skupin a do nich patřících atributů
Praktická ukázka: Demo Hotel: Vytvoření skupin atributů
Datová matice je výsledkem fáze předzpracování. Ve sloupcích obsahuje všechny vytvořené kategoriální atributy a v řádcích záznamy. V průsečíku řádku a sloupce je kategorie, do které patří hodnota v daném řádku a sloupci (nad kterými byl vytvořen atributu).
Datovou matici zobrazíme tlačítkem Show Matrix
na záložce se stromem skupin a do nich patřících atributů. Datovou lze i exportovat.
S postupem analýzy budou přibývat atributy, a to i více atributů nad jedním databázovým sloupcem – např. s kategoriemi jednou jako ekvidistantní intervaly, jednou jako ekvifrekenční intervaly. Jindy uděláme klon existujícího atributu a sloučíme krajní kategorie atp.
Již od začátku bychom proto měli dobře volit pojmenování každého atributu, aby bylo na první pohled jasné, jakého sloupce se týká a jak byly vytvořeny jeho kategorie.
Související témata:
Zkopírování definice atributů a kategorií z jiné datové matice
Import a export definice atributů a kategorií z/do souboru PMML
Vymazání lokální cache pro všechny atributy z právě nastavené datové matice