Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Je velmi důležité si nejprve v klidu rozmyslet, jaká data chceme generovat a co za vztahy do nich chceme ukrýt. Přesná definice cíle a zejména rozmyšlení všech požadavků na vztahy „skryté“ v datech jsou velmi důležité předpoklady pro dosažení dobrých výsledků v přijatelném čase.
Do specifikace generovaných dat patří:
Cílem tohoto ukázkového postupu je vytvořit umělá data, která budou snadná na pochopení a která budou zároveň vypadat co nejvíce realisticky. Zároveň data musí dovolit popsat v celé šíři současnou funkčnost a možnosti systému LISp-Miner ve všech fázích dobývání znalostí z databází (DZD), včetně všech implementovaných analytických procedur.
Data budou použita zejména v připravovaných wiki-stránkách systému LISp-Miner a ve výuce kurzů 4iz260 a 4iz460.
Data budou připravena pomocí modul ReverseMiner, který je součástí systému LISp-Miner a který umožňuje při generování do dat „skrývat“ předem dané vztahy/závislosti.
Data pro výklad DZD a popis funkčnosti a ovládání systému LISp-Miner musí být ze snadno pochopitelné domény, se srozumitelným významem použitých sloupců a doménových znalostí. Původní verze dat o pobytech hostů se osvědčila ve výuce předmětů 4iz260 a 4iz460 právě proto, že nebylo nutné složitě vysvětlovat význam a hodnoty dat, existující doménové znalosti a motivaci pro formulaci analytických otázek.
V neposlední řadě byla srozumitelná i interpretace nalezených vztahů. Již od vytvoření však struktura dat neumožňovala výklad některých existujících funkcí (např. shlukování, rozhodovací stromy). Zároveň do systému LISp-Miner přibyla celá řada funkcí nových, které je třeba také vysvětlit (zejména funkce pro dolování nad daty s geografickými údaji).
Z těchto důvodů je třeba přistoupit k vygenerování nové verze dat o pobytech hostů, která bude obsahovat více typů vztahů, které lze v datech hledat, a dále data a datové struktury pro výklad všech funkcí aktuálně dostupných systému LISp-Miner. Z důvodu primárního použití ve výuce budou názvy tabulek, sloupců i samotné hodnoty v češtině.
Pobyty budou za dva roky (1. 1. 2012 až 31. 12. 2013), aby byly zachyceny alespoň dvě sezony. Zároveň bude zachycen podzim 2013, kdy byla intervence ČNB na oslabení koruny – názorně se zobrazí v grafech a projeví v základní ceně v EUR.
Množství záznamů: 1000 nebo 2000.
Poznámka: Vyšší počet záznamů lze kdykoliv později vytvořit pomocí RM případu typu Randomizace (multiplikací záznamů a přidáním šumu za současného udržení všech požadovaných vztahů v datech).
Struktura dat musí vycházet z doménové oblasti, zároveň je však třeba, aby mezi sledovanými údaji byly zastoupeny všechny podporované datové typy – text, celé číslo, desetinné číslo, datum+čas a logická hodnota ano/ne.
Zároveň musí být zahrnuty různé typy veličin – nominální, ordinální, kardinální. Množství sloupců by však mělo zůstat co nejmenší.
Kromě základních dat o pobytech byla už pro první verzi připravena externě dodaná data – o počasí pro všechny dny sledovaného období a o směnném kurzu. Jde o reálná data, která se k datum o pobytech připojí a rozšiřují je.
Obě externí data se základními propojí pomocí datumu (pro zjednodušení půjde o den začátku pobytu). Vztah mezi tabulkou s pobyty a externími daty je n:1.
Dále je třeba navrhnout vhodné počáteční frekvence hodnot ve sloupcích a povolené odchylky, o kolik se frekvence jednotlivých kategorií mohou v průběhu evoluce změnit.
Více viz: Frekvence hodnot ve sloupcích
Pro zvýšení realistického dojmu dat je třeba zahrnout reálie z oblasti ubytování.
Více viz: Doménové znalosti
Kromě doménových znalostí musí být do dat ukruty další vztahy, které bude možné následně hledat pomocí nástrojů DZD.
Více viz: Vztahy ukryté do dat