Demo ReverseMiner: Specifikace generovaných dat

Je velmi důležité si nejprve v klidu rozmyslet, jaká data chceme generovat a co za vztahy do nich chceme ukrýt. Přesná definice cíle a zejména rozmyšlení všech požadavků na vztahy „skryté“ v datech jsou velmi důležité předpoklady pro dosažení dobrých výsledků v přijatelném čase.

Do specifikace generovaných dat patří:

definice cíle (účelu, pro který mají být generována data používána);
výběr domény, které se data budou týkat;
rozsah dat – počet řádků (záznamů), případně i časové období, které data budou pokrývat;
návrh struktury dat, včetně externě dodaných – sloupce a jejich datové typy, přípustné hodnoty nebo rozsahy hodnot;
počáteční frekvence (či rozložení) hodnot a povolené odchylky;
doménové znalosti;
vztahy, které mají být v datech „skryty“

Definice cíle

Cílem tohoto ukázkového postupu je vytvořit umělá data, která budou snadná na pochopení a která budou zároveň vypadat co nejvíce realisticky. Zároveň data musí dovolit popsat v celé šíři současnou funkčnost a možnosti systému LISp-Miner ve všech fázích dobývání znalostí z databází (DZD), včetně všech implementovaných analytických procedur.

Data budou použita zejména v připravovaných wiki-stránkách systému LISp-Miner a ve výuce kurzů 4iz260 a 4iz460.

Data budou připravena pomocí modul ReverseMiner, který je součástí systému LISp-Miner a který umožňuje při generování do dat „skrývat“ předem dané vztahy/závislosti.

Doména dat

Data pro výklad DZD a popis funkčnosti a ovládání systému LISp-Miner musí být ze snadno pochopitelné domény, se srozumitelným významem použitých sloupců a doménových znalostí. Původní verze dat o pobytech hostů se osvědčila ve výuce předmětů 4iz260 a 4iz460 právě proto, že nebylo nutné složitě vysvětlovat význam a hodnoty dat, existující doménové znalosti a motivaci pro formulaci analytických otázek.

V neposlední řadě byla srozumitelná i interpretace nalezených vztahů. Již od vytvoření však struktura dat neumožňovala výklad některých existujících funkcí (např. shlukování, rozhodovací stromy). Zároveň do systému LISp-Miner přibyla celá řada funkcí nových, které je třeba také vysvětlit (zejména funkce pro dolování nad daty s geografickými údaji).

Z těchto důvodů je třeba přistoupit k vygenerování nové verze dat o pobytech hostů, která bude obsahovat více typů vztahů, které lze v datech hledat, a dále data a datové struktury pro výklad všech funkcí aktuálně dostupných systému LISp-Miner. Z důvodu primárního použití ve výuce budou názvy tabulek, sloupců i samotné hodnoty v češtině.

Rozsah dat

Pobyty budou za dva roky (1. 1. 2012 až 31. 12. 2013), aby byly zachyceny alespoň dvě sezony. Zároveň bude zachycen podzim 2013, kdy byla intervence ČNB na oslabení koruny – názorně se zobrazí v grafech a projeví v základní ceně v EUR.

Množství záznamů: 1000 nebo 2000.

Poznámka: Vyšší počet záznamů lze kdykoliv později vytvořit pomocí RM případu typu Randomizace (multiplikací záznamů a přidáním šumu za současného udržení všech požadovaných vztahů v datech).

Struktura dat

Struktura dat musí vycházet z doménové oblasti, zároveň je však třeba, aby mezi sledovanými údaji byly zastoupeny všechny podporované datové typy – text, celé číslo, desetinné číslo, datum+čas a logická hodnota ano/ne.

Zároveň musí být zahrnuty různé typy veličin – nominální, ordinální, kardinální. Množství sloupců by však mělo zůstat co nejmenší.

Externí data

Kromě základních dat o pobytech byla už pro první verzi připravena externě dodaná data – o počasí pro všechny dny sledovaného období a o směnném kurzu. Jde o reálná data, která se k datum o pobytech připojí a rozšiřují je.

Obě externí data se základními propojí pomocí datumu (pro zjednodušení půjde o den začátku pobytu). Vztah mezi tabulkou s pobyty a externími daty je n:1.

Více viz: Detailní popis struktury hlavních i externích dat

Frekvence hodnot

Dále je třeba navrhnout vhodné počáteční frekvence hodnot ve sloupcích a povolené odchylky, o kolik se frekvence jednotlivých kategorií mohou v průběhu evoluce změnit.

Více viz: Frekvence hodnot ve sloupcích

Doménové znalosti

Pro zvýšení realistického dojmu dat je třeba zahrnout reálie z oblasti ubytování.

Více viz: Doménové znalosti

Vztahy ukryté do dat

Kromě doménových znalostí musí být do dat ukruty další vztahy, které bude možné následně hledat pomocí nástrojů DZD.

Více viz: Vztahy ukryté do dat

LISp-Miner

Uživatelské nástroje

Nástroje pro tento web

Postranní lišta

Obsah