Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Ukázka generování dat Hotel popisuje celý postup vytvoření umělých dat o pobytech hostů ve fiktivním hotelu, která jsou následně používána jako Data Hotel ve výkladu na těchto stránkách.
Všechny soubory použité pro vygenerování dat Hotel (včetně pseudotabulky a průběžných výsledků) jsou k dispozici ke stažení jako RMHotel.zip.
Soubor je třeba rozbalit do podsložky ReverseMiner
, která se automaticky vytvoří v základní složce systému LISp-Miner po nainstalování modulu ReverseMiner (zaškrnutím příslušné volby v modulu LM Updater.
Je velmi důležité si nejprve v klidu rozmyslet, jaká data chceme generovat a co za vztahy do nich chceme ukrýt. Přesná definice cíle a zejména rozmyšlení všech požadavků na vztahy „skryté“ v datech jsou velmi důležité předpoklady pro dosažení dobrých výsledků v přijatelném čase.
Více viz: Specifikace generovaných dat
Než začneme pracovat se samotným modulem LM ReverseMiner, musíme nejprve přípravit prostředí pomocí modulu LM Workspace.
Mezi přípravné kroky patří vytvoření dvojici data+metabáze, definice odvozených hodnot a vytvoření atributů a jejich kategorií.
Více viz: Příprava prostředí pro generování dat
V rámci evoluce generujeme data a snažíme se do nich zapracovat všechny požadavky vyplývající ze specifikace. Velikost dat přitom udržujeme co nejmenší, abychom nenutili evoluci hledat správné nastavení v mnoha řádcích najednou. Velikost dat však musí být na druhou stranu dostatečná, aby bylo možné zohlednit všechny požadavky (i částečně protichůdné).
Více viz: Generování umělých dat
Nyní máme variantu dat, která v sobě zahrnuje všechny požadavky, ale je svým rozsahem malá. Pomocí RM případu typu Randomizace zvětšíme rozsah na 2000 záznamů a přidáme do dat „šum“, aby nebylo na první pohled patrné, že se záznamy opakují.
Více viz: Zvětšení a randomizace umělých dat