Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
V rámci evoluce generujeme data a snažíme se do nich zapracovat všechny požadavky vyplývající ze specifikace.
Velikost dat udržujeme co nejmenší, abychom nenutili evoluci hledat správné hodnoty v mnoha řádcích najednou. Velikost dat však musí být na druhou stranu dostatečná, aby bylo možné zohlednit všechny požadavky (i částečně protichůdné).
Zejména vzhledem k počátečním frekvencím hodnot a povoleným odchylkám, ale i s ohledem na zachycení doménových znalostí a ukrytí vztahů do dat se pro data Hotel ukázalo jako postačující generovat data o velikost 200 záznamů.
Až po nalezení vhodného řešení na malých datech, zvýšíme snadno počet řádků v kroku Zvětšení a randomizace umělých dat.
Podle množství požadavku na generovaná data můžeme zvážit buď jejich vytvoření pomocí jediného RM případu, nebo pomocí více RM případů, kdy každý bude pracovat pouze s podmnožinou sloupců.
Při generování dat Hotel byl zvolen druhý způsob, který i umožnil zachytit postup vytváření dat – nejprve správné frekvence hodnot v datech, potom doménové znalosti a nakonec i požadované vztahy. Aby se vytvořené RM případy správně řadily v seznamu na záložce LIST
, byly jednotlivé skupiny požadavků ze specifikace očíslovány takto:
Číselné prefixy jsou následně používány v názvech RM případů, jak vidíme na obrázku:
Obr RMCaseSezn
První RM případ má za cíl pouze vygenerovat data, která budou splňovat požadavky na frekvence hodnot ve sloupcích.
Více viz: 01 Frekvence
RM případy s prefixem 02 BK řeší jednotlivé dílčí požadavky na data vyplývající z doménových znalostí.
Více viz: 02 Doménové znalosti
RM případy s prefixem 03 Vztahy do dat ukrývají požadované vztahy.
Více viz: 03 Vztahy
RM případ s názvem 98 Evoluce kombinuje dříve nalezené varianty dat do uceleného řešení splňující všechny požadavky na data.
Jako výchozí podoba dat je použit RM případ 03 Vztahy 01.99b Specifika hostů podle bydliště. Ten splňuje všechny požadavky na vztahy ukryté do dat. Pro nastavení hodnot sloupců, které nevystupují v žádném z požadavků na vztahy je dále jako záložní Data Preset nadefinován 02 BK 99 Doménové znalosti.
Žádné nové požadavky na data nejsou definovány, a proto evoluce skončí hned v prvním kroku. Získali jsme tak data splňující všechny požadavky, ale zatím pouze o velikosti 200 řádků.