Uživatelské nástroje

Nástroje pro tento web


lmdemo:rmhotel:evolution:start

Demo ReverseMiner: Vlastní generování umělých dat

V rámci evoluce generujeme data a snažíme se do nich zapracovat všechny požadavky vyplývající ze specifikace.

Velikost generovaných dat

Velikost dat udržujeme co nejmenší, abychom nenutili evoluci hledat správné hodnoty v mnoha řádcích najednou. Velikost dat však musí být na druhou stranu dostatečná, aby bylo možné zohlednit všechny požadavky (i částečně protichůdné).

Zejména vzhledem k počátečním frekvencím hodnot a povoleným odchylkám, ale i s ohledem na zachycení doménových znalostí a ukrytí vztahů do dat se pro data Hotel ukázalo jako postačující generovat data o velikost 200 záznamů.

Až po nalezení vhodného řešení na malých datech, zvýšíme snadno počet řádků v kroku Zvětšení a randomizace umělých dat.

Postup generování dat

Podle množství požadavku na generovaná data můžeme zvážit buď jejich vytvoření pomocí jediného RM případu, nebo pomocí více RM případů, kdy každý bude pracovat pouze s podmnožinou sloupců.

Při generování dat Hotel byl zvolen druhý způsob, který i umožnil zachytit postup vytváření dat – nejprve správné frekvence hodnot v datech, potom doménové znalosti a nakonec i požadované vztahy. Aby se vytvořené RM případy správně řadily v seznamu na záložce LIST, byly jednotlivé skupiny požadavků ze specifikace očíslovány takto:

  • 01 Frekvence hodnot
  • 02 Doménové znalosti
  • 03 Vztahy

Číselné prefixy jsou následně používány v názvech RM případů, jak vidíme na obrázku:

FIXME Obr RMCaseSezn

01 Frekvence hodnot

První RM případ má za cíl pouze vygenerovat data, která budou splňovat požadavky na frekvence hodnot ve sloupcích.

Více viz: 01 Frekvence

02 Doménové znalosti

RM případy s prefixem 02 BK řeší jednotlivé dílčí požadavky na data vyplývající z doménových znalostí.

Více viz: 02 Doménové znalosti

03 Vztahy

RM případy s prefixem 03 Vztahy do dat ukrývají požadované vztahy.

Více viz: 03 Vztahy

98 Evoluce

RM případ s názvem 98 Evoluce kombinuje dříve nalezené varianty dat do uceleného řešení splňující všechny požadavky na data.

Jako výchozí podoba dat je použit RM případ 03 Vztahy 01.99b Specifika hostů podle bydliště. Ten splňuje všechny požadavky na vztahy ukryté do dat. Pro nastavení hodnot sloupců, které nevystupují v žádném z požadavků na vztahy je dále jako záložní Data Preset nadefinován 02 BK 99 Doménové znalosti.

Žádné nové požadavky na data nejsou definovány, a proto evoluce skončí hned v prvním kroku. Získali jsme tak data splňující všechny požadavky, ale zatím pouze o velikosti 200 řádků.

lmdemo/rmhotel/evolution/start.txt · Poslední úprava: 2015/10/12 20:41 (upraveno mimo DokuWiki)