Uživatelské nástroje

Nástroje pro tento web


lmdemo:rmhotel:specifikace:frequency

Demo ReverseMiner: Frekvence hodnot a rozložení hodnot ve sloupci

Aby data vypadala realisticky, měly by frekvence hodnot (resp. rozložení hodnot) ve sloupcích odpovídat realitě. Tyto frekvence zadáme jako počáteční a zároveň je budeme chtít v průběhu celé evoluce udržet v zadaném rozpětí.

Skupina Sloupec Počáteční distribuce Atribut Povolená rozpětí
Host                                                                 HVek                                                                   rovnoměrné rozdělení HVek_edc10                                         15 % ± 10 p.b. První a poslední kategorie méně kvůli min-max. Schválně větší rozptyl, aby prostor pro evoluci.
Host HPohlavi 50 : 50 HPohlavi 50 % ± 15 p.b. Schválně větší rozptyl, aby prostor pro evoluci.
Host/Bydliště HMesto frekvence odvozeny z požadovaného podílu státních příslušností (viz níže) HMesto nastavená frekvence ± 3 p.b. U měst s nízkou frekvencí (Gdaňsk, KV, Žilina) zaručeno, že vždy alespoň jeden výskyt.
Host/Bydliště HStat ČR: 45 %, Rakousko: 25 %, Německo: 15 %, Slovensko: 10 %, Polsko: 5 % vyplývá z frekvencí měst
Pobyt/Kalendář PPobytOd rovnoměrné rozdělení PMesic alikvotní část roku (záleží na délce měsíce) ± 5 p.b.
Pobyt PNoci 1: 30, 2: 25, 7: 20, 14: 10, 21: 5, 28: 2 (převažující turnusové rekreační pobyty a jednodenní služební cesty) PNoci_exp nastavená frekvence ± 5 p.b. U kategorií s nízkou frekvencí zaručeno, že vždy alespoň jeden výskyt. Ručně upraveno u dlouhodobých pobytů na 2 % ± 1 p.b.
Pobyt POsob 1: 30 %, 2: 40 %, 3: 10 %, 4: 20 % POsob nastavená frekvence ± 5 p.b.
Pobyt PTypPobytu rekreační: 70 %, služební: 30 % PTypPobytu nastavená frekvence ± 10 p.b.
Dotazník DHodnoceni spokojen: 30 %, standard: 50 %, nespokojen: 20 % DHodnoceni nastavená frekvence ± 5 p.b.

Ve sloupci Atribut je uveden kategoriální atribut, který použijeme později pro definici frequency guiding rules.

Zároveň však musíme počítat i s následně definovanými požadavky na vztahy „skryté“ v datech. Počáteční frekvence by neměly být v zásadním rozporu s některým z požadavků. To by mohlo vést buď k úplnému znemožnění nalezení výsledku, nebo k výraznému prodloužení doby potřebné k nalezení vyhovující podoby dat.

lmdemo/rmhotel/specifikace/frequency.txt · Poslední úprava: 2015/10/10 14:42 (upraveno mimo DokuWiki)