Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Do skupiny Pobyt/Cena patří atributy založené nad sloupci PCenaUbytovani, PCenaStrava, PCenaSleva a PCenaCelkem.
V této fázi analýzy patrně nebudeme mít dostatečné znalosti o datech, abychom vytvořili nějaké expertní rozdělení cen na intervaly. Pro každý sloupec tedy vytvoříme nejprve atribut s rozdělením na ekvidistantní intervaly v počtu 10 (přípona _edc10). Vznikou tedy tyto atributy: PCenaUbytovani_edc10, PCenaStrava_edc10, PCenaCelkem_edc10.
Při automatické vytváření ekvidistatních intervalů nastavíme počáteční mez na nula. Navíc zaškrtneme volbu Use mnemonic names
. Vzniklých deset kategorií tak nebude pojmenováno podle mezí intervalů, které výsledky spíše znepřehledňují, ale pouze zjednodušeným názvem ed_XX, kde XX je pořadové číslo ekvidistantního intervalu.
Pozor! V současné době není možné přidat najednou více atributů s použitím ekvidistantních intervalů, pokud jsou rozdílné minimální a maximální hodnoty ve sloupci (což je případ sloupců s cenou). Proto je třeba atributy přidávat postupně.
Nad hodnotami sloupce PCenaSleva nemá cenu vytvářet deset intervalů, ale podle povahy dat ve sloupci vytvoříme ekvidistantní intevaly o délce 200. Vznikne atribut PCenaSleva_ed200.
Dále vytvoříme atributy s rozdělením na ekvifrekvenční intervaly v počtu 5 (přípona _ef5) pro cenu za ubytování a pro celkovou cenu. Zároveň ponecháme přednastavenou volbu Use mnemonic names
.
Vzniknou atributy PCenaUbytovani_ef5 a PCenaCelkem_ef5. Atributy můžeme přidat najednou.
Pro cenu za stravu a slevu nemá cenu dělat ekvifrekvenční rozdělení. U číselných atributů, kde je výrazně zastoupena hodnota 0, bývá naopak vhodné vytvořit binární variantu se dvěma kategoriemi – hodnota 0 × vše ostatní. V našem případě se to týká databázových sloupců PCenaStrava a PCenaSleva, nad kterými chceme vytvořit atributy PCenaStrava_b a PCenaSleva_b.
Oba atributy vytvoříme ručně s tím, že opět použijeme funkci hromadného přidání kategorií, kterou vyvoláme tlačítkem Batch Add
(nebo vybereme položku menu Preprocessing/Batch add of categories
) a do editačního pole vypíšíme na první řádek hodnotu 0 a na druhý interval (0;+inf).
Následně by šlo kategorie hromadně přejmenovat na ne a ano, ale v současné verzi kontrolních souborů je vyžadován původní název, takže ponecháme.
Alternativně můžeme obě kategorie zadat ručně pomocí tlačítka Add
.
Do skupiny Pobyt/Cena logicky patří i atributy nad odvozeným sloupcem PCenaCelkemEUR. Vytvoříme opět dvě varianty diskretizace – ekvidistantní a ekvifrekvenčí intervaly. Tentokrát budeme požadovat v obou případech vytvoření deseti intervalů. V obou případech zaškrtneme volbu Use mnemonic names
.
Vzniknou tak atributy PCenaCelkemEUR_edc10 a PCenaCelkemEUR_ef10.
Na zvážení je přítomnost atributů PCenaCelkemEUR_edc10 a PCenaCelkemEUR_ef10 i v jiné skupině, než pouze Pobyt/Cena. Protože je při výpočtu hodnot použit směnný kurz, může být vhodné je zároveň přiřadit i do skupiny Směnárna. Atributy pak budou patřit do skupiny Pobyt/Cena i Směnárna zároveň.
Pro přiřazení můžeme použít buď rychlé přiřazení atributů do skupiny, nebo přiřadit oba atributy do skupiny Směnárna postupně.
Jednotkové ceny jsme přidali v předchozí fázi jako odvozené sloupce.
V databázovém sloupci jednotkové ceny za ubytování v korunách vidíme dvě ceníkové ceny. U jednotkové ceny za stravu v korunách vidíme dvě ceníkové ceny a variantu, že host stravu neměl.
V obou případech tak použijeme vytvoření kategorií pro každou z hodnot, bez ohledu na upozornění. Pouze je vhodné přejmenovat názvy kategorií na čitelnější (např. v případě atributu PCenaStravaJednotkova_enum na žádná, 150 a 180). Vzniknou atributy PCenaUbytovaniJednotkova_enum a PCenaStravaJednotkova_enum.
U jednotkových cen v eurech patrně nebudeme nyní schopni použít nějaké expertní rozdělení, takže použijeme ekvifrekvenční intervalu v počtu 10.
Vzniknou atributy PCenaUbytovaniJednotkovaEUR_ef10 a PCenaStravaJednotkovaEUR_ef10.
U atributu PCenaStravaJednotkovaEUR_ef10 vidíme, že do výpočtu ekvifrekvenčních intervalů nevhodně zasahuje častý případ hostů bez stravy. Proto do počáteční meze zadáme hodnotu vyšší než 0, ale nižší nebo rovnou první nenulové hodnotě (v tomto případě například 5). Ekvifrekvenční intervaly se pak vytvoří pouze pro dané rozpětí hodnot.
Výslednou podobu skupiny Pobyt/Cena vidíme na obrázku.
Související témata:
Demo Hotel: Vytvoření atributů ve skupině Směnárna
Demo Hotel: Vytvoření atributů a jejich kategorií
Atribut a jeho kategorie