Uživatelské nástroje

Nástroje pro tento web


lmdata:hotel2015

Data Hotel

Pro popis jednotlivých funkcí systému LISp-Miner byla vytvořena data o pobytech ve fiktivním hotelu. Data jsou používána při výkladu na těchto stránkách. Zároveň lze data stáhnout a zkoušet si jednotlivé funkce na svém počítači.

Pro lepší porozumění příkladům je vhodné se seznámit s daty – jejich strukturou dat, významem sloupců a hodnot v nich.

Data Hotel jsou uměle vygenerována pomocí modulu ReverseMiner, který je také součástí systému LISp-Miner.

Popis dat

Data obsahují údaje o pobytech a dále externě přidaná data o počasí a ekonomická data (vývoj směnného kurzu CZK/EUR).

Konceptuální schéma demonstračních dat Hotel vidíme na obrázku:

Do hotelu přijíždějí Hosté na Pobyt. Pobyt trvá od dne začátku pobytu daný počet nocí a host za něj zaplatí určitou částku danou ceníkem. Rozlišujeme dva typy pobytů – rekreační a služební. Kromě věku a pohlaví se o (hlavním) hostovi zaznamenává jeho trvalé Bydliště – město, stát a zeměpisné souřadnice města. Na konci pobytu vyplní host Dotazník, ve kterém uvede své celkové hodnocení a čtyři dílčí hodnocení (ubytování, strava, personál a možnosti kulturního a sportovního vyžití).

K analyzovaným datum byla na základě uvážení analytika připravena další, externí data – Meteo (počasí) a Směnárna (směnný kurz CZK/EUR). Oba typy externích dat obsahují záznamy podle dnů.

Rozsah a struktura

Pro účely výuky byla data o pobytech omezena na 2000 záznamů.

Základní data Hotel

  • Množství záznamů: 2000. Jeden záznam obsahuje údaje o jednom pobytu.
  • Časové období: dva roky (1. 1. 2012 až 31. 12. 2013)

Externí data o počasí

  • Množství záznamů: 731. Jeden záznam pro každý den.
  • Časové období: dva roky (1. 1. 2012 až 31. 12. 2013)
  • Zdroj: http://www.isws.illinois.edu/warm/data/cdfs/stcday.txt (údaje o průměrné venkovní teplotě), hodnota stavu oblohy vytvořena náhodně s vyšší pravděpodobností trendu

Externí data o vývoji směnného kurzu CZK/EUR

Fyzicky byla data vyexportována z databáze hotelu jako jeden textový soubor formátu CSV obsahující údaje o hostech, jejich bydlišti, pobytech a dotazníku v jedné tabulce. Při exportu nebyl zahrnut žádný primární klíč. Obě externí data jsou jako samostné tabulky. Výsledné relační schéma vidíme na obrázku:

Externí data se k základní tabulce Hotel připojují podle dne začátku pobytu (sloupec PPobytOd) a sloupce s datumem (MDatum v případě počasí a SDatum u směnných kurzů). Vztah mezi záznamy v základní tabulce a záznamy v obou externích tabulkách je N:1 (více pobytů mohlo začít v jeden den). Protože jsou v externích datech záznamy skutečně pro každý den sledovaného období, může být při spojování pomocí SQL příkazu SELECT použit tzv. inner join, resp. podmínka na shodu hodnot v příslušných sloupcích v klausuli WHERE.

Pobyty

Sloupce uvozeny písmenem ‘H’ (hotel), ‘P’ (pobyt) a ‘D’ (dotazník).

Skupina Sloupec Typ Popis
Host HVek Integer věk hlavního hosta
Host HPohlavi Text pohlaví hlavního hosta
Host/BydlištěHMestoTextměsto bydliště
Host/BydlištěHMesto_XDecimalzeměpisná délka, odvozena z města
Host/BydlištěHMesto_YDecimalzeměpisná šířka, odvozena z města
Host/BydlištěHStatTextstát bydliště
Pobyt/ZačátekPPobytOdDate den příjezdu
PobytPNociIntegerpočet nocí
PobytPOsobIntegerpočet osob (včetně hlavního hosta)
PobytPTypPobytuTexttyp pobytu
Pobyt/CenaPCenaUbytovaniDecimalcena za ubytování v Kč
Pobyt/CenaPCenaStravaDecimalcena za stravu v Kč
Pobyt/CenaPCenaSlevaDecimalsleva v Kč
Pobyt/CenaPCenaCelkemDecimalcelková cena v Kč
DotazníkDHodnoceniTextcelkové hodnocení pobytu
DotazníkDUbytovaniTextdílčí hodnocení ubytování
DotazníkDStravaTextdílčí hodnocení stravy
DotazníkDPersonalTextdílčí hodnocení personálu
DotazníkDZabavaTextdílčí hodnocení možností vyžití (kultura, sport…)

Počasí

Sloupce uvozeny písmenem ‘M’ (meteo).

Skupina Sloupec Typ Popis
Počasí MDatum Date datum
Počasí MObloha Text slunečno, zamračeno, srážky
Počasí MTeplota Decimal průměrná venkovní teplota vzduchu [°C]

Směnárna

Sloupce uvozeny písmenem ‘S’ (směnárna).

Skupina Sloupec Typ Popis
Směnárna SDatum Date datum
Směnárna SEUR Decimal směnný kurz CZK/EUR

Konkurence

Mapový soubor s geografickými souřadnicemi pozic navzájem si konkurujících hotelů.

Hotel X Y Poznámka
Alpha 13.8266006 48.8621342 náš hotel
Beta 11.1015116 51.3596439 konkurent
Delta 15.9422627 49.5797314 konkurent
Gamma 20.2252977 49.1395278 konkurent

Doménové znalosti

Jde o znalosti dopředu dané reáliemi z oblasti ubytování hostů.

Sezona je v období červen až srpen a prosinec až únor. Speciálním typem pobytu jsou turnusové pobyty, které začínají vždy v sobotu a trvají týden, dva nebo tři. Pro hoteliéry zajímaví hosté jsou ti, co zůstávají přes sobotní noc (alespoň jednu). U těch se očekává celkově vyšší útrata, a proto obvykle dostávají slevu z celkové ceny za pobyt.

Rekreační pobyty začínají obvykle v pátek (víkendové pobyty) nebo v sobotu (turnusové pobyty na sedm, čtrnáct nebo 21 nocí). Služební cesty začínají obvykle ve všední dny (pondělí až čtvrtek) a jsou obvykle pouze na jeden den. Kromě toho jsou dlouhodobé služební cesty na čtyři týdny (např. školení nebo dělníci na stavbě), které začínají vždy v pondělí a počet osob je 4.

Víme o významných konkurentech našeho hotelu, včetně jejich přesné polohy (viz výše).

Mezi doménové znalosti patří i rozdělení atributů do skupin (viz výše).

Stažení dat

Data byla připravena ve formátu CSV ve dvou variantách.

Dále je třeba stáhnout soubor s geografickými daty Hotel.Konkurence.kml.

Chceme-li si vyzkoušet práci se systémem LISp-Miner, můžeme stáhnout hotovou dvojici data+metabáze a použít funkci pro připojení existující dvojice data+metabáze.

Poznámka: Pro správný výpočet odvozených sloupců z geografických dat bude nutné v definici sloupců HNejblizsiHotelVzdalenost a HNejblizsiHotelNazev opravit cestu k souboru Hotel.Konkurence.kml s pozicemi hotelů.

lmdata/hotel2015.txt · Poslední úprava: 2017/02/04 16:07 (upraveno mimo DokuWiki)