Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Pro popis jednotlivých funkcí systému LISp-Miner byla vytvořena data o pobytech ve fiktivním hotelu. Data jsou používána při výkladu na těchto stránkách. Zároveň lze data stáhnout a zkoušet si jednotlivé funkce na svém počítači.
Pro lepší porozumění příkladům je vhodné se seznámit s daty – jejich strukturou dat, významem sloupců a hodnot v nich.
Data Hotel jsou uměle vygenerována pomocí modulu ReverseMiner, který je také součástí systému LISp-Miner.
Data obsahují údaje o pobytech a dále externě přidaná data o počasí a ekonomická data (vývoj směnného kurzu CZK/EUR).
Konceptuální schéma demonstračních dat Hotel vidíme na obrázku:
Do hotelu přijíždějí Hosté na Pobyt. Pobyt trvá od dne začátku pobytu daný počet nocí a host za něj zaplatí určitou částku danou ceníkem. Rozlišujeme dva typy pobytů – rekreační a služební. Kromě věku a pohlaví se o (hlavním) hostovi zaznamenává jeho trvalé Bydliště – město, stát a zeměpisné souřadnice města. Na konci pobytu vyplní host Dotazník, ve kterém uvede své celkové hodnocení a čtyři dílčí hodnocení (ubytování, strava, personál a možnosti kulturního a sportovního vyžití).
K analyzovaným datum byla na základě uvážení analytika připravena další, externí data – Meteo (počasí) a Směnárna (směnný kurz CZK/EUR). Oba typy externích dat obsahují záznamy podle dnů.
Pro účely výuky byla data o pobytech omezena na 2000 záznamů.
Základní data Hotel
Externí data o počasí
Externí data o vývoji směnného kurzu CZK/EUR
Fyzicky byla data vyexportována z databáze hotelu jako jeden textový soubor formátu CSV obsahující údaje o hostech, jejich bydlišti, pobytech a dotazníku v jedné tabulce. Při exportu nebyl zahrnut žádný primární klíč. Obě externí data jsou jako samostné tabulky. Výsledné relační schéma vidíme na obrázku:
Externí data se k základní tabulce Hotel připojují podle dne začátku pobytu (sloupec PPobytOd) a sloupce s datumem (MDatum v případě počasí a SDatum u směnných kurzů). Vztah mezi záznamy v základní tabulce a záznamy v obou externích tabulkách je N:1 (více pobytů mohlo začít v jeden den). Protože jsou v externích datech záznamy skutečně pro každý den sledovaného období, může být při spojování pomocí SQL příkazu SELECT
použit tzv. inner join, resp. podmínka na shodu hodnot v příslušných sloupcích v klausuli WHERE
.
Sloupce uvozeny písmenem ‘H’ (hotel), ‘P’ (pobyt) a ‘D’ (dotazník).
Skupina | Sloupec | Typ | Popis |
---|---|---|---|
Host | HVek | Integer | věk hlavního hosta |
Host | HPohlavi | Text | pohlaví hlavního hosta |
Host/Bydliště | HMesto | Text | město bydliště |
Host/Bydliště | HMesto_X | Decimal | zeměpisná délka, odvozena z města |
Host/Bydliště | HMesto_Y | Decimal | zeměpisná šířka, odvozena z města |
Host/Bydliště | HStat | Text | stát bydliště |
Pobyt/Začátek | PPobytOd | Date | den příjezdu |
Pobyt | PNoci | Integer | počet nocí |
Pobyt | POsob | Integer | počet osob (včetně hlavního hosta) |
Pobyt | PTypPobytu | Text | typ pobytu |
Pobyt/Cena | PCenaUbytovani | Decimal | cena za ubytování v Kč |
Pobyt/Cena | PCenaStrava | Decimal | cena za stravu v Kč |
Pobyt/Cena | PCenaSleva | Decimal | sleva v Kč |
Pobyt/Cena | PCenaCelkem | Decimal | celková cena v Kč |
Dotazník | DHodnoceni | Text | celkové hodnocení pobytu |
Dotazník | DUbytovani | Text | dílčí hodnocení ubytování |
Dotazník | DStrava | Text | dílčí hodnocení stravy |
Dotazník | DPersonal | Text | dílčí hodnocení personálu |
Dotazník | DZabava | Text | dílčí hodnocení možností vyžití (kultura, sport…) |
Sloupce uvozeny písmenem ‘M’ (meteo).
Skupina | Sloupec | Typ | Popis |
---|---|---|---|
Počasí | MDatum | Date | datum |
Počasí | MObloha | Text | slunečno, zamračeno, srážky |
Počasí | MTeplota | Decimal | průměrná venkovní teplota vzduchu [°C] |
Sloupce uvozeny písmenem ‘S’ (směnárna).
Skupina | Sloupec | Typ | Popis |
---|---|---|---|
Směnárna | SDatum | Date | datum |
Směnárna | SEUR | Decimal | směnný kurz CZK/EUR |
Mapový soubor s geografickými souřadnicemi pozic navzájem si konkurujících hotelů.
Hotel | X | Y | Poznámka |
---|---|---|---|
Alpha | 13.8266006 | 48.8621342 | náš hotel |
Beta | 11.1015116 | 51.3596439 | konkurent |
Delta | 15.9422627 | 49.5797314 | konkurent |
Gamma | 20.2252977 | 49.1395278 | konkurent |
Jde o znalosti dopředu dané reáliemi z oblasti ubytování hostů.
Sezona je v období červen až srpen a prosinec až únor. Speciálním typem pobytu jsou turnusové pobyty, které začínají vždy v sobotu a trvají týden, dva nebo tři. Pro hoteliéry zajímaví hosté jsou ti, co zůstávají přes sobotní noc (alespoň jednu). U těch se očekává celkově vyšší útrata, a proto obvykle dostávají slevu z celkové ceny za pobyt.
Rekreační pobyty začínají obvykle v pátek (víkendové pobyty) nebo v sobotu (turnusové pobyty na sedm, čtrnáct nebo 21 nocí). Služební cesty začínají obvykle ve všední dny (pondělí až čtvrtek) a jsou obvykle pouze na jeden den. Kromě toho jsou dlouhodobé služební cesty na čtyři týdny (např. školení nebo dělníci na stavbě), které začínají vždy v pondělí a počet osob je 4.
Víme o významných konkurentech našeho hotelu, včetně jejich přesné polohy (viz výše).
Mezi doménové znalosti patří i rozdělení atributů do skupin (viz výše).
Data byla připravena ve formátu CSV ve dvou variantách.
Dále je třeba stáhnout soubor s geografickými daty Hotel.Konkurence.kml.
Chceme-li si vyzkoušet práci se systémem LISp-Miner, můžeme stáhnout hotovou dvojici data+metabáze a použít funkci pro připojení existující dvojice data+metabáze.
Poznámka: Pro správný výpočet odvozených sloupců z geografických dat bude nutné v definici sloupců HNejblizsiHotelVzdalenost a HNejblizsiHotelNazev opravit cestu k souboru Hotel.Konkurence.kml s pozicemi hotelů.