Uživatelské nástroje

Nástroje pro tento web


lmdemo:hotel2015:task:ft

03 Typické pobyty podle bydliště hosta

Příklad úlohy pro analytickou proceduru a modul 4ft-Miner.

Formulace analytické otázky

Položíme si následující analytickou otázku:

  • 03: „Vyplývají z místa bydliště hosta nějaké typické parametry pobytu, případně i počasí? A to obecně i zvlášť pro rekreační a služební pobyty?

Vztah „vyplývá“ zadáme jako 4ft-kvantifikátor Fundovaná implikace s parametrem p= 0,9 a BASE= 80. Zajímat nás bude platnost vztahu za všechny pobyty i zvlášť za rekreační a služební“.

Formálně můžeme otázku zapsat takto:

  • Hotel? 4ft: Bydlištěp=0.9, BASE=80 Pobyt, Meteo / PTypPobytu

kde Hotel jsou analyzovaná data, 4ft určuje použitou GUHA-proceduru, Bydliště je skupina atributů popisující zemi a město původu hosta, je značka pro 4ft-kvantifikátor Fundovaná implikace s parametry p a BASE, Pobyt je skupina atributů charakterizující pobyt (včetně podskupiny Pobyt/Začátek) a Meteo je skupina s atributy popisujícími počasí. V podmínce asociačního pravidla může být atribut PTypPobytu.

Vhodné předzpracování dat

Ze skupiny Host/Bydliště použijeme atributy HStat a HMesto, které obsahují výčet kategorií odpovídající všem státům a městům a dále pro zajímavost i binární atribut Cizinec_b.

Ze skupiny Pobyt použijeme atributy PNoci_enum_m (upravený výčet různých počtu nocí) a PNoci_exp s expertním rozdělením délek pobytů připravené ve fázi Předzpracování dat. A dále atribut PDenTydne s kategoriemi podle dnů v týdnu. Atribut PTypPobytu s kategoriemi rekreační a služební bude použit jako nepovinný v podmínce.

Ze skupiny Meteo pro zjednodušení opět použijeme pouze atribut MObloha s výčtem možných stavů oblohy.

Předběžná interaktivní analýza

Abychom měli lepší představu o rozložení kategorií použitých atributů na celých datech, provedeme rychlou interaktivní frekvenční analýzu. Tím budeme schopni i lépe posoudit, které z později získaných výsledků analytické procedury jsou zajímavé.

Na atribut PDenTydne jsme se dívali již při řešení první analytické otázky, takže si jen pro zopakování uvedeme:

Z grafu je patrná výrazná převaha pobytů začínajících v pátek, s (turnusovými) pobyty začínajícími v sobotu v těsném závěsu. Zajímavé by tedy bylo zjistit něco víc o pobytech začínajících v pátek, nebo naopak podmnožinu pobytů, ve které převažuje jiný počáteční den.

Podobně bychom měli projít i rozložení četností pro ostatní atributy.

Následně můžeme zkusit jednoduché varianty asociačních pravidel odpovídají položené analytické otázce v kontingenční analýze dvou atributů. Cílem je opět se lépe seznámit s daty a dokázat lépe posoudit, které následně automaticky získané výsledky jsou opravdu zajímavé.

Výhodou je, že analytická procedura 4ft-Miner za nás bude automaticky a systematicky procházet všechny možné kombinace atributů a jejich kategorií v antecedentu, sukcedentu i v podmínce a testovat, pro takto vytvořené (podmíněné) asociační pravidlo platí požadovaný implikační vztah.

Vytvoření skupiny úloh

Před zadáváním úlohy opět nejprve vytvoříme novou skupinu úloh, kterou pojmenujeme podle analytické otázky, na kterou bude úloha hledat odpověď – v tomto případě 03: Typické pobyty podle bydliště hosta.

Číselný prefix 03 v názvu odkazuje na číslo analytické úlohy a zároveň zajistí řazení skupin v seznamu podle analytických otázek.

Zadání úlohy

Nyní již přidáme novou úlohu pro analytickou proceduru 4ft-Miner a nazveme ji 03: Bydliště => Pobyt, Meteo / PTypPobytu, aby z jejího názvu bylo jednak opět patrné, že odpovídá na první analytickou otázku, ale i to, jaké jsou použity skupiny atributů v antecedentu a sukcedentu a použitý atribut v podmínce.

V základních parametrech úlohy po zadání názvu ještě změníme příslušnost úlohy do skupiny, kterou jsme přidali před chvílí.

Ukázku úplného zadání úlohy (po provedení všech kroků uvedených níže) vidíme na obrázku.

Zadání antecedentu

Levá strana (předpoklad, antecedent) generovaných pravidel má obsahovat údaj o bydlišti hosta.

Protože jsme už dílčí cedent pro skupinu Host/Bydliště zadávali při řešení první analytické otázky v úloze pro CF-Miner, nemusíme jej zadávat celý znovu. V dialogovém okně pro zadání cedentů použijeme tlačítko Import a celé zadání dílčího cedentu zkopírujeme do právě vytvářeného zadání antecedentu.

Po importu je třeba pouze upravit minimální požadovanou délku dílčího cedentu na 1, aby vždy na levé straně asociačního pravidla nějaký atribut byl. Maximální délku ponecháme na zadané hodnotě 1, protože hodnoty atributů jsou navzájem závislé a nemá cenu jich vkládat více najednou.

Zadání 4ft-kvantifikátorů

Účelem 4ft-kvantifikátorů je popsat, jaký vztah mezi antecedentem a sukcedent považujeme vzhledem k formulované analytické otázce za zajímavý.

V tomto případě hledáme implikační vztah s platností alespoň 90 % a BASE (podporou) alespoň 80 záznamů. Zadávám se pomocí dvou 4ft-kvantifikátorů p-Implikace a BASE. Protože jde o základní typ zadání pro asociační pravidla, jsou oba vloženy do zadání úlohy při jejím vytvoření.

Opravit je třeba pouze zadaný práh pro BASE na 80. Dvojitý kliknutím na kvantifikátor v seznamu QUANTIFIERS vyvoláme dialogové okno a hodnotu opravíme.

Zadání sukcedentu

Na pravé straně (závěru, sukcedentu) asociačního pravidla mohou být atributy ze skupin Pobyt a Meteo.

Při zadávání dílčího cedentu pro skupinu Pobyt bude nejrychlejší atributy vybrat ručně. Všimněme si zadaného typy koeficientu sequence pro atribut PNoci_enum_m v délce 1 až 2.

Zároveň si všimněme změny minimální i maximální délky dílčího cedentu na hodnotu 2 – požadujeme, aby z tohoto dílčího cedentu byly v sukcedentu vždy právě dva atributy. To vyhovuje kombinaci počet nocí + den týdne, nedává však smysl pro kombinaci obou atributů založených nad sloupcem PNoci. Aby se negenerovaly sukcedenty s oběma atributy zároveň, vytvoříme třídu ekvivalence s názvem PNoci, do které oba atributy vložíme.

Alternativně bychom mohli vytčenost literálu PDenTydne nastavit jako basic, a u zbylých dvou pak jako remaining.

Zadání dílčího cedentu pro skupinu Meteo můžeme opět naimportovat ze zadání úlohy řešící první analytickou otázku.

Zadání podmínky

Zadáme ještě i volitelnou podmínku pro definici podmnožiny dat, nad kterou se má asociační pravidlo ověřovat. Obsahovat bude pouze atribut PTypPobytu. Všimněme si také zadané minimální délky jak celé podmínky, tak i dílčího cedentu. Hodnota 0 zaručuje, že se nejprve budou generovat obyčejná asociační pravidla (bez podmínky), a teprve potom podmíněná asociační pravidla.

Výpočet úlohy

Před spuštěním výpočtu ověříme tlačítkem Validate, že jsme neopomněli žádnou nezbytnou část zadání. Potom spustíme výpočet tlačítkem Run.

Zobrazení výsledků

Po skončení výpočtu se zobrazí záložka Task Results. Bohužel opět zjistíme, že seznam je prázdný. V datech totiž nebyla nalezeno žádné asociační pravidlo vyhovující zadání.

Už víme, že jde o běžný jev při analýze dat. Vrátíme se do zadání úlohy a ze dvou možností (zmírnit kritéria kvantifikátorů/ zvýšit počet generovaných asociačních pravidel) opět vybereme tu první. Opět můžeme vyvolat tlačítkem Validate nápovědu pro vhodné nastavení prahu.

Pro hladší pokračování výkladu se však rozhodneme rovnou snížit požadovaný práh p-Implikace na hodnotu 0,7. To je sice už trochu nižší hodnota, ale v tomto případě stále relativně silný implikační vztah.

Před tím můžeme ještě zkontrolovat správnost zadání úlohy:

MBCV: Demo Hotel 04 DM Tasks 03 4ft-Miner (Hotel.MBVC.zip)

Oprava zadání úlohy

Na záložce s detailem zadání úlohy vytvoříme klon úlohy. Nové úloze ponecháme přednastavený název 03: Bydliště => Pobyt, Meteo / PTypPobytu (01). Do poznámky můžeme uvést, že v této úloze snížíme práh kvantifikátoru p-Implikace na 0,7.

Následně práh p-Implikace nezapomeneme opravdu změnit a spustíme výpočet úlohy.

Interpretace výsledků

Po skončení výpočtu se už tentokrát na záložce Task Results nějaké výsledky zobrazí.

Vidíme celkem čtyři nalezená zajímavá asociačních pravidel. Všechna se týkají rekreačních pobytů a města, ze kterého host pochází a konkrétně dvou měst – Lince a Českých Budějovic. A dále se všechna týkají pobytů na jednu nebo dvě noci. Hostě z těchto dvou měst to mají do hotelu blízko a většinou jezdí v pátek na krátké, víkendové pobyty. Ve většině případů navíc tehdy, když je slunečné počasí.

Podobné výsledky, trochu jinak podané, jsme už získali jako odpověď na první analytickou otázku. Je to logické – data jsou stále stejná, výsledky různých analytických procedur by si neměly odporovat. Nyní však navíc víme, že jde opravdu o krátké víkendové pobyty (na jednu nebo dvě noci).

Všimněme si také, že ve výsledcích se nezobrazují sufixy použité pro vyjádření způsobu předzpracování atributů, které by mohly majitele dat mást. Toho jsme docílili zadáním alternativního názvu atributu.

MBCV: Demo Hotel 04 DM Tasks 03 4ft-Miner (01) (Hotel.MBVC.zip)

Další úprava zadání

Protože nejde o zásadně nová zjištění, pokusíme se zadání úlohy dále upravit. Zatím jsme nenašli žádný vztah pro zemi původu hosta. Uděláme další klon úlohy a opět ponecháme přednastavený název 03: Bydliště => Pobyt, Meteo / PTypPobytu (02). Do poznámky můžeme uvést, že v této úloze použijeme 4ft-kvantifikátoru nadprůměrného souvisení (Above average dependence).

Jde o typický postup při řešení úloh pomocí procedury 4ft-Miner. p-Implikace je velmi silný vztah a v reálných datech se málokdy setkáme s jevy, které by platily na 99 %, 90 % nebo 80 %. A pokud v datech bude něco platit na 100 %, tak to s největší pravděpodobností nebude zajímavé (půjde o banalitu), nebo absolutní počet případů bude statisticky nevýznamný. Kdybychom zkoušeli snižovat práh p, tak by sice už nějaké implikace v datech platit mohly, ale naopak jich bude takové množství, že opravdu zajímavé vztahy se ve výsledcích ztratí.

Proto se hodí vyzkoušet kvantifikátor nadprůměrného souvisení (Above average dependence). Ten hledá takové podskupiny záznamů (definované antecedentem), pro které nějaký jev (definovaný sukcedentem) platí o 100p procent častěji, než je průměr v celých datech.

Ve vyklonované úloze proto klikneme na kvantifikátor p-Implikace v seznamu QUANTIFIERS a v dialogovém okně změníme míru zajímosti na Above average dependence. Zároveň změníme práh na hodnotu 0,5 (chceme minimálně o 50 % častější výskyt).

Protože už nechceme dále analyzovat hosty podle města bydliště, tak ještě z antecedentu odstraníme literál pro atribut HMesto. Novou podobu zadání úlohy vidíme na obrázku.

Interpretace dalších výsledků

Po skončení výpočtu úlohy a zobrazení výsledků na záložce Task Results vidíme nové vztahy.

Většina se jich opět týká víkendových pobytů hostů z Rakouska. To je způsobeno tím, že mezi hosty z Rakouska převažují hosté z Lince, o kterých už toto víme. Zcela nový je však hned první vztah týkající se hostů z Německa, kteří nadprůměrně jezdí na turnusové pobyty (začínající v sobotu a trvající 7, 14 nebo 21 nocí).

Zatímco turnusových pobytů je v celých datech 390 (136+254), tedy cca 19,5 % z 2000 pobytů, tak v případě hostů z Německa je turnusových pobytů 136, tedy cca 38 % z 356 (136+220) pobytů. A to je téměř o 100 % více (nebo-li skoro 2× tolik).

Poznámka: Pozorný čtenář si mohl všimnout, že v seznamu hypotéz na obrázku výše se zdají být některé hypotézy duplicitně – jde o řádky 2 a 4 a řádky 7 a 9. To je způsobeno tím, že v zadání sukcedentu jsou dva atributy PNoci_enum_m a PNoci_exp založené nad jedním sloupcem PNoci a s rozdílným způsobem vytvořenými kategoriemi. Oba však mají kategorii pro pobyt na dvě noci a zároveň mají zadaný shodný alternativní název PNoci pro zobrazování ve výsledcích. Z logiky věci vyplývá, že pro pobyty o délce dvě noci musí vztah platit pro oba atributy. Nejde tedy o duplicitní vložení stejné hypotézy, ale o dvě různá asociační pravidla s odlišným literálem v sukcedentu.

MBCV: Demo Hotel 04 DM Tasks 03 4ft-Miner (02) (Hotel.MBVC.zip)

Shrnutí výsledků

Odpověď na třetí analytickou otázku tedy zní:

Velmi silné implikace s platností nad 90 % se v datech nepodařilo nalézt. Přesto platí poměrně silné implikace (s platností kolem 80 %, respektive 70 %) pro hosty z Lince respektive Českých Budějovic. Ti mají k hotelu blízko a platí, že většinou přijíždějí v pátek na víkendové pobyty, zejména při hezkém, slunečném počasí. Pro hosty z Německa platí, že na turnusové pobyty jezdí dvakrát častěji, než je průměr.

Turnusové pobyty jsou delší, a proto lukrativní. Doporučení pro hoteliéra by se tedy mohlo týkat buď větší zohlednění zájmů hostů z Německa o turnusové pobyty, nebo naopak přesvědčení i hostů z dalších států, aby na turnusové pobyty jezdili.

Záznam postupu řešení a výběr nejvýznamnějšího výsledku

Ve vytvořené skupině 03 Typické pobyty podle bydliště hosta pro zodpovězení třetí analytické otázky máme zaznamenám postup řešení v podobě tří úloh.

Za nejzajímavější výsledek budeme považovat vztah týkající se turnusových pobytů hostů z Německa. Ten tedy pomocí tlačítka Copy vložíme do skupiny hypotéz Final results (tu opět musíme vytvořit).

Na záložce se souhrnnými výsledky zkontrolujeme, že po stisku tlačítka Final results vidíme nyní tři nejzajímavější vztahy.

Ověření obsahu metabáze

Správnost provedených kroků zkontrolujeme pomocí tlačítka Ctrl+F9 a výběrem správné položky ze seznamu šablon pro ověření obsahu metabáze:

MBCV: Demo Hotel 04 DM Tasks 03 4ft-Miner (Hotel.MBVC.zip)
MBCV: Demo Hotel 04 DM Tasks 03 4ft-Miner (01) (Hotel.MBVC.zip)
MBCV: Demo Hotel 04 DM Tasks 03 4ft-Miner (02) (Hotel.MBVC.zip)


Související témata:

4ft-Miner
Demo Hotel: Úvodní přehledový postup analýzy

lmdemo/hotel2015/task/ft.txt · Poslední úprava: 2017/11/02 19:43 (upraveno mimo DokuWiki)