Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Pro výuku dobývání znalostí z databází a také pro testování nově vyvinutých SW nástrojů je třeba množství datových sad, které jsou zároveň vhodné pro analýzu tou či jinou technikou.
Kvůli celé řadě problémů s reálnými daty mohou být řešením realisticky vypadající data umělá. Příprava umělých dat je obvykle pracná činnost, která však díky svým specifikům – na přípravu dat je dostatek času (například o prázdninách); nejde o životně kritická data (takže se spokojíme třeba i se suboptimálním řešením) – umožňuje nasazení evolučních algoritmů.
Zde popisovaný postup byl poprvé publikován jako článek v časopisu Systémová integrace:
Přípravu umělých dat chápeme jako reverzní proces ke klasickému DZD (při kterém máme data a chceme nalézt skryté vztahy).
Místo toho nejprve definujeme požadované vztahy, jejich typ i sílu, a potom se snažíme vygenerovat data, kde jsou přesně takové vztahy „skryty“. Při generování dat využíváme evoluční algoritmus a systém LISp-Miner. Evoluce je řízena množstvím a sílou požadovaných vztahů už přítomných v datech. Vygenerovaná data mohou být následně analyzována běžnými postupy a v jakémkoliv nástroji pro DZD.
Hlavní výhodou takto vytvořených dat je parametrické nastavení závislostí/vztahů, které se v nich mají vyskytovat, a tím i snadná kontrola provedených studentských analýz a jejich výsledků. Zároveň mohou být umělá data použita pro testování automatizace procesu DZD v projektu EverMiner.
Více viz: Generování umělých dat
Více viz: Evoluční operace
ReverseMiner je modul pro generování realisticky vypadajících umělých dat, ve kterých jsou „skryty“ zajímavé vztahy odpovídající různým typům vztahů používaných v nástrojích pro DZD, zejména syntakticky bohaté vztahy různých typů, které jsou jednotlivé GUHA-procedury systému LISp-Miner schopné následně v datech hledat.
Více viz: Instalace ReverseMineru
Více viz: Popis uživatelského rozhraní
Ukázka generování dat Hotel popisuje celý postup vytvoření umělých dat o pobytech hostů ve fiktivním hotelu, která jsou následně používána jako Data Hotel ve výkladu na těchto stránkách.
Praktická ukázka: Vytvoření umělých dat Hotel
Výklad generování umělých dat na kurzu 4iz460 používá jednoduchá data Loans o půjčkách.
K dispozici je stažení dvojice data+metabáze RMLoans.zip s celým postupem generování a randomizace dat.
Soubor je třeba rozbalit do podsložky ReverseMiner
, která se automaticky vytvoří v základní složce systému LISp-Miner po nainstalování modulu ReverseMiner (zaškrnutím příslušné volby v modulu LM Updater).
Generování umělých dat pomocí evolučního algoritmu je z podstaty založeno na náhodě a dopředu se obvykle obtížně odhaduje doba, kterou bude nalezení vhodné podoby dat trvat. Při nevhodném zadání parametrů může být tato doba značná (týdny, roky…), některé kombinace parametrů mohou zapříčinit, že evoluce neskončí nikdy.
Při zadávání parametrů pro generování je třeba důkladně přemýšlet. Zároveň postupně vzniká seznam tipů a doporučení.