Uživatelské nástroje

Nástroje pro tento web


mrm:start

Generování umělých dat

Pro výuku dobývání znalostí z databází a také pro testování nově vyvinutých SW nástrojů je třeba množství datových sad, které jsou zároveň vhodné pro analýzu tou či jinou technikou.

Kvůli celé řadě problémů s reálnými daty mohou být řešením realisticky vypadající data umělá. Příprava umělých dat je obvykle pracná činnost, která však díky svým specifikům – na přípravu dat je dostatek času (například o prázdninách); nejde o životně kritická data (takže se spokojíme třeba i se suboptimálním řešením) – umožňuje nasazení evolučních algoritmů.

Zde popisovaný postup byl poprvé publikován jako článek v časopisu Systémová integrace:

Základní myšlenka

Přípravu umělých dat chápeme jako reverzní proces ke klasickému DZD (při kterém máme data a chceme nalézt skryté vztahy).

Místo toho nejprve definujeme požadované vztahy, jejich typ i sílu, a potom se snažíme vygenerovat data, kde jsou přesně takové vztahy „skryty“. Při generování dat využíváme evoluční algoritmus a systém LISp-Miner. Evoluce je řízena množstvím a sílou požadovaných vztahů už přítomných v datech. Vygenerovaná data mohou být následně analyzována běžnými postupy a v jakémkoliv nástroji pro DZD.

Hlavní výhodou takto vytvořených dat je parametrické nastavení závislostí/vztahů, které se v nich mají vyskytovat, a tím i snadná kontrola provedených studentských analýz a jejich výsledků. Zároveň mohou být umělá data použita pro testování automatizace procesu DZD v projektu EverMiner.

Více viz: Generování umělých dat
Více viz: Evoluční operace

Modul ReverseMiner

ReverseMiner je modul pro generování realisticky vypadajících umělých dat, ve kterých jsou „skryty“ zajímavé vztahy odpovídající různým typům vztahů používaných v nástrojích pro DZD, zejména syntakticky bohaté vztahy různých typů, které jsou jednotlivé GUHA-procedury systému LISp-Miner schopné následně v datech hledat.

Více viz: Instalace ReverseMineru
Více viz: Popis uživatelského rozhraní

Ukázkový postup vytvoření umělých dat

Ukázka generování dat Hotel popisuje celý postup vytvoření umělých dat o pobytech hostů ve fiktivním hotelu, která jsou následně používána jako Data Hotel ve výkladu na těchto stránkách.

Praktická ukázka: Vytvoření umělých dat Hotel

Výuková data

Výklad generování umělých dat na kurzu 4iz460 používá jednoduchá data Loans o půjčkách.

K dispozici je stažení dvojice data+metabáze RMLoans.zip s celým postupem generování a randomizace dat.

Soubor je třeba rozbalit do podsložky ReverseMiner, která se automaticky vytvoří v základní složce systému LISp-Miner po nainstalování modulu ReverseMiner (zaškrnutím příslušné volby v modulu LM Updater).

Tipy a doporučení

Generování umělých dat pomocí evolučního algoritmu je z podstaty založeno na náhodě a dopředu se obvykle obtížně odhaduje doba, kterou bude nalezení vhodné podoby dat trvat. Při nevhodném zadání parametrů může být tato doba značná (týdny, roky…), některé kombinace parametrů mohou zapříčinit, že evoluce neskončí nikdy.

Při zadávání parametrů pro generování je třeba důkladně přemýšlet. Zároveň postupně vzniká seznam tipů a doporučení.

Ukázky studentských prací

Závěrečné práce

Semestrální práce

mrm/start.txt · Poslední úprava: 2020/09/25 18:15 autor: msi