Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Ve fázi Předzpracování dat zejména vytváříme atributy a kategorie a atributy vkládáme pro přehlednost do skupin. Zároveň můžeme vytvářet nové databázové pohledy. Ve všech případech bychom měli volit co nejvýstižnější pojmenování, aby způsob předzpracování byl srozumitelný pro další osoby, ale i pro nás po uplynutí nějaké doby od provedení analýzy.
Systém LISp-Miner přednastaví při vytváření nového atributu jeho název podle názvu databázového sloupce, nad kterým je vytvářen. Pokud však vytváříme nad stejným sloupcem další atribut, není možné ponechat stejný název a oba atributy od sebe musíme v názvu nějak odlišit. Stejně tak musí mít rozdílný název atribut vzniklý klonováním.
Každý analytik (případně celý tým) by si měl zavést určité konvence, které mu vyhovují a které umožní výstižně atributy pojmenovat. Na základě vlastních zkušeností doporučujeme použití kombinace názvu sloupce, typy kategorizace a případného volitelného dalšího upřesnění, oddělené podtržítky takto:
<NázevSloupce>_<TypKategorizace>_<Upřesnění>
Příkladem může být složený název atributu Věk_ed10_SpojenéKraje pro atribut založený nad sloupcem HVek, s kategoriemi typu ekvidistantní intervaly délky 10 a se sloučenými krajními kategoriemi. Naopak PNoci_exp je atribut založený nad sloupcem PNoci s expertně vytvořenými kategoriemi a jejich prahovými hodnotami.
Následující tabulka shrnuje možné zkratky pro použitý způsob kategorizace:
Přípona | Příklad | Typ kategorizace |
---|---|---|
enum | HNarodnost_enum | enumerace (každá hodnota – jedna kategorie). Protože je tento způsob kategorizace velmi častý, můžeme tuto příponu vynechávat. |
b | HSleva_b | binární atribut (pouze hodnoty ano a ne) |
ef<n> | HVek_ef5 | ekvifrekvenční intervaly o daném počtu n |
ed<d> | HVek_ed10 | ekvidistantní intervaly o dané délce d |
edc<n> | HVek_edc5 | ekvidistantní intervaly dané počtem n (délka bude dopočtena podle rozpětí hodnot v daném sloupci) |
exp | PNoci_exp | ručně vytvořené kategorie (expertně, na základě doménových znalostí) |
m | HVek_ed10_m | dodatečná ruční úprava automaticky vytvořených kategorií (např. spojení krajních málo-četných intervalů) |
x | DPersonal_x | atribut s definovanou X-kategorií |
Mezi základními parametry atributu je i možnost rozlišování dvou pojmenování pro atribut. Standardně se používá jeden název pro atribut, ale můžeme určit, že ve fázi interpretace (například při výpisu tvaru nalezených pravidel) bude použit název odlišný. Název pro fázi interpretaci může být shodný pro více atributů. V zadání úlohy tak můžeme rozlišovat mezi atributy HVek_ed10 a HVek_ed5, ale nalezená pravidla budou v obou případech používat název HVěk. Tak můžeme zabránit vypisování výše uvedených upřesnění při prohlížení výsledků, kde již nejsou tolik důležitá a mohla by třeba mást majitele dat nebo doménové experty.
Podobně bychom měli volit vhodné pojmenování i pro kategorie.
Automaticky vytvořeným kategoriím jsou přiřazeny názvy podle hodnot, které do nich patří. V případě editace mezí intervalů a při slučování a rozdělování kategorií se systém snaží upravit i název nově vzniklé kategorie. Přesto je v některých případech (zejména při slučování kategorií typu enumerace) vhodné automaticky vytvořený název, např. Join: 1, 2, 3, 4, 5, 6 upravit na výstižnější – třeba nízké hodnoty.
Názvy kategorií je možné nastavit hromadně.
Související témata:
Atribut a jeho kategorie
Strom skupin a do nich patřících atributů
Praktická ukázka: Demo Hotel: Vytvoření atributů a jejich kategorií