Vhodné pojmenování výsledků fáze předzpracování

Ve fázi Předzpracování dat zejména vytváříme atributy a kategorie a atributy vkládáme pro přehlednost do skupin. Zároveň můžeme vytvářet nové databázové pohledy. Ve všech případech bychom měli volit co nejvýstižnější pojmenování, aby způsob předzpracování byl srozumitelný pro další osoby, ale i pro nás po uplynutí nějaké doby od provedení analýzy.

Pojmenování atributů

Systém LISp-Miner přednastaví při vytváření nového atributu jeho název podle názvu databázového sloupce, nad kterým je vytvářen. Pokud však vytváříme nad stejným sloupcem další atribut, není možné ponechat stejný název a oba atributy od sebe musíme v názvu nějak odlišit. Stejně tak musí mít rozdílný název atribut vzniklý klonováním.

Každý analytik (případně celý tým) by si měl zavést určité konvence, které mu vyhovují a které umožní výstižně atributy pojmenovat. Na základě vlastních zkušeností doporučujeme použití kombinace názvu sloupce, typy kategorizace a případného volitelného dalšího upřesnění, oddělené podtržítky takto:

<NázevSloupce>_<TypKategorizace>_<Upřesnění>

Příkladem může být složený název atributu Věk_ed10_SpojenéKraje pro atribut založený nad sloupcem HVek, s kategoriemi typu ekvidistantní intervaly délky 10 a se sloučenými krajními kategoriemi. Naopak PNoci_exp je atribut založený nad sloupcem PNoci s expertně vytvořenými kategoriemi a jejich prahovými hodnotami.

Následující tabulka shrnuje možné zkratky pro použitý způsob kategorizace:

Přípona	Příklad	Typ kategorizace
enum	HNarodnost_enum	enumerace (každá hodnota – jedna kategorie). Protože je tento způsob kategorizace velmi častý, můžeme tuto příponu vynechávat.
b	HSleva_b	binární atribut (pouze hodnoty ano a ne)
ef<n>	HVek_ef5	ekvifrekvenční intervaly o daném počtu n
ed<d>	HVek_ed10	ekvidistantní intervaly o dané délce d
edc<n>	HVek_edc5	ekvidistantní intervaly dané počtem n (délka bude dopočtena podle rozpětí hodnot v daném sloupci)
exp	PNoci_exp	ručně vytvořené kategorie (expertně, na základě doménových znalostí)
m	HVek_ed10_m	dodatečná ruční úprava automaticky vytvořených kategorií (např. spojení krajních málo-četných intervalů)
x	DPersonal_x	atribut s definovanou X-kategorií

Mezi základními parametry atributu je i možnost rozlišování dvou pojmenování pro atribut. Standardně se používá jeden název pro atribut, ale můžeme určit, že ve fázi interpretace (například při výpisu tvaru nalezených pravidel) bude použit název odlišný. Název pro fázi interpretaci může být shodný pro více atributů. V zadání úlohy tak můžeme rozlišovat mezi atributy HVek_ed10 a HVek_ed5, ale nalezená pravidla budou v obou případech používat název HVěk. Tak můžeme zabránit vypisování výše uvedených upřesnění při prohlížení výsledků, kde již nejsou tolik důležitá a mohla by třeba mást majitele dat nebo doménové experty.

Pojmenování kategorií

Podobně bychom měli volit vhodné pojmenování i pro kategorie.

Automaticky vytvořeným kategoriím jsou přiřazeny názvy podle hodnot, které do nich patří. V případě editace mezí intervalů a při slučování a rozdělování kategorií se systém snaží upravit i název nově vzniklé kategorie. Přesto je v některých případech (zejména při slučování kategorií typu enumerace) vhodné automaticky vytvořený název, např. Join: 1, 2, 3, 4, 5, 6 upravit na výstižnější – třeba nízké hodnoty.

Názvy kategorií je možné nastavit hromadně.

Související témata:

Atribut a jeho kategorie
Strom skupin a do nich patřících atributů