Uživatelské nástroje

Nástroje pro tento web


lmprepro:attribute:categorymanual

Ruční editace kategorií

Kategorie zobrazené v seznamu na záložce detailu atributu můžeme dále upravovat. Mezi základní operace patří spojování a rozdělování kategorií, změna jejich pořadí a také ruční vytváření a mazání kategorií.

Provádět můžeme i hromadné změny (např. hromadné přejmenování nebo mazání kategorií). Při těchto operací je však třeba postupovat s rozmyslem. Vhodné je také si nejprve udělat klon atributu a hromadné změny dělat až v něm.

Základní parametry kategorie

Základním parametrem kategorie je její název, který se bude objevovat jak při zadávání úloh, tak zejména při zobrazování výsledků.

Dále je možné určit, že do této kategorie patří i záznamy s prázdnou hodnotou (NULL).

Kategorie definované výčtem hodnot

Kategorie definované výčtem hodnot se hodí pro nominální atributy.

Záznamy, které do kategorie patří, musí mít v daném sloupci jednu z hodnot uvedeném v pravém seznamu. Hodnoty do pravého seznamu vybíráme z levého seznamu, ve kterém jsou uvedeny všechny hodnoty vyskytující se v databázovém sloupci, nad kterým je vytvořen atribut, jehož kategorii právě definujeme.

Pomocí tlačítka New je možné přidat i hodnoty, které se momentálně v datech nevyskytují (ale mohou se objevit například po aktualizaci dat za další období).

Systém LISp-Miner automaticky kontroluje, že jedna hodnota nebyla přiřazena do více kategorií (platí vždy poslední přiřazení).

Kategorie definované intervalem

Kategorie definované interval se hodí pro ordinální a kardinální hodnoty, zejména spojité.

Pro kategorie definované intervalem je možné zadat libovolné množství intervalů (a to i nesousedících), vždy však alespoň jeden. Intervaly mohou být zleva i zprava otevřené nebo uzavřené. Jednou z mezí může být i nekonečno (angl. infinite). Záznam patří do dané kategorie, pokud hodnota v daném sloupci patří do některého z definovaných intervalů.

Opět se automaticky kontroluje, že se intervaly u různých kategorií navzájem nepřekrývají (jsou disjunktní). Vytvořením intervalu, který zasahuje do intervalu definovaného dříve pro jinou kategorii, se u dříve zadané kategorii automaticky posune mez, nebo dojde k rozdělení intervalu na dva.

Přidání jedné kategorie

Novou kategorii přidáme tlačítkem Add. Následně je nutné zvolit typ kategorie – buď definovaná výčtem hodnot (angl. Enumeration), nebo definovaná intervalem (angl. Interval). Bez ohledu na zvolený typ se dále objeví dialogové okno pro zadání základní paremtrů – zejména názvu kategorie.

Pro kategorie definované výčtem je v dalším kroku nutné vybrat z nabízeného seznamu všech hodnot vyskytujících se v databázovém sloupci ty, které mají patřit do právě definované kategorie. Pro kategorie definované intervalem je nutné zadat jeden (nebo více intervalů).

Praktická ukázka: Demo Hotel: Atribut Host/Věk
Praktická ukázka: Demo Hotel: Atribut Meteo/Teplota

Spojování a rozdělování kategorií

Kategorie v seznamu (ať již byly vytvořeny ručně, či automaticky) mohou být spojovány nebo naopak rozdělovány.

Pomocí tlačítka Join se spojí všechny právě označené kategorie v jednu. Tlačítkem Split se naopak právě označená kategorie rozdělí na více (pokud je tvořena více intervaly nebo výčtem hodnot). Zejména u slučování kategorií je třeba zkontrolovat automaticky vytvořený název sloučené kategorie. V případě, že je příliš dlouhý nebo méně srozumitelný, tak jej ručně opravit na výstižnější.

Praktická ukázka: Demo Hotel: Atribut Host/Věk
Praktická ukázka: Demo Hotel: Atribut Pobyt/Počet nocí
Praktická ukázka: Demo Hotel: Atribut Pobyt/Začátek/Pracovní den × Víkend
Praktická ukázka: Demo Hotel: Atribut Pobyt/Začátek/Sezóna

Změna pořadí kategorií

Právě označenou kategorii posuneme v seznamu o jedno místo výše tlačítkem Move up, nebo naopak níže tlačítkem Move down.

Správné pořadí kategorií je důležité zejména pro koeficienty typu sekvence a řez a také pro řazení výsledků. Dále je na spravném seřazení ordinálních hodnot závislá správné shlukování a vytváření binárních stromů. U binárních atributů je obvykle vhodné zadat nejprve kategorie ne (někdy též 0), a teprve potom kategorii ano (někdy též 1).

Praktická ukázka: Demo Hotel: Atribut Host/Bydliště/Cizinec
Praktická ukázka: Demo Hotel: Atribut Pobyt/Nocí

Vymazání kategorií

Označenou kategorii (nebo více kategorií najedou) lze vymazat pomocí tlačítka Del. Označit všechny kategorie najednou můžeme nastavením na první kategorii v seznamu a stiskutím kombinace kláves Shift+End.

Vymazat nelze kategorii, která je již součástí zadání některé úlohy. Před vymazáním kategorie doporučujeme zvážit možnost vytvoření klonu atributu a provedení požadované změny až v něm.

Praktická ukázka: Demo Hotel: Atribut Host/Bydliště/Město – hlavní města států
Praktická ukázka: Demo Hotel: Atribut Host/Bydliště/Stát – bez ČR

Hromadné přidání kategorií

Více (mnoho) kategorií najednou lze přidat pomocí položky menu Preprocessing/Batch add of categories.

Zobrazí se dialogové okno, do kterého zadáme hodnoty, pro které chceme přidat kategorie. Zadáváme vždy jednu hodnotu na řádek. Nově přidaných kategorií bude stejně jako vložených hodnot a jde o analogii automatického vytvoření kategorií s volbou Each value – one category.

Místo jediné hodnoty lze na řádku zadat i interval, např. <0;10). Povolené jsou ostré i kulaté závorky na obou mezích intervalu. Hodnota nekonečno se zadává jako -inf (pro mínus nekonečno) a +inf (pro plus nekonečno).

Pozor! Při zadávání názvů je třeba dát pozor na případné mezery na koncích řádků (např. při kopírování z nějakého textového seznamu). Mezera je platný znak a do kategorie potom nebudou vloženy záznamy, které v ní být mají.

Praktická ukázka: Demo Hotel: Atribut Host/Věk – expertní rozdělení
Praktická ukázka: Demo Hotel: Atribut Host/Bydliště/Město – hlavní města států
Praktická ukázka: Demo Hotel: Atribut Meteo/Teplota – expertní rozdělení

Hromadné přejmenování kategorií

Tlačítkem Batch rename vyvoláme dialogové okno se seznamem názvů kategorií (co řádek, to jedna kategorie). V editačním poli jsou předvyplněné aktuální názvy kategorií. Některé z nich můžeme opravit, nebo můžeme vložit seznam zcela nový. Je však třeba zachovat počet řádků odpovídající aktuálnímu počtu kategorií. Po potvrzení dojde k přejmenování všech kategorií.

Pozor! Při zadávání názvů je třeba dát pozor na případné mezery na koncích řádků (např. při kopírování z nějakého textového seznamu). Mezera je platný znak a do kategorie potom nebudou vloženy záznamy, které v ní být mají.

Praktická ukázka: Demo Hotel: Atribut Pobyt/Nocí
Praktická ukázka: Demo Hotel: Atribut Pobyt/Začátek/Víkend
Praktická ukázka: Demo Hotel: Atribut Dotazník/Dílčí hodnocení jako počet hvězdiček
Praktická ukázka: Demo Hotel: Interaktivní geografická analýza oblastí

Hromadné spojování kategorií

Pomocí položky menu Preprocessing/Batch join of categories hromadně spojíme v jednu všechny kategorie podle jejich četnost v datech. Můžeme tak spojit buď všechny kategorie, jejichž četnost je nižší než zadaná hodnota, nebo naopak kategorie, které mají četnost vyšší.

Hromadné vymazání kategorií

Kategorie je také možné hromadně odstraňovat podle dvou kritérií – názvu a četnosti.

Pomocí položky menu Preprocessing/Batch del of categories by frequency hromadně vymažeme všechny kategorie podle jejich četnost v datech. Můžeme tak smazat buď všechny kategorie, jejichž četnost je nižší než zadaná hodnota, nebo naopak příliš četné kategorie, které mají četnost vyšší a způsobují zahlcení výsledků nezajímavými hypotézami.

Praktická ukázka: Demo Hotel: Atribut Host/Bydliště/Stát – bez ČR

Pomocí položky menu Preprocessing/Batch del of categories by name hromadně vymažeme kategorie podle jejich názvu. Do dialogového okna zadáme názvy kategorií (jeden název na řádek). Následně se vymažou všechny kategorie, jejichž název je shodný se některým ze zadaných názvů.


Související témata:

Atribut a jeho kategorie
Automatické vytváření kategorií
Vytvoření atributu
Klonování atributu

Praktická ukázka: Demo Hotel: Vytvoření atributů a jejich kategorií

lmprepro/attribute/categorymanual.txt · Poslední úprava: 2015/09/20 12:26 (upraveno mimo DokuWiki)