Uživatelské nástroje

Nástroje pro tento web


lmprepro:attribute:dichotomize

Dichotomizace atributu

Dichotomizace je speciálním případem převodu nominální veličiny na ordinální, v tomto případě konkrétně na binární.

Z libovolného vícekategoriálního atributu můžeme vytvořit několik dichotomických atributů, podle počtu kategorií v původním atributu. Každý nově vytvořený dichotomický atribut bude mít právě dvě kategorie – buď typu rovno x × nerovno x, nebo typu menší než x × větší než x, kde za x postupně dosazujeme všechny kategorie původního vícekategoriálního atributu.

Rovná se × Nerovná se

Při prvním typu dichotomizace vznikne přesně tolik nových atributů, kolik má původní atribut kategorií.

Větší než × Menší než

Při druhém typu dichotomizace pak vznikne o jeden nový atribut méně. Při tomto druhém typu dichotomizace bude hraniční hodnota x patřit do toho ze dvou možných intervalů podle toho, jaký byl zvolen způsobu uzavření intervalu v kategoriích původního atributu.

Budou-li například původní kategorie tvořit intervaly (20;30>, (30;40>…, budou hodnoty 20, 30… přiřazeny ke kategorii menší než. Budou-li však kategorie tvořit intervaly <20;30), <30;40)…, budou hodnoty 20, 30… přiřazeny vždy ke kategorii větší než. Bude-li v původním atributu kategorie tvořit výčet hodnot, bude hodnota přiřazena ke kategorii menší než nově vzniklých atributů.

Pro lepší pochopení principu je vhodné si dichotomizaci vyzkoušet a podívat se na názvy (a definici) kategorií vytvořených v nově vzniklých dichotomických atributech.

Vytvoření dichotomických atributů

Dichotomizaci atributu vyvoláme na záložce s detailem atributu tlačítkem Dichotomize. Objeví se dialogové okno pro určení typu dichotomizace a s dalšími volitelnými parametry.

Nově vytvořených dichotomických atributů může být mnoho, a proto je přednastavena volba, že se vytvořené atributy mají vkládat do nově vytvořené skupiny atributů. Její název je odvozen od názvu dichotomizovaného vícekategoriálního atributu. Tato skupina atributů bude zároveň vytvořena jako podskupina ve skupině, do které patří původní atribut. Obě nastavení je však možné změnit, včetně opravy názvu nově vytvořené skupiny.

S takto vytvořenými atributy je dále možné zacházet jako s kterýmikoliv jinými atributy. Uplatnění najdou zejména pro shlukování pomocí algoritmu k-Means a pro vytváření binárních rozhodovacích stromů.


Související témata:

Atribut a jeho kategorie
Strom skupin a do nich patřících atributů

lmprepro/attribute/dichotomize.txt · Poslední úprava: 2015/08/10 15:41 (upraveno mimo DokuWiki)