Uživatelské nástroje

Nástroje pro tento web


mrm:ea:primaryim

Primární míra zajímavosti

Rozlišování pouze na úrovní hypotéza je × hypotéza není není ve výsledcích, obvykle nestačí. Evoluce potřebuje vědět, že jeden jedinec je „o něco“ lepší, než druhý. A to i v případě, že ani jeden z nich ještě neplní daný požadavek úplně.

Příklad: Chceme, aby v datech platilo nějaké asociační pravidlo na 80 %. Zadáme tedy 4ft-úlohu s 4ft-kvantifikátorem p-Implikace a parametrem p= 0,8. Pravidlo s platností nižší (třeba 79 %) by však do výsledku vloženo nebylo a evoluce by neměla šanci pomocí fitness zjistit, že jde o velmi perspektivního jedince, který by měl dostat přednost před jedincem, ve kterém toto pravidlo platí například na 1 %.

Proto byla zavedena tzv. primární míra zajímavosti (angl. Primary interest measure). Jde o spojité vyjádření faktu, na kolik data reprezentovaná jedincem splňují požadavek vyplývající z dané úlohy DZD. Pro prvního jedince by primární míra zajímavosti byla 0,79, pro druhého 0,01. Z primární míry zajímavosti se spočte fitness a evoluce nyní jasně odliší téměř vyhovujícího jedince od naprosto nevyhovujícího.

Pro lepší srozumitelnost míru zajímavosti obvykle normalizujeme do intervalu 0 až 1. Potom hodnota 1 znamená, že data požadavek splňují úplně. Hodnota 0 znamená, že jej nesplňují vůbec. „Splnit požadavek úplně“ by v našem příkladu znamenalo, že pravidlo platí na 80 %.

Využití spojitých hodnot míry zajímavosti vede k výraznému vylepšení chování evolučního algoritmu, který v každém kroku daleko snáze rozliší kvalitu jedinců v populaci.

Zadání primární míry zajímavosti

Které ze zadání kvantifikátorů v zadání úlohy slouží pro výpočet primární míry zajímavosti, určujeme zaškrtnutím příslušné volby v dialogovém okně zadání kvantifikátoru. Označuje míru zajímavosti, jejíž hodnota bude u každé nalezené hypotézy uložena a následně využita při výpočtu fitness jedince při evoluci. Primární míra zajímavosti může být zaškrtnuta pouze u jediného kvantifikátoru v zadání úlohy.

Pro normalizaci míry zajímavosti do intervalu <0;1> slouží druhé zaškrtávací políčko a dvě pole pro zadání minimální hodnoty míry zajímavosti (která bude normalizována na 0) a maximální hodnoty (která bude normalizována na 1).

V našem příkladu bychom jako minimum zadali hodnotu 0 a jako maximum hodnotu 0,8. Tím zajistíme, že při platnosti pravidla v datech ve výši 80 % bude primární míra zajímavosti rovna 1. Samotný práh kvantifikátory musíme zadat tak, aby hypotéza byla do výsledku vložena vždy. Obvykle zadáváme hodnotu 0.

FIXME Obr: PrimaryIM

Pozor! Při normalizaci hodnot měr zajímavosti je třeba dát pozor na jednotky, ve kterých je míra zajímavosti počítána. U funkčních kvantifikátorů je obvykle přímo v intervalu <0;1> a není úplně nutné ji normalizovat. Potom však třeba u platnosti říkáme, že plný příspěvek ve výši 1 k fitness je až 100% platnost, což obvykle není vhodné. Na zvážení je také nastavení dolní hodnoty intervalu.

U agregačních kvantifikátorů je míra zajímavosti v jednotkách, které jsou použity pro nastavení prahu (absolutní číslo, v procentech relativně k počtu řádků datové matice, v procentech relativně k aktuální podmínce nebo v procentech relativně k maximální hodnotě) – týká se zejména CF- a KL-Mineru. Potom je třeba interval zadávat také v procentech – např. <30;75>.

KL-Miner

Komplikovanější je Kendallův TauB kvantifikátor v KL-Mineru, který nabývá hodnot ←1;1>. Aby bylo možné vyjádřit pozitivní hodnotu příspěvku k fitness pro hodnoty jdoucí k -1 (nepřímá závislost), je povoleno zadávání intervalu pro normalizaci i opačně – tedy od 0 do -1.

Poznámka: Primární míra zajímavosti zatím není implementována v ETree-Mineru.

Negativní požadavek

Opačně zadaného intervalu lze využít i například pro vyjádření co nejmenší platnosti nechtěných vztahů – pro míru zajímavosti p-Implikaci budeme normalizovat od 1 do 0. Nejvyšší příspěvek k fitness jedince pak bude mít hypotéza s nulovou platností.

mrm/ea/primaryim.txt · Poslední úprava: 2015/10/12 20:47 (upraveno mimo DokuWiki)