Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Začínáme
Systém LISp-Miner a proces DZD
Analytické procedury
Pokročilé funkce
Výzkum a vývoj
Rozlišování pouze na úrovní hypotéza je × hypotéza není není ve výsledcích, obvykle nestačí. Evoluce potřebuje vědět, že jeden jedinec je „o něco“ lepší, než druhý. A to i v případě, že ani jeden z nich ještě neplní daný požadavek úplně.
Příklad: Chceme, aby v datech platilo nějaké asociační pravidlo na 80 %. Zadáme tedy 4ft-úlohu s 4ft-kvantifikátorem p-Implikace a parametrem p= 0,8. Pravidlo s platností nižší (třeba 79 %) by však do výsledku vloženo nebylo a evoluce by neměla šanci pomocí fitness zjistit, že jde o velmi perspektivního jedince, který by měl dostat přednost před jedincem, ve kterém toto pravidlo platí například na 1 %.
Proto byla zavedena tzv. primární míra zajímavosti (angl. Primary interest measure). Jde o spojité vyjádření faktu, na kolik data reprezentovaná jedincem splňují požadavek vyplývající z dané úlohy DZD. Pro prvního jedince by primární míra zajímavosti byla 0,79, pro druhého 0,01. Z primární míry zajímavosti se spočte fitness a evoluce nyní jasně odliší téměř vyhovujícího jedince od naprosto nevyhovujícího.
Pro lepší srozumitelnost míru zajímavosti obvykle normalizujeme do intervalu 0 až 1. Potom hodnota 1 znamená, že data požadavek splňují úplně. Hodnota 0 znamená, že jej nesplňují vůbec. „Splnit požadavek úplně“ by v našem příkladu znamenalo, že pravidlo platí na 80 %.
Využití spojitých hodnot míry zajímavosti vede k výraznému vylepšení chování evolučního algoritmu, který v každém kroku daleko snáze rozliší kvalitu jedinců v populaci.
Které ze zadání kvantifikátorů v zadání úlohy slouží pro výpočet primární míry zajímavosti, určujeme zaškrtnutím příslušné volby v dialogovém okně zadání kvantifikátoru. Označuje míru zajímavosti, jejíž hodnota bude u každé nalezené hypotézy uložena a následně využita při výpočtu fitness jedince při evoluci. Primární míra zajímavosti může být zaškrtnuta pouze u jediného kvantifikátoru v zadání úlohy.
Pro normalizaci míry zajímavosti do intervalu <0;1> slouží druhé zaškrtávací políčko a dvě pole pro zadání minimální hodnoty míry zajímavosti (která bude normalizována na 0) a maximální hodnoty (která bude normalizována na 1).
V našem příkladu bychom jako minimum zadali hodnotu 0 a jako maximum hodnotu 0,8. Tím zajistíme, že při platnosti pravidla v datech ve výši 80 % bude primární míra zajímavosti rovna 1. Samotný práh kvantifikátory musíme zadat tak, aby hypotéza byla do výsledku vložena vždy. Obvykle zadáváme hodnotu 0.
Obr: PrimaryIM
Pozor! Při normalizaci hodnot měr zajímavosti je třeba dát pozor na jednotky, ve kterých je míra zajímavosti počítána. U funkčních kvantifikátorů je obvykle přímo v intervalu <0;1> a není úplně nutné ji normalizovat. Potom však třeba u platnosti říkáme, že plný příspěvek ve výši 1 k fitness je až 100% platnost, což obvykle není vhodné. Na zvážení je také nastavení dolní hodnoty intervalu.
U agregačních kvantifikátorů je míra zajímavosti v jednotkách, které jsou použity pro nastavení prahu (absolutní číslo, v procentech relativně k počtu řádků datové matice, v procentech relativně k aktuální podmínce nebo v procentech relativně k maximální hodnotě) – týká se zejména CF- a KL-Mineru. Potom je třeba interval zadávat také v procentech – např. <30;75>.
Komplikovanější je Kendallův TauB kvantifikátor v KL-Mineru, který nabývá hodnot ←1;1>. Aby bylo možné vyjádřit pozitivní hodnotu příspěvku k fitness pro hodnoty jdoucí k -1 (nepřímá závislost), je povoleno zadávání intervalu pro normalizaci i opačně – tedy od 0 do -1.
Poznámka: Primární míra zajímavosti zatím není implementována v ETree-Mineru.
Opačně zadaného intervalu lze využít i například pro vyjádření co nejmenší platnosti nechtěných vztahů – pro míru zajímavosti p-Implikaci budeme normalizovat od 1 do 0. Nejvyšší příspěvek k fitness jedince pak bude mít hypotéza s nulovou platností.