- 相關(guān)推薦
貝葉斯分類器
貝葉斯分類器的分類原理是通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。
貝葉斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)
貝葉斯網(wǎng)絡(luò)是一個(gè)帶有概率注釋的有向無環(huán)圖,圖中的每一個(gè)結(jié)點(diǎn)均表示一個(gè)隨機(jī)變量,圖中兩結(jié)點(diǎn)間若存在著一條弧,則表示這兩結(jié)點(diǎn)相對(duì)應(yīng)的隨機(jī)變量是概率相依的,反之則說明這兩個(gè)隨機(jī)變量是條件獨(dú)立的。網(wǎng)絡(luò)中任意一個(gè)結(jié)點(diǎn)X 均有一個(gè)相應(yīng)的條件概率表(Conditional Probability Table,CPT),用以表示結(jié)點(diǎn)X 在其父結(jié)點(diǎn)取各可能值時(shí)的條件概率。若結(jié)點(diǎn)X 無父結(jié)點(diǎn),則X 的CPT 為其先驗(yàn)概率分布。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)及各結(jié)點(diǎn)的CPT 定義了網(wǎng)絡(luò)中各變量的概率分布。
貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中應(yīng)包含類結(jié)點(diǎn)C,其中C 的取值來自于類集合( c1 , c2 , ... , cm),還包含一組結(jié)點(diǎn)X = ( X1 , X2 , ... , Xn),表示用于分類的特征。對(duì)于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為x = ( x1 , x2 , ... , x n) ,則樣本D 屬于類別ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m) 應(yīng)滿足下式:
P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , ... , P( C = cm | X = x ) }
而由貝葉斯公式:
P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)
其中,P( C = ci) 可由領(lǐng)域?qū)<业慕?jīng)驗(yàn)得到,而P( X = x | C = ci) 和P( X = x) 的計(jì)算則較困難。
應(yīng)用貝葉斯網(wǎng)絡(luò)分類器進(jìn)行分類主要分成兩階段。第一階段是貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí),即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學(xué)習(xí)和CPT 學(xué)習(xí);第二階段是貝葉斯網(wǎng)絡(luò)分類器的推理,即計(jì)算類結(jié)點(diǎn)的條件概率,對(duì)分類數(shù)據(jù)進(jìn)行分類。這兩個(gè)階段的時(shí)間復(fù)雜性均取決于特征值間的依賴程度,甚至可以是NP 完全問題,因而在實(shí)際應(yīng)用中,往往需要對(duì)貝葉斯網(wǎng)絡(luò)分類器進(jìn)行簡(jiǎn)化。根據(jù)對(duì)特征值間不同關(guān)聯(lián)程度的假設(shè),可以得出各種貝葉斯分類器,Naive Bayes、TAN、BAN、GBN 就是其中較典型、研究較深入的貝葉斯分類器。
在具有模式的完整統(tǒng)計(jì)知識(shí)條件下,按照貝葉斯決策理論進(jìn)行設(shè)計(jì)的一種最優(yōu)分類器。分類器是對(duì)每一個(gè)輸入模式賦予一個(gè)類別名稱的軟件或硬件裝置,而貝葉斯分類器是各種分類器中分類錯(cuò)誤概率最小或者在預(yù)先給定代價(jià)的情況下平均風(fēng)險(xiǎn)最小的分類器。它的設(shè)計(jì)方法是一種最基本的統(tǒng)計(jì)分類方法。
/>
/> 最小錯(cuò)誤概率貝葉斯分類器
/> 把代表模式的特征向量x分到c個(gè)類別(ω1,ω2,...,ωc)中某一類的最基本方法
/> 貝葉斯分類器
/>
/> 貝葉斯分類器
/> 是計(jì)算在 x的條件下,該模式屬于各類的概率,用符號(hào)P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數(shù)值所對(duì)應(yīng)的類別ωi就是該模式所屬的類。例如表示某個(gè)待查細(xì)胞的特征向量 x屬于正常細(xì)胞類的概率是0.2,屬于癌變細(xì)胞類的概率是0.8,就把它歸類為癌變細(xì)胞。上述定義的條件概率也稱為后驗(yàn)概率,在特征向量為一維的情況下,一般有圖中的變化關(guān)系。當(dāng) x=x*時(shí),P(ω1|x)=P(ω2|x)對(duì)于 x>x*的區(qū)域,由于P(ω2|x)>P(ω1|x)因此x屬ω2類,對(duì)于x
P(ω2|x),x屬ω1類,x*就相當(dāng)于區(qū)域的分界點(diǎn)。圖中的陰影面積就反映了這種方法的錯(cuò)誤分類概率,對(duì)于以任何其他的 x值作為區(qū)域分界點(diǎn)的分類方法都對(duì)應(yīng)一個(gè)更大的陰影面積,因此貝葉斯分類器是一種最小錯(cuò)誤概率的分類器
/> 貝葉斯分類器
/>
/> 一般情況下,不能直接得到后驗(yàn)概率而是要通過貝葉斯公式
/> 公式
/>
/> 公式
/> 進(jìn)行計(jì)算。式中的P(x│ωi)為在模式屬于ωi類的條件下出現(xiàn)x的概率密度,稱為x的類條件概率密度;P(ωi)為在所研究的識(shí)別問題中出現(xiàn)ωi類的概率,又稱先驗(yàn)概率;P(x)是特征向量x的概率密度。分類器在比較后驗(yàn)概率時(shí),對(duì)于確定的輸入x,P(x)是常數(shù),因此在實(shí)際應(yīng)用中,通常不是直接用后驗(yàn)概率作為分類器的判決函數(shù)gi(x)(見線性判別函數(shù))而采用下面兩種形式:
/> 對(duì)所有的c個(gè)類計(jì)算gi(x)(i=1,2,...,c)。與gi(x)中最大值相對(duì)應(yīng)的類別就是x的所屬類別。
/>
/> 最小風(fēng)險(xiǎn)貝葉斯分類器:由于客觀事物的復(fù)雜性,分類器作出各種判決時(shí)的風(fēng)險(xiǎn)是不一樣的。例如將癌細(xì)胞誤判為正常細(xì)胞的風(fēng)險(xiǎn)就比將正常細(xì)胞誤判為癌細(xì)胞的風(fēng)險(xiǎn)大。因此,在貝葉斯分類器中引入了風(fēng)險(xiǎn)的概念。在實(shí)際應(yīng)用中根據(jù)具體情況決定各種風(fēng)險(xiǎn)的大小,通常用一組系數(shù)Cij來表示。Cij表示分類器將被識(shí)別樣本分類為ωi,而該樣本的真正類別為ωj時(shí)的風(fēng)險(xiǎn)。設(shè)計(jì)最小風(fēng)險(xiǎn)分類器的基本思想是用后驗(yàn)概率計(jì)算將 x分類為ωi的條件風(fēng)險(xiǎn)
/> 貝葉斯分類器
/>
/> 貝葉斯分類器
/> 比較各Ri(x)的大小,與最小值對(duì)應(yīng)的類別是分類的結(jié)果。評(píng)價(jià)這種分類器的標(biāo)準(zhǔn)是平均風(fēng)險(xiǎn),它的平均風(fēng)險(xiǎn)最小。在實(shí)際應(yīng)用時(shí),后驗(yàn)概率是難以獲得的,根據(jù)模式類別的多少和Cij的取值方式,可設(shè)計(jì)出各種分類器,例如模式為兩類時(shí),判別函數(shù)為
/> 判別函數(shù)
/>
/> 判別函數(shù)
/> 如果選擇C11和C22為零,C12和C21為1,它就是兩類最小錯(cuò)誤概率分類器。實(shí)際上,最小錯(cuò)誤概率分類器是最小風(fēng)險(xiǎn)分類器的一種特殊情況。
/> 設(shè)計(jì)貝葉斯分類器的關(guān)鍵是要知道樣本特征 x的各種概率密度函數(shù)。條件概率密度函數(shù)為多元正態(tài)分布是研究得最多的分布。這是由于它的數(shù)學(xué)表達(dá)式易于分析,在實(shí)際應(yīng)用中也是一種常見的分布形式。經(jīng)常使用參數(shù)方法來設(shè)計(jì)正態(tài)分布的判別函數(shù)。
/>
[貝葉斯分類器]相關(guān)文章:
1.貝葉斯分類器
【貝葉斯分類器】相關(guān)文章: