泽惠社群一尾中特平:一種基于特征尺度和子類分裂的分類器制造技術

技術編號:21185424 閱讀:32 留言:0更新日期:2019-05-22 16:03
本發明專利技術屬于模式識別和機器視覺技術領域,具體涉及一種基于特征尺度和子類分裂的分類器的實現方法。該分類器在訓練時,先將每個類看作一個子類,每個子類的每個特征都有各自的特征尺度,特征尺度是用來度量一個特征矢量到一個子類的樣本中心的偏離度的,是有下界限定的。如果類內的樣本形態并不單一,還要檢測每個子類的相近的異類樣本的偏離度比值來決定是否對其分裂成更多的子類。分類過程就是目標的特征矢量離哪個子類的偏離度值最小,就歸類到該子類所屬的類。本分類器的優勢在于識別正確率高,特征范圍量級、樣本形態和分布均不受限制、且可度量到一個類的偏離程度。

A Classifier Based on Characteristic Scale and Subclass Splitting

572222一尾中特平 www.fbmtd.icu The invention belongs to the field of pattern recognition and machine vision technology, and specifically relates to a method of realizing a classifier based on feature scale and subclass splitting. When training, the classifier regards each class as a sub-class, each feature of each sub-class has its own feature scale, which is used to measure the deviation of a feature vector from the sample center of a sub-class, and has a lower bound. If the sample shape in a class is not single, the deviation ratio of similar heterogeneous samples in each subclass is also detected to determine whether to split it into more subclasses. The classification process is to classify the feature vectors of the target to the subclass whose deviation degree is the smallest. The advantage of this classifier is that it has high recognition accuracy, and its feature range, sample shape and distribution are not limited, and the deviation degree of a class can be measured.

【技術實現步驟摘要】
一種基于特征尺度和子類分裂的分類器
本專利技術屬于模式識別和機器視覺
,具體涉及一種基于特征尺度和子類分裂的分類器的實現方法。
技術介紹
模式識別是根據輸入的目標信息對目標進行識別或歸類;識別和分類在機器視覺里也經常用到。要實現分類就需要建立分類器,常見的分類器有支撐向量機(SupportVectorMachine,SVM)、多層感知機(Multi-LayerPerceptron,MLP)、K-近鄰(KNN)、高斯混合模型(GMM)、最小距離法等等。很多情況下,用來分類的特征類型并不是只有一種,而不同種類的特征在范圍量級上一般也各不相同,因此,相同的差值在不同種類的特征上代表的距離并不一定等價,而多數的分類器內部并沒有考慮這個問題,有考慮也是用樣本標準差、方差或協方差來對輸入的特征值進行歸一化;而這些歸一化尺度如果在所有樣本上統計則受各個類的樣本特征分布的影響比較大,準確性會差,如果在單個類上統計則受較小的歸一化尺度值的影響大,穩定性比較差。另外如果類內的樣本差異不大,可以通過計算和查找離哪個的類的樣本特征中心的距離最近就歸到哪個類;但如果類內樣本差異很大,呈現多態的時候,類內只一個樣本中心是不夠的;可以把每個樣本作為一個中心,比如KNN的方式,但按KNN分類時計算量大且每個類的樣本容量要分布比較平衡才好;也可以對每個類的樣本自動聚類成若干子類,但聚類為多少個子類要手動設置且不一定很合適。因此,亟需對目前的分類器作一些改進。
技術實現思路
針對現有技術的不足,構造一種基于特征尺度和子類分裂的分類器:針對特征的量級差異,對特征尺度設置下界來達到穩定計算和提高分類正確率的目的;針對類內樣本多態的情況,依據監測樣本到異類和自身類的偏離度比值,采取遞歸分裂子類的方式來降低誤分的幾率;針對周期性特征,在計算距離和統計參數時給出更合理的計算方式。為實現上述目的,本專利技術采用如下技術方案:本專利技術的分類器的訓練和識別的步驟如下:S1、輸入所有訓練樣本的特征矢量和類別名;計算每個特征在所有樣本上的范圍長度Rf=maxsXs,f-minsXs,f,其中Xs,f表示第s個樣本的第f個特征值;然后對于Rf等于或接近0的,也即Rf≤δf,設置該特征權值wf=0,當作無效特征,否則設置wf=1,其中δf是一個遠比特征值域長度小的正數;S2、將每個類看作一個子類,對每個子類計算樣本特征中心Cb,f和樣本特征尺度首先計算出樣本特征中心再計算樣本特征尺度其中N為該子類的樣本總數,X為特征值,b為子類序號,s為樣本序號,p為正整數;S3、計算每個有效特征的特征尺度下界Lf,可選擇以下兩種方式之一進行計算,但如果平均每一類的不同特征的樣本數<2,只能使用S31的方式計算:S31、Lf=βfRf,其中0<βf≤0.1,βf的值需手動調試或者使用經驗值;S32、Lf=μfMf,其中0.01≤μf≤100,Mf為所有子類上的樣本特征尺度去掉的那些值后進行排序,中值即為Mf;如果每個類的樣本充足或者類內樣本形態多樣,μf的取值就小些,反之μf的取值就大些;然后對屬于同一種的多個有效特征的Lf要平均后再賦給它們;無效特征的Lf可以賦值任意一個正數即可;S4、計算特征尺度Sb,f:如果樣本特征尺度則令特征尺度Sb,f=Lf,否則令如果每個類的樣本都是單一的,也即任何兩個類內樣本比類間樣本更相似,可以跳過步驟S5;S5、子類分裂:先給出計算公式:偏離度為其中X為目標的特征矢量,f為特征序號,Xf為序號為f的特征值,也即X的第f個分量,F為特征總數;偏離度比值為其中o為本子類的序號,i為異類樣本所屬子類的序號,X為異類樣本的特征矢量,而另外要建立一個隨偏離度比值增大而減小的分裂度函數E(K),要滿足K值在3的附近快速下降,其它區間慢降,K≥6時基本降到接近0;對每個子類,如果樣本數多于一個,收集偏離度比值小的異類樣本,統計這些異類樣本對該子類的分裂度,如果達到或超過給定的閾值(這個閾值可以通過測試來獲得,基本是通用的),對該子類分裂為兩個及以上的新子類,分裂的原則是使每個子類內的樣本更相近;再按步驟S2中的方式對新子類計算各自的樣本特征中心Cb,f、樣本特征尺度和特征尺度分裂后的子類也要執行本步檢測和決定是否需要繼續分裂;S6、輸入待識別目標的特征矢量,要求特征類型與訓練樣本的一致,計算該特征矢量到各個子類的偏離度,得到偏離度最小的那個子類的所屬類就是識別到的類。其中步驟S5中,分裂子類時可采用以下簡單的方式:設本子類的序號為o,先找出這個比值最大的f,然后在本子類的第f個特征的樣本均值處分開;Xo,s,f>Co,f的樣本作為一個子類的樣本,剩余的作為另一個子類的樣本。對于周期性特征,可以使用更準確的計算方式:在步驟S1中輸入周期特征的周期值;在步驟S2中,計算一個類的特征中心Cb,f和樣本特征尺度時,需要計算兩組:設周期值為T,一組是將所有的樣本中的該特征值全部設置到[0,T)區間,計算樣本特征中心和樣本特征尺度,另一組是全部設置在[-T/2,T/2)區間進行計算;最后選擇樣本特征尺度小的那組,并將特征中心設置到[0,T)區間;在計算偏離度時,先將特征值Xf設置到[0,T)區間,計算距離Dis=|Xf-Cb,f|,如果Dis>T/2,則令Dis=T-Dis,然后將Dis的值取代偏離度計算公式中的|Xf-Cb,f|這一部分即可。上面的方法是為解決周期隔斷的問題,也就是位于一個周期起始點附近的值和結束點附近的值明明很接近,但是差值卻很大的問題。與現有技術相比,本專利技術的分類器識別正確率較高,且同時滿足:特征范圍長度的量級差異不限,待分類的種類數不受限制,類別的樣本可多可少,可以度量到識別類的偏離程度,識別時計算到各個子類的偏離度互不關聯,適合并行計算。附圖說明此處所說明的附圖用來提供對本專利技術的進一步理解,構成本專利技術的一部分,本專利技術的實施例及其說明用于解釋本專利技術,并不構成對本專利技術的不當限定。在附圖中:圖1為本專利技術的分類器的流程圖;圖2為本專利技術中的子類分裂的詳細流程圖。具體實施方式如在說明書及權利要求當中使用了某些詞匯來指稱特定組件。本領域技術人員應可理解,制造商可能會用不同名詞來稱呼同一個組件。本說明書及權利要求并不以名稱的差異來作為區分組件的方式,而是以組件在功能上的差異來作為區分的準則,比如指針也可以用迭代器來替換。如在通篇說明書及權利要求當中所提及的“包含”為一開放式用語,故應解釋成“包含但不限定于”?!按籩隆筆侵岡誑山郵艿奈蟛罘段?,本領域技術人員能夠在一定誤差范圍內解決所述技術問題,基本達到所述技術效果。另外說明書及權利要求中的某些系數或閾值,并不是必須為特定的值,只是這個值通常情況是合適的,增大或減小一些也是可以的。圖1為本分類器含有分裂子類的流程簡圖,簡單概括之就是輸入樣本特征和所屬類以及計算相關參數、計算樣本特征中心和樣本特征尺度、計算特征尺度下界和特征尺度、子類分裂以及目標識別分裂五步。在輸入所有樣本的特征矢量和類別名之后,可以生成一個二維數組Array,行數等于特征數,列數等于總樣本數;數組的每一行代表一個特征,行號和特征序號一致,每一列代表一個樣本,每個數組元素Array(f,j)包含了第j個加入到Array的樣本的本文檔來自技高網...

【技術?;さ恪?/strong>
1.一種基于特征尺度和子類分裂的分類器,其特征在于:訓練和識別的步驟如下:S1、輸入所有訓練樣本的特征矢量和類別名;計算每個特征在所有樣本上的范圍長度Rf=maxsXs,f?minsXs,f,其中Xs,f表示第s個樣本的第f個特征值;然后對于Rf等于或接近0的,也即Rf≤δf,設置該特征權值wf=0,當作無效特征,否則設置wf=1,其中δf是一個遠比特征值域長度小的正數;S2、將每個類看作一個子類,對每個子類計算樣本特征中心Cb,f和樣本特征尺度

【技術特征摘要】
1.一種基于特征尺度和子類分裂的分類器,其特征在于:訓練和識別的步驟如下:S1、輸入所有訓練樣本的特征矢量和類別名;計算每個特征在所有樣本上的范圍長度Rf=maxsXs,f-minsXs,f,其中Xs,f表示第s個樣本的第f個特征值;然后對于Rf等于或接近0的,也即Rf≤δf,設置該特征權值wf=0,當作無效特征,否則設置wf=1,其中δf是一個遠比特征值域長度小的正數;S2、將每個類看作一個子類,對每個子類計算樣本特征中心Cb,f和樣本特征尺度首先計算出樣本特征中心再計算樣本特征尺度其中N為該子類的樣本總數,X為特征值,b為子類序號,s為樣本序號,p為正整數;S3、計算每個有效特征的特征尺度下界Lf,可選擇以下兩種方式之一進行計算,但如果平均每一類的不同特征的樣本數<2,只能使用步驟S31的方式計算:S31、Lf=βfRf,其中0<βf≤0.1,βf的值需手動調試或者使用經驗值;S32、Lf=μfMf,其中0.001≤μf≤100,Mf為所有子類上的樣本特征尺度去掉的那些值后進行排序,中值即為Mf;如果每個類的樣本充足或者類內樣本形態多樣,μf的取值就小些,反之μf的取值就大些;然后對屬于同一種的多個有效特征的Lf要平均后再賦給它們;無效特征的Lf可以賦值任意一個正數即可;S4、計算特征尺度Sb,f:如果樣本特征尺度則令特征尺度Sb,f=Lf,否則令如果每個類的樣本都是單一的,也即任何兩個類內樣本比類間樣本更相似,可以跳過步驟S5;S5、子類分裂:先給出計算公式:偏離度為其中X為目標的特征矢量,f為特征序號,Xf為序號為f的特征值,也即X的第f個分量,F為特征總數;偏離度比值為其中o為本子類的序號,i為異類樣本所屬子類的序號,X為異類樣本的特征矢量,而另外要建立一...

【專利技術屬性】
技術研發人員:朱杰英,盧盛林,
申請(專利權)人:廣東奧普特科技股份有限公司,
類型:發明
國別省市:廣東,44

網友詢問留言 已有0條評論
  • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

1