精准一头一尾中特免费网站期期准:一種針對不均衡數據的算法推薦方法技術

技術編號:21185421 閱讀:20 留言:0更新日期:2019-05-22 16:03
本發明專利技術公開了一種針對不均衡數據的算法推薦方法,使用特征提取方法提取數據集的特征并對每一維特征分別進行標準化,從而得到數據集的元特征。然后使用AUC,Recall以及算法的運行時間來評估候選算法的性能。在收集元目標時,獲取候選算法在不均衡數據集上的性能指標,對候選算法排序,并使用得分的方法將三個候選算法序列進行融合,最終得到元目標,即候選算法的排序序列。在給新數據集推薦算法時,通過特征提取方法獲取新數據集的特征向量,使用標準化方法,對新數據集的特征向量進行標準化。然后使用KNN方法獲取新數據集的K個近鄰的候選算法序列,通過將這K個鄰居的候選算法序列加和并重新排序,就得到了新數據集的候選算法序列。

An Algorithmic Recommendation Method for Unbalanced Data

572222一尾中特平 www.fbmtd.icu The invention discloses an algorithm recommendation method for unbalanced data. The feature extraction method is used to extract the features of data sets and standardize each dimension feature separately to obtain the meta-features of data sets. Then, AUC, Recall and the running time of the algorithm are used to evaluate the performance of the candidate algorithm. When collecting meta-targets, the performance indicators of candidate algorithms on unbalanced data sets are obtained, and the candidate algorithms are sorted. The three candidate algorithms are fused by scoring method, and the meta-targets, i.e. the sorting sequence of candidate algorithms, are finally obtained. When recommending algorithms to new data sets, feature vectors of new data sets are obtained by feature extraction method, and the feature vectors of new data sets are standardized by standardization method. Then KNN method is used to obtain the candidate algorithm sequences of K neighbors of the new data set. By adding and reordering the candidate algorithm sequences of K neighbors, the candidate algorithm sequences of the new data set are obtained.

【技術實現步驟摘要】
一種針對不均衡數據的算法推薦方法
本專利技術涉及算法推薦
,特別涉及一種針對不均衡數據的算法推薦方法。
技術介紹
隨著從數據中挖掘有用信息的需求越來越高,研究人員提出了許多基于不同假設空間的學習算法。然而沒有任何分類算法能夠在所有現存的分類問題上都取得非常好的效果,因此,在實際的分類問題中很難為其選擇一個合適的分類算法,如何為數據集選擇合適的分類算法就顯得尤為重要。決定不同的算法推薦性能差距的最大方面有:特征提取方法、元目標選擇和合適算法識別,針對不均衡數據,通過對取不同特征時推薦算法的性能分別做了比較,從而選擇最好的特征提取方法。
技術實現思路
本專利技術目的在于提供一種針對不均衡數據的算法推薦方法。本方法提出的針對不均衡數據集的算法推薦方法不僅考慮到分類器在數據集上的AUC,同時綜合考慮了少數類上的Recall以及算法的運行時間,并使用序列融合的方法將三個序列結合起來。這樣在給不均衡數據集做算法推薦時,在少數類上的表現會相對更好。本專利技術是通過以下技術方案來實現:一種針對不均衡數據的算法推薦方法,包括以下步驟:步驟1,元特征收集:使用基于距離度量的特征,通過計算數據集中兩兩實例之間的距離,然后將這些距離排序,分別計算出距離序列的特征集合,用于反映了數據集中實例之間的關系;步驟2,元目標收集:首先需要進行合適算法識別,在數據集上度量所有的候選算法,采用十折交叉驗證的方法;步驟3,根據各個指標對候選算法進行排序:在收集完候選算法在不均衡數據集上的性能之后,需要對候選算法進行排序;在得到候選算法的最終排序序列后,還需要將元特征與元目標結合起來構成了元數據集;步驟4,推薦器的構建及新數據集合適算法推薦:使用KNN進行算法推薦,KNN推薦器的構建和新數據集合適算法推薦同時進行,當有新數據集時,首先提取數據集的元特征,然后通過元特征計算出該數據集的k個近鄰,然后將k個近鄰的元目標進行整合,整合方法就是將對應候選算法的排名加在一起,然后再重新按照加和之后的結果進行排序;即得到新數據集候選算法的排序序列,推薦過程完成。作為本專利技術的進一步改進,步驟1中,距離序列的特征集合包括距離序列的均均值、方差、標準差、峰度、偏度、歸一化后的頻率和Z-Score的頻率。作為本專利技術的進一步改進,步驟2中,十折交叉驗證是將數據集分成十份,輪流將其中9份作為訓練數據,1份作為測試數據,進行試驗;在進行合適算法識別時,通過十折交叉驗證方法得到算法在數據集上的AUC、Recall。作為本專利技術的進一步改進,步驟3的具體步驟為:不均衡學習算法推薦方法在進行元目標收集時,首先需要在所有數據集上收集候選算法的性能,根據各個指標對候選算法進行排序;在收集完候選算法在不均衡數據集上的性能之后,需要根據AUC、少數類上的Recall以及運行時間對候選算法進行排序;假設候選算法分別為{Alg1,Alg2,Alg3,...,Algm}共m個,然后在AUC上按照從大到小排序,得到的各個候選算法的對應次序為{a1,a2,a3,...,am};在少數類Recall上,按照從大到小排序,得到的各個候選算法對應次序為{b1,b2,b3,...,bm};在運行時間上,按照從大到小排序,得到的各個候選算法對應次序為{c1,c2,c3,...,cm};在得到候選算法在各個指標之上的排序序列之后就需要將這三個序列融合起來;將這三個序列融合時,首先需要給每個次序一個得分,一般排的越靠前得分越高;對于算法Algi,其對應的AUC的次序為ai,Recall的次序為bi,運行時間的排序為ci,通過查找得分與排名,分別得到每個次序對應的得分m1,m2,m3;然后需要將這三個得分加權求和,其計算方法如下:αm1+βm2-γm3α、β、γ三個系數分別體現不同指標的重要性,考慮到AUC和Recall在評估不均衡學習算法時反映了分類器的不同方面,其在評價不均衡分類器時起到相同的作用,令α=β=1;γ的取值也會影響到推薦性能,依據上面的方法得到所有候選算法的加權得分;得到加權得分后,就需要將最后的得分進行排序,從而得到候選算法最終的排序序列;在得到候選算法的最終排序序列后,還需要將元特征與元目標結合起來就構成了元數據集;元數據的每一條記錄就是對一個數據集進行特征提取和元目標收集得到的結果;構建完元數據之后,在元數據集上構建推薦器。作為本專利技術的進一步改進,步驟4中:當給新數據集推薦合適算法時,首先需要進行特征提取,獲取新數據集的特征;然后對得到的特征進行標準化,然后分別計算新的特征向量和所有歷史數據集特征向量之間的歐式距離,然后將其按照從小到大的次序排列,并截取前K個;假設得到的K個近鄰的類標簽分別為:{a11,a12,...,a1t},{a21,a22,...,a2t},…,{ak1,ak2,...,akt};其中aij表示第i個近鄰的第j個算法的次序;得到K個近鄰的類標簽后,需要將這K個近鄰的類標簽進行加和;計算方法如下:通過上式可以計算出每個候選算法的得分;然后需要再將各個候選算法的得分進行排序,此時ai越小,則排序越靠前;這樣就得到了新數據集的候選算法排序序列。作為本專利技術的進一步改進,獲取新數據集的特征具體步驟為:在使用KNN進行算法推薦時,首先需要計算兩個數據集之間的距離,采用歐式距離,假設兩個數據集D1和D2,從數據集D1中提取出的特征向量為{F11,F12,F13,…,F1t},從數據集D2中提取出的特征為{F21,F22,F23,…,F2t},其中t為特征的維數。作為本專利技術的進一步改進,對得到的特征進行標準化具體步驟為:使用min-max標準化,轉換函數如下:式中:min——當前特征取值的最小值;max——當前特征取值的最大值;x——當前特征取值;將元數據集中的每一維的元特征分別進行歸一化,歸一化之后得到數據集D1的特征為{F′11,F'12,...,F′1t},數據集D2的特征為{F′21,F'22,...,F′2t}。作為本專利技術的進一步改進,歐式距離計算具體步驟為:標準化完成后需要使用標準化之后的特征向量計算兩個數據集之間的距離;采用歐式距離反映兩個數據集之間的距離;具體計算公式如下:式中:F′1i——為數據集D1的第i個特征標準化后的值;F′2i——為數據集D2的第i個特征標準化后的值。與現有技術相比,本專利技術具有以下優點:相比于其他的算法推薦,本專利技術在進行算法推薦時,使用多標簽推薦,并將時間因素考慮在內。不僅使用到傳統的數據集特征,也使用到基于復雜度的特征等。之后,在進行合適算法識別時,不僅考慮到分類算法的在數據集上的AUC,同時也考慮了分類算法在少數類上的Recall,以及分類算法在數據集上的運行時間。該算法具有如下優點:第一:這種方法推薦出了候選算法的序列,如果在實際問題中需要多個算法時,可以從候選算法序列中截??;第二:這種方法使用的基于距離的特征提取方法相比于其他特征提取方法更加簡單,只需要計算數據集中實例之間的歐式距離即可;第三:本方法提出的針對不均衡數據集的算法推薦方法不僅考慮到分類器在數據集上的AUC,同時綜合考慮了少數類上的Recall以及算法的運行時間,并使用序列融合的方法將三個序列結合起來。這樣在給不均衡數據集做算法推薦時,在少數類上的表現會相對更好本文檔來自技高網...

【技術?;さ恪?/strong>
1.一種針對不均衡數據的算法推薦方法,其特征在于:包括以下步驟:步驟1,元特征收集:使用基于距離度量的特征,通過計算數據集中兩兩實例之間的距離,然后將這些距離排序,分別計算出距離序列的特征集合,用于反映了數據集中實例之間的關系;步驟2,元目標收集:首先需要進行合適算法識別,在數據集上度量所有的候選算法,采用十折交叉驗證的方法;步驟3,根據各個指標對候選算法進行排序:在收集完候選算法在不均衡數據集上的性能之后,需要對候選算法進行排序;在得到候選算法的最終排序序列后,還需要將元特征與元目標結合起來構成了元數據集;步驟4,推薦器的構建及新數據集合適算法推薦:使用KNN進行算法推薦,KNN推薦器的構建和新數據集合適算法推薦同時進行,當有新數據集時,首先提取數據集的元特征,然后通過元特征計算出該數據集的k個近鄰,然后將k個近鄰的元目標進行整合,整合方法就是將對應候選算法的排名加在一起,然后再重新按照加和之后的結果進行排序;即得到新數據集候選算法的排序序列,推薦過程完成。

【技術特征摘要】
1.一種針對不均衡數據的算法推薦方法,其特征在于:包括以下步驟:步驟1,元特征收集:使用基于距離度量的特征,通過計算數據集中兩兩實例之間的距離,然后將這些距離排序,分別計算出距離序列的特征集合,用于反映了數據集中實例之間的關系;步驟2,元目標收集:首先需要進行合適算法識別,在數據集上度量所有的候選算法,采用十折交叉驗證的方法;步驟3,根據各個指標對候選算法進行排序:在收集完候選算法在不均衡數據集上的性能之后,需要對候選算法進行排序;在得到候選算法的最終排序序列后,還需要將元特征與元目標結合起來構成了元數據集;步驟4,推薦器的構建及新數據集合適算法推薦:使用KNN進行算法推薦,KNN推薦器的構建和新數據集合適算法推薦同時進行,當有新數據集時,首先提取數據集的元特征,然后通過元特征計算出該數據集的k個近鄰,然后將k個近鄰的元目標進行整合,整合方法就是將對應候選算法的排名加在一起,然后再重新按照加和之后的結果進行排序;即得到新數據集候選算法的排序序列,推薦過程完成。2.根據權利要求1所述的一種針對不均衡數據的算法推薦方法,其特征在于:步驟1中,距離序列的特征集合包括距離序列的均均值、方差、標準差、峰度、偏度、歸一化后的頻率和Z-Score的頻率。3.根據權利要求1所述的一種針對不均衡數據的算法推薦方法,其特征在于:步驟2中,十折交叉驗證是將數據集分成十份,輪流將其中9份作為訓練數據,1份作為測試數據,進行試驗;在進行合適算法識別時,通過十折交叉驗證方法得到算法在數據集上的AUC、Recall。4.根據權利要求1所述的一種針對不均衡數據的算法推薦方法,其特征在于:步驟3的具體步驟為:不均衡學習算法推薦方法在進行元目標收集時,首先需要在所有數據集上收集候選算法的性能,根據各個指標對候選算法進行排序;在收集完候選算法在不均衡數據集上的性能之后,需要根據AUC、少數類上的Recall以及運行時間對候選算法進行排序;假設候選算法分別為{Alg1,Alg2,Alg3,...,Algm}共m個,然后在AUC上按照從大到小排序,得到的各個候選算法的對應次序為{a1,a2,a3,...,am};在少數類Recall上,按照從大到小排序,得到的各個候選算法對應次序為{b1,b2,b3,...,bm};在運行時間上,按照從大到小排序,得到的各個候選算法對應次序為{c1,c2,c3,...,cm};在得到候選算法在各個指標之上的排序序列之后就需要將這三個序列融合起來;將這三個序列融合時,首先需要給每個次序一個得分,一般排的越靠前得分越高;對于算法Algi,其對應的AUC的次序為ai,Recall的次序為bi,運行時間的排序為ci,通過查找得分與排名,分別得到每個次序對應的得分m1,m2,m3;然后需要將這三個得分加權求和,...

【專利技術屬性】
技術研發人員:朱曉燕,樊帥帥,崔巍,賈曉琳,
申請(專利權)人:西安交通大學,
類型:發明
國別省市:陜西,61

網友詢問留言 已有0條評論
  • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

1
北京pk拾赛车开奖记录 推牌九压庄技巧 澳门21点详细玩法 重庆时时开奖官方同步 七星彩历史开奖100期 nba投注比 牛牛什么牌可以抢庄 全自动pk10挂机手机版 3d和值投注技巧 棋牌游戏二人斗地主 pk10最稳的看走势图方法 山东十一运夺金下载 二人斗地主抓多少牌 大乐透5十7对照表 复式6码二中二是怎么样的 重庆实时彩开奖结果