一尾中特平是什么意思:確定表字段的類型的方法和裝置制造方法及圖紙

技術編號:21185433 閱讀:25 留言:0更新日期:2019-05-22 16:03
本發明專利技術公開了確定表字段的類型的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:將表字段的原始特征劃分為屬性特征和值特征;對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征;根據所述轉化特征中的訓練集訓練神經網絡;根據所述轉換特征中的測試集和完成訓練的神經網絡進行深度學習,確定表字段的類型。該實施方式解決了現有技術基于關鍵詞匹配和傳統機器學習方法的識別準確率和召回率都相對較低、人工成本過高的技術缺陷,進而達到深度學習更有針對性、充分利用表字段的原始特征使得確定的表字段的類型更準確的技術效果。

Method and device for determining the type of table field

572222一尾中特平 www.fbmtd.icu The invention discloses a method and a device for determining the type of a table field, which relates to the field of computer technology. One specific implementation of the method includes: dividing the original features of the table field into attribute features and value features; transforming the attribute features and value features respectively to determine the transformed features; training the neural network according to the training set of the transformed features; and in-depth learning according to the test set of the transformed features and the trained neural network. Determine the type of the table field. The implementation method solves the technical defects of the existing technology based on keyword matching and traditional machine learning methods, such as relatively low recognition accuracy and recall rate, high labor cost, so as to achieve more targeted in-depth learning and make full use of the original characteristics of table fields to make the type of table fields more accurate.

【技術實現步驟摘要】
確定表字段的類型的方法和裝置
本專利技術涉及計算機
,尤其涉及一種確定表字段的類型的方法和裝置。
技術介紹
表字段的類型確定、以及表字段是否敏感的判斷在存儲到數據庫之前非常重要,尤其是關于隱私?;せ蛐畔踩矯?。故在將表字段加載進入數據庫之前,需要對涉及敏感信息(包括但不限于:姓名,身份證號,手機號,銀行卡號等)的表字段進行加密處理。現有技術采用基于關鍵字(例如:姓名,address,地址等)匹配和傳統機器學習,加以人工判斷輔助的方法對表字段的類型以及表字段是否為敏感字段進行識別。在實現本專利技術過程中,專利技術人發現現有技術中至少存在如下問題:1.基于關鍵詞匹配和傳統機器學習方法的識別準確率和召回率都相對較低。2.在識別準確率較低的情況下,加以人工判斷輔助識別,人工成本過高。
技術實現思路
有鑒于此,本專利技術實施例提供一種確定表字段的類型的方法和裝置,能夠達到深度學習更有針對性、充分利用表字段的原始特征使得確定的表字段的類型更準確的技術效果。為實現上述目的,根據本專利技術實施例的一個方面,提供了一種確定表字段的類型的方法,包括:將表字段的原始特征劃分為屬性特征和值特征;對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征;根據所述轉化特征中的訓練集訓練神經網絡;根據所述轉換特征中的測試集和完成訓練的神經網絡進行深度學習,確定表字段的類型??裳〉?,所述屬性特征包括:數值特征、分類特征、文本特征;所述值特征包括文本特征??裳〉?,對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征,包括:將所述屬性特征中的數值特征進行特征變換,得到的轉化特征為寬度特征;和/或,將所述屬性特征中的文本特征和值特征進行特征變換,得到的轉化特征為深文本特征;和/或,將所述屬性特征中的分類特征進行特征變換,得到的轉化特征為深類別特征和/或寬度特征??裳〉?,將所述屬性特征中的數值特征進行特征變換,得到的轉化特征為寬度特征的變換公式為:其中,wide_feature表示轉換后的寬度特征,raw_feature表示原始特征,max_value表示該寬度特征的最大值,min表示所述數值特征與所述寬度特征的最大值中較小的數值??裳〉?,將所述屬性特征中的分類特征進行特征變換,得到的轉化特征為寬度特征,包括:采用獨熱編碼對所述分類特征進行編碼,將編碼后的結果拼接為一個數值為0或1的向量;拼接后的所述0或1的向量為寬度特征??裳〉?,將所述文本特征和值特征進行特征變換,得到的轉化特征為深文本特征,包括:將文本特征或值特征中的文本后加上終止字符;針對文本特征設置預設長度;當所述文本的加上終止字符的長度大于預設長度,則刪除超出最大長度的部分,剩余部分為深文本特征;當所述文本的加上終止字符的長度小于預設長度,則將不足預設長度的部分用補充字符補足得到深文本特征??裳〉?,將所述分類特征進行特征變換,得到的轉化特征為深類別特征,包括:將分類特征進行拼接;將拼接的結果轉化為一個向量;所述向量為深類別特征??裳〉?,根據所述轉化特征中的訓練集訓練神經網絡,包括:將所述訓練集中的寬度特征作為訓練神經網絡中寬度網絡的輸入;將所述訓練集中的深文本特征和深類別特征作為訓練神經網絡中深度網絡的輸入;根據所述寬度網絡和深度網絡,確定神經網絡??裳〉?,所述寬度特征與所述深類別特征用于全連接神經網絡進行深度學習;所述深文本特征用于字符級的卷積神經網絡進行深度學習??裳〉?,用于訓練神經網絡的函數模型為柔性最大值交叉熵損失函數??裳〉?,所述神經網絡深度學習的訓練集中的每個樣本數據均由屬性特征和值特征匹配確定??裳〉?,根據所述轉化特征進行深度學習,確定表字段的類型,包括:確定深度學習的預測結果;確定所述預測結果的置信區間;根據投票機制和最大置信區間,確定表字段的類型。根據本專利技術實施例的再一個方面,提供了一種確定表字段的類型的裝置,包括:原始特征劃分???,用于將表字段的原始特征劃分為屬性特征和值特征;轉化特征???,用于對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征;神經網絡訓練???,用于根據所述轉化特征中的訓練集訓練神經網絡;表字段的類型確定???,用于根據所述轉換特征中的測試集和完成訓練的神經網絡進行深度學習,確定表字段的類型。根據本專利技術實施例的另一個方面,提供了一種確定表字段的類型電子設備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現本專利技術提供的確定表字段的類型方法。根據本專利技術實施例的還一個方面,提供了一種計算機可讀介質,其上存儲有計算機程序,所述程序被處理器執行時實現本專利技術提供的確定表字段的類型方法。上述專利技術中的一個實施例具有如下優點或有益效果:本專利技術通過采用表字段原始特征中的屬性特征和值特征進行深度學習的技術手段,解決了現有技術基于關鍵詞匹配和傳統機器學習方法的識別準確率和召回率都相對較低、人工成本過高的技術缺陷,進而達到充分利用表字段的原始特征使得確定的表字段的類型更準確;通過對屬性特征和值特征分別進行特征變換,使得變換后的轉化數據可以應用于不同的神經網絡做進一步訓練,進而使得深度學習更有針對性、達到進一步提高準確率的技術效果,克服了現有技術確定表字段的類型不準確的缺陷。上述的非慣用的可選方式所具有的進一步效果將在下文中結合具體實施方式加以說明。附圖說明附圖用于更好地理解本專利技術,不構成對本專利技術的不當限定。其中:圖1是根據本專利技術實施例的確定表字段的類型的方法的主要流程的示意圖;圖2是根據本專利技術實施例的改進的寬度和深度網絡結構;圖3是根據本專利技術實施例的字符級別的卷積神經網絡;圖4是根據本專利技術實施例的確定表字段的類型的方法的訓練與預測的具體流程圖;圖5是根據本專利技術實施例的確定表字段的類型的裝置的主要??櫚氖疽饌?;圖6是本專利技術實施例可以應用于其中的示例性系統架構圖;圖7是適于用來實現本專利技術實施例的終端設備或服務器的計算機系統的結構示意圖。具體實施方式以下結合附圖對本專利技術的示范性實施例做出說明,其中包括本專利技術實施例的各種細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本專利技術的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。圖1是根據本專利技術實施例的一種確定表字段的類型的方法的主要流程的示意圖,如圖1所示,包括:步驟S101、將表字段的原始特征劃分為屬性特征和值特征;步驟S102、對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征;步驟S103、根據所述轉化特征中的訓練集訓練神經網絡;步驟S104、根據所述轉換特征中的測試集和完成訓練的神經網絡進行深度學習,確定表字段的類型。所述表字段的類型包括:敏感字段和非敏感字段。特別是,當表字段為敏感字段時,在數據倉庫中的用途非常重要。例如,將明文數據加載到數據倉庫之前,需要對涉及敏感信息(包括但不限于:姓名,身份證號,手機號,銀行卡號等)的字段進行加密處理。所述非敏感字段就是除敏感字段之外的字段,包括:年份信息、時刻信息等。本專利技術通過表字段原始特征中的屬性特征和值特征進行深度學習的技術手段,解決了現有技術基于關鍵詞本文檔來自技高網...

【技術?;さ恪?/strong>
1.一種確定表字段的類型的方法,其特征在于,包括:將表字段的原始特征劃分為屬性特征和值特征;對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征;根據所述轉化特征中的訓練集訓練神經網絡;根據所述轉換特征中的測試集和完成訓練的神經網絡進行深度學習,確定表字段的類型。

【技術特征摘要】
1.一種確定表字段的類型的方法,其特征在于,包括:將表字段的原始特征劃分為屬性特征和值特征;對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征;根據所述轉化特征中的訓練集訓練神經網絡;根據所述轉換特征中的測試集和完成訓練的神經網絡進行深度學習,確定表字段的類型。2.根據權利要求1所述的方法,其特征在于,所述屬性特征包括:數值特征、分類特征、文本特征;所述值特征包括文本特征。3.根據權利要求2所述的方法,其特征在于,對所述屬性特征和值特征分別進行特征變換,確定變換后的轉化特征,包括:將所述屬性特征中的數值特征進行特征變換,得到的轉化特征為寬度特征;和/或,將所述屬性特征中的文本特征和值特征進行特征變換,得到的轉化特征為深文本特征;和/或,將所述屬性特征中的分類特征進行特征變換,得到的轉化特征為深類別特征和/或寬度特征。4.根據權利要求3所述的方法,其特征在于,將所述屬性特征中的數值特征進行特征變換,得到的轉化特征為寬度特征的變換公式為:其中,wide_feature表示轉換后的寬度特征,raw_feature表示原始特征,max_value表示該寬度特征的最大值,min表示所述數值特征與所述寬度特征的最大值中較小的數值。5.根據權利要求4所述的方法,其特征在于,將所述屬性特征中的分類特征進行特征變換,得到的轉化特征為寬度特征,包括:采用獨熱編碼對所述分類特征進行編碼,將編碼后的結果拼接為一個數值為0或1的向量;拼接后的所述0或1的向量為寬度特征。6.根據權利要求4所述的方法,其特征在于,將所述文本特征和值特征進行特征變換,得到的轉化特征為深文本特征,包括:將文本特征或值特征中的文本后加上終止字符;針對文本特征設置預設長度;當所述文本的加上終止字符的長度大于預設長度,則刪除超出最大長度的部分,剩余部分為深文本特征;當所述文本的加上終止字符的長度小于預設長度,則將不足預設長度的部分用補充字符補足得到深文本特征。7.根據權利要求4所述的方法,...

【專利技術屬性】
技術研發人員:范葉亮,馬云龍,盧周,
申請(專利權)人:京東數字科技控股有限公司,
類型:發明
國別省市:北京,11

網友詢問留言 已有0條評論
  • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

1