九龙开奖一尾中特:基于偽標簽學習和語義一致性的跨模態檢索方法及系統技術方案

技術編號:21185431 閱讀:53 留言:0更新日期:2019-05-22 16:03
本發明專利技術公開了一種基于偽標簽學習和語義一致性的跨模態檢索方法及系統,所述方法包括:接收圖像數據集和文本數據集,其中包括已標記的圖像文本對以及未標記的圖像數據;學習從圖像空間投影到文本空間的投影矩陣,將所述未標記的圖像數據投影到文本空間;計算已標記文本的類中心;根據未標記圖像數據的投影數據與文本數據的類中心的相似度,為這些圖像數據分配偽標簽,并且將與其距離最近的類中心相應的文本數據作為對應的文本模態;將已標記的和分配偽標簽的圖像數據,以及對應的文本數據作為訓練數據集,學習圖像和文本投影到公共語義空間的投影矩陣;執行跨模態檢索。本發明專利技術在訓練數據集中引入未標記數據,能夠獲取更有效的投影矩陣。

Cross-modal Retrieval Method and System Based on Pseudo-label Learning and Semantic Consistency

572222一尾中特平 www.fbmtd.icu The invention discloses a cross-modal retrieval method and system based on pseudo-label learning and semantic consistency, which includes receiving image data sets and text data sets, including marked image-text pairs and unlabeled image data, learning projection matrix from image space to text space, and projecting the unlabeled image data to text space. Calculate the class centers of labeled text; assign pseudo-labels to these image data according to the similarity between the projection data of unlabeled image data and the class centers of text data, and use the text data corresponding to the nearest class centers as corresponding text modes; use the labeled and distributed pseudo-labeled image data and corresponding text data as training data Set, learning projection matrix of image and text projected into common semantic space, and performing cross-modal retrieval. By introducing unlabeled data into the training data set, the present invention can obtain more effective projection matrix.

【技術實現步驟摘要】
基于偽標簽學習和語義一致性的跨模態檢索方法及系統
本公開屬于跨模態檢索
,尤其涉及一種基于偽標簽學習和語義一致性的跨模態檢索方法及系統。
技術介紹
隨著信息技術的進步,多模態數據量不斷增加。多模態數據無處不在,人類使用互聯網共享個人文本、音頻、圖像和視頻信息。多模態數據是指用不同的模態描述同一對象/概念的數據。特定對象/概念的多模態數據的不同成分存在于不同的模態中,但是在高語義級別上相關聯。多模態數據廣泛存在于日常生活中,因此對多模態數據的檢測和分析是一個重要的研究領域。多模態數據檢索方法不同于傳統的數據檢索方法從同一模態數據中挖掘信息。在跨模態檢索中,一個模態中的對象可以用于其他模態中的數據檢索。例如,當考慮“飛機”的圖像時,可以檢索“飛機”的文本、圖像、音頻記錄和視頻記錄。根據人們的需求,可以實現不同媒體文件之間的檢索。一種好的跨模態檢索方法可以顯著縮短檢索時間,減少工作量,有效地提高信息檢索的查準率和查全率。檢索的輸入和輸出數據具有不同的模態,這些數據的低層特征是異構的,且各自的數據結構是復雜的并且變化很大,諸如圖像、音頻記錄和視頻記錄之類的多模態數據是半結構化的或非結構化的,這使得很難通過低級特征來描述高級語義。另外,由于不同模態數據特征值的維數也不一樣,因此很難用現有的方法比較不同模態下的數據。因此在多模態數據上進行檢索時,需要設定異構數據的統一表示。也就是說,當將多模態數據投影到同構空間上時,可以使用相同的距離度量(例如,使用歐幾里德度量或漢明度量)對其進行比較。近年來在跨模態檢索方向有了大量的研究成果。有研究引入了共享子空間的概念,允許不同模態數據在同一子空間中一致地表示以便相互檢索。典型相關性分析(CCA)是一種經典的統一表示法,在計算生物學、金融分析和信息檢索等領域有著廣泛的應用。眾多的方法用來在一個共同的子空間中最大化訓練數據對之間的相似性。核典型相關分析(KCCA)用于研究圖像與文本之間的相關性?;誥植肯喙匭員3值鬧С窒蛄炕?LCPSVM)提出了一種保持類間局部相關性的方法,它充分結合了類間邊際最大化和類數據的局部相關保持的思想。以上方法通常是獲得一組線性映射矩陣,并將具有異構特征的數據投影到相同的語義空間。然而,僅僅考慮訓練集中的數據點之間的相關性是不夠的。在跨模態檢索中,期望檢索到的數據在語義上類似于查詢的圖像/文本數據。因此,在語義上相似的多模態數據會被預期在共享子空間中形成簇。為此,使用監督類信息或通過聚類獲得的監督信息,在公共子空間中對語義上相似的多模態數據進行聚類。聯合表示學習(JRL)方法同時考慮語義信息和相關性,是半監督學習方式;具有聯合圖正則化的異構度量學習(JGRHML)則使用聯合圖正則化來檢索不同模態之間的信息;跨模態相關傳播(CMCP)在檢索中同時使用正相關和負相關信息;最近鄰異構相似性度量(HSNN)是一種利用最近鄰度量異構相似性的方法。上述描述的各種方法,或者沒有考慮未標記數據,或者對每個文本/圖像檢索任務只學習一組投影,文本檢索圖像和圖像檢索文本都基于同一種投影機制,基于這種映射機制往往可以在兩個檢索任務中獲得一個折中的性能,很難在其中一種任務中得到最佳性能。
技術實現思路
為克服上述現有技術的不足,本專利技術提供了一種基于偽標簽學習和語義一致性的跨模態檢索方法及系統,本專利技術一方面針對不同的檢索任務采用不同的投影,學習到了兩組投影,分別應用于文本檢索圖像和圖像檢索文本;另一方面充分利用了未標記數據,,通過偽標簽學習方法為其添加偽標簽,將添加了偽標簽的和已標記圖像文本對均用作訓練數據集,進行投影矩陣的訓練,提高了跨媒體檢索的精確度。為實現上述目的,本專利技術的一個或多個實施例提供了如下技術方案:一種基于偽標簽學習和語義一致性的跨模態檢索方法,包括以下步驟:接收圖像數據集和文本數據集,其中包括已標記的圖像文本對以及未標記的圖像數據;學習從圖像空間投影到文本空間的投影矩陣,將所述未標記的圖像數據投影到文本空間;計算已標記文本的類中心;根據未標記圖像數據的投影數據與文本數據的類中心的相似度,為這些圖像數據分配偽標簽,并且將與其距離最近的類中心相應的文本數據作為對應的文本模態;將已標記的和分配偽標簽的圖像數據,以及對應的文本數據作為訓練數據集,學習圖像和文本投影到公共語義空間的投影矩陣;接收測試圖像或文本,根據投影矩陣轉換到公共語義空間,在公共語義空間查找與該測試圖像或文本相似性最高的投影數據,該投影矩陣相應的另一模態數據即為檢索結果。進一步地,通過以下公式學習從圖像空間投影到文本空間的投影矩陣:其中,Il和Tl分別表示成對的已標記圖像和文本特征,V是投影矩陣,λ是調整系數,是Frobenius范數。進一步地,計算已標記文本的類中心包括:其中,表示所有已標記文本數據特征的中值,進一步地,所述未標記圖像數據的投影數據與文本數據的類中心的相似度計算方法為:計算未標記圖像數據投影到文本數據空間的類中心;基于投影數據的各個類中心與已標記文本的類中心的距離,為各類圖像數據分配偽標簽。進一步地,所述訓練數據集中語義相似性矩陣S=[Sl;Su],其中,Sl為已標記圖像文本對相應的語義相似性矩陣,Su為具有偽標簽的圖像文本對相應的語義相似性矩陣,其中,其中,表示未標記圖像數據的投影數據和已標記文本數據的第i個類中心之間的相似度,Iu表示未標記圖像數據集合;表示未標記圖像投影到文本空間的投影數據;表示已標記文本數據的第i個類中心;γ表示核系數。進一步地,檢索任務為根據圖像檢索文本時,通過求解下面的目標函數學習圖像和文本投影到公共語義空間的投影矩陣:檢索任務為根據文本檢索圖像時,通過求解下面的目標函數學習圖像和文本投影到公共語義空間的投影矩陣:其中,I和T分別為訓練數據集中的圖像數據和文本數據,V是圖像空間到公共語義空間的投影矩陣,W是文本空間到公共語義空間的投影矩陣,是Frobenius范數,η1和η2是正則化項的非負平衡參數,0≤λ≤1是平衡參數。進一步地,采用梯度下降法求解所述目標函數。進一步地,所述在公共語義空間查找與該測試圖像或文本相似性最高的投影數據包括:計算測試圖像或文本的投影數據與訓練數據集中每個另一模態投影數據特征之間的距離,獲取距離最小的投影數據。一個或多個實施例提供了一種計算機系統,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現所述的基于偽標簽學習和語義一致性的跨模態檢索方法。一個或多個實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現所述的基于偽標簽學習和語義一致性的跨模態檢索方法。以上一個或多個技術方案存在以下有益效果:本專利技術的檢索方法針對圖像檢索文本,和文本檢索圖像兩類檢索任務,學習了不同的投影矩陣,檢索更具針對性,保證了對于不同的檢索任務都能夠取得較好的檢索效果;本專利技術的檢索方法在學習投影矩陣的過程中,充分考慮了標記樣本和未標記樣本的語義信息,為未標記樣本學習偽標簽。相比于其他方法,能夠利用更多的信息,學習更有效的投影矩陣。有標記數據意味著高成本和不易獲取,而未標記數據可以以相對較低的成本容易地獲取,并且未標記數據可以通過提高分類的精確度來提高檢索模型的魯棒性,本文檔來自技高網
...

【技術?;さ恪?/strong>
1.一種基于偽標簽學習和語義一致性的跨模態檢索方法,其特征在于,包括以下步驟:接收圖像數據集和文本數據集,其中包括已標記的圖像文本對以及未標記的圖像數據;學習從圖像空間投影到文本空間的投影矩陣,將所述未標記的圖像數據投影到文本空間;計算已標記文本的類中心;根據未標記圖像數據的投影數據與文本數據的類中心的相似度,為這些圖像數據分配偽標簽,并且將與其距離最近的類中心相應的文本數據作為對應的文本模態;將已標記的和分配偽標簽的圖像數據,以及對應的文本數據作為訓練數據集,學習圖像和文本投影到公共語義空間的投影矩陣;接收測試圖像或文本,根據投影矩陣轉換到公共語義空間,在公共語義空間查找與該測試圖像或文本相似性最高的投影數據,該投影矩陣相應的另一模態數據即為檢索結果。

【技術特征摘要】
1.一種基于偽標簽學習和語義一致性的跨模態檢索方法,其特征在于,包括以下步驟:接收圖像數據集和文本數據集,其中包括已標記的圖像文本對以及未標記的圖像數據;學習從圖像空間投影到文本空間的投影矩陣,將所述未標記的圖像數據投影到文本空間;計算已標記文本的類中心;根據未標記圖像數據的投影數據與文本數據的類中心的相似度,為這些圖像數據分配偽標簽,并且將與其距離最近的類中心相應的文本數據作為對應的文本模態;將已標記的和分配偽標簽的圖像數據,以及對應的文本數據作為訓練數據集,學習圖像和文本投影到公共語義空間的投影矩陣;接收測試圖像或文本,根據投影矩陣轉換到公共語義空間,在公共語義空間查找與該測試圖像或文本相似性最高的投影數據,該投影矩陣相應的另一模態數據即為檢索結果。2.如權利要求1所述的一種基于偽標簽學習和語義一致性的跨模態檢索方法,其特征在于,通過以下公式學習從圖像空間投影到文本空間的投影矩陣:其中,Il和Tl分別表示成對的已標記圖像和文本特征,V是投影矩陣,λ是調整系數,是Frobenius范數。3.如權利要求2所述的一種基于偽標簽學習和語義一致性的跨模態檢索方法,其特征在于,計算已標記文本的類中心包括:其中,表示所有已標記文本數據特征的中值,4.如權利要求1所述的一種基于偽標簽學習和語義一致性的跨模態檢索方法,其特征在于,所述未標記圖像數據的投影數據與文本數據的類中心的相似度計算方法為:計算未標記圖像數據投影到文本數據空間的類中心;基于投影數據的各個類中心與已標記文本的類中心的距離,為各類圖像數據分配偽標簽。5.如權利要求3所述的一種基于偽標簽學習和語義一致性的跨模態檢索方法,其特征在于,所述訓練數據集中語義相似性矩陣S=[Sl;Su],其中,Sl為已標記圖像文本...

【專利技術屬性】
技術研發人員:徐功文,王義華,石林,張志軍,趙莉,李曉梅,張娟,吳永春,胡順泉,
申請(專利權)人:山東建筑大學,
類型:發明
國別省市:山東,37

網友詢問留言 已有0條評論
  • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

1