一尾中特诗论坛:一種基于電信大數據的家庭成員識別聚類方法技術

技術編號:21185419 閱讀:60 留言:0更新日期:2019-05-22 16:02
本發明專利技術公開了一種基于電信大數據的家庭成員識別聚類方法。包括:從通話頻次、通信連接位置等信息,探索家庭成員之間的通信聯系特征,以統計周期作為計算時長,利用通信連接信令位置信息,分別計算用戶與其他用戶夜間共宿地累計時長,建立兩個節點之間的邊權模型,同證件的兩個用戶節點加大關系權重,確定邊權閾值,以選取出家庭群體的核心成員,根據用戶與已確定成員間存在通話比例和一定閾值的關系確定家庭成員,最后將高度近似的家庭群體進行合并處理,并剔除孤立節點聯系等干擾因素。該方法解決了現有技術中根據套餐及用戶消費信息進行目標用戶定位不準確,營銷效率低的技術問題。達到了準確定位目標用戶,有效管控營銷資源的技術效果。

A Clustering Method for Family Members Recognition Based on Telecom Big Data

572222一尾中特平 www.fbmtd.icu The invention discloses a family member recognition clustering method based on large telecommunication data. It includes: exploring the characteristics of communication links among family members from the information of call frequency and communication connection location, taking statistical period as calculation time, calculating the cumulative length of night accommodation between users and other users by using the location information of communication connection signaling, establishing the edge weight model between two nodes, increasing the relationship weight with two user nodes of certificate, and determining the edge weight. Threshold is used to select the core members of the family group. The family members are determined according to the relationship between the user and the determined members, which has a call proportion and a certain threshold. Finally, the highly approximate family groups are merged and the interference factors such as isolated node connections are eliminated. The method solves the technical problems of inaccurate target user positioning and low marketing efficiency in the existing technology based on set meals and user consumption information. Achieves the technical effect of accurately locating target users and effectively managing and controlling marketing resources.

【技術實現步驟摘要】
一種基于電信大數據的家庭成員識別聚類方法
本專利技術關于一種基于電信大數據的家庭成員識別聚類方法。
技術介紹
電信運營商傳統寬帶、家庭網產品套餐發展方法,主要存在兩個不足:(1)根據套餐辦理情況及用戶消費信息進行目標用戶定位,目標用戶不準確,營銷效率低;(2)發展過程中,發展目標的健康度(即,是否為可發展對象/發展可能性大小)無法判定,營銷資源無法有效管控,形成浪費。分析以上兩個不足,電信運營商寬帶、家庭網產品需以精確的家庭成員數據為依托,構建家庭成員識別聚類模型凸顯迫切。本專利技術探索用戶交往圈通話習慣、通信連接位置信息、身份信息等各維度關系,發現家庭成員間的以上維度信息存在一定聚類效果。
技術實現思路
鑒于上述情況,有必要提供一種基于電信大數據的家庭成員識別聚類方法,可以有效解決上述問題。本專利技術提供一種基于電信大數據的家庭成員識別聚類方法,從時間、通話頻次、通信連接位置、交往圈、身份信息,探索家庭成員之間的通信聯系特征,包括以下步驟:以具有穩定聯系特點的交往圈為數據基礎,需完成數據篩??;以一個統計時間段為計算時長,利用通信連接信令位置信息,分別計算用戶與交往圈其他用戶夜間共宿地累計時長,建立兩個節點之間的家庭成員關系的邊權模型,以反映兩者屬于同一家庭的概率;優化邊權模型,同證件的兩個用戶節點加大關系權重;基于邊權模型進行邊權統計分析,確定邊權閾值,以選取出家庭群體的核心成員;計算交往圈中未確定為家庭成員的用戶與已確定成員間存在通話關系比例,比例大于一定閾值,則確定為家庭成員;將高度近似的家庭群體進行合并處理,并剔除孤立節點聯系等干擾因素。附圖說明圖1一種基于電信大數據的家庭成員識別聚類方法的實施步驟圖;圖2用戶邊權模型圖;圖3全網模型訓練步驟圖;圖4用戶交往圈數據表及標識;圖5用戶通信連接信令信息表及標識;圖6用戶實名信息表。具體實施方式請參照圖1,本專利技術實施一種基于電信大數據的家庭成員識別聚類方法,包括如下步驟:S1,進行數據篩選,以具有穩定聯系特點的交往圈為數據基??;S2,以統計周期作為計算時長,利用通信連接信令位置信息,分別計算用戶與交往圈其他用戶夜間共宿地累計時長,建立兩個節點之間的家庭成員關系的邊權模型,以反映兩者屬于同一家庭的概率;S3,優化邊權模型,同證件的兩個用戶節點加大關系權重;S4,基于優化后的邊權模型進一步進行邊權統計分析,確定邊權閾值,以選取出家庭群體的核心成員;S5,計算交往圈中未確定為家庭成員的用戶與已確定成員間存在通話關系比例,比例大于一定閾值,則確定為家庭成員;S6,將高度近似的家庭群體進行合并處理,并剔除孤立節點聯系等干擾因素。在步驟S1中,利用通話頻次確定具有穩定聯系特點的交往圈:剔除近半年存在通話月數小于4的記錄(即:CALL_M_CNT<4)剔除統計月通話次數小于3的記錄(即:CALL_CNT<3)在步驟S2中,首先針對單一用戶,讀取該用戶交往圈信息表,建立關聯用戶無向網絡圖,同時,讀取該用戶及關聯用戶夜間通信連接信令信息表,根據用戶與關聯用戶夜間共宿地累計時長,更新無向網絡圖權重,建立關聯用戶邊權模型。算法偽代碼如下:(1)輸入:關聯用戶無向網絡圖Gi,用戶夜間某宿地累計時長DUR60i,cell_id(2)輸出:關聯用戶邊權模型圖Gdi。(3)k=1,i=1;(4)num=關聯用戶總數;(5)num_cell=該用戶宿地總數(6)定義dur_msisdn[num]//該用戶與關聯用戶共宿累計時長(7)whilek<=numdo(8)whilei<=num_celldo(9)if關聯用戶k宿地LAC==該用戶宿地i的LAC&關聯用戶k宿地CELL_ID==該用戶宿地i的CELL_ID(10)計算該宿地兩用戶共宿時長(11)dur_msisdn[k]=dur_msisdn[k]+該宿地共宿時長(12)i=i+1(13)k=k+1計算出該用戶與不同關聯用戶k間的共宿時長dur_msisdn[k],并將dur_msisdn[k]加入關聯用戶無向網絡圖中形成邊權模型圖,參照圖2。在步驟S3中,將邊權模型中與該用戶同身份證號的關聯用戶權重進行統一增加。該權重足以讓所連接的用戶確定為家庭成員關系。在步驟S4中,取共宿時長大于等于統計時間段1/6(該比例可根據情況修改)天數的關聯用戶確定為與該用戶具有家庭關系的用戶,即:歸類為“確定成員”,其余關聯用戶歸類為“未確定成員”,偽代碼如下:ifdur_misdn[k]>=2100do關聯用戶k為“確定成員”elsedo關聯用戶k為“非確定成員”注:以上參數基于統計時間段為30天,1天統計時長7小時(僅統計0:00-7:00,420分鐘),5天統計時長應為420*5=2100分鐘因存在家庭成員在統計時段內與其他成員不在同一地點活動(如:出差、外地工作等)或者同一地點接入基站小區不同情況(同住址,不同房間接入基站小區不同)。在步驟S5中,采用以下算法增量家庭成員聚類,完成家庭成員聚類模型補漏:(1)輸入:非確定成員j交往圈數據信息表,確認成員號碼(2)輸出:非確定成員j的聚類指數julei[j](3)j=1,l=1;(4)num_f=非確定成員總數,num_q=確定成員總數,julei[num_f];(5)whilej<=num_fdo(6)whilel<num_qdo(7)if非確定成員j交往圈數據表“OTER_NBR”字段==確定成員(8)julei[j]=julei[j]+1;(8)l=l+1;(9)j=j+1;上述方法針對“非確定成員j”確定其聚類指標julei[j],若julei[j]/num_q>0.66(此閾值可根據情況更新修正),則將該“非確定成員j”劃入“確定成員”。以此最終確定用戶的家庭成員。在步驟S6中,參照圖3,若統計時間段內存在n個用戶,則需要執行上述單用戶家庭成員關聯算法n次,形成n個家庭網,最后合并高相似家庭網,并對弱連接家庭網進行處理。高相似家庭網合并:將家庭網成員完全相同的家庭網進行合并。弱連接家庭網處理:即兩個家庭網之間存在一個或者少數的相同用戶,需對這部分少數用戶進行判斷,比較其與兩個家庭成員間的共宿時長、統計時段內通話次數,將用戶歸入共宿時長較長、通話次數較多的家庭網成員。注意,上述僅為本專利技術的較佳實施例及所運用技術原理。本領域技術人員會理解,本專利技術不限于這里所述的特定實施例,對本領域技術人員來說能夠進行各種明顯的變化、重新調整和替代而不會脫離本專利技術的?;し段?。因此,雖然通過以上實施例對本專利技術進行了較為詳細的說明,但是本專利技術不僅僅限于以上實施例,在不脫離本專利技術構思的情況下,還可以包括更多其他等效實施例,而本專利技術的范圍由所附的權利要求范圍決定。本文檔來自技高網...

【技術?;さ恪?/strong>
1.一種基于基于電信大數據的家庭成員識別聚類方法,其特征在于:每個手機用戶都是電信社交網絡中的一個節點,連接兩個節點的邊的權重代表了彼此的通信聯系特征?;詰縲糯笫堇詞侗鵂彝ト禾?,就相當于在電信社交網絡中識別出符合特定邊權條件的多邊形子圖,從時間、通話頻次、通信連接位置、交往圈、身份信息,探索家庭成員之間的通信聯系特征,其步驟如下:以具有穩定聯系特點的交往圈為數據基??;以一個統計時間段為計算時長,利用通信連接信令位置信息,分別計算用戶與交往圈其他用戶夜間共宿地累計時長,建立兩個節點之間的家庭成員關系的邊權模型,以反映兩者屬于同一家庭的概率;優化邊權模型,同證件的兩個用戶節點加大關系權重;基于邊權模型進行邊權統計分析,確定邊權閾值,以選取出家庭群體的核心成員;計算交往圈中未確定為家庭成員的用戶與已確定成員間存在通話關系比例,比例大于一定閾值,則確定為家庭成員;將高度近似的家庭群體進行合并處理,并剔除孤立節點聯系等干擾因素。

【技術特征摘要】
1.一種基于基于電信大數據的家庭成員識別聚類方法,其特征在于:每個手機用戶都是電信社交網絡中的一個節點,連接兩個節點的邊的權重代表了彼此的通信聯系特征?;詰縲糯笫堇詞侗鵂彝ト禾?,就相當于在電信社交網絡中識別出符合特定邊權條件的多邊形子圖,從時間、通話頻次、通信連接位置、交往圈、身份信息,探索家庭成員之間的通信聯系特征,其步驟如下:以具有穩定聯系特點的交往圈為數據基??;以一個統計時間段為計算時長,利用通信連接信令位置信息,分別計算用戶與交往圈其他用戶夜間共宿地累計時長,建立兩個節點之間的家庭成員關系的邊權模型,以反映兩者屬于同一家庭的概率;優化邊權模型,同證件的兩個用戶節點加大關系權重;基于邊權模型進行邊權統計分析,確定邊權閾值,以選取出家庭群體的核心成員;計算交往圈中未確定為家庭成員的用戶與已確定成員間存在通話關系比例,比例大于一定閾值,則確定為家庭成員;將高度近似的家庭群體進行合并處理,并剔除孤立節點聯系等干擾因素。2.如權利要求1所述的設計方法,其特征在于,利用通話頻次確定具有穩定聯系特點的交往圈:剔除近半年存在通話月數小于4的記錄(即:CALL_M_CNT<4)剔除統計月通話次數小于3的記錄(即:CALL_CNT<3)變量見附表。3.如權利要求1所述的設計方法,其特征在于,首先針對單一用戶,讀取該用戶交往圈信息表,建立關聯用戶無向網絡圖,同時,讀取該用戶及關聯用戶夜間通信連接信令信息表,根據用戶與關聯用戶夜間共宿地累計時長,更新無向網絡圖權重,建立關聯用戶邊權模型。算法偽代碼如下:計算出該用戶與不同關聯用戶k間的共宿時長dur_msisdn[k],并將dur_msisdn[k]加入關聯用戶無向網絡圖中形成邊權模型圖。4.如權利要求1所述的設計方法,其特征在于,優化用戶邊權模型:將邊權模型中與該用戶同身...

【專利技術屬性】
技術研發人員:阮志強,徐戈,邵振華,
申請(專利權)人:閩江學院,
類型:發明
國別省市:福建,35

網友詢問留言 已有0條評論
  • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

1
七星彩选码软件 3d一胆拖六直选多少钱 pk10冠亚和单双对刷 七乐彩胆拖金额对照表 pk时时彩计划软件下载 稳准六肖 波波视频下载一软件 竟采比分网 psv十大最耐玩的游戏 MG摆脱游戏如何加减注 时时彩计划群 欢乐生肖是官方彩吗 秒速时时开奖平台 pk10群计划群 怎样买11选5稳赚不赔 虎扑nba国外直播