作者:黃河清 江蘇省淮安市公安局 摘要: 近年來,隨著物聯網、大數據等技術的飛速發展,公安機關掌握的數據資源越來越豐富,對于利用數據支撐業務工作的需求也日趨旺盛。通過搭建可視化建模工具,探索公安民警借助工具理解和操作數據,對數據開展基于業務邏輯的自定義建模方法,解決業務專家無法直接開展數據建模的難題。 關鍵詞:數據模型 可視化建模 科技創新 引言 在公安業務場景中,民警會從多個信息系統中查詢數據,并依據查詢結果進行綜合分析,做出判斷。傳統的解決方法是建設一個通用的全文檢索系統,對整合后的數據進行綜合展現,或是建設定制化的業務信息系統,將業務邏輯封裝成為應用模塊。這兩種方法雖然大大提高了數據對公安工作的支撐作用,但是因為傳統信息化開發周期長、架構封閉等問題,導致其難以跟上公安工作隨社會發展的演進速度;同時因為在大部分開發過程中,公安機關僅作為需求提供者,導致很多業務模型隨系統生命周期結束,無法得到有效的沉淀和積累。 本文旨在探索一種面向廣大民警的可視化建模方法,通過放開數據操作權限、賦予可視化建模能力,催生更多警務應用模型。 一、公安數據模型 從海量數據中發現案件線索的蛛絲馬跡,從茫茫人海中找出偵查對象的關聯關系,在感知網絡中預測未來的社會治安態勢,數據對于公安機關來說遠不只是存儲在物理介質之上的二進制代碼。隨著警務云基礎設施環境逐步成熟,業務信息壁壘逐漸打破,數據標準化程度越來越高,警務數據模型也經歷著從傳統應用中剝離解耦,從面向應用到面向業務的轉變。 (一)業務模型 在絕大部分的公安應用場景中,業務邏輯是支撐數據模型的絕對標尺。以接處警為例,民警在到達現場處置警情之前,都希望能夠獲得充足的信息,以幫助民警對警情做出準確的判斷,選擇合適的處置策略,避免發生人身財產安全損失或是遭遇投訴。圖1描述了一個報警電話分析模型。報警電話經過與號碼資源比對,核實出報警人的真實身份,關聯歷史涉警記錄、身份標簽和威脅程度,通過警情內容的關鍵字提取,明確警情類型和級別,并推送警情處置規范流程。 圖1 報警電話分析模型 除法律有明確規定的以外,在人口管理、案件偵破、巡邏防范等許多業務工作中,公安機關通過多年的經驗積累、凝練和總結,形成了大量的實用技戰法。這些技戰法無一不包含著深刻的業務智慧,而業務模型正是這種智慧的有效載體,通過程式化的業務流程對多樣化的輸入數據進行計算,將業務智慧轉化為指導性結果,便于迅捷、精準開展工作。在筆者的實踐過程當中,即使是面對同一個場景,不同的業務民警也有可能提出不同的業務模型,且難以區分優劣,傳統的應用開發方式需要明確的需求,最后勢必只選其一,且可編輯性較差;但面向業務的數據建模方法為模型的原創民警提供了更加開放的平臺,組合自由,隨想而就,思想間的碰撞也讓模型得以更加完善。 (二)數據治理模型 因為公安業務的復雜性,其數據來源種類也較為豐富,直接導致的結果就是公安數據融合與深度挖掘的難度成倍增加。一個最簡單的例子,因警綜平臺和全國在逃系統中使用的案件類型字典不同,分析一個網上在逃人員在本地有哪些同類案件嫌疑人就變得尤為困難。圖2以案件信息數據治理為例描述了常用的數據治理流程。以協同辦案系統、警情回訪系統、案件加工系統、現場勘驗系統等將相關案件信息進行主題數據抽取和整理,建立案件檔案庫,形成案件警務信息、案件社會信息、案件文書信息等應用專題庫。通過涉案人員、涉案物品、涉案法人等信息建立案件與人員、物品、組織機構等其他公安主題信息之間的關聯關系。 圖2 案件信息數據治理 各類多源異構數據經過治理融合,再根據業務場景需要分級分類進行存儲,為業務工作提供可用性強、關聯度高、易于理解的數據基礎。 (三)AI算法模型 目前,AI算法模型在公安行業的成功案例主要還是在人像識別、車牌識別等領域,在其他業務場景中AI模型應用較少。事實上,使用機器學習算法對傳統模型進行優化,都會促使業務模型趨向精準,算法選型和使用關鍵還是對機器學習算法本質的認識,通過數學方法尋找梯度提升的方向,找出符合客觀實際的最優解。例如情報的積分模型,通過事件觸發積分的加減,可以表達為 其中共有N類事件,每類事件產生的積分為wi,事件頻次為xi,傳統方法是以經驗設定各事件產生的積分wi,而如果以經驗值作為初始值,設定一定量樣本的標簽值,用線性回歸求解或是通過梯度提升方法,都可以讓模型的效率得到提升。 深度學習方法的出現,使得非線性的關系也可以被學習,削減甚至避免了繁瑣的特征工程。還是以積分模型為例,按照一般的思維習慣,事件發生觸發積分的增加,同樣的,一段時間沒有任何事件,代表態勢趨向平穩,積分應該衰減。一元線性回歸無法很好的表達出隨時間衰減的概念,使用長短期記憶網絡重新設計模型,讓模型對時間較近的事件更為敏感,則更加符合業務的實際場景。 二、整體架構 圖3描述了大數據建模的整體架構。數據運維管理人員通過建立數據匯聚機制,將生產數據向數據中心倉庫匯聚,清洗標準化后形成數據資源目錄,通過面向廣大民警提供高自由度、可視化的數據建模工具,將民警創作的數據模型進行統一管理,并最終以數據服務、定向推送、大屏展示等形式進行結果的展現和應用。 圖3 大數據建模整體架構 (一)資源適配層 依托淮安市局已有的公安網和警務云計算平臺,大數據可視化分析挖掘平臺不再建設獨立的數據中心,而是通過適配器與市局已建的警務云計算平臺進行無縫對接,完成數據的讀寫,充分利用警務云資源,避免出現數據中心重復性建設的問題。適配器包含中間件服務、環境調試、HDFS接口開發、SPARK sql接口開發、Kerberos接口開發、元數據接口開發等組件。 圖4 與警務云平臺適配架構圖 (二)數據流圖 大數據可視化分析挖掘平臺以spark sql形式使用警務云數據,將分析完的結果數據存儲在警務云大數據平臺中。 圖5 數據流向圖 (三)可視化建模分析組件 可視化建模分析組件是為民警提供一個數據比對分析的可視化工具。民警可以根據自己的思路,注入到可視化建模分析組件中,根據經驗形成一個成熟的數據研判模型,并利用相關線索作為條件,形成比對任務,最終達到縮小目標范圍,輔助民警完成數據研判排查的目的。 可視化建模分析組件能實現對海量數據的建模分析與數據間的深度挖掘。使用者可以根據自己的業務需要結合大數據綜合分析研判工具中提供的強大功能,靈活配置分析模型。支持一鍵運行分析模型生成比對任務,最終結果通過可視化的邏輯結構展示出來。 采用互聯網思維大數據技術,通過可操作的可視化、流程化、組合方式建立比對模型,可以實現數據資源的過濾查詢、條件碰撞、交集比對、頻次分析、數據合并、分類統計、條件過濾等操作。 可視化模型開發引擎具有以下特點: (1)模型設計多樣化。支持通過基礎計算組件的自由組合,按照各類統計分析和技戰法等實際需求,搭建關聯模型、分類模型、聚類模型、預測模型。 (2)建模應用流程化。實現了從模型設計、任務定制,到應用發布、共享評價的完整的建模應用流程。 (3)建模過程可視化。以非技術專業民警可以理解的業務語言對所有基礎算法進行封裝,通過結果集可視化展示、模型可視化布局、算法可視化調用,實現建模過程零代碼,降低民警建模學習成本。 a. 自定義建模工具 自定義建模工具的核心功能由結果集操作組件、自定義條件過濾組件、關聯碰撞分析組件、分組統計分析組件、高級分組統計分析組件、偏差分析等組件構成。其中關聯碰撞分析中包括對數據集的交集分析、合并結果集分析、差集分析、自連接分析;自定義條件過濾中包括對結果集的二次過濾,函數有等于、小于、大于、區間、模糊查詢、精確包含、精確不包含、模糊包含、模糊不包含、自定義正則表達式、字符串截取等函數庫。豐富并可擴展的使用手段讓分析數據變得簡單易操作。 b. 結果集操作組件 添加分析結果集支持各類業務數據,包括excel、csv、oracle、mysql等格式的數據銜接。 c. 比對過濾分析組件 比對過濾分析主要的使用場景在于數據集的二次查詢過濾,里面涵蓋強大的函數庫操作,使用者可按照條件規則使用平臺預設函數完成復雜的查詢過濾操作,無論易用性還是實用性都很直觀。 d. 關聯碰撞分析組件 關聯碰撞分析支持兩個結果集的交集、并集、差集、自連接等操作算法,可自定義比對條件列、自定義結果集的顯示列信息。通過靈活的配置達到使用者的要求。 e. 高級分組統計組件 對結果集進行分組統計,并且可在此使用比對過濾中的函數庫,自定義分組字段、排序字段、分組聚合字段,自定義列與列的計算算法及每組顯示前N條數據。高級分組和普通分組的區別在于,高級分組會把符合分組字段的結果依次展示出來,選擇分組字段進行分組。 f. 偏差分析組件 兩個結果集可以做偏差分析,可自定義偏差分析的字段、條件、結果集列,支持取正偏差、負偏差、絕對值偏差。偏差分析組件支持兩數據源關聯比對同時,做時間或者數值類偏差計算(正、負、絕對值)。 g. 數據清洗組件 可對當前模板表/結果集的數據進行自定義清洗,清洗邏輯以流程化圖形展現,清洗結果作為新列合并到模板表/結果集中。 h. 自定義建模流程 自定義模型開發引擎具有整套的流程化程序,具有從構建模型、搭建模型任務、模型發布到模型評價的一套完整流程。功能包括模型創建管理和任務的維護管理。定義完的模型,可以一鍵發布到模型庫管理中。在模型庫管理中支持對模型評分評價。 i 可視化模型創建 自定義建模工具提供面向非技術類業務民警的可視化自定義數據應用建模能力,民警可以自主應用授權范圍的數據,通過使用可視化建模工具實現建模滿足所需的業務數據加工、分析需求。 j. 模型資源目錄 模型資源目錄用于管理數據關聯可視化建模工具和關系網絡可視化建模工具構建的數據模型,可對模型進行分類管理,并可對模型對個人和群組中進行授權分享。 k. 模型調度監控 模型調度監控用于運行數據關聯可視化建模工具和關系網絡可視化建模工具構建的數據模型,并可配置模型運行條件(時間、頻次等)。當有源數據更新時,觸發模型運行,實時同步運行所有相關模型。模型執行全程可控,及時清晰的展示模型執行進度和錯誤預警,模型執行后,可查看每個節點的結果集和執行日志。 (四)自主建模案例 為深入開展五項基礎管控攻堅工作,及時發現排除風險隱患,淮安市局大數據管理支隊借助智慧城市建設有利契機,深入開展社會面信息整合挖掘,以大數據為支撐,通過數據建模主動發現外地流入人員,有力提升了我市出租房屋和流動人口管理工作。 (1)實有人口數據歸集 將水電氣繳費信息、購房信息、社保信息、市民卡信息、衛計委信息、移動實名制登記信息等與居民生活相關數據整合,通過身份有效性檢驗、無效數據篩除、時間格式對標等方式,刻畫出以居民身份證為主鍵的我市所有居民的生活信息歸集。 圖6 實有人口數據歸集 (2) 失控流動人口挖掘 通過與常住人口、居住證信息比對,發現近期仍有活動記錄但沒有被公安機關掌握的外地人,經比對共發現約100萬條流動人口線索,指向12萬名外地人口。 圖7 失控流動人口挖掘 (3) 生活信息關聯修正 為了便于民警核查,通過號碼資源庫、地址庫、單位庫對上述流動人員的住址、單位和電話進行補正,并劃分到所轄警務責任區,推送給社區民警開展上門走訪核查工作。 通過隨機抽選2014名流動人口線索,在清江浦區開展實地查證,共核查其中1870人,及時發現排除風險隱患12個,數據準確率達到92.850%。 圖8 生活信息關聯修正 三、應用成效 2016年,淮安市局建設了面向廣大民警開展自主數據建模的可視化建模工具——數模空間,共匯聚整合公安內外數據資源500余類。淮安市局通過系統培訓、選拔考試,從情報、治安、刑偵等業務條線和基層單位民警中遴選了50名情報分析師,專門開展數據建模工作。在執法辦案、人員管控、巡邏防范、交通管理、指揮調度、社區警務、服務民生等方面,搭建了流動人口挖掘分析、人員身份背景核查、嫌疑人員關系挖掘等123個數據模型。 在精確打擊方面,通過模型自動將在逃人員與感知網絡數據進行計算,并根據民警管轄權限和實時位置將結果直接推送到一線民警手機終端,抓獲多名在逃人員和犯罪嫌疑人,改變了傳統的民警要在多個平臺進行預警布控和值守平臺再發布預警指令的方式,大大提高了處置的效率。 在社會管理方面,通過智能模型計算,從海量數據中發現疑似未登記的外地居住人口,并推算出相關身份信息,劃分到責任區,改變了以往民警掃樓登記的工作方式,引導民警有針對性地開展上門核查工作,極大的減少了警力資源的浪費。 在服務民生方面,采取政府數據集中向公安網匯聚,在公安網內進行模型計算再輸出結果的方式,為陽光扶貧、社保卡更換、政府一張網工程等多項重點工作提供數據服務,免去了群眾辦事需要來回開證明的尷尬。 淮安市局不斷探索公安民警自主建模之路,讓廣大民警從數據模型的應用者變成了數據模型的創作者,在實戰工作中取得了良好的成效。 參考文獻: [1] 李真子,袁安心.基于可視化的建模技術研究[J].計算機工程, 2001(01):180-181+190. [2] 盧懷農. 嫌疑人物品信息智能采集方法研究[J].警察技術, 2016(4):83-86. 文章來源:《警察技術》2018年第6期 |
|