全球人工智能與機器人峰會 CCF-GAIR 2019
您正在使用IE低版瀏覽器,為了您的雷鋒網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
金融科技 正文
發私信給周蕾
發送

0

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

本文作者:周蕾 2019-06-22 22:57
導語:AI應對另類大數據業務挑戰

近日,在上海交通大學上海高級金融學院主辦的2019國際金融科技會議上,氪信科技創始人兼CEO朱明杰博士結合企業自身一系列實踐經驗,從技術角度對AI金融痛點和難點進行了系統性梳理。

他表示,強金融數據以外的“另類數據”已經遠遠超出評分卡的處理范圍,主要包括動態時序類、文本類、網絡類三種,“總的思路是在金融場景下,將專家的經驗變成機器能夠理解的數據,不斷訓練機器,提高機器的學習能力,最后讓機器處理人力無法解決的問題。”

以下為演講全文,雷鋒網AI金融評論進行了不改變原意的精編。

今天大家講金融大數據,主要都在說強金融數據之外的“另類數據”。我們這些做計算機工作的,能感受到風控專家最痛苦的地方,是他們希望按照以前定規則的方式,把這些數據編碼到以往的評分體系里。比如以前你可以根據工資多少、納稅多少做評分卡,所以對那些金融概念之外的數據,比如一個人一天和多少人打電話,他的互聯網行為、社交狀況等,風控專家一開始也想根據傳統經驗把這些數據變成特征變量,結果發現它們遠遠超出了評分卡可處理的范圍。

以前我們在互聯網里面處理的就是這些數據,我們訓練機器在一堆照片里識別誰是章子怡,不是告訴它誰長得美長得白就是章子怡,不是這樣的。但是我們依然能做出識別率非常高的模型,這里面沒有什么神奇的單項技術,它是一系列技術。同理,我們今天用AI技術去處理金融領域的另類數據,也不是圍繞一個非常fancy的技術,不是首先要遷就人的理解范疇,我們是為了達到實際效果才出發的。

三種“另類數據”的處理方式

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

氪信另類數據構建強風控體系工作總結圖

一般來說,難以做成評分卡的另類數據主要包括動態時序類、文本類、網絡類三種,這些讓風控專家束手無策的數據問題,機器都能解決。總的思路是在金融場景下,將專家的經驗變成機器能夠理解的數據,不斷訓練機器,提高機器的學習能力,最后讓機器處理人力無法解決的問題。

時序數據是基于時間的一系列數據,如果風控人員要用評分卡把這類數據歸類成一個一個特征變量會極其痛苦,但是機器不同,它可以存儲和處理大量的時序數據,是一種關注總體而非個別節點的方式。

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

這是我們跟京東金融的一個合作成果,相關論文發表在2018年的KDD上,主要是處理發生在APP上面的序列化行為,比如個人注冊了一個頁面,輸入了一些信息,點擊的速度,從左邊滑還是右邊滑……這樣一些數據,然后從中找出有欺詐嫌疑的一些人的特征,并提出了一套行為事件流時序模型框架。這套框架的提出基于一個很自然的想法:這些年大家多用深度學習,尤其是LSTM(基于深度循環網絡的特征提取框架),它特別適合處理時序型數據。所以我們就把這類序列行為編碼到我們的LSTM模型里去。

做到這一步還不夠,我們還有一套框架是用CNN的模型對序列行為衍生特征。具體結果可以看我們在KDD 2018上面的paper。

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

文本類數據處理方式

在金融行業,以前大家可能對文本數據束手無策,因為你很難將一系列的對話文本轉變成數字化變量,解釋給計算機聽,最后還能輸出結果。我們能做到的是在一個限定的場景里面,給出一個很好的結果。因為你每對它多做一個限制,你的計算復雜度就會降低很多,在有限的計算資源和技術條件下,就能得到一個足夠好的效果。

第一篇論文主要講我們建了一套QA問答體系的特征,從一段文本最后變成數值化的向量,其實是有標準做法的。但是我們發現,在一個限定的場景里,比如說客服場景是一問一答的方式,單單用X-Encoder(基于無監督深度學習的特征提取框架)是不夠高效的,于是我們做了一套針對QA的基于X-Encoder的催收風險模型交互式特征提取框架,專門適合金融領域的一問一答。

第二篇論文是關于提取客戶標簽的,通過對話把你的context提取成標準事件。這件事的關鍵點在于,今天金融機構的客服人員,都是被訓練成機器一樣在工作,一個新人招進來以后,就用標準化的培訓模板去教導他,告訴他比如客戶講了這句話以后,你要講哪些話,怎么給客戶打標簽等等。所以我們的工作是構建一個知識庫,建立標準對話流程預測體系,讓這個新人可以更快地上手。我

第三類網絡數據,因為個人數據非常有限,尤其在金融領域,大數據風控其實需要大量的訓練樣本,但金融場景里面的訓練樣本是非常寶貴的,比如你想獲得一個人是壞人的樣本數據,那么至少得有一筆幾萬塊的壞賬,這個成本非常高。這跟我們以前做互聯網預測分析不一樣,用戶喜不喜歡一部電影,一個廣告,或者一個手機殼,這件事情的成本沒那么高。

我們的做法是找到類似的人,從他的申請資料和社交關系上面去抽取知識,做聚類。當你發現了一個壞人,那么跟他類似的那群人是壞人的概率就非常高。也就是說,當你找到有效的群體之間相似這種關系以后,是有助于對個體風險做識別的。當然僅僅個人的大數據還不夠,我們還需要借助更多的大數據,最后用集成模型把個人的風險特征和局部網絡、全局網絡上建立的風險特征結合在一起,提升風險預測效果。

模型的可解釋性:AI下一個突破點

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

剛才講的是幾類不同類型的另類數據處理辦法,這個過程中我們始終有個挑戰,那就是你做的模型是一個黑盒,沒有辦法解釋。我不能告訴金融機構,誰用了這種方法,效果很好,這對金融機構來講是不能接受的,你一定要告訴他為什么。這其實也是整個AI領域最頭痛的事情,在業務場景特別明顯的地方,比如醫療領域,困難更加明顯,比如AI診斷說要切掉一條腿,為什么?你不能說是model預測的,或者最后說model出錯了,那這個醫院肯定是會關門的。

所以模型的可解釋性是深度學習突破之后AI面臨的新挑戰,在通用模型上目前我還沒有看到特別好的解決辦法。但是在具體的金融場景里,我們可以在某種程度上給出解釋。有兩個辦法:一個是局部的近似,用低維模型擬合高維模型,它參考了博弈論里面的東西,最后得到最優的決策,是倒推博弈論的過程,這個我們有成型的產品,用在了我們的風險解決方案里面;第二個是把AI模型里最重要的幾個特征變量找出來,解釋給業務專家聽。

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

左邊第一個是帶有時間先后序列特征的實踐結果。指標主要就是模型區分度,KS值和AUC。按照KNN的通常做法KS值是0.142,再用一個神經網絡去做MLP,KS值達到0,167。加上這些特征以后,進一步提升到0.203,在一個典型的場景上,加上行為數據,KS值可以做到0.216,差不多提升了50%以上。

第二個是短文本信息提取模型效果,傳統做法和利用AI模型的做法在數值表現上效果差不多,但是后者的擴展性更強,因為原來要求人非常有經驗,時時想著應對策略,有了這個框架以后就不用人費力去調參了,機器會替代部分人力工作。

第三個是對社交網絡數據的使用效果,如果只是單純用個人的風險數據,KS值是0.3;加上基于圖的特征以后,有類似于人群的特征,很明顯提升到0.38。

右邊是加入上述三種類型數據以后的綜合表現,我們也可以看到KS值是不斷增長的。

從個體數據處理經驗遷移到群體

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

群體風險方面,這兩年監管對反洗錢和可疑交易監測要求很嚴格,以前國內監測個人的欺詐風險,主要是基于規則和個人上報,風險運營部門會用很多人工去找,效率很低,現在欺詐的手段層出不窮,就需要用人的規則和以前發生過的欺詐事件訓練機器去抓。原來為了抓可疑交易,假設要雇一百個人人工去看,現在是一百個風險運營的人等著看機器提供的樣本是不是對的,再反饋給機器,讓機器訓練得更加準確。

這里的關鍵是使用圖算法。在互聯網行業專門有做圖算法、圖解決方案的公司,提出解決方案來,發現一直沒有成功的。總結起來是兩個點,一定要根據行業知識來做降維;還需要一套有效的計算體系。我們的列式計算引擎能夠在15分鐘內處理百億級別數據,這在以前是很難想象的。

 氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

最下面是原始資金的交易流水。我們知道銀行的交易流水量非常大,不大得話,人工就可以解決了。交易流水形成兩個東西:

首先互相帳戶往來會建立起一個大的Graph,我們會給定以前的可疑種子結點,經過局部社區算法找到跟它關聯的可疑子社區。

比如說放進去10萬個可疑種子,找到10萬個跟它相關的社區。這10萬個社區里一共是上億的帳戶。其中90%以上的都是好人,我們就對其余10%的人群進行重點布控。

 氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?

另外,我們基于風險專家的經驗形成風險知識圖譜,這是一般風險專家會去考慮一個交易往來的特征,從金額、模式、速度、場景方面考慮。

結合這兩個東西來做圖的深度學習預測模型。有了這個模型指導以后,由單個種子去觸發。使用ACL優化的PPR算法,加上Sweep-cut算法,實現大規模的挖掘。最后做到一件事情:通過種子的節點去找密切的社區,學到圖的結構,找到更可疑的人。

講完原理,舉個例子。比如一個大銀行的房貸系統,發現幾十個帳戶,都和叫“X琴”的人有關系,和她的資金往來非常多, X琴可能是中介,或者專門職業給人提供首付、中間過橋的,這里面肯定不正常。如果純靠人工去找的話,很難從幾十億交易流水數據中找到這樣的東西,但是通過圖挖掘可以一目了然看到X琴的帳戶有問題。

雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知

氪信CEO朱明杰:AI如何應對金融另類大數據業務挑戰?
分享:
相關文章

文章點評:

表情
最新文章
請填寫申請人資料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說
浙江十一选五开奖直播