對話【友盟+】李丹楓:每天處理百億級事件,超大量級數(shù)據(jù)場景下數(shù)據(jù)團隊如何健康運轉(zhuǎn)?
對話【友盟+】李丹楓:每天處理百億級事件,超大量級數(shù)據(jù)場景下數(shù)據(jù)團隊如何健康運轉(zhuǎn)?
來源:THU數(shù)據(jù)派 時間:2017-06-16 13:09:19 作者:薛婭菲 魏子敏 盧苗苗
“數(shù)據(jù)對于數(shù)據(jù)科學家來說是非常重要的,甚至比算法還重要。要知道,再好的模型都是靠數(shù)據(jù)養(yǎng)的。因此在數(shù)據(jù)應用層面,我認為中國比美國更有優(yōu)勢?!?/p>
曾供職于雅虎,微軟,F(xiàn)ICO等多家領先科技公司,【友盟+】CDO李丹楓感慨到。
大數(shù)據(jù)發(fā)展的下半場,意識到數(shù)據(jù)重大價值的不止李丹楓,而在數(shù)據(jù)產(chǎn)業(yè)中,爭奪數(shù)據(jù)話語權(quán)的無聲戰(zhàn)爭也正愈演愈烈。2016年1月,友盟、CNZZ和締元信三家各自擁有本行業(yè)大批量數(shù)據(jù)的公司合并,組成了新的公司【友盟+】,而新生的【友盟+】數(shù)據(jù)體量遂之倍增到中國乃至全球矚目。
驟然增多的數(shù)據(jù)量一方面讓【友盟+】在眾多的數(shù)據(jù)服務提供商中,獲得了天然的數(shù)據(jù)體量優(yōu)勢,另一方面,數(shù)據(jù)的合并和數(shù)據(jù)團隊重新定位整合也給管理層帶來了前所未有的挑戰(zhàn)。就大公司內(nèi)部的數(shù)據(jù)治理與整合、數(shù)據(jù)產(chǎn)品和數(shù)據(jù)團隊的重構(gòu)等話題,我們與李丹楓進行了深度對話。
每天處理約280億事件
高數(shù)據(jù)體量下,如何定義和實現(xiàn)高效計算?
合并后的【友盟+】數(shù)據(jù)體量到底有多大呢?
李丹楓稱,合并后,【友盟+】覆蓋的用戶行為數(shù)據(jù)打通了PC、手機、傳感器、無線路由器等多種設備。用數(shù)據(jù)具象展現(xiàn):
【友盟+】覆蓋125萬個APP;
每天監(jiān)測14億移動設備;
每天監(jiān)測680萬個網(wǎng)站;
每天處理的事件數(shù)約280億。
面對如此龐大的數(shù)據(jù)量,李丹楓坦言:第三方數(shù)據(jù)量級太大、覆蓋面太廣。面對全面打通的數(shù)據(jù),【友盟+】的數(shù)據(jù)團隊首先要解決的問題是:如何定義和實現(xiàn)用戶行為數(shù)據(jù)的高效計算?以【友盟+】提供的風控業(yè)務為例,用戶行為數(shù)據(jù)的量級大但數(shù)據(jù)深度淺,對于數(shù)據(jù)團隊來說,在這種數(shù)據(jù)上做挖掘很有挑戰(zhàn)性。同時,這項服務會承擔大量的外部查詢量。
首先擺在數(shù)據(jù)團隊面前的是數(shù)據(jù)的全量更新或按需更新的選擇。這個選擇題經(jīng)常出現(xiàn)在一個數(shù)據(jù)模型的訓練和測試階段。建模時不僅要考慮到基于不同層面的數(shù)據(jù)特征清晰地定義目標,還要考慮當模型成型后,所有的指標需要被有效地計算。如果數(shù)據(jù)科學家的決策是數(shù)據(jù)指標需要每天全量更新,每天將有幾十億個ID的數(shù)據(jù)回溯到數(shù)據(jù)訓練的平臺上,帶來的是巨大的計算量和計算資源的占用。同時需要數(shù)據(jù)工程師協(xié)助數(shù)據(jù)科學家搭建有效的數(shù)據(jù)生產(chǎn)環(huán)境,保護計算的穩(wěn)定性。因此,數(shù)據(jù)全量更新或按需更新的選擇直接決定了存儲和計算資源的消耗量,也就是成本。為此李丹楓博士為我們介紹了“代碼健康度”的概念和評價標準。
很多時候機器是在“傻算”
給定代碼“健康”度規(guī)則,高效挖掘數(shù)據(jù)價值
“我們要讓數(shù)據(jù)團隊有這樣的意識,一定要用最高效的方法來實現(xiàn)計算。尤其在數(shù)據(jù)體量巨大的場景下,差一點就會差很多”,李丹楓說到“比如說100億個ID,如果每個計算能提高1%,能節(jié)省的資源是很大的。”對資源的消耗與公司的生存直接相關,作為CDO,李丹楓必須清晰地界定“高效計算”的評價標準,督促并激勵數(shù)團隊能夠有效地使用數(shù)據(jù)。
【友盟+】的數(shù)據(jù)團隊分為數(shù)據(jù)科學家和數(shù)據(jù)工程師,有不同的checkpoint來保證“高效”。友盟對于代碼有一套評價體系——代碼“健康”度。里面囊括了經(jīng)常出現(xiàn)的代碼錯誤、模型的穩(wěn)定性(對變量依賴程度的評估)、模型的可持續(xù)性(不同版本更新的用戶體驗是否順暢)和對占用資源的評估。如果一個數(shù)據(jù)科學團隊的代碼連續(xù)三次被監(jiān)測為“不健康”,他們在組織中的權(quán)重會相應降低。對于數(shù)據(jù)科學家來說,對業(yè)務的理解直接關系到在特征的實現(xiàn),需要在建模的階段定義好數(shù)據(jù)和好方法?!安灰^分追求模型的極致表現(xiàn)。
比如一個模型的表現(xiàn)30%都依賴于1~2個變量,在實驗室里的表現(xiàn)可能非常好。在實際生產(chǎn)過程中,一旦這1~2個變量出了問題,可能整個模型的結(jié)果都廢了,這顯然是公司無法接受的。所以,數(shù)據(jù)科學家要時刻提醒自己:你怎么定義你的目標?”李丹楓說。對于數(shù)據(jù)工程團隊來說,內(nèi)部技術(shù)委員會對定期評價團隊正在運用的技術(shù)是否有效。
高效運轉(zhuǎn)數(shù)據(jù)團隊的核心
數(shù)據(jù)團隊的重構(gòu)&數(shù)據(jù)人才的再定義
【友盟+】能夠運作起如此龐大的數(shù)據(jù)量,除了專注于對數(shù)據(jù)的高效使用,還有一個重要因素是合并時的數(shù)據(jù)整合,以及和阿里巴巴內(nèi)部數(shù)據(jù)團隊的合作。公司高層在合并之初發(fā)動了“五大戰(zhàn)役”,從業(yè)務角度出發(fā)整合數(shù)據(jù)。經(jīng)過半年時間確定了三大產(chǎn)品線,其數(shù)據(jù)團隊也在此基礎上重構(gòu)成了三大業(yè)務模塊+上層數(shù)據(jù)價值實現(xiàn)模塊的結(jié)構(gòu)?!拔覀兿M脩粼谟梦覀儺a(chǎn)品的時候就像搭積木一樣,把有需求的模塊拼接起來使用。數(shù)據(jù)在其中是橫向打通的?!崩畹髡f。
整合過程中涉及了數(shù)據(jù)的融合和業(yè)務的融合。模塊制的管理思路保證了其數(shù)據(jù)可以橫向打通。在數(shù)據(jù)標準化及治理方面,【友盟+】全面借鑒了阿里巴巴的數(shù)據(jù)管理經(jīng)驗,針對每一個BusinessUnit遷移數(shù)據(jù)到OneData數(shù)據(jù)體系中。同時,將數(shù)據(jù)全部遷入阿里云,做到降低運維成本及數(shù)據(jù)安全合規(guī)。接下來,數(shù)據(jù)科學家們通過第一方賬號打通和算法打通兩種方式對數(shù)據(jù)進行識別。在數(shù)據(jù)資源打通后可通過第一方登陸賬號,把來源多樣的數(shù)據(jù)識別整合為同一個人的數(shù)據(jù)。而通過建模識可以實現(xiàn)在第一方賬號缺失的情況下的賬號打通。這樣一來,用戶在不同設備、不同賬號中上留下的痕跡就這樣被標準化整合,并在脫敏后成為商家提供決策依據(jù)。
【友盟+】高層合并的流暢性給數(shù)據(jù)團隊和業(yè)務的融合創(chuàng)造了良好的平臺。改組后的【友盟+】數(shù)據(jù)團隊大致分為數(shù)據(jù)科學家和數(shù)據(jù)工程師兩部分,分別負責數(shù)據(jù)價值實現(xiàn)和數(shù)據(jù)基礎保障?!皵?shù)據(jù)從業(yè)者太容易鉆到自己的小圈子里去了。”李丹楓坦言。作為CDO,他需要把數(shù)據(jù)團隊從小圈子里拉出來,激發(fā)團隊的主動性和外向型。他鼓勵數(shù)據(jù)團隊一旦有了新想法,便去說服同伴,組成2~3人的小團隊把這個想法實現(xiàn)出來。再自下而上擴展影響圈,不斷完善想法,直至一個新數(shù)據(jù)應用場景的出現(xiàn),變成產(chǎn)品。在他看來,數(shù)據(jù)人才還需具備:了解客戶、發(fā)現(xiàn)需求的溝通力;說服同伴的領導力;批判思維的洞察力和實現(xiàn)想法的執(zhí)行力。
激發(fā)團隊貢獻想法,驅(qū)動數(shù)據(jù)體現(xiàn)價值。這對李丹楓來說是使命感使然:“我做數(shù)據(jù)的時間比較長,回國后看到有些數(shù)據(jù)沉寂很多年,并沒有利用起來。我是有使命感的。我希望根據(jù)我的經(jīng)驗來判斷數(shù)據(jù)在哪些場景中可能比較容易地產(chǎn)生數(shù)據(jù)價值?!日菀渍墓印?,激勵團隊挖掘更多的數(shù)據(jù)價值。”
對職場新人的期待:放下架子,放手去做!
回國前,李丹楓在美國從事了十多年數(shù)據(jù)挖掘和機器學習方面的工作,曾服務于雅虎,微軟,F(xiàn)ICO等多家領先科技公司。“我不認為在數(shù)據(jù)領域,美國比中國具有明顯的優(yōu)勢。從數(shù)據(jù)團隊的構(gòu)成來看,我認為中美的差異也已經(jīng)非常小了,美國的數(shù)據(jù)團隊里有很多中國人?!崩畹髡f到。
李丹楓認為數(shù)據(jù)人才不單需要有數(shù)據(jù)建模的能力。具體說來,他給了職場新人三條建議:
1、Get your hands dirty。打好基礎,去充分了解在你手上數(shù)據(jù)。不要只想著發(fā)論文,要放下架子,動手去清洗你的數(shù)據(jù),了解你的數(shù)據(jù)。不要怕數(shù)據(jù)“臟”;
2、讓自己成為跨界人才、π型人才。工程方向的學生要補充數(shù)據(jù)知識,數(shù)據(jù)方向的學生要補充工程知識,工程和數(shù)據(jù)方向的學生都要補充行業(yè)知識;
3、務實、主動、合作精神。
人物簡介

李丹楓,【友盟+】CDO,本科畢業(yè)于清華大學,后在美國伊利諾伊大學(UIUC)電子與計算機工程專業(yè)取得博士學位。畢業(yè)之后,在美國工作10多年,服務于包括雅虎,微軟,F(xiàn)ICO等在數(shù)據(jù)應用走在前沿的公司,積累了豐富的數(shù)據(jù)挖掘和機器學習的實戰(zhàn)經(jīng)驗,所參與的產(chǎn)品在金融,保險,搜索,互聯(lián)網(wǎng)廣告及零售業(yè)中有廣泛的應用。
責任編輯:陳近梅
相關知識
對話【友盟+】李丹楓:每天處理百億級事件,超大量級數(shù)據(jù)場景下數(shù)據(jù)團隊如何健康運轉(zhuǎn)?
召集30多位成員組建健康醫(yī)療大數(shù)據(jù)生態(tài)聯(lián)盟,“國家隊”統(tǒng)合健康數(shù)據(jù)時代已經(jīng)來臨?
大數(shù)據(jù)釋放大能量
醫(yī)療數(shù)據(jù)“孤島”:可信數(shù)據(jù)空間如何重構(gòu)萬億級健康產(chǎn)業(yè)生態(tài)?
坐擁過億級數(shù)據(jù)庫 美年健康all in“醫(yī)療+AI”
金域醫(yī)學完成首款醫(yī)檢數(shù)據(jù)產(chǎn)品交易,掘金千億醫(yī)療數(shù)據(jù)市場
專訪太極股份北京健康寶項目團隊 一場城市大數(shù)據(jù)分析應用的大練兵
金域醫(yī)學完成首款醫(yī)檢數(shù)據(jù)產(chǎn)品交易, 掘金千億醫(yī)療數(shù)據(jù)市場
數(shù)據(jù)清洗自動化工具:如何提高數(shù)據(jù)處理效率?
坐擁過億級數(shù)據(jù)寶庫 美年健康打造“新質(zhì)生產(chǎn)力”
網(wǎng)址: 對話【友盟+】李丹楓:每天處理百億級事件,超大量級數(shù)據(jù)場景下數(shù)據(jù)團隊如何健康運轉(zhuǎn)? http://www.u1s5d6.cn/newsview1791395.html
推薦資訊
- 1發(fā)朋友圈對老公徹底失望的心情 12775
- 2BMI體重指數(shù)計算公式是什么 11235
- 3補腎吃什么 補腎最佳食物推薦 11199
- 4性生活姿勢有哪些 盤點夫妻性 10428
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎代謝率(BMR)計算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7828