微票兒技術(shù)VP楊森淼這一連串的數(shù)據(jù)背后,有著什么樣的支撐技術(shù)?日前,微影時代研發(fā)中心技術(shù)副總裁楊森淼做客“騰訊云會客廳”,對話騰訊云副總裁曾佳欣,解讀了微票兒年增長4000%背后的大數(shù)據(jù)和云計算技術(shù)體系楊森淼表示,微票兒的核心在于利用大數(shù)據(jù)做精準營銷及服務(wù),通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)、奇異值分解(SVD)等算法對 200TB 用戶數(shù)據(jù)和行業(yè)數(shù)據(jù)進行分析,微票兒得以精準地把握用戶需求,提升了票房轉(zhuǎn)化率;同時,面對用戶量高速增長時期高峰值、大流量的挑戰(zhàn),云計算資源的高伸縮性、安全性也是支撐不間斷運營的必備條件微票兒會根據(jù)用戶熱度建議影院優(yōu)化排片,首先通過數(shù)據(jù)分析用戶位置和用戶附近的影院,然后反哺上游,并為影院經(jīng)理也開發(fā)微票專業(yè)版,幫助他們了解到自身影院數(shù)據(jù),以確定排期和行業(yè)大盤??梢哉f我們的核心競爭力就是利用整個大數(shù)據(jù)來為電影行業(yè)、演出及體育行業(yè)去做服務(wù)、公司宣傳片拍攝連接和營銷目前微票兒產(chǎn)生的日志條目數(shù)上百億條,業(yè)務(wù)累計的數(shù)據(jù)量不少于千萬量級,之巧用對比拍風(fēng)光,行業(yè)大數(shù)據(jù)則是以爆炸性的速度不斷擴展,目前微票兒的大數(shù)據(jù)的數(shù)據(jù)存儲總量已達200T算法從邏輯上來看,這個過程又包含了兩個部分的算法1. 特征工程算法 特征工程是指為了提高算法準確性,對數(shù)據(jù)做的一系列數(shù)學(xué)變換。這部分工程尤為重要,不光考驗算法工程師的數(shù)學(xué)能力,同樣考驗工程能力巨大的數(shù)據(jù)集合無法在單機上進行特征抽取的時候,就需要工程人員需要從單機算法設(shè)計成為并行特征抽取算法。微票兒特征抽取工程上多采用深度學(xué)習(xí)(Deep Learning)技術(shù),這是因為深度學(xué)習(xí)天然的網(wǎng)絡(luò)拓補結(jié)構(gòu)更容易并行,并行存儲也可以滿足龐大數(shù)據(jù)量的存儲需求當(dāng)然,這些算法更多的是要去迎合使用場景。比如CNN(Convolutional Neural Network)和SVD(Singular Value Decomposition),這兩種降維方法會因為業(yè)務(wù)場景不同而區(qū)分使用2. 目標結(jié)果算法通過特征工程算法得到的重要維度,交給“目標結(jié)果算法”來處理除了常規(guī)機器學(xué)習(xí)/深度學(xué)習(xí)算法以外,微票兒對于不確定數(shù)學(xué)的相關(guān)算法也有一些應(yīng)用。因為許多場景下,精確估計表現(xiàn)并不是很理想,尤其當(dāng)自變量解釋能力不強的時候比如常用的 Regression 算法對于確定信息有著極高的預(yù)測能力,但是對于不確定信息來說顯得比較無力。針對這類場景,微票兒采用了不確定信息的描述,諸如“Entrop(熵)”和“lyapunov”。因此,除了日常所需的數(shù)據(jù)存儲和抽取集群以外,微票兒把算法重點放在更遠的并行內(nèi)存計算技術(shù)上楊森淼希望可以把深度學(xué)習(xí)計算并行在造價低廉的內(nèi)存計算平臺上(如Spark集群),可以在不減少輸入?yún)?shù)和神經(jīng)網(wǎng)絡(luò)規(guī)模的前提下,更優(yōu)地完成任務(wù)。為了抵消與高速“GPU”的速度差,微票兒使用了眾多集群,并采用“伸縮”模式,訓(xùn)練過程結(jié)束之后,集群自動伸縮為一般模式,這樣避免了與“GPU”集群一樣的硬件必須消耗問題很容易看到,影視視頻制作大數(shù)據(jù)平臺不完全在云上。楊森淼比較了自建大數(shù)據(jù)平臺和云大數(shù)據(jù)平臺的優(yōu)劣: 1. 自建大數(shù)據(jù)平臺的優(yōu)點用戶根據(jù)自身需求規(guī)劃建設(shè)完全貼合業(yè)務(wù)需求的大數(shù)據(jù)平臺,暫且踢出了這一腳影視視頻制作且平臺建設(shè)與業(yè)務(wù)發(fā)展相互促進。影評動畫片灌籃高手評論7,技術(shù)機構(gòu)版本的升級、新技術(shù)的引入,資產(chǎn)管理、自動化運維、權(quán)限認證等系統(tǒng)研發(fā)完全由用戶自己決定,可控性強。大數(shù)據(jù)平臺技術(shù)團隊對架構(gòu)中每項技術(shù)都會有持續(xù)深入的研究,保障了平臺的穩(wěn)定及不斷創(chuàng)新,增強了公司的技術(shù)影響力2. 自建大數(shù)據(jù)平臺的缺點對平臺技術(shù)團隊成員的綜合能力(學(xué)習(xí)能力、創(chuàng)新能力)要求較高。IT行業(yè)的特殊性、對團隊成員的穩(wěn)定性要求較高3云大數(shù)據(jù)平臺的優(yōu)點服務(wù)商有完善的解決方案體系,根據(jù)用戶的具體需求及應(yīng)用場景為用戶提供合適的技術(shù)架構(gòu)。每套技術(shù)架構(gòu)又是一套完整的生態(tài)系統(tǒng),除了大數(shù)據(jù)平臺本身,還附有資產(chǎn)管理系統(tǒng)、自動化運維系統(tǒng)、監(jiān)控報警系統(tǒng)、權(quán)限認證系統(tǒng)、安全保障系統(tǒng)、各層面HA等4. 云大數(shù)據(jù)平臺的缺點提供給客戶的每套解決方案往往不能完全貼合用戶需求,加上技術(shù)架構(gòu)各個組件及環(huán)節(jié)的定制封裝,為用戶增加了不同程度的學(xué)習(xí)及維護成本。當(dāng)用戶需要將一些前沿技術(shù)或第三方組件整合到云大數(shù)據(jù)平臺時,服務(wù)商往往需要很長的時間甚至直接告訴用戶暫沒有這方面的研發(fā)計劃微票兒根據(jù)業(yè)務(wù)場景選擇自建平臺或者云平臺:業(yè)務(wù)數(shù)據(jù)倉庫的建立目前還在本地物理集群,因為涉及業(yè)務(wù)數(shù)據(jù)量大,且計算及配置環(huán)節(jié)較多,對數(shù)據(jù)準確度要求較高。一些競品分析預(yù)測、票房預(yù)測、輿情預(yù)測及用戶行為分析等方面的分析、預(yù)測類計算,則是在云上完成的。一些實時計算及準實時業(yè)務(wù)服務(wù),也大都在云上進行,這樣可以最大程度的縮短由于網(wǎng)絡(luò)或數(shù)據(jù)交互帶來的時延。數(shù)據(jù)傳輸方面,關(guān)系數(shù)據(jù)T+1與T+0數(shù)據(jù)批量同步,百萬級數(shù)據(jù)同步基本在1分鐘內(nèi)完成,流數(shù)據(jù)實時接收處理,秒級響應(yīng)后續(xù)努力的方向,楊森淼表示,是如何發(fā)揮好在“大數(shù)據(jù)和社交”兩個方面的核心優(yōu)勢,用“懂社交的大數(shù)據(jù)”把電影演出等娛樂產(chǎn)業(yè)和觀眾更好的連接在一起,比如騰訊云的優(yōu)圖人臉識別有效幫助了微票兒的數(shù)據(jù)采集,而這個能夠更加豐富自身大數(shù)據(jù),實現(xiàn)更好的洞察。