導讀:騰訊作為國內體量**大的互聯網公司之一,業務涵蓋用戶日常生活的方方面面,面對如此巨大業務數據量,如果不能對數據進行專業化處理并高效有序地存、管、用,如果不能使數據產生應有的價值,那么數據資產將會成為數據垃圾,成為社會和企業的負擔。大數據平臺作為騰訊底層的基礎設施之一,每天必須處理千萬級規模的離線數據任務及十萬億級別的實時計算,否則無法滿足業務每天數以億計的數據分析計算的需求。本文主要介紹騰訊大數據的構建理念和總體架構。01騰訊大數據的構建理念項目立項的時候我們曾有過激烈討論,是自主研發還是使用開源,“Tobe,ornottobe:thatisthequestion”。當時業務需求比較迫切,2009年上半年,QQ空間引入了“開心農場”業務,開啟了瘋狂增長的模式,業務部門的同事看著幾乎是垂直的增長曲線笑逐顏開,我們看著曲線卻笑不出來。如何能快速構建全新的數據倉庫,滿足業務快速增長的計算需求,我們在努力尋找答案。在2008~2009年,開源在國內還沒大行其道,很多程序員都有一種偏見,覺得使用開源都是沒什么技術含量的。幾乎所有的程序員心里都有一個夢想和追求,希望能自己實現一套前列的系統,從而在中國乃至世界的軟件行業揚名立萬。數據采集可以幫助企業進行預測和預測,準確預測市場需求和趨勢,以便做出更明智的決策。鎮江光學數據采集單價
如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。[7]當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品**,從而找出商品之間關聯關系的關聯算法,并根據商品之間的關系,找出客戶的購買行為。艾格拉沃從數學及計算機算法角度提出了商品關聯關系的計算方法——Aprior算法。沃爾瑪從上個世紀90年代嘗試將Aprior算法引入到POS機數據分析中,并獲得了成功,于是產生了“啤酒與尿布”的故事。[7]2、Suncorp-Metway使用數據分析實現智慧營銷Suncorp-Metway是澳大利亞一家提供普通保險、銀行業、壽險和理財服務的多元化金融服務集團,旗下擁有5個業務部門,管理著14類商品,由公司及共享服務部門提供支持,其在澳大利亞和新西蘭的運營業務與900多萬名客戶有合作關系。嘉興數據數據采集訂制價格數據采集需要進行數據清洗和處理,以確保數據的準確性和可靠性。
然后將采集得到的數據,通過實時或者批量的方式,向后進行傳輸;對于這些傳輸過來的數據,選擇合適的數據模型進行ETL和建模,并且根據后續的應用選擇合適的存儲方案;在數據完成建模并且存儲下來之后,就可以對數據進行統計、分析和挖掘等數據應用;而這些數據應用的結果,一方面,可以通過數據可視化的方式,直接展現,并幫助我們做出各種產品、運營和商業等方面的決策;另一方面,這些數據應用的結果,也可以直接反饋給產品,以類似于「猜你喜歡」的產品形態,直接作用在產品上。很顯然,在一個典型的數據應用上,數據采集是***個環節,是源頭,是一切數據應用的起點。如果數據采集沒有做好,影響了整體的數據質量,那么,在后面環節再想進行彌補,其代價會很大,效果也會大打折扣。**終的數據應用,以及基于應用得到的決策與反饋的質量也必然會受到影響。從這個意義上來講,無論我們如何強調數據采集的重要性,也都不為過。正是因為我們意識到了數據采集的重要性,神策數據的愿景隨之誕生,即“幫助中國三千萬企業重構數據根基,實現數字化經營”,希望通過我們的努力,能夠幫助我們的客戶和合作伙伴更好、更***地采集數據,從而**大化地發揮數據的價值。
但是盤點了業務的需求以及對比了那時候團隊能力和所能調配的人力之后,我們發現實現這么一套系統,無異于登天。完全自主研發新一代的數據倉庫是難以攀爬的珠峰。此路不通,只能改走開源路線。其實開源有很多好處,它有著豐富的社區資源和社區生態,有著龐大的各路代碼貢獻者,使用開源的系統,相當于利用了全世界的資源,利用了全世界的程序員的智慧。使用開源項目,能快速搭建適應業務需求的平臺。但開源對于我們來說也并不容易。首先,技術棧不一樣,我們原來是C/C++技術棧,是做計費系統的,而大數據開源基本以Java為主,需要從頭去學,幸好語言的差異并不是很難克服,我們邊學習邊招聘有大數據經驗的開發者,慢慢地做了起來;另外,大數據生態是很龐大的,每一個項目都不足以達到企業級的需求,每一個項目都要進行大量的優化,才能符合我們可用性方面的需求。從**初的蹣跚學步到現在,騰訊大數據走過了十余年,歷經三代技術演進。***代是“拿來主義”,拿來就用,但部分系統比如HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系統)、Hive等因為性能、功能不能滿足需求,我們對**模塊進行了定制化的優化;第二代是有限自主研發的階段。數據采集可以幫助企業進行目標市場定位,提高市場營銷的效果。
工廠生產數據采集系統特色1、實時數據庫企業級的生產數據實時平臺分布式數據架構、滿足集團需求實時訪問全廠生產數據高效的數據壓縮算法長期保存歷史數據支持在線計算和統計支持遠程范圍多種數據接口個性化定制服務、靈活滿足用戶需求不間斷穩定運行2、車間組態組件專業的圖形仿真技術監控畫面與實際生產活動保持一致豐富的設計工具工程組態模板(采集模板、畫面模板、腳本模板、圖形模板)組態工程開發XML多語言操作系統兼容支持完整的PLC協議具備定制化組態能力可進行設備改造、信號轉接數據采集技術在能源管理中可以用于監測能源消耗和優化能源利用。嘉興企業數據采集開發
上位機要采集到下位機記錄的數據,這個過程就是數據采集,數據采集有利于管理者對生產情況的監控。鎮江光學數據采集單價
我們在探索云原生大數據,我們也在嘗試AI、大數據及云計算結合和軟硬件結合,我們還在研究數據湖和隱私計算等前沿技術……大數據、人工智能和云計算,正在成為支撐業務發展的基礎設施,下一代,會更精彩。本文摘編于《騰訊大數據構建之道》,(書號:69)。推薦語:騰訊官方出品!騰訊大數據構建之道***對外披露!騰訊大數據平臺十年磨一劍,踐行“科技向善”落地方案更多精彩回顧書訊|8月書訊(上)|重磅新書來襲!書訊|8月書訊(下)|重磅新書來襲!資訊|《Java**技術》基于Java17***升級!干貨|再見了Java8,Java17:我要取代你干貨|李三紅:Java版本升級需要納入到可持續性維度干貨|市面上的大前端崗位到底是做什么的?新書|全球首本系統介紹對偶學習理論、算法、應用的著作。鎮江光學數據采集單價