用戶名:
密  碼:
  企業新聞   當前位置首頁新聞中心新聞正文  
5G時代,AI能走多遠?
發布時間:2019/4/25 9:11:59    來源:轉載    作者:佚名    閱讀:379

公元2039年,早上7點鐘,大劉匆匆忙忙吃過早飯,點了一下手機中的“App”一鍵喚車功能,他的小汽車自動從地庫駛出,停泊到上車的地點。大劉背著書包走近汽車。布滿汽車周圍的感應探頭識別出車主的模樣,自動打開車門,并開始播放大劉在上班路上經常聽的財經新聞頻道,座椅按照車主慣常的坐姿自動進行了位置調整,進入自動駕駛。汽車通過密布車輛周圍的探頭信息識別周圍車況,并實時通過超高速的5G帶寬將收集到的數據回傳5G云端。云端超大的計算能力不僅分析整體城市路況,同時根據中心化數據處理能力適時調整小車的行駛路線,躲避擁堵路段。AI技術不僅介入了車輛的邊緣計算,實現了路況的實時感知,同時也借助基于5G高速通信網絡的云端處理單元,對于一些匯總的信息數據進行集中分析,并針對一些特殊路段的車輛自動駕駛進行接管,同時全程實現車輛自動導航。在此期間,大劉舒服地小憩了20分鐘,這樣的場景并不遙遠。隨著云端AI處理能力的提升,以及5G通信網絡對于交互速率和時延的優化,密布車輛周圍大量攝像頭、傳感器、雷達以及復雜的計算單元可以大幅度削減,從而使得低成本的自動駕駛技術實現大眾應用成為可能。

以上描繪的日常普通通勤場景并不是不可預期的美好夢想,也許在不久的5~10年就可以真正實現。實現智能化的自動駕駛取決于兩個關鍵因素,其一需要有高速且超低時延的穩固信息交互連接,另外一點就是在邊緣以及中心云化節點所部署的人工智能技術進行實時的分析處理。人工智能技術目前主要在圖像識別、語音語義識別和翻譯等領域大放異彩,這一方面由于圖像、語音識別等領域已經在原始訓練數據的積累方面有了大量可靠的標注樣本,比如在類似河南這樣的人口大省有很多較小規模的人工智能公司專門從事圖像、圖片的人工標注工作,這些寶貴的訓練樣本獲取所需人工成本較低;另一方面,人工方式對于圖像進行標注專業門檻較低,標注質量也能得到有效保障;除此之外的因素是互聯網普遍使用,由于互聯網的信息獲取的便捷性使得獲取數據的成本進一步降低,同時可以短時期內積累超大量的訓練數據,這幾個因素恰恰是其他專業領域行業應用中由于各種各樣的原因所缺乏的。盡快面臨著諸多不確定因素,我們仍然可以通過大致回顧剖析目前業界流行的人工智能技術嘗試尋找“破局”的思路。

數據挖掘、機器學習、人工智能這三個名詞在業界一直有各種定義和解讀,如果站在具體算法層面,這三種說法本質上一樣,都是基于統計學、數學、仿生學、計算機技術等交叉學科的基礎所形成的特定數據分析方法,其目標是根據已有數據信息進行分析處理,最終產生知識或者進行預測的整個過程。為了便于理解,我們將三個概念合三為一,而不進行特別區分。(注:廣義人工智能包含自動化、機器人等拓展概念)

人工智能(AI)算法按照訓練樣本數據的標注程度可以分為“監督式學習”和“無監督學習”兩大陣營,而近年來業界熱度比較高的“半監督學習”和“強化學習”可以算是這兩大類經典AI算法陣營的衍生物。監督式學習與無監督式學習算法的重要區別在于預先獲取數據樣本中是否有標注。所謂標注的概念非常簡單,例如在互聯網中對于一張貓的圖片可以標注為“1”(是貓)或“0”(不是貓),這里的“1”和“0”就是標注信息,標注可能是離散型數值也可能是連續型數值,甚至也可能是名詞類數據。監督式學習包含了基于離散標注數據進行分析預測“分類算法”和基于連續性標注數據進行分析的“回歸算法”。無監督式學習主要包含了聚類算法和關聯分析類算法。分類算法作為一種需要借助預先標注信息進行分析輸出的算法占據了業界應用的主流。近年來業界很流行的神經網絡、深度學習本質屬于分類算法的范疇。

監督式學習陣營中包含KNN(K近鄰算法)、決策樹、GBDT/隨機森林/AdaBoost、樸素貝葉斯、邏輯回歸、SVM(支持向量機)、神經網絡(深度學習)等業內比較流行的機器學習算法。無監督式學習陣營中包含經典的K-Means(K均值)算法、DBSCAN算法以及一些與關聯分析相關的算法(Apriori、FP-Growth樹)。除此之外,我們將一些與數據預分析處理的算法也納入這個范疇,包括主成分分析(PCA)實現數據降維、矩陣奇異值分解(SVD)實現數據降維等。盡管還有一些諸如遺傳算法、蜂群算法、退火算法等針對“非凸優化”問題求解的算法,這些算法本質上屬于多目標并行處理的效率優化問題,并不在此進行擴展討論。

KNN算法是機器學習中最容易實現的算法,該算法通過和已有數據樣本根據“距離”基礎進行相似性比對,從而實現新的數據樣本分類或者預測。KNN算法可以應用在許多領域中,例如存儲文件搜索、低像素維度的圖像識別、電影評級、約會網站推薦等許多有趣的應用。該算法的劣勢也很明顯,在訓練學習中需要通過遍歷的方式,耗時較長,而且每次對于新的數據預測無法實現“在線更新”,只能依賴“離線方式”進行遍歷,效率較低,同時,算法可解釋性較差,“知識”不易于累計存儲。

決策樹算法是非常經典的機器學習算法,該算法很形象地以“樹”的結構基于訓練數據樣本對信息進行劃分呈現。決策樹并不是簡單的“IF-ELSE”邏輯劃分,“樹杈節點”根據信息論中的“熵”的概念進行劃分。其“樹杈劃分”的基本思想是在每次“樹杈節點”的劃分中都把當前最具有典型代表意義的數據樣本劃分一組,剩下數據按照這樣的方式繼續劃分,直到形成“葉子節點”。決策樹算法的劃分宗旨是使得“樹”的結構越清晰越簡化越好,這符合“信息熵”理論中能耗越低越穩定的設計理念。決策樹應用的場景也比較普遍,對于數據規模較小的標稱型數據的分析預測非常有效,例如生物學家根據海洋生物的特征進行魚類或者哺乳類動物的劃分。決策樹算法可以解決二分類問題,也可以對多分類目標進行求解。另外,決策樹算法還可以進行“知識沉淀”,可以在抽象的數據中將事物內在的規則顯性化。當然,決策樹算法在應用中也有很多的局限,首先,決策樹是基于貪心算法的一種尋優劃分策略,往往找到的不是全局最優解;其次,當訓練樣本數據眾多的時候,龐大繁雜的“樹”結構容易造成過擬合問題,使得算法預測精度下降。盡管像基于數值處理的CART樹能夠通過全局遍歷的方式改進貪心算法局部解的問題,但依然存在過擬合使得算法性能下降的問題。

在機器學習中,使用單決策樹進行預測,預測精度往往不是很高。這時可以采取“眾籌決策”的方式來提升,這里“眾籌決策”指的是集成學習算法,業內比較流行的隨機森林、GBDT(Gradient Boosting Decision Tree)、AdaBoost等都屬于這一算法類別。所謂“眾籌”或者“集成”概念是通過參考多個強決策器的共同決策結果,從而規避單個弱決策器的預測精度局限的一種技術手段提升。雖然以上三種算法同屬一個概念范疇,但提及的這三種流行算法在具體原理以及實現方面還是有所不同。集成學習在理論上分為兩種,一種是Bagging實現方式,隨機森林就屬于這一類實現。另外一類是Boosting實現方式,GBDT/AdaBoost屬于這一類實現方式。隨機森林這個名稱很形象地說明了該算法的本質,多棵決策樹共同投票決定最終的分類結果,這樣從“樹”就成長為“森林”,而每棵決策樹是從整個數據集中按照一定比例隨機選取部分訓練數據生長形成。隨機森林相比單棵決策樹的優勢顯而易見,其預測精度更高,但解釋性較差,同時由于其隨機選擇部分樣本空間的屬性導致算法運行對于最終的預測結果有一定的波動性,為了處理這樣的隨機波動性,Boosting的實現方式得以引入。相比Bagging可基于原始數據樣本空間以并行數據處理的方式進行實現,Boosting則以一種串行數據處理的方式進行實現,其基本實現思想為在每次迭代訓練過程中將上一次錯分的樣本權重放大,并在下一次迭代訓練中著重聚焦解決歷史遺留錯分樣本,使得每一次的迭代中都能夠將預測性能提升(Boosting)。GBDT與AdaBoost同屬于Boosting的思想,但二者在具體實現方法上仍有較大的不同,AdaBoost選取的投票基函數(注:就是每次迭代單獨產生的決策器)一般選擇決策“樹樁”這樣的單節點的弱分類器,盡管也可以選擇其他的分類算法作為基函數,但相關文獻表明弱分類器作為基函數的預測效果更加理想,因此AdaBoost一般適用于處理離散數據分類問題,而GBDT是一種基于CART樹的Boosting算法,該算法通過每次迭代力圖縮小損失函數的殘差,從最初始的弱分類器(決策樹)不斷擬合成長為強分類器(CART樹)。GBDT同樣可以處理離散型數據的二元或多元分類問題,但其對于連續型數據的回歸問題更加直接有效。GBDT在BAT這樣的互聯網大廠中都有廣泛的應用,由于其泛化性能突出,在近年來流行的機器學習算法中占據重要一席。


 
 
公司名稱: 日海恒聯通信技術有限公司 豫ICP備05002320號
公司地址: 鄭州市航海東路1346號國安大廈B座12層
聯系電話:400-865-0258     公司E-mail: hltxgs*hlctc.com.cn

技術支持:萬博網絡
财富城堡试玩 p3开机号多少 求时时彩后一稳赚方法 市政项目经理如何赚钱 阅读新闻赚钱有风险吗 贵州快三基本走势图 龙王捕鱼官网 18选7一百期基本走势图 微微套利真的赚钱吗 赚钱不费力 费力不赚钱议论文 甘肃快3开奖果彩票控 梦幻西游新区一医生4天宫赚钱吗 幸运飞艇杀1码 功夫鸡排赚钱哪 彩票25选7开奖结果 快乐10分人工计划 三星主题商店上传赚钱