SCROLL

大數據的下一步：AI、ML、DL

開源大數據技術Hadoop，在今年剛好滿十歲。在大數據的第一個十年，Hadoop成功地讓大數據成為最被看好的技術，這股大趨勢，不僅影響資訊科技的走向，更成為商業熱烈討論的議題。

之所以如此，一方面是隨著網際網路、雲端運算、智慧行動裝置的普及，使得Google、Facebook、Twitter等大型網路公司的用戶數量，呈現爆炸性成長，為了應付全球用戶的規模，這些知名網路技術公司紛紛投入大數據技術，使得大數據成為頂尖技術的指標，瞬間成了搶手的當紅炸子雞。

另一方面，這些網路公司不僅是採用Hadoop這樣的開源大數據技術，更雇用軟體高手開發符合自己需求的大數據技術，再將這些大數據軟體的程式碼開源。如此一來，既吸引更多高手加入開發，亦回饋開發社群，而這樣的效應，也使得大數據開源技術的發展，如火如荼，至今與Hadoop相關的開源軟體已超過一百個，形成龐大的Hadoop生態圈。

在接下來的第二個十年，大數據將會如何發展呢？今年中，我參加在大數據領域頗負盛名的Strata & Hadoop World技術大會，原本我期待這場以大數據技術Hadoop為名的技術會議，主要探討的議題，應該圍繞著Hadoop生態圈的開源大數據技術；然而，在兩天的大會主題演講，不論上臺的是Google、Microsoft這樣的國際大廠，或是百度、阿里巴巴、螞蟻金服、小米等中國網路大公司，談的都是人工智慧（Artificial Intelligence，AI）、機器學習（Machine Learning，ML）、深度學習（Deep Learning，DL）等AI議題。

縱使那兩天的下午議程當中，仍有很大的比例，在探討大數據即時分析、串流運算等議題，然而大會主秀——通常是科技公司展現實力的主題演講，卻是不約而同談AI、ML及DL等技術議題。

在這些原本就是大數據技術領頭羊的眼中，很明顯地，人工智慧、機器學習與深度學習是大數據的下一步，也是大數據第二個十年的兵家必爭之地。

然而，邁向第二個十年後，大數據就不再重要了？其實並不然，這些技術依然重要，只是下個十年的發展，將是以AI為導向的大數據。關於這部份，我們可以從催生Spark、Mesos的柏克萊AMPLab實驗室來觀察。

在大數據第一個黃金十年的後半段，以微批次串流運算技術竄紅的Spark，引領風騷，而Spark的誕生地——柏克萊大學AMPLab，卻將在2016年底吹熄燈號。AMPLab由兩位擁有軟體創業經驗的教授主持，在目前的6年計畫期間，推動許多開源軟體研究專案，最知名的當屬分散式資源管理系統Mesos、串流運算平臺Spark、分散式記憶體儲存系統Alluxio（之前稱為Tachyon），在個別領域都居於技術領先的地位。

既然AMPLab有如此重要的研究貢獻，為何結束呢？因為柏克萊實驗室的傳統，普遍以5至6年投入研究，解決一個重要的問題，如今AMPLab已經完成了階段性使命：打造開源大資料分析技術，接下來，他們將以新成立的實驗室RISELab，解決大數據的下一個新問題。

新問題是什麼呢？從實驗室的名稱Real-time Intelligent Secure Execution，即可看出端倪。在上個階段，AMPLab是從大數據批次資料處理技術，發展至大數據分析技術，而下個階段的RISELab，則要克服即時資料處理的問題，發展出即時決策的應用。他們的目標是，研發出比Spark的反應速度快100倍、輸出快1000倍的新一代大數據技術，並且結合線上機器學習與更自動化的演算法，在確保資料加密安全與隱私，且不犧牲效能的情況下，從即時資料中做即時決策。

未來6年RISELab能否達成目標，尚無人能知。但很肯定的是，大數據的下一步，是以AI為導向的新一代大數據。

本文轉載自-https://pics.ee/b98i

Inline content