熱門文章
預見未來:數(shù)據(jù)智能的現(xiàn)在與未來
發(fā)布時間:2018-11-26 分類:趨勢研究
我們正處于大數(shù)據(jù)和數(shù)字化轉(zhuǎn)型的時代:數(shù)據(jù)無處不在;運用數(shù)據(jù)驅(qū)動的思想和策略在實踐中逐漸成為共識;數(shù)據(jù)的價值已在科學研究和工商業(yè)的不同領域得到充分展現(xiàn)。然而,如果無法從數(shù)據(jù)中提取出知識和信息并加以有效利用,數(shù)據(jù)本身并不能驅(qū)動和引領數(shù)字化轉(zhuǎn)型取得成功。如何讓數(shù)據(jù)發(fā)揮它最大的價值?“數(shù)據(jù)智能”(Data Intelligence) 應運而生。
數(shù)據(jù)智能是一個跨學科的研究領域,它結合大規(guī)模數(shù)據(jù)處理、數(shù)據(jù)挖掘、機器學習、人機交互、可視化等多種技術,從數(shù)據(jù)中提煉、發(fā)掘、獲取有揭示性和可操作性的信息,從而為人們在基于數(shù)據(jù)制定決策或執(zhí)行任務時提供有效的智能支持。
如果將數(shù)據(jù)視為一種新的“石油”,那么數(shù)據(jù)智能就是“煉油廠”。數(shù)據(jù)智能通過分析數(shù)據(jù)獲得價值,將原始數(shù)據(jù)加工為信息和知識,進而轉(zhuǎn)化為決策或行動,已成為推動數(shù)字化轉(zhuǎn)型不可或缺的關鍵技術。數(shù)據(jù)智能的重要性越來越凸顯,并在近年來取得快速發(fā)展。
數(shù)據(jù)智能技術賦予我們探求數(shù)據(jù)空間中未知部分的能力,在不同領域里蘊育出巨大的機會。眾多基于互聯(lián)網(wǎng)的新型業(yè)務,包括搜索引擎、電子商務以及社交媒體應用等,從本質(zhì)上就是建立和運作在數(shù)據(jù)智能的基礎之上。
數(shù)據(jù)智能技術正在重塑傳統(tǒng)的商業(yè)分析或商業(yè)智能領域。根據(jù)Gartner的調(diào)研,一種新的 “增強分析”的分析模式正在顛覆舊有方式,預計在幾年內(nèi)將成為商業(yè)智能系統(tǒng)采購的主導驅(qū)動力。這種“增強分析”模式正是由數(shù)據(jù)智能技術賦能,提供了自然語言查詢和敘述、增強的數(shù)據(jù)準備、自動的高級分析、基于可視化的數(shù)據(jù)探索等多種核心能力。
那么,數(shù)據(jù)智能領域的技術進展如何?未來,數(shù)據(jù)智能的研究又有哪些熱點?
數(shù)據(jù)智能的技術進展
數(shù)據(jù)智能相關的核心技術大致可以分為數(shù)據(jù)平臺技術、數(shù)據(jù)整理技術、數(shù)據(jù)分析技術、數(shù)據(jù)交互技術、數(shù)據(jù)交互技術、數(shù)據(jù)可視化技術等部分。與傳統(tǒng)意義上的數(shù)據(jù)處理、數(shù)據(jù)分析相比,數(shù)據(jù)智能面臨很多新挑戰(zhàn)、新問題。在解決這些問題和挑戰(zhàn)的過程中,各種技術創(chuàng)新層出不窮。
1、大數(shù)據(jù)系統(tǒng)與平臺
為了支持大規(guī)模的數(shù)據(jù)處理與分析任務,全新的數(shù)據(jù)存儲系統(tǒng)需要能夠容納和支持高效數(shù)據(jù)吞吐、高可伸縮性和高容錯性。傳統(tǒng)的數(shù)據(jù)庫OLTP面向交易型需求而設計,無法滿足大數(shù)據(jù)統(tǒng)計分析類的查詢需求和應用。當前的大數(shù)據(jù)系統(tǒng)更加強調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)的可擴展性。具體來說,將數(shù)據(jù)分割成塊,并將每塊復制多份后分散到不同物理機器上存儲,用冗余的數(shù)據(jù)塊來防止因個別機器損壞對數(shù)據(jù)完整性的影響。數(shù)據(jù)的冗余保存不但提高了系統(tǒng)的可靠性,同時也可以提高了系統(tǒng)在數(shù)據(jù)讀取時的并發(fā)性能。另外,為降低成本,現(xiàn)代的大數(shù)據(jù)系統(tǒng)運行在價格相對低廉的普通服務器上;這些機器通過高速網(wǎng)絡連接,實現(xiàn)高效的數(shù)據(jù)傳輸。
處理和分析大數(shù)據(jù)涉及大量的計算,催生了很多分布式NoSQL數(shù)據(jù)處理系統(tǒng)。在計算模型上,MapReduce的推出給大數(shù)據(jù)并行處理帶來了革命性的影響。在MapReduce基礎上進一步提出了新的計算模型Spark。Spark充分利用在內(nèi)存中計算的優(yōu)勢,并且大大優(yōu)化了原來MapReduce中Shuffle所帶來的效率問題。經(jīng)過幾年的發(fā)展,Spark已經(jīng)替代MapReduce成為業(yè)界最為重要的大數(shù)據(jù)處理框架,并且發(fā)展了非常豐富的應用生態(tài)。
此外,基于流 (Streaming) 的計算模型被開發(fā)出來以支持不斷變化和更新的大數(shù)據(jù)應用。在流計算模型中,為了達到更實時的更新,每到達一個數(shù)據(jù)事件的時候就進行一次處理。Spark Streaming、Storm、Flink都是比較流行的流計算平臺。
在支持對大數(shù)據(jù)進行在線交互式的查詢和分析方面,來自不同領域的技術正在快速融合,共同構建更加實時高效的大數(shù)據(jù)交互查詢平臺。以ElasticSearch為代表的一類技術,借鑒搜索系統(tǒng)的索引構架和技術,對大規(guī)模非結構化和半結構化數(shù)據(jù)進行分塊、索引來支持快速查詢。以Apache Kylin為代表的另一類技術則將傳統(tǒng)的數(shù)據(jù)立方體技術推廣到大數(shù)據(jù)領域,通過將預先計算的部分數(shù)據(jù)立方體緩存起來,大大提高了運行時的查詢速度。
隨著技術的發(fā)展,對數(shù)據(jù)進行高語義級別的自動分析變得越來越重要。自動分析技術往往需要頻繁計算在不同查詢條件下的聚合結果,一個分析查詢可能涉及成百上千次簡單的聚合查詢。這就對查詢性能提出了更高的要求。為了解決這個問題,同時也考慮到大數(shù)據(jù)分析中絕大多數(shù)任務對數(shù)據(jù)的完整性不太敏感這一特點,學術界又提出了BlinkDB、BigIN4等技術和系統(tǒng),希望利用通過采樣或者預計算得到的部分數(shù)據(jù)來對用戶的查詢結果進行估計,從而達到快速計算的目的。其中BlinkDB試圖利用分層采用的方法來減少估計的誤差,而BigIN4則試圖通過貝葉斯估計方法來優(yōu)化用戶查詢的估計誤差。
2、基于自然語言的交互
為了降低數(shù)據(jù)分析的門檻,使用自然語言作為交互方式顯然是一個理想方案,可以極大地方便普通用戶快速、有效地進行數(shù)據(jù)探索與數(shù)據(jù)分析。近年來,隨著自然語言處理和人工智能技術的快速進步,使用自然語言來查詢和分析數(shù)據(jù)變得更加可能。
自然語言數(shù)據(jù)分析要解決的最重要的問題是語義解析。語義解析技術是將自然語言直接轉(zhuǎn)化成可以執(zhí)行的程序 (例如 SQL語句)。基于關系數(shù)據(jù)庫/數(shù)據(jù)表的語義解析技術是解決自然語言交互式查詢的重要途徑。早期主要采用基于模式匹配的方法,后來出現(xiàn)了基于語法分析與語義分析的第二代方法。
近年來,隨著深度學習技術的發(fā)展,涌現(xiàn)出了一系列的端到端的語義解析模型。一般的端到端模型采用sequence-to-sequence的方法,將自然語言進行序列編碼,然后逐步生成SQL語句,但是這種方法的缺點是容易產(chǎn)生不正確的或者不可執(zhí)行的SQL語句。因此,在端到端的方法的基礎上會融合各種知識來減少搜索空間,增加約束,包括嵌入SQL語法知識,引入表格信息,甚至是引入外部的知識庫,比如WordNet。
3、分析的自動化
數(shù)據(jù)分析是數(shù)據(jù)智能中最核心的部分,大致可以分為描述性分析、診斷性分析、預測性分析、指導性分析等四個類別,每個類別基于數(shù)據(jù)回答不同的問題,難度越來越大,所能帶來的價值越來越高,所使用的技術也越來越復雜。數(shù)據(jù)智能分析工具的發(fā)展經(jīng)歷了如下四個重要的階段和層次。
階段1:數(shù)據(jù)智能專家深入學習和了解特定領域的問題,構建端到端 (end-to-end)的分析流程和平臺,以特定領域的數(shù)據(jù)分析師為主要用戶,以解決特定領域的專業(yè)問題為主要任務。
階段2:數(shù)據(jù)智能專家通過對各個領域的深刻總結,提煉出在不同領域的任務中所共同依賴的一些必要的需求單元,比如分布差異分析、主驅(qū)動因素分析、預測分析等等。把各個需求單元對應的數(shù)據(jù)智能技術以積木塊搭建的形式組成一個分析平臺,提供給各個領域使用。用戶按照自己分析任務的需求,可以在分析流程中選擇相應的技術模塊。
階段3:進一步發(fā)揮機器的“智能”性,在分析任務的各個環(huán)節(jié),通過主動提供相關洞察 (Insight) 的形式,為用戶的下一步?jīng)Q策或行動提供信息充足的引導性建議,從而更大程度地提高人類智能與機器智能的互補,完成更高效的協(xié)作。
階段4:在前三個階段中,數(shù)據(jù)的處理、特征的選取、模型的設計以及參數(shù)的優(yōu)化等等核心環(huán)節(jié)嚴重依賴于機器學習專家的知識和技能。隨著機器學習理論的進一步發(fā)展,Auto ML技術開始出現(xiàn)并發(fā)展起來,其核心是基于對已有機器學習成果的總結,將上述重要環(huán)節(jié)進行系統(tǒng)化的抽象,并結合不斷快速發(fā)展的計算機處理能力,使其逐漸自動化,從而進一步降低數(shù)據(jù)智能模塊的開發(fā)門檻,拓寬對長尾任務的支持,推動人類智能和機器智能的進一步融合,也使不同領域的普通用戶以自助方式按需定制針對具體任務的數(shù)據(jù)智能模塊變得可能。
4、數(shù)據(jù)融合的自動化
如何有效整理、融合如此多樣且繁雜的數(shù)據(jù)對于數(shù)據(jù)智能領域非常重要。數(shù)據(jù)融合的相關技術在整體上需要解決以下關鍵問題。
首先,在機器從數(shù)據(jù)中獲取智能之前,機器能夠正確地讀懂各種各樣的數(shù)據(jù)。對于機器友好的數(shù)據(jù)是類似關系數(shù)據(jù)庫的結構化數(shù)據(jù)。然而,現(xiàn)實世界里存在著大量的非結構化數(shù)據(jù),比如自然語言的文本;還有介于兩者之間的半結構化數(shù)據(jù),比如電子表格。目前機器還很難理解這些非結構化的方面,需要將數(shù)據(jù)處理成對機器友好的結構化數(shù)據(jù),機器才能發(fā)揮其特長,從數(shù)據(jù)中獲取智能。非結構化數(shù)據(jù)、尤其是半結構化數(shù)據(jù)向結構化數(shù)據(jù)的轉(zhuǎn)化,是實現(xiàn)數(shù)據(jù)智能不可或缺的先決任務。
其次,數(shù)據(jù)并不是孤立的,數(shù)據(jù)智能需要充分利用數(shù)據(jù)之間存在的關聯(lián),把其他數(shù)據(jù)源或數(shù)據(jù)集所涵蓋的信息傳遞并整合過來,可以為數(shù)據(jù)分析任務提供更豐富的信息和角度。
最后,數(shù)據(jù)并不是完美的,提前檢測并修復數(shù)據(jù)中存在的缺失或錯誤,是保障數(shù)據(jù)智能得出正確結論的重要環(huán)節(jié)。
5、數(shù)據(jù)可視化
數(shù)據(jù)可視化本質(zhì)上是為了感知和溝通數(shù)據(jù)而存在的,涉及到不同的領域,諸如人機交互、圖形設計、心理學等。在當前大數(shù)據(jù)盛行的時代,數(shù)據(jù)可視化逐漸嶄露頭角,扮演著越來越重要的角色。
可視化技術用于分析,已成為數(shù)據(jù)智能系統(tǒng)不可或缺的部分。這些技術通常會集成在一個圖形界面上,展示一個或多個可視化視圖。用戶直接在這些視圖上進行搜索、挑選、過濾等交互操作,對數(shù)據(jù)進行探索和分析??梢暬ぞ哌M一步趨于簡單化、大眾化,使一些高階的分析變得更加簡單。一些高級的可視化設計,如 Word Cloud、Treemap、Parallel Coordinates、Flowmap、ThemeRiver等,也逐步成為主流。
在決策過程中,可視化也發(fā)揮著重要的作用,它能將信息展示得更準確、更豐富、更容易理解,從而極大提高人與人之間的溝通效率??梢暬瘮⑹?(visual storytelling) 研究如何將可視化用于信息的展示和交流。當今主流的數(shù)據(jù)分析平臺,例如Power BI、Tableau、Qlik等,都提供了可視化敘事的模式??梢暬瘮⑹碌难芯磕壳斑€處在一個比較早期的階段,人們還在探索它的各個方面,例如修飾形式、敘事方式、交互手段、上下文、記憶性等。如何評估一個可視化敘事也有待進一步研究。
6、基于隱私保護的數(shù)據(jù)分析
近年來,隨著數(shù)據(jù)隱私問題成為關注的焦點,以及相關數(shù)據(jù)保護的立法 (比如GDPR) 開始實施,研究人員開始積極探索保護隱私的數(shù)據(jù)分析技術,即在保護數(shù)據(jù)隱私的情況下,對數(shù)據(jù)進行管理和處理。
一個方向是提供可信計算環(huán)境去執(zhí)行敏感操作。用戶的數(shù)據(jù)始終是加密的,只有在可信計算的環(huán)境中才會解密及處理。
另一個方向是直接對加密數(shù)據(jù)進行處理得到想要的結果,因為數(shù)據(jù)沒有解密,隱私得到了保證。選擇性加密技術早已廣泛應用于多媒體內(nèi)容保護,但很難擴展到其他類型的數(shù)據(jù)。另一種適用性更廣的方法是同態(tài)加密,它允許對密文進行某些同態(tài)操作,例如加法和/或乘法,使得密文下的運算結果在解密后與對明文執(zhí)行相應操作的結果一致。
數(shù)據(jù)智能技術的未來熱點
數(shù)據(jù)智能研究契合當今大數(shù)據(jù)時代各領域、各行業(yè)從數(shù)據(jù)中挖掘、實現(xiàn)價值,進行數(shù)字化轉(zhuǎn)型的迫切需要,因而在近年來得到了充分重視,發(fā)展迅速。隨著數(shù)據(jù)智能在更多領域的落地和發(fā)展,新的應用和場景、新的問題和挑戰(zhàn)將進一步激發(fā)和驅(qū)動數(shù)字智能研究保持強勁的發(fā)展勢頭,邁向更高的層次。展望未來,數(shù)據(jù)智能技術將朝著更自動、更智能、更可靠、更普適、更高效的方向繼續(xù)發(fā)展。
熱點1:在更高的語義理解水平上進行分析
為了更加智能地分析數(shù)據(jù),需要對數(shù)據(jù)有更加豐富的語義理解。與知識圖譜 (Knowledge Base) 不同,雖然數(shù)據(jù)分析中最常用的關系數(shù)據(jù)模型也是對實體和關系的建模,但是關系數(shù)據(jù)模型的建模是為查詢和存儲性能而優(yōu)化的,往往丟失了大量語義信息。如何引入領域知識和常識型知識對于更好地理解數(shù)據(jù)至關重要。
如何從表格數(shù)據(jù)和其他容易獲得的文本數(shù)據(jù) (如web網(wǎng)頁) 中自動獲取語義信息來增強和豐富表格數(shù)據(jù)是一個需要研究的重要方向。比如,確定表格中行或列的實體類型(包括人名、地名、機構名等命名實體以及時間、地址、貨幣等數(shù)據(jù)類型)。表格往往不具有文本中的豐富的上下文信息,因此表格中的實體識別不同于其他自然語言處理任務中的實體識別,十分具有挑戰(zhàn)性。除了處理實體識別外,數(shù)據(jù)表格中實體關系的挖掘和分析也至關重要。充分挖掘?qū)嶓w之間的關聯(lián)關系可以完成一些實體類型的推薦和回答數(shù)據(jù)分析的問題。
熱點2:構造通用知識和模型的框架
人類對知識和方法能夠舉一反三,觸類旁通。具體到數(shù)據(jù)分析領域,分析中用到的知識和模型需要在不同數(shù)據(jù)對象和分析任務之間共享和遷移。在機器學習領域,已經(jīng)有很多相關工作,也提出了一些方法,比如遷移學習、多任務學習、預學習模型等等。要實現(xiàn)這個“舉一反三”的目標,除了需要深入研究具體的機器學習算法,也需要從模型和知識的框架體系來思考,研究適合數(shù)據(jù)分析領域的通用知識和模型的原語體系,以及知識和模型的遷移共享的統(tǒng)一框架。
熱點3:建立高質(zhì)量的訓練數(shù)據(jù)集和基準測試數(shù)據(jù)集
由于訓練數(shù)據(jù)的缺乏,人工智能、深度學習等技術在數(shù)據(jù)智能領域的進一步應用遇到了很大的困難。正如ImageNet數(shù)據(jù)對于計算機視覺領域的研究起到了顯著的推動作用一樣,數(shù)據(jù)智能領域的研究也亟需建立起一整套公用的大規(guī)模、高質(zhì)量的訓練數(shù)據(jù)集和基準測試數(shù)據(jù)集。一旦有了豐富的訓練數(shù)據(jù),數(shù)據(jù)智能領域的很多研究,諸如自動分析、自然語言交互、可視化推薦等等,將會取得突破性的進展。
熱點4:提供具有可解釋性的分析結果
用戶將不再滿足于僅僅依賴黑盒式的智能、端到端地作用于整個任務,而需要更細粒度的、有針對性的、更透明的數(shù)據(jù)智能。例如,數(shù)據(jù)智能用于財務審計系統(tǒng)中,準確推薦最有風險的交易記錄進行優(yōu)先審查,以達到在最小化系統(tǒng)風險的前提下,最大化審計效率。在這類系統(tǒng)的研發(fā)中,需要構建可理解性強的模型。在推薦高風險交易記錄的同時,盡量提供系統(tǒng)是依據(jù)哪部分信息、通過怎樣的邏輯判斷這是一條高風險交易的相關依據(jù)。這與過去通常使用的黑盒技術路線有了明顯的變化,將成為今后技術發(fā)展的一個趨勢。
熱點5:人類智能和機器智能更加緊密融合
現(xiàn)有人工智能技術從本質(zhì)上依然只是被動服從人類設定的既定邏輯然后自動地運行,歸根到底還是無法突破人類傳授的學習框架,沒有創(chuàng)造力。因此在可預見的未來,數(shù)據(jù)智能將依然無法擺脫人與機器協(xié)作的模式,需要全面地總結人類在數(shù)據(jù)分析方面的智能和經(jīng)驗,便于轉(zhuǎn)化為機器算法,系統(tǒng)化地集成到已有的智能系統(tǒng)當中。
熱點6:強大的指導性分析成為主流
數(shù)據(jù)分析的核心目標之一便是指導行動,無論分析得有多好,如果不采取行動,那么分析的價值就不會得到實質(zhì)的體現(xiàn),這就是指導性分析的重要價值所在。
例如,根據(jù)詳盡的分析,數(shù)據(jù)智能預測某品牌在接下來一個季度的銷量會下滑10%。如果分析任務結束于此,那么數(shù)據(jù)智能并沒有盡到全部的責任,人還需要根據(jù)后續(xù)分析結合自己的經(jīng)驗去搞清楚怎樣才能減輕甚至避免潛在的銷量下滑。相應的指導性分析可以是,如果想保持下季度銷量不下滑,應該采取怎樣的行動。指導性分析的結果可以是把某一類子產(chǎn)品的產(chǎn)量減少20%,同時把另兩類子產(chǎn)品的產(chǎn)量各增加10%等等。
現(xiàn)在的數(shù)據(jù)智能技術在給出指導性分析的同時,并沒有具備足夠解釋性的模型,無法提供充足的依據(jù),從而不足以讓人類用戶充分信任自動推薦的結果。提供具有更好解釋性的指導性分析是一個趨勢。
熱點7:基于隱私保護的數(shù)據(jù)分析更加成熟完善
通過從立法、技術、到用戶參與等全方位的共同努力,隱私保護將被進一步納入到未來的數(shù)據(jù)分析中。從技術層面, 應該確保個人數(shù)據(jù)由數(shù)據(jù)主體控制如何收集、管理、處理和共享,并在整個生命周期得到保護,同時應開發(fā)并部署保護隱私的數(shù)據(jù)處理技術,以便在保護隱私的前提下,數(shù)據(jù)得以處理并獲得想要的結果。
熱點8:智能分析助手得到普及
智能代理 (Intelligent Agent) 技術與數(shù)據(jù)分析技術的融合是一個重要的方向。在不久的將來,智能的數(shù)據(jù)分析助手能夠幫助人類更加高效地分析和利用數(shù)據(jù)。
這些數(shù)據(jù)分析智能助手通過自然語言對話的方式與人交流數(shù)據(jù)分析的任務和結果,理解分析的背景和上下文,可以完成人類交給的特定數(shù)據(jù)分析任務 (根據(jù)分析的語義層級不同,可分為基本分析命令和高級數(shù)據(jù)挖掘任務),也可以把具有商業(yè)價值的數(shù)據(jù)事實推薦給相關人類用戶 (比如自動從數(shù)據(jù)中挖掘到的數(shù)據(jù)洞察),并對某些數(shù)據(jù)事件做出智能判斷和適當?shù)姆磻?(比如自動對數(shù)據(jù)中需要注意的變化進行提示和警報)。這樣的智能體還具有一定的學習能力,能夠通過與人類分析師的對話交流積累特定領域的知識,從而能夠更加具有針對性和更加智能地進行自動數(shù)據(jù)分析。
熱點9:協(xié)作化的可視分析
隨著各種溝通工具的興起和普及,協(xié)作化的可視分析會成為熱點。不同于傳統(tǒng)的面對面、小規(guī)模的協(xié)作,新的協(xié)作分析往往是異步的和大規(guī)模的,人們在不同的時間和地點,使用不同的設備,對同一個數(shù)據(jù)進行可視分析。在此過程中,如何協(xié)調(diào)人們的協(xié)作?如何避免重復性的工作?如何保證不同人在不同的顯示終端上看到的數(shù)據(jù)是一致的?如何共享各種信息?如何搭建一個高效的協(xié)作平臺?這些都是需要解決的技術挑戰(zhàn)。
熱點10:可視化將無所不在
在更長遠的將來,我們相信可視化終將變得透明。就像文字和語音一樣,廣泛滲透到我們的日常生活中。為此需要有三個方面的技術儲備:
首先,可視化視圖必須能夠被快速地生產(chǎn)和消費。目前,多數(shù)可視化視圖的生成還是離不開人的參與,但是在人工智能的幫助下,未來在人工智能的幫助下,可視化視圖將能被大規(guī)模和精確地生成,從而大大降低可視化創(chuàng)作的開銷。
其次,要進行交互方式的變革。傳統(tǒng)的基于鍵盤、鼠標的交互模式不是最自然的方式,各種人類更習慣的方式 (例如手勢、筆紙、觸控等) 需要慢慢演化成更成熟的交互手段。
最后,需要顯示設備的普及。顯示設備終將被集成到人的生活中去,無論是穿戴式的、手持的,還是出現(xiàn)在人們?nèi)粘I畹奈锲繁砻嫔系?。只有當顯示設備無處不在的時候,可視化才能真正變成一種溝通的基本方式。