熱門文章
在人工智能中使用數(shù)據(jù)時要記住的5件事
發(fā)布時間:2018-10-30 分類:交通百科
在新興的數(shù)據(jù)驅(qū)動和人工智能驅(qū)動的經(jīng)濟中,數(shù)據(jù)是公司最重要的戰(zhàn)略資產(chǎn)之一。需要數(shù)據(jù)來衡量業(yè)務策略的效率,并從其操作中得出見解,同時還需要培訓機器學習算法。獲取數(shù)據(jù)對公司來說不是問題,問題是他們能不能得到正確的數(shù)據(jù),并且能夠為他們提供一個非常想要的競爭優(yōu)勢。
許多公司沒有意識到,他們正坐擁一堆糟糕或骯臟的數(shù)據(jù),這些數(shù)據(jù)包含大量缺少的字段、格式錯誤、大量重復或不相關的信息。根據(jù)研究估計,美國經(jīng)濟的不良數(shù)據(jù)每年造成的損失高達3.6萬億美元,盡管如此,許多經(jīng)理人仍確信,他們坐擁數(shù)據(jù)的金礦,而實際上他們沒有任何有價值的東西。
公司擁有的數(shù)據(jù)可能不一定是糟糕的,只是解決問題的方法可能不完整而已。最初的系統(tǒng)通常是用來收集人類驅(qū)動的解決方案所需的數(shù)據(jù),將其轉(zhuǎn)移到AI人工智能驅(qū)動的解決方案可能需要填補空白。雖然人類可以快速評估這些數(shù)據(jù)并解決問題,但自動化系統(tǒng)需要自動處理數(shù)據(jù)的方式。
1、專注于產(chǎn)品
尋找好的數(shù)據(jù)應該從產(chǎn)品本身開始,為了獲得好的數(shù)據(jù),公司應該設計產(chǎn)品,為用戶提供正確的激勵來貢獻他們的數(shù)據(jù)。良好的可用性和用戶體驗將鼓勵用戶貢獻有價值的信息。
您可以始終爭取用戶在循環(huán)模式,在這種模式中,用戶必須放棄他們的數(shù)據(jù),以使用您的產(chǎn)品的功能。這正是谷歌和Facebook獲取大量數(shù)據(jù)以換取服務的方式。用戶甚至沒有意識到,他們是完全免費地放棄他們的數(shù)據(jù),為先進的機器學習算法提供動力,并不斷改進軟件。
構建偉大產(chǎn)品的最佳方法是在收集急需的數(shù)據(jù)的同時提供迭代式的改進,你可以從亞馬遜Alexa的進化過程中看到這一點。它背后的團隊意識到了一般語音識別和識別一組簡單的預定義命令的能力之間的區(qū)別。當許多其他公司在采用通用語音識別和維護會話的能力方面苦苦掙扎時,Alexa團隊將重點放在了一組簡單的命令和簡單的腳本對話上。
Alexa團隊通過以低廉的價格提供一個非常簡單的解決方案,并征服了市場,從而做到了這一點。專注于具體的、簡單的用例,并加以完善,才能贏得最終的勝利。
2、以正確的數(shù)據(jù)類型為目標
我們以一家公司為例,該公司想要制造一種能自動將圖書館書籍放到書架上的機器人。它有大量關于實際書內(nèi)容的數(shù)據(jù),它知道作者的名字和書出版的年份。但是,在現(xiàn)實中,這些數(shù)據(jù)不足以自動安排賬簿。
機器人只能利用現(xiàn)有的數(shù)據(jù)找到合適的書架來放書。但是,它不知道這本書的尺寸,所以機器人很難判斷這本書是否能放進書架上。
公司從來沒有想過收集這些信息,因為圖書館工作人員可以很容易地找出這本書是否適合空間。現(xiàn)在這家公司需要一個全新的數(shù)據(jù)集,這是它沒有的。這意味著該公司必須為機器人配備某種評估書籍測量值的方法。雖然這并非不可能,但項目預算和時間表將發(fā)生變化。
這就是為什么你應該經(jīng)常問自己,你是否有正確的數(shù)據(jù)類型,這有助于解決問題。
3、了解其局限性
通常情況下,公司認為所有的機器學習工程師都有一根神奇的魔杖,可以解決所有與數(shù)據(jù)相關的挑戰(zhàn),這與事實相去甚遠。自動評估物理對象的大小和重量的能力將需要一套非常不同的技能和能力,那些能夠訓練機器人找到合適的書架的人或系統(tǒng),與那些能夠建立起衡量和衡量書籍的能力的人或系統(tǒng)是不同的。
這種資源規(guī)劃應該在項目開始時就開始,而不是在機器人被毀在不適合書架的書堆下時開始。
4、利用現(xiàn)有的專門知識
人工智能系統(tǒng)只有在工程師的努力下才能做得更好,智能解決方案的開發(fā)需要專家輸入來理解和幫助解釋現(xiàn)有數(shù)據(jù),并找出它們用來解決問題的原則。即使是DeepMind的AlphaGo零的最新突破也不是一個絕對的展示,圍棋游戲的規(guī)則是明確的,不能被對手打破。盡管這臺機器沒有經(jīng)過人類專家的訓練,但游戲規(guī)則被編程到了代碼中,所以它可以通過自己的游戲來提高技能。開發(fā)這個軟件的工程師在編寫程序之前就成為了游戲規(guī)則方面的專家。
在AlphaGo Zero這個案例中,我們沒有專門的專家,因為游戲環(huán)境非常明確,一個人可以在一個晚上就學會完整的規(guī)則。在現(xiàn)實生活中,工程師幾乎不可能花一晚上時間成為供應鏈、隱私法或渦輪機工程方面的專家。通常,人工智能項目要么需要一組定義良好的不可破規(guī)則,要么需要一個有標簽的數(shù)據(jù)集。通常情況下,每一個拼圖都有一點點,要想弄清楚如何組合這個拼圖的各個部分,仍然需要專家的投入。
5、管理數(shù)據(jù)并關閉循環(huán)
總有一天,當應用程序越來越流行時,它可能會開始生成大量數(shù)據(jù)。為了避免陷入數(shù)據(jù)混亂,您應該從一開始就引入高效的數(shù)據(jù)倉庫策略。無論您的公司選擇哪種數(shù)據(jù)平臺,您都應該在數(shù)據(jù)獲取過程的每個階段建立高效的數(shù)據(jù)收集、清理和數(shù)據(jù)沖突流程。一旦你有了一個好的產(chǎn)品,一個源源不斷的數(shù)據(jù)流入和一個有效的數(shù)據(jù)管理基礎設施,就會更容易創(chuàng)建一個自我實現(xiàn)的好數(shù)據(jù)預言。
利用您的產(chǎn)品用戶提供的數(shù)據(jù)可以改進人工智能平臺和應用程序特性,并鼓勵客戶貢獻更好的數(shù)據(jù)。這將創(chuàng)建一個自我支持的數(shù)據(jù)生成系統(tǒng),這將使您的公司成為一個真正的數(shù)據(jù)驅(qū)動企業(yè)。