機器學(xué)習(xí)是一種特殊類型的算法,可以從數(shù)據(jù)中學(xué)習(xí)并進行預(yù)測。當(dāng)我們從各種來源收集更多數(shù)據(jù)時,機器學(xué)習(xí)可以使預(yù)測更合適。但是,還有一些陷阱需要仔細檢查。
什么是機器學(xué)習(xí)?
在深入討論這個主題之前,了解機器學(xué)習(xí)實際上是非常重要的。它是人工智能的一個分支,專注于通過計算學(xué)習(xí)和識別所提供數(shù)據(jù)的模式。它現(xiàn)在用于創(chuàng)建可以在許多復(fù)雜算法的幫助下自行決策的機器。
使用機器學(xué)習(xí)算法,機器將能夠通過探索現(xiàn)實世界獲取知識,了解不同的事物,詢問有關(guān)他們獲得的知識的問題等等。這些功能有助于機器思考,理解和同樣,甚至從周圍環(huán)境中學(xué)習(xí),找到每個概念背后的邏輯,預(yù)測并相應(yīng)地做出預(yù)測。
機器學(xué)習(xí)如何運作
這個概念實際上并不是很新的。機器學(xué)習(xí)只不過是一組算法,可以從給定的數(shù)據(jù)池中學(xué)習(xí)并根據(jù)它進行預(yù)測。數(shù)據(jù)和預(yù)測的準確性齊頭并進,因此有了更多數(shù)據(jù),我們可以獲得更準確的預(yù)測。
因此,它不需要任何預(yù)定義的規(guī)則來管理其操作。這個概念以連續(xù)的方式運作。它會在一組數(shù)據(jù)上自動應(yīng)用許多不同類型的復(fù)雜算法,以獲得更好的結(jié)果。這種連續(xù)和迭代的循環(huán)有助于仔細分析周圍環(huán)境,預(yù)測某個問題的正確解決方案,并最終做出正確的決策。
為什么機器學(xué)習(xí)如此重要
對此的答案在于幾個因素,這是使這一概念成功的主要原因。我們來看看這些因素:
機器學(xué)習(xí)中使用的數(shù)據(jù)
如今,借助于數(shù)據(jù)庫管理的新技術(shù),可以以更低的成本收集大量數(shù)據(jù)。使用這些系統(tǒng)的公司不必考慮要保留哪些數(shù)據(jù)以及應(yīng)刪除哪些數(shù)據(jù)。這曾經(jīng)是一個非常重要的問題,因為過去與當(dāng)前情況無關(guān)的數(shù)據(jù)可能有助于在未來做出重大決策。但是對于像Hadoop這樣的數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)存儲變得非常容易。這個龐大的數(shù)據(jù)庫有助于算法準確地預(yù)測決策的結(jié)果。
計算進步
根據(jù)摩爾定律,計算技術(shù)也在逐步推進。IBM,NVIDIA等公司正在開發(fā)一些創(chuàng)新來改進計算方法。這些進步有助于創(chuàng)建以更好的方式處理數(shù)據(jù)的計算技術(shù)。
復(fù)雜的算法
這個因素完全取決于數(shù)據(jù)和計算技術(shù)。隨著數(shù)據(jù)管理和計算管理領(lǐng)域的蓬勃發(fā)展,通過算法探索領(lǐng)域的各種方式也傾向于做同樣的事情。這些算法的主要工作是尋找不同類型的模式,分析它們,并為利益相關(guān)者提供重要指導(dǎo),以便在更短的時間內(nèi)做出正確的決策。它還有助于降低做出這些決定所產(chǎn)生的成本。
當(dāng)這些因素得到優(yōu)化時,它們有助于合成大量數(shù)據(jù)并將碎片數(shù)據(jù)編織成一個來源。這種綜合信息可以加速未來結(jié)果的表現(xiàn)。Google使用先進的計算技術(shù)并具有存儲數(shù)據(jù)的語料庫。幾十年來,當(dāng)它在圖像識別方面遇到問題時,他們轉(zhuǎn)而采用機器學(xué)習(xí)算法,并在短短幾個季度內(nèi)對其進行了改進。
機器學(xué)習(xí)的優(yōu)點
每個業(yè)務(wù)流程都可以從數(shù)據(jù)綜合中獲益,因為每個流程都有不同的部門,這些部門都有自己的數(shù)據(jù)集。當(dāng)這些數(shù)據(jù)以有意義的方式并在合理的時間段內(nèi)連接在一起時,企業(yè)就可以做出正確的決策并進一步發(fā)展。
但是,在固定的時間范圍內(nèi),個人或團體無法合成這些龐大的數(shù)據(jù)池。機器學(xué)習(xí)是這些領(lǐng)域的佼佼者,因為它是利用隱藏在大數(shù)據(jù)中的潛在客戶的理想方式。它可以從無關(guān)數(shù)據(jù)的語料庫中提取信息,而人為干預(yù)可忽略不計。它在機器上運行,僅由存儲的數(shù)據(jù)驅(qū)動。與在新數(shù)據(jù)到來時改變結(jié)果的傳統(tǒng)方式不同,機器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)并在變化和增長的數(shù)據(jù)集上蓬勃發(fā)展。這是一種發(fā)現(xiàn)隱藏在數(shù)據(jù)集中的不同模式的方法。
有什么陷阱?
理想情況下,執(zhí)行這一概念應(yīng)該會以指數(shù)方式帶來增長,但實際上這一概念也有一些因素可能會破壞增長。這些因素將在下面討論。
黑盒子
算法的一些方法被稱為黑盒子,取決于數(shù)據(jù)的奇異點和對過程的理解。通常,黑匣子是一種系統(tǒng)或算法,只能根據(jù)所采用的輸入和所提供的輸出來查看。這些算法或系統(tǒng)不提供內(nèi)部工作或其背后的邏輯的視圖,因此僅提供不透明(黑色)。眾所周知,這些問題會給組織帶來技術(shù)和文化問題。
如果黑盒方法在數(shù)據(jù)經(jīng)歷重大變化時表現(xiàn)不佳,那么由于缺乏理解,系統(tǒng)可能處于危險之中。很難解釋為什么模型失敗,它可以大大改變組織的增長。
選擇最合適的算法
沒有主算法用作機器學(xué)習(xí)的標準并且知道所有內(nèi)容,因此算法選擇過程非常重要。在異常檢測,分割,分析和模式匹配等不同領(lǐng)域,沒有算法可以完美。
目前有許多算法和許多不同的方法,每種方法都有自己的優(yōu)點和缺點,并且有特定的用途。選擇錯誤的算法工具可以增加成本而不是降低成本,因此理解算法的每個特征并根據(jù)環(huán)境使用最佳特征非常重要。解決這個問題的最好方法是一起使用許多不同的算法,讓計算和框架決定使用哪個算法和何時使用。
技術(shù)債務(wù)
關(guān)于編程的技術(shù)債務(wù)是指經(jīng)常選擇易于在短期內(nèi)實施的代碼而不是最佳整體解決方案的情況。它通常是一種非常糟糕的編程方法,因此代碼可以繼續(xù)發(fā)展更深層次的問題,這被稱為債務(wù)。
這些系統(tǒng)隨著時間的推移會積累技術(shù)債務(wù),因為它們本質(zhì)上不是自我優(yōu)化的。技術(shù)債務(wù)可以通過許多不同的方式展示自己,例如管道密集,糾纏,未申報的客戶,隱藏的反饋循環(huán),未使用的數(shù)據(jù)依賴性等。它們可能導(dǎo)致混淆和意外結(jié)果,并且可能大大降低系統(tǒng)的性能。這可以通過雇傭數(shù)學(xué)家和工程師來平衡計劃算法以減少這些債務(wù)來解決。
人類的偏見
算法的選擇由人完成,因此可能有偏差。這可能導(dǎo)致選擇不正確的算法的情況。
例如,一個團隊成員都畢業(yè)于同一所學(xué)校,他們傾向于選擇同一套算法。因此,最好為您的團隊注入不同類型的算法,或者將多種不同的算法結(jié)合在一起。
未來是什么?
在新的和不斷發(fā)展的技術(shù)的幫助下,我們的世界正在慢慢地改變自己。機器學(xué)習(xí)將通過在決策過程中提供足夠的幫助來指導(dǎo)駕車到達目的地。它不僅有助于降低公司成本,還可以通過考慮所有調(diào)查和數(shù)據(jù)來顯示提高業(yè)務(wù)質(zhì)量的正確方法。它顯示了在未來提供更好解決方案的有希望的特征。
摘要
機器學(xué)習(xí)是一個吸引了大量關(guān)注的概念,很可能不辜負所有的炒作。它具有很強的變革性,因此可以處理任何業(yè)務(wù)的任何工作流程。任何以正確方式整合此服務(wù)的組織都將獲得顯著的收益。然而,了解硬幣的兩面以便正確地整合它也是非常重要的。