機器學(xué)習(xí)具有巨大的潛力但必須正確實施才能使其有用

2019-07-30 14:55:05 來源：作者：

機器學(xué)習(xí)是一種特殊類型的算法，可以從數(shù)據(jù)中學(xué)習(xí)并進行預(yù)測。當(dāng)我們從各種來源收集更多數(shù)據(jù)時，機器學(xué)習(xí)可以使預(yù)測更合適。但是，還有一些陷阱需要仔細檢查。

什么是機器學(xué)習(xí)?

在深入討論這個主題之前，了解機器學(xué)習(xí)實際上是非常重要的。它是人工智能的一個分支，專注于通過計算學(xué)習(xí)和識別所提供數(shù)據(jù)的模式。它現(xiàn)在用于創(chuàng)建可以在許多復(fù)雜算法的幫助下自行決策的機器。

使用機器學(xué)習(xí)算法，機器將能夠通過探索現(xiàn)實世界獲取知識，了解不同的事物，詢問有關(guān)他們獲得的知識的問題等等。這些功能有助于機器思考，理解和同樣，甚至從周圍環(huán)境中學(xué)習(xí)，找到每個概念背后的邏輯，預(yù)測并相應(yīng)地做出預(yù)測。

機器學(xué)習(xí)如何運作

這個概念實際上并不是很新的。機器學(xué)習(xí)只不過是一組算法，可以從給定的數(shù)據(jù)池中學(xué)習(xí)并根據(jù)它進行預(yù)測。數(shù)據(jù)和預(yù)測的準確性齊頭并進，因此有了更多數(shù)據(jù)，我們可以獲得更準確的預(yù)測。

因此，它不需要任何預(yù)定義的規(guī)則來管理其操作。這個概念以連續(xù)的方式運作。它會在一組數(shù)據(jù)上自動應(yīng)用許多不同類型的復(fù)雜算法，以獲得更好的結(jié)果。這種連續(xù)和迭代的循環(huán)有助于仔細分析周圍環(huán)境，預(yù)測某個問題的正確解決方案，并最終做出正確的決策。

為什么機器學(xué)習(xí)如此重要

對此的答案在于幾個因素，這是使這一概念成功的主要原因。我們來看看這些因素：

機器學(xué)習(xí)中使用的數(shù)據(jù)

如今，借助于數(shù)據(jù)庫管理的新技術(shù)，可以以更低的成本收集大量數(shù)據(jù)。使用這些系統(tǒng)的公司不必考慮要保留哪些數(shù)據(jù)以及應(yīng)刪除哪些數(shù)據(jù)。這曾經(jīng)是一個非常重要的問題，因為過去與當(dāng)前情況無關(guān)的數(shù)據(jù)可能有助于在未來做出重大決策。但是對于像Hadoop這樣的數(shù)據(jù)庫系統(tǒng)，數(shù)據(jù)存儲變得非常容易。這個龐大的數(shù)據(jù)庫有助于算法準確地預(yù)測決策的結(jié)果。

計算進步

根據(jù)摩爾定律，計算技術(shù)也在逐步推進。IBM，NVIDIA等公司正在開發(fā)一些創(chuàng)新來改進計算方法。這些進步有助于創(chuàng)建以更好的方式處理數(shù)據(jù)的計算技術(shù)。

復(fù)雜的算法

這個因素完全取決于數(shù)據(jù)和計算技術(shù)。隨著數(shù)據(jù)管理和計算管理領(lǐng)域的蓬勃發(fā)展，通過算法探索領(lǐng)域的各種方式也傾向于做同樣的事情。這些算法的主要工作是尋找不同類型的模式，分析它們，并為利益相關(guān)者提供重要指導(dǎo)，以便在更短的時間內(nèi)做出正確的決策。它還有助于降低做出這些決定所產(chǎn)生的成本。

當(dāng)這些因素得到優(yōu)化時，它們有助于合成大量數(shù)據(jù)并將碎片數(shù)據(jù)編織成一個來源。這種綜合信息可以加速未來結(jié)果的表現(xiàn)。Google使用先進的計算技術(shù)并具有存儲數(shù)據(jù)的語料庫。幾十年來，當(dāng)它在圖像識別方面遇到問題時，他們轉(zhuǎn)而采用機器學(xué)習(xí)算法，并在短短幾個季度內(nèi)對其進行了改進。

機器學(xué)習(xí)的優(yōu)點

每個業(yè)務(wù)流程都可以從數(shù)據(jù)綜合中獲益，因為每個流程都有不同的部門，這些部門都有自己的數(shù)據(jù)集。當(dāng)這些數(shù)據(jù)以有意義的方式并在合理的時間段內(nèi)連接在一起時，企業(yè)就可以做出正確的決策并進一步發(fā)展。

但是，在固定的時間范圍內(nèi)，個人或團體無法合成這些龐大的數(shù)據(jù)池。機器學(xué)習(xí)是這些領(lǐng)域的佼佼者，因為它是利用隱藏在大數(shù)據(jù)中的潛在客戶的理想方式。它可以從無關(guān)數(shù)據(jù)的語料庫中提取信息，而人為干預(yù)可忽略不計。它在機器上運行，僅由存儲的數(shù)據(jù)驅(qū)動。與在新數(shù)據(jù)到來時改變結(jié)果的傳統(tǒng)方式不同，機器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)并在變化和增長的數(shù)據(jù)集上蓬勃發(fā)展。這是一種發(fā)現(xiàn)隱藏在數(shù)據(jù)集中的不同模式的方法。

有什么陷阱?

理想情況下，執(zhí)行這一概念應(yīng)該會以指數(shù)方式帶來增長，但實際上這一概念也有一些因素可能會破壞增長。這些因素將在下面討論。

黑盒子

算法的一些方法被稱為黑盒子，取決于數(shù)據(jù)的奇異點和對過程的理解。通常，黑匣子是一種系統(tǒng)或算法，只能根據(jù)所采用的輸入和所提供的輸出來查看。這些算法或系統(tǒng)不提供內(nèi)部工作或其背后的邏輯的視圖，因此僅提供不透明(黑色)。眾所周知，這些問題會給組織帶來技術(shù)和文化問題。

如果黑盒方法在數(shù)據(jù)經(jīng)歷重大變化時表現(xiàn)不佳，那么由于缺乏理解，系統(tǒng)可能處于危險之中。很難解釋為什么模型失敗，它可以大大改變組織的增長。

選擇最合適的算法

沒有主算法用作機器學(xué)習(xí)的標準并且知道所有內(nèi)容，因此算法選擇過程非常重要。在異常檢測，分割，分析和模式匹配等不同領(lǐng)域，沒有算法可以完美。

目前有許多算法和許多不同的方法，每種方法都有自己的優(yōu)點和缺點，并且有特定的用途。選擇錯誤的算法工具可以增加成本而不是降低成本，因此理解算法的每個特征并根據(jù)環(huán)境使用最佳特征非常重要。解決這個問題的最好方法是一起使用許多不同的算法，讓計算和框架決定使用哪個算法和何時使用。

技術(shù)債務(wù)

關(guān)于編程的技術(shù)債務(wù)是指經(jīng)常選擇易于在短期內(nèi)實施的代碼而不是最佳整體解決方案的情況。它通常是一種非常糟糕的編程方法，因此代碼可以繼續(xù)發(fā)展更深層次的問題，這被稱為債務(wù)。

這些系統(tǒng)隨著時間的推移會積累技術(shù)債務(wù)，因為它們本質(zhì)上不是自我優(yōu)化的。技術(shù)債務(wù)可以通過許多不同的方式展示自己，例如管道密集，糾纏，未申報的客戶，隱藏的反饋循環(huán)，未使用的數(shù)據(jù)依賴性等。它們可能導(dǎo)致混淆和意外結(jié)果，并且可能大大降低系統(tǒng)的性能。這可以通過雇傭數(shù)學(xué)家和工程師來平衡計劃算法以減少這些債務(wù)來解決。

人類的偏見

算法的選擇由人完成，因此可能有偏差。這可能導(dǎo)致選擇不正確的算法的情況。

例如，一個團隊成員都畢業(yè)于同一所學(xué)校，他們傾向于選擇同一套算法。因此，最好為您的團隊注入不同類型的算法，或者將多種不同的算法結(jié)合在一起。

未來是什么?

在新的和不斷發(fā)展的技術(shù)的幫助下，我們的世界正在慢慢地改變自己。機器學(xué)習(xí)將通過在決策過程中提供足夠的幫助來指導(dǎo)駕車到達目的地。它不僅有助于降低公司成本，還可以通過考慮所有調(diào)查和數(shù)據(jù)來顯示提高業(yè)務(wù)質(zhì)量的正確方法。它顯示了在未來提供更好解決方案的有希望的特征。

摘要

機器學(xué)習(xí)是一個吸引了大量關(guān)注的概念，很可能不辜負所有的炒作。它具有很強的變革性，因此可以處理任何業(yè)務(wù)的任何工作流程。任何以正確方式整合此服務(wù)的組織都將獲得顯著的收益。然而，了解硬幣的兩面以便正確地整合它也是非常重要的。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。