公司正在以前所未有的速度推進數(shù)字化轉型。Gartner Research最近的一項調查發(fā)現(xiàn), 49%的CIO報告說他們的企業(yè)已經(jīng)改變了他們的商業(yè)模式,以擴大他們的數(shù)字化努力,或者正在這樣做。
隨著公司不斷推進這些轉型,他們將數(shù)據(jù)科學和機器學習融入各種業(yè)務功能中。這不是一件容易的事。典型的企業(yè)數(shù)據(jù)科學項目非常復雜,需要部署跨學科團隊,其中包括匯集數(shù)據(jù)工程師,開發(fā)人員,數(shù)據(jù)科學家,主題專家和具有其他特殊技能和知識的個人。
而且,這種人才稀缺而且代價高昂。事實上,只有少數(shù)公司成功建立了經(jīng)驗豐富的數(shù)據(jù)科學實踐。而且,雖然構建這個團隊需要時間和資源,但許多公司面臨著更大的問題:超過 85%的大數(shù)據(jù)項目都失敗了。
許多因素導致了這些失敗,包括人為因素,以及時間,技能和影響方面的挑戰(zhàn)。在這篇eWEEK數(shù)據(jù)點文章中,專注于企業(yè)數(shù)據(jù)科學自動化的硅谷科技創(chuàng)業(yè)公司dotData的創(chuàng)始人兼首席執(zhí)行官Ryohei Fujimaki博士討論了導致這些失敗的五個關鍵因素。
數(shù)據(jù)點1:缺乏執(zhí)行數(shù)據(jù)科學項目的資源
數(shù)據(jù)科學是一種跨學科的方法,涉及數(shù)學家,統(tǒng)計學家,數(shù)據(jù)工程,軟件工程師,以及重要的主題專家。根據(jù)項目的規(guī)模和范圍,公司可能會部署大量數(shù)據(jù)工程師,解決方案架構師,領域專家,數(shù)據(jù)科學家(或多個),業(yè)務分析師以及可能的其他資源。許多公司沒有和/或沒有能力部署足夠的資源,因為雇用這些人才變得越來越具有挑戰(zhàn)性,而且公司通常還有許多數(shù)據(jù)科學項目要執(zhí)行,所有這些項目都需要數(shù)月才能完成。
數(shù)據(jù)點2:長期周轉時間和前期努力,無法看到潛在價值
盡管缺乏對最終結果及其業(yè)務價值的可見性,但數(shù)據(jù)科學項目面臨的最大挑戰(zhàn)之一是需要大量的前期工作。傳統(tǒng)的數(shù)據(jù)科學過程需要數(shù)月才能完成,直到評估結果。特別是,將業(yè)務數(shù)據(jù)轉換為機器學習就緒格式的數(shù)據(jù)和特征工程過程需要大量的迭代工作。與此方法相關的長周轉時間和大量前期工作通常會導致數(shù)月投資后項目失敗。因此,企業(yè)高管對于應用更多資源猶豫不決。
數(shù)據(jù)點3:技術和商業(yè)期望的錯位
大多數(shù)數(shù)據(jù)科學項目旨在為業(yè)務團隊提供重要的見解。但是,通常項目開始時業(yè)務和數(shù)據(jù)科學團隊之間沒有明確的關于項目期望和目標的一致性,導致數(shù)據(jù)科學團隊主要關注模型準確性,而業(yè)務團隊更關注諸如經(jīng)濟利益,業(yè)務見解或模型可解釋性。最后,業(yè)務團隊不接受數(shù)據(jù)科學團隊的成果。
數(shù)據(jù)點第4號:缺乏對生產(chǎn),運營的建筑考慮
許多數(shù)據(jù)科學項目的開始都沒有考慮如何將已開發(fā)的管道部署到生產(chǎn)中。之所以出現(xiàn)這種情況,是因為業(yè)務流程通常由IT團隊管理,而IT團隊無法深入了解數(shù)據(jù)科學流程,數(shù)據(jù)科學團隊專注于驗證其假設,并且沒有生產(chǎn)和解決方案的架構視圖積分。因此,許多數(shù)據(jù)科學項目不是集成到管道中,而是最終作為一次性的概念驗證練習,無法實現(xiàn)真正??的業(yè)務影響或導致大量成本增加以使項目生產(chǎn)。
數(shù)據(jù)點第5點:對技能,特定個人經(jīng)驗的嚴重依賴
傳統(tǒng)的數(shù)據(jù)科學在很大程度上依賴于有經(jīng)驗的個人的技能,經(jīng)驗和直覺。特別是,數(shù)據(jù)和特征工程過程現(xiàn)在主要基于領域專家和數(shù)據(jù)科學家的手動努力和直覺。盡管這些有才能的人才是寶貴的,但考慮到這些經(jīng)驗豐富的人才的招聘挑戰(zhàn),依賴這些人的做法對于企業(yè)公司來說是不可持續(xù)的。因此,公司需要尋求解決方案來幫助數(shù)據(jù)科學民主化,使更多具有不同技能水平的參與者能夠有效地執(zhí)行項目。
數(shù)據(jù)點第6號:端到端數(shù)據(jù)科學自動化是一種解決方案
通過人工智能(AI)和機器學習(ML)計劃實現(xiàn)更高投資回報的壓力促使更多企業(yè)領導者為其數(shù)據(jù)科學管道尋求創(chuàng)新解決方案,例如機器學習自動化。選擇一個能夠提供數(shù)據(jù)科學過程端到端自動化的正確解決方案,包括自動化數(shù)據(jù)和特征工程,是數(shù)據(jù)驅動型公司成功的關鍵。數(shù)據(jù)科學自動化使得更快地執(zhí)行數(shù)據(jù)科學過程成為可能,通常在幾天而不是幾個月內,更加透明,并提供可以持續(xù)改進的最小可行管道。因此,公司可以快速擴展其AI / ML計劃,以推動變革性業(yè)務變革。