AI技術(shù)甚至可以從不平衡的數(shù)據(jù)集中實現(xiàn)高度精確的學(xué)習(xí)

2020-02-25 11:49:09    來源:    作者:

富士通實驗室有限公司(Fujitsu Laboratories Ltd.)今天宣布開發(fā)“廣泛學(xué)習(xí)”,這是一種機器學(xué)習(xí)技術(shù),即使操作員無法獲得培訓(xùn)所必需的數(shù)據(jù)量,也可以進行準(zhǔn)確的判斷?,F(xiàn)在,通常使用AI來利用各個領(lǐng)域的數(shù)據(jù),但是在要分析的數(shù)據(jù)量較小或不平衡的情況下,AI的準(zhǔn)確性可能會受到影響。富士通的廣泛學(xué)習(xí)技術(shù)使判斷變得比以前更準(zhǔn)確,并且即使檢查了哪種假設(shè),即使數(shù)據(jù)不平衡,也可以統(tǒng)一實現(xiàn)學(xué)習(xí)。它是通過首先提取具有高度重要性的假設(shè)來實現(xiàn)這一目標(biāo)的,該假設(shè)是由所有數(shù)據(jù)項組合構(gòu)成的大量假設(shè)組成的,然后通過基于假設(shè)的重疊關(guān)系來控制各個假設(shè)的影響程度。此外,由于假設(shè)被記錄為邏輯表達式,因此人類也可以理解判斷背后的原因。富士通的新型廣泛學(xué)習(xí)技術(shù)甚至允許在醫(yī)療保健和市場營銷等領(lǐng)域使用AI,因為在這些領(lǐng)域中,做出判斷所需的數(shù)據(jù)非常稀缺,可支持操作并使用AI促進工作流程的自動化。

AI技術(shù)甚至可以從不平衡的數(shù)據(jù)集中實現(xiàn)高度精確的學(xué)習(xí)

近年來,人工智能技術(shù)已開始用于醫(yī)療,營銷和金融等各個領(lǐng)域。人們越來越期待使用AI決策來支持這些領(lǐng)域的運營和自動化任務(wù)。然而,要實現(xiàn)這些技術(shù)的潛力仍然面臨的挑戰(zhàn)之一是數(shù)據(jù)可能不平衡。具體而言,根據(jù)行業(yè)的不同,可能難以獲得足夠的數(shù)據(jù)來對AI進行判斷的目標(biāo)進行培訓(xùn)。實際上,這使得這些技術(shù)中的許多技術(shù)無法產(chǎn)生足夠準(zhǔn)確的結(jié)果以供實際使用。此外,AI部署缺乏進展的主要原因是,即使AI提供了足夠準(zhǔn)確的識別或分類性能,

基于深度學(xué)習(xí)的 AI技術(shù)通常,通過對大量數(shù)據(jù)(包括要判斷的大量目標(biāo)數(shù)據(jù))進行訓(xùn)練來做出高度準(zhǔn)確的判斷。但是,在現(xiàn)實世界中,很多情況下數(shù)據(jù)不足,目標(biāo)數(shù)據(jù)極少。在這些情況下,當(dāng)面對未知數(shù)據(jù)時,人工智能技術(shù)很難做出高度準(zhǔn)確的判斷。此外,基于深度學(xué)習(xí)的現(xiàn)有AI的機器學(xué)習(xí)模型是一個黑匣子模型,無法解釋AI做出判斷背后的原因,從而造成了透明性問題。因此,展望未來,有必要開發(fā)新的AI技術(shù),以根據(jù)不平衡的數(shù)據(jù)實現(xiàn)高度準(zhǔn)確的判斷,并且它也是透明的,以解決社會中的各種問題。

AI技術(shù)甚至可以從不平衡的數(shù)據(jù)集中實現(xiàn)高度精確的學(xué)習(xí)

考慮到這些挑戰(zhàn),F(xiàn)ujitsu Laboratories現(xiàn)在開發(fā)了Wide Learning,這是一種機器學(xué)習(xí)技術(shù),即使在數(shù)據(jù)不平衡的情況下也能夠做出高度準(zhǔn)確的判斷。廣泛學(xué)習(xí)技術(shù)的功能包括以下兩點。

1.創(chuàng)建數(shù)據(jù)項組合以提取大量假設(shè)

該技術(shù)將數(shù)據(jù)項的所有組合模式視為假設(shè),然后根據(jù)標(biāo)簽類別的命中率來確定每個假設(shè)的重要程度。例如,當(dāng)分析誰購買某些產(chǎn)品的趨勢時,系統(tǒng)會針對未購買商品的人(類別標(biāo)簽)組合來自數(shù)據(jù)項的各種模式,例如擁有駕照的20-34歲之間的單身女性,然后將這些組合模式作為假設(shè)時,分析實際購買商品的數(shù)據(jù)中有多少次匹配。達到一定水平以上命中率的假設(shè)被定義為重要的假設(shè),稱為“知識塊”。這意味著即使目標(biāo)數(shù)據(jù)不足,系統(tǒng)也可以提取所有值得研究的假設(shè),

2.調(diào)整知識塊的影響程度以建立準(zhǔn)確的分類模型

該系統(tǒng)基于多個提取的知識塊和目標(biāo)標(biāo)簽建立分類模型。在該過程中,如果組成知識塊的項目與其他知識塊的項目頻繁重疊,則系統(tǒng)控制它們的影響程度,以減少其對分類模型的影響的權(quán)重。這樣,即使目標(biāo)標(biāo)簽或標(biāo)記為正確的數(shù)據(jù)不平衡,系統(tǒng)也可以訓(xùn)練能夠進行準(zhǔn)確分類的模型。例如,在沒有購買商品的人占商品購買數(shù)據(jù)集的絕大多數(shù)的情況下,如果在不控制影響程度的情況下對AI進行了訓(xùn)練,則知識塊將包括一個人是否具有獨立于性別的許可證不會對分類產(chǎn)生太大影響。

富士通實驗室對此技術(shù)進行了試驗,并將其應(yīng)用于數(shù)字營銷和醫(yī)療保健等領(lǐng)域的數(shù)據(jù)。在UC Irvine機器學(xué)習(xí)存儲庫中使用營銷和醫(yī)療保健領(lǐng)域的基準(zhǔn)數(shù)據(jù)進行的測試中,與深度學(xué)習(xí)相比,該技術(shù)將準(zhǔn)確性提高了約10-20%。它成功地降低了系統(tǒng)忽略可能訂閱服務(wù)的客戶或病情患者的可能性約20%至50%。在營銷數(shù)據(jù)中,測試使用的大約5,000個客戶數(shù)據(jù)條目中,只有約230個用于購買客戶,這造成了一組不平衡的情況。這項技術(shù)將深度學(xué)習(xí)分析的結(jié)果,從促銷中排除的潛在客戶數(shù)量從120個減少到74個。此外,判斷對于在社會中實施該技術(shù)也很有用。即使基于新數(shù)據(jù)的結(jié)果確定需要對模型進行校正,也可以進行更適當(dāng)?shù)男薷?,因為用戶可以理解結(jié)果的原因。

AI技術(shù)甚至可以從不平衡的數(shù)據(jù)集中實現(xiàn)高度精確的學(xué)習(xí)

富士通實驗室將繼續(xù)將該技術(shù)應(yīng)用于需要AI判斷背后的推理的任務(wù)(例如金融交易和醫(yī)療診斷)以及處理低頻現(xiàn)象(例如欺詐和設(shè)備故障)的任務(wù),以將其商業(yè)化。一種新的機器學(xué)習(xí)技術(shù) 在2019財年為富士通有限公司的富士通以人類為中心的AI Zinrai提供支持。富士通實驗室還將有效利用這項技術(shù)的獨特功能進行解釋,繼續(xù)研究和開發(fā)主題,例如在為應(yīng)用該任務(wù)的任務(wù)中做出判斷和決策提供更好的支持,以及整個系統(tǒng)的設(shè)計,包括與人的協(xié)作。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。