可以理解人類語音的機器：人工智能的對話模式

2020-06-29 14:16:11 來源：新經(jīng)網(wǎng) 作者：馮思韻

在人工智能發(fā)展的早期，研究人員意識到了能夠理解人類語音的含義和細微差別的機器的功能和可能性。對話和人類語言是計算機特別具有挑戰(zhàn)性的領(lǐng)域，因為單詞和交流不精確。人類語言充滿了細微差別，上下文，文化和社會深度以及不精確性，可能導致各種各樣的解釋。如果計算機可以理解我們談話時的意思，然后以一種我們可以理解的方式與我們交流，那么很顯然，我們已經(jīng)實現(xiàn)了人工智能的目標。

對話互動是AI的一種模式

AI的會話模式

AI的這種特殊應用是如此深刻，以至于構(gòu)成了AI的七個基本模式之一：對話和人類交互模式。對話模式的基本目標是使機器能夠以人類自然語言模式與人類進行交流，并使機器能夠以他們所理解的語言與人類進行交流。對話模式不要求人類遵循諸如打字，滑動，點擊或使用計算機編程語言之類的交互機器模式，而是可以以彼此交互的方式與機器交互：以我們的大腦已經(jīng)被理解的方式進行寫作和交流。

當今AI狹義應用的許多情況都集中在人類交流上。如果計算機能夠理解人類在交流時的含義，那么我們可以創(chuàng)建各種具有實用價值的應用程序，從聊天機器人和對話代理到可以讀取我們在文檔和電子郵件中寫的內(nèi)容的系統(tǒng)，甚至可以準確地翻譯出一個人的系統(tǒng)。人類語言，而又不會失去意義和語境。

機器對人，機器對機器以及人對機器的交互都是AI如何交流和理解人類交流的例子?，F(xiàn)實生活中的一些示例包括語音助手，內(nèi)容生成，聊天機器人，情緒分析，情緒分析和意圖分析，以及機器驅(qū)動的翻譯。對話模式的應用是如此廣泛，以至整個市場領(lǐng)域都專注于使用具有AI功能的對話系統(tǒng)，從對話金融到遠程醫(yī)療等等。除了簡單地理解書面或口頭語言外，AI對話模式的力量還可以通過機器理解情感，情緒和意圖的能力來體現(xiàn)，或者通過視覺手勢將其轉(zhuǎn)換為機器可理解的形式。

自然語言處理：在過去的幾十年中不斷發(fā)展

準確地處理和生成人類語言特別復雜，過去六十年來，技術(shù)不斷發(fā)展。解決問題的一種方法是將音頻波形轉(zhuǎn)換為機器可讀的文本，稱為自動語音識別(ARS)。盡管ASR的實現(xiàn)有些復雜，但它通常不需要機器學習或AI功能，并且?guī)资陙硪呀?jīng)出現(xiàn)了一些相當準確的語音轉(zhuǎn)文本技術(shù)。語音轉(zhuǎn)文字不是自然語言的理解。當計算機記錄人類在說什么時，它會獲取它能理解的波形并將其轉(zhuǎn)換為文字。它不會解釋正在聽到的數(shù)據(jù)。

文本轉(zhuǎn)換為語音的逆向功能也不需要太多的機器學習或AI方式。文本到語音只是由計算機生成的波形，用以說出已知的單詞。僅使用文本到語音時，對這些單詞的含義沒有任何了解。文字語音轉(zhuǎn)換技術(shù)已經(jīng)存在了很多年，您可以在電影《戰(zhàn)爭游戲》(1983年)中聽到：“您想玩游戲嗎?”

但是，即使機器學習已幫助文本轉(zhuǎn)語音變得更人性化，并且語音轉(zhuǎn)文本更準確，語音轉(zhuǎn)文本和文本轉(zhuǎn)語音也不是需要AI和機器學習的地方。自然語言處理(NLP)不僅涉及波形的轉(zhuǎn)換和音頻波形的生成。僅僅因為您有文字并不意味著機器可以理解它。為了獲得這種理解，機器需要能夠理解和生成詞性，提取和理解實體，確定單詞的含義以及使用更為復雜的處理活動將概念，短語，概念和語法連接在一起，從而形成更大的畫面。意圖和意義。

自然語言處理包括兩個部分：自然語言理解和自然語言生成。自然語言理解是指計算機解釋諸如語音或文本之類的人類輸入并將其轉(zhuǎn)換為機器能夠以預期方式使用的東西。自然語言理解由許多子域組成，這些子域試圖從音頻波形生成的文本或人類在文本模式交互(例如聊天機器人或消息傳遞界面)中鍵入的文本中理解意圖。AI應用于詞法分析，以理解語法規(guī)則并將句子分解為結(jié)構(gòu)性成分。不管使用哪種方法，大多數(shù)自然語言理解系統(tǒng)都共享一些公共組件。然后，一旦確定了組件，每件作品都可以在語義上理解為基于上下文和單詞順序來解釋單詞。進一步的邏輯分析和推論可用于使用知識圖和其他推論含義的方法，基于各個部分所指的內(nèi)容來確定含義。

自然語言的生成是AI能夠以任何自然的方式聽起來不像是計算機制作的形式為人類準備交流的過程。為了使計算機過程被視為自然語言的生成，計算機實際上必須解釋內(nèi)容并理解其內(nèi)容以進行有效的交流。這涉及自然語言理解中確定的許多步驟的逆轉(zhuǎn)，這些概念采用概念并通過機器如何理解人類的交流方式來產(chǎn)生人類可理解的對話。

為什么機器便利的對話如此重要?

歸結(jié)為人與計算機通信的模式時，它受到了極大的關(guān)注，因為有時我們與系統(tǒng)的交互可能非常困難。鍵入或滑動可能會花費一些時間，并且無法正確傳達我們的需求，而閱讀諸如FAQ之類的靜態(tài)內(nèi)容可能對大多數(shù)客戶沒有幫助。人們希望與機器進行高效交互。許多用戶界面對于人機交互而言并不是最理想的，需要混亂的菜單交互，過于簡單的交互式語音響應系統(tǒng)或無法滿足用戶需求的基于規(guī)則的聊天機器人。

更加智能的對話系統(tǒng)的開發(fā)可以追溯到幾十年前，而ELIZA聊天機器人最早于1966年開發(fā)，說明了機器介導的對話的可能性。如今，用戶更加熟悉語音助手，例如Alexa，Google Assistant，Apple Siri，Microsoft Cortana和基于Web的聊天機器人。但是，如果您最近與他們中的任何一個進行過互動，那么他們?nèi)匀蝗狈υS多重要方式的理解。毫無疑問，人工智能研究人員的許多工作將致力于改善機器能夠理解和生成人類語言的方式，從而增強那些利用人工智能對話模式的應用程序的功能。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。

標簽：人工智能人類語音