一、智能音箱定義
智能音箱是在傳統(tǒng)音箱基礎(chǔ)上增加了智能化功能,這功能體現(xiàn)在兩方面:一是技術(shù)上具備WiFi鏈接可語(yǔ)音交互;二是功能上可提供音樂(lè)、有聲讀物等內(nèi)容服務(wù)、互聯(lián)網(wǎng)服務(wù)以及場(chǎng)景化智能家居控制能力。
智能音箱可以分為兩種,一種是以亞馬遜Echo為代表的智能助手類音箱,以語(yǔ)音交互技術(shù)為重點(diǎn),成為智能家居的控制中心,國(guó)內(nèi)廠商中京東的叮咚音箱,阿里巴巴天貓精靈和小米智能音箱同屬這種類型,另一種是以內(nèi)容分享為主的內(nèi)容智能音箱,將音箱作為音樂(lè)、有聲讀物等流媒體內(nèi)容的載體,國(guó)內(nèi)廠商以喜馬拉雅的小雅為代表。
(一)智能音箱發(fā)展歷程
2014年11月正式發(fā)布2年多的時(shí)間里,亞馬遜Echo智能音箱已經(jīng)成為市場(chǎng)上最火熱的智能家居產(chǎn)品之一,人們通過(guò)Echo可以用語(yǔ)音控制家電、購(gòu)買商品、查詢咨詢。根據(jù)研究機(jī)構(gòu)eMarketer的調(diào)查數(shù)據(jù)顯示,在美國(guó),大約有3600萬(wàn)用戶每月會(huì)用到一次語(yǔ)音操控的音箱,并且這個(gè)數(shù)字還在擴(kuò)大。
(二)智能音箱市場(chǎng)發(fā)展圖
智能音箱將經(jīng)歷四個(gè)發(fā)展周期:
1.探索期。該階段,人工智能及物聯(lián)網(wǎng)技術(shù)發(fā)展為其爆發(fā)奠定了基礎(chǔ);
2.啟動(dòng)期。經(jīng)過(guò)探索期對(duì)消費(fèi)者的普及,消費(fèi)者認(rèn)知提升,廠商開(kāi)始探索較為清晰的盈利模式;
3.高速發(fā)展期。待智能音箱產(chǎn)業(yè)引得大量資本涌入,入局玩家大幅提升,產(chǎn)品更加滿足消費(fèi)者需求,智能音箱過(guò)渡到高速發(fā)展期;
4.成熟期。此階段內(nèi),智能音箱業(yè)務(wù)模式成熟,市場(chǎng)格局穩(wěn)定,智能音箱進(jìn)入千家萬(wàn)戶。
(三)智能音箱主要功能
智能音箱主要功能
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
二、智能音箱行業(yè)發(fā)展現(xiàn)狀分析
(一)國(guó)外智能音箱行業(yè)發(fā)展現(xiàn)狀
近年來(lái)智能家居市場(chǎng)進(jìn)入快速拓展期,用戶滲透率快速增長(zhǎng)。根據(jù)調(diào)查數(shù)據(jù)顯示,2017 年美國(guó)智能家居市場(chǎng)規(guī)模將達(dá) 146 億美元,滲透率提升至 32.5%,預(yù)計(jì) 2021 年將達(dá)到 60.7%。而中國(guó)智能家居市場(chǎng)規(guī)模也超過(guò) 20 億美元, 滲透率為 2.6%,與美國(guó)相比差距較大,未來(lái)發(fā)展空間廣闊。隨著語(yǔ)音識(shí)別技術(shù)不 斷成熟,智能音箱作為語(yǔ)音交互載體,在控制智能家居的便捷度和體驗(yàn)上都將逐 步優(yōu)于智能手機(jī)。未來(lái)智能音箱有望成為智能家居的控制中樞,成為一個(gè)開(kāi)放性的平臺(tái),可以讓客廳的智能電視、電燈、空調(diào)等鏈接起來(lái),通過(guò)語(yǔ)音交互來(lái)實(shí)現(xiàn)對(duì)于其他智能家居產(chǎn)品的控制,掌握了智能音箱便掌握了智能家居的入口。
全球智能家居市場(chǎng)規(guī)模增長(zhǎng)預(yù)測(cè)
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
2017年對(duì)智能音箱的發(fā)展而言是關(guān)鍵性一年。從全球看,四大科技巨頭悉數(shù)入場(chǎng),全球智能音箱市場(chǎng)規(guī)模達(dá)到3000萬(wàn)臺(tái)。
全球智能音箱市場(chǎng)規(guī)模
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
細(xì)分到產(chǎn)品,2017年,行業(yè)先驅(qū)者亞馬遜Echo依舊穩(wěn)坐智能音箱市場(chǎng)的頭把交椅。智能音箱的核心是語(yǔ)音交互,準(zhǔn)確的喚醒率和流暢的交互體驗(yàn)是一款好的智能音箱所必須具備的。而在美國(guó)的智能音箱用戶中,有44%(約2200萬(wàn))的用戶表示經(jīng)常會(huì)與音箱進(jìn)行語(yǔ)音交互;有70%(約3600萬(wàn))的用戶表示每月至少會(huì)用到一次語(yǔ)音操作,并且這個(gè)數(shù)字還在不斷擴(kuò)大中。而據(jù)美國(guó)另一家權(quán)威信息技術(shù)研究與分析公司Gartner Group預(yù)測(cè),到2020年,美國(guó)75%的家庭將擁有智能音箱。
2017年美國(guó)智能音箱產(chǎn)品市場(chǎng)占有率
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
(二)國(guó)內(nèi)智能音箱行業(yè)現(xiàn)狀分析
根據(jù)權(quán)威調(diào)研機(jī)構(gòu)GfK(全球五大市場(chǎng)研究公司之一)于2017年10月公布的"中國(guó)智能音箱市場(chǎng)分析"報(bào)告,2015年中國(guó)智能音箱零售量只有1萬(wàn)臺(tái),2016年增至6萬(wàn)臺(tái),2017年1--8月共累計(jì)銷售超10萬(wàn)臺(tái)。而隨著2017年第三季度眾多新品的推出,智能音箱銷售量更是有了明顯的飛躍。僅在2017年8月,智能音箱市場(chǎng)就達(dá)到了同比178%的增長(zhǎng)率。
根據(jù)艾媒咨詢數(shù)據(jù)顯示,2016年中國(guó)智能音箱銷售規(guī)模為1.36億元,預(yù)計(jì)2017年將突破兩億,達(dá)到2.01億,增長(zhǎng)率為47.8%;預(yù)計(jì)到2020年,智能音箱銷售規(guī)模將超過(guò)10億元。目前雖眾多廠商已推出智能音箱產(chǎn)品,但市場(chǎng)總體銷售規(guī)模仍處于較低水平,隨著產(chǎn)品進(jìn)一步優(yōu)化升級(jí)及智能家居的推廣,中國(guó)智能音箱消費(fèi)市場(chǎng)潛力將得到釋放,行業(yè)有望迎來(lái)爆發(fā)式增長(zhǎng)。
2016-2020年中國(guó)智能音箱
銷售規(guī)模及預(yù)測(cè)
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
通過(guò)對(duì)國(guó)內(nèi)智能音箱用戶屬性進(jìn)行調(diào)研得出,中國(guó)智能音箱用戶主要集中于一二線城市,而在性別屬性中,主要用戶是集中于有品質(zhì)生活需求的年輕男性。
智能音箱使用用戶性別分析
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
從上述圖表中可以看到在智能音箱使用上男性用戶居多。
智能音箱使用用戶年齡分布
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
從上述圖表中可以看出,智能音箱用戶主要集中在26-45歲人群,其中36-45歲人群占比高于智能硬件用戶。
智能音箱使用用戶地域分布
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
從上述圖表中可以看出,智能音箱用戶相較于智能硬件用戶在一二線城市占比更大。
智能音箱使用用戶消費(fèi)能力分析
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
從上述圖表中可以看出,智能音箱用戶以小白領(lǐng)、藍(lán)領(lǐng)等一定消費(fèi)能力的人群為主,智能音箱小白領(lǐng)用戶占比更高。
與此同時(shí),購(gòu)買智能音箱的家庭屬性也非常明顯,已婚有孩子的用戶占比更高。
購(gòu)買智能音箱用戶的家庭屬性
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
縱觀2017年中國(guó)智能音箱整體市場(chǎng)我們不難發(fā)現(xiàn),200元以下產(chǎn)品的市場(chǎng)占比正在不斷下降,300到600元逐漸成為主流價(jià)格段(市場(chǎng)占比達(dá)到80%)。至于2018年的市場(chǎng)走向?qū)⒃鯓愚D(zhuǎn)變,目前來(lái)看還很難判斷。但可以肯定的是,最終主導(dǎo)市場(chǎng)的必然是那些真正找到用戶痛點(diǎn)并帶來(lái)顛覆性體驗(yàn)的產(chǎn)品,且不論價(jià)格高低,能夠做到讓用戶自發(fā)購(gòu)買,對(duì)于行業(yè)來(lái)講才是良性和持久的發(fā)展。
國(guó)內(nèi)用戶購(gòu)買的智能音箱
價(jià)格區(qū)間分布圖
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
2016年整體智能音箱呈京東叮咚壟斷的趨勢(shì),占比高達(dá)65%,飛利浦與JBL占比分別為14%、20%。2017年隨著更多廠商加入到智能音箱的市場(chǎng),整體市場(chǎng)格局發(fā)生了改變,叮咚的市場(chǎng)份額降到38%,小米緊追其后,占比32%。
2016年及2017年1-8月
市場(chǎng)銷量占比情況
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
三、國(guó)內(nèi)外主流智能音箱產(chǎn)品及廠商情況分析
國(guó)內(nèi)外巨頭不約而同瞄準(zhǔn)了智能音箱,音箱是語(yǔ)音的載體,是聲音的播放端,那么,再給它賦予一個(gè)聲音的“拾取”和“植入”功能,從邏輯上是說(shuō)得通的,于是一波音箱發(fā)布呈井噴之勢(shì),新一輪風(fēng)口誕生。
國(guó)外主要智能音箱產(chǎn)品分析
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
國(guó)內(nèi)主要智能音箱產(chǎn)品分析
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
(一)亞馬遜-Echo
亞馬遜公司整合電商、硬件、平臺(tái)、內(nèi)容等資源,形成完整的生態(tài)布局。
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
1.亞馬遜較早進(jìn)入智能家居領(lǐng)域,通過(guò)Alexa語(yǔ)音平臺(tái),接入其他智能硬件及第三方服務(wù),已形成一定的智能家居體系。
2.亞馬遜具有深厚的電商基礎(chǔ),并在內(nèi)容、硬件、平臺(tái)、云計(jì)算、物流倉(cāng)儲(chǔ)等領(lǐng)域布局,通過(guò)智能音箱整合軟件+硬件+平臺(tái)+內(nèi)容資源,進(jìn)一步盤(pán)活電商資源。
3.亞馬遜Alexa平臺(tái)及云計(jì)算平臺(tái)為打通多個(gè)服務(wù)鏈條奠定了基礎(chǔ),在硬件操作、軟件應(yīng)用及內(nèi)容觀看收聽(tīng)中的海量數(shù)據(jù)被有效收集并整理,實(shí)現(xiàn)內(nèi)容和服務(wù)的個(gè)性化。
4.亞馬遜在中文語(yǔ)音識(shí)別方面缺少布局,目前沒(méi)有進(jìn)入中國(guó)市場(chǎng),但其發(fā)展為中國(guó)市場(chǎng)提供了借鑒,多數(shù)廠商以Echo為對(duì)標(biāo),布局智能音箱。
(二)京東-叮咚
京東融合電商、硬件、內(nèi)容資源、智能平臺(tái)、音頻聯(lián)盟,構(gòu)建多場(chǎng)景多終端的無(wú)界零售。
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
1.京東在2015年推出叮咚音箱,占據(jù)國(guó)內(nèi)智能音箱市場(chǎng)的先發(fā)優(yōu)勢(shì),叮咚音箱先后迭代推新,在用戶使用習(xí)慣、用戶需求等方面,京東已掌握較多有用的用戶數(shù)據(jù),有利于進(jìn)一步優(yōu)化叮咚音箱。
2.通過(guò)強(qiáng)強(qiáng)聯(lián)合的方式,京東通過(guò)電商平臺(tái)優(yōu)勢(shì),整合行業(yè)中的技術(shù)廠商、內(nèi)容廠商及第三方服務(wù)廠商,并發(fā)起“京東智能音頻聯(lián)盟”,向聯(lián)盟內(nèi)成員輸出“JD+智能音頻解決方案”,實(shí)現(xiàn)叮咚音箱產(chǎn)品與優(yōu)質(zhì)內(nèi)容、服務(wù)的結(jié)合。
3.京東通過(guò)京東智能打造智能生態(tài)體系,建立京東Alpha智能服務(wù)平臺(tái),以京東微聯(lián)為平臺(tái)接入多種智能硬件產(chǎn)品,最終實(shí)現(xiàn)叮咚和京東微聯(lián)智能家居的打造,目前叮咚擁有150多項(xiàng)服務(wù)并且擁有自主的開(kāi)發(fā)者平臺(tái)。
4.京東布局較早,在眾多巨頭紛紛加入后,需要不斷創(chuàng)新以及鞏固生態(tài)布局,來(lái)抵抗市場(chǎng)競(jìng)爭(zhēng)。
(三)阿里-天貓精靈
阿里打通內(nèi)容資源、電商資源、O2O資源,發(fā)展消費(fèi)級(jí)AI產(chǎn)品。
1.阿里巴巴依托電商平臺(tái)建立相對(duì)完善的生態(tài)體系,在內(nèi)容、技術(shù)、O2O服務(wù)等方向上都有所布局、但硬件產(chǎn)品較少,硬件實(shí)力相對(duì)薄弱。
2.阿里成立人工智能實(shí)驗(yàn)室,發(fā)展人工智能技術(shù),開(kāi)發(fā)消費(fèi)級(jí)AI產(chǎn)品,智能音箱將打通阿里現(xiàn)有的產(chǎn)業(yè)資源,實(shí)現(xiàn)硬件與軟件的有效結(jié)合。
3.阿里以阿里智能為基礎(chǔ),建立阿里智能聯(lián)盟,接入其他智能家居產(chǎn)品,通過(guò)智能音箱產(chǎn)品實(shí)現(xiàn)對(duì)智能家居控制,進(jìn)一步擴(kuò)大阿里在智能家居領(lǐng)域中的布局。
4.相較于市場(chǎng)中其他智能音箱廠商,阿里在生態(tài)上較為完善,但在硬件及智能家居領(lǐng)域中的布局有限。隨著巨頭相繼發(fā)布新品,智能音箱產(chǎn)品將趨向標(biāo)準(zhǔn),行業(yè)將逐漸成熟。
四、智能音箱構(gòu)成及技術(shù)介紹
(一)智能音箱硬件分析
下圖展示了 Echo 拆解后的部件。可以看到,智能音箱的硬件并不算復(fù)雜(相對(duì)于無(wú)人駕駛等“重型”AI 產(chǎn)品)。
Echo 拆解后的部件
1、外觀設(shè)計(jì)
音箱ID設(shè)計(jì)除了出于美學(xué)和交互設(shè)計(jì)的考慮外,還要和音腔設(shè)計(jì)(影響音效)、麥列方案(影響語(yǔ)音交互)等相互耦合,需要通盤(pán)考慮。
2、揚(yáng)聲器
智能音箱本質(zhì)上還是一款音箱,因此,提供用戶認(rèn)可的音質(zhì)是產(chǎn)品存在的前提。但是智能音箱在揚(yáng)聲器的選擇上,除了受到音箱尺寸限制,還要考慮麥列的拾音及后續(xù)的信號(hào)處理。
以Echo音箱為例,Echo采用封閉式揚(yáng)聲器設(shè)計(jì),高音和低音喇叭上下相對(duì),聲音各個(gè)方向是對(duì)稱的,這有利于前端信號(hào)處理,但音效會(huì)受到限制。
僅就音效而言,音腔越大越有利于設(shè)計(jì),但這會(huì)導(dǎo)致最后智能音箱非常笨重。也因此,許多設(shè)計(jì)上都有音腔部分略微鼓起的外觀設(shè)計(jì)(如叮咚)。
為了支持雙工(例如,在播放音樂(lè)的同時(shí)可以對(duì)音箱下達(dá)命令),揚(yáng)聲器的功率不能太大,這樣就限制了音箱的最大音量。反過(guò)來(lái),如果要確保音箱有較大的音量,可能會(huì)限制雙工條件下的音箱理解用戶語(yǔ)音的靈敏度。
3、麥克風(fēng)陣列
麥克風(fēng)陣列(以下簡(jiǎn)稱麥列),是由一定數(shù)目的麥克風(fēng)組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。簡(jiǎn)單而言,使用麥列而非單個(gè)麥克風(fēng),是為了在用戶距離音箱較遠(yuǎn)時(shí),依然能夠正常的收聽(tīng)用戶的語(yǔ)音指令。
智能音箱多使用環(huán)狀麥列,目前以 6(+1)麥為主流方案,也有2、4麥和8麥的產(chǎn)品。
麥克風(fēng)陣列分布圖
麥列方案主要受成本和算法兩個(gè)因素限制。一方面,雖然麥克風(fēng)本身成本并不是特別高,但增加麥克風(fēng)數(shù)量需要配套的增加采樣等后續(xù)硬件的投入,會(huì)大大增加成本。另一方面,麥列涉及一系列算法,算法設(shè)計(jì)難度和計(jì)算復(fù)雜度都會(huì)隨著麥克風(fēng)數(shù)量的增加而加大。
在選擇麥克風(fēng)時(shí),除了指向性、靈敏度、信噪比、頻響范圍、失真度等常規(guī)的參數(shù)要求,其安放位置、開(kāi)口設(shè)計(jì)也要考慮ID設(shè)計(jì)和揚(yáng)聲器的位置、功放等,需要全盤(pán)考慮。
4、主控板
本質(zhì)上與手機(jī)等移動(dòng)設(shè)備的主板并無(wú)差別,包括主板、CPU、存儲(chǔ)器等。主控板的選擇要在滿足響應(yīng)延遲的前提下,盡量壓縮成本和功耗。
主控板內(nèi)部結(jié)構(gòu)
(二)智能音箱算法介紹
總體而言,音箱工作時(shí),麥列始終處于拾音狀態(tài)(持續(xù)對(duì)聲音信號(hào)進(jìn)行采樣、量化)。經(jīng)過(guò)基本的信號(hào)處理(靜音檢測(cè)、降噪等),喚醒模塊會(huì)判斷是否出現(xiàn)喚醒詞。如果出現(xiàn)喚醒詞,后續(xù)語(yǔ)音會(huì)進(jìn)行更復(fù)雜的語(yǔ)音信號(hào)處理,(理想情況下)得到干凈的語(yǔ)音信號(hào),開(kāi)始真正的語(yǔ)音交互流程。
智能音箱工作原理
1、前端信號(hào)處理
(1)語(yǔ)音檢測(cè)(VAD)
語(yǔ)音檢測(cè)(英文一般稱為Voice Activity Detection,VAD)的目標(biāo)是,準(zhǔn)確的檢測(cè)出音頻信號(hào)的語(yǔ)音段起始位置,從而分離出語(yǔ)音段和非語(yǔ)音段(靜音或噪聲)信號(hào)。由于能夠?yàn)V除不相干非語(yǔ)音信號(hào),高效準(zhǔn)確的 VAD 不但能減輕后續(xù)處理的計(jì)算量,提高整體實(shí)時(shí)性,還能有效提高下游算法的性能。
VAD 算法可以粗略的分為三類:基于閾值的VAD、作為分類器的VAD和模型VAD。
(2)降噪
實(shí)際環(huán)境中存在著空調(diào)、風(fēng)扇以及其他各種各樣的噪聲。降低噪聲干擾,提高信噪比,降低后端語(yǔ)音識(shí)別的難度。
常用的降噪算法有自適應(yīng)LMS和維納濾波等。
(3)聲學(xué)回聲消除(Acoustic Echo Cancellaction, AEC)
AEC的目的是,在音箱揚(yáng)聲器工作(播放音樂(lè)或語(yǔ)音)時(shí),從麥克風(fēng)中收集的語(yǔ)音中,去除自身播放的聲音信號(hào)。這是雙工模式的前提。否則,當(dāng)音樂(lè)播放時(shí),我們的聲音信號(hào)會(huì)淹沒(méi)在音樂(lè)聲中,不能繼續(xù)對(duì)音箱進(jìn)行有效的語(yǔ)音控制。
(4)去混響處理
混響對(duì)于人耳完全不是問(wèn)題,但是,延遲的語(yǔ)音疊加產(chǎn)生掩蔽效應(yīng),這對(duì)語(yǔ)音識(shí)別是致命的障礙。對(duì)于混響,一般從兩個(gè)方面來(lái)嘗試解決:
1)去混響 ;
2)對(duì)語(yǔ)音識(shí)別的聲學(xué)模型加混響訓(xùn)練。由于真實(shí)環(huán)境的復(fù)雜性,一定的前端去混響算法還是非常有必要的。
(5)聲源定位(Direction of Arrival estimation, DOA)
聲源定位是根據(jù)麥列收集的聲音語(yǔ),確定說(shuō)話人的位置。DOA 至少有兩個(gè)用途:用于方位燈的展示,增強(qiáng)交互效果;作為波束形成的前導(dǎo)任務(wù),確定空間濾波的參數(shù)。
(6)波束形成(Beam Forming, BF)
波束形成是利用空間濾波的方法,將多路聲音信號(hào),整合為一路信號(hào)。通過(guò)波束形成,一方面可以增強(qiáng)原始的語(yǔ)音信號(hào),另一方面抑制旁路信號(hào),起到降噪和去混響的作用。
2、喚醒
出于保護(hù)用戶隱私和減少誤識(shí)別兩個(gè)因素的考慮,智能音箱一般在檢測(cè)到喚醒詞之后,才會(huì)開(kāi)始進(jìn)一步的復(fù)雜信號(hào)處理(聲源定位、波束形成)和后續(xù)的語(yǔ)音交互過(guò)程。
一般而言,喚喚醒模塊是一個(gè)小型語(yǔ)音識(shí)別引擎。由于目標(biāo)單一(檢測(cè) 出指定的喚醒詞),喚醒只需要較小的聲學(xué)模型和語(yǔ)言模型(只需要區(qū)分出有無(wú)喚醒詞出現(xiàn)),聲學(xué)打分和解碼可以很快,空間占用少,能夠在本地實(shí)時(shí)。
3、語(yǔ)音交互
語(yǔ)音交互基本流程
(1)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)
語(yǔ)音識(shí)別的目的是將語(yǔ)音信號(hào)轉(zhuǎn)化為文本。語(yǔ)音識(shí)別技術(shù)相對(duì)成熟。目前,基于近場(chǎng)信號(hào)的、受控環(huán)境(低噪聲、低混響)下的標(biāo)準(zhǔn)音語(yǔ)音識(shí)別能夠達(dá)到很的水平。然而在智能音箱開(kāi)放性的真實(shí)環(huán)境,語(yǔ)音識(shí)別依然是一個(gè)不小的挑戰(zhàn),需要接合前端信號(hào)處理一起來(lái)優(yōu)化。
(2)自然語(yǔ)言理解(Natural Language Understanding, NLU)
可以將基于框架的(frame-based) NLU 分為三個(gè)子問(wèn)題去解決:
(3)對(duì)話管理(Diaglou Management, DM)
多輪對(duì)話對(duì)于自然的人工交互非常重要。比如,當(dāng)我們?cè)儐?wèn)“北京明天的天氣怎么樣?”,之后,更習(xí)慣追問(wèn)“那深圳呢?”而不是重復(fù)的說(shuō)“深圳明天的天氣怎么樣?”
(4)自然語(yǔ)言生成(Natural Language Generation, NLG)
目前完全自動(dòng)化的 NLG 方法還不成熟。實(shí)際產(chǎn)品中,多采用預(yù)先設(shè)計(jì)的文本模板來(lái)生成文本輸出。比如,播放歌曲時(shí),生成語(yǔ)句為:“即將為您播放【歌手名】的【歌曲名】”。
(5)語(yǔ)音合成(Speech Synthesis)
語(yǔ)音合成又叫做文語(yǔ)轉(zhuǎn)換(Text-to-Speech,TTS),更常見(jiàn)可能是 TTS 這一稱呼。TTS 的終極目標(biāo)是,使機(jī)器能夠像人一樣朗讀任意給定的文本。
評(píng)價(jià)實(shí)用的語(yǔ)音合成系統(tǒng)的兩個(gè)主要的標(biāo)準(zhǔn)是:可懂度(人能夠聽(tīng)懂)和自然度(使人聽(tīng)著舒服)。目前,可懂度的問(wèn)題基本得到解決。參數(shù)合成和拼接合成是TTS的兩種主要合成方法,其中,參數(shù)計(jì)算量小,部署靈活,但自然較差;拼接接近真人發(fā)音,存儲(chǔ)和計(jì)算資源高,一般只能在線合成。
(三)麥克風(fēng)陣列研究
簡(jiǎn)單來(lái)講,麥克風(fēng)陣列是由2個(gè)及以上麥克風(fēng)按一定規(guī)則排列組成,在特定空間對(duì)聲音進(jìn)行獲取和處理的錄音系統(tǒng),它是遠(yuǎn)講語(yǔ)音(超過(guò)1米以上)設(shè)備的一個(gè)關(guān)鍵部分。
麥克風(fēng)陣列的功能就是拾音。在遠(yuǎn)講語(yǔ)音設(shè)備中,麥克風(fēng)陣列通過(guò)聲源定位、波束形成、噪聲抑制、回聲消除等遠(yuǎn)講算法,有效拾取聲音,從而保證具體場(chǎng)景中語(yǔ)音的識(shí)別率。而拾音又分為遠(yuǎn)場(chǎng)拾音(1米外)和近場(chǎng)拾音(20cm內(nèi))。
1、麥克風(fēng)陣列中的關(guān)鍵技術(shù)
(1)聲源定位
聲源定位的任務(wù)就是在具體場(chǎng)景中,甚至從噪音中找到發(fā)出聲音的“你”,以便后續(xù)的波束形成。它是基于麥克風(fēng)陣列對(duì)目標(biāo)信號(hào)(聲源)的位置探測(cè),確定在特定空間中說(shuō)話者的位置關(guān)系。尤其是在移動(dòng)場(chǎng)景中,實(shí)時(shí)的聲源定位就顯得重要。
(2)波束形成
波束形成是對(duì)麥克風(fēng)陣列中各個(gè)麥克風(fēng)輸出的聲音進(jìn)行信號(hào)處理,從而形成空間指向性。這種方法會(huì)抑制目標(biāo)聲音以外的聲音干擾,不僅抑制噪聲也包括其他方向的人聲。
(3)噪聲抑制
你在臥室中開(kāi)著電視,是很難喚醒在你床上睡覺(jué)的iPhone中的Siri的,這就是它不具備噪聲抑制的能力。但你可以喚醒理你較遠(yuǎn)的智能音箱,這正是噪聲抑制的作用。
簡(jiǎn)單來(lái)講,噪聲抑制就是在目標(biāo)信號(hào)和干擾噪聲中,保留目標(biāo)聲音,削弱周圍的噪聲,從而保證獲取的目標(biāo)聲音信號(hào)相對(duì)清晰,再結(jié)合云端相匹配的語(yǔ)音識(shí)別算法,實(shí)現(xiàn)有效識(shí)別理解。
(4)抗混響
混響就是聲源發(fā)出后,在空間中經(jīng)過(guò)多次物體(墻壁)的反射和吸收,若干聲波混合在一起所形成的現(xiàn)象,它會(huì)影響語(yǔ)音信號(hào)的處理,聲源定位的精度以及語(yǔ)音識(shí)別效果。通過(guò)遠(yuǎn)講算法消除混響是遠(yuǎn)講語(yǔ)音設(shè)備在拾音環(huán)節(jié)的關(guān)鍵一環(huán)。
(5)回聲抵消
回聲抵消簡(jiǎn)單來(lái)講,就是不讓語(yǔ)音設(shè)備自己發(fā)出的聲音干擾到拾音過(guò)程。比如在智能音箱播放音樂(lè)時(shí),你喚醒設(shè)備并下達(dá)命令,這時(shí)麥克風(fēng)陣列同時(shí)采集你發(fā)出的聲音和正在播放的音樂(lè)的聲音,而回聲抵消就是要去掉其中音樂(lè)的聲音并保留人的聲音,以供云端進(jìn)行語(yǔ)音識(shí)別。
(6)語(yǔ)音增強(qiáng)
在家居環(huán)境中,存在著背景噪音、回聲、混響等噪音干擾,這些噪音相互疊加嚴(yán)重影響語(yǔ)音識(shí)別效果。除了降低各種噪聲外,還可以從語(yǔ)音增強(qiáng)進(jìn)行改善。
遠(yuǎn)距離拾音的另一個(gè)問(wèn)題就是獲取的語(yǔ)音信號(hào)較弱,需要通過(guò)麥克風(fēng)陣列進(jìn)行噪聲分離,提取目標(biāo)信號(hào),并增強(qiáng)語(yǔ)音信號(hào)的能量,從而提升語(yǔ)音識(shí)別效果。
2、消費(fèi)級(jí)麥克風(fēng)陣列主要企業(yè)介紹
(1)科大訊飛——國(guó)內(nèi)語(yǔ)音龍頭
科大訊飛是國(guó)內(nèi)一家老牌智能語(yǔ)音公司,其有一個(gè)專門(mén)的團(tuán)隊(duì)在研究麥克風(fēng)陣列技術(shù)。目前在訊飛開(kāi)放平臺(tái)上,提供二麥線性陣列、四麥線性陣列和六麥環(huán)形陣列。中興、??低?、美的、高德、優(yōu)必選、狗尾草等都是其客戶。
叮咚音箱就是由京東和科大訊飛聯(lián)合成立的靈隆科技推出的,其中科大訊飛提供語(yǔ)音語(yǔ)義等技術(shù)支持。叮咚音箱A1是國(guó)內(nèi)第一款真正意義上的智能音箱,于2015年8月正式推出,它采用7+1麥克風(fēng)陣列,豪恩聲學(xué)提供的ECM麥克風(fēng),并采用科勝訊CX20810-11Z音頻芯片。在結(jié)構(gòu)上不同于其他智能音箱置于頂部,而是位于主控電路板下面,并采用中空結(jié)構(gòu),麥克風(fēng)向外側(cè)傾斜拾音,頗具創(chuàng)意。
(2)科勝訊——國(guó)際語(yǔ)音方案巨頭
科勝訊成立于1999年,曾是全球最大的獨(dú)立通訊芯片提供商,后來(lái)幾經(jīng)波折被新思科技收購(gòu)。在語(yǔ)音交互領(lǐng)域,它主要提供語(yǔ)音芯片和麥克風(fēng)陣列技術(shù),其方案最大優(yōu)勢(shì)在于降噪和語(yǔ)音增強(qiáng)算法,技術(shù)打磨也更加成熟。難怪科勝訊總裁Saleel Awsare會(huì)說(shuō),其雙麥克風(fēng)就可以實(shí)現(xiàn)友商5-8麥克風(fēng)的解決方案的效果。
亞馬遜、百度、阿里巴巴、騰訊、哈曼、科大訊飛、出門(mén)問(wèn)問(wèn)、云知聲等都是其客戶、合作伙伴??苿儆崬锳lexa Voice Service (AVS) 量身定做了AudioSmart 語(yǔ)音處理開(kāi)發(fā)套件出貨量已超過(guò)3000萬(wàn)套,涵蓋智能音箱、智能家居、智能電視、機(jī)器人等多個(gè)品類。出門(mén)問(wèn)問(wèn)剛剛發(fā)布的智能音箱也采用科勝訊的方案,此外,蘋(píng)果HomePod也可能采用了科勝訊AudioSmart開(kāi)發(fā)套件。
(3)先聲互聯(lián)——陣列研究先行者
先聲互聯(lián)是一家成立于2016年的創(chuàng)業(yè)公司,主要提供麥克風(fēng)陣列以及前端信號(hào)處理技術(shù)。其創(chuàng)始人付強(qiáng)曾在中科院聲學(xué)所有10余年的聲學(xué)研究,在語(yǔ)音信號(hào)處理領(lǐng)域有20余年的積淀。先聲互聯(lián)目前主要提供兩麥、四麥、六麥等解決方案,在抗混響、回聲消除、語(yǔ)音增強(qiáng)等方面表現(xiàn)不俗。
先聲互聯(lián)是百度的合作伙伴,其多麥克風(fēng)硬件開(kāi)發(fā)套件也應(yīng)用在百度DuerOS平臺(tái)中。目前,物靈的luka閱讀養(yǎng)成機(jī)器人、極米科技的Lightank W100、數(shù)字家圓的親見(jiàn)H2等產(chǎn)品都采用了先聲互聯(lián)的遠(yuǎn)講算法以及麥克風(fēng)拾音模組。此外,先聲互聯(lián)也正在和騰訊、聯(lián)想、小米等公司就某些智能硬件產(chǎn)品展開(kāi)合作。
(4)思必馳——成熟方案輸出商
思必馳成立于2007年,是一家面向B端客戶的語(yǔ)音語(yǔ)義技術(shù)提供商。其副總裁雷國(guó)雄告訴智東西,思必馳從2012年就開(kāi)始研究麥克風(fēng)陣列技術(shù),并配備一個(gè)專門(mén)的團(tuán)隊(duì)研究語(yǔ)音信號(hào)處理,結(jié)合思必馳的語(yǔ)音進(jìn)行優(yōu)化。目前思必馳提供單麥、兩麥、四麥、六麥等解決方案,經(jīng)過(guò)5、6年時(shí)間的積累,在性能和穩(wěn)定性上均表現(xiàn)不錯(cuò)。
近期阿里推出的天貓精靈X1就是采用思必馳的環(huán)形6麥克風(fēng)陣列,模擬麥克風(fēng)則來(lái)自敏芯微電子,天貓精靈在降噪、回聲消除等拾音方面均有不錯(cuò)表現(xiàn)。此外,聯(lián)想、小米、美的、360、DOSS等都是其客戶。
(5)聲智科技——新起之秀
聲智科技也成立于2016年,提供麥克風(fēng)陣列以及遠(yuǎn)講算法,目前其推出了單麥、兩麥、四麥、六麥、八麥的陣列解決方案,也有不錯(cuò)的表現(xiàn)。有趣的是其創(chuàng)始人陳孝良也來(lái)自中科院聲學(xué)所。
最新發(fā)布的小米AI音箱,就采用了聲智科技的環(huán)形6麥克風(fēng)陣列和喚醒技術(shù)方案。聲智科技也是百度的合作伙伴,推出了基于DuerOS的語(yǔ)音解決方案。此外,騰訊、阿里巴巴、奇虎360、華為、海爾等都是其客戶。 五、麥克風(fēng)陣列:兩路分化
目前,智能音箱中的麥克風(fēng)陣列呈現(xiàn)兩路分化,主要包括環(huán)形和線性。亞馬遜Echo、叮咚音箱、天貓精靈、小米AI音箱等技術(shù)路線相似,都使用6(+1)、7(+1)個(gè)麥克風(fēng)的環(huán)形陣列,而Google Home、出門(mén)問(wèn)問(wèn)的問(wèn)問(wèn)音箱則采用了2麥克風(fēng)的線性陣列。
3、麥克風(fēng)陣列在遠(yuǎn)場(chǎng)交互中存在的問(wèn)題
第一,誤喚醒是一個(gè)問(wèn)題。
表面看這個(gè)是喚醒的問(wèn)題,但實(shí)際跟陣列有較強(qiáng)的關(guān)系,喚醒拿到的是陣列拾音的信號(hào),陣列對(duì)信號(hào)噪聲處理效果的好壞直接影響到誤喚醒。
第二,聲源定位需要提升。
在聲學(xué)環(huán)境中,尤其是在反射較強(qiáng)、回聲較強(qiáng)、噪音環(huán)境下,聲源定位需要較大的提升空間。
第三,動(dòng)態(tài)環(huán)境中對(duì)用戶位置的跟蹤也需要提升。
在家庭場(chǎng)景中, 人會(huì)處于一種移動(dòng)的狀態(tài),喚醒和指令可能不在同一個(gè)方位,在下一次人機(jī)交互中會(huì)重點(diǎn)處理剛剛那個(gè)方向的信號(hào),如果房間存在多個(gè)音源,就可能無(wú)法執(zhí)行指令。
第四,麥克風(fēng)陣列無(wú)法同時(shí)進(jìn)行多人聲的識(shí)別和處理。
當(dāng)下的波束形成和噪聲抑制,會(huì)使陣列在同一時(shí)間處理同一個(gè)方向的聲源,從而抑制其他聲源,這就意味著當(dāng)下的技術(shù)路線下,機(jī)器無(wú)法同時(shí)與多人進(jìn)行交互。
(四)國(guó)內(nèi)外主要智能音箱產(chǎn)品技術(shù)參數(shù)
國(guó)內(nèi)外主要智能音箱產(chǎn)品技術(shù)參數(shù)
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
五、中國(guó)智能音箱產(chǎn)業(yè)未來(lái)發(fā)展趨勢(shì)
(一)智能音箱市場(chǎng)未來(lái)發(fā)展機(jī)遇
來(lái)源:公開(kāi)資料,匯創(chuàng)資本整理
(二)智能音箱市場(chǎng)發(fā)展瓶頸
中國(guó)尚未建立完全的智能家居生態(tài)體系,使用場(chǎng)景碎片化、硬件操作復(fù)雜等問(wèn)題未解決,消費(fèi)者無(wú)法體會(huì)智能家居的智慧和便捷。例如,西方使用開(kāi)放式的廚房與客廳消費(fèi)者本身有客廳使用音箱的習(xí)慣,而中國(guó)的廚房烹飪環(huán)境嘈雜、油煙重,廚房客廳相對(duì)封閉,家庭使用音箱頻次并不高。
此外,智能家居缺乏配套法規(guī)和統(tǒng)一標(biāo)準(zhǔn),產(chǎn)品良莠不齊,消費(fèi)者體驗(yàn)較差。目前消費(fèi)者使用智能音箱內(nèi)容方面的功能偏多,中國(guó)智能家居的市場(chǎng)需要一個(gè)能直擊消費(fèi)者痛點(diǎn)的單品來(lái)顛覆消費(fèi)者思維,讓消費(fèi)者形成智能家居思維。
廠商紛紛扎堆語(yǔ)音交互技術(shù)而忽略了消費(fèi)者的體驗(yàn),遠(yuǎn)場(chǎng)識(shí)別差、誤喚醒率高、連續(xù)對(duì)話功能不穩(wěn)定、語(yǔ)義理解能力差是目前消費(fèi)者不滿意的主要原因。
我國(guó)的智能音箱雖然數(shù)量上出現(xiàn)爆發(fā)式增長(zhǎng),但是產(chǎn)品同質(zhì)化嚴(yán)重,家庭普及率并不高,許多消費(fèi)者只是帶著好奇的心態(tài)體驗(yàn)“新品”,更多是把智能音箱當(dāng)做裝飾品,而沒(méi)有當(dāng)作家居必備品。因此,企業(yè)應(yīng)該注重消費(fèi)者體驗(yàn),解決消費(fèi)者痛點(diǎn),打造真正實(shí)用、居家必備的智能音箱才能突破市場(chǎng)瓶頸。
(三)2018年智能音箱市場(chǎng)七大預(yù)測(cè)
1、智能音箱整體向好
2018年市場(chǎng)規(guī)模成倍增長(zhǎng)幾乎成為行業(yè)共識(shí),市場(chǎng)規(guī)模預(yù)計(jì)將突破500萬(wàn)。2017年各種唱衰、質(zhì)疑的聲音,隨著智能音箱產(chǎn)業(yè)鏈的發(fā)展已逐漸褪去。
2、智能音箱持續(xù)爆發(fā)
互聯(lián)網(wǎng)巨頭接下來(lái)圍繞搶占市場(chǎng)的持續(xù)補(bǔ)貼、用戶認(rèn)知度提升、整體產(chǎn)業(yè)鏈的成熟、用戶體驗(yàn)的提升等,是2018年智能音箱持續(xù)爆發(fā)的主要?jiǎng)恿Α?/span>
3、音箱產(chǎn)業(yè)升級(jí)
智能音箱替代藍(lán)牙音箱(傳統(tǒng)音箱)已成為趨勢(shì),音箱產(chǎn)業(yè)迎來(lái)升級(jí)。
4、語(yǔ)音向人機(jī)交互界面演變
2018年會(huì)成為國(guó)內(nèi)智能音箱的分水嶺,智能音箱不再受限于現(xiàn)在的形態(tài),語(yǔ)音交互會(huì)根據(jù)使用場(chǎng)景來(lái)滿足用戶獨(dú)特的需求,語(yǔ)音向人機(jī)交互界面演變。
5、新的行業(yè)格局涌現(xiàn)
一方面互聯(lián)網(wǎng)巨頭之前可能會(huì)出現(xiàn)陣營(yíng)的分化,另一方面創(chuàng)業(yè)公司會(huì)針對(duì)細(xì)分場(chǎng)景打造差異化的產(chǎn)品與服務(wù)。
6、語(yǔ)音交互生態(tài)發(fā)展
國(guó)內(nèi)語(yǔ)音交互生態(tài)較弱,主要表現(xiàn)在語(yǔ)音交互技術(shù)和內(nèi)容與服務(wù)兩方面,這是2018年行業(yè)需要繼續(xù)發(fā)力的部分,否則將限制智能音箱以及智能語(yǔ)音產(chǎn)品的發(fā)展。
7、解決用戶痛點(diǎn)
尋找用戶的剛需性場(chǎng)景,解決用戶的痛點(diǎn)性問(wèn)題將是下一階段的重中之重,它事關(guān)用戶粘性、用戶口碑以及智能音箱的進(jìn)一步爆發(fā)。