智能音箱行業發展研究報告

發布者:管理員  2018/6/1 16:34:17

一、智能音箱定義

智能音箱是在傳統音箱基礎上增加了智能化功能,這功能體現在兩方麵:一是技術上具備WiFi鏈接可語音交互;二是功能上可提供音樂、有聲讀物等內容服務、互聯網服務以及場景化智能家居控製能力。

智能音箱可以分為兩種,一種是以亞馬遜Echo為代表的智能助手類音箱,以語音交互技術為重點,成為智能家居的控製中心,國內廠商中京東的叮咚音箱,阿裏巴巴天貓精靈和小米智能音箱同屬這種類型,另一種是以內容分享為主的內容智能音箱,將音箱作為音樂、有聲讀物等流媒體內容的載體,國內廠商以喜馬拉雅的小雅為代表。

(一)智能音箱發展曆程

2014年11月正式發布2年多的時間裏,亞馬遜Echo智能音箱已經成為市場上最火熱的智能家居產品之一,人們通過Echo可以用語音控製家電、購買商品、查詢谘詢。根據研究機構eMarketer的調查數據顯示,在美國,大約有3600萬用戶每月會用到一次語音操控的音箱,並且這個數字還在擴大。

(二)智能音箱市場發展圖

智能音箱將經曆四個發展周期:

1.探索期。該階段,人工智能及物聯網技術發展為其爆發奠定了基礎;

2.啟動期。經過探索期對消費者的普及,消費者認知提升,廠商開始探索較為清晰的盈利模式;

3.高速發展期。待智能音箱產業引得大量資本湧入,入局玩家大幅提升,產品更加滿足消費者需求,智能音箱過渡到高速發展期;

4.成熟期。此階段內,智能音箱業務模式成熟,市場格局穩定,智能音箱進入千家萬戶。

(三)智能音箱主要功能

智能音箱主要功能


來源:公開資料,匯創資本整理

二、智能音箱行業發展現狀分析

(一)國外智能音箱行業發展現狀

近年來智能家居市場進入快速拓展期,用戶滲透率快速增長。根據調查數據顯示,2017 年美國智能家居市場規模將達 146 億美元,滲透率提升至 32.5%,預計 2021 年將達到 60.7%。而中國智能家居市場規模也超過 20 億美元, 滲透率為 2.6%,與美國相比差距較大,未來發展空間廣闊。隨著語音識別技術不 斷成熟,智能音箱作為語音交互載體,在控製智能家居的便捷度和體驗上都將逐 步優於智能手機。未來智能音箱有望成為智能家居的控製中樞,成為一個開放性的平台,可以讓客廳的智能電視、電燈、空調等鏈接起來,通過語音交互來實現對於其他智能家居產品的控製,掌握了智能音箱便掌握了智能家居的入口。

全球智能家居市場規模增長預測

來源:公開資料,匯創資本整理

2017年對智能音箱的發展而言是關鍵性一年。從全球看,四大科技巨頭悉數入場,全球智能音箱市場規模達到3000萬台。

全球智能音箱市場規模

來源:公開資料,匯創資本整理

細分到產品,2017年,行業先驅者亞馬遜Echo依舊穩坐智能音箱市場的頭把交椅。智能音箱的核心是語音交互,準確的喚醒率和流暢的交互體驗是一款好的智能音箱所必須具備的。而在美國的智能音箱用戶中,有44%(約2200萬)的用戶表示經常會與音箱進行語音交互;有70%(約3600萬)的用戶表示每月至少會用到一次語音操作,並且這個數字還在不斷擴大中。而據美國另一家權威信息技術研究與分析皇冠国际Gartner Group預測,到2020年,美國75%的家庭將擁有智能音箱。

2017年美國智能音箱產品市場占有率

來源:公開資料,匯創資本整理

(二)國內智能音箱行業現狀分析

根據權威調研機構GfK(全球五大市場研究皇冠国际之一)於2017年10月公布的"中國智能音箱市場分析"報告,2015年中國智能音箱零售量隻有1萬台,2016年增至6萬台,2017年1--8月共累計銷售超10萬台。而隨著2017年第三季度眾多新品的推出,智能音箱銷售量更是有了明顯的飛躍。僅在2017年8月,智能音箱市場就達到了同比178%的增長率。

根據艾媒谘詢數據顯示,2016年中國智能音箱銷售規模為1.36億元,預計2017年將突破兩億,達到2.01億,增長率為47.8%;預計到2020年,智能音箱銷售規模將超過10億元。目前雖眾多廠商已推出智能音箱產品,但市場總體銷售規模仍處於較低水平,隨著產品進一步優化升級及智能家居的推廣,中國智能音箱消費市場潛力將得到釋放,行業有望迎來爆發式增長。

2016-2020年中國智能音箱

銷售規模及預測

來源:公開資料,匯創資本整理

通過對國內智能音箱用戶屬性進行調研得出,中國智能音箱用戶主要集中於一二線城市,而在性別屬性中,主要用戶是集中於有品質生活需求的年輕男性。

智能音箱使用用戶性別分析

來源:公開資料,匯創資本整理

從上述圖表中可以看到在智能音箱使用上男性用戶居多。

智能音箱使用用戶年齡分布

來源:公開資料,匯創資本整理

從上述圖表中可以看出,智能音箱用戶主要集中在26-45歲人群,其中36-45歲人群占比高於智能硬件用戶。

智能音箱使用用戶地域分布

來源:公開資料,匯創資本整理

從上述圖表中可以看出,智能音箱用戶相較於智能硬件用戶在一二線城市占比更大。

智能音箱使用用戶消費能力分析

來源:公開資料,匯創資本整理

從上述圖表中可以看出,智能音箱用戶以小白領、藍領等一定消費能力的人群為主,智能音箱小白領用戶占比更高。

與此同時,購買智能音箱的家庭屬性也非常明顯,已婚有孩子的用戶占比更高。

購買智能音箱用戶的家庭屬性

來源:公開資料,匯創資本整理

縱觀2017年中國智能音箱整體市場皇冠国际不難發現,200元以下產品的市場占比正在不斷下降,300到600元逐漸成為主流價格段(市場占比達到80%)。至於2018年的市場走向將怎樣轉變,目前來看還很難判斷。但可以肯定的是,最終主導市場的必然是那些真正找到用戶痛點並帶來顛覆性體驗的產品,且不論價格高低,能夠做到讓用戶自發購買,對於行業來講才是良性和持久的發展。

國內用戶購買的智能音箱

價格區間分布圖

來源:公開資料,匯創資本整理

2016年整體智能音箱呈京東叮咚壟斷的趨勢,占比高達65%,飛利浦與JBL占比分別為14%、20%。2017年隨著更多廠商加入到智能音箱的市場,整體市場格局發生了改變,叮咚的市場份額降到38%,小米緊追其後,占比32%。

2016年及2017年1-8月

市場銷量占比情況

來源:公開資料,匯創資本整理

三、國內外主流智能音箱產品及廠商情況分析

國內外巨頭不約而同瞄準了智能音箱,音箱是語音的載體,是聲音的播放端,那麽,再給它賦予一個聲音的“拾取”和“植入”功能,從邏輯上是說得通的,於是一波音箱發布呈井噴之勢,新一輪風口誕生。

國外主要智能音箱產品分析

來源:公開資料,匯創資本整理

國內主要智能音箱產品分析

來源:公開資料,匯創資本整理

(一)亞馬遜-Echo

亞馬遜皇冠国际整合電商、硬件、平台、內容等資源,形成完整的生態布局。

來源:公開資料,匯創資本整理

1.亞馬遜較早進入智能家居領域,通過Alexa語音平台,接入其他智能硬件及第三方服務,已形成一定的智能家居體係

2.亞馬遜具有深厚的電商基礎,並在內容、硬件、平台、雲計算、物流倉儲等領域布局,通過智能音箱整合軟件+硬件+平台+內容資源,進一步盤活電商資源。

3.亞馬遜Alexa平台及雲計算平台為打通多個服務鏈條奠定了基礎,在硬件操作、軟件應用及內容觀看收聽中的海量數據被有效收集並整理,實現內容和服務的個性化

4.亞馬遜在中文語音識別方麵缺少布局,目前沒有進入中國市場,但其發展為中國市場提供了借鑒,多數廠商以Echo為對標,布局智能音箱。

(二)京東-叮咚

京東融合電商、硬件、內容資源、智能平台、音頻聯盟,構建多場景多終端的無界零售。

來源:公開資料,匯創資本整理

1.京東在2015年推出叮咚音箱,占據國內智能音箱市場的先發優勢,叮咚音箱先後迭代推新,在用戶使用習慣、用戶需求等方麵,京東已掌握較多有用的用戶數據,有利於進一步優化叮咚音箱。

2.通過強強聯合的方式,京東通過電商平台優勢,整合行業中的技術廠商、內容廠商及第三方服務廠商,並發起“京東智能音頻聯盟”,向聯盟內成員輸出“JD+智能音頻解決方案”,實現叮咚音箱產品與優質內容、服務的結合。

3.京東通過京東智能打造智能生態體係,建立京東Alpha智能服務平台,以京東微聯為平台接入多種智能硬件產品,最終實現叮咚和京東微聯智能家居的打造,目前叮咚擁有150多項服務並且擁有自主的開發者平台。

4.京東布局較早,在眾多巨頭紛紛加入後,需要不斷創新以及鞏固生態布局,來抵抗市場競爭。

(三)阿裏-天貓精靈

阿裏打通內容資源、電商資源、O2O資源,發展消費級AI產品。

1.阿裏巴巴依托電商平台建立相對完善的生態體係,在內容、技術、O2O服務等方向上都有所布局、但硬件產品較少,硬件實力相對薄弱。

2.阿裏成立人工智能實驗室,發展人工智能技術,開發消費級AI產品,智能音箱將打通阿裏現有的產業資源,實現硬件與軟件的有效結合。

3.阿裏以阿裏智能為基礎,建立阿裏智能聯盟,接入其他智能家居產品,通過智能音箱產品實現對智能家居控製,進一步擴大阿裏在智能家居領域中的布局。

4.相較於市場中其他智能音箱廠商,阿裏在生態上較為完善,但在硬件及智能家居領域中的布局有限。隨著巨頭相繼發布新品,智能音箱產品將趨向標準,行業將逐漸成熟。

四、智能音箱構成及技術介紹

(一)智能音箱硬件分析

下圖展示了 Echo 拆解後的部件。可以看到,智能音箱的硬件並不算複雜(相對於無人駕駛等“重型”AI 產品)。

 Echo 拆解後的部件

1、外觀設計

音箱ID設計除了出於美學和交互設計的考慮外,還要和音腔設計(影響音效)、麥列方案(影響語音交互)等相互耦合,需要通盤考慮。

2、揚聲器

智能音箱本質上還是一款音箱,因此,提供用戶認可的音質是產品存在的前提。但是智能音箱在揚聲器的選擇上,除了受到音箱尺寸限製,還要考慮麥列的拾音及後續的信號處理。

以Echo音箱為例,Echo采用封閉式揚聲器設計,高音和低音喇叭上下相對,聲音各個方向是對稱的,這有利於前端信號處理,但音效會受到限製。

僅就音效而言,音腔越大越有利於設計,但這會導致最後智能音箱非常笨重。也因此,許多設計上都有音腔部分略微鼓起的外觀設計(如叮咚)。

為了支持雙工(例如,在播放音樂的同時可以對音箱下達命令),揚聲器的功率不能太大,這樣就限製了音箱的最大音量。反過來,如果要確保音箱有較大的音量,可能會限製雙工條件下的音箱理解用戶語音的靈敏度。

3、麥克風陣列

麥克風陣列(以下簡稱麥列),是由一定數目的麥克風組成,用來對聲場的空間特性進行采樣並處理的係統。簡單而言,使用麥列而非單個麥克風,是為了在用戶距離音箱較遠時,依然能夠正常的收聽用戶的語音指令。

智能音箱多使用環狀麥列,目前以 6(+1)麥為主流方案,也有2、4麥和8麥的產品。

麥克風陣列分布圖

麥列方案主要受成本和算法兩個因素限製。一方麵,雖然麥克風本身成本並不是特別高,但增加麥克風數量需要配套的增加采樣等後續硬件的投入,會大大增加成本。另一方麵,麥列涉及一係列算法,算法設計難度和計算複雜度都會隨著麥克風數量的增加而加大。

在選擇麥克風時,除了指向性、靈敏度、信噪比、頻響範圍、失真度等常規的參數要求,其安放位置、開口設計也要考慮ID設計和揚聲器的位置、功放等,需要全盤考慮。

4、主控板

本質上與手機等移動設備的主板並無差別,包括主板、CPU、存儲器等。主控板的選擇要在滿足響應延遲的前提下,盡量壓縮成本和功耗。

主控板內部結構

(二)智能音箱算法介紹

總體而言,音箱工作時,麥列始終處於拾音狀態(持續對聲音信號進行采樣、量化)。經過基本的信號處理(靜音檢測、降噪等),喚醒模塊會判斷是否出現喚醒詞。如果出現喚醒詞,後續語音會進行更複雜的語音信號處理,(理想情況下)得到幹淨的語音信號,開始真正的語音交互流程。

智能音箱工作原理

1、前端信號處理

(1)語音檢測(VAD)

語音檢測(英文一般稱為Voice Activity Detection,VAD)的目標是,準確的檢測出音頻信號的語音段起始位置,從而分離出語音段和非語音段(靜音或噪聲)信號。由於能夠濾除不相幹非語音信號,高效準確的 VAD 不但能減輕後續處理的計算量,提高整體實時性,還能有效提高下遊算法的性能。

VAD 算法可以粗略的分為三類:基於閾值的VAD、作為分類器的VAD和模型VAD。

(2)降噪

實際環境中存在著空調、風扇以及其他各種各樣的噪聲。降低噪聲幹擾,提高信噪比,降低後端語音識別的難度。

常用的降噪算法有自適應LMS和維納濾波等。

(3)聲學回聲消除(Acoustic Echo Cancellaction, AEC)

AEC的目的是,在音箱揚聲器工作(播放音樂或語音)時,從麥克風中收集的語音中,去除自身播放的聲音信號。這是雙工模式的前提。否則,當音樂播放時,皇冠国际的聲音信號會淹沒在音樂聲中,不能繼續對音箱進行有效的語音控製。

(4)去混響處理

混響對於人耳完全不是問題,但是,延遲的語音疊加產生掩蔽效應,這對語音識別是致命的障礙。對於混響,一般從兩個方麵來嚐試解決:

1)去混響 ;

2)對語音識別的聲學模型加混響訓練。由於真實環境的複雜性,一定的前端去混響算法還是非常有必要的。

(5)聲源定位(Direction of Arrival estimation, DOA)

聲源定位是根據麥列收集的聲音語,確定說話人的位置。DOA 至少有兩個用途:用於方位燈的展示,增強交互效果;作為波束形成的前導任務,確定空間濾波的參數。

(6)波束形成(Beam Forming, BF)

波束形成是利用空間濾波的方法,將多路聲音信號,整合為一路信號。通過波束形成,一方麵可以增強原始的語音信號,另一方麵抑製旁路信號,起到降噪和去混響的作用。

2、喚醒

出於保護用戶隱私和減少誤識別兩個因素的考慮,智能音箱一般在檢測到喚醒詞之後,才會開始進一步的複雜信號處理(聲源定位、波束形成)和後續的語音交互過程。

一般而言,喚喚醒模塊是一個小型語音識別引擎。由於目標單一(檢測 出指定的喚醒詞),喚醒隻需要較小的聲學模型和語言模型(隻需要區分出有無喚醒詞出現),聲學打分和解碼可以很快,空間占用少,能夠在本地實時。

3、語音交互

語音交互基本流程

(1)語音識別(Automatic Speech Recognition, ASR)

語音識別的目的是將語音信號轉化為文本。語音識別技術相對成熟。目前,基於近場信號的、受控環境(低噪聲、低混響)下的標準音語音識別能夠達到很的水平。然而在智能音箱開放性的真實環境,語音識別依然是一個不小的挑戰,需要接合前端信號處理一起來優化。

(2)自然語言理解(Natural Language Understanding, NLU)

可以將基於框架的(frame-based) NLU 分為三個子問題去解決:

(3)對話管理(Diaglou Management, DM)

多輪對話對於自然的人工交互非常重要。比如,當皇冠国际詢問“北京明天的天氣怎麽樣?”,之後,更習慣追問“那深圳呢?”而不是重複的說“深圳明天的天氣怎麽樣?”

(4)自然語言生成(Natural Language Generation, NLG)

目前完全自動化的 NLG 方法還不成熟。實際產品中,多采用預先設計的文本模板來生成文本輸出。比如,播放歌曲時,生成語句為:“即將為您播放【歌手名】的【歌曲名】”。

(5)語音合成(Speech Synthesis)

語音合成又叫做文語轉換(Text-to-Speech,TTS),更常見可能是 TTS 這一稱呼。TTS 的終極目標是,使機器能夠像人一樣朗讀任意給定的文本。

評價實用的語音合成係統的兩個主要的標準是:可懂度(人能夠聽懂)和自然度(使人聽著舒服)。目前,可懂度的問題基本得到解決。參數合成和拚接合成是TTS的兩種主要合成方法,其中,參數計算量小,部署靈活,但自然較差;拚接接近真人發音,存儲和計算資源高,一般隻能在線合成。

(三)麥克風陣列研究

簡單來講,麥克風陣列是由2個及以上麥克風按一定規則排列組成,在特定空間對聲音進行獲取和處理的錄音係統,它是遠講語音(超過1米以上)設備的一個關鍵部分。

麥克風陣列的功能就是拾音。在遠講語音設備中,麥克風陣列通過聲源定位、波束形成、噪聲抑製、回聲消除等遠講算法,有效拾取聲音,從而保證具體場景中語音的識別率。而拾音又分為遠場拾音(1米外)和近場拾音(20cm內)。

1、麥克風陣列中的關鍵技術

(1)聲源定位

聲源定位的任務就是在具體場景中,甚至從噪音中找到發出聲音的“你”,以便後續的波束形成。它是基於麥克風陣列對目標信號(聲源)的位置探測,確定在特定空間中說話者的位置關係。尤其是在移動場景中,實時的聲源定位就顯得重要。

(2)波束形成

波束形成是對麥克風陣列中各個麥克風輸出的聲音進行信號處理,從而形成空間指向性。這種方法會抑製目標聲音以外的聲音幹擾,不僅抑製噪聲也包括其他方向的人聲。

(3)噪聲抑製

你在臥室中開著電視,是很難喚醒在你床上睡覺的iphoness中的Siri的,這就是它不具備噪聲抑製的能力。但你可以喚醒理你較遠的智能音箱,這正是噪聲抑製的作用。

簡單來講,噪聲抑製就是在目標信號和幹擾噪聲中,保留目標聲音,削弱周圍的噪聲,從而保證獲取的目標聲音信號相對清晰,再結合雲端相匹配的語音識別算法,實現有效識別理解。

(4)抗混響

混響就是聲源發出後,在空間中經過多次物體(牆壁)的反射和吸收,若幹聲波混合在一起所形成的現象,它會影響語音信號的處理,聲源定位的精度以及語音識別效果。通過遠講算法消除混響是遠講語音設備在拾音環節的關鍵一環。

(5)回聲抵消

回聲抵消簡單來講,就是不讓語音設備自己發出的聲音幹擾到拾音過程。比如在智能音箱播放音樂時,你喚醒設備並下達命令,這時麥克風陣列同時采集你發出的聲音和正在播放的音樂的聲音,而回聲抵消就是要去掉其中音樂的聲音並保留人的聲音,以供雲端進行語音識別。

(6)語音增強

在家居環境中,存在著背景噪音、回聲、混響等噪音幹擾,這些噪音相互疊加嚴重影響語音識別效果。除了降低各種噪聲外,還可以從語音增強進行改善。

遠距離拾音的另一個問題就是獲取的語音信號較弱,需要通過麥克風陣列進行噪聲分離,提取目標信號,並增強語音信號的能量,從而提升語音識別效果。

2、消費級麥克風陣列主要企業介紹

(1)科大訊飛——國內語音龍頭

科大訊飛是國內一家老牌智能語音皇冠国际,其有一個專門的團隊在研究麥克風陣列技術。目前在訊飛開放平台上,提供二麥線性陣列、四麥線性陣列和六麥環形陣列。中興、海康威視、美的、高德、優必選、狗尾草等都是其客戶。

叮咚音箱就是由京東和科大訊飛聯合成立的靈隆科技推出的,其中科大訊飛提供語音語義等技術支持。叮咚音箱A1是國內第一款真正意義上的智能音箱,於2015年8月正式推出,它采用7+1麥克風陣列,豪恩聲學提供的ECM麥克風,並采用科勝訊CX20810-11Z音頻芯片。在結構上不同於其他智能音箱置於頂部,而是位於主控電路板下麵,並采用中空結構,麥克風向外側傾斜拾音,頗具創意。

(2)科勝訊——國際語音方案巨頭

科勝訊成立於1999年,曾是全球最大的獨立通訊芯片提供商,後來幾經波折被新思科技收購。在語音交互領域,它主要提供語音芯片和麥克風陣列技術,其方案最大優勢在於降噪和語音增強算法,技術打磨也更加成熟。難怪科勝訊總裁Saleel Awsare會說,其雙麥克風就可以實現友商5-8麥克風的解決方案的效果。

亞馬遜、百度、阿裏巴巴、騰訊、哈曼、科大訊飛、出門問問、雲知聲等都是其客戶、合作夥伴。科勝訊為Alexa Voice Service (AVS) 量身定做了Audiosesmart 語音處理開發套件出貨量已超過3000萬套,涵蓋智能音箱、智能家居、智能電視、機器人等多個品類。出門問問剛剛發布的智能音箱也采用科勝訊的方案,此外,蘋果HomePod也可能采用了科勝訊Audiosesmart開發套件。

(3)先聲互聯——陣列研究先行者

先聲互聯是一家成立於2016年的創業皇冠国际,主要提供麥克風陣列以及前端信號處理技術。其創始人付強曾在中科院聲學所有10餘年的聲學研究,在語音信號處理領域有20餘年的積澱。先聲互聯目前主要提供兩麥、四麥、六麥等解決方案,在抗混響、回聲消除、語音增強等方麵表現不俗。

先聲互聯是百度的合作夥伴,其多麥克風硬件開發套件也應用在百度DuerOS平台中。目前,物靈的luka閱讀養成機器人、極米科技的Lightank W100、數字家圓的親見H2等產品都采用了先聲互聯的遠講算法以及麥克風拾音模組。此外,先聲互聯也正在和騰訊、聯想、小米等皇冠国际就某些智能硬件產品展開合作。

(4)思必馳——成熟方案輸出商

思必馳成立於2007年,是一家麵向B端客戶的語音語義技術提供商。其副總裁雷國雄告訴智東西,思必馳從2012年就開始研究麥克風陣列技術,並配備一個專門的團隊研究語音信號處理,結合思必馳的語音進行優化。目前思必馳提供單麥、兩麥、四麥、六麥等解決方案,經過5、6年時間的積累,在性能和穩定性上均表現不錯。

近期阿裏推出的天貓精靈X1就是采用思必馳的環形6麥克風陣列,模擬麥克風則來自敏芯微電子,天貓精靈在降噪、回聲消除等拾音方麵均有不錯表現。此外,聯想、小米、美的、360、DOSS等都是其客戶。

(5)聲智科技——新起之秀

聲智科技也成立於2016年,提供麥克風陣列以及遠講算法,目前其推出了單麥、兩麥、四麥、六麥、八麥的陣列解決方案,也有不錯的表現。有趣的是其創始人陳孝良也來自中科院聲學所。

最新發布的小米AI音箱,就采用了聲智科技的環形6麥克風陣列和喚醒技術方案。聲智科技也是百度的合作夥伴,推出了基於DuerOS的語音解決方案。此外,騰訊、阿裏巴巴、奇虎360、華為、海爾等都是其客戶。 五、麥克風陣列:兩路分化

目前,智能音箱中的麥克風陣列呈現兩路分化,主要包括環形和線性。亞馬遜Echo、叮咚音箱、天貓精靈、小米AI音箱等技術路線相似,都使用6(+1)、7(+1)個麥克風的環形陣列,而Google Home、出門問問的問問音箱則采用了2麥克風的線性陣列。

3、麥克風陣列在遠場交互中存在的問題

第一,誤喚醒是一個問題。

表麵看這個是喚醒的問題,但實際跟陣列有較強的關係,喚醒拿到的是陣列拾音的信號,陣列對信號噪聲處理效果的好壞直接影響到誤喚醒。

第二,聲源定位需要提升。

在聲學環境中,尤其是在反射較強、回聲較強、噪音環境下,聲源定位需要較大的提升空間。

第三,動態環境中對用戶位置的跟蹤也需要提升。

在家庭場景中, 人會處於一種移動的狀態,喚醒和指令可能不在同一個方位,在下一次人機交互中會重點處理剛剛那個方向的信號,如果房間存在多個音源,就可能無法執行指令。

第四,麥克風陣列無法同時進行多人聲的識別和處理。

當下的波束形成和噪聲抑製,會使陣列在同一時間處理同一個方向的聲源,從而抑製其他聲源,這就意味著當下的技術路線下,機器無法同時與多人進行交互。

(四)國內外主要智能音箱產品技術參數

國內外主要智能音箱產品技術參數

來源:公開資料,匯創資本整理

五、中國智能音箱產業未來發展趨勢

(一)智能音箱市場未來發展機遇

來源:公開資料,匯創資本整理

(二)智能音箱市場發展瓶頸

中國尚未建立完全的智能家居生態體係,使用場景碎片化、硬件操作複雜等問題未解決,消費者無法體會智能家居的智慧和便捷。例如,西方使用開放式的廚房與客廳消費者本身有客廳使用音箱的習慣,而中國的廚房烹飪環境嘈雜、油煙重,廚房客廳相對封閉,家庭使用音箱頻次並不高。

此外,智能家居缺乏配套法規和統一標準,產品良莠不齊,消費者體驗較差。目前消費者使用智能音箱內容方麵的功能偏多,中國智能家居的市場需要一個能直擊消費者痛點的單品來顛覆消費者思維,讓消費者形成智能家居思維。

廠商紛紛紮堆語音交互技術而忽略了消費者的體驗,遠場識別差、誤喚醒率高、連續對話功能不穩定、語義理解能力差是目前消費者不滿意的主要原因。

我國的智能音箱雖然數量上出現爆發式增長,但是產品同質化嚴重,家庭普及率並不高,許多消費者隻是帶著好奇的心態體驗“新品”,更多是把智能音箱當做裝飾品,而沒有當作家居必備品。因此,企業應該注重消費者體驗,解決消費者痛點,打造真正實用、居家必備的智能音箱才能突破市場瓶頸。

(三)2018年智能音箱市場七大預測

1、智能音箱整體向好

2018年市場規模成倍增長幾乎成為行業共識,市場規模預計將突破500萬。2017年各種唱衰、質疑的聲音,隨著智能音箱產業鏈的發展已逐漸褪去。

2、智能音箱持續爆發

互聯網巨頭接下來圍繞搶占市場的持續補貼、用戶認知度提升、整體產業鏈的成熟、用戶體驗的提升等,是2018年智能音箱持續爆發的主要動力。

3、音箱產業升級

智能音箱替代藍牙音箱(傳統音箱)已成為趨勢,音箱產業迎來升級。

4、語音向人機交互界麵演變

2018年會成為國內智能音箱的分水嶺,智能音箱不再受限於現在的形態,語音交互會根據使用場景來滿足用戶獨特的需求,語音向人機交互界麵演變。

5、新的行業格局湧現

一方麵互聯網巨頭之前可能會出現陣營的分化,另一方麵創業皇冠国际會針對細分場景打造差異化的產品與服務。

6、語音交互生態發展

國內語音交互生態較弱,主要表現在語音交互技術和內容與服務兩方麵,這是2018年行業需要繼續發力的部分,否則將限製智能音箱以及智能語音產品的發展。

7、解決用戶痛點

尋找用戶的剛需性場景,解決用戶的痛點性問題將是下一階段的重中之重,它事關用戶粘性、用戶口碑以及智能音箱的進一步爆發。