天貓精靈今天推出 Sound 系列，沉澱四年的智能聲學有何不同？

語言: CN / TW / HK

時間 2022-06-02 12:24:00 雷鋒網

主題: 天貓精靈天貓

“用幾千元買多個智能音箱，還不如配一套傳統音箱聽得舒坦。”

在後智能音箱時代，人們越來越意識到這一點。音箱應該是一扇一塵不染的玻璃窗，音樂和聲音像光一樣透過它，呈現所有聲音最真實的、最原始的狀態。

一個高品質的音箱，應該是頻響曲線更平直（音染少）、更大的低音單元（低頻量感更足）、輻射角度大（更廣的聽音範圍）、額定功率大（更遠的聽音範圍）、更低的總諧波失真（聲音還原度高）等。

但是在現實中，極致的聽覺體驗與智能化技術成本之間，卻有着天然的矛盾，一度成為智能音箱的珠穆朗瑪峯。

從蘋果Homepod高端產品，最終縮減到Mini款，華為Sound經歷多次產品迭代，才逐漸形成聲量，便可以看出難度。

這本質是一場聲學架構、人工智能、硬件、聲學、審美等各方面實力的綜合考驗。

天貓精靈普惠款智能音箱，大多有超越價格的聲音表現。

直到上週，其才第一次公佈了來自哈曼、JBL、飛利浦等業界專家成立的精靈聲學團隊，也是這些專家成加入4年之後，首次對外公開精靈聲學實驗室（Genie Sound Lab）。

一週前，精靈聲學專家對雷峯網在內的媒體，用盲聽方式展示了與全球頂級聲學機構波士頓聲學（BostonAcoustics）聯合調音後的聲音表現，當時雖然要透過直播軟件和現場收音兩重聲音壓縮，仍能感覺低音與眾不同。雙方聯合調音的Sound系列智能音箱，主打極致低音與精準現場還原，今天開始預售。

雷峯網第一時間體驗了天貓精靈Sound Pro。

1、高質量的聲音體驗如何判定？

從雷峯網的天貓精靈Sound Pro開箱體驗看，它目前滿足了一款高端智能音箱應有的期待。

外形神似春筍，黑色與各類家居都較為百搭，機身採用了飛織網布進行包裹，按鍵區域在機身頂部，形似飛碟，金屬材質，配置了燈帶，質感十足。

小編立馬來了一段音樂初體驗。鼓聲輸出自然而飽滿，能夠感受到鼓聲的深度和彈性，環境低頻包裹飽滿，輕快類音樂的鼓點有層次感，細節也清晰自然。主打低頻，但低頻聲音沒有掩蓋音樂本身，這對於強調低頻的產品來説極為難得。智能燈帶會跟隨音樂閃爍，音樂節奏感和律動感非常強。

空間感上，360 度環繞設計，在擺放位置上的影響降到了最小。音質表現到位，內容資源非常多，市面主流音樂平台內容都有，另外還有電台、有聲內容和以及兒童學習資源等。

初體驗，小編最想詳細聊聊的還是低頻音質。

低頻：音頻的支柱

先講講一款高端智能音箱的核心之一：音質。

音質對於音箱意味着什麼？如同飯店的飯菜。

儘管在智能交互上折戟，但蘋果HomePod的工業設計和音質表現迄今為止無人可超越。

判斷音質的好壞有一套客觀和主觀的科學方法，有幾大指標：靈敏度、頻率響應、指向性以及失真度等。1、頻率響應：是給揚聲器輸入一個恆定的電壓時，揚聲器產生的聲壓隨頻率變化。

它的作用在哪？與眼睛只能看到特定波長的光一樣，人耳能聽到的聲音頻率範圍為20Hz～20KHz。

所以理想的頻率響應應為20Hz~20KHz，這樣就能完全呈現全部音頻，但現實上幾乎不可實現。一般的揚聲器頻率響應在100Hz-120KHz，這意味着大多數的揚聲器都存在低頻缺失。

2、指向性：高頻指向性強，而低頻指向性弱，相當於聲音會向360度方向輻射。舉個例子，你也許經歷過生活中，當音箱沒有正對自己，對中高頻聲音的感知會更遲鈍。

3、失真度：顧名思義，即不能完整、逼真地呈現原本的聲音。失真會破壞原來高低音響度的比例，改變原聲音色。目前，低頻失真是導致喚醒失敗的重要原因。

發現沒，衡量音質的幾個核心指標都與低頻有關。目前音頻產品討論最多的話題之一就是低頻聽感。

所以低頻是一棟房子的地基，地基不好，房子修得再高也是無用功。不誇張地説，低頻決定了整個音頻的基調和節奏，是支柱般的存在。

與高頻相比，人腦對低頻並不敏感，但生活中大多數聲音都處於中低頻。

目前不少智能音箱在低頻上存在不同程度的問題。

要麼，低頻不足，聲音乾癟，聽起來拖泥帶水，或沉重，或鬆軟等。

要麼，低頻過量，渲染自己的“超重低頻”，為了還原低頻的震撼，刻意進行低頻增強，但實際聽感如地震般，讓音樂被揚聲器本身聲音掩蓋，聲音會產生悶布、渾濁感。

好的低頻效果應該是清晰而精準的，乾淨而結實的，每一個節奏都能被分辨。

如何在保證低頻聲波被人耳感知的背景下，不幹癟、不渾濁，清晰還原聲音，是業內面臨的挑戰。

天貓精靈聲學實驗室負責人汪濤看來，乾癟的其中原因之一是腔體的容積不足。

一般而言，音箱箱體容積率越小，低頻諧振頻率越高，音箱下潛不深。音箱容積越大，低頻下潛越深，低音諧振效果越好，低音延展性越強，即人腦感官的更好聽。

但另一方面，太大容積率會強行拉大低頻下潛深度，減少揚聲器的中低頻量感，從而使低音有氣無力，變薄，此外，材料成本和運輸成本也會更高。

如何理解？前文提到，低頻的聲音會向360度方向輻射。一隻青蛙在500ml的玻璃瓶中的叫聲和在5L玻璃瓶中的叫聲相比，後者的感官更好。

如何平衡且能最大程度還原極致低音的震撼之感，是天貓精靈四年來探索的問題。

天貓精靈在Sound系列中，應用了天貓精靈小體積大音腔的獨家專利技術——智能一體腔，內部稱之為“貓腔”。

這並非一體腔技術首次露面，智能一體腔誕生始於方糖，當初其99元的高性價比，覆蓋極廣的用户範圍，隨之而來的是極廣的音樂品類，這意味方糖需要做到滿足各個頻段的音樂類型播放，且不損害聲音，同時兼顧成本。這是一個極具挑戰性的嘗試，為此天貓精靈在產品設計之初就將關乎聽覺享受度、清晰度的極致低音考慮在內。

在產品設計過程中，架構設計是底座，也是重中之重。

於是，經典款方糖的結構設計上，放棄了前殼分件設計的“卡扣+螺釘”形式，創新地採用了自動化高的點膠工藝，如此既保證了音箱的低頻震感，又讓組裝效果更和諧，並在當年一舉成為業內首款無縫隙音箱。而此次將問世的高端智能音箱，團隊更是在聲音體驗上吹毛求疵。

以架構再生為例，聲學的經典架構諸多，包含聲學電子架構、聲學軟件架構、聲學結構架構等等，為了確保每一架構的智能聲學效果達最優狀態，他們深入行業、瞭解用户需求、創新技術、研究競對。

硬件團隊在方糖一體腔的基礎上，為了升級極簡架構，在多系列產品中反覆實驗，形成智能聲學發展框架。最終他們將同體積音箱的容積率提升了29%，據悉新品的音腔容積會達2700CC，即便與同體積的傳統藍牙音箱相比，都屬於“天花板”級別的超大音腔。

在天貓精靈的智能聲學閉門會上，現場播放了一段檢驗低音的音樂。

音樂響起的瞬間，鼓點具有讓人精神抖擻的質感，震撼而寬厚，中低頻時，聲音錯落有致，張力十足，當音樂在急促與舒緩間流動時，過渡平緩自然。曲畢，鼓聲的澎湃與恢弘猶在耳邊，臨場感非常強。

均衡器的智慧

音樂通常由多種聲音組成，各種樂器、人聲等，不同聲音的頻率、信號強度不同。

如何讓各個頻率的聲音都恰如其分地表達，從而達到整體和諧，就需要均衡器出馬。

均衡器，簡稱EQ，是一種可以調節各種頻率成分電信號放大量的電子設備，通過調節電信號補償揚聲器和聲場的缺陷，補償和修飾不同頻段的各種聲源，同時調節某個頻段時不影響其他頻段。

一句話總結，提高音箱系統的音質和總體性能。

優秀性能的EQ調音能夠巧妙地還原同一音軌中多重樂器、人聲等。

均衡器的調節並不簡單。比如，超低音的多度提升會讓音樂渾濁、發悶；低音提升不足時聲音單薄，過度提升明亮度下降，鼻音加重；中低音不足時，人聲顯得無力，被音樂覆蓋，過度提升低音會變生硬，如果存在混響，聲音清晰度會嚴重受損。

中音調節不足時聲音模糊，過度提升則會產生電流聲；中高音不足時聲音穿透力不夠，過強語言會被淹沒。高音過度提升會影響聲音層次感，短笛、長笛聲音突出，同時語言的齒音加重和音色發毛；極高音過度提升聲音刺耳不自然。

聲性能測試上，一個完美的音箱，應該在各個頻段都具備飽滿、平直的特點。通常EQ調音需要專業的設備和軟件，也需要專業人士，需要極強的聲學、心理聲學知識和經驗。如今業內非專業人士對EQ的使用，一定程度使得EQ效果參差不齊。其中一個問題，就是過度渲染。

天貓精靈一直致力於打造不包漿的均衡器，還原音樂本質的情感表達。

但並不是一個簡單的問題。既要根據用户個人喜好對音樂風格進行定製化的智能調音，又要兼顧不同音樂、不同播放設備的聲量大小。

這意味着智能EQ要在保證極致低音體驗下，綜合平衡音樂風格、播放設備、個性偏好等多重要素進行多重EQ調音。這並不是堆料思維、八爪魚邏輯能解決的問題。

首先，天貓精靈拒絕過多配置EQ模式，採取了簡單的四種模式僅做適度渲染，讓三頻均衡，低音渾厚有力，中音温潤細膩，高音清澈通透，確保精準還原音樂細節。

另外，智能EQ還秀了一把肌肉，額外提供了1040個智能動態參數，滿足多元個性化需求和不同曲風偏好。

此外，根據人耳對不同頻率的聲音反應不同，天貓精靈的智能EQ將與AI識人等技術結合，個性化定製音量大小。

比如聽書適合增強人聲的頻段，而對不同風格的音樂，則需對音頻內容進行智能分析並利用分類算法進行學習歸類，對應給出N種EQ設置的聲音音效。而這就涉及到我們下一個話題，智能交互了。

2、什麼是最關鍵的智能感？

高品質聲學體驗，需要的不僅僅是聲學，更需要智能。

在智能音箱體驗層面，一直存在的語音交互技術難點大致有四：

雞尾酒會問題：即在有多個聲源背景下分離語音問題；

語音喚醒：最直接的是喚醒效果不佳；

回聲消除：要和智能設備的音箱效果之間平衡；

音箱與麥克風距離噪音和混響：高靈敏度麥克風SNR降低家庭場景中的牆壁反射形成的混響。

為突破這四大難題，天貓精靈為這次智能音箱新品，打造了兩大智能方案：基於音樂推薦的AI識人交互分發引擎和貓耳算法。

為了千人千面的體驗

音箱應用最廣泛、最核心的場景是家庭。音箱的首要功能是聽歌，但目前橫亙在用户聽歌體驗最大的障礙，是音樂APP的版權問題，用户需要下載多個APP，甚至每次聽歌，需要逐個APP尋找。由此帶來的體驗割裂感。

天貓精靈為此推出了新一代平台聚合方案，支持QQ音樂、酷狗音樂、酷我音樂和網易雲音樂，實現多平台無縫切換。但這僅僅是體驗升級的第一步。

家庭天然具有多人的特徵，聽歌作為一種生活方式，喜好上千人千面。

“比如老爺子們喜歡聽京劇，年輕人喜歡聽hip-hop，隨機點歌，很可能不是自己想聽的。”天貓精靈人工智能部總經理姜飛俊表示，音樂算法的推薦能不能真正做到千人千面才是提升體驗的核心。

在交互體驗上，天貓精靈思考的問題是，如何讓音箱對用户及不同場景和時段的喜好具備認知？

天貓精靈打造了AI識人交互分發引擎，即識人聽曲功能，能夠自動識別家庭中的不同用户，自動推薦用户喜歡的歌曲，聽到更多意料之外的好音樂。

實現這一目標需要三個步驟：用户識別、場景識別和服務表徵。

首先需要極強的語音識別技術。確認用户首先需要進行語音辨認，從多人中確認説話人，再進行語音去人，判斷語音是否由目標説話人説出。

語音技術，最大的難題是抗噪性，環境噪音和混合説話人對識別有干擾。

作為AI領域絕對頭部，阿里基於全球領先的聲紋識別技術，天貓精靈曾率先在音箱實現聲紋支付，技術、安全能力均為金融級別，在生活場景，更是得心應手。

第二步進入場景識別。

這一步考驗的是大數據分析能力，後台根據用户的歷史行為來推測當前用户的需求，比如用户習慣早上7點半起牀後聽5分鐘歌，再聽新聞，天貓精靈後台算法自動檢測到用户的生活規律，在播放萬5分鐘歌曲之後，會自動提示用户，是否繼續放新聞。

第三步服務表徵是交互方式的延展，基於對用户和場景的綜合理解，自動推薦最優服務給客户。根據用户是何種音樂平台的高級會員，自動推薦該平台的高品質音樂。

為輕鬆喚醒、回聲消除、降噪誕生的貓耳算法

即將發佈的高端智能音箱，音質好、音量大，對語音交互的要求也更高。場景識別引擎解決了雞尾酒會問題，貓耳算法大刀闊斧地向回聲消除、聲源定位和降噪進發。

何為「貓耳算法」？顧名思義，具備貓的靈敏與方向感。

第一個需要對付的，是喚醒困難。

首先，音量大也意味着揚聲器功率很大，使得揚聲器的非線性增加，這直接導致喚醒困難，“調大音量後，扯着嗓子喊，音箱沒反應”也是絕大多數音箱存在的問題。

聲源定位上，傳統獲取聲音的方式其實是聲學檢測，而非人聲檢測，聲學模式下噪聲只能有一個方向。天貓精靈意識到這個本質問題，增加了喚醒詞信息，如喚醒詞的邊界、喚醒詞上每個頻點人聲的比例，將語音特徵與聲學特徵結合，提高最終的尋向準確率。

其次，每一首歌的默認音量不同，當揚聲器功率大的背景下，音量的不一致會被放大，於是，上一首歌的音量，放到下一首時，音量要麼突然變大，要麼突然變小，用户要麼隨時隨地調整音量設置，要麼忍受大小不一的音量，聽歌體驗非常糟糕。

針對大聲量場景，貓耳算法能讓音箱即使處於最大音量播放歌曲時，用户只需要用正常音量就能夠輕鬆喚醒。同時，天貓精靈還針對不同音量的歌曲，增加自適應環節。再來談談回聲消除。傳統的回聲消除算法，主要通過線性濾波器，去掉音箱本身的線性回聲。

天貓精靈在此基礎上，增加了NAC模塊，通過深入學習的方法，消除音箱的非線性回聲，再綜合利用人聲和非人聲之間的差異，消除非線性回聲。

最後，在降噪上，天貓精靈在傳統的多麥降噪方案上，增加了噪聲識別模型，能夠準確的區分人聲和非人聲，從而整體提升整個降噪的效果。

3、好音質為什麼那麼難？

8年前，一款Echo橫空出世，顛覆人們對音箱的想象，讓智能音箱從一個邊緣產品，走到生活的中央。

幾年間，中國品牌頻頻崛起，經歷過2年激烈「百箱大戰」，價格戰極大刺激了消費者的嚐鮮欲，初步完成了智能音箱的市場教育目標。

而後，智能音箱承載整個智能家居的想象，功能、場景不斷被開發，屬性也不斷被疊加：玩具、工具、助手、智能管家，反而忽視了音箱的本位。野蠻生長後，市場迴歸理性。

除了版權、內容資源上的欠缺，最核心的要數AI互動體驗感初級，低門檻的技術服務能打開市場，但難以長久留存用户。

當初代智能音箱以「嚐鮮」姿態進入人們的生活後，並不暢快的體驗感，讓企業和用户都開始思考智能音箱的本質：未來到底應該以何種形式存在？

是的，有相當一部分人羣在渴求一款真正的高端智能音箱。

當品牌格局確立、產業鏈日趨成熟，高性價比的智能音箱打響市場認知，高品質的智能音箱開啟用户體驗。

無論何種功能、何種身份、何種使用場景，智能音箱的本質離不開兩個東西：AI所代表的的智能交互，與聲學所代表的音質體驗。

6年前，蘋果的HomePod幾乎要成為高端智能音箱新的主宰。即使擁有當時不錯的室內音質表現，但過高的定價（最初售價349美元），過於智障的語音交互，以及封閉的生態，讓HomePod最終成為歷史。

2021年3月，在蘋果正式宣吿HomePod擱淺、主打更低價的HomePod Mini後，中國企業開始發力，高端智能音箱的追趕此起彼伏。

其中華為、小米的最為矚目。一個品牌影響力強大，一個市場用户數量龐大。

首代Sound X市場反響平平，2021年7月，華為發佈了2199元的新一代Sound X，帝瓦雷聯合設計，新增幻彩光隨聲動和鴻蒙分佈式操作系統，一度成為唯一值得購買的高端智能音箱。

但華為第三代Sound超2000元的定位，號稱萬元音響級別，但實際體驗上與同價位段的哈曼卡頓琉璃3，後者在低頻下潛上極其優秀，對比之下Sound X稍顯遜色。2199元的定價也存在一定的品牌溢價。

緊接着8月，小米以「小米首款高端高保真智能音箱」產品描述拉足懸念和預期，結合當時的市場語境，在用户視角，這將是一款對標蘋果的 HomePod、華為 Sound 系列的高端智能音箱，但最終定位為高端旗艦型的小米Sound售價499元，主打小巧外形和高音質，支持UWB一指連技術。

小米以499元的價格，開了一個好頭，但並不完美，儘管音質上有一定提升，為了平衡高端和價格，不可避免會出現為了節省成本，在音質上有所犧牲，只能是入門級的高端智能音箱。

在華為、小米以聯名海外品牌發新之後，國內一度沒有再次進攻高端智能音箱的企業。

不誇張地説，目前為止還沒有一款高端智能音箱能完全滿足中國用户在交互、音質和價格的多維需求。

高端智能音箱，不僅僅是堆料，背後是智能與音質的高度融合，音質要回歸音箱的本質，而AI需要在基礎設施層、技術研發層和基礎應用層進行不斷的深入、優化才能逐漸走向完美。

一年之後，為什麼天貓精靈更明確提出自有的「智能聲學」體系？

查了天貓精靈智能聲學專家們的背景，天貓精靈聲學實驗室卧虎藏龍，團隊聲學成員平均有13年聲學設計經驗，來自哈曼、樓氏、AAC、飛利浦等全球知名公司。

以實驗室負責人汪濤為例，13年聲學行業從業經歷，曾在哈曼、Tymphany、先歌國際等一線音頻公司任職，參與過Harman/Kardon、JBL等口碑爆款音箱的聲學設計工作。

一個行業熱知識，哈曼“金耳朵”認證測試100%正確率通過level14，而全球範圍內通過人數屈指可數。

進入天貓精靈聲學實驗室的一項硬指標，所有人都需要經過金耳朵認證。這個已建設4年的實驗室，在全球範圍內有20多個聲學實驗場地，擁有數十項智能聲學相關專利。

其實，這並非他們的技藝首次亮相，據悉，該團隊已支撐了200多個AIoT品類，近千款產品的聲學設計，這其中也包括了天貓精靈智能音箱，車載精靈、機器狗、眼部按摩儀等等。波士頓自不必多説，全球頂級聲學機構，在聲學領域縱橫40餘年，是北美高端家庭音箱領域的王者。

經典架構上，有波士頓聲學40年的揚聲器設計、腔體設計經驗，HIFI聲學的調試上深厚積累。據悉，這次其在中國境內首次與企業基於智能音箱產品進行深度聯合調音合作。

雙方的合作並不限於某個發聲單元的採購，也不是單純的品牌授權，而是在最根本的基礎聲學表現上，融合經典音箱架構，並加入到智能聲學的研發過程中。為確保音效體驗，智能音箱面世前，想必會經過過雙方軟硬件團隊測試、金耳朵測試、多輪用户內測的反覆、多維測試，時刻關注用户反饋並實時改進。

智能聲學時代

其實拆開高端智能音箱最終為人服務這一母題，天貓精靈專家還與我們分享了，全球智能聲學未來的四個方向：

1、經典架構再生。智能音箱迴歸聽感本質，好看之外，更要好用。

2、專精特定音樂類型，電子音樂(Elektroncore)、情緒搖滾（EMO）、重金屬（Djent）等成為新一代年輕人的心頭好，圍繞新音樂類型進行定製化調音。

3、環境感知的自適應能力。近耳、定向、空間檢測等技術持續提升，以近耳技術為例，目前TWS耳機降噪成為標配功能，但部分人佩戴時間過長會產生不適，通過局域聲場控制等方式在不佩戴耳機做降噪成為未來探索方向。

4、創新發聲單元材料，探索極薄的發聲器件、柔性器件、傳感器等新的材料。

説白了，就是從聲學架構、音樂音質、智能技術、創新材料各方面，打造極致的聲音體驗。

正如我們此前體驗的專利點，從音腔硬體到EQ算法，整個音頻鏈路上，都需要通過智能聲學標準，達成更優的選擇。天貓精靈Sound系列最終在618期間發售僅僅1299、699的價格，似乎也讓人更加認同，持續專注技術沉澱的價值。雷峯網雷峯網 (公眾號：雷峯網) 雷峯網

雷峯網原創文章，未經授權禁止轉載。詳情見轉載須知。

「其他文章」