2022年中國實時音視訊行業研究報告

語言: CN / TW / HK

核心摘要:

發展背景:網路基礎設施升級、音視訊傳輸技術迭代、WebRTC開源等因素,驅動音視訊服務時延逐漸降低,使實時音視訊(RTC)技術成為炙手可熱的研究方向。實時音視訊業務在消費網際網路領域蓬勃發展,並逐漸向產業網際網路領域加速滲透。經歷了行業第一輪的紅利爆發期, 我國實時音視訊行業的場景效能逐漸深化,步入到理性增長階段。

市場規模:2021年中國實時音視訊(RTC)PaaS市場規模為16億元,消費網際網路領域為實時音視訊行業貢獻了核心收入來源。受到社交娛樂頭部應用的高度滲透及“雙減”政策的持續影響,預計未來三年的複合增長率為28.4%, 2024年實時音視訊(RTC)PaaS市場規模將達到30億元。

競爭格局:實時音視訊賽道玩家的主要競爭策略分為兩大類:(1) 提供通用的PaaS層能力 ,包括RTC PaaS廠商、通訊雲PaaS廠商、綜合型IaaS廠商。其中, RTC PaaS廠商在技術研發和產品打磨上具備更高的行業專注度 ,佔據市場的主導地位;(2) 根植於特定行業場景 ,主要為垂直行業解決方案商。

核心技術:實時音視訊行業存在較高的資源門檻與技術壁壘。主要包括:軟體定義的實時音視訊傳輸網路(Real-time Network, RTN),基於UDP的協議層優化,以及弱網傳輸保障策略。在實際應用中, RTC與CDN技術的融合,衍生出 實時互動直播、超低延時直播 兩大技術路徑。

趨勢洞察:實時音視訊標準化工作的推進將引導行業邁向更高的服務質量,推動PaaS層廠商與垂直行業解決方案商之間的良性競爭與協作共贏。同時,實時音視訊逐漸向 實時互動領域的延展 ,元宇宙相關應用的出現將為消費網際網路創造更大的想象空間。此外,實時音視訊技術有望成為我國泛娛樂出海企業的差異化競爭機會, 海外業務版圖的擴大 也將驅動行業迎來新一輪的業務增長。

中國實時音視訊行業發展分析

音視訊消費習慣的遷移

使用者音視訊習慣養成,並逐漸向強實時性、強互動性場景延伸

富媒體資訊時代,音視訊已成為人們獲取、釋出、交換資訊的重要方式。截至 2020年底,中國網路視聽使用者佔整體網民規模的比例已高達95.4%。 高飽和的滲透率水平,使使用者更加關注音視訊服務的體驗感。得益於底座能力與關鍵技術的持續突破,音視訊服務體系實現了從點播、直播到實時音視訊的深化發展。實時性與互動性的長足優化,逐步激活了更多場景下的音視訊互動模式,驅動使用者的音視訊消費習慣向更加還原真實、更加沉浸式的實時音視訊服務遷移。同時,伴隨疫情的常態化發展,人們遠端辦理業務的習慣已逐漸養成。實時音視訊作為一種通用型能力,撬動了傳統行業中眾多強實時、強互動場景的數字化升級,也使得實時音視訊的消費趨勢進一步從消費網際網路向產業網際網路延伸發展。

網路基礎設施持續升級

高速泛在的骨幹網路,為實時音視訊傳輸提供堅實保障

實時音視訊行業的高速發展離不開國家骨幹網路的建設。以千兆光網和5G為代表的“雙千兆”網路,近年來取得突破性進展。2021年,我國光纖接入(FTTH/O)埠已達到對網際網路寬頻埠的高度覆蓋,光纖接入能力已普遍超過百兆,並向千兆以上速率不斷升級;5G網路已覆蓋國內所有地級以上城市,5G基站數累計高達142.5萬,使用者數佔全球的89%。網路基礎設施的廣泛滲透,使更多使用者可以受益於終端裝置與骨幹網路之間的快速連線,享受到無感接入、觸手可及的高質量網路服務。同時,“雙千兆”網路在頻寬能力上的顯著提升,可大幅降低音視訊資訊的延遲和緩衝時間,提高階到端毫秒級傳輸時延的滿足率,為實時音視訊的資料傳輸與落地應用提供良好的底層網路支撐。

音視訊傳輸技術更新迭代

技術驅動音視訊走向實時,流媒體協議邁入毫秒級傳輸階段

流媒體技術可將壓縮處理後的音訊、影像連續性地上傳到網站伺服器,使檔案無需完全下載到本地即可觀看。在編解碼方面,H.265、國產AVS3等視訊解編碼技術可以使檔案的壓縮體積更小、傳輸速度更快。其中,AVS3作為全球首個面向5G產業應用的音視訊信源編碼標準,已被成功納入DVB(數字視訊廣播組織)標準體系,可以在同等畫面質量下比H.265節省40.09%的位元速率。在協議方面,基於TCP的RTMP、HLS、DASH等協議的優化方案仍存在2-3秒左右的延遲,而基於UDP的WebRTC則突破性地將延遲降低至毫秒級別。與其他協議不同,WebRTC作為流媒體通訊框架,覆蓋音視訊採集、編解碼、傳輸和渲染的全部環節,可以為實時音視訊提供全流程的理論依據與技術支援。

商用方案成為行業主流

WebRTC奠定技術框架,在基礎上演化出第三方服務商

WebRTC是目前實時音視訊領域最流行的開源框架。2010年Google收購GIPS引擎後,將其納入Chrome體系且開源後,命名為“WebRTC”。WebRTC獲得各大瀏覽器廠商的支援並納入W3C標準,促進了實時音視訊在移動網際網路應用中的普及。2021年1月,W3C和IETF兩大標準制定組織宣佈WebRTC成為官方標準,使用者無需下載額外元件或單獨的應用程式,便可以支援在網路上的實時音視訊通訊。儘管WebRTC具有免費開源的特性,但其龐大、繁雜,學習門檻高,又缺乏伺服器方案的設計和部署,為基於WebRTC搭建的商用方案留下了發展空間。第三方的RTC PaaS廠商憑藉規模效應和技術優勢成為開發者的首選,推動實時音視訊行業進入發展的快車道。

中國實時音視訊行業發展階段

行業潛力逐漸釋放,目前處於場景深化階段的發展中期

WebRTC開源以及移動網際網路的快速發展,使實時音視訊技術成為炙手可熱的探索方向。順應使用者音視訊消費習慣,市場參與者在消費網際網路場景的積極實踐,拉動了實時音視訊行業的第一輪快速增長。當前,我國實時音視訊行業正處於場景深化階段的發展中期,市場前期的良好鋪墊疊加疫情帶來的遠端協作需求,使實時音視訊技術在產業網際網路場景加速滲透。未來,伴隨著行業標準的不斷完善,實時互動場景的沉浸式提升,以及海外業務版圖的持續擴張,我國實時音視訊的行業效能有望迎來新一輪的爆發式增長。

中國實時音視訊市場競爭分析

RTC PaaS廠商憑藉產品和技術實力佔據市場主導地位

根據廠商聚焦的業務重心和發展實時音視訊業務的主要邏輯,可將實時音視訊賽道的玩家分為RTC PaaS廠商、通訊雲PaaS廠商、綜合型IaaS廠商及垂直行業解決方案商四類。其中前三者以提供通用的PaaS層能力為主,第四類根植於特定行業場景,更傾向於輸出PaaS+SaaS的一站式解決方案。就PaaS層而言,RTC PaaS廠商的業務專注度最高,在技術研發和產品打磨上能夠投入足夠的精力,相比其他型別的玩家也具有一定的先發優勢,佔據了目前市場的主要地位。

中國實時音視訊產業圖譜

中國實時音視訊商業模式

以基礎服務+增值服務,搭建完整互動體驗,賦能業務增長

以RTC私有協議推流和拉流的實時音視訊服務採用按時長計費模式。實時音視訊廠商在選用不同計費方式之上,還會疊加月度免費時長、套餐包、梯度折扣等組合優惠方式。伴隨著應用場景的延伸發展,實時音視訊廠商也會採取自主研發或與第三方合作的方式,不斷充實自身產品能力矩陣。三網融合類、安全監測類、體驗增強類增值服務的拓展,保障了實時音視訊服務可用性、可靠性、可玩性,賦予使用者更加完整豐富的實時互動體驗。

中國實時音視訊廠商盈利能力分析

資源成本及研發投入水平較高,PaaS廠商毛利率均值約30%

實時音視訊行業存在較高的資源門檻與技術門檻:PaaS廠商不僅需要在底層網路建設上投入一定的資源成本,還需要在策略演算法優化和產品矩陣打磨上投入大量的研發成本。正是因為行業門檻的存在,實時音視訊行業的市場格局較為集中,頭部PaaS廠商對於產品價格具備較強的話語權,尚未存在“價格戰”。同時,高水平的成本引入,也使實時音視訊的產品價格遠高於傳統音視訊產品。整體看來,實時音視訊(RTC)PaaS廠商的毛利率均值約在30%左右,受資源稟賦及研發能力的不同的影響,不同廠商的成本結構及毛利率水平會存在一定差異。

中國實時音視訊行業市場規模

預計到2024年,實時音視訊PaaS市場規模將達到30億元

儘管實時音視訊服務已經開始呈現出向多行業領域滲透的趨勢,但就現階段而言,以PaaS為主要服務模式的消費網際網路領域仍然貢獻了最核心的收入來源。根據艾瑞諮詢測算,2021年中國實時音視訊(RTC)PaaS市場規模為16億元,同比增長10.3%。相較過去幾年的高速增長,2021年增速回落的原因主要有兩個方面:1)受“雙減”政策影響,線上教育領域的收入驟降,2)社交娛樂場景中,實時音視訊在頭部網際網路應用的滲透率已經較高,由高速增長階段進入平穩增長階段。疫情於實時音視訊無疑起到了重要的市場教育作用,預計未來巨集觀經濟形勢轉好後,實時音視訊將有望在越來越多的產業網際網路領域實現落地,同時元宇宙相關應用的出現也將為消費網際網路創造更大的想象空間。

供給側:實時音視訊行業發展能力洞察

實時音視訊核心價值及關鍵技術總覽

傳輸網路保障低延時、高可靠傳輸,專業元件提升媒體質量

實時音視訊相比直播最大的區別在於對端到端時延的降低。在傳統直播架構下,時延主要來自於CDN分發和下行拉流環節。而通過搭建面向實時音視訊的傳輸網路,應用低延時傳輸協議,並輔以弱網傳輸保障策略,實時音視訊實現了低延時、高可靠的音視訊傳輸。在音視訊引擎方面,典型的實時音視訊場景以溝通交流為核心訴求,對音訊的質量關注度較高;而隨著實時音視訊向實時互動場景拓展,其對降噪、超分等視訊畫質修復增強的要求也不斷提升。

實時音視訊傳輸網路

軟體定義的去中心化網路,依託智慧路由演算法選擇最佳路徑

實時音視訊傳輸網路(Real-time Network, RTN)是專為實時通訊設計的穩定、高質量的傳輸網路。通常而言,實時音視訊傳輸網路架構在公共網際網路之上,採用軟體定義網路的方式進行網路虛擬化,專注於通訊路由的計算和鏈路異常的故障恢復。其控制面主要負責網路質量探測、路徑規劃和規則配置管理,資料面負責資料傳輸和轉發,承擔邊緣和中轉的角色。基於去中心化的架構設計,實時音視訊傳輸網路允許終端使用者從邊緣節點就近接入,並利用智慧路由演算法實時計算最優的路徑傳輸,有效解決路由鏈路和頻寬成本的問題。

網路傳輸協議的選擇

基於UDP協議的可靠性優化,為弱網對抗策略提供依據

傳輸層協議的選擇:TCP是犧牲傳輸實時性來換取資料完整性的可靠傳輸協議。弱網環境下,其在資料傳輸前的“三次握手”連線會帶來較大延時。而UDP作為不可靠的傳輸協議,其最大的優點為高實時性,但不保證資料的到達和排序。實時音視訊產品往往採用UDP協議,並在此之上進行協議層與演算法層的優化,來提高傳輸的可靠性與邏輯性。

UDP協議的優化:UDP協議往往和RTP/RTCP協議一起在實際應用中出現。RTP負責資料傳輸,其協議頭中的序列號、埠型別、時間戳等欄位,可為資料包的分組、組裝、排序提供邏輯依據;RTCP作為RTP的控制協議,負責對RTP的傳輸質量進行統計反饋,併為弱網對抗策略提供控制引數。

弱網傳輸保障策略:丟包恢復

聯動接收端與傳送端的“重傳+編碼”配合策略

弱網環境下,實時音視訊在網路傳輸側的丟包恢復技術主要包括:自動重傳請求(ARQ-NACK)、冗餘編碼(FEC/RED)、I 幀申請(PLI/FIR)等。實際應用中通常採用ARQ-NACK技術先行,FEC技術兜底的配合策略。並根據NACK成功率、NACK響應時長和FEC恢復率,對整體的抗丟包策略進行實時、動態的調整。具體的技術原理及應用的優缺點如下:

弱網傳輸保障策略:抖動對抗

根據網路環境自適應快取,平滑終端流暢體驗

雖然丟包恢復演算法可以增強弱網環境中資料傳輸的容錯性,但難以解決因網路抖動、解碼前各環節抖動帶來的亂序、延遲到達等問題,此時往往需要JitterBuffer(抖動緩衝區)來做媒體包的快取。WebRTC的視訊引擎、聲音引擎中均包含自適應緩衝模組,一方面可以把收到的亂序媒體包進行排序、組幀;另一方面可以根據網路環境動態調整端到端的快取時間,通過讓步適當的延遲來換取音視訊通話的流暢性。打造優秀JitterBuffer的難點在於如何快速、準確地計算網路環境的非穩態變化(包括網路帶來的抖動和抗丟包等演算法引入的額外延遲),並在延遲和卡頓之間取得較好的平衡。

弱網傳輸保障策略:位元速率自適應

根據接收端頻寬情況,針對性推送適合碼流

丟包恢復、抖動對抗策略可以在有限的頻寬下,提供更好的音視訊質量,但難以解決多人互動場景下,單一碼流無法適應多接收端網路頻寬狀況不一的問題。傳統多人互動方案中,網路頻寬較差的使用者往往會影響所有參與者的體驗。而動態位元速率策略雖然對傳送端的頻寬要求較高,但可以根據接收端的頻寬狀況,調整傳輸的資料量,向接收端推送合適的視訊流。對網路質量好的使用者,傳輸高清晰度的流;反之,則傳輸低清晰度的流。視訊流的位元速率自適應技術主要包括:多碼流切換(Simulcast)和可伸縮編碼(SVC)。

實時音視訊技術路徑分析

多人實時互動方案:RTC技術為主,CDN技術為輔

多人音視訊通話:通過接入RTC SDK,同一個頻道/房間內的使用者可以通過RTC私有協議,推流至實時音視訊傳輸網路(RTN),並從RTC地址拉取訂閱的音視訊流,享受穩定流暢的1v1或多人實時音視訊通話服務。

實時互動直播:互動直播增加了主播、連麥者、觀眾的角色概念,連麥者既可以是房間內的觀眾,也可以是其他房間的主播。在核心互動端,主播和連麥者通過RTC地址推送自己的音視訊流,並拉取他人的音視訊流。連麥內容會通過旁路系統在雲端將混為一路流,並轉碼為傳統直播協議供觀眾端使用CDN地址進行拉流觀看。觀眾請求上麥成功後,將從CDN地址切換到RTC地址進行互動。

超低延時直播:對傳統直播架構在協議和網路層面進行改造

超低延時直播是近年來新興起的一類應用。如電商直播、賽事直播等場景,兼具高併發與低延時的特性,傳統直播3-20s的時延難以滿足其需求,但對實時互動的要求又不及視訊會議等典型的實時音視訊應用,無需將時延降低至400ms以下。為此,超低延時直播融合了傳統直播與實時音視訊的技術架構,通過取長補短的方式實現了介於二者之間的端到端時延。

儘管針對超低延時直播廠商尚無一套標準的技術路徑,但大體可以歸納為拉流協議、網路架構和推流協議三個方面的改造,在實際應用過程中,廠商會平衡成本及效能指標等因素,在不同的協議和網路架構之間進行選擇。

需求側:垂直行業實時音訊應用實踐分析

中國實時音視訊行業應用概覽

實時音視訊商用實踐從消費網際網路向產業網際網路逐漸滲透

以泛娛樂、線上教育為代表的消費網際網路場景,具備實時音視訊發展的良好應用基礎和價值前景,是實時音視訊商用實踐的主力領域。伴隨產業數字化轉型的加速,協同辦公作為全行業的通用型解決方案,已經成為後疫情時代企業的必備能力;實時音視訊在金融、醫療等傳統行業重點場景的應用效能也在逐漸擴大。雖然IoT行業眾多場景的實時音視訊應用基礎尚未成熟,但是其在工業巡檢、自動駕駛等領域具備廣闊發展前景,是實時音視訊行業的未來發展方向。

社交娛樂實時音視訊需求及實踐

實時音視訊啟用互動新玩法,多場景聯動釋放業務增長空間

公眾社交娛樂需求的不斷釋放與滿足,使行業記憶體量使用者的競爭加劇,獲客留客的成本攀升。產品同質化趨勢下,互動體驗升級與新潮互動模式挖掘的重要性愈加凸顯。實時音視訊技術與社交娛樂場景具有天然契合度,不僅可以直接提升現有產品的基礎屬性,還可以融合空間音訊、VR、AR等技術,給予使用者沉浸式的實時互動體驗。此外,實時音視訊技術還使得線上合唱、一起看直播等強實時場景成為可能,並有助於直播、社交、遊戲類場景間的融合。融合過程中激發出的互動新玩法,有助於拉昇使用者活躍、留存、使用時長等業務資料,並拓展產品的付費場景,提升產品的營收能力。

教育行業實時音視訊需求及實踐

強調師生的實時互動,疊加豐富的教學工具提升教學質量

教育行業分為校外培訓和校內的教育資訊化兩個部分,其中校外培訓受到“雙減”政策的影響,各機構紛紛轉向素質教育、成人教育、職業培訓等細分賽道,教育資訊化迎來政策和需求的雙重利好,利用以音視訊為核心的手段促進教育公平、提升教學質量已是大勢所趨。於教育行業而言,實時音視訊的應用涉及1v1、小班課、互動大班課、雙師課堂等多種場景,不同場景在延時、併發上的需求各異,廠商應針對具體的場景需求提供不同的解決方案以實現清晰流暢的音視訊體驗。此外,教育行業對白板互動、線上問答、課件演示等互動工具存在剛需,廠商需提供豐富的功能以幫助提升教學質量。

協同辦公實時音視訊需求及實踐

以視訊會議為核心向協同辦公延伸,解決遠端異地辦公需求

實時音視訊在協同辦公場景中的應用主要體現在視訊會議上。新冠疫情的出現推動了雲視訊會議在各行業領域的滲透,現如今,雲視訊會議已經成為混合辦公模式下的重要抓手。不同會議場景下的環境空間、硬體設施、參會人員存在差異,可能出現的音畫問題也各不相同,如小會議室內同時開麥會造成嘯聲嚴重,大會議室距離入會裝置較遠的人聲難以聽清,容易出現混響。廠商需能針對不同場景提供高清流暢的音視訊會議體驗,同時滿足PC、智慧手機、會議平板等多種終端的接入需要。在此基礎上,可疊加包括會前準備、會中協作、會後管理在內的產品能力,輔助企業進行遠端異地的協同辦公。

金融行業實時音視訊需求及實踐

聯動線上線下優勢能力,實時音視訊突破金融服務物理邊界

新冠疫情加速了金融行業的“離櫃化”,線下網點的經營成本愈顯沉重;雖然,線上網際網路模式更具備便捷性與盈利性,但在客情管理、業務支撐方面的能力有限。因此,金融機構亟需一個能夠融合線上、線下服務優勢的新渠道。依託實時音視訊技術打造的遠端服務場景,打破了金融服務的時空邊界,可有效支撐網點業務的線上化;同時,坐席專業團隊的業務引導、交叉營銷、客情管理等服務,可給予客戶有溫度的數字服務體驗。通過靈活調節遠端坐席與線上、線下渠道的連線布放,可以較大程度提升金融機構的運轉效能。

醫療行業實時音視訊需求及實踐

推動醫療服務下沉與資源分級協作,針對性解決就醫難題

優質醫療資源分佈不均、基層醫療資源利用不充分、問診流程冗長複雜,始終是患者“看病難、看病煩”的根源問題。同時,由於專業屬性較強、合規要求嚴格,醫療行業的協作壁壘較高,醫療體系內部也長期存在資源互動困難、遠端協作低效等難題。實時音視訊作為醫療行業數字化轉型的重要能力,可以為慢性病、常見病和部分專病患者提供診前諮詢、診中判斷、診後回訪的全流程醫療服務,免去線下就醫的諸多困擾。同時,實時音視訊技術在遠端會診、遠端協診、遠端影像方面的應用,不僅可以促進更加高效的醫醫協作模式,還可以推動醫聯體內醫療資源的分級協同與廣泛下沉。

IoT行業實時音視訊需求及實踐

從消費級應用的實時通訊向產業級應用的遠端控制滲透

根據艾瑞諮詢測算,預計到2023年中國物聯網連線量將達到125億個。隨著萬物互聯的時代來臨,實時音視訊正作為終端裝置的“眼睛”和“耳朵”加速向IoT行業滲透。IoT領域具有多樣化、碎片化的特徵,存在很多專為特定行業、特定場景所服務的裝置。因此,實時音視訊廠商不僅要同主流音視訊晶片廠商合作,還需要支援客戶側對定製化硬體平臺的對接需求。IoT行業的應用大體遵循從消費級向產業級滲透的路徑,需求重點由實時通訊向遠端控制升級,對效能、功耗、包體等各方面的要求也不斷提升。

中國實時音視訊行業發展趨勢

標準化工作推動市場良性競爭

量化實時音視訊服務質量,賽道准入門檻不斷提升

實時音視訊領域一直以來處於行業標準缺失的狀態中,對於服務質量和使用者體驗是否達標、不同型別的產品或場景能夠接受的資料指標等都沒有統一的評判標準,在一定程度上阻礙了行業的健康發展。2022年5月,中國信通院啟動了“音視訊+”系列規範標準的編制工作,實時音視訊作為其中的重要組成部分,針對其基礎能力的相關標準已經初步成型。標準化工作的推進將引導實時音視訊行業邁向更高的服務質量,亦會推動PaaS層廠商與垂直行業解決方案商之間的協作共贏。

以實時互動為基點向元宇宙進階

連通虛擬與現實世界,沉浸式互動拓寬實時音視訊想象空間

當前實時音視訊在泛娛樂場景中的滲透正逐漸趨於飽和,隨著音視訊基礎設施屬性的顯現,實時音視訊也開始憑藉“實時”的標籤向更廣泛的實時互動領域拓展,延伸其場景邊界。音視訊技術、傳輸技術的發展演進讓實時音視訊在實時性、沉浸式方面的表現不斷提升,實時互動的價值將超越了最基本的交流通訊,通過疊加VR、AR及各類互動技術,成為連通虛擬世界與現實世界的橋樑。未來,實時音視訊將以實時互動的能力為基點,深入到虛擬主播、虛擬會議等元宇宙應用中。

本文來自微信公眾號 “艾瑞諮詢”(ID:iresearch-) ,作者:艾瑞,36氪經授權釋出。