本次,金山云樊鴻飛接受了LiveVideoStack的采訪。作為金山云的算法架構(gòu)師,樊鴻飛主要負(fù)責(zé)金山云視頻編解碼、集智高清、圖像增強(qiáng)、圖像壓縮等產(chǎn)品的研發(fā),在采訪中樊博士回顧了自己多年技術(shù)研究的心得,也針對(duì)AV1當(dāng)前的生態(tài)發(fā)表了自己的看法,對(duì)于即將到來的5G時(shí)代,我們有理由相信金山云已經(jīng)做好的充足的準(zhǔn)備。
LiveVideoStack:樊鴻飛你好,感謝接受LiveVideoStack的采訪,能否向LiveVideoStack的讀者簡單介紹下自己。
樊鴻飛:你好,我目前在金山云擔(dān)任算法架構(gòu)師,是視頻云部門的視頻編解碼以及AI算法負(fù)責(zé)人,涉及的方向主要包括視頻編碼、計(jì)算機(jī)視覺、圖像處理、圖像壓縮。我博士畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,本科畢業(yè)于上海交通大學(xué)軟件學(xué)院。我在博士期間的研究方向主要是視頻編碼、計(jì)算機(jī)視覺以及特征編碼。
LiveVideoStack:從你的個(gè)人經(jīng)歷來看,近年來主要從事視頻編碼、圖像處理、計(jì)算機(jī)視覺方向上的研究,從技術(shù)發(fā)展的角度來看有沒有令你印象深刻的事情?
樊鴻飛:我印象比較深刻的是,做技術(shù)研究需要結(jié)合當(dāng)前階段的實(shí)際情況考慮。從一個(gè)細(xì)節(jié)來舉例,隨著網(wǎng)絡(luò)帶寬的變化,云轉(zhuǎn)碼的碼控策略是在發(fā)生變化的。在弱網(wǎng)環(huán)境下,最需要解決的是QoS的卡頓率高的問題,不是網(wǎng)絡(luò)傳輸成本。此時(shí)云轉(zhuǎn)碼經(jīng)常使用cbr碼控策略。然而,這種策略無論是在實(shí)踐中,或是在paper里,都很難達(dá)到定QP的編碼水準(zhǔn),特別是在包含復(fù)雜場(chǎng)景切換的時(shí)候。
隨著網(wǎng)絡(luò)帶寬的增長,卡頓率已經(jīng)比較低,轉(zhuǎn)碼后成本已經(jīng)變得更加重要了,這種情況下,最常見的云轉(zhuǎn)碼使用的是crf碼控策略,這種策略實(shí)現(xiàn)起來非常簡單,并且rd性能往往優(yōu)于cbr很多。不過,cbr也并非沒有研究意義,相反在RTC的會(huì)議通信里仍有很大的研究價(jià)值,只是在云轉(zhuǎn)碼場(chǎng)景中用的不多了。因此,技術(shù)的研究需要考慮整個(gè)時(shí)代技術(shù)的發(fā)展,想明白真正的使用場(chǎng)景,盲目的進(jìn)行優(yōu)化有可能會(huì)走彎路。
LiveVideoStack:說說目前你在金山云負(fù)責(zé)的工作和研究方向吧。
樊鴻飛:目前主要是負(fù)責(zé)兩部分,一個(gè)是視頻云轉(zhuǎn)碼,一個(gè)是AI算法。云轉(zhuǎn)碼方面主要是編解碼器優(yōu)化,目前我們除了在做H.264、H.265的持續(xù)優(yōu)化以外,也開始進(jìn)軍AV1。我們認(rèn)為AV1是更好的4K/8K視頻編碼解決方案,是對(duì)5G時(shí)代進(jìn)行的探索。
AI算法方面,關(guān)心過金山云的朋友們應(yīng)該或多或少聽說過我們的集智高清產(chǎn)品。集智高清主要是利用AI對(duì)視頻進(jìn)行分析,解決了三大傳統(tǒng)云轉(zhuǎn)碼算法解決不了的難題:1)低清視頻恢復(fù)問題;2)碼率分辨率智能決策問題;3)編碼器全局優(yōu)化問題。除了集智高清之外,我們也在做基于AI的有參考評(píng)價(jià)指標(biāo),在這方面金山云有很長時(shí)間的積累,對(duì)內(nèi)使用時(shí)表現(xiàn)的不錯(cuò),未來可能會(huì)公開我們的算法,大家可以期待一下。其他的應(yīng)用還有視頻標(biāo)簽、智能封面、精彩集錦、去水印、智能審核等。
LiveVideoStack:金山云的集智高清產(chǎn)品目前在行業(yè)中屬于什么水平?集智高清適合于哪些場(chǎng)景的落地?能給金山云云轉(zhuǎn)碼帶來了哪些用戶體驗(yàn)的提升?
樊鴻飛:目前金山云的集智高清產(chǎn)品處于行業(yè)領(lǐng)先的水平,在UGC短視頻場(chǎng)景下可以做到行業(yè)領(lǐng)先。在剛才的問題里也提及了,傳統(tǒng)編碼器做云轉(zhuǎn)碼存在三個(gè)問題,利用AI+編碼技術(shù)可以為所有的轉(zhuǎn)碼場(chǎng)景提供更高的壓縮率。我們所推出的集智高清產(chǎn)品可以適用于絕大部分視頻場(chǎng)景,包括秀場(chǎng)、電影、監(jiān)控、教育、綜藝、體育等等。另外,由于低清視頻轉(zhuǎn)碼提升很明顯,所以最大增益的場(chǎng)景還是低清的UGC短視頻,這也是目前使用集智高清服務(wù)數(shù)量最多的用戶場(chǎng)景。
對(duì)于使用集智高清的用戶來說,根據(jù)我們測(cè)試的結(jié)果,首先因?yàn)榇a率的降低,在點(diǎn)播和直播的QoS上有很大的提升,包括首幀、卡頓率、卡頓時(shí)間等;其次在主觀上存在增益,一方面塊級(jí)智能決策可以很好地避免塊效應(yīng),減少低清視頻比率,降低產(chǎn)生用戶反感的塊效應(yīng)的可能性,另一方面利用AI的修復(fù)能力能夠有效避免第一次編碼可能造成的壓縮噪聲,同時(shí)也可以對(duì)人臉等關(guān)鍵區(qū)域進(jìn)行修復(fù),去除運(yùn)動(dòng)模糊,還能夠利用幀間信息修復(fù)因?qū)故д娈a(chǎn)生的模糊。
LiveVideoStack:AI在編碼生態(tài)中的哪些場(chǎng)景的應(yīng)用你會(huì)比較看好,比如前處理、編碼、深度網(wǎng)絡(luò)直接壓縮算法、后處理等?
樊鴻飛:目前AI在上述提到的方向中多多少少都有應(yīng)用。
在前處理中,攝像頭本身就自帶ISP,沒有做前處理的裸流會(huì)存在很多問題,因此這是一個(gè)研究了很久的方向。如果是云轉(zhuǎn)碼的話,不進(jìn)行前處理很可能首次編碼的壓縮噪聲會(huì)被編碼器當(dāng)作信息量進(jìn)行編碼,從而帶來額外的碼率。另外超分辨率算法可以應(yīng)用在前處理中,形成解碼+超分+編碼的云轉(zhuǎn)碼流程,提供更清晰的視頻體驗(yàn)。
在后處理中,我認(rèn)為目前AI應(yīng)用于編碼標(biāo)準(zhǔn)的環(huán)內(nèi)濾波比較難,畢竟有低端設(shè)備可能解碼解不動(dòng)。但是如果將AI應(yīng)用于環(huán)外濾波,就具有更大的靈活性,低端設(shè)備可以選擇不做處理,高端設(shè)備進(jìn)行處理。當(dāng)然這兩種濾波對(duì)應(yīng)的策略也有所不同,環(huán)內(nèi)濾波可以著重去除編碼留下的壓縮噪聲,給后續(xù)幀提供更好的參考幀,而環(huán)外濾波可以做一些對(duì)比度增強(qiáng)、暗場(chǎng)增強(qiáng)等等。
在編碼方面,利用深度學(xué)習(xí)可以做全局優(yōu)化,因?yàn)榛诼适д娴木幋a器優(yōu)化是一種局部最優(yōu)策略,無法做到全局最優(yōu),特別是對(duì)于AV1存在非對(duì)稱塊劃分,深度學(xué)習(xí)的塊劃分可以帶來性能提升。
在利用網(wǎng)絡(luò)直接做End-to-End壓縮方面,雖然已有算法在Intra編碼上采用該策略,但是目前尚且沒有基于該策略的視頻編碼算法出現(xiàn)。不過在視頻編碼中Intra的碼率占比并不高,對(duì)于圖像壓縮來說帶來的增益尚不足以彌補(bǔ)解碼負(fù)擔(dān)增大帶來的副作用,目前看這還是一個(gè)需要繼續(xù)探索才能大規(guī)模商用的方向。
總之,我覺得AI在編碼當(dāng)中的應(yīng)用還是比較廣泛的,只是在研究之前還是需要盡量避免拿著錘子找釘子的情況。
LiveVideoStack:與同類的音視頻服務(wù)平臺(tái)相比,金山云的技術(shù)特色有哪些?
樊鴻飛:這是一個(gè)很棒的問題。首先,金山視頻云在直播、點(diǎn)播CDN質(zhì)量上處于領(lǐng)先地位,行業(yè)排名前茅。在穩(wěn)定性上,我們承諾提供大主播保障能力、重大事件及賽事重保方案。金山視頻云具備完善的監(jiān)控和告警體系,為客戶提供7x24小時(shí)售后服務(wù)。在視頻編碼方面,KSC265編碼速度及壓縮率處于行業(yè)領(lǐng)先水平,結(jié)合AI的集智高清可以支持在同畫質(zhì)下壓縮率達(dá)到60%的云轉(zhuǎn)碼服務(wù),為客戶提供最優(yōu)成本下的高清體驗(yàn)。除此之外,還有PCDN支持,KCP內(nèi)部鏈路加速,支持QUIC協(xié)議通道等等也都提供了更好的支持。
LiveVideoStack:金山云目前正積極推動(dòng)新一代視頻編碼技術(shù)AV1有哪些落地的產(chǎn)品和方案?這些產(chǎn)品面向哪些場(chǎng)景和用戶?
樊鴻飛:AV1相較于H.265來說具備更好的專利生態(tài)。下圖是目前金山AV1的轉(zhuǎn)碼效果。在原始3.3M碼率的游戲視頻下,編碼器壓縮至0.67M時(shí)(壓縮率80%),H.265已經(jīng)產(chǎn)生塊效應(yīng),但AV1能保證更好的主觀效果。

目前金山云的AV1是以云轉(zhuǎn)碼服務(wù)為主,未來還是會(huì)提供私有化部署。我們的基于AV1的云轉(zhuǎn)碼服務(wù)對(duì)于這三類用戶將更有吸引力。
第一類是對(duì)專利費(fèi)敏感型的用戶,AV1相較于H.265來說具備更好的專利生態(tài),因此在這一點(diǎn)上AV1相對(duì)于H.265還是有比較大的優(yōu)勢(shì);
第二類是Web端有大量播放需求的用戶,H.265的專利問題使得常用的瀏覽器內(nèi)核比如Chrome、Firefox均不支持H.265解碼。
第三類是適合有4K及以上分辨率視頻的用戶,因?yàn)锳V1對(duì)大分辨率視頻的支持要更好,然而對(duì)于UGC低清視頻, 在UGC視頻分辨率和質(zhì)量提升之前,金山云集智高清也將提供基于AV1的低清視頻解決方案。
LiveVideoStack:5G時(shí)代的來臨視頻體量呈爆炸式增長,這對(duì)云轉(zhuǎn)碼技術(shù)也提出了更高的要求,金山云在視頻云轉(zhuǎn)碼領(lǐng)域深耕多年,都做了哪些準(zhǔn)備?除了云轉(zhuǎn)碼以外,金山云還有什么新產(chǎn)品來應(yīng)對(duì)來臨的5G時(shí)代?
樊鴻飛:5G時(shí)代的視頻一定是高清高分辨率的。5G時(shí)代初期的一大痛點(diǎn)就是成本高,一是獲取高清視頻的成本高,二是傳輸存儲(chǔ)高清視頻的成本高,三是5G網(wǎng)絡(luò)建設(shè)成本高。金山視頻云在解決前兩個(gè)難題上都有所準(zhǔn)備。
針對(duì)獲取高清視頻來說,我們于2018年發(fā)布了畫質(zhì)增強(qiáng)KIE(Kingsoft Image &AI Enhancement)產(chǎn)品,將其應(yīng)用于移動(dòng)終端或圖片傳輸中,可為用戶帶來超清的圖像視覺體驗(yàn)或節(jié)省圖片傳輸帶寬成本,并已集成在了小米手機(jī)MUI中。我們關(guān)于超分辨率的研發(fā)腳步從來沒有停止,目前KIE已經(jīng)實(shí)現(xiàn)利用GAN來生成以假亂真的細(xì)節(jié)。除此之外,我們通過在超分辨率模型中融合時(shí)域信息達(dá)到了去運(yùn)動(dòng)模糊、HDR等效果,能為廣大視頻用戶生成更真實(shí)的4K/8K視頻。
針對(duì)高清高分辨率視頻的壓縮,AV1是我們迎接5G時(shí)代的另一個(gè)準(zhǔn)備。AV1作為下一代視頻編碼標(biāo)準(zhǔn),宏塊大小從64x64增大到了128x128,同時(shí)具有非對(duì)稱塊劃分,這些都是為4K甚至8K視頻量身定制的模式。在高分辨率視頻中,AV1具備比上一代編碼標(biāo)準(zhǔn)更大的優(yōu)勢(shì)。在H.265的時(shí)代,金山云就處于行業(yè)領(lǐng)先水平,借助數(shù)年積累的編解碼經(jīng)驗(yàn),我們將為客戶提供完善的、極致壓縮率的全鏈路4K/8K視頻編解碼服務(wù)。
除了上述兩點(diǎn),由于5G有著低時(shí)延、高帶寬等特點(diǎn),將催生大量新的應(yīng)用和場(chǎng)景,會(huì)對(duì)網(wǎng)絡(luò)性能提出更高要求,因此需要新的網(wǎng)絡(luò)技術(shù)和架構(gòu),以滿足這些新應(yīng)用的需求。邊緣計(jì)算就是為了滿足不同應(yīng)用帶來的多樣化網(wǎng)絡(luò)需求的核心技術(shù)之一。在5G時(shí)代,通過在傳輸網(wǎng)架構(gòu)中引入邊緣計(jì)算技術(shù),可降低時(shí)延和帶寬傳輸成本,提高內(nèi)容分發(fā)效率和用戶體驗(yàn),避免因大流量應(yīng)用(如8K視頻、VR等)的數(shù)據(jù)回傳占用大量帶寬,從而造成網(wǎng)絡(luò)擁堵甚至崩潰的問題。作為視頻行業(yè)公認(rèn)的云服務(wù)領(lǐng)軍企業(yè),金山云依托頂級(jí)的基礎(chǔ)設(shè)施和技術(shù)積累,不斷引領(lǐng)行業(yè)發(fā)展。
針對(duì)上述問題和需求,金山云CDN結(jié)合邊緣計(jì)算向下一代內(nèi)容分發(fā)平臺(tái)升級(jí)這一典型場(chǎng)景,借助全球1000+節(jié)點(diǎn),100T帶寬等強(qiáng)大資源,將推出基于邊緣節(jié)點(diǎn)的計(jì)算服務(wù)平臺(tái)KENC(Kingsoft Edge Node Computing),KENC是運(yùn)行在金山云CDN邊緣節(jié)點(diǎn)上的一套容器云平臺(tái),它支持在邊緣運(yùn)行自定義的容器鏡像,依托CDN網(wǎng)絡(luò)主推容器云平臺(tái),面向大客戶提供自控節(jié)點(diǎn)容器云,并向中小客戶提供自動(dòng)調(diào)度容器云,通過就近計(jì)算原則,將算力高效分發(fā)到全區(qū)域覆蓋,從而提供高性能、低延時(shí)的邊緣計(jì)算服務(wù),將云端的超強(qiáng)處理能力和本地設(shè)備的流暢操作感受相結(jié)合,提高了用戶的使用體驗(yàn),并助力客戶探索更多可行的商業(yè)模式。同時(shí),金山云正在打造包括邊緣數(shù)據(jù)中心、家庭IoT以及連接邊和端的1KM邊緣計(jì)算在內(nèi)的一體化解決方案,加速服務(wù)智能時(shí)代。