他回答,「我是工程師,不管現(xiàn)在還是接下來,我永遠都會是工程師風格的一個人」。
在2014年4月聲網(wǎng)Agora.io(以下簡稱聲網(wǎng))創(chuàng)立之前,趙斌的身份是YY(歡聚時代)的CTO,也并沒有想過以后一定要創(chuàng)業(yè)。但在商業(yè)時代,技術本身或許就擁有自帶光環(huán)的能力,無論是推動聲網(wǎng)從一種思維雛形走向實時互聯(lián)網(wǎng)的一支隊伍,還是讓趙斌從工程師CTO轉變?yōu)閯?chuàng)業(yè)人,技術就像是風。
它可以讓逐浪者隨風前行,也可以給身處風中的巨輪創(chuàng)造更多的助力。

伴隨著互聯(lián)網(wǎng)泡沫的起與退,科技界的喧囂熱鬧也絕對不亞于娛樂圈,當人人都在談核心競爭力時,對于一家技術驅動的公司來說,真正的「核心」自然就是技術。
實際上,光靠概念就能獲得融資的技術公司并非罕見。VC不是傻子,他不會嫌手里錢多追著塞給你,更不會稀里糊涂的輕易被創(chuàng)業(yè)者忽悠。因而唯一的解釋是,即使還很早期,他們也相信,這些技術將是推動社會進步真正的里程碑和轉折點。
技術的神奇也莫過于此。Edward Brakus目前是聲網(wǎng)的全球產品總監(jiān),之前在Vidyo和Polycom都工作過,有20余年的視頻通信行業(yè)經(jīng)驗。當初從美國本土的通信企業(yè)跳出來而選擇加入一家中國的初創(chuàng)公司,聞風者多揣測其中緣由。此外,「聲網(wǎng)大事記」中也存在一些比較讓人疑惑的點:2014年2月是公司成立的時間,同時也是其獲得A輪600萬美元的融資(沒有pre-A)的時間,但直到一年半以后的2015年7月,它才開始對外放聲,發(fā)布其語音通話SDK產品。
這些“反常”的地方,讓當時聲網(wǎng)的產品和內部團隊籠罩著更多的神秘,投資者胸有成竹,其技術卻在執(zhí)行偷偷孕育。與VR/AR這些互聯(lián)網(wǎng)血統(tǒng)的技術不同的是,聲網(wǎng)所專注的RTC技術是傳統(tǒng)通信和互聯(lián)網(wǎng)的結合,技術范疇屬于通信,但是使用場景和基礎架構都是互聯(lián)網(wǎng)。或許,它是一個和AI有著同等級別機會的顛覆性深科技。RTC的技術難度和復雜度很高,尤其是在移動領域,其技術門檻和復雜度更高。
此外,無論是研究投入還是技術投入,國內在RTC領域的相關廠商也沒有像美國市場數(shù)量那么多。當然,這在很大程度上與實時通訊的技術壁壘有關。
但是,盡管WebRTC在Google收購Global IP Solutions的GIPS引擎后已走過六個年頭,但受制于網(wǎng)絡、設備、對抗物理環(huán)境干擾技術的問題,普通音視頻通話過程中還是經(jīng)常出現(xiàn)丟包、噪聲、延時的情況,用戶經(jīng)常靠「喂喂喂」來測試語音,對方說得正帶勁我這邊卻早已掉線的情況時有發(fā)生,跨國跨網(wǎng)的通話更是無法滿足基本的用戶體驗。很多人會認為WebRTC搭Demo沒問題,正式商用總是有各種困難重重。對此,趙斌談到了兩點,一是構建實時網(wǎng)絡的問題,二是音視頻的算法處理和算法改進問題。
實時網(wǎng)絡是WebRTC所缺失的最關鍵部分,因為互聯(lián)網(wǎng)本身不是為實時來設計,如果依靠互聯(lián)網(wǎng)的基礎設施,則完全無法進行商用級別的通信。但是,部署構建實時網(wǎng)更是需要解決除了技術外的大量資金問題,靠每個公司自建是不可能的,也會造成極大的資源浪費。
音視頻算法也是實時通信的另一個關鍵環(huán)節(jié)。一般的工程技術人員以寫代碼為主,能理解做循環(huán)、隊列、樹等工程代碼。但是音視頻處理需要的是信號處理算法,和信號本身所謂時率、頻率這些特征的分解有關。因此能優(yōu)化卻不能從根本改進者居多,哪怕在全球范圍內,能在專門針對互聯(lián)網(wǎng)的信源信道音頻編代碼上做出新算法的也屈指可數(shù)。
當然,在用容災性網(wǎng)絡架構保證服務的繞行工作方式同時,要將信息延遲從秒級縮短至毫秒級,又好似沖刺最后一公里的最后一百米。用趙斌的話來說——只是「看到了一點曙光」。走過了黑暗之中的大部分摸索期,曙光初現(xiàn)意味著,聲網(wǎng)的方向至少選對了。但洞口在遠方也證明著,從實時通訊的發(fā)展來看,這條隧道太長太艱辛,走完全程并讓消費者全部滿意,一切競技者都還只是在行進的路上。
一場與時間的較量
Edward Brakus曾在一次發(fā)言中談到中美兩國技術創(chuàng)業(yè)環(huán)境的異同,「中國創(chuàng)業(yè)公司反應迅速,協(xié)同工作,最突出的表現(xiàn)是可以很快搭建出原型產品、很快的根據(jù)客戶需求做迭代,這是中國創(chuàng)業(yè)者的主要特點。美國的關注點則在技術本身的革新,美國在嘗試進一步發(fā)展之前會在技術上嘗試更深入的研究,迭代會慢些。」
聲網(wǎng)是一個中美兩國的“混血兒”,所以其發(fā)展路徑在某種程度上融合了上述兩類特點。
初創(chuàng)的第一年,它不像一個傳統(tǒng)的蒙頭賺錢的商業(yè)公司,反倒像研究機構和學術機構的集合體。除了主攻編代碼算法,部建和拓展虛擬網(wǎng)節(jié)點外,幾個技術和運營團隊的領頭人還聯(lián)合Daniel Burnett和Alan Johnston編著了《WebRTC權威指南》,后兩位是在WebRTC標準化過程中起到重要作用的機構的核心專家,Daniel Burnett同時也被外界稱之為WebRTC標準之父,低調做著RTC技術的教育和推廣工作。
聲網(wǎng)著書的舉動有點出人意料。雖然國內WebRTC技術在IETF和W3C標準的許多領域已有實質性的進展,但一直缺少一本為其定義的專業(yè)書籍。而《WebRTC權威指南》的誕生或許正見證了趙斌一伙人的創(chuàng)業(yè)歷程和技術情懷。
他曾說過,「對于全球的開發(fā)者來說,下一個風口,一定會是融合了實時通信技術的應用,WebRTC無疑是推動實時通信技術發(fā)展至關重要的技術之一」。那對于中文開發(fā)資料和感知應用都幾近空白的國內市場,創(chuàng)始團隊當初選擇文武混合雙打方式,起意為何?
很重要的一個原因在于趙斌和聲網(wǎng)對實時通信發(fā)展的了望:即想把國內的實時通信市場這個行業(yè)做大做強,讓更多有實力的廠商都加入到實時領域來。但邁出從0到1這一步更多的是需要夢想之外的勇氣。
SD-RTN(軟件定義實時網(wǎng)),趙斌他們直接稱之為虛擬通信網(wǎng)。從成立一年時的65家全球數(shù)據(jù)中心到2016年6月的近100個全球節(jié)點,趙斌坦言,聲網(wǎng)的構建之路走的很難。「從想法成型到證明可行,再到概念的完全落地實施;從選擇在哪些區(qū)域布點,再到驗證每個布點的有效性,這個過程像是邊舉重邊跟時間賽跑」,他回憶說。
2014年成立聲網(wǎng)那會,國內缺乏可借鑒的經(jīng)驗,建網(wǎng)、選點、甚至該選用TCP還是UDP協(xié)議,都完全是靠初識團隊一點點探索。一方面,加注的財力和人力在與日俱增,另一方面,每天都是打腦力戰(zhàn),團隊精力全傾注到編碼和優(yōu)化機器對傳輸路徑選擇的算法上。這些投入決定了,這是一條容不得回頭和放棄的路。可是時間、資源都有限的條件下,大家都明白,一場與「未知」的較量才剛剛拉開帷幕。
而選擇必須如此嗎?是,亦不是。
WebRTC提供了P2P連接方式,但是如果針對復雜的全球網(wǎng)絡,僅僅依靠公共互聯(lián)網(wǎng)P2P,質量沒法保證。此外,依據(jù)電信標準,IP包傳輸往返時延的平均時長要≤200毫秒,語音傳輸時延平均值要≤400毫秒,而傳統(tǒng)CDN的接入服務基本是達到了秒級以上延遲,與實時通話的本質需求相距甚遠。所以,光是依靠WebRTC的開源技術,并不能保證互聯(lián)網(wǎng)的實時傳輸,而搭建全球范圍內的音視頻傳輸網(wǎng)絡,縮短端到端的時長差,是聲網(wǎng)在做實時通信和全互動直播前,必須要直面的一次選擇。而現(xiàn)在76ms的端到端平均延時,也是選擇之后的一次證明。
同時,技術和學術像是一枚硬幣的兩面。隨著信令協(xié)議、安全協(xié)議、H5帶來的一股“破壞”浪潮,很多技術細節(jié)也都開始陸續(xù)進入考慮范疇,RTC所需的標準和協(xié)議也仍在開發(fā)和發(fā)明中。用《WebRTC權威指南》中的序言來闡述即為,「API的核心在逐漸穩(wěn)固,在使用方面,人們正力求理解WebRTC的影響和機遇」。
可見,無論是站在用戶方,還是開發(fā)者方,趙斌和團隊是希望建立更全面的一張以SD-RTN軟件實時定義網(wǎng)為本質的傳輸來保障音視頻和直播的傳輸。從理論基礎到技術實踐,沒有開路者,那就自己打江山,沒有成熟的體系,那就自己動手來搭。
另一個方面,這也極像工程師們追求「開拓」和「極致」的群體共性。或許這也是,趙斌更愿意稱自己為「工程師」的一類原因,即永遠保持對技術初衷的純粹信仰和情懷。
在這個標準下,聲網(wǎng)實驗室里大量的數(shù)據(jù)測試都是以電信通訊服務為標桿,包括穩(wěn)定性、音質頻響、回聲等,按照IPO的測試序列和算法做對比和優(yōu)化,才最終得出他們所期待的方程式結果。
電信對「高質量通話」已有一套成熟的定義和QoS標準,包括客觀量化的標準都具備詳細指標,甚至在通訊服務的定價收費上,電信也提出了嚴格標準。而在互聯(lián)網(wǎng)領域,趙斌也是希望通過聲網(wǎng)建立起無限接近電信的通信QoE標準。因此,聲網(wǎng)團隊在做遵循嚴謹科學體系的選擇時,更大的意義是樹立一種價值和標準典范。
國內用戶目前對WebRTC價值存在兩種有失偏頗的論調。盲目樂觀者說,實時通訊就是拿個開源項目,用WebRTC去接就可以,兩三個月就可以成型;消極悲觀者則認為,WebRTC根本沒用,經(jīng)驗證明沒人能做好。
辯證來看,聲網(wǎng)團隊強調,從互聯(lián)網(wǎng)角度而言,WebRTC是基于瀏覽器的開源服務,因此肯定存在技術上的局限性。所以,必須要將自研和WebRTC在內的各項技術結合起來,實時的通訊標準也會強化團隊對設計目標的制定。比如要降低延時性,解決成千上萬終端適配問題,順應互動方式的切換,就必須聚焦移動設備,做好端到端的整體優(yōu)化。
整個通訊領域仍處在變革期,極速翻騰的環(huán)境意味著創(chuàng)業(yè)肯定要經(jīng)歷一番苦痛和掙扎。「從用戶不滿意到大體滿意,是一個革命性的變化」趙斌回應,「因為這種變化會對行業(yè)和用戶產生巨大的價值,所以很多苦很多路我們必須選擇接納和開拓」。
尋求「兩個世界」的對話
「在許多方面,RTC是網(wǎng)絡世界和電話世界之間的一種融合」。
「兩個世界」的對話中,在線直播是今年最火的形式之一。
獵豹全球智庫上個月通過2016年的調查提出,對于直播平臺來說,云計算公司的成本是非常大的支出,例如斗魚一年的寬帶費要花掉3億人民幣。所以這個行業(yè)出現(xiàn)的一個新趨勢是:云平臺直接入股直播平臺。在直播這輪潮流中,做云平臺支持和做后臺技術支持的可能都是這個行業(yè)最大的贏家之一。
不過,英雄遲暮,美人白頭。當在線直播仍在叫囂的同時,很多人開始預言它的衰微之勢,認為風口即將轉瞬即逝。如果慘烈的廝殺之后迎來大規(guī)模洗牌,平臺驟減是否會降低對技術上的需求?趙斌的回應是,「行業(yè)不論如何發(fā)展,技術都要聚焦在實施性,在改善上精進」。
不管風口來和去,技術一定是在有需求的領域提供服務。采訪中,趙斌提到最多的一句話是「整個實時通訊領域離成熟還有很遠,創(chuàng)新并沒有上限」。如果說,從秒級延遲到毫秒級實現(xiàn)的是第一個跨越,可能接下來從76毫秒縮短到更短的50、40毫秒,包括提升音質頻響、節(jié)點響應速度等,都將是聲網(wǎng)乃至RTC行業(yè)更大的挑戰(zhàn)。
尤其,當以阿里為代表的一批互聯(lián)網(wǎng)巨頭公司競相掘金直播SDK時,專業(yè)技術企業(yè)該靠怎么突圍?
面對行業(yè)大環(huán)境,聲網(wǎng)將切入點壓在了「全互動直播」上。
這個過程除了需要達到低延時、全球傳輸?shù)纫笸猓夹g上還要實現(xiàn)帶寬估計、馬力控制和自適應、硬件機型或編碼適配、抗丟包等一系列的步驟。光是簡單介紹一下這些點,CTO陶思明就可以津津樂道的講上近一個小時。涉及到更復雜的問題,或許聲網(wǎng)的技術演進路徑可以雕刻出整個直播時代的變遷。
如今,打開“陌陌”直播平臺,7人同時連麥的互動形式正改變著社交關系鏈的建立方式。相比四年前一家獨大的國內音視頻通信市場,其中變革的不止是泛社交的模式,還是背后起支撐作用的技術輸出。
四年前,趙斌參與 YY(歡聚時代)創(chuàng)立,作為當時的CTO,他已經(jīng)開始在與「實時應用」的設計思路進行“對戰(zhàn)”。時隔兩年,帶著技術人、創(chuàng)業(yè)人身份的再次啟程時,趙斌無疑需要面對更多來自心理層的挑戰(zhàn)。
因為現(xiàn)在的方向不再是沿襲傳統(tǒng)的直播,而是在攻占實時通信領域的同時,去探尋一種移動直播在形式、體驗、運營上的深度融入。
這既是他自己對未完成的目標的繼續(xù)追逐,又是對一個堆積無數(shù)目光的行業(yè)的顛覆。好似一個人和一波人的對話,如果把獨立的個、群體看作單獨的世界,每個世界都是靠聲音在溝通聯(lián)結,同時又都為了更優(yōu)質的聲音而集結,這才是聲網(wǎng)。
真理不掌握在任何人手里
趙斌在12月WISE2.0創(chuàng)業(yè)生態(tài)大會上談到過創(chuàng)業(yè)成功的兩大因素,一是創(chuàng)造新的價值,二是找到對的人。
關于「對的人」,從不存在唯一且完全準確的定義,但企業(yè)家的人才觀里都少不了一個「精」字。
曾有風投這么說過,「特別當你是第一次做CEO的時候,風險投資人會密切關注你是否建立了一支有高效執(zhí)行力團隊」。換句話說,風投者們想要看到的不是你光有一支幾百上千人的強壯隊伍,創(chuàng)造著逾1億美元的稅收,而是是否擁有才華橫溢又認同企業(yè)價值的精壯團隊。
2014年12月,聲網(wǎng)以17人的規(guī)模完成B輪2600萬美元融資,這在當時國內的融資環(huán)境下算比較罕見。不管是資本寒冬還是投資熱潮下,國內能融到B輪的企業(yè)動輒是一百人以上團隊。當然,有企業(yè)家說了,業(yè)務拓展自然需要擴招。這話確實沒錯,不過更多的是跟業(yè)務模式有關,有些企業(yè)只是暫時還不知道怎樣在「放大」和「縮小」間做平衡而已。
到今年12月,聲網(wǎng)大約是達到了50人左右規(guī)模,中、美兩國的團隊分管技術和核心運營。特殊的是,硅谷的隊伍中還有幾位多重身份者,例如,顧問Shie Qian同時也是《IEEE Signal Processing Magazine》的特邀編輯。這種梯隊搭建的方式和國內創(chuàng)業(yè)公司的普遍思路也有很大不同。
創(chuàng)立聲網(wǎng)時,趙斌曾帶著十幾人的初始團隊到硅谷去做原型、做拓展調研和頭腦風暴,親自拉攏、說服一批美國通訊行業(yè)的專業(yè)人員一起組建團隊。這些「跨文化運營」的思維,在一定程度上與他最初7年在WebEX(網(wǎng)訊) 的工作經(jīng)歷有關。
但「全球化運營」「分布式團隊」的成長過程也經(jīng)歷過很多次掙扎。
2014年,趙斌想要挖Edward Brakus。可剛開始,Edward并不了解聲網(wǎng)到底能做什么、又憑何說自己的技術很牛。即使電話那頭,趙斌給了一連串問題的解答,但對方依然不為所動。第二天早上,趙斌拿著白板和筆,在辦公室里純靠畫的方式,給Edward講自己打算「怎樣做實時通訊」的想法,講SD-RTN,講聲網(wǎng)實現(xiàn)的技術創(chuàng)新……幾輪的思維碰撞終于是打到了Edward內心深處。交談幾近尾聲時,Edward肯定的告訴趙斌,聲網(wǎng)的創(chuàng)新價值不只在技術領先上,更為觸動的是,這個團隊做著他和整個實時通信行業(yè)想做和應該做的事。
同樣的情節(jié),也發(fā)生在趙斌說服前蘋果核心視頻算法工程師加入團隊的故事里。
因此,成立初期,團隊內部還有過定位上的矛盾:究竟應該把聲網(wǎng)看作一家中國公司、中國人的公司還是美國公司?怎樣的地域分布對實現(xiàn)目標最有價值?不過,后來也通過實際調研發(fā)現(xiàn),其實無論放在全球哪個洲,基礎模塊的服務對技術所要求的特性都基本相同,更何況國內的市場還遠遠不夠成熟。于是索性,聲網(wǎng)就定下了規(guī)劃,國內團隊負責技術,國內外團隊分管本土運營。
但很有意思的是,作為技術創(chuàng)業(yè)人,該怎樣打造「和而不同」的團隊?在90%都是技術人員的氛圍中,該判斷誰手里掌握的才是真理?
雖然和而不同是所有團隊都要面對和解決的問題,但擺在許多工程師Leader面前卻成了燙手山芋。趙斌提到一個解決思路——「創(chuàng)業(yè)意識」。
多元化提倡發(fā)散性思維,也提倡豐富的創(chuàng)造力,但不意味著散漫的自由化。當每個人帶著為了創(chuàng)業(yè)而非找工作的戰(zhàn)斗力來加入團隊,「和而不同」就可以實現(xiàn)在多元化基礎上為了一個共同目標而合力前行。在團隊成長的過程中,沒有所謂誰掌握著絕對真理,而是誰運氣最好,很恰巧的站在了真理一方。
這是一種鼓勵機制,從技術人到創(chuàng)業(yè)人,趙斌也經(jīng)歷過商業(yè)意識上的認知成長。「創(chuàng)業(yè)意識」不需要每個人都把握行業(yè)規(guī)律和商業(yè)成敗,但一定需要知道如何有效的發(fā)展一項技術或一個企業(yè)。他說,「你如果蒙著眼睛就說自己做的最好,就有點自娛自樂, 要真正做好就得耳聰目明」。
所以,「好的企業(yè)是在做正確的事情,而不是做容易的事情」。所謂正確,就是離核心的競爭力和價值最近的地方。這個位置上,好的技術人和好的企業(yè)都是以創(chuàng)造價值為動力,而且是最大化的創(chuàng)造價值。