在百度搞發明的人

語言: CN / TW / HK

10年花了1000億,在百度究竟能搞啥發明?

雷剛 發自 副駕寺量子位 | 公眾號 QbitAI

“如果不在百度,可能就不是我了。”

百度十大科技前沿發明 頒出這一天,入圍者這樣說。

一個人這樣說多半是謙虛,但他們中的一半人都這樣說——而且還是量子位現場問到的所有人,或許就在反映著什麼。

但仍然有諸多相關的謎團待解。

一個產業化公司搞啥發明?有什麼用?如何開始的?又會往哪裡去?以及最重要的:這些發明含金量幾何?

百度十大科技前沿發明

百度可能是中國最重視技術創新和專利保護的公司。

特別是進入AI技術創新週期後,每年的AI專利進展都會成為關注的物件。但今年有所不同,這次在專利積累之上,推出的百度十大科技前沿發明更成為關注的焦點。

這十大發明,基本都是 數字技術、智慧技術 上的突破和積累。

AI生成和創造 相關的如:跨模態通用可控AIGC、知識增強大模型、數字人智慧化生產。

“AI司機”自動駕駛 相關的如:無人車感測器融合處理系統、面向自動駕駛的車路協同關鍵技術、自動駕駛多模態行人運動預測。

還有深度學習通用異構引數伺服器架構、基於AI的生物計算平臺PaddleHelix、智慧城市全要素雙匯流排技術,以及全平臺量子軟硬一體,也基本是 AI驅動的時代級技術革新

整體來看,都是目前全球技術創新競速中的最前沿陣地。具體到所處的賽道,百度的發明專案進展不僅展現著原創性,也展現出領先性。

比如AIGC,國外有微軟加持的OpenAI出品的GPT、DALLE,谷歌的Imagen,都是文和圖生成方面的各自代表性工作。

但百度的 通用可控AIGC ,實現了能力上的集大成和效果上的可控。百度的AIGC不僅在全球首次實現了語言和視覺大一統的理解與生成,而且單一模型一經出爐就登頂了視覺和語言榜,橫掃VQA、VCR、aNLI三大國際權威榜單。

又比如 量子計算 方面,在硬體打造和量子優越性爭奪之外,百度還新增開闢出了產業化加速路線,通過基於 “乾始” 研發的全球首個全平臺量子軟硬一體化解決方案 “量羲” ,提供私有化部署、雲服務、硬體接入等一系列服務,簡化量子硬體部署到量子服務的全流程,實現不同量子晶片的“即插即用”。

還有 自動駕駛 ,在百度TOP發明中十中有三,不僅秀的是該領域上的技術實力,而且也已經通過落地,在訂單數、里程數和落地城市數量上實現技術驅動下的全球領先——目前全球最大的自動駕駛出行平臺,是百度旗下的 蘿蔔快跑

與發明形成呼應和反差的,是背後的發明者。

或許你對百度在技術上的影響力和吸引力並不陌生,也多少聽過百度內部以技術聲名在外的專家、大牛和大神。但在這次十大科技前沿發明和專利發明人中, 不少人低調十足,基本沒有過對外亮相

他們有各自具體性的一面,有人應屆畢業就來了,有人在其他同樣以技術標籤知名的公司待過,還有人之前履歷都在學術界。

然而共性一面是工齡司齡都不短,基本對外處於隱身無聞狀態,並且被問到發明背後的關鍵時表述不同但指向一致:

如果不在百度,幾乎不會成為這項技術的發明人。

“不在百度成不了發明人”

上述異口同聲的共同歸因,需要結合發明的源起才能更好理解。

比如跨模態通用可控AIGC、知識增強大模型、數字人智慧化生產,都可以理解為 在百度過往技術和業務基礎上生長出的新能力

跨模態通用可控AIGC的發明人之一嚴蕭,中科院計算所博士,正高階工程師,畢業不久就加入了百度,迅速成長為百度主任架構師,並且在業內公認的百度NLP沃土上斬獲50多項授權發明專利,相關成果被廣泛用於搜尋、推薦、輸入法和雲服務等業務場景中。

嚴蕭說,近一年以來,AIGC確實成了風口,大小玩家也都進入了賽道, 但AIGC底層的統一模型,百度早就在預研和攻堅了 。在GPT-3和DALL·E打響名氣之時,百度內部已經在緊鑼密鼓的推進包含文章、圖片都在內的 語言視覺大一統模型 ,並且完成了第一代版本釋出。

“你可以藉助開源很快做出點什麼,但做不到隨心所欲,我們希望它能像人一樣想生成什麼風格就生成那個風格”,嚴蕭回憶,百度團隊從一開始就鉚足勁 “北坡登珠峰” ,在AIGC方向上實現通用且可控,因為這樣才能在效果上 實現工業化落地應用

整個AIGC的立項很快,一方面是百度在這個方向上 有積累也有人才 ,NLP和搜尋等技術都具備領先性,把需要的人才橫向抽調出來,就搭建好了班底架構;

另一方面,百度還具備技術落地的 業務場景 ,AIGC相關的模型,從撰寫資訊、文章到生成圖片,都能在百家號、搜尋、輸入法和雲業務中落地、迭代、再訓練、再迭代,日臻進化。

所以在 時勢和英雄 的命題上,嚴蕭很堅定:如果他不在百度,幾乎不會成為如此領先技術的一個發明人。

費揚昭也表達了相同的觀點。他是數字人智慧化生產的發明者之一,入職百度3年多,之前在其他科技公司從事計算機視覺技術方面的工作。

他認為 數字人是一個必然發生的技術趨勢 ,但如果不身處百度,很難完成智慧化、規模化生產和應用。

費揚昭剛入職,就加入了百度與某重點客戶的數字人打造專案中,那也是業內最早的商用數字人產品,據說 造價成本高達百萬元 。這種製作門檻,一方面是因為技術難,另一方面是因為數字人CG資產製作和訓練資料採集上的費時費力費資本。

但在百度,語音和NLP(自然語言處理)方面的技術積累,早在小度等產品就展現過,從技術到資料都具備基礎,核心攻堅集中於自動化、批量化打造和應用上。

費揚昭透露,現在數字人的生產“智造”,到了“尋常百姓家”前夜,而且百度的數字人不僅通過商用實現了商業價值,更通過手語數字人等落地,推動了社會價值。

“百度在這方面不僅有基礎,還有技術實現能力和決心,管理層也非常支援這種投入,在其他地方不敢想的…”

不過,這種基於固有業務生長出的發明,只是小比例的一部分。 解釋不了百度在自動駕駛、量子計算等賽道上的投入原因。

所以楊吉林給出了他的歸因: 技術信仰

百度創始人李彥巨集在最重要的場合,都會談到百度對於技術的信仰。比如回港股二次上市,表達的是 即便只有1塊錢也會堅定投技術 。比如在疫情之下的財報季,內部全員信中傳遞的都是 再難不會難研發

而在楊吉林那裡,這種“技術信仰”是 7年時間壘起的實踐總結 。他是清華汽車方向的博士,在校期間就圍繞L2級智慧駕駛展開研究,並在2015年底百度首次將無人車駛上五環後,深受震撼,加入成為百度自動駕駛團隊一員,是十大發明中自動駕駛多模態行人運動預測的發明者。

楊吉林說,即便是2016年百度開始建立事業部推進自動駕駛時,L4級自動駕駛仍是一項 短期看不到利潤的業務 ,而且 全球入局者寥寥,當時中國更是僅此一家 ,可以說是孤軍作戰。但即便如此,百度在自動駕駛投入上沒有過猶疑,可以 孤軍投入、長期投入,還堅信可以第一個到達

“這背後沒有技術信仰,根本做不到。”

辛望也表達了同樣的觀點。他是悉尼科技大學量子計算博士,畢業後在美國馬里蘭大學從事量子計算理論的研究,2018年受到導師 段潤堯——百度量子計算研究所所長 感召回國,是十大發明中“全平臺量子軟硬一體”的核心研發成員。

辛望對這個話題提供了另一種維度——通常科技公司、商業公司, 重要的表彰往往會頒向那些跟錢更近的專案 ,比如給公司賺了幾個億,或者給公司省了幾個億…

量子計算 作為一個具有產業革命潛力的科技專案,還屬於前沿,前期投入就需要巨大且持續,然而百度投入很堅決,百度在2021年工信部發布的量子計算高價值專利及創新驅動力排名中,取得了全球第三、國內第一的認可。

辛望認為,量子計算方面的投入,並沒有對短期利益過多追求,而是以更加長遠的戰略視角進行技術佈局,努力在量子科技關鍵領域去實現技術積累與突破,而且他自己歸國後的感受來看,這樣前瞻性的技術佈局是百度不同於一般科技公司、商業公司的 顯著特色 ,也將為百度積蓄起支撐未來發展的強大勢能。

當然,也有發明者笑稱:如果不在百度,沒有百度這樣的 專利保障體系 ,可能也不會成為發明者。

雖然有幽默的成分,但表達的依然是事實:百度確實是國內最重視創新和專利的公司,甚至沒有之一。

畢竟 百度的成立源起,就是發明專利的成果轉換 。工程師李彥巨集的 “超鏈分析技術” ,讓高效準確的中文資訊檢索成為了可能,從一項發明開闢了一箇中文搜尋時代。

到了新一輪技術創新週期中,百度也是人工智慧發明專利最知名的公司。 深度學習 專利申請量到2021年已是 全球第一自動駕駛 專利族數量也排名 全球第一 ,人工智慧全球專利申請量2.2萬件,中國超1.6萬件,中國授權專利4600多件,榮獲AI互動領域的唯一中國專利金獎,成為AI領域獲得 中國專利獎項最多、級別最高的科技企業

百度也是國內最早建制專利事務部的公司之一, 2011年 就成立了專門團隊,將技術創新轉化形成發明專利,培育創新的文化。

所以這次的十大發明成果,也是一次 完善的發明體系 的展現,從臺前具體的技術創新、突破,到幕後的協同後勤團隊及組織文化,相輔相成,缺一不可。

“少有人來百度前就是大神”

在百度搞發明是種怎樣的體驗?

十大發明的獲獎者回答不一,但都提到了相似的關鍵詞:

自由度高,工程師氛圍,不用說服,可以一直幹下去。

碩士畢業於北大計算機系的黃爍華,2015年校招中加入百度, 兩次榮獲百度最高獎 ,這次十大發明榮譽中也有他參與的知識增強大模型。

知識增強大模型是百度在預訓練模型上的創新突破。在業內圍繞“大力出奇跡”方向,堆砌訓練資料、堆疊引數的時候,百度依託在NLP和知識計算方面的積累,利用知識增強的方法,實現了從規模知識和海量無結構資料中融合學習,學習效率更高、效果更好,具有良好的可解釋性。

知識增強大模型初代目大魔王是2019年3月中國率先開源的預訓練模型文心ERNIE 1.0,目前則已經升級成了產業級知識增強大模型家族,涵蓋了自然語言處理(NLP)大模型、計算機視覺(CV)大模型以及跨模態大模型,在產業落地中輸出生產力,成為大模型產業化落地和應用的頭號玩家。

據黃爍華回憶,大概在2018、2019的時間點,百度內部的模型也展現出海量資料訓練後的提效表現,展現出一種嶄新的技術正規化,但基本還停留在專用模型解決任務的範疇,於是思考用更通用的模型解決通用問題。

“都懂技術,不用怎麼說服”,很快這個新想法就得到立項、批研發預算,並且可以 “佔領一間會議室” 做封閉開發。

在百度,即便有著數量眾多的會議室,但依然在更大的需求面前顯得僧多粥少,搶到、成功預訂會議室都是專案推進的重要組成。

而大模型研發團隊,在立項通過後就獲得了一間容納20、30人的會議室,多少能說明些什麼。

黃爍華說,對大模型跑起來那天的場景記憶猶新,雖然會議室裡都是不善言談的工程師,但激動和興奮洋溢在每個人臉上。而再過一些時間,他們才知道自己成為了該領域的中文開創者,從技術創新到應用效果,都將帶來巨大改變。

“如果不在百度,不一定有這樣的機會和空間”,黃爍華在加入百度前,有過外資科技巨頭和國內創新公司的實習,但那種技術相關的工作激情,他說百度的最強烈。

現在回看大模型,似乎順理成章所有巨頭都有入局。但黃爍華認為,在當時那個時間點,這樣的創新不僅需要 技術視野、技術自信 ,還需要 敢投入的勇氣 ,畢竟在AI領域,更多的資料、更大引數,就意味著更多的顯示卡和計算資源在燃燒, 如果失敗,就是一次完全打水漂的嘗試

但在整個過程中,沒有因為投入而擔心過。

如果大環境持續不行,你會擔憂百度節流技術研發嗎?

在現場,這個問題同樣被問到了所有發明者,但給出的答案仍然一致:

不擔憂。

通用可控AIGC的發明者之一嚴蕭,來百度快10年了,他說百度做的很多技術投入和創新,都有 業務場景驅動落地,不是為了創新而創新 ,不會因為大環境冷與熱而改變。

同樣快10年司齡的楊吉林,則認為可以 聽其言觀其行 ,可以 用已經發生的事實去推測未來

而事實是,百度過去十年來對技術研發的持續 投入只增不減 ,從比例上來看,2021年 研發投入佔比收入 ,甚至超過了 23% ,這種平均 賺100塊就有20塊投入技術研發 的案例,在中國罕見,在全球也不多。

楊吉林再次用自動駕駛舉例,即便知道自動駕駛有光明的未來,但在沒人能給出清晰路徑的時候就敢投入、持續投入,沒有任何一家其他中國公司敢於這樣做。

在中國科技網際網路的發展史上,更保險穩妥的辦法是 “後發制人” ,看清楚第一個吃螃蟹的人怎麼吃,然後快速依靠人才密集度、勤奮度和市場運營能力跟上,實現後發先至的超車。

但在自動駕駛領域不存在這樣的條件,楊吉林承認,谷歌Waymo確實出發更早,但大家也都知道大概方向,細節都是各自摸索的, 跟登月、造原子彈差不多 ——他還強調,現在百度Robotaxi落地比谷歌Waymo更快,沒有背後的細節技術上的領先,做不到。

有意思的是,百度在自動駕駛與人工智慧領域的持續投入,也成為了量子計算博士辛望回國加盟的影響因子之一。

他在馬里蘭大學做的是量子計算理論的研究,當時的量子計算髮展距離產業化爆發還有相對明顯的距離,但在百度量子計算研究所去推動量子計算機的研製,有望成為帶動量子計算產業化的先行者時,他心動了。

“一家在自動駕駛、人工智慧等前沿科技投入那麼多年的公司,一家在創新投入和研發佈局均走在國際前列的公司,是有明顯技術堅持和技術自信在基因裡的,相信至少會是一傢俱有戰略眼光的長跑型公司。”

後來加入後,辛望說他想的沒錯,這樣 以技術創新為信仰的基因 ,從 創始人、管理團隊 那裡就寫下了。

在AIGC之前,嚴蕭的技術研發和應用涉及過很多業務,比如資訊流、輸入法,讓他印象深刻的是 幾次來自廠長(李彥巨集)的反饋,看得非常技術也非常細節

費揚昭因為參與數字人專案,也接觸了不少百度的其他團隊和工程師,他覺得跟之前履歷相比,百度的 管理者都是技術出身 ,溝通起來很簡單。

在交流中,這些發明者也在表達, 百度上上下下的這種技術性,也是他們認為可以在這裡一直做下去的核心原因 ,既可以年輕力壯時衝在一線,也可以在技術視野的磨礪中,站到後方提供彈藥和把關。

至少目前為止,很多大神——外面知道的不知道的,就是這樣的,他們就站在那裡,讓你知道可以一直做技術。這些大神名字裡,被提到最多的是 王海峰吳華陳競凱

但百度不也有“黃埔軍校”的名聲嗎?意味著人來人往裡的聚散流失。

2016年 以來始終身處百度自動駕駛的楊吉林,對此給出自己的回答:

很少有人來前就是大神,是在百度成了大神,這個土壤養成了大神。

“被迫有了一種民族緊迫感”

所以百度為啥還要證明技術性?

在現場, 針對這些發明的價值和意義 的提問,讓工程師們驚詫。

黃爍華認為,現在這些發明落地很多成了賽道風口,大模型、AIGC、自動駕駛…… 但這些發明百度沒有一項是在風口時出發的 ,都是出於技術判斷和信仰提前出發,苦功突破,最終實現引領。 別人或許等風來,百度卻是造風口。

他還舉出新例子,量子計算和生物計算,距離風口都還有時間吧?但百度又已經提前出發了, “百圖生科像不像5年前的自動駕駛?”

楊吉林則補充,從無到有做成無人駕駛是難如登月的,但如果未來一定會實現,Robotaxi註定成為所有人出行的普遍選擇,那相信百度會是第一個到達這個目的地的公司。

即便大環境下行,財報和業績傳遞出的壓力感知得到,但讓楊吉林更加堅定信心的是投入的一直持續,他說他們的部門 一直在擴張 。從人到公司的底色上,就是寫滿了技術,圍繞著技術,這種東西已經深入骨髓,幹事情很爽。

“如果還覺得百度不夠技術,我會邀請他乘坐我們的無人車,無人車夠技術含量了吧?”

有意思的是,百度的量子計算硬體實驗室,也選在跟無人車運營相近的地方——北京亦莊。

所以辛望說他在工作間隙,也直接感受了一次無人車,情緒很特別,有興奮,有驚喜,也有自豪。

這種特別的情緒,在他回國完全投身量子計算後,有了更明確的表達。

現在國際上對於關鍵資訊科技的逐步封閉,使得他們這樣的核心研發人員無形中多了一種 民族緊迫感 ,更加深刻意識到在關鍵領域實現自主可控的重要性與使命感。

所以現在研發中積累專利的意義是什麼?

辛望覺得意義在於從頭就有了技術和專利,可以從實際產品、智慧財產權等多個角度避免了未來被卡脖子。

實際上,這也是近幾年來談論技術創新時再也無法繞開的挑戰。太平洋風雲變幻,每一次東海岸傳來的新訊息,今天這個不能用了,明天那個也收緊了。

但也是這種大背景下,百度在中國科技公司中的某種“獨家性”反而被不斷凸顯,因為在以AI為核心的這波技術創新週期中,百度的技術、研發和佈局,不僅夠基礎源頭,還全棧全鏈,最重要的是具備競爭力和領先性。

所以有一種說法,也是在這種大背景下提出的,說在AI領域,以及百度技術創新和發明已經展現成果的領域,中國其實都多了一種選擇、擁有了一項珍貴的自由: 免於斷供恐懼的自由。

這或許不是百度搞發明和技術佈局時的全部出發點,但也確實成了不爭的事實和結局。

(受訪者意願,文中受訪工程師用了化名。)

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

「其他文章」