商湯發佈象棋機器人『元蘿蔔』;『南瓜書』西瓜書公式推導&解析;代碼自動美化插件;Tock建立對話機器人的AI平台;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第22天,點擊查看活動詳情

ShowMeAI日報系列全新升級!覆蓋AI人工智能 工具&框架 | 項目&代碼 | 博文&分享 | 數據&資源 | 研究&論文 等方向。點擊查看 歷史文章列表,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。點擊 專題合輯&電子月刊 快速瀏覽各專題全集。

📢 商湯重磅發佈『元蘿蔔SenseRobot』AI下棋機器人,郭晶晶擔任首席體驗官

http://robot.sensetime.com/

8月9日商湯科技召開新品發佈會,重磅推出其首個家庭消費級人工智能產品『元蘿蔔SenseRobot』AI下棋機器人包含AI學棋、殘局挑戰、棋力闖關、巔峯挑戰等多種模式,可以從『0基礎』為孩子介紹和講解象棋的文化、規則及每個棋子的使用技巧,在鍛鍊思維的同時,還能提升孩子的文化素養。此外,它還帶來100多個殘局設定和26個等級的棋力對戰,讓用户不僅可以體驗“執子下棋”的真實感受,還能開動腦力享受高水平對弈的樂趣。

工具&框架

🚧 『TweetNLP』面向Twitter的NLP工具包

http://github.com/cardiffnlp/tweetnlp

http://tweetnlp.org/

TweetNLP 是一款 python 自然語言處理工具庫,由最先進的語言模型對推文進行訓練得來,提供了一系列有用的工具來分析/理解推文,如情感分析、表情符號預測、命名實體識別、仇恨與工具語言識別等。網站提供了 Demo 可以進行嘗試!

🚧 『Spoor』編譯器指示的應用程序跟蹤,讓你深入瞭解你的應用程序的性能

http://github.com/microsoft/spoor

http://www.spoor.dev/

Spoor 是微軟提供的一款工具,能夠深入瞭解應用程序的性能,使我們能夠以納秒級的精度分析應用程序。它包含三部分工具鏈:編譯器儀器化以自動注入跟蹤事件、捕獲和緩衝事件、處理和可視化跟蹤。

🚧 『Tock』開放對話AI平台構建工具包

http://github.com/theopenconversationkit/tock

http://doc.tock.ai/en/

Tock是開放對話式人工智能平台,可用於建立對話機器人,具備一系列很好的特性:

  • 自然語言處理開源堆棧,與OpenNLP、斯坦福、Rasa等兼容
  • 構建故事和分析的Tock Studio用户界面;用於Kotlin、Nodejs、Python和REST API的對話DSL
  • 內置眾多文本/語音渠道的連接器(Messenger、WhatsApp、谷歌助手、Alexa、Twitter等)
  • 提供了與React和Flutter進行自定義Web/移動集成的工具包
  • 利用Docker在任何地方(雲端或內部)部署

🚧 『Jupyter Notebooks』代碼自動美化插件

jupyterlab_code_formatter 是一個 jupyter notebook 的美化插件,可以通過 conda install -c conda-forge jupyterlab_code_formatter black isort 命令安裝,它能對我們編寫的代碼段落進行自動美化排版,具體效果如下圖所示:

博文&分享

👍 『文本數據分析·高級可視化』Advanced Visualisations for Text Data Analysis

http://towardsdatascience.com/advanced-visualisations-for-text-data-analysis-fc8add8796e2

這篇博文對Python中的文本數據的幾個高級可視化方法進行講解,包括:

  • N-gram詞雲:顯示高階N-gram的頻率
  • 和絃圖:顯示幾個實體之間的聯繫和它們的強度
  • 氣泡圖:在視覺上顯示詞的頻率

👍 『南瓜書 PumpkinBook』免費書籍

http://datawhalechina.github.io/pumpkin-book/#/

下載:http://github.com/datawhalechina/pumpkin-book/releases

周志華老師的《機器學習》(西瓜書)是機器學習領域的經典入門教材之一,周老師為了使盡可能多的讀者通過西瓜書對機器學習有所瞭解, 所以在書中對部分公式的推導細節沒有詳述,但是這對那些想深究公式推導細節的讀者來説可能“不太友好”,本書旨在對西瓜書裏比較難理解的公式加以解析,以及對部分公式補充具體的推導細節。

數據&資源

🔥 『Computer Vision』微軟·計算機視覺最佳實踐、代碼示例和相關文檔

http://github.com/microsoft/computervision-recipes

這個 github 資源庫是微軟組織的計算機視覺系統構建示例和最佳實踐指南,主要針對圖像分類、物體檢測和圖像相似性等典型任務,大部分例子以Jupyter notebook和常見的實用函數的形式提供,並使用PyTorch作為底層深度學習庫。

Repo 示例基於目前最先進的庫構建,並圍繞加載圖像數據、建模優化和評估以及擴展到雲端建立額外的效用。此外,還包含微軟指出的經常觀察到的陷阱,以及在雲環境進行訓練和部署的方法。

研究&論文

公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.08 『姿態估計』3D Vision with Transformers: A Survey
  • 2022.05.10 『3D人臉建模』KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints
  • 2022.08.02 『單目視覺運動學』Deep Patch Visual Odometry
  • 2022.07.12 『計算機視覺』Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

⚡ 論文:3D Vision with Transformers: A Survey

論文時間:8 Aug 2022

領域任務:Pose Estimation,姿態估計

論文地址:http://arxiv.org/abs/2208.04309

代碼實現:http://github.com/lahoud/3d-vision-transformers

論文作者:Jean Lahoud, Jiale Cao, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Ming-Hsuan Yang

論文簡介:The success of the transformer architecture in natural language processing has recently triggered attention in the computer vision field./transformer架構在自然語言處理中的成功最近引發了計算機視覺領域的關注。

論文摘要:transformer架構在自然語言處理中的成功,最近在計算機視覺領域引發了關注。由於transformer具有學習長距離依賴關係的能力,它已被用作廣泛使用的卷積算子的替代品。這種替代被證明在許多任務中是成功的,在這些任務中,一些最先進的方法依靠transformer進行更好的學習。在計算機視覺中,三維領域也見證了越來越多的採用transformer的三維卷積神經網絡和多層感知器網絡。儘管許多調查都集中在視覺中的transformer上,但由於與二維視覺相比,三維視覺在數據表示和處理方面存在差異,因此需要特別關注。在這項工作中,我們對100多種用於不同三維視覺任務的transformer方法進行了系統和徹底的回顧,包括分類、分割、檢測、完成、姿態估計等。我們討論了三維視覺中的transformer設計,這使得它可以處理具有各種三維表示的數據。對於每個應用,我們強調了所提出的基於transformer的方法的關鍵屬性和貢獻。為了評估這些方法的競爭力,我們在12個三維基準上將它們的性能與普通的非變壓器方法進行比較。在調查的最後,我們討論了三維視覺中transformer的不同開放方向和挑戰。除了所提交的論文外,我們的目標是經常更新最新的相關論文及其相應的實施方案,對應的網址是:http://github.com/lahoud/3d-vision-transformers

⚡ 論文:KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

論文時間:10 May 2022

領域任務:3D FACE MODELING, 3D Face Reconstruction,3D人臉建模3D人臉重建

論文地址:http://arxiv.org/abs/2205.04992

代碼實現:http://github.com/facebookresearch/KeypointNeRF

論文作者:Marko Mihajlovic, Aayush Bansal, Michael Zollhoefer, Siyu Tang, Shunsuke Saito

論文簡介:In this work, we investigate common issues with existing spatial encodings and propose a simple yet highly effective approach to modeling high-fidelity volumetric humans from sparse views./在這項工作中,我們研究了現有空間編碼的常見問題,並提出了一種簡單而高效的方法,以從稀疏視圖中建立高保真的體積人類模型。

論文摘要:基於圖像的體積化人類使用像素對齊的特徵,有望泛化到未見過的姿勢和身份。先前的工作利用全局空間編碼和多視圖幾何一致性來減少空間模糊性。然而,全局編碼經常遭受對訓練數據分佈的過度擬合,而且很難從稀疏視圖中學習多視圖一致性重建。在這項工作中,我們研究了現有空間編碼的常見問題,並提出了一種簡單而高效的方法,以從稀疏視圖中建立高保真體積的人類模型。其中一個關鍵的想法是通過稀疏的三維關鍵點來編碼相對空間三維信息。這種方法對視點的稀疏性和跨數據集領域的差距具有魯棒性。我們的方法在頭部重建方面優於最先進的方法。在對未見過的受試者進行人體重建時,我們也取得了與之前使用參數化人體模型和時間特徵聚合的工作相當的性能。我們的實驗表明,先前工作中的大部分錯誤源於對空間編碼的不恰當選擇,因此我們為基於圖像的高保真人體建模提出了一個新方向 http://markomih.github.io/KeypointNeRF

⚡ 論文:Deep Patch Visual Odometry

論文時間:8 Aug 2022

領域任務:Monocular Visual Odometry,單目視覺運動學

論文地址:http://arxiv.org/abs/2208.04726

代碼實現:http://github.com/princeton-vl/dpvo

論文作者:Zachary Teed, Lahav Lipson, Jia Deng

論文簡介:We propose Deep Patch Visual Odometry (DPVO), a new deep learning system for monocular Visual Odometry (VO)./我們提出了Deep Patch Visual Odometry (DPVO),這是一個新的深度學習系統,用於單目視覺測繪(VO)。

論文摘要: 我們提出了Deep Patch Visual Odometry(DPVO),一個新的深度學習系統,用於單眼視覺測量(VO)。DPVO是準確和穩健的,同時在單個RTX-3090 GPU上以2-5倍的實時速度運行,只使用4GB的內存。我們在標準基準上進行了評估,在準確性和速度上都超過了所有先前的工作(經典或新方法)。代碼可在 http://github.com/princeton-vl/DPVO 獲取。

⚡ 論文:Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

論文時間:12 Jul 2022

領域任務計算機視覺

論文地址:http://arxiv.org/abs/2207.05501

代碼實現:http://github.com/bytedance/next-vit,http://github.com/wilile26811249/Next-ViT

論文作者:Jiashi Li, Xin Xia, Wei Li, Huixia Li, Xing Wang, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan

論文簡介:Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks./然後,下一個混合策略(NHS)被設計為在一個高效的混合範式中堆疊NCB和NTB,從而提升了各種下游任務的性能。

論文摘要:由於複雜的注意力機制和模型設計,大多數現有的視覺transformer(ViTs)在現實的工業部署場景中不能像卷積神經網絡(CNNs)那樣有效地執行,例如TensorRT和CoreML。這就提出了一個明顯的挑戰。能否設計一個視覺神經網絡,使其推斷速度與CNN一樣快,性能與ViTs一樣強大?最近的工作試圖設計CNN-Transformer混合架構來解決這個問題,然而這些工作的整體性能遠遠不能令人滿意。為了解決這些問題,我們提出了下一代視覺transformer,即Next-ViT,用於在現實的工業場景中有效部署,從延遲/準確度權衡的角度來看,它在CNN和ViT中都佔優勢。在這項工作中,Next Convolution Block(NCB)和Next Transformer Block(NTB)分別被開發出來,以方便部署的機制捕捉局部和全局信息。然後,設計了Next Hybrid Strategy(NHS),將NCB和NTB堆疊在一個高效的混合範式中,從而提高了各種下游任務的性能。大量的實驗表明,Next-ViT在各種視覺任務中的延遲/精度權衡方面明顯優於現有的CNN、ViT和CNN-Transformer混合架構。在TensorRT上,Next-ViT在COCO檢測上超過ResNet 5.5 mAP(從40.4到45.9),在ADE20K分割上超過7.7% mIoU(從38.8%到46.5%)。同時,它取得了與CSWin相當的性能,而推理速度則加快了3.6倍。在CoreML上,Next-ViT在COCO檢測上超過EfficientFormer 4.6 mAP(從42.6到47.2),在ADE20K分割上超過3.5% mIoU(從45.1%到48.6%)。我們的代碼和模型在以下網站公開:http://github.com/bytedance/Next-ViT

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點擊查看 歷史文章列表,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。點擊 專題合輯&電子月刊 快速瀏覽各專題全集。

「其他文章」