Facebook的AI識菜譜，把皮卡丘認成了煎蛋……|技術前沿洞察

時間 2019-12-06 標籤 facebook ai 識菜譜皮卡丘認成了煎蛋技術前沿洞察

硅谷Live / 實地探訪 / 熱點探祕 / 深度探討css

你們好，一週技術前沿洞察又來啦！很多小夥伴說很喜歡這個欄目，小探們在找的時候也以爲，不只有趣，並且實實在在地促進科技進步。算法

這周有啥技術進展呢：從 6G 到海水淡化，從仿真 AI 視頻到打通機器人的視覺和觸覺，一塊兒來看！數據庫

大公司

諾基亞，愛立信和韓國SK Telecom合做開展6G研究編程

5G 剛剛開始落地，有關 6G 的信息就已經曝光。近日，韓媒稱韓國 SK 電信公司已經與兩家歐洲電信設備製造商達成協議，將聯手提高商用 5G 網絡性能，並開發 6G 相關技術。安全

SK 公司在本月 12 日和 13 日分別與芬蘭諾基亞公司和瑞典愛立信公司簽署了諒解備忘錄。根據協議，雙方將共同開發6G核心技術，以便在下一代移動通訊技術領域搶佔先機並探索新的商業模式。網絡

除了 6G，這些合做夥伴還將研究改進「超可靠、低延遲」的 5G 網絡，以及分佈式多輸入多輸出（MIMO），人工智能（AI），28GHz頻段和5G獨立（SA）組網在商業網絡中的應用。app

（圖自telecomstechnews）
框架

感興趣的能夠點擊原文查看：分佈式

https://www.telecomstechnews.com/news/2019/jun/17/nokia-ericsson-sktelecom-6g-research/ide

Facebook: AI 能看圖識菜譜了！

近日，Facebook AI 開源了一個 AI 系統，能夠經過分析食物圖片，判斷須要用到的食材和製做過程，最後生成一份菜譜。

（由餅乾圖片生成的菜譜，圖片來源 Facebook AI）

對於 AI 來講，從圖片中推導出菜譜主要須要兩方面的知識：一方面是搞清楚圖片中是什麼食物；另外一方面則是推斷出食材和配料的加工過程。傳統方法傾向於將這一過程簡化爲匹配，系統首先判斷出圖片中是什麼食物，再去已有數據庫中搜索和匹配相應的菜譜。若是沒有準確的對應菜譜，就會匹配一個最類似的。這樣的方法依賴大量的菜譜數據，並且缺少靈活性和多樣性。

Facebook 研究人員採用了一種新的思路，把從圖片到菜譜的過程視爲一個條件生成系統。給定一張食物圖片，AI 系統會先判斷它包含哪些食材和配料，進而以圖片、食材和配料表爲條件，推導出它們的加工方式，最後根據加工方式的可能性從高到低排列，造成不少份菜譜。

不過有意思的是，這個 AI 系統能夠接受和分析任何圖片。好比上傳個月亮圖片，被識別成「家常煎餅」，上傳個 iPhone，被當成「家常冰凝膠」，至於皮卡丘，則被當成了「煎蛋」。。。

因此問題來了，如何把皮卡丘能煎得好吃呢……

感興趣的能夠點擊原文查看：

https://ai.facebook.com/blog/inverse-cooking/

Facebook發佈軟件框架，使編程機器人變得更容易

如何讓機器人可以像人同樣精準的擺動胳膊，是一項難題，這也是很多公司在尋找更好的編程機器人的一個方向。近日，Facebook 與卡耐基梅隆大學合做，推出了一種新的機器人開源框架，稱爲 PyRobot。

PyRobot 旨在幫助研究人員和測試人員在幾個小時內就能上手使用機器人。若是說傳統的機器人編程就像是在使用 DOS 操做系統，那麼 PyRobot 就像是在使用 macOS 同樣簡單流暢。

（經過PyRobot編碼LoCoBot，讓機器人能夠準確擺動手臂，動圖來自Wired.com）

PyRobot自己並非一個底層操做系統，而是機器人操做系統（簡稱ROS）的上層，與亞馬遜的 RoboMaker 相似，能夠幫助開發者更好的編程機器人。

更多技術細節能夠訪問：

https://ai.facebook.com/blog/open-sourcing-pyrobot-to-accelerate-ai-robotics-research/

美國高校

機器人的視覺和觸覺感官，可以互通了！

對於人類來講，觸覺幫助咱們感覺物理世界，而視覺幫助咱們看到物理世界的樣子。可是，對於機器人來講，當前視覺和觸覺仍是分離的。它們的視覺感知和觸覺感知還不相通。

爲了彌合這種差距，來自麻省理工學院計算機科學與人工智能實驗室（CSAIL）的研究人員研發了一種技術，使機器人能夠經過觸覺信號推測出物體的樣子；一樣的，經過視覺信號，推測出物體的觸感。

該團隊使用攝像頭記錄了近 200 件物品，如工具，家用產品，織物等，並讓機器人觸摸這些物體超過 12,000 次。隨後，他們將這 12,000 個視頻片斷分解爲靜態幀，編製成爲包含 300 多萬個視覺/觸覺配對圖像的數據集「VisGel」。

基於這個數據集訓練後，機器人能夠基於視覺輸入，推測出逼真的觸覺信息；或者，經過觸覺信息的輸入，推測出是什麼物體被碰觸了，以及是哪一個部位被碰觸了。該研究團隊使用的機器人手臂名叫 KUKA，觸覺傳感器名爲 GelSight，是由麻省理工學院的另外一個小組設計。

視覺和觸覺這兩種感官的結合，能夠加強機器人的能力，並減小其在涉及操縱和抓取物體的訓練任務時可能須要的數據。

感興趣的能夠點擊原文查看：

https://www.csail.mit.edu/news/teaching-artificial-intelligence-connect-senses-vision-and-touch

萊斯大學將太陽能海水淡化系統的產量提升了50％

萊斯大學納米光子學實驗室（LANP）的研究人員表示，他們能夠經過添加廉價的塑料鏡片將太陽光濃縮到「hot spots」上，從而將太陽能海水淡化系統的效率提升了 50％以上。

（注：hot spots 是指將必定量的光能能擠壓到一個很小很小的體積的一種狀態）

該項研究的主要研究員表示：提升太陽能驅動系統性能的典型方法是增長太陽能聚光器並帶來更多光線。而他們的方法有個最大的優點是使用相同數量的光，而後能夠廉價地從新分配這種能量，從而大大提升淨化水的產量。

感興趣的能夠點擊原文查看：

http://news.rice.edu/2019/06/17/hot-spots-increase-efficiency-of-solar-desalination/

「Deep Fakes」的剋星：伯克利、南加大聯手開發識別僞造視頻的方法

目前，愈來愈多的研究人員在努力尋找準確識別 Deep Fakes 的假視頻的方法。而來自加州大學伯克利分校和南加州大學的研究人員在這場競賽中暫時走在了前面。

他們開發了一種方法，在大規模深度僞造數據集上進行評估，準確度達96％。這種方法適用於各種視頻僞造技術，包括 Deep Fakes，人臉交換和 face2face 等。研究論文中表示，他們的檢測方法的先進程度領先於內容僞造者的技術更迭能力。

研究人員使用了兩個步驟：首先，他們輸入了數百個通過驗證的我的視頻示例，把每一個視頻放在一塊兒；而後，他們使用稱爲卷積神經網絡的深度學習算法，肯定了人臉的特徵和模式，特別注意眼睛如何閉合或嘴巴如何移動。檢測中，他們將新輸入的視頻與以前模型的參數進行比較，以肯定一段內容是否超出常規，從而判斷視頻是不是僞造的。

因此，視頻造價能被杜絕了嗎？

更多研究詳情，歡迎訪問兩所大學的官方博客：

https://viterbischool.usc.edu/news/2019/06/deep-fakes-researchers-develop-forensic-techniques-to-identify-tampered-videos/

https://news.berkeley.edu/2019/06/18/researchers-use-facial-quirks-to-unmask-deepfakes/

斯坦福大學跟英特爾合做：利用聲波「看見」牆後物體

試想，當你站在牆前，想看到拐角處視線範圍以外的事物，除了伸長脖子或者走過去，還有別的方法嗎？

傳統的非視距成像技術利用角落或障礙物周圍牆壁反射的光波，重建出圖像。但這種光學方法中用到的硬件很是昂貴，且對距離的要求較高。那麼，若是不使用光波，轉而使用聲波呢？

來自斯坦福大學與英特爾實驗室的研究人員構建了一個硬件原型：一個裝有現成麥克風和小型汽車揚聲器的垂直杆。

在實際操做中，揚聲器會發出一串啾啾聲，聲音以必定角度彈到附近的牆壁上，而後撞到另外一面牆上的一張字母 H 形狀的海報板，最後聲音以一樣的方式反彈回麥克風。接下來，研究人員使用地震成像的算法，對字母 H 的外觀進行粗糙重建。

結果顯示，聲學方法可以重建出兩個字母的圖像，且時間比光學方法高出 2 倍。這項技術距離應用還須要數年的時間，但做者表示，該技術的超聲波版本最終可能會應用於自動駕駛汽車上，用來探測看不見的障礙物。

感興趣的能夠點擊原文查看：

https://www.sciencemag.org/news/2019/06/scientists-use-sound-see-around-corners

海外高校

用散射光來重建物體形狀：計算機視覺技術的又一步

（圖自：www.cs.cmu.edu）

咱們肉眼看到的大部份內容，都來自從物體直接反射到眼睛的光線；鏡頭對物體形狀的捕捉也是如此。利用計算機視覺技術來重建物體的形狀，以往也都是基於直接反射的光線。

微弱的散射光雖然可能會到達眼睛或鏡頭，但會被更直接，更強大的光源沖刷掉。而 NLOS 技術的研究者們則在試圖從散射光中提取信息，並生成場景、物體，特別是物體中不被直接看到的部分。

而卡內基梅隆大學的研究人員近日研發出能夠用特殊光源和傳感器來經過非直射光重建物體的形狀的技術。

卡內基梅隆大學，多倫多大學和倫敦大學學院的研究人員表示，這種技術使他們可以很是細緻的重建圖像。做爲實驗，他們重建了喬治·華盛頓在一枚硬幣上的輪廓。

卡內基梅隆機器人研究所助理教授 Ioannis Gkioulekas 說，這是研究人員首次可以經過散射光計算出毫米級和微米級彎曲物體的形狀。雖然到目前爲止，科學家們還只能在相對較小的區域內實現這種細緻程度，但這爲計算機視覺科學家們正在研究的更大規模的 NLOS 技術提供了重要的新組件。

感興趣的能夠點擊原文查看：

https://www.cs.cmu.edu/news/researchers-see-around-corners-detect-object-shapes

倫敦帝國理工&三星：一張圖、一段音頻合成仿真 AI 視頻

最近，來自三星人工智能研究中心和倫敦帝國理工學院的研究人員提出一種新型端到端系統，僅憑一張照片和一段音頻，就能夠生成新的講話或唱歌視頻，並且視頻主角不僅是動嘴，整個面部表情都會有比較天然的變化。例如，經過將愛因斯坦演講的真實音頻片斷和他的一張照片相結合，研究人員能夠快速建立一個史無前例的演講視頻。

這個研究的「前身」是三星莫斯科 AI 中心和 Skolkovo 科學技術研究所的一項研究。在那項研究中，研究人員利用一張圖像就合成了人物頭像的動圖，並且頭像中的人物能夠「說話」（只動嘴不發聲），蒙娜麗莎、夢露等名人畫像、照片均可以用來做爲原料。

此次的新研究出如今了計算機視覺頂會 CVPR 2019 上。該方法生成的視頻具有兩大特色：1. 視頻中人物嘴脣動做和音頻徹底同步；2. 人物面部表情天然，好比眨眼和眉毛的動做。

感興趣的能夠點擊原文查看：

https://www.theverge.com/2019/6/20/18692671/deepfake-technology-singing-talking-video-portrait-from-a-single-image-imperial-college-samsung

本週的技術前沿就到這了，你對哪一個技術進展印象最深入？歡迎留言討論！想看更多技術前沿進展？歡迎點擊硅谷洞察此前文章：

新型機器人能夠安全拆除核反應堆了！|技術前沿洞察

聽你聲音6秒，AI就能推斷你長啥樣了！| 技術前沿洞察