論文解讀---The Emotionally Intelligent Robot: Improving Social Navigation in Crowded Environments

論文地址:https://arxiv.org/abs/1903.03217

Abstract— We present a real-time algorithm for emotion-aware navigation of a robot among pedestrians. Our approach estimates time-varying emotional behaviors of pedestrians from their faces and trajectories using a combination of Bayesian inference, CNN-based learning, and the PAD (Pleasure-Arousal-Dominance) model from psychology. These PAD characteristics are used for long-term path prediction and generating proxemic constraints for each pedestrian. We use a multi-channel model to classify pedestrian characteristics into four emotion categories (happy, sad, angry, neutral). In our validation results, we observe an emotion detection accuracy of 85:33%. We formulate emotion-based proxemic constraints to perform socially-aware robot navigation in low- to medium-density environments. We demonstrate the benefits of our algorithm in simulated environments with tens of pedestrians as well as in a real-world setting with Pepper, a social humanoid robot.

本文提出了一種面向人羣、可以感知行人情緒的實時機器人導航算法。該算法結合貝葉斯推理、CNN學習和心理學的PAD(愉悅-喚醒-受支配)模型,從行人的面部和軌跡來估計實時情緒狀態。這些PAD數據用於長期路徑預測和爲每個行人生成空間約束。本文使用多通道模型將行人分爲四種情緒類別(快樂、悲傷、憤怒、中性)。在實驗驗證結果中,情緒檢測的準確率爲85.33%。本文對基於情緒的空間約束進行了建模,以在低到中等密度的環境中執行社交感知機器人導航。本文演示了在有數十個行人的模擬環境中,以及在有Pepper(一個社交類人機器人)的真實環境中,本文所提算法的優勢。


1. 論文動機(Motivation)

最近的先進技術預測,人類很快就會在公共場所、人行道和室內與移動的、自主的機器人共享空間。

除了滿足物理空間的限制外,開發具有情感智能的機器人變得越來越重要。

傳統基於面部表情的情感識別存在可靠性低,在實驗條件下難以獲得完整面部圖像等不足。因此,本文擬將面部表情與行人運動軌跡結合起來,用於人類情緒狀態識別。

2. 貢獻(Contribution)

本文提出了一個實時基於數據驅動,考慮行人情緒狀態的機器人社交感知導航算法。

基於愉悅-喚醒-受支配(PAD)模型,結合面部表情與行人軌跡兩種類型的數據預測行人情緒。

提出了一種新的數據驅動映射—TEM(基於行人軌跡的情緒預測模型)。

在模擬和真實環境下分別進行了定性與定量實驗分析。

3. 方法(Methods)

3.1 數據表示

行人狀態表示,

                                              

依次爲行人位置,當前速度,面部圖像,預測速度,面部情緒矢量,軌跡情緒矢量.

機器人狀態表示,

                                                    

依次爲機器人位置,當前速度,預測速度.

情緒表示,

以矢量表示情緒狀態,根據此矢量可以將情緒狀態離散化,

                        

其中θ爲數值閾值,文中設置爲0.55.

3.2 系統總體框架Overview

基於行人軌跡的情緒識別(Emotion Learning from Trajectories (TEM)

作者收集了包含23個視頻的行人行走數據集用於基於軌跡的情緒識別研究(文中說後續會公開此數據集).

                         

首先,使用貝葉斯學習(Bayesian learning)方法計算行人的運動模型參數Planning Horiz (s)、Radius (m)、Pref Speed (m/s);

然後,招募100位志願者通過觀看視頻的方式對目標行人的情緒狀態進行標記;

最後,通過線性迴歸的方式建立運動模型參數與情緒矢量之間的關係,

                                          

本文使用Xception卷積神經網絡模型實現基於面部特徵的情緒識別

使用加權組合的方式對情緒狀態進行聯合表達

                                     

α在0~1.

本文建立了基於情感的接近約束,並將其與避障約束相結合用於機器人導航。行人情緒預測也被用於路徑預測。

4. 實驗結果與分析(Experiments & Discussion)

可達距離 peripersonal-action (reachability distance):reachability distance refers to the distance at which pedestrians feel comfortable interacting with other pedestrians.

舒適距離 interpersonal-social (comfort distance):comfort distance refers to the distance at which pedestrians feel comfortable with the presence of a pedestrian.

                          

                        

題注中的「green」與「blue」位置反了.

本文提出了一種考慮了可達距離與舒適距離的GVO(Generalized Velocity Obstacles)擴展方法,用於機器人社交感知與無碰撞導航。

                          

實驗結果顯示,情緒悲傷的參與者被給予了更大的行走空間;情緒憤怒的參與者報告說,機器人給行人讓路的速度更快;情緒愉快和中性的參與者沒有報告明顯的變化,但有些人注意到機器人的速度有輕微的減慢。

本文在沒有考慮空間和情緒約束的情況下,定量地評估了本文基於GVO的社交感知導航算法的性能。

                         

5. 啓示(Conclusion)

本文假定行人的軌跡是從固定在環境高處的攝像機拍攝到的,而機器人自帶的攝像機用於捕捉行人面部圖像。情緒模型是基於PAD模型得到的,目前只能分爲四類。未來,將從全身步態中學習情緒,並整合三個傳感器通道。還想把羣體行爲和文化背景考慮到具有社會意識的導航中,或者考慮用不同的情緒表徵模型。