视觉导航

室内导航

关键技术：

传感器信息采集分析

SLAM建图的准确性、及时性，均取决于传感器获得数据的完备性。
视觉里程计与回环检测分析

传统VO框架搭配回环检测消除误差。
3D建图

传统的ORB-SLAM只能构建稀疏云点地图，无法应用与导航任务，需要构建立体视觉惯性SLAM，生成三维语义拓扑图，最后生成路径规划地图，实现自主导航。

基于深度视觉感知的SLAM导航

深度视觉的SLAM工作原理图：

stateDiagram-v2 direction LR [*] --> operation state operation{ direction LR 传感器数据 --> （前端）视觉里程计（前端）视觉里程计 -->（后端）非线性优化（后端）非线性优化 --> 建图 } 传感器数据 --> 回环检测回环检测 --> （后端）非线性优化建图 --> [*]

视觉处理主要前端处理算法：

graph LR A([前端处理]) --> BB[特征法] & C[直接法] BB --> B1(关键点提取) B1 --> b11(["ORB(具有良好的平移旋转不变性，提取时间快)"]) B1 --> b12(["SIFT(鲁棒性强,光照,旋转等均不敏感)"]) B1 --> b13(["FAST(Fast角点，噪声敏感，速度快)"]) B1 --> b14(["SURF(计算量比SIFT显著降低,同时鲁棒性也降低)"]) BB --> B2(描述子) B2 --> b21([梯度计算HOG描述子]) B2 --> b22([二进制BRISK描述子]) BB --> B3(特征匹配-FLANN算法) BB --> B4(数据关联) B4 --> b41("2D-2D(多视图几何)") B4 --> b42("2D-3D(线性化(PNP)、非线性求解(BA))") B4 --> b43("3D-3D") C --> C1["半直接法(光流)"] C --> C2[直接法] C1 & C2 --> c("(使用最小化光度误差，非线性优化求解)")

特征法： 特征法视觉里程计，将数据关联和位姿估计问题分开考虑、独立解决，但是特征计算和特征匹配非常耗时，在特征缺失、纹理重复的环境中容易跟踪丢失，并且稀疏的点云地图只能用于定位，而无法提供导航、避障等诸多功能。

直接法： 直接法视觉里程计以一种更整体、更优雅的方式，处理数据关联和位姿估计问题，仅使用像素的灰度信息，计算效率高，并且在特征缺失的环境中，也有很好的表现。其不足在于，对光照变化非常敏感，所建立的地图无特征描述子，导致难以进行地图的复用。因此，直接法更擅长端到端的解决连续缓慢的定位问题，而特征法更适合重定位与回环检测。

视觉处理主要后端处理算法：

graph LR A([后端优化]) --> B(基于滤波的方法) & C(基于优化的方法) & D(回环检测) B --> B1(["EKF算法(扩展卡尔曼滤波)"]) B --> B2(["PKF算法(粒子滤波算法)"]) B --> B3(["MSCKF算法(多状态约束卡尔曼)"]) C --> C1(BA优化) C1 --> c11(["PTAM"]) C1 --> c12(["ORB-SLAM"]) C --> C2(位姿图优化,舍弃对于路标点的优化) C2 --> c21([Vins-Mono]) C2 --> c22([OKVIS]) C --> C3(因子图优化) C3 --> c31([ISAM以及其对应的gtsam算法库]) D --> D1(基于深度学习) D --> D2(基于词袋模型)

**滤波器法：**虽然滤波器的全局优化假设了状态量之间的马尔可夫性，存在较大的线性误差，但相比非线性优化法在计算资源受限平台或结构化场景中，仍然是一种非常有效的方法。

**优化算法：**非线性优化法是利用约束条件构造目标函数，通过最优化的算法寻找位姿和地图点的最优解。集束调整和图优化都是非线性优化法，但是比较难以求解。

**回环检测：**基于子地图与子地图间的匹配、基于图像与子地图间的匹配、基于图像与图像间匹配（目前主流）、基于卷积神经网络的回环检测。

室外导航

关键技术：

构建特定区域先验数据库
匹配算法

匹配算法直接关乎无人机定位的准确度，对于 SIFT 算法而言，计算复杂度较高，内部运算的数据量巨大，难以符合无人机定位导航的实时性需求，同样也会降低让无人机的工作效率。
搜索目标特征提取、目标确认分析

搜索前需要得到目标的特征，目标特征点太少会导致识别率降低，目标特征不够明确会导致识别错误率增加，目标特征过于精细由于传感器精度不够，会难以匹配成功。

无人机巡查工作原理：
stateDiagram direction LR 特定区域先验数据库 --> 匹配算法实测环境特征数据 --> 匹配算法匹配算法 --> 无人机无人机 --> 定位与导航定位与导航 --> 巡查工作
特殊目标搜索识别原理：

stateDiagram-v2 direction LR [*] --> operation 搜索目标特征 --> 目标确认搜索目标特征 --> 无人机 state operation { direction LR 目标搜索 --> 目标确认目标确认 --> 无人机无人机 --> 定位与跟踪 } 定位与跟踪 --> [*]

相关技术与设备

视觉感知单元

单目摄像头

单目测距原理：

测量原理主要分为基于已知运动和已知物体的测量方法。

假设有一个宽度为 $W$ 的目标或者物体，然后将它放在距离相机为 $D$ 的位置，用该相机对该物体进行拍照并且测量物体的像素宽度 $P$ ,则相机的焦距公式为： $$ F = (P * D) / W $$ 当继续将相机移动靠近或远离物体或目标是，可利用相似三角形计算物体与相机的间距： $$ D = (W * F) / P $$ 单目目标检测：

在3D目标检测领域，根据输入信息的不同，大致可分为三类

Point Cloud-based Methods (基于点云) ——经典
Multimodal Fusion-based Methods (点云和图像的融合) ——主流
Monocular/Stereo Image-based Methods (单目/立体图像的方法)

双目摄像头

双目测距：

通过两幅图像的视差计算。

双目视觉目标检测：

基于直接视锥空间的双目目标检测方法

不需要额外的坐标空间转换，只需要基础骨干提取的两个单目特征构造双目特征。
基于串接构造视锥空间特征的方法

将基础骨干提取的两个单目视锥空间特征串接起来，利用卷积神经网络强大的拟合能力提取候选框或直接检测三维目标。不改变原单目特征的空间坐标，简单快速。
基于平面扫描构造视锥空间特征的方法

基于平面扫描的检测方法受益于双目深度估计方法的发展，能够直接利用点云监督取得更好的匹配结果，进而学习到每个视锥空间像素是否被物体占据的信息，辅助提高三维检测性能。
基于显式逆投影空间的双目目标检测方法

逆投影变换主要可以应用在输入图像、特征、候选区域三个不同环节。
基于原始图像视差的逆投影方法

伪雷达方法。
基于特征体的逆投影方法

基于特征体逆投影的双目目标检测方法通过插值和采样的方式将平面扫描得到的匹配代价体变换到三维空间，利用了图像特征提供的颜色和纹理信息，实现了端到端训练的双目目标检测。
基于候选像素视差的逆投影方法

这种逆投影方法生成的三维空间有效体素较少，可以在有限的检测时间内更灵活地控制特征的空间分辨率；聚焦于前景目标，能够避免不准确的深度估计带来的性能下降。

姿态感知单元

惯性导航系统

惯性导航系统（Inertial Navigation System，INS）是一种利用惯性敏感器件、基准方向及最初的位置信息，来确定运载体在惯性空间中的位置、方向和速度的自主式导航系统，有时也简称为惯导。其工作环境不仅包括空中、地面，还可以在水下。

惯性系统至少需要包含加速度计、陀螺仪等的惯性测量单元和用于推理的计算单元两大部分。

计算单元流程图：

stateDiagram-v2 direction TB state 惯性单元{ 加速度计陀螺仪磁力计 } 惯性单元 --> 姿态解算姿态解算 --> 加速度积分加速度积分 --> 误差补偿误差补偿 --> 姿态和位置

多源融合视觉处理

视觉+惯性融合

视觉惯性融合定位需要视觉传感器和惯性测量传感器进行融合。融合方案一般可以分为松耦合和紧耦合。

松耦合情况下是两个优化问题，视觉测量优化问题包含视觉的状态变量，惯性测量的优化问题包含惯性测量的状态变量，最终，我们只是融合这两个优化得到的位姿估计结果。

紧耦合是一个优化问题，它将视觉测量和惯性测量放在同一个状态向量中，构建包含视觉残差和惯性测量残差的误差项，同时优化视觉状态变量和惯性测量状态变量。

基于模型的视觉/惯导组合：

stateDiagram-v2 direction TB state 基于模型的纯视觉导航{ 视觉原始数据 --> 前端视觉里程计闭环检测 --> 后端闭环优化与构图前端视觉里程计 --> 后端闭环优化与构图后端闭环优化与构图 --> 闭环检测视觉原始数据 --> 闭环检测 } 后端闭环优化与构图 --> 导航参数与环境地图后端闭环优化与构图 --> 导航信息融合 state 惯导 { 惯性原始数据 --> 惯性信息预处理惯性信息预处理 --> 导航信息融合 } 惯性信息预处理 --> 前端视觉里程计导航信息融合 --> 导航参数与环境地图

视觉+无线电融合

AS算法
随机森林分类算法
SVM算法

多源融合

多传感器融合层次（级别）

基本原理图：

stateDiagram-v2 监测对象 --> sensor state sensor{ direction TB 传感器1 传感器2 .... 传感器n } sensor --> features state features{ direction TB 特征提取1 特征提取2 .. 特征提取n } features --> identify state identify{ direction TB 识别1 识别2 ... 识别n } identify --> 决策级融合决策级融合 --> 决策

在多传感器信息融合中，按其在融合系统中信息处理的抽象程度可分为三个层次：

数据级融合

也称像素级融合，属于底层数据融合，数据级融合不存在数据丢失的问题，得到的结果也作为准确；但是计算量大，对系统通信带宽要求较高；
特征级融合

分为目标状态融合、目标特征融合，

特征层融合技术发展较为完善，此级别融合对计算量和通信带宽要求相对降低，但由于部分数据的舍弃使其准确性也有所下降。
决策级融合

多传感器融合体系结构

集中式
分布式
混合式

视觉导航综述