深度学习算法简要总结系列 - 大白社区

发帖时间:
2023-03-07 19:36:02
深度学习 算法 人工智能 164

摘要:算法总结

今天突发奇想,准备一个总结系列,以备面试只需,嘿嘿,忘了就回来看看,以框架流程为主,不涉及细节、

点云

  • pointnet
    代码仓库
    https://github.com/yanx27/Pointnet_Pointnet2_pytorch
    参考博客
    最远点采样(Farthest Point Sampling)介绍
    【3D计算机视觉】PointNet++的pytorch实现代码阅读
    论文阅读笔记 | 三维目标检测——PointNet++
    论文阅读笔记 | 三维目标检测——PointNet
    PointNet++详解(一):数据增强方法
    一文搞懂PointNet全家桶——强势的点云处理神经网络
    3D点云深度学习PointNet源码解析——数据预处理
    【3D计算机视觉】从PointNet到PointNet++理论及pytorch代码
    【三维目标分类】PointNet++详解(一)
    在这里插入图片描述

    • 数据
      pointnet的工具在 provider.py 中
      随机顺序 shuffle_data() shuffle_points()
      随机旋转 rotate_perturbation_point_cloud_with_normal()
      随机噪声 jitter_point_cloud()
      随机平移 shift_point_cloud()
      随机缩放 random_scale_point_cloud()
      随机丢弃 random_point_dropout()

    • 模型
      具体来说,对于每一个N × 3 N\times 3N×3的点云输入,网络先通过一个T-Net将其在空间上对齐(旋转到正面),再通过MLP将其映射到64维的空间上,再进行对齐,最后映射到1024维的空间上。这时对于每一个点,都有一个1024维的向量表征,而这样的向量表征对于一个3维的点云明显是冗余的,因此这个时候引入最大池化操作,将1024维所有通道上都只保留最大的那一个,这样得到的1 × 1024 的向量就是N 个点云的全局特征。

      1.输入为一帧的全部点云数据的集合,表示为一个nx3的2d tensor,其中n代表点云数量,3对应xyz坐标。(输入的维度是 nx3 是二维的)

      2.输入数据先通过和一个T-Net学习到的转换矩阵相乘来对齐,保证了模型的对特定空间转换的不变性。(T-Net是针对点云旋转不变性设计的网络,目的是将点云旋转到合适的位置)

      3.通过多次mlp对各点云数据进行特征提取后,再用一个T-Net对特征进行对齐。(用mlp提取特征是为了将点云升维(到 nx1024),以便后面进行max-pooling,不至于最终特征很少

      4.在特征的各个维度上执行maxpooling操作来得到最终的全局特征。

      5.对分类任务,将全局特征通过mlp来预测最后的分类分数;对分割任务,将全局特征和之前学习到的各点云的局部特征进行串联(concat),再通过mlp得到每个数据点的分类结果。

  • pointnet++
    pointnet++取消了T-Net网络对齐,在点云数据的处理上提出了局部划分(为了获取局部特征)。因为考虑稀疏问题,提出了MSG和MRG(代码似乎没有MRG
    在这里插入图片描述

    • 数据
      pointnet++中,没有了T-Net网络做转换对齐什么的,他直接在全局的数据上进行局部划分,然后在每个局部数据上进行pointnet提取特征(pointnet其实就是一个特征提取器了,里面就是卷积了)。
      1、sample_and_group() 局部划分,如名字一样,先sample在group。
      2、sample_and_group() 实现步骤

      • 先用farthest_point_sample函数实现最远点采样FPS得到采样点的索引,再通过index_points将这些点的从原始点中挑出来,作为new_xyz
      • 利用query_ball_point和index_points将原始点云通过new_xyz 作为中心分为npoint个球形区域其中每个区域有nsample个采样点
      • 每个区域的点减去区域的中心值
      • 如果每个点上面有新的特征的维度,则用新的特征与旧的特征拼接,否则直接返回旧的特征
    • 模型
      pointnet++所用的工具在pointnet2_util.py中
      数据在做完sample_and_group后,就送到网络去提取特征了。
      MSG体现在哪呢,他在局部划分时,有一个半径参数,就是取不同的半径,最后将这些半径不一样的特征拼接在一起。
      在分类里没有拼接,在分割里是做了拼接的(cat
      pointnet++的PointNetSetAbstractionMsg层里包括了局部划分和特征提取
      pointnet++中的PointNetFeaturePropagation层的实现主要通过线性差值与MLP堆叠完成。

pointnet系列就算完结了。

目标检测

参考资料
同济自豪兄的b站视频

  • YOLOv1
    这是经典中的经典了,总有新的博客出现,而且讲的越来越好了,以往的疑惑都解开了,就总结一个YOLO系列!

    yolo的预测和训练要分开讲、

    • 预测

      • 从论文中可知,作者的思路
      • 图像被分成7x7个网格,在这49个网格中来预测,每个网格预测两个bounding boxes,和所有类别的条件概率Class(注意是条件概率,网格包含物体的条件下)。
      • 每个bounding boxes中包含了(x,y)(中心点坐标),(w,h)(bounding boxes宽高),conf(是否包含物体的概率
      • 最后网络的输出是一组7x7x30(30=2x5+num_class)的特征,然后在进行后处理+nms等。
      • 流程:图片送进来,经过卷积网络输出 7x7x30 的特征,然后开始decode,,将bounding box的conf乘上类别条件概率C得到类别的全概率,经过全概率阈值筛选排序后进入nms筛选,最后输出结果。
      • 疑问:为什么conf要乘C,为了加速?
      • 疑问:为什么类别概率要用条件概率,默认每个bounding box都有物体,全送到nms里不行么?
    • 训练
      在这里插入图片描述

      • 将图片送入网络,和预测一样得到 7x7x30 的特征。通过损失函数来缩小与标注的差距。
      • yolov1的损失计算思路可分为,在包含真值的grid中计算损失和不包含真值的grid中计算损失。(也就是所谓的真值的中心点在哪个grid,就由哪个grid负责预测该真值
      • 上图中的1、2、3、5行是包含物体的损失函数,第4行是不包含物体的损失函数
      • 1行是包含物体的 bounding box 的 x,y坐标损失
      • 2行是包含物体 bounding box 的w,h损失
      • 3行是包含物体的 bounding box 的conf损失
      • 4行是不包含物体的 bounding box 的conf损失
      • 5行是包含物体的 grid 的类别概率
      • 三个 λ 是包含物体和不包含物体的权重(正样本和负样本权重)
      • 训练阶段是不进行 nms 的
      • 疑问:对于yolov1的该 grid 的 bounding box 会不会飘移到其他 grid 中。
        - 我认为是这样,首先yolov1是bx中心点对 grid 中心点的偏移量回归(yolov2 是对 anchor 的偏移量回归),其次,网络最后的 sigmod 层使输出在0-1之间,并且对坐标进行了 1/grid_number ,结合代码可知,bounding box 的中心点是不会到其他grid的。
    • nms

      • 非极大抑制 在一堆根据置信度排序的框中,将最大置信度的框与其他框比较IOU,来筛选最终留下的框。
        1.从最大概率矩形框A开始,分别判断其他矩形框与A的重叠度IOU是否大于某个设定的阈值;

        2.假设B、C矩形框的重叠度超过阈值,那么就扔掉他们;并标记第一个矩形框A,这个是我们保留下来的。

        3.从剩下的矩形框D、E、F中,选择概率最大的D,然后判断E、F与D的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记D是我们保留下来的第二个矩形框。

        4.重复这个过程,找到所有被保留下来的矩形框。

  • YOLOv2

    • 在yolov1基础上增加了
      - Batch Normalization BN层
      - High Resolution Classifier 高分辨率分类器(就是用分辨率更高的图训练)
      - Anchor 锚框
      - Dimension Cluster 聚类选择anchor
      - Direct location prediction 限制模型输出大小
      - Fine-Grained Features 整合细粒度特征多尺度训练(Passthrough层,不同层的特征拼接)
      - Multi-Scale Training 多尺度训练(用不同大小的输入训练)

深度学习 算法 人工智能

本文在知识共享 署名-相同方式共享协议之条款下提供。

阿不推荐

热门话题