中文 | 英文 | 缩写 | 名词解释 |
计算机视觉与模式识别 | Computer Vision and Pattern Recognition | CVPR | ㅤ |
国际计算机视觉大会 | International Conference on Computer Vision | ICCV | ㅤ |
欧洲计算机视觉大会 | European Conference on Computer Vision | ECCV | ㅤ |
暴力非国家行为体 | Violent Non-State Actor | VNSA | ㅤ |
卷积神经网络 | Convolutional Neural Network | CNN | 一种深度学习神经网络,特别擅长处理图像、视频这样的网格结构数据
它的核心思想是:通过卷积操作自动提取图像的局部特征 |
ㅤ | Region-based Convolutional Neural Network | R-CNN | |
支持向量机 | Support Vector Machine | SVM | |
ㅤ | Single Shot MultiBox Detector | SSD | ㅤ |
ㅤ | You Only Look Once | YOLO | YOLO 不是先找可能的框,而是直接让神经网络从整张图生成框和类别
YOLO |
ㅤ | unmanned aerial system | UAS | ㅤ |
特征 | modality | ㅤ | ㅤ |
ㅤ | radio frequency | RF | ㅤ |
红外线 | infrared/infra-red | IR | ㅤ |
尺度不变特征变换 | scale-invariant feature transform | SIFT | 让图片在各种变换下仍能找到某个部位 |
方向梯度直方图 | histogram of oriented gradients | HOG | 检测边缘、不看颜色、不看亮度
“统计一个局部区域内‘边缘朝哪个方向多’的特征” |
ㅤ | haar | ㅤ | 通过比较图像中某些面积块的亮度差,来表示物体的结构特征 |
局部二值模式 | Local Binary Pattern | LBP | 把每个像素的灰度值和它周围邻居像素比较,用 0/1 来表示“亮/暗关系”,形成二进制数 → 转成十进制 → 作为纹理特征 |
可变形部件模型 | Deformable Parts Model | DPM | 将一个目标拆成若干可变形部件,建模部件之间的相对位置关系,同时允许一定变形,从而检测姿态多变的目标
(还是多张图片锁定区域(?)) |
通用傅里叶描述子 | generic Fourier descriptor | GFD | 一种基于目标边界形状的全局描述子,把目标轮廓的二维形状信息变换到频域,用傅里叶变换来表示目标的全局轮廓特征
GFD 就是把一个目标的形状“画成轮廓曲线”,然后用傅里叶变换分析轮廓频率特征,得到一个特征向量,用于识别或匹配 |
自适应提升 | Adaptive Boosting | AdaBoost | 把一系列“弱分类器”组合成一个“强分类器”,从而提高整体分类精度 |
等人 | et alii | et al. | 论文里表示作者等时候通常写一个人加这个 |
轮廓 | silhouette | ㅤ | ㅤ |
阶跃函数 | binary step function | ㅤ | 一种激活函数
f(x) = 0 (x<0)
f(x) = 1 (x≥0) |
修正线性单元 | Rectified Linear Unit | ReLU | 一种激活函数
f(x) = max(0, x) |
R-CNN
- 生成候选区域(Region Proposal)
- 使用 Selective Search(选择搜索)算法生成约 2000 个可能包含目标的候选框(bounding boxes)。
- 每个候选框对应一个图像区域(Region of Interest, ROI)。
- 特征提取(Feature Extraction)
- 对每个候选区域,缩放成固定大小,输入到 CNN提取特征向量。
- CNN 在这里的作用是提取高维、语义丰富的特征,而不是直接输出类别。
- 分类与回归(Classification & Bounding Box Regression)
- 用 SVM 对提取的特征进行目标类别分类(每个候选框判断是否属于某个目标类别)。
- 用 线性回归(Bounding Box Regression) 对候选框坐标进行微调,使边框更精准。
SVM
SVM 是一种经典的监督学习算法,主要用于分类。
它的核心思想是:
- 在特征空间中找到一个最佳分隔超平面(hyperplane),将不同类别的数据点分开。
- “最佳”指最大化分类间隔(margin),即使得离超平面最近的样本点到超平面的距离最大。
- 离超平面最近的点叫做 支持向量(support vectors),它们决定了超平面的位置。
YOLO
一种实时目标检测算法
极快,是最早实现实时检测(> 45 FPS)的算法。
YOLO 的流程:
① 将输入图像划分成 S×S 网格(grid)
② 每个网格预测:
- B 个 bounding boxes(包含 x, y, w, h, confidence)
- C 个类别概率
模型一次前向传播即可输出整张图的所有框和类别。
③ Non-Maximum Suppression(NMS)筛选
去掉重复框,保留最优框。
核心思想:一次前向,多框输出。
✔ 优点
- 极快(当时可以 45 FPS,Fast-YOLO 甚至 155 FPS)。
- 端到端(end-to-end)训练。
- 整体处理图像,具有全局语义信息。
- 适合实时应用:监控、无人机、机器人。
✖ 缺点(以 YOLOv1 为例)
- 对小目标不敏感(网格限制)。
- 边界框回归不稳定。
- 定位精度不如两阶段方法(如 Faster R-CNN)。
后续 YOLOv2/3/4/5/8 已经大幅优化这些缺点。
用一句话总结 YOLO:YOLO 是一种将目标检测转化为单次回归任务的实时检测算法,通过一次前向传播直接预测目标的位置与类别,具有极高速度和良好精度。





.jpg?table=block&id=2cb05109-5451-8092-a42a-ffaf40797495&t=2cb05109-5451-8092-a42a-ffaf40797495)




