null | BarryZed的个人博客

中文	英文	缩写	名词解释
计算机视觉与模式识别	Computer Vision and Pattern Recognition	CVPR	ㅤ
国际计算机视觉大会	International Conference on Computer Vision	ICCV	ㅤ
欧洲计算机视觉大会	European Conference on Computer Vision	ECCV	ㅤ
暴力非国家行为体	Violent Non-State Actor	VNSA	ㅤ
卷积神经网络	Convolutional Neural Network	CNN	一种深度学习神经网络，特别擅长处理图像、视频这样的网格结构数据它的核心思想是：通过卷积操作自动提取图像的局部特征
ㅤ	Region-based Convolutional Neural Network	R-CNN	R-CNN
支持向量机	Support Vector Machine	SVM	SVM
ㅤ	Single Shot MultiBox Detector	SSD	ㅤ
ㅤ	You Only Look Once	YOLO	YOLO 不是先找可能的框，而是直接让神经网络从整张图生成框和类别 YOLO
ㅤ	unmanned aerial system	UAS	ㅤ
特征	modality	ㅤ	ㅤ
ㅤ	radio frequency	RF	ㅤ
红外线	infrared/infra-red	IR	ㅤ
尺度不变特征变换	scale-invariant feature transform	SIFT	让图片在各种变换下仍能找到某个部位
方向梯度直方图	histogram of oriented gradients	HOG	检测边缘、不看颜色、不看亮度 “统计一个局部区域内‘边缘朝哪个方向多’的特征”
ㅤ	haar	ㅤ	通过比较图像中某些面积块的亮度差，来表示物体的结构特征
局部二值模式	Local Binary Pattern	LBP	把每个像素的灰度值和它周围邻居像素比较，用 0/1 来表示“亮/暗关系”，形成二进制数 → 转成十进制 → 作为纹理特征
可变形部件模型	Deformable Parts Model	DPM	将一个目标拆成若干可变形部件，建模部件之间的相对位置关系，同时允许一定变形，从而检测姿态多变的目标（还是多张图片锁定区域(?)）
通用傅里叶描述子	generic Fourier descriptor	GFD	一种基于目标边界形状的全局描述子，把目标轮廓的二维形状信息变换到频域，用傅里叶变换来表示目标的全局轮廓特征 GFD 就是把一个目标的形状“画成轮廓曲线”，然后用傅里叶变换分析轮廓频率特征，得到一个特征向量，用于识别或匹配
自适应提升	Adaptive Boosting	AdaBoost	把一系列“弱分类器”组合成一个“强分类器”，从而提高整体分类精度
等人	et alii	et al.	论文里表示作者等时候通常写一个人加这个
轮廓	silhouette	ㅤ	ㅤ
阶跃函数	binary step function	ㅤ	一种激活函数 f(x) = 0 (x<0) f(x) = 1 (x≥0)
修正线性单元	Rectified Linear Unit	ReLU	一种激活函数 f(x) = max(0, x)

R-CNN

生成候选区域（Region Proposal）

使用 Selective Search（选择搜索）算法生成约 2000 个可能包含目标的候选框（bounding boxes）。

每个候选框对应一个图像区域（Region of Interest, ROI）。

特征提取（Feature Extraction）

对每个候选区域，缩放成固定大小，输入到 CNN提取特征向量。

CNN 在这里的作用是提取高维、语义丰富的特征，而不是直接输出类别。

分类与回归（Classification & Bounding Box Regression）

用 SVM 对提取的特征进行目标类别分类（每个候选框判断是否属于某个目标类别）。

用 线性回归（Bounding Box Regression） 对候选框坐标进行微调，使边框更精准。

SVM

SVM 是一种经典的监督学习算法，主要用于分类。

它的核心思想是：

在特征空间中找到一个最佳分隔超平面（hyperplane），将不同类别的数据点分开。

“最佳”指最大化分类间隔（margin），即使得离超平面最近的样本点到超平面的距离最大。

离超平面最近的点叫做 支持向量（support vectors），它们决定了超平面的位置。

YOLO

一种实时目标检测算法

极快，是最早实现实时检测（> 45 FPS）的算法。

YOLO 的流程:

① 将输入图像划分成 S×S 网格（grid）

② 每个网格预测：

B 个 bounding boxes（包含 x, y, w, h, confidence）

C 个类别概率

模型一次前向传播即可输出整张图的所有框和类别。

③ Non-Maximum Suppression（NMS）筛选

去掉重复框，保留最优框。

核心思想：一次前向，多框输出。

✔ 优点

极快（当时可以 45 FPS，Fast-YOLO 甚至 155 FPS）。

端到端（end-to-end）训练。

整体处理图像，具有全局语义信息。

适合实时应用：监控、无人机、机器人。

✖ 缺点（以 YOLOv1 为例）

对小目标不敏感（网格限制）。

边界框回归不稳定。

定位精度不如两阶段方法（如 Faster R-CNN）。

后续 YOLOv2/3/4/5/8 已经大幅优化这些缺点。

用一句话总结 YOLO：YOLO 是一种将目标检测转化为单次回归任务的实时检测算法，通过一次前向传播直接预测目标的位置与类别，具有极高速度和良好精度。