商汤科技计算机视觉面试真题：目标检测+图像分割深度考察

计算机视觉2025年5月20日作者: 美历团队

2年CV经验，商汤科技三轮面试全复盘，涵盖CNN/ResNet/YOLO基础、目标检测与图像分割深度考察、项目经验深挖等核心考点

背景介绍

先说下我的情况，211本科自动化，硕士做的计算机视觉方向，毕业后在一家做安防AI的公司干了2年CV算法工程师。从目标检测到图像分割，从视频分析到3D视觉，基本上CV的主流方向都接触过。今年年初开始看机会，商汤科技的计算机视觉岗位是我的首选——商汤是国内CV领域的头部公司，技术积累深厚，而且有很多落地的场景。

投递是通过商汤官网投的，岗位是"计算机视觉算法工程师"。大概一周后HR联系我安排面试，整个流程是三轮技术面+一轮HR面，全程大概三周。商汤的面试风格给我的感觉是：非常注重技术深度，每一轮都会深入追问，不会停留在表面。

面试流程复盘

一面：CV基础（约65分钟）

一面面试官是商汤的一个研究员，看起来很年轻但问题问得非常深入。开场先让我自我介绍，然后直接进入技术环节。

1. CNN的基本原理

让我从卷积操作讲起，说到感受野、步长、填充、池化等基本概念。面试官追问了几个关键点：

- 1x1卷积的作用是什么？我说是通道降维/升维、跨通道信息融合、增加非线性。

- 感受野怎么计算？我写了感受野的计算公式，从底层到高层逐步累加。

- 为什么用小卷积核替代大卷积核？我提到了3x3卷积堆叠替代7x7卷积，参数更少、非线性更强、感受野相同。

2. ResNet的原理和变体

ResNet是CV面试的必考题。我从残差连接的动机讲起：深层网络存在退化问题（不是梯度问题，而是更深的网络反而效果更差），残差连接让网络学习恒等映射变得更容易。面试官追问了：

- ResNet为什么能解决退化问题？我说是残差连接提供了梯度直通路径，使得梯度可以无损传播。

- ResNet的变体有哪些？我提到了ResNeXt（分组卷积）、DenseNet（密集连接）、EfficientNet（复合缩放）。

- ResNet和VGG的区别？参数量、深度、训练难度、性能等几个维度对比了。

3. YOLO系列的发展

从YOLOv1讲到了YOLOv8，重点讲了几个关键改进：

- YOLOv1：统一检测框架，速度快但定位精度低

- YOLOv2：Batch Normalization、Anchor Box、多尺度训练

- YOLOv3：多尺度预测（FPN）、更深的backbone（Darknet-53）

- YOLOv5：Mosaic数据增强、自适应Anchor

- YOLOv8：Anchor-free、解耦头、更高效的结构

面试官追问了YOLO和Faster R-CNN的区别，我从one-stage vs two-stage、速度vs精度、Anchor-based vs Anchor-free几个维度对比了。

4. 数据增强方法

问了常用的数据增强方法。我提到了几何变换（翻转、旋转、缩放、裁剪）、颜色变换（亮度、对比度、饱和度）、MixUp、CutMix、Mosaic等。面试官追问了MixUp和CutMix的区别，我说MixUp是两张图混合，CutMix是裁剪一块区域替换。

5. 一道编程题

实现NMS（非极大值抑制）算法。这个我写得很顺利，按置信度排序、选最高分、计算IoU、删除重叠框。面试官让我优化一下时间复杂度，我说可以用向量化操作替代循环。

一面整体感觉不错，CV基础我准备得比较充分。但面试官的追问确实很深入，不是那种随便问问的。

二面：目标检测+图像分割（约75分钟）

二面是商汤的一个资深研究员，这轮面试明显比一面更深入，主要围绕目标检测和图像分割展开。

1. Anchor-based和Anchor-free检测器的对比

这是当前目标检测的热点问题。我从Anchor-based（Faster R-CNN、YOLOv5）和Anchor-free（CenterNet、FCOS、YOLOv8）两个方向对比了：

- Anchor-based需要预设Anchor，对超参数敏感，但训练更稳定

- Anchor-free不需要预设Anchor，更灵活，但训练可能不稳定

面试官追问了Anchor-free方法如何处理正负样本不均衡的问题，我提到了Focal Loss和中心度分支。

2. Feature Pyramid Network详解

让我详细讲FPN的结构和原理。我从自顶向下的上采样路径和横向连接讲起，说到FPN如何融合多尺度特征。面试官追问了FPN的改进版本，我提到了PANet（加了自底向上路径）、BiFPN（双向加权融合）、NAS-FPN（神经架构搜索）。

3. 语义分割和实例分割的区别

语义分割是像素级分类，不区分同类不同实例；实例分割是像素级分类+实例区分。面试官追问了全景分割，是语义分割和实例分割的结合。

4. Mask R-CNN详解

让我讲Mask R-CNN的架构。从Faster R-CNN讲起，说到RoI Align替代RoI Pooling（解决了量化误差），以及新增的Mask分支。面试官追问了RoI Align和RoI Pooling的区别，我详细讲了双线性插值和避免量化误差的原理。

5. Transformer在CV中的应用

问了ViT、DETR、Swin Transformer等。我详细讲了ViT的原理：将图像切成patch作为token输入Transformer，在大规模数据上预训练后效果超过CNN。面试官追问了ViT的缺点，我说了需要大量数据预训练、对局部特征建模不如CNN、计算量大等。还问了Swin Transformer的改进——层级结构、移动窗口注意力、线性复杂度。

6. 一个开放性问题

如果让你设计一个实时目标检测系统，你会怎么设计？我从模型选型（YOLOv8/YOLO-NAS）、推理优化（TensorRT/量化）、部署方案（边缘设备/云端）几个方面设计了方案。面试官追问了边缘设备上的部署挑战，我说了算力限制、内存限制、功耗限制，以及如何通过模型压缩和硬件适配来解决。

二面是我觉得最硬核的一轮，问题覆盖面很广，而且每个问题都会深入追问。

三面：项目深挖（约70分钟）

三面是部门负责人，主要围绕项目经验和技术视野展开。

1. 项目深挖

让我详细讲了之前做的一个视频目标检测项目。从项目背景（安防场景下的实时目标检测）、技术方案（YOLOv5+ByteTrack）、遇到的困难（小目标检测、遮挡处理、实时性要求）、最终效果（mAP和FPS指标）几个维度展开。面试官问得非常细：

- 小目标检测怎么优化的？我提到了多尺度训练、高分辨率输入、特征融合、专门的小目标检测头。

- 遮挡怎么处理的？我说了ReID特征辅助、轨迹预测、多相机融合。

- 实时性怎么保证的？模型量化、TensorRT加速、输入分辨率调整。

2. 多目标跟踪

问了MOT的常用方法。我讲了SORT、DeepSORT、ByteTrack、BoT-SORT等。面试官重点问了ByteTrack的改进——用低分检测框匹配丢失的轨迹，而不是直接丢弃，大大减少了ID Switch。

3. 3D视觉

问了3D目标检测的方法。我提到了点云方法（PointPillars、CenterPoint）和单目/双目方法（Pseudo-LiDAR、FCOS3D）。面试官追问了点云和图像融合的方法，我提到了BEV融合（BEVFormer、BEVDet）。

4. 对CV领域未来发展的看法

开放性问题，我聊了几个方向：基础模型（SAM、DINOv2）对CV的影响、多模态融合（CLIP、LLaVA）、生成式AI（Stable Diffusion、Sora）、端侧CV。面试官对基础模型比较感兴趣，我们讨论了SAM如何改变CV的开发范式——从训练专用模型到Promptable的通用分割。

三面整体氛围比较轻松，面试官会分享他的看法，讨论很有收获。

真题汇总

一面真题：

1. CNN基本原理（1x1卷积、感受野、小卷积核）

2. ResNet原理和变体

3. YOLO系列发展（YOLOv1到YOLOv8）

4. 数据增强方法（MixUp/CutMix/Mosaic）

5. 编程：实现NMS算法

二面真题：

1. Anchor-based和Anchor-free检测器对比

2. FPN详解及改进版本

3. 语义分割、实例分割、全景分割的区别

4. Mask R-CNN详解（RoI Align vs RoI Pooling）

5. Transformer在CV中的应用（ViT/DETR/Swin）

6. 开放题：实时目标检测系统设计

三面真题：

1. 项目经验深挖

2. 多目标跟踪方法（SORT/DeepSORT/ByteTrack）

3. 3D目标检测方法

4. CV领域未来发展方向

心得建议

1. CV基础必须扎实

商汤的面试非常注重基础，CNN、ResNet、YOLO这些是必考的。不是背个概念就行，要理解背后的原理和设计思路。

2. 关注前沿技术

Transformer在CV中的应用、基础模型（SAM）、多模态融合，这些都是当前CV领域的热点。面试中一定会问到，建议多看论文、多实践。

3. 项目经验要有深度

三面的项目深挖环节，面试官会从各个角度追问。所以项目中的每个技术决策都要能讲清楚，包括为什么这么做、有没有考虑其他方案、效果如何。

4. 准备好讲工程实践

商汤不只是做研究，更注重落地。面试中会问模型部署、推理优化等工程问题，建议有TensorRT、量化等实践经验。

FAQ

Q：商汤面试对论文有要求吗？

A：不是硬性要求，但有CVPR/ICCV/ECCV论文会非常加分。更看重技术深度和工程能力。

Q：面试会问编程题吗？

A：会，但偏CV相关。比如NMS、IoU计算、数据增强实现等。不会考很复杂的算法题。

Q：没有目标检测经验能面这个岗位吗？

A：可以，但至少要有CV的基础知识。如果只做过分类或分割，建议了解一些目标检测的基本概念。

Q：商汤面试的淘汰率高吗？

A：据我了解，技术面每轮都有淘汰，整体通过率不高。但只要CV基础扎实，有项目经验，通过的机会还是很大的。

Q：面试结果多久出？

A：每轮面完2-3天出结果，整个流程2-3周。商汤的面试效率还不错。

#商汤科技#计算机视觉#目标检测#图像分割#YOLO#ResNet#面试经历