商湯科技計算機視覺面試真題：目標檢測+圖像分割深度考察

計算機視覺2025年5月20日作者: 美歷團隊

2年CV經驗，商湯科技三輪面試全覆盤，涵蓋CNN/ResNet/YOLO基礎、目標檢測與圖像分割深度考察、項目經驗深挖等核心考點

背景介紹

先說下我的情況，211本科自動化，碩士做的計算機視覺方向，畢業後在一家做安防AI的公司幹了2年CV算法工程師。從目標檢測到圖像分割，從視頻分析到3D視覺，基本上CV的主流方向都接觸過。今年年初開始看機會，商湯科技的計算機視覺崗位是我的首選——商湯是國內CV領域的頭部公司，技術積累深厚，而且有很多落地的場景。

投遞是通過商湯官網投的，崗位是「計算機視覺算法工程師」。大概一週後HR聯繫我安排面試，整個流程是三輪技術面+一輪HR面，全程大概三週。商湯的面試風格給我的感覺是：非常注重技術深度，每一輪都會深入追問，不會停留在表面。

面試流程覆盤

一面：CV基礎（約65分鐘）

一面面試官是商湯的一個研究員，看起來很年輕但問題問得非常深入。開場先讓我自我介紹，然後直接進入技術環節。

1. CNN的基本原理

讓我從卷積操作講起，說到感受野、步長、填充、池化等基本概念。面試官追問了幾個關鍵點：

- 1x1卷積的作用是什麼？我說是通道降維/升維、跨通道信息融合、增加非線性。

- 感受野怎麼計算？我寫了感受野的計算公式，從底層到高層逐步累加。

- 為什麼用小卷積核替代大卷積核？我提到了3x3卷積堆疊替代7x7卷積，參數更少、非線性更強、感受野相同。

2. ResNet的原理和變體

ResNet是CV面試的必考題。我從殘差連接的動機講起：深層網絡存在退化問題（不是梯度問題，而是更深的網絡反而效果更差），殘差連接讓網絡學習恆等映射變得更容易。面試官追問了：

- ResNet為什麼能解決退化問題？我說是殘差連接提供了梯度直通路徑，使得梯度可以無損傳播。

- ResNet的變體有哪些？我提到了ResNeXt（分組卷積）、DenseNet（密集連接）、EfficientNet（複合縮放）。

- ResNet和VGG的區別？參數量、深度、訓練難度、性能等幾個維度對比了。

3. YOLO系列的發展

從YOLOv1講到了YOLOv8，重點講了幾個關鍵改進：

- YOLOv1：統一檢測框架，速度快但定位精度低

- YOLOv2：Batch Normalization、Anchor Box、多尺度訓練

- YOLOv3：多尺度預測（FPN）、更深的backbone（Darknet-53）

- YOLOv5：Mosaic數據增強、自適應Anchor

- YOLOv8：Anchor-free、解耦頭、更高效的結構

面試官追問了YOLO和Faster R-CNN的區別，我從one-stage vs two-stage、速度vs精度、Anchor-based vs Anchor-free幾個維度對比了。

4. 數據增強方法

問了常用的數據增強方法。我提到了幾何變換（翻轉、旋轉、縮放、裁剪）、顏色變換（亮度、對比度、飽和度）、MixUp、CutMix、Mosaic等。面試官追問了MixUp和CutMix的區別，我說MixUp是兩張圖混合，CutMix是裁剪一塊區域替換。

5. 一道編程題

實現NMS（非極大值抑制）算法。這個我寫得很順利，按置信度排序、選最高分、計算IoU、刪除重疊框。面試官讓我優化一下時間複雜度，我說可以用向量化操作替代循環。

一面整體感覺不錯，CV基礎我準備得比較充分。但面試官的追問確實很深入，不是那種隨便問問的。

二面：目標檢測+圖像分割（約75分鐘）

二面是商湯的一個資深研究員，這輪面試明顯比一面更深入，主要圍繞目標檢測和圖像分割展開。

1. Anchor-based和Anchor-free檢測器的對比

這是當前目標檢測的熱點問題。我從Anchor-based（Faster R-CNN、YOLOv5）和Anchor-free（CenterNet、FCOS、YOLOv8）兩個方向對比了：

- Anchor-based需要預設Anchor，對超參數敏感，但訓練更穩定

- Anchor-free不需要預設Anchor，更靈活，但訓練可能不穩定

面試官追問了Anchor-free方法如何處理正負樣本不均衡的問題，我提到了Focal Loss和中心度分支。

2. Feature Pyramid Network詳解

讓我詳細講FPN的結構和原理。我從自頂向下的上採樣路徑和橫向連接講起，說到FPN如何融合多尺度特徵。面試官追問了FPN的改進版本，我提到了PANet（加了自底向上路徑）、BiFPN（雙向加權融合）、NAS-FPN（神經架構搜索）。

3. 語義分割和實例分割的區別

語義分割是像素級分類，不區分同類不同實例；實例分割是像素級分類+實例區分。面試官追問了全景分割，是語義分割和實例分割的結合。

4. Mask R-CNN詳解

讓我講Mask R-CNN的架構。從Faster R-CNN講起，說到RoI Align替代RoI Pooling（解決了量化誤差），以及新增的Mask分支。面試官追問了RoI Align和RoI Pooling的區別，我詳細講了雙線性插值和避免量化誤差的原理。

5. Transformer在CV中的應用

問了ViT、DETR、Swin Transformer等。我詳細講了ViT的原理：將圖像切成patch作為token輸入Transformer，在大規模數據上預訓練後效果超過CNN。面試官追問了ViT的缺點，我說了需要大量數據預訓練、對局部特徵建模不如CNN、計算量大等。還問了Swin Transformer的改進——層級結構、移動窗口注意力、線性複雜度。

6. 一個開放性問題

如果讓你設計一個實時目標檢測系統，你會怎麼設計？我從模型選型（YOLOv8/YOLO-NAS）、推理優化（TensorRT/量化）、部署方案（邊緣設備/雲端）幾個方面設計了方案。面試官追問了邊緣設備上的部署挑戰，我說了算力限制、內存限制、功耗限制，以及如何通過模型壓縮和硬件適配來解決。

二面是我覺得最硬核的一輪，問題覆蓋面很廣，而且每個問題都會深入追問。

三面：項目深挖（約70分鐘）

三面是部門負責人，主要圍繞項目經驗和技術視野展開。

1. 項目深挖

讓我詳細講了之前做的一個視頻目標檢測項目。從項目背景（安防場景下的實時目標檢測）、技術方案（YOLOv5+ByteTrack）、遇到的困難（小目標檢測、遮擋處理、實時性要求）、最終效果（mAP和FPS指標）幾個維度展開。面試官問得非常細：

- 小目標檢測怎麼優化的？我提到了多尺度訓練、高分辨率輸入、特徵融合、專門的小目標檢測頭。

- 遮擋怎麼處理的？我說了ReID特徵輔助、軌跡預測、多相機融合。

- 實時性怎麼保證的？模型量化、TensorRT加速、輸入分辨率調整。

2. 多目標跟蹤

問了MOT的常用方法。我講了SORT、DeepSORT、ByteTrack、BoT-SORT等。面試官重點問了ByteTrack的改進——用低分檢測框匹配丟失的軌跡，而不是直接丟棄，大大減少了ID Switch。

3. 3D視覺

問了3D目標檢測的方法。我提到了點雲方法（PointPillars、CenterPoint）和單目/雙目方法（Pseudo-LiDAR、FCOS3D）。面試官追問了點雲和圖像融合的方法，我提到了BEV融合（BEVFormer、BEVDet）。

4. 對CV領域未來發展的看法

開放性問題，我聊了幾個方向：基礎模型（SAM、DINOv2）對CV的影響、多模態融合（CLIP、LLaVA）、生成式AI（Stable Diffusion、Sora）、端側CV。面試官對基礎模型比較感興趣，我們討論了SAM如何改變CV的開發範式——從訓練專用模型到Promptable的通用分割。

三面整體氛圍比較輕鬆，面試官會分享他的看法，討論很有收穫。

真題匯總

一面真題：

1. CNN基本原理（1x1卷積、感受野、小卷積核）

2. ResNet原理和變體

3. YOLO系列發展（YOLOv1到YOLOv8）

4. 數據增強方法（MixUp/CutMix/Mosaic）

5. 編程：實現NMS算法

二面真題：

1. Anchor-based和Anchor-free檢測器對比

2. FPN詳解及改進版本

3. 語義分割、實例分割、全景分割的區別

4. Mask R-CNN詳解（RoI Align vs RoI Pooling）

5. Transformer在CV中的應用（ViT/DETR/Swin）

6. 開放題：實時目標檢測系統設計

三面真題：

1. 項目經驗深挖

2. 多目標跟蹤方法（SORT/DeepSORT/ByteTrack）

3. 3D目標檢測方法

4. CV領域未來發展方向

心得建議

1. CV基礎必須扎實

商湯的面試非常注重基礎，CNN、ResNet、YOLO這些是必考的。不是背個概念就行，要理解背後的原理和設計思路。

2. 關注前沿技術

Transformer在CV中的應用、基礎模型（SAM）、多模態融合，這些都是當前CV領域的熱點。面試中一定會問到，建議多看論文、多實踐。

3. 項目經驗要有深度

三面的項目深挖環節，面試官會從各個角度追問。所以項目中的每個技術決策都要能講清楚，包括為什麼這麼做、有沒有考慮其他方案、效果如何。

4. 準備好講工程實踐

商湯不只是做研究，更注重落地。面試中會問模型部署、推理優化等工程問題，建議有TensorRT、量化等實踐經驗。

FAQ

Q：商湯面試對論文有要求嗎？

A：不是硬性要求，但有CVPR/ICCV/ECCV論文會非常加分。更看重技術深度和工程能力。

Q：面試會問編程題嗎？

A：會，但偏CV相關。比如NMS、IoU計算、數據增強實現等。不會考很複雜的算法題。

Q：沒有目標檢測經驗能面這個崗位嗎？

A：可以，但至少要有CV的基礎知識。如果只做過分類或分割，建議了解一些目標檢測的基本概念。

Q：商湯面試的淘汰率高嗎？

A：據我了解，技術面每輪都有淘汰，整體通過率不高。但只要CV基礎扎實，有項目經驗，通過的機會還是很大的。

Q：面試結果多久出？

A：每輪面完2-3天出結果，整個流程2-3週。商湯的面試效率還不錯。

#商湯科技#計算機視覺#目标检測#图像分割#YOLO#ResNet#面試經歷