NTTマルチモーダルエンジニア面接体験記：視覚言語モデル・画像テキスト理解・生成の完全評価

マルチモーダル2025年5月6日著者: BeautyResume チーム

マルチモーダル経験2年の方がNTTマルチモーダルエンジニアポストに面接。CLIP/BLIP原理、LLaVAアーキテクチャ、VLMハルシネーション解決、Diffusion生成、動画生成課題を網羅した3回の技術面接の詳細な振り返り

背景紹介

マルチモーダル関連の経験は2年あります。以前はインターネット企業で画像テキストコンテンツ理解を担当し、画像キャプション生成や視覚質問応答などのプロジェクトに携わり、主にCLIPやBLIPなどのモデルを使用していました。マルチモーダルLLMが登場した時、非常に興奮しました。これまでの経験がついに活かせると思ったからです。NTTはマルチモーダル方向で特徴的な取り組みを行っており、動画生成と画像テキスト理解の能力が強いと聞き、採用情報を見つけてすぐに応募しました。予想以上に早く面接が設定されました。

面接プロセスの振り返り

一次面接：マルチモーダル基礎 + CLIP/BLIP（約1.5時間）

一次面接の面接官はマルチモーダルチームの技術コアメンバーで、まずマルチモーダル分野に対する私の理解について話しました。

最初の質問：CLIPの原理は何ですか？なぜ画像テキストアライメントが可能なのですか？対比学習の観点から説明しました。画像とテキストがそれぞれエンコーダを通じて共有埋め込み空間にエンコードされ、InfoNCE損失によりマッチングペアを近づけ、非マッチングペアを遠ざけます。面接官はCLIPの限界は何ですかとフォローアップし、細粒度理解の不足、長文テキストサポートの制限、訓練データのバイアスなどを挙げると、頷いてくれました。

次にBLIPとCLIPの違いについて聞かれました。BLIPは生成能力を導入し、Captioning ModuleとITC/ITM/MLMの3つの事前学習タスクを通じて理解と生成の統一を実現したと説明しました。面接官はBLIP-2のQ-Formerがどう動作するかをフォローアップし、Q-Formerが凍結された視覚エンコーダとLLMを接続するブリッジとして機能し、学習可能なQueryベクトルを通じて視覚特徴からテキストに最も関連する情報を抽出すると詳しく説明しました。面接官は理解が良いと言いました。

また比較的深い質問もありました：マルチモーダルアライメントにはどのような方法がありますか？それぞれの長所と短所は？早期融合（ピクセルレベル結合）、中期融合（特徴レベルアライメント）、後期融合（決定レベル融合）、対比学習アライメント、生成的アライメントのいくつかを挙げました。面接官は対比学習アライメントと生成的アライメントの違いに特に興味を持ち、対比学習は大域的セマンティック類似性に注目し、生成的アライメントは細粒度のトークンレベル対応関係に注目すると説明しました。

最後のオープンクエスチョン：新しい画像テキストアライメントモデルを設計するとしたら、どうアプローチしますか？少し考えてから、対比学習と生成的アライメントの長所を組み合わせ、対比学習で粗粒度アライメントを行い、交差注意力で細粒度アライメントを行い、同時に多粒度の視覚特徴を導入すると答えました。面接官はアプローチが良いと言いました。

二次面接：VLM + 画像テキスト理解（約2時間）

二次面接の面接官は視覚言語モデルのシニアリサーチャーで、非常に深い質問がありました。

開始早々：LLaVAのアーキテクチャはどうなっていますか？LLaVAはCLIP ViTを視覚エンコーダとして使用し、単純な線形投影層を通じて視覚特徴をLLMの埋め込み空間にマッピングし、LLMが理解と生成を行うと説明しました。面接官はLLaVAの投影層の改善案をフォローアップし、単純な線形層からMLP、Q-Former、Resamplerへの進化を説明すると、面接官は時系列モデリングの改善もあると補足しました。

そして重要トピック：マルチモーダルLLMの視覚エンコーダはどう選びますか？ViTとCNNのそれぞれの長所と短所は？ViTは大域的アテンションの利点があるが計算量が多く、CNNは局所特徴抽出能力が強いが大域的モデリングが弱いと説明しました。面接官はViTのパッチサイズをどう選ぶかをフォローアップし、小さいパッチは精度が高いが計算量が多く、大きいパッチはその逆で、タスクと計算リソースのトレードオフで決めると説明しました。

画像テキスト理解の部分も多くの質問がありました：視覚質問応答（VQA）の難点は何ですか？細粒度視覚理解、空間関係推論、多段階推論、常識推論のいくつかの課題を挙げました。面接官はVLMの空間理解能力をどう向上させるかをフォローアップし、位置エンコーディングの導入、空間アテンション、3D認識訓練データの方法を説明しました。

また非常に実践的な質問もありました：マルチモーダルLLMのハルシネーション問題をどう解決しますか？訓練データ拡張（負例の追加）、RLHFアライメント、検索拡張（実際の画像情報で修正）、自己一貫性チェックのいくつかの方向を挙げました。面接官は検索拡張に特に興味を持ち、検索された実際の情報を使ってモデルのハルシネーション出力をどう修正するかを詳しく説明するよう求めました。

最後の設計問題：図表とドキュメントを理解できるVLMを設計してください。高解像度画像処理、OCR拡張、構造化理解、多粒度特徴融合の重要点を説明しました。面接官は方向性は正しいと言いましたが、テーブル構造認識や数式理解の詳細に注意するよう促しました。

三次面接：マルチモーダル生成 + プロジェクト深掘り（約1.5時間）

三次面接はマルチモーダルチームのリーダーで、生成方向とプロジェクト経験について話しました。

マルチモーダル生成にはどのような主な方向がありますか？テキストから画像（Diffusion）、テキストから動画（Video Diffusion）、画像からテキスト（Captioning）、音声合成（TTS）の方向を説明しました。面接官はDiffusion Modelの原理をフォローアップし、前方ノイズ付加、逆方向ノイズ除去、訓練目標の観点から説明しました。面接官はさらにClassifier-Free Guidanceの原理を聞き、条件付き生成と無条件生成の組み合わせ、guidance scaleの調整による生成品質と多様性のトレードオフ制御を説明しました。

動画生成と画像生成の違いと課題は？時系列一貫性、モーションモデリング、計算量の3つの主な課題を挙げました。面接官は動画の時系列一貫性をどう確保するかをフォローアップし、3Dアテンション、時系列損失、自己回帰生成の方法を説明しました。

プロジェクト深掘りのセクションでは、私が構築した画像テキスト理解プロジェクトについて説明するよう求められました。面接官は非常に詳細に聞いてきました：使用したモデルは？データ量は？評価指標は？バッドケースの分析は？一つ一つ回答し、プロジェクトでの重要な改善点も共有しました。単一スケールの視覚特徴をマルチスケール視覚特徴に置き換えることで、細粒度理解能力が大幅に向上したことなどです。

最後はシステム設計問題：画像、動画、ドキュメントの理解と生成をサポートするマルチモーダルコンテンツ理解プラットフォームを設計してください。統一エンコーダ、タスクルーティング、マルチモーダル融合、生成モジュールの観点からソリューションを設計しました。面接官はアーキテクチャが合理的だと言いましたが、異なるモダリティ間のアライメントとインタラクション方法に注意するよう促しました。

面接問題まとめ

1. CLIPの原理と画像テキストアライメントメカニズム

2. CLIPの限界

3. BLIPとCLIPの違い、BLIP-2のQ-Former

4. マルチモーダルアライメント方法と長所・短所

5. 新しい画像テキストアライメントモデルの設計

6. LLaVAアーキテクチャと投影層の改善

7. 視覚エンコーダの選択（ViT vs CNN）

8. VQAの難点と空間理解能力の向上

9. マルチモーダルLLMハルシネーション問題の解決

10. 図表とドキュメント理解VLMの設計

11. Diffusion Modelの原理とCFG

12. 動画生成vs画像生成の課題

13. 動画の時系列一貫性の確保

14. マルチモーダルコンテンツ理解プラットフォームの設計

学びとアドバイス

1. マルチモーダル基礎モデルを深く理解する：CLIP、BLIP、LLaVAの原理と進化の脈絡を明確に理解してください。面接官は「知っているか」だけでなく、設計思想とトレードオフを深く理解しているかを問います。

2. 画像テキスト理解は核心トピック：VLMのアーキテクチャ設計、視覚エンコーダの選択、ハルシネーション問題の解決は面接の重点です。必ず自分の考察を持ってください。

3. 生成方向も理解する：ポストが理解寄りでも、Diffusion Modelの基本原理や動画生成の課題も知っておくべきです。面接官は幅広さを重視します。

4. 最先端の進展に注目する：マルチモーダル分野は急速に発展しています。GPT-4V、Gemini、LLaVA-NeXTなどの新しい研究をフォローし、面接官が最新研究についての意見を聞くことに備えてください。

5. プロジェクト経験で革新性を強調する：使用したモデルだけでなく、どのような改善を行ったか、パフォーマンスがどう向上したかを明確に説明してください。面接官が最も重視するのは研究能力です。

FAQ

Q：数学の要件は高いですか？
A：ある程度の要件があります。特にDiffusion Modelの数学的導出ですが、ゼロから導出する必要はなく、核心的な数式と直感を理解すれば十分です。

Q：オンサイトでコードを書く必要はありますか？
A：一次面接では疑似コードの記述、二次面接ではアーキテクチャ図、三次面接は主に議論で、完全なコードを書く必要はありませんでした。

Q：NTTの技術スタックは？
A：面接では直接言及されませんでしたが、質問から判断すると、主にPyTorchで、独自のマルチモーダルフレームワークを使用しているようでした。

Q：論文の読書量に要件はありますか？
A：核心的な論文は必ず読んでおくべきです。CLIP、BLIP、LLaVA、Stable Diffusionなど、面接官は論文の詳細を直接聞きます。

Q：面接結果はどのくらいで出ますか？
A：各面接終了後2-3日でフィードバックがあり、全体のプロセスは約2週間半でした。

#Multimodal#CLIP#BLIP#LLaVA#VLM#MiniMax#Diffusion#Vision-Language Models