LLM面接必須の20問：TransformerからRLHFまで完全網羅

面接特集2025年6月15日著者: BeautyResume チーム

LLM面接高頻度20問を完全網羅：Transformer基礎、事前学習、ファインチューニングSFT/LoRA/RLHF/DPO、推論KV Cache/量子化/投機的デコーディング、応用RAG/Agent/Prompt Engineering、各問題に評価ポイントと回答方向付き

背景紹介

正直に言うと、LLMの面接準備を始めた当初は完全に途方に暮れていました。ネット上の資料は多すぎて散乱しており、Transformerの理論を深く解説するものもあれば、アプリケーション層だけを扱うものもあり、面接官が実際に何を聞くのか全く分かりませんでした。その後、小さなスタートアップから大手テック企業の研究所まで、LLMに取り組んでいる7〜8社の面接を受けて、徐々にパターンが見えてきました。LLM面接の核心的な評価ポイントは限られた分野に集約されており、各分野の高頻度問題も同様に限られています。今日は、面接準備中の方の助けになるよう、この20の必須問題をまとめます。

面接プロセスの振り返り

面接を受けた企業のプロセスはほぼ似ていました：まず履歴書選考、次に一次技術面接（主に基礎をテスト）、二次深掘り面接（プロジェクト＋手計算導出）、三次はクロス面接やシステム設計面接の可能性があります。LLM職の技術面接の特徴は、基礎知識の比重が極めて高いことで、従来の開発職が主にプロジェクト経験をテストするのとは異なります。面接官はTransformerの原理から始め、訓練、ファインチューニング、推論、応用まで、基本的に各段階で問題を出します。最も印象に残っているのは、ある大手企業の二次面接で、面接官が40分間休みなく基礎問題を出し続け、Self-AttentionからDPOまで、プロジェクト関連の議論は一切なし。純粋な基礎力テストでした。基礎が固まっていないと本当に通りません。

問題コレクション

1. Transformer基礎（4問）

1. Self-Attentionの原理は？RNNより優れている理由は？

評価ポイント：アテンションメカニズムの核心的な計算フローと、系列モデルとの優劣を理解しているか。

回答方向：Self-Attentionの核心はQKV計算です。入力系列にWq、Wk、Wvをそれぞれ乗じてクエリ、キー、バリュー行列を得て、QとKのドット積でアテンション重みを計算し、Vを掛けて出力を得ます。RNNに比べた最大の利点は並列計算と長距離依存関係のモデリングです。RNNは系列を段階的に処理する必要がありますが、Self-Attentionは全位置の関係を一度に計算でき、訓練速度が大幅に速くなります。また、RNNの長距離依存は減衰しますが、Attentionは任意の2位置間の関係を直接モデリングし、減衰の問題がありません。Self-Attentionの時間計算量はO(n²)であり、これが欠点ですが、疎アテンションで緩和できます。

2. 位置エンコーディングの種類は？RoPEが優れている理由は？

評価ポイント：位置情報の注入方法と、回転位置エンコーディングの利点を理解しているか。

回答方向：位置エンコーディングには主に絶対位置エンコーディング（サイン/コサイン、学習可能）と相対位置エンコーディング（RoPE、ALiBi）があります。RoPEの核心的なアイデアは、回転行列を通じて位置情報をQとKのドット積に組み込み、内積に相対位置情報を自然に含ませることです。RoPEの利点：外挿性が良い、NTK-aware補間でより長いコンテキストに拡張可能；計算効率が高い、追加の位置埋め込みパラメータが不要；相対位置を認識、相対距離を自然にモデリング。現在、主流のLLMは基本的にRoPEを使用しています。

3. マルチヘッドアテンションの役割は？ヘッド数の選び方は？

評価ポイント：マルチヘッドメカニズムの動機と設計選択を理解しているか。

回答方向：マルチヘッドアテンションにより、モデルは異なる部分空間で異なる情報パターンに注目でき、CNNのマルチチャンネルに似ています。各ヘッドは異なるアテンション分布を学習し、局所的な構文に注目するものもあれば、長距離の意味に注目するものもあります。ヘッド数は一般的に次元/ヘッド次元で、例えば768次元なら12ヘッド（各ヘッド64次元）を使用します。ヘッド数は多いほど良いわけではなく、多すぎると各ヘッドの次元が小さくなり、表現力が不足します。GQA（グループ化クエリアテンション）は最近の改善で、複数のQヘッドがK/Vヘッドを共有し、推論時のKV Cacheオーバーヘッドを削減します。

4. FFN層の役割は？GLU変種を使う理由は？

評価ポイント：フィードフォワードネットワークの役割とGLU活性化の利点を理解しているか。

回答方向：FFNはTransformerの「記憶」モジュールです。Attentionが情報のルーティングを担当し、FFNが情報の処理と保存を担当します。標準FFNは2層の線形変換+ReLU活性化です。GLU変種（SwiGLUなど）はゲート機構を導入し、数式はSwish(xW1)⊙(xW2)で、⊙は要素ごとの乗算です。GLUの利点：表現力が強い、ゲート機構が情報を動的にフィルタリング；訓練がより安定、Swish活性化は深層ネットワークでReLUより良い性能を発揮。LLaMAやMistralなどのモデルはSwiGLUを使用しています。

2. 事前学習（4問）

5. 事前学習の目的関数は？CLMを使う理由は？

評価ポイント：言語モデリング目標の選択を理解しているか。

回答方向：事前学習には主に2つの目標があります：CLM（因果言語モデリング、自己回帰的次トークン予測）とMLM（マスク言語モデリング、マスクされたトークンの予測）。現在、主流のLLMはCLMを使用しています。理由：生成タスクと自然に整合、下流アプリケーションは主に生成的タスク；訓練データの利用率が高い、各トークンがラベルとして訓練に参加；スケーラビリティが良い、CLMのスケーリング則がより明確。MLMはステップごとの情報密度が高いですが、生成的タスクとのギャップがあり、現在は主にBERTなどのエンコーダーモデルに使用されています。

6. 事前学習データのクリーニングの主要なステップは？

評価ポイント：データ品質がモデル性能に与える影響を理解しているか。

回答方向：データクリーニングはLLM訓練で最も過小評価されがちな部分です。主要なステップ：重複排除（MinHash/LSHで記憶効果を回避）；品質フィルタリング（小規模モデルでスコアリング、低品質ページを除外）；有害コンテンツフィルタリング（安全分類器で暴力的/性的コンテンツを除外）；PII除去（個人識別情報の匿名化）；言語識別（対象外言語データの除外）；フォーマットクリーニング（HTMLタグ、テンプレートテキストの除去など）。データ品質がモデルの上限を直接決定します。GPT-4の訓練データクリーニングパイプラインはモデルアーキテクチャより複雑だと言われています。

7. 訓練の不安定性のトラブルシューティング方法は？loss spikeの対処法は？

評価ポイント：LLM訓練のエンジニアリング課題を理解しているか。

回答方向：訓練の不安定性はLLM訓練で最も頭を悩ませる問題です。トラブルシューティングのアプローチ：データを確認（ダーティデータや異常分布がないか）；勾配を確認（勾配ノルムを監視、爆発/消失がないか）；学習率を確認（ウォームアップは十分か、ピークは高すぎないか）；精度を確認（混合精度訓練でオーバーフローがないか）。Loss spikeの対処：最も直接的な方法はspike前後のチェックポイントをスキップし、安定したポイントに戻って再訓練すること；学習率を下げる、勾配クリッピングの閾値を上げることも可能です。MetaはLLaMAの訓練時に7段階の学習率スケジュールを使用して安定性を維持しました。

8. 長コンテキストの実装方法は？技術的アプローチは？

評価ポイント：長コンテキスト拡張の技術ルートを理解しているか。

回答方向：長コンテキストには主に3つのアプローチがあります：訓練時拡張（より長い系列長で直接訓練、コストは高いが効果は最高）；位置エンコーディングの外挿（NTK-aware補間、YaRNなど、RoPEの周波数ベースを調整してコンテキストウィンドウを拡張）；推論時拡張（StreamingLLM、アテンションシンクなど、シンクトークンとローカルウィンドウのKV Cacheのみを保持）。実際には組み合わせて使用することが多く：4Kで事前学習→NTK-awareで32Kに拡張して継続事前学習→長いデータでファインチューニング。GPT-4の128Kコンテキストはこの方法で実現されています。

3. ファインチューニング（4問）

9. SFTデータの構築方法は？落とし穴は？

評価ポイント：指示ファインチューニングの実践的な詳細を理解しているか。

回答方向：SFTデータ構築の核心は多様性と品質です。データソース：人手アノテーション、GPT-4生成、オープンソースデータセットのクリーニング。主要な落とし穴：フォーマットの一貫性（異なるソースのデータフォーマットを統一しないとモデルが混乱）；長さ分布（短い回答ばかりではなく、長文生成サンプルも必要）；拒否サンプル（モデルが拒否すべき回答のサンプルを含める、そうしないと何でも答えてしまう）；重複排除（類似指示は重複排除しないと過学習になる）。データ量は多くなくても良く、LIMA論文は1000件の高品質SFTデータで良い結果が得られることを示しました。

10. LoRAとQLoRAの違いは？選び方は？

評価ポイント：パラメータ効率的ファインチューニングの原理と選択を理解しているか。

回答方向：LoRAは元の重み行列の横に低ランク分解行列ΔW=BAを追加し、訓練時はAとBのみを更新します。QLoRAはLoRAに3つの最適化を追加：4-bit NormalFloat量子化（NF4データ型を使用、より精密な量子化）；二重量子化（量子化定数をさらに量子化してメモリを節約）；ページドオプティマイザ（CPU メモリのページングでオプティマイザの状態を処理しOOMを回避）。選択：メモリが十分ならLoRA、メモリが厳しければQLoRA。QLoRAの精度損失は最小で、基本的にLoRAの代わりになります。ランクrは一般的に8-64で、タスクが複雑なほどrは大きくします。

11. RLHFのプロセスは？PPO訓練の難点は？

評価ポイント：人間フィードバックからの強化学習の完全なパイプラインを理解しているか。

回答方向：RLHFは3つのステップ：報酬モデルの訓練（人間の嗜好データでスコアリングモデルを訓練）；PPOでポリシーモデルを最適化（報酬を最大化しつつKLダイバージェンスを制約、あまり逸脱しないように）；反復最適化（新しい嗜好データを収集して上記を繰り返す）。PPOの難点：訓練が不安定（報酬モデルとポリシーモデルの更新が互いに干�しやすい）；KL制約の調整が難しい（緩すぎるとリワードハッキング、厳しすぎるとモデルが学べない）；メモリオーバーヘッドが大きい（4つのモデルを同時にロードする必要：ポリシー、参照、報酬、価値）。InstructGPTは非常に精密なハイパーパラメータ調整で安定した訓練を実現しました。

12. DPOのRLHFに対する利点は？

評価ポイント：直接嗜好最適化の原理と優劣を理解しているか。

回答方向：DPOの核心的なアイデアは報酬モデルをスキップし、嗜好データで直接ポリシーを最適化することです。数学的導出により、特定の条件下で最適ポリシーを嗜好データで直接パラメータ化できることを証明し、損失関数はlog-sigmoid形式になります。DPOの利点：報酬モデルの訓練が不要、パイプラインがシンプル；訓練がより安定、PPOの4モデル同時訓練問題がない；計算コストが低い、2つのモデルのみ必要（ポリシー+参照）。欠点：RLHFほどの汎化性がない、DPOは訓練データ内の嗜好のみを最適化し、新しい嗜好次元に汎化できない；データ品質に敏感、ノイズのある嗜好データが直接ポリシーに影響する。実際にはDPOとRLHFそれぞれに適用場面があり、単純なアライメントにはDPO、複雑なアライメントにはRLHFがより柔軟です。

4. 推論（4問）

13. KV Cacheの原理は？最適化方法は？

評価ポイント：推論高速化の核心技術を理解しているか。

回答方向：KV Cacheは自己回帰生成時にすでに計算されたKとVの行列をキャッシュし、重複計算を回避します。各新しいトークンはキャッシュされたKVとのみアテンション計算を行い、以前の全トークンのKVを再計算する必要がありません。最適化方法：GQA/MQA（複数のQヘッドがKVヘッドを共有し、KV Cacheサイズを削減）；量子化（KV Cacheを8-bitまたは4-bitで保存）；PagedAttention（vLLMのアプローチ、OSのメモリ管理のようにKV Cacheを管理し断片化を回避）；スライディングウィンドウ（最近のWトークンのKVのみを保持、Mistralのスライディングウィンドウアテンションなど）。KV CacheはLLM推論の最大のメモリボトルネックであり、最適化の余地が大きいです。

14. 量子化の種類は？INT8とINT4の精度損失は大きい？

評価ポイント：モデル量子化の原理と効果を理解しているか。

回答方向：量子化は訓練後量子化（PTQ）と量子化認識訓練（QAT）に分かれます。PTQはさらに重みのみ量子化と重み+活性化量子化（W8A8、W4A16など）に分かれます。INT8重み量子化の精度損失は最小で、ほぼ性能に影響しません；INT4重み量子化は7B以上のモデルでは許容範囲ですが、小規模モデル（1-3B）では明らかな劣化があります。主要な技術：GPTQ（ヘッセ情報を用いて量子化誤差を補償する層ごとの量子化）；AWQ（活性化認識に基づく重み量子化、重要なチャンネルを保護）；SmoothQuant（活性化の量子化の難しさを重みに移行）。現在W4A16が最も主流の推論量子化スキームです。

15. 投機的デコーディングとは？どれくらい高速化できる？

評価ポイント：投機的推論の原理と高速化効果を理解しているか。

回答方向：投機的デコーディングの核心的なアイデアは、小規模モデル（ドラフトモデル）で複数の候補トークンを迅速に生成し、大規模モデルが1回のフォワードパスでこれらのトークンを検証することです。小規模モデルが生成したk個のトークンのうちn個が大規模モデルに受け入れられた場合、1回のフォワードパスでn+1個のトークンを生成したことになります（n個の受け入れられたもの+大規模モデル自身が生成した1個）。高速化率は小規模モデルと大規模モデルの分布の一致度に依存し、一致が良いほど高速化が高いです。実際には通常2-3倍の高速化が得られ、精度損失はありません。Medusaは投機的デコーディングの改良版で、大規模モデルに複数の予測ヘッドを追加して並列に候補トークンを生成し、別の小規模モデルを不要にします。

16. 主流の推論フレームワークは？選び方は？

評価ポイント：推論フレームワークのエコシステムと選択基準を理解しているか。

回答方向：主流フレームワーク：vLLM（PagedAttention、高スループット、オンラインサービスに適している）；TGI（HuggingFace製、機能豊富、デプロイが簡単）；TensorRT-LLM（NVIDIA製、GPU最適化が極致、ただし学習コストが高い）；llama.cpp（CPU/Apple Silicon推論、ローカルデプロイに適している）；MLC-LLM（コンパイル最適化、クロスプラットフォーム）。選択のアドバイス：オンラインサービスにはvLLMまたはTGI、極致の性能にはTensorRT-LLM、ローカル開発にはllama.cpp。vLLMは現在コミュニティが最も活発で、ほとんどのチームの第一選択です。

5. 応用（4問）

17. RAGのプロセスは？効果を向上させる方法は？

評価ポイント：検索拡張生成の実践を理解しているか。

回答方向：RAGプロセス：ユーザー質問→Embedding→ベクトル検索→コンテキスト結合→LLM生成。効果向上の方法：検索最適化（ハイブリッド検索：ベクトル+キーワード、リランキング：Cross-Encoderで精密ランキング）；チャンキング最適化（意味的チャンキングで固定長チャンキングを代替、親子ドキュメント戦略）；クエリ最適化（クエリ書き換え、マルチクエリ拡張、HyDE仮説的ドキュメント埋め込み）；生成最適化（コンテキスト圧縮、引用追跡、ハルシネーション検出）。RAGの最大の落とし穴は検索品質です。関連ドキュメントが検索できなければ、生成がいくら良くても意味がありません。まず検索最適化に80%の労力を費やすことをお勧めします。

18. エージェントのコアアーキテクチャは？設計方法は？

評価ポイント：AIエージェントの設計パターンを理解しているか。

回答方向：エージェントの核心は知覚-決定-実行ループです：LLMを頭脳として、環境情報を受信→次の行動を考える→ツールを呼び出して実行→結果を観察→考えを続ける。主流アーキテクチャ：ReAct（推論+行動の交互、シンプルだがトークン消費が多い）；Plan-and-Execute（完全な計画を立ててから段階的に実行、複雑なタスクに適している）；LATS（言語エージェントツリー検索、モンテカルロツリー検索で計画）。設計のポイント：ツール定義は明確に（名前、説明、パラメータスキーマ）；エラー処理は万全に（ツール呼び出し失敗時のリトライ/フォールバック）；コンテキスト管理は適切に（対話履歴が長すぎる場合は切り詰め/要約）。

19. プロンプトエンジニアリングのテクニックは？

評価ポイント：プロンプトエンジニアリングの核心的な方法を習得しているか。

回答方向：核心的なテクニック：ロール設定（モデルに専門的な役割を与え、より専門的な出力を得る）；フューショット学習（例をいくつか与え、モデルがタスクフォーマットを素早く理解）；思考の連鎖（「ステップバイステップで考えよう」を追加し、モデルに推論過程を示させる）；構造化出力（JSON/Markdownフォーマットを要求し、後処理を容易に）；自己一貫性（複数回サンプリングで多数決、信頼性を向上）；段階的指示（複雑なタスクを複数ステップに分割、各ステップに明確な指示）。高度なテクニックにはメタプロンプト（モデル自身にプロンプトを最適化させる）や自動プロンプト最適化（OPROのようにLLMで最適なプロンプトを検索）があります。

20. マルチモーダルLLMはどう作る？課題は？

評価ポイント：マルチモーダルモデルの技術ロードマップを理解しているか。

回答方向：主流のアプローチ：エンコーダー-アライメント-LLM、視覚エンコーダー（ViTなど）で視覚特徴を抽出し、投影層で言語空間にアライメントしてからLLMに入力。代表的なモデル：LLaVA（単純な線形投影）、Qwen-VL（クロスアテンション）、GPT-4V（詳細は非公開だが類似と推測）。核心的な課題：モダリティアライメント（視覚と言語の意味空間の差が大きく、アライメント品質がマルチモーダル理解能力を決定）；高解像度処理（画像解像度が高いとトークン数が爆発、動的解像度やパッチ戦略が必要）；訓練データ（高品質な画像-テキストペアデータが希少、慎重な構築が必要）；ハルシネーション（マルチモーダルモデルは視覚的ハルシネーションを起こしやすく、専用のアライメント訓練が必要）。

心得とアドバイス

LLM面接の準備で最も感じたことは、基礎は必ず確実にということです。Transformerの各詳細を完全に理解し、結論を暗記するだけでは不十分です。面接官は「なぜ」と深掘りするのが好きです。RoPEが良いと言えば「なぜRoPEは外挿できるのか」と聞かれ、DPOがシンプルと言えば「DPOの数学的導出は何か」と聞かれます。各知識ポイントについて、何を知るだけでなく、なぜを理解する必要があります。

2つ目のアドバイスは最新動向に注目することです。LLM分野の発展は信じられないほど速く、半年前の知識はすでに時代遅れかもしれません。面接前には必ず過去3ヶ月の論文、特に各社の最新研究を読んでください。私の面接ではGQAを知らなかったことを面接官に指摘され、とても恥ずかしい思いをしました。

3つ目のアドバイスは実践的な経験を積むことです。読むだけでは不十分で、少なくともHuggingFaceでSFTとLoRAファインチューニングを実行し、vLLMで推論サービスをデプロイし、LangChainでRAGシステムを構築した経験が必要です。面接官は実践的な経験を高く評価し、遭遇した落とし穴を語れることは理論の暗記より百倍価値があります。

FAQ

Q：LLM面接にLeetCodeは必要？

A：ポジションによります。研究志向のポジションなら、アルゴリズム問題は一般的に出題されず、主に理論と導出がテストされます。エンジニアリング志向のポジション（推論最適化、訓練フレームワークなど）では、中程度の難易度のアルゴリズム問題が出題される可能性があります。最低50問の中程度問題を解くことをお勧めします。

Q：LLM訓練経験がない場合は？

A：オープンソースモデルでファインチューニング実験を行い、HuggingFaceのTRLライブラリでSFT/DPOを実行し、vLLMで推論をデプロイできます。これらはすべて履歴書に書けます。重要なのは、具体的な技術的詳細と遭遇した落とし穴を語れることです。

Q：面接で分からない問題を聞かれたら？

A：詳しくないと正直に言い、自分の理解の方向性を共有しましょう。例えば、特定の論文について聞かれた場合、「この論文は読んでいませんが、問題から推測すると、アプローチは...かもしれません」と言えます。面接官は記憶力より思考力を重視します。

Q：どの論文を読むべき？

A：必読：Attention Is All You Need、GPTシリーズ、LLaMAシリーズ、InstructGPT（RLHF）、DPO。推奨：Flash Attention、vLLM、RAG関連論文。少なくとも必読論文の方法セクションは注意深く読んでください。

Q：LLM面接と従来のML面接の違いは？

A：従来のML面接は数学的導出と統計的基礎に重点を置き、LLM面接はシステムエンジニアリングと最先端技術に重点を置きます。ただし基礎は共通しており、まず従来のMLの基礎を固めてから、LLM固有の知識を学ぶことをお勧めします。

#LLM#Transformer#RLHF#DPO#LoRA#KV Cache#RAG#Agent#Interview Trivia#大規模言語モデル