大手IT面接でAIプロジェクトをどう伝えるか:RAG・エージェント・ファインチューニングプロジェクトのテンプレート

AIプロジェクトプレゼン著者: BeautyResume チーム

6回の面接からまとめた3種類のAIプロジェクト発表テンプレート:RAG、エージェント、ファインチューニングプロジェクト。各テンプレートにSTAR構造、データ指標、面接官のフォローアップ対応を含む

背景紹介

2026年の面接シーズンで、非常に興味深い現象に気づきました:ほぼすべての候補者が履歴書にAI関連のプロジェクトを記載していましたが、面接官の評価は天と地ほどの差がありました。ある人はRAGプロジェクトを素晴らしく発表し、面接官が何度も頷いていましたが、同じようなプロジェクトでも別の人は面接官を退屈させていました。違いはどこに?それは「どう伝えるか」にあります。

私は前後して6回の面接に参加し、毎回AIプロジェクトの発表が含まれていました。最初のつたない発表から、後の余裕ある発表まで、3種類のAIプロジェクトの発表テンプレートをまとめました。これらのテンプレートは暗記用の原稿ではなく、思考を整理し、プロジェクトの価値を明確に伝えるためのフレームワークです。

面接プロセスの振り返り

初めてのAIプロジェクト発表:失敗経験

最初のAIプロジェクトはRAGナレッジベースQ&Aシステムでした。面接では大体こう説明しました:「LangChainを使ってRAGシステムを構築し、Chromaをベクトルデータベースに、GPT-4を生成モデルに使い、ナレッジベースのインテリジェントQ&A機能を実現しました。」

面接官は無表情で「それで?」と聞きました。私は呆然として、何を言えばいいかわかりませんでした。さらにいくつか質問されました:検索の精度は?キーワード検索と比べてどれくらい向上した?ハルシネーション問題はどう処理している?私はどれにも答えられず、非常に気まずい場面でした。

この教訓から気づきました:AIプロジェクトの発表は技術スタックの羅列ではなく、何の問題を解決したか、どう解決したか、結果はどうだったかを明確に伝えることです。

その後、こう発表するようになりました

何回かの面接の試行錯誤を経て、発表フレームワークをまとめました。後の面接では、同じRAGプロジェクトでも発表方法を変えると、面接官の反応が全く異なりました。以下に3種類のAIプロジェクトの発表テンプレートを詳しく書きます。

重要問題まとめ:3種類のAIプロジェクト発表テンプレート

テンプレート1:RAGプロジェクト(ベクトルデータベース+検索+生成)

STAR構造による発表:

Situation(背景):当社には10万件以上の技術ドキュメント、製品マニュアル、FAQを含む内部ナレッジベースがありました。従業員が情報を探すのに平均15分かかり、正確な答えが見つからないことがよくありました。ビジネス側は、従業員の質問に迅速かつ正確に答えられるインテリジェントQ&Aシステムを求めていました。

Task(課題):RAGシステムの設計と実装を担当。要件:1)回答精度>85%;2)応答時間<3秒;3)マルチターン対話のサポート。

Action(行動):

- ドキュメント処理:PDF、Word、Markdown等に対応するドキュメント解析パイプラインを開発。再帰的文字分割器でドキュメントを500トークンのチャンクに分割(50トークン重複)

- ベクトル化:OpenAI text-embedding-3-smallとBGE-large-zhを比較し、最終的にBGE-large-zhを選択。中国語シナリオで効果が高く、コストも低いため

- 検索戦略:ハイブリッド検索(ベクトル検索+BM25キーワード検索)を実装。RRFアルゴリズムで結果を融合、Top-K=5

- リランキング:BGE-rerankerを導入し検索結果をリランキング。Top-3の精度を大幅に向上

- 生成:GPT-4o-miniを使用し、厳格なプロンプトテンプレートで検索コンテキストに基づく回答を生成。不明な場合は明示的にユーザーに通知

- ハルシネーション制御:引用トレーサビリティ機能を実装し、各回答にソースドキュメントリンクを付与。信頼度閾値を設定し、閾値以下の場合は「関連情報が見つかりません」と通知

Result(結果):システムリリース後、回答精度がキーワード検索の62%から89%に向上。平均検索時間が15分から8秒に短縮。月間アクティブユーザー3000人以上。従業員満足度が3.2点から4.5点(5点満点)に向上。

データ指標(面接で必ず言及):

- 検索再現率:純粋なベクトル検索の72%からハイブリッド検索の91%に向上

- 回答精度:89%(500サンプルの人工評価)

- エンドツーエンド遅延:P95 < 2.8秒

- ハルシネーション率:初期の18%から5%に低下

面接官の可能性のあるフォローアップ質問:

- 「検索品質はどう評価した?どんな指標を使った?」→ 再現率、MRR、nDCGを使用。200クエリのground truthを手動注釈

- 「チャンクサイズはどう決定した?他のアプローチも試した?」→ 256/512/1024トークンを試行。500トークンが当社のシナリオで最適。短すぎると文脈が失われ、長すぎるとノイズが増える

- 「ハイブリッド検索の重みはどう調整した?」→ RRFアルゴリズムが自然に重みを処理するため、手動調整不要。加重融合の場合は検証セットで調整が必要

- 「マルチターン対話のコンテキストはどう処理した?」→ 対話履歴圧縮技術を使用。過去の対話を要約してコンテキストとして渡し、トークン制限を回避

- 「コストはどう管理した?」→ GPT-4の代わりにGPT-4o-miniを使用しコスト90%削減。高頻度クエリの結果をキャッシュ。OpenAI embeddingの代わりにローカルデプロイのBGEモデルを使用

テンプレート2:Agentプロジェクト(ツール呼び出し+計画+実行)

STAR構造による発表:

Situation(背景):運用チームは毎日200件以上のユーザーフィードバックを処理。返金、苦情、機能提案など多岐にわたる。手動分類と処理に時間がかかり、平均処理時間4時間、ユーザー満足度が低い。

Task(課題):AI Agentシステムの開発を担当。ユーザーフィードバックを自動分類し、対応ツールを呼び出して処理し、人間の介入が必要な場合はエスカレーション。要件:1)自動処理率>70%;2)誤分類率<5%;3)処理時間<5分。

Action(行動):

- Agentフレームワーク:LangGraphベースでマルチAgent協調システムを構築。分類Agent、処理Agent、レビューAgentを含む

- ツール定義:6つのツールを実装——注文照会、返金開始、チケット作成、通知送信、ナレッジベース検索、人間へのエスカレーション

- 計画戦略:ReAct(Reasoning + Acting)モードを使用。Agentがまず次のステップを推論し、ツールを呼び出して実行し、結果に基づいて推論を継続

- 安全メカニズム:返金額>500元は自動的に人間のレビューにエスカレーション。機密操作には二重確認が必要。すべての操作を監査ログに記録

- 縮退戦略:Agentが3回連続でツール呼び出しに失敗した場合、自動的に人間の処理にエスカレーションし、無限ループを防止

Result(結果):システムリリース後、自動処理率78%、誤分類率3.2%、平均処理時間が4時間から3分に短縮、運用チームの作業量65%削減。

データ指標(面接で必ず言及):

- 自動処理率:78%

- 誤分類率:3.2%

- 平均処理時間:3分(元4時間)

- ツール呼び出し成功率:96.5%

- 人間へのエスカレーション率:22%

面接官の可能性のあるフォローアップ質問:

- 「AutoGen/CrewAIではなくLangGraphを選んだ理由は?」→ LangGraphは実行フローの制御がより精細で、条件分岐やループをサポート。厳格なプロセス制御が必要な当社のシナリオに適している

- 「Agentのプロンプトはどう設計した?安定性はどう保証する?」→ 構造化プロンプトを使用。役割定義、利用可能ツールリスト、決定ルール、出力フォーマットを含む。エッジケースをカバーする大量のテストケースを作成

- 「Agentのハルシネーション問題はどう処理する?呼び出すべきでないツールを呼び出した場合は?」→ ツール呼び出し前に検証レイヤーを追加し、パラメータの妥当性をチェック。機密操作はレビューAgentの二重確認が必要。ツール呼び出しのホワイトリストを設定

- 「複数のAgent間の通信はどう行う?」→ 共有状態(State)を通じて情報を渡す。LangGraphのグラフ構造がノード間の状態フローを自然にサポート

- 「Agentの効果はどう評価する?」→ 200のテストシナリオを構築。正常フローと各種異常をカバー。自動処理率と誤分類率をコア指標として使用。毎週50ケースを手動レビュー

テンプレート3:ファインチューニングプロジェクト(データ準備+SFT+評価)

STAR構造による発表:

Situation(背景):当社はリーガルテック製品を開発しており、法律相談の質問に正確に回答できる大規模モデルが必要でした。汎用大規模モデルは法律分野でのパフォーマンスが不十分で、曖昧または誤った回答をすることが多く、専門的な要件を満たせませんでした。

Task(課題):オープンソース大規模モデルをベースに法律分野のファインチューニングを担当。要件:1)法律Q&A精度>90%;2)法的助言のハルシネーションなし;3)推論コストの制御。

Action(行動):

- ベースモデル選択:Qwen2.5-72B、Llama3.1-70B、DeepSeek-V2を比較し、最終的にQwen2.5-72Bを選択。中国語法律シナリオで最も良いパフォーマンス

- データ準備:5万件の高品質な法律Q&Aペアを収集。出典:法律試験の実際の問題(2万)、弁護士相談記録の匿名化データ(2万)、GPT-4生成の合成データ(1万)。データクリーニングと重複排除後、4.2万件を保持

- SFT訓練:LoRAを使用したパラメータ効率的ファインチューニング。rank=64、alpha=128。3エポック訓練、学習率2e-4、warmup ratio 0.1

- 評価体系:1000問の法律ベンチマークを構築。民法、刑法、商法など6つのサブドメインをカバー。精度+法律専門家スコアのデュアル指標を使用

- 安全性アライメント:DPOを使用して安全性アライメントを実施。モデルが損害を与える可能性のある具体的な法的助言を提供しないことを確保

Result(結果):ファインチューニング後、法律ベンチマークでの精度がベースの71%から92%に向上。法律専門家スコアが3.1から4.4(5点満点)に向上。ハルシネーション率が23%から6%に低下。デプロイ後の推論コストはGPT-4の1/10。

データ指標(面接で必ず言及):

- 法律Q&A精度:71%→92%

- 法律専門家スコア:3.1→4.4

- ハルシネーション率:23%→6%

- 訓練データ量:4.2万件

- 推論コスト:GPT-4の1/10

面接官の可能性のあるフォローアップ質問:

- 「データ品質はどう保証した?合成データがノイズを導入しないか?」→ 合成データは法律専門家がレビューし、スコア>4のもののみ保持。self-instruct+人間レビューのパイプラインを使用。合成データの割合を25%以下に制御

- 「フルファインチューニングではなくLoRAを使った理由は?」→ 計算リソースの制約。72Bモデルのフルファインチューニングには8×A100が必要。LoRAはフルファインチューニングに近い効果でより安定。rank=64が実験で最も良い結果

- 「モデルの過学習をどう判断する?」→ 訓練セットと検証セットのloss曲線を監視。検証セットでearly stoppingを実施。ホールドアウトテストセットで最終評価

- 「DPOのデータはどうやって入手した?」→ 法律専門家に同じ質問に対する複数の回答をランク付けしてもらい、chosen-rejectedペアを構築。3000ペアのDPOデータを収集

- 「本番環境のパフォーマンスはどう監視している?」→ 回答品質の自動評価パイプラインを実装し、別のLLMを審判として使用。毎週手動レビュー。ハルシネーションアラート閾値を設定

アドバイスと気づき

1. データ指標が魂。AIプロジェクトの発表には必ずデータが必要です。データのない発表は空中楼閣です。面接官が最も関心があるのは、何の技術を使ったかではなく、何の問題を解決し、結果がどうだったかです。

2. STAR構造が骨格。Situation-Task-Action-Resultで発表を整理すると、論理が明確で面接官が追いやすくなります。特にAction部分では、何をしたかだけでなく、なぜその決定をしたかを説明してください。

3. フォローアップ質問に備える。面接官は必ずフォローアップ質問をし、その深さは予想を超えることがよくあります。各プロジェクトについて5-8個の可能性のあるフォローアップ質問と回答を事前に準備することをお勧めします。特に技術選定の理由、遭遇した困難、トレードオフの考慮について。

4. 不足に正直に向き合う。完璧なプロジェクトはありません。面接官は問題を発見し解決する能力を、完璧さよりも重視します。プロジェクトの不足点や改善方向を自発的に話すことは、問題を隠そうとするよりも高く評価されます。

5. 自分の貢献とチームの貢献を区別する。面接官が知りたいのは、あなたが何をしたかであり、チームが何をしたかではありません。プロジェクトを話す際には、自分の役割と貢献を明確にし、チームの成果を自分のものとして語らないでください。

FAQ

Q:プロジェクトの効果データが理想的でない場合は?

正直に話し、原因の分析、試みた改善、学んだことを説明してください。面接官は完璧な数字よりも分析能力を重視します。

Q:プロジェクトはチームで行ったもので、私は一部だけ担当した。どう話す?

自分の役割と担当モジュールを明確にし、担当部分に焦点を当てる。「XXモジュールの設計と実装を担当しました」と言い、そのモジュールの詳細を深く説明してください。

Q:面接官のフォローアップの技術的詳細がわからない場合は?

でっち上げないでください。「この詳細については深く理解していませんが、私の理解はXXです。さらに確認が必要です」と言い、知っている関連知識を話して思考プロセスを示してください。

Q:RAGとファインチューニングはどう選ぶ?

シナリオによります:リアルタイムの知識更新や頻繁に変わるデータが必要な場合はRAGを使用。特定のスタイルやドメインの深さが必要な場合はファインチューニングを使用。両方を組み合わせることも可能。面接では、何を選んだかよりも選定の理由を明確に説明することが重要です。

Q:プロジェクトが比較的シンプルな場合、どう深みを持たせる?

深みはプロジェクトの複雑さではなく、問題に対するあなたの思考にあります。シンプルなプロジェクトでも、なぜこう設計したか、どんなトレードオフがあったか、効果をどう評価したか、どう改善するかを明確に説明できれば、深みを示すことができます。

#AI Projects#RAG#Agent#ファインチューニング#面接テクニック