月之暗面Kimi大模型應用開發面試經歷：RAG+Agent+Prompt Engineering全考察

大模型應用2025年4月2日作者: 美歷團隊

2年AI應用開發經驗面試月之暗面Kimi大模型應用開發崗位，三輪技術面詳細復盤，涵蓋Prompt Engineering實戰、RAG系統架構與優化、Agent框架設計等核心考點

背景介紹

我做了2年AI應用開發，之前在一家創業公司負責智能客服和知識庫產品的開發，主要用GPT的API做對話系統和文檔問答。大模型應用層爆火之後，我一直在研究RAG、Agent這些方向，也自己搞過一些開源項目。月之暗面的Kimi當時風頭正勁，長上下文能力特別強，我看到他們在招大模型應用開發工程師，覺得特別對口，就投了。結果三天就約了面試，效率很高。

面試流程復盤

一面：LLM基礎 + Prompt Engineering（約1小時）

一面的面試官比較年輕，應該是團隊裡的核心開發。開場先聊了聊我對大模型應用開發的理解，然後直接進入技術問題。

第一個問題：大模型的Temperature參數對生成結果有什麼影響？這個比較基礎，我回答了Temperature越高生成越隨機、越低越確定，還補充了top-p採樣的配合使用。面試官追問了什麼場景下該用高Temperature，什麼場景該用低Temperature，我說創意生成用高、事實問答用低，他點了點頭。

接下來是Prompt Engineering的實戰題：給你一個需求，讓大模型從一段文本中提取結構化信息，你怎麼設計Prompt？我現場寫了一個Few-shot的Prompt，包含了角色設定、輸出格式要求、示例。面試官看了之後問如果模型輸出格式不穩定怎麼辦，我說了用JSON Mode、添加格式約束、後處理兜底幾個方案。

還問了一個很有意思的問題：Chain-of-Thought和Tree-of-Thought的區別是什麼？我從推理路徑的廣度和深度做了對比，CoT是線性推理，ToT是樹狀搜索，面試官追問什麼場景下ToT比CoT更合適，我說了需要多步探索和回溯的複雜推理任務，比如數學證明、遊戲策略。

最後問了一個工程題：大模型API的並發限流怎麼處理？我說了令牌桶算法、請求隊列、多Key輪換、降級策略，面試官覺得方案比較全面。

二面：RAG + 向量數據庫（約1.5小時）

二面是RAG方向的技術專家，問得非常深入。

開場就是：請完整描述RAG系統的架構。我從文檔解析、分塊、向量化、索引構建、檢索、重排序、生成一路講下來，面試官在每個環節都追問了細節。

文檔分塊策略有哪些？怎麼確定chunk size？我介紹了固定大小分塊、語義分塊、遞歸分塊幾種方式，說chunk size要根據模型上下文長度和檢索精度來權衡。面試官追問分塊時怎麼保持語義完整性，我說了用句子邊界切分、添加重疊區域、元數據標註等方法。

向量數據庫怎麼選型？Milvus、Pinecone、Weaviate各有什麼特點？我從開源/託管、性能、生態幾個維度做了對比。面試官特別關注Milvus的索引類型選擇，我介紹了IVF_FLAT、IVF_SQ8、HNSW各自的適用場景，他似乎比較滿意。

然後是重頭戲：RAG中的檢索召回率不高怎麼優化？我列了幾個方向：混合檢索（向量+關鍵詞）、查詢改寫、多路召回、重排序模型。面試官對混合檢索特別感興趣，讓我詳細講了向量檢索和BM25檢索怎麼融合，我說了Reciprocal Rank Fusion（RRF）和加權融合兩種方式。

還問了一個很實際的問題：如果用戶query和文檔的語義gap很大，怎麼處理？我說了Query Rewrite、HyDE（假設性文檔嵌入）、多步檢索，面試官又追問了HyDE的原理和風險，我說了用LLM先生成假設性答案再檢索，風險是假設性答案可能有誤導。

三面：Agent + 項目深挖（約1.5小時）

三面是團隊負責人，聊Agent架構和項目經驗。

你對Agent的理解是什麼？和普通的LLM調用有什麼區別？我說了Agent的核心是自主決策和工具使用，有規劃、執行、反思的循環，而普通調用是一次性的。面試官追問ReAct框架的原理，我詳細講了Reasoning+Acting的交替過程。

Agent的工具調用怎麼設計？我講了Function Calling的接口設計、工具描述的編寫、多工具編排。面試官問了一個很關鍵的問題：如果Agent選錯了工具怎麼辦？我說了添加工具選擇的反思機制、人工確認環節、工具使用的約束條件。

項目深挖環節，面試官讓我講我做的知識庫問答項目。他問得特別細：文檔量多大？檢索延遲多少？準確率怎麼評估的？用戶反饋怎麼樣？我一一回答了，還主動說了項目中的踩坑經驗，比如長文檔分塊後上下文丟失的問題，我用元數據增強和上下文窗口擴展解決了。

最後是系統設計題：設計一個支持多輪對話、多文檔、多模態的知識庫問答系統。我從架構設計、技術選型、難點分析幾個方面說了，面試官說思路清晰，但提醒我要注意多模態檢索的精度問題和成本控制。

真題匯總

1. Temperature參數對生成結果的影響

2. Prompt設計：結構化信息提取

3. 模型輸出格式不穩定的解決方案

4. Chain-of-Thought和Tree-of-Thought的區別

5. 大模型API並發限流處理

6. RAG系統完整架構

7. 文檔分塊策略和chunk size確定

8. 向量數據庫選型（Milvus/Pinecone/Weaviate）

9. Milvus索引類型選擇

10. RAG檢索召回率優化

11. 混合檢索（向量+關鍵詞）融合方法

12. 用戶query和文檔語義gap大的處理

13. HyDE的原理和風險

14. Agent和普通LLM調用的區別

15. ReAct框架原理

16. Agent工具調用設計和錯誤處理

17. 設計多輪對話多文檔多模態知識庫問答系統

心得建議

1. Prompt Engineering不是玄學：要有系統的方法論，角色設定、格式約束、Few-shot示例這些技巧要熟練掌握，而且要知道每種技巧的適用場景。

2. RAG是大模型應用的核心：從文檔處理到檢索優化，每個環節都要深入理解，特別是混合檢索和重排序，這是實際項目中最常遇到的問題。

3. Agent是未來方向：雖然目前Agent的可靠性還不夠，但面試官很看重你對Agent架構的理解，ReAct、Function Calling這些要搞清楚。

4. 工程能力很重要：大模型應用不只是調API，並發控制、降級策略、監控告警這些工程問題面試官也會問。

5. 項目經驗要有深度：不只是做了什麼，還要說清楚遇到了什麼問題、怎麼解決的、效果如何，面試官最看重的是解決實際問題的能力。

FAQ

Q：面試對算法要求高嗎？
A：不算太高，更偏工程和應用。但基礎的算法知識還是要有，比如向量檢索的原理、排序算法等。

Q：需要現場寫代碼嗎？
A：一面有寫Prompt，二面有畫架構圖和寫偽代碼，三面主要是系統設計，沒有寫完整的項目代碼。

Q：月之暗面的技術棧是什麼？
A：面試中沒直接說，但從問題來看，Python為主，用了Milvus、LangChain這些常見的工具。

Q：對大模型原理需要了解多深？
A：應用層面試不需要深入到訓練層面，但Transformer的基本原理、注意力機制這些還是要知道的。

Q：面試結果多久出？
A：每面結束後2-3天給反饋，整體流程大概兩週完成。

#RAG#Agent#Prompt Engineering#向量數據庫#月之暗面#Kimi#Function Calling#ReAct