拼多多資料分析師面試經歷：SQL+Python+業務洞察+AB實驗全考察

面試2025年4月18日作者: 美歷團隊

2年資料分析經驗，詳細復盤拼多多資料分析師面試三輪技術面全過程，涵蓋SQL視窗函式、Python pandas、AB實驗統計原理、PSM因果推斷等核心考點

背景介紹

我做了2年資料分析，之前在一家電商公司做使用者增長方向的資料分析。拼多多的資料分析崗一直是我非常想去的，因為拼多多的資料驅動文化在整個互聯網圈都是出了名的——據說他們連一個按鈕的顏色都要做AB實驗來決定。我投的是拼多多資料分析師崗，整個面試流程大概兩週半，節奏非常快，三輪技術面+一輪HR面，中間幾乎沒有等待時間。

準備面試的時候，我重點複習了SQL視窗函式（這塊我之前其實不太熟）、Python pandas的高階用法、AB實驗的統計原理，還有業務case的分析框架。說實話，拼多多的面試確實很偏實戰，不是那種背背八股文就能過的，每個問題都和實際業務緊密結合。

面試流程復盤

一面：SQL視窗函式 + Python pandas

一面的面試官是個女生，應該是資料團隊的資深分析師。開場先讓我自我介紹，然後直接開始寫SQL。

第一道SQL題就讓我有點懵：給定一個使用者訂單表，求每個使用者最近3筆訂單的平均金額，要求用視窗函式實現。我寫了ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC)的方案，然後用子查詢篩選rn <= 3再做聚合。面試官說思路沒問題，但追問了如果有使用者不足3筆訂單怎麼辦？ROWS BETWEEN和RANGE BETWEEN的區別是什麼？我解釋了不足3筆的情況會自然處理，然後說了ROWS是按物理行偏移、RANGE是按邏輯值偏移的區別。

第二道SQL題更難：求每日新增使用者的次日留存率，要求一條SQL完成。這個題我之前練過類似的，用了自連線+條件聚合的方案。先找出每個使用者的首次登入日期作為新增日期，然後LEFT JOIN次日的登入記錄，最後算留存率。面試官追問了如果資料量很大，這個查詢怎麼最佳化，我提到了分割槽表、索引最佳化、以及用CTE替代子查詢來提高可讀性。

Python部分：pandas的groupby和agg的鏈式操作，如何實現多級聚合？我現場寫了一段程式碼，演示了groupby + agg的用法，包括自定義聚合函式。面試官又問了一個實際場景：如果資料有1億行，pandas處理不了怎麼辦？我提到了chunk讀取、Dask平行計算、以及Spark的方案。面試官似乎比較滿意，還追問了Dask和Spark的適用場景對比。

一面最後問了一個開放題：如果老闆讓你分析為什麼上週GMV下降了20%，你會怎麼分析？我從時間維度、渠道維度、品類維度、使用者維度四個角度說了拆解思路，然後提到了要排除節假日等外部因素。面試官說「思路挺清晰的」，給了我二面機會。

一面大概55分鐘，SQL部分佔了大頭，Python相對少一些。

二面：AB實驗 + 業務case

二面的面試官是資料團隊的負責人，風格更偏業務討論。開場就問了一個讓我緊張的問題：AB實驗的p值是什麼意思？如果p值小於0.05，能說明實驗一定有效嗎？我解釋了p值是在原假設為真的條件下觀察到當前或更極端結果的機率，然後說了p值小於0.05只是在統計上顯著，不代表業務上一定有意義。面試官追問了什麼是統計功效（power）？為什麼它很重要？我解釋了統計功效是不犯第二類錯誤的機率，以及power不足會導致假陰性。

AB實驗設計題：如果要測試一個新的推薦演算法，你會怎麼設計實驗？需要考慮哪些因素？我從實驗分組（隨機化、分層）、樣本量計算（基於MDE和power）、實驗週期（考慮週期效應）、指標選擇（主指標+護欄指標）幾個方面詳細說了。面試官追問了如果實驗組和對照組的樣本量不等，會有什麼影響？我解釋了變數的不對稱性，以及為什麼通常建議等分。

業務case環節：拼多多要做百億補貼活動，你怎麼評估活動的效果？這個題很大，我從增量效應（用DID或PSM方法）、長期影響（使用者LTV變化）、溢出效應（對非補貼商品的影響）三個維度說了分析框架。面試官對PSM部分很感興趣，追問了PSM的原理是什麼？傾向得分怎麼計算？匹配方法有哪些？我詳細說了邏輯迴歸計算傾向得分、最近鄰匹配和核匹配的方法，以及平衡性檢驗的步驟。

二面還問了一個很實際的問題：如果AB實驗的結果和業務直覺矛盾，你怎麼辦？我說首先要檢查實驗設計是否有問題（隨機化是否成功、是否有溢出效應），然後檢查資料品質，最後如果都沒問題，要尊重資料但也要理解背後的原因。面試官對這個回答似乎比較認可。

三面：資料驅動決策 + HR面

三面是交叉面，面試官來自另一個資料團隊。風格更像是在聊專案，問了我之前做過的最有影響力的分析專案。我選了一個使用者流失預警的專案，詳細講了從特徵工程到模型選型到業務落地的全過程。面試官追問了你怎麼衡量這個分析專案的業務價值？我說了透過干預後的留存率提升來量化，以及如何用AB實驗來歸因。

資料驅動決策題：如果產品經理提出了一個需求，但你的資料分析表明這個需求可能不會有正向效果，你怎麼溝通？我分享了一個真實經歷：我曾經用資料說服產品經理放棄一個功能，關鍵是把資料分析的結果翻譯成業務語言，而不是直接甩資料。面試官點了點頭。

HR面比較常規，問了職業規劃、為什麼選拼多多、期望薪資等。HR很坦誠地說拼多多節奏確實快，但成長也快，讓我做好心理準備。

真題彙總

一面：

1. SQL視窗函式：求每個使用者最近3筆訂單的平均金額

2. ROWS BETWEEN和RANGE BETWEEN的區別

3. SQL：求每日新增使用者的次日留存率

4. 大資料量SQL查詢最佳化

5. pandas多級聚合的鏈式操作

6. 大資料量下pandas的替代方案（Dask vs Spark）

7. 開放題：GMV下降20%的分析思路

二面：

1. AB實驗p值的含義和侷限性

2. 統計功效（power）的概念和重要性

3. 推薦演算法AB實驗設計

4. 實驗組和對照組樣本量不等的影響

5. 百億補貼活動效果評估

6. PSM原理、傾向得分計算和匹配方法

7. AB實驗結果與業務直覺矛盾的處理

三面：

1. 最有影響力的分析專案深挖（使用者流失預警）

2. 如何衡量分析專案的業務價值

3. 資料分析與產品經理的溝通策略

4. 職業規劃、為什麼選拼多多

心得建議

1. SQL視窗函式是必考項：拼多多的資料分析面試一定會考視窗函式，而且不是簡單的ROW_NUMBER，會考ROWS/RANGE、滑動視窗、累計聚合等高階用法。建議把視窗函式的所有用法都練一遍。

2. AB實驗要理解統計原理：不只是會算p值，要理解假設檢驗的完整框架、統計功效、多重比較校正等。拼多多非常看重你對實驗方法論的理解深度。

3. 業務case要有框架：不要想到哪說到哪，要有結構化的分析框架。我常用的框架是：定義問題 → 拆解維度 → 提出假設 → 驗證假設 → 給出結論。面試官很看重你的分析邏輯。

4. Python不能只停留在pandas：雖然日常用pandas就夠了，但面試會問大資料場景下的替代方案。Dask和Spark至少要了解基本概念。

5. 溝通能力和技術能力同樣重要：三面和HR面都會考察你怎麼把資料洞察傳達給非技術的人。資料分析不只是寫SQL，更是用資料影響決策。

FAQ

Q：拼多多資料分析面試對SQL的考察深度如何？

A：很深，不只是簡單的查詢，一定會考視窗函式和複雜聚合。建議多練LeetCode上的SQL題，尤其是Hard級別的。

Q：沒有AB實驗經驗可以面資料分析崗嗎？

A：比較難。拼多多的資料分析師幾乎每天都要和AB實驗打交道，這是核心能力。如果沒有實際經驗，至少要把統計原理搞清楚。

Q：業務case怎麼準備？

A：建議多看一些互聯網業務分析的實際案例，理解常見的分析框架（AARRR、RFM、歸因分析等）。面試時不要急著給答案，先確認問題邊界。

Q：面試節奏怎麼樣？

A：非常快，兩週半走完全流程。拼多多效率很高，每輪面完1-2天就有結果。節奏快也意味著準備時間短，建議提前充分準備。

Q：拼多多資料分析師的工作強度如何？

A：HR很坦誠地說節奏快。據我了解，拼多多確實加班比較多，但資料分析崗相對開發崗會好一些。資料驅動的文化是真的，每個決策都有資料支撐。

#數據分析#SQL#Python#AB實驗#拼多多#DoorDash#面試經歷