字节跳动数据工程师面试经历：数据仓库+实时计算+数据治理全考察

面试专题2025年3月15日作者: 美历团队

3年数据工程经验，完整复盘字节跳动数据工程师三轮技术面试，涵盖SQL、Hive、Spark、Flink实时计算、数据治理及系统设计，附真题汇总与备考建议。

背景介绍

先说下我的情况吧，3年数据工程经验，之前在一家中型互联网公司做数据平台相关的工作，主要用Hive和Spark做离线数仓，也接触过一些Flink实时计算的项目。今年年初开始看机会，字节跳动的数据工程师岗位是我最想去的，毕竟字节的数据平台在国内算是顶尖的了。

投简历是在字节官网直接投的，岗位是数据平台部的数据工程师。大概一周后收到了HR的电话，简单聊了下背景和期望，然后安排了一面。整个面试流程是三轮技术面+一轮HR面，跨度大概两周半。

面试流程复盘

一面：SQL+Hive+Spark（约60分钟）

一面的面试官是个看起来挺年轻的小哥，应该是组里的核心开发。开场先让我自我介绍，然后直接进入技术环节。

SQL部分：面试官给了两道SQL题，第一道是经典的用户留存率计算，要求写SQL算次日留存、7日留存。这个我之前准备过，用自连接的方式写出来了。第二道是行转列的问题，把学生的多科成绩从行格式转成列格式，我用CASE WHEN搞定了。面试官追问了下如果科目不固定怎么办，我说可以用动态SQL或者先查出所有科目再拼接。

Hive部分：问了Hive内部表的存储位置、分区和分桶的区别、Hive数据倾斜怎么处理。数据倾斜那块我聊得比较多，说了MapJoin、增加Reduce数量、拆分大key等方案，面试官似乎比较满意。

Spark部分：问了RDD、DataFrame、DataSet的区别，Spark的调度流程，以及一个Shuffle的原理。还问了一道编程题：用Spark统计UV和PV，要求考虑数据倾斜的情况。我写了用repartition+reduceByKey的方案，面试官又问如果某些key的数据量特别大怎么办，我说可以加盐打散再聚合。

一面结束的时候面试官说"基础还不错"，我心里稍微踏实了一点。

二面：Flink实时计算+数据治理（约75分钟）

二面的面试官是位资深的架构师，问题明显更深了。

Flink部分：先问了Flink的架构，JobManager、TaskManager、Slot的关系。然后重点问了Checkpoint机制，要求我详细解释Chandy-Lamport算法的原理，以及Exactly-Once语义是怎么保证的。这块我答得不算完美，Checkpoint的barrier对齐机制我说得有点含糊，面试官补充了一些。接着问了一个实际场景：如果Kafka消费延迟怎么排查？我从消费端处理能力、并行度设置、数据倾斜几个角度分析了。

数据治理部分：这部分是二面的重点。面试官问了我对数据治理的理解，包括数据质量、元数据管理、数据血缘等。他特别关注数据血缘的实现，问了我怎么自动采集血缘信息，我说可以通过解析SQL AST来提取表级和字段级血缘，面试官追问具体用什么工具，我说了Apache Atlas和自研方案。然后问了一个开放题：如果让你从零搭建数据治理体系，你会怎么做？我从组织架构、规范制定、工具建设、运营机制四个层面回答了，面试官频频点头。

二面结束的时候面试官说"你对数据治理的理解比很多候选人都深"，这句话让我信心大增。

三面：系统设计+HR面（约90分钟）

三面是部门负责人面的，主要考察系统设计能力和综合素质。

系统设计：面试官给了一个题目——设计一个实时数仓平台，支持秒级延迟的数据查询。我从Lambda架构讲到Kappa架构，说了用Flink做实时计算、ClickHouse做OLAP查询的方案。面试官追问了数据一致性怎么保证、离线和实时的数据怎么对账、ClickHouse的写入性能瓶颈怎么解决。这些问题都挺有挑战的，我结合自己的经验回答了，但有些地方确实不够深入，面试官也给了不少提示。

项目深挖：面试官让我详细讲了之前做的一个数据质量监控平台，从需求背景、技术选型、架构设计到遇到的问题和解决方案。我重点说了规则引擎的设计和异常检测算法的选择，面试官对规则引擎的扩展性提了几个问题。

HR面：HR问了职业规划、为什么选择字节、期望薪资等常规问题。我如实说了自己对数据工程的热情和想在大平台成长的期望。

真题汇总

1. 写SQL计算用户次日留存率和7日留存率

2. Hive分区和分桶的区别是什么？

3. Hive数据倾斜有哪些解决方案？

4. Spark中RDD、DataFrame、DataSet的区别？

5. Spark Shuffle的原理是什么？

6. 用Spark统计UV和PV，如何处理数据倾斜？

7. Flink的Checkpoint机制原理？Chandy-Lamport算法？

8. Flink如何保证Exactly-Once语义？

9. Kafka消费延迟怎么排查和解决？

10. 数据血缘如何自动采集？

11. 如何从零搭建数据治理体系？

12. 设计一个实时数仓平台，支持秒级延迟的数据查询

13. 离线和实时数据如何对账？

14. ClickHouse写入性能瓶颈如何解决？

心得建议

1. SQL一定要扎实：字节数据岗的SQL考察不是那种简单的CRUD，而是偏分析型的复杂SQL，窗口函数、多表关联、行转列这些都要熟练。建议多刷LeetCode的数据库题和牛客的SQL题。

2. 大数据组件原理要深入：不能只会用，还要懂原理。比如Spark的Shuffle机制、Flink的Checkpoint原理，这些在面试中几乎是必考的。建议读一下相关组件的源码，至少看核心模块。

3. 数据治理是加分项：很多候选人只关注计算引擎，忽略了数据治理。但实际上数据治理是数据工程师的核心能力之一，尤其是在大厂。建议了解Apache Atlas、Datahub等开源项目。

4. 系统设计要有全局观：三面的系统设计不是考你某个组件的细节，而是考你对整个数据平台的架构能力。平时多做技术选型的思考，多看业界的架构方案。

5. 项目经验要能讲清楚：面试官会深挖你的项目，从背景到方案到问题到结果，每个环节都要能说清楚。建议用STAR法则梳理自己的项目。

FAQ

Q：字节数据工程师面试对算法要求高吗？

A：相比纯开发岗，数据岗的算法要求没那么高，但基本的排序、查找、动态规划还是要会的。我这次没被问LeetCode Hard，但SQL题的难度不低。

Q：没有实时计算经验能过吗？

A：比较难。字节数据平台大量使用Flink做实时计算，这块是硬要求。如果没经验，建议至少做个Flink的demo项目，理解核心概念。

Q：面试周期一般多长？

A：我这次从一面到拿到offer大概三周，每轮面试间隔3-5个工作日。HR说正常流程是2-4周。

Q：三面系统设计有什么推荐的学习资料吗？

A：推荐《Designing Data-Intensive Applications》这本书，以及美团技术团队、字节技术团队的博客文章，里面有很多数据平台的架构实践。

#数据工程师#字节跳动#数据仓库#Flink#数据治理#Spark#面试经历