
一、先定架构4种主流必选一种1. 湖仓一体 Lakehouse企业首选最推荐- 优点统一存储、批流一体、ACID、成本低、支持结构化非结构化- 场景PB级数据、实时数仓、统一数据平台、多业务线- 技术栈Kafka Flink Spark Iceberg/Hudi Doris/StarRocks- 结论90%中大厂直接选这套2. Lambda 架构老系统兼容- 批流两套引擎离线Hive/Spark 实时Flink- 缺点维护两套、口径难统一- 结论不推荐新系统用3. Kappa 架构极简实时- 全部走流Kafka Flink 搞定批流- 场景实时为主、日志、监控、大屏- 结论实时业务优先4. 传统数仓Hive- 只做T1离线报表- 结论只适合传统小厂、不做主推二、核心组件选型直接给结论1消息队列必选- Kafka唯一选择- 高吞吐、持久化、流计算标准入口- 场景日志、CDC、实时入湖、流缓冲2数据同步采集- 业务库 CDCCanal / Debezium- 全量同步DataX- 实时入湖Flink CDC企业主流3计算引擎最关键离线计算- SparkETL、机器学习、批量计算实时计算流批一体- Flink实时数仓、实时报表、实时大屏、CEP结论Spark 离线 Flink 实时 企业标准组合4存储层湖仓一体核心分布式文件存储- HDFS / 云OSS数据湖底座湖仓表格式三选一- Iceberg通用、兼容好、推荐- HudiUpsert强、实时入湖首选- Paimon阿里新版、流批一体更强5OLAP 查询引擎最重要、决定快不快企业必选Apache Doris综合最强- 兼容MySQL、高并发、多表join强、易运维、实时写入- 场景报表、多维分析、用户画像、订单分析、BI单表极速ClickHouse- 单表查询最快、并发一般- 场景日志分析、时序、埋点存算分离、云原生StarRocks- 场景弹性扩缩、云上部署结论90%企业直接选 Doris 不会错6任务调度- DolphinScheduler开源最强、国产、易用- 企业级Airflow复杂、XXL-Job轻量7数据质量- Great Expectations- 阿里/华为内部DataWorks、DataArts8BI 可视化- Superset开源免费- FineBI国产企业级、权限强三、企业级标准技术栈直接抄方案A湖仓一体最通用、90%企业- 存储HDFS/OSS- 调度DolphinScheduler- 采集Flink CDC Canal- 计算Spark Flink- 查询Doris- 湖格式Iceberg方案B极简实时平台实时大屏、监控方案C原有Hadoop升级平滑迁移四、按场景直接给答案拿来就用1企业要统一大数据平台、实时离线 湖仓一体Kafka Flink Spark Iceberg Doris2只要快、报表多、并发高 Doris3日志、时序、单表超大、不怎么join ClickHouse4存量Hive太慢、不想迁移 Hive 存冷 Doris 查热5云原生、弹性扩缩 StarRocks OSS 托管Flink6小公司、简单报表、不想运维 Doris 单机/简单集群 DataX DolphinScheduler五、选型金标准面试/架构必背1. 架构首选湖仓一体2. 计算必选 Spark Flink3. OLAP 首选 Doris4. 实时入湖用 Flink CDC5. 湖格式用 Iceberg6. 调度用 DolphinScheduler7. 消息队列只用 Kafka六、一句话总结面试直接说大数据平台选型以湖仓一体为核心架构采用 Kafka Flink Spark Iceberg Doris 技术栈实现批流一体、统一存储、高并发低延迟查询满足企业离线ETL、实时数仓、BI报表、多维分析全场景需求。