认识 Kafka)
一、什么是 KafkaKafka 是一款分布式、高吞吐、低延迟、持久化的消息队列/流处理平台。通俗的讲Kafka 就是一个“实时数据中转站数据蓄水池”上游业务/设备产生数据 → 发给 Kafka 存起来下游 Flink、服务、数仓 → 从 Kafka 实时拉取数据计算二、为什么大数据实时开发必须用 Kafka如果没有 Kafka业务系统直接调用计算服务流量暴涨会直接打崩服务数据瞬时峰值过高程序处理不过来导致丢失数据无法解耦生产端和消费端有了 Kafka削峰填谷瞬时海量数据先缓存下游慢慢消费解耦生产者只管发消费者只管读互不影响持久化数据落盘不会丢失支持回溯消费高吞吐支撑百万级 QPS车联网、日志、实时数据首选三、应用场景1. 实时数据传输车联网、物联网设备实时上报数据2. 实时计算配合 Flink 做实时清洗、统计、告警3. 日志收集系统日志、操作日志实时采集4. 业务解耦订单、支付、消息推送异步处理5. 数据同步实时同步数据库、数仓数据