Tại sao Apache Kafka?
Apache Kafka là nền tảng streaming sự kiện phân tán được hàng nghìn công ty sử dụng để xây dựng pipeline dữ liệu thời gian thực, ứng dụng streaming và tích hợp hệ thống. Kafka đảm bảo độ trễ thấp và thông lượng cao ngay cả khi xử lý hàng triệu sự kiện mỗi giây.
Kiến trúc cơ bản
Một cluster Kafka gồm ba thành phần chính:
- Broker: node lưu trữ và phân phối message
- Producer: ứng dụng ghi dữ liệu vào topic
- Consumer Group: nhóm ứng dụng đọc song song từ các partition
Cấu hình cho môi trường production
# server.properties
num.partitions=12
default.replication.factor=3
min.insync.replicas=2
log.retention.hours=168
Kết luận
Việc thiết kế partition strategy đúng ngay từ đầu là yếu tố quyết định khả năng mở rộng của toàn bộ pipeline. Hãy luôn chạy load test trước khi triển khai production.