Redpanda's Cloud Topics architecture fundamentally redesigns Kafka log compaction by decoupling storage from brokers. Instead of each replica independently compacting its local copy of the log (wasting CPU and risking tombstone race conditions), Cloud Topics stores committed data as immutable objects in shared object storage. Compaction runs once against this canonical copy, eliminating redundant work across replicas. A pull-based scheduler with a priority queue (using dirty ratio and max.compaction.lag.ms heuristics) distributes compaction work across any shard on any node. Multi-part uploads to object storage avoid disk spills, and optimistic concurrency via a compaction_epoch integer in the metastore prevents stale data from being re-added. The result is lower CPU overhead, reduced cloud storage costs, and correct Kafka compaction semantics without the coordination problems of traditional disk-based implementations.
Nguồn: https://www.redpanda.com/blog/how-redpanda-cloud-topics-rethinks-kafka-compaction. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Tempo 3.0, phiên bản mới của hệ thống truy vết phân tán mã nguồn mở, giới thiệu kiến trúc tương thích Kafka cho microservices, tách biệt đường đọc-ghi, giảm yêu cầu sao chép RF3 xuống RF1, và thay thế ingesters/compactors bằng block-builders, live-stores cùng scheduler. Tính năng TraceQL metrics giờ đã sẵn sàng, hỗ trợ truy vấn metric trực tiếp từ trace data cùng toán tử so sánh mới, cùng nhiều cải tiến khác như giới hạn cardinality theo label, tối ưu truy vấn TraceQL AST, và công cụ di chuyển từ phiên bản 2.x.
Lập trình viên phát triển ứng dụng microservices nên đọc vì Tempo 3.0 mang đến kiến trúc Kafka-compatible cải tiến, giúp tối ưu hóa quy mô, giảm chi phí vận hành và cung cấp công cụ TraceQL mạnh mẽ để phân tích hiệu suất trực tiếp từ dữ liệu theo dõi phân tán.
Kafka gặp lỗi CommitFailedException khi consumer bị loại khỏi nhóm do vượt quá timeout MAX_POLL_INTERVAL_MS khi chưa kịp poll dữ liệu, xảy ra khi xử lý record lâu hơn khoảng thời gian cấu hình. Giải pháp gồm điều chỉnh MAX_POLL_INTERVAL_MS/MAX_POLL_RECORDS_CONFIG hoặc chuyển sang xử lý bất đồng bộ bằng virtual threads kèm theo theo dõi offset theo partition. Phương pháp bất đồng bộ sử dụng CompletableFuture, ConcurrentHashMap và ConsumerRebalanceListener để commit an toàn các offset đang xử lý. Thêm vào đó, nên triển khai idempotency và Dead Letter Queue cho các message lỗi.
Lập trình viên cần đọc bài này để khắc phục lỗi CommitFailedException trong Kafka khi xử lý dữ liệu chậm, từ đó tối ưu hiệu suất và đảm bảo không mất dữ liệu trong trường hợp tái cân bằng nhóm.
Dapr 1.18 bổ sung tính năng Verifiable Execution, cung cấp khả năng xác minh bằng mật mã cho các ứng dụng phân tán và tác nhân AI thông qua lịch sử quy trình có chữ ký, truy xuất nguồn gốc và chính sách dựa trên bằng chứng. Bản phát hành cũng nâng cấp Jobs API lên ổn định, hỗ trợ hot reloading cho Component/Configuration, cải tiến runtime Actor cùng khả năng mạng IPv6/dual-stack.
Lập trình viên phát triển ứng dụng AI hoặc hệ thống phân tán cần đọc để hiểu cách Dapr 1.18 giúp xây dựng các giải pháp có thể chứng minh tính minh bạch, an toàn và tuân thủ quy định trong môi trường công nghệ mới, đặc biệt là khi cần chứng minh nguồn gốc và tính xác thực của các quyết định AI trong các ngành có yêu cầu nghiêm ngặt.
Apache Kafka có lỗ hổng trong cơ chế log compaction khiến dữ liệu bị hỏng do xung đột giữa compaction và replication, gây ra bốn vấn đề: dữ liệu đã xóa tái xuất hiện, giao dịch bị hủy hiện dưới dạng đã commit, dữ liệu đã commit bị ẩn, và consumers read_committed bị đóng băng partition. Redpanda Streaming khắc phục bằng giao thức compaction phối hợp, sử dụng các cặp offset (MCCO/MTRO, MXFO/MXRO) để đảm bảo tombstones và transaction markers không bị xóa trước khi tất cả replicas xử lý xong. Lỗi này có thể tái hiện trên Kafka phiên bản 3.9 đến 4.2 bằng Docker Compose.
Lập trình viên cần đọc bài này để hiểu cách giải quyết vấn đề lỗi race condition trong log compaction của Kafka, giúp tránh mất dữ liệu và bảo đảm tính nhất quán khi xử lý các trường hợp đồng bộ hóa dữ liệu trên nhiều broker.
Theo dõi (tracing) giúp phát hiện sớm các vấn đề tiềm ẩn khi thay đổi hệ thống bằng cách ghi lại luồng dữ liệu và sự kiện trong môi trường phân tán. Các thư viện phổ biến như OpenTracing, OpenTelemetry, Zipkin và Jaeger hỗ trợ tracing, trong khi Digma cung cấp khả năng quan sát (observability) để phản hồi kịp thời trong quá trình phát triển.
Lập trình viên nên đọc bài này để hiểu cách sử dụng tracing để phát hiện và tránh giải phóng lại (breaking changes) khi cập nhật mã, nhờ theo dõi và phân tích hành vi hệ thống trong môi trường phân tán.

Amazon Time Sync Service now supports microsecond accurate time on 26 additional EC2 instance types across all commercial regions. Built on AWS Nitro System infrastructure, this feature provides nanosecond precision hardware timestamps via Precision Time Protocol hardware clocks (PHC). Customers can access this capability by creating a Precision Time Placement Group (PTPG), a new placement strategy. For workloads requiring both low network latency and precision time, PTPGs can be associated with Cluster Placement Groups (CPGs), enabling distributed applications to order events, measure one-way network latency, and increase transaction speed.
Amazon EKS engineers share how they operate Kubernetes at fleet scale across hundreds of thousands of clusters. Key architectural changes include replacing etcd's Raft consensus with a purpose-built durable journal (eliminating quorum-loss failures and moving etcd to in-memory storage), collocating etcd with the API server for lower latency, and partitioning etcd into resource-specific shards for failure isolation. The post covers upstream Kubernetes fixes for watch-cache locking contention, HPA mutex bottlenecks, and scheduler inefficiencies. It also introduces EKS Provisioned Control Plane, which lets customers reserve control plane capacity in explicit tiers (XL–8XL) with SLA guarantees. Edge deployments on AWS Outposts use the same stack with self-healing etcd and offline-tolerant observability. Three operational lessons are shared: work queue depth as a better health signal than liveness probes, maintenance ordering to avoid blocking writes during etcd defragmentation, and keeping liveness and readiness signals strictly separate.
A beginner-friendly explainer of blockchain fundamentals that addresses why most people disengage from learning the technology. Covers the core concepts of Distributed Ledger Technology, the difference between centralized and distributed systems, peer-to-peer architecture, consensus mechanisms (Proof of Work and Proof of Stake), immutability, and the role of cryptography in enabling trustless coordination. Uses Bitcoin as a concrete example throughout.