Redpanda SQL introduces bridge queries, a feature that lets you query live Redpanda topic data and historical Iceberg table data together through a single virtual SQL table. This eliminates the classic streaming-to-lakehouse tradeoff between data freshness and Parquet file quality. Previously, frequent flushes to Iceberg were needed for low-latency analytics, resulting in thousands of tiny Parquet files, poor compression, high S3 costs, and constant compaction overhead. With bridge queries, the topic itself serves the freshness gap at query time, so Iceberg flushes can happen on a longer cadence (hours instead of seconds/minutes), producing larger, analytics-optimized Parquet files. Configuration involves raising the iceberg lag target and optionally the flush size threshold. The result is lower query latency, reduced S3 costs, and no need for a compaction service.
Nguồn: https://www.redpanda.com/blog/bridge-queries-in-redpanda-sql. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Apache Kafka có lỗ hổng trong cơ chế log compaction khiến dữ liệu bị hỏng do xung đột giữa compaction và replication, gây ra bốn vấn đề: dữ liệu đã xóa tái xuất hiện, giao dịch bị hủy hiện dưới dạng đã commit, dữ liệu đã commit bị ẩn, và consumers read_committed bị đóng băng partition. Redpanda Streaming khắc phục bằng giao thức compaction phối hợp, sử dụng các cặp offset (MCCO/MTRO, MXFO/MXRO) để đảm bảo tombstones và transaction markers không bị xóa trước khi tất cả replicas xử lý xong. Lỗi này có thể tái hiện trên Kafka phiên bản 3.9 đến 4.2 bằng Docker Compose.
Lập trình viên cần đọc bài này để hiểu cách giải quyết vấn đề lỗi race condition trong log compaction của Kafka, giúp tránh mất dữ liệu và bảo đảm tính nhất quán khi xử lý các trường hợp đồng bộ hóa dữ liệu trên nhiều broker.
Vibe.co, nền tảng quảng cáo TV kết nối bị Walmart mua lại, đã chuyển từ Postgres sang ClickHouse Cloud để xử lý hàng tỷ lượt hiển thị quảng cáo. Giải pháp này loại bỏ lớp tiền tổng hợp kém ổn định, mở rộng dữ liệu lưu trữ từ ~100 GB lên hơn 2 TB mà không cần thay đổi kiến trúc, đồng thời cung cấp 90%+ báo cáo chiến dịch cho khách hàng trong dưới 100ms.
Những kỹ thuật tối ưu hóa quy mô lớn của Vibe.co cho ClickHouse Cloud sẽ giúp bạn hiểu cách xử lý dữ liệu thời gian thực hiệu quả, giảm chi phí và tăng tốc độ báo cáo khi làm việc với lượng dữ liệu khổng lồ.
DuckDB phiên bản 1.5.4 (Variegata) vừa ra mắt với nhiều bản sửa lỗi quan trọng, tối ưu hiệu năng và vá lỗ hổng bảo mật. Phiên bản này cải thiện xử lý JSON, sửa lỗi crash nghiêm trọng như double free trong Arrow GeoArrow CRS, đồng thời bổ sung tùy chọn giao diện dòng lệnh (CLI) dark/light mode. Nhóm phát triển cũng hé lộ kế hoạch phát hành DuckDB 2.0.0 vào mùa thu sắp tới.
Lập trình viên cần đọc bài này để cập nhật về các cải tiến mới trong DuckDB, đặc biệt là các sửa lỗi quan trọng về kết hợp dữ liệu, xử lý JSON, và hiệu suất—điều này sẽ giúp họ tối ưu hóa các ứng dụng xử lý dữ liệu lớn và tăng tính ổn định cho hệ thống.
EDB bổ sung khả năng phân tích hội tụ cho dịch vụ cơ sở dữ liệu EDB Postgres AI, sử dụng Apache Iceberg làm lớp danh mục chia sẻ kết nối ClickHouse, WarehousePG và Spark, đồng thời cung cấp tính năng "agentic database" tự động hóa nhiệm vụ DBA định kỳ. Giải pháp này nhấn mạnh quyền kiểm soát dữ liệu tại chỗ cho doanh nghiệp, khác biệt với cách tiếp cận lakehouse của Databricks, và có mức giá theo lõi CPU ổn định hơn so với các nền tảng cloud theo mức tiêu thụ.
Lập trình viên cần đọc bài này để hiểu cách Postgres AI của EDB kết hợp với Iceberg và các công cụ phân tích khác để tạo ra một hệ sinh thái tích hợp, giúp tối ưu hóa quy trình phát triển ứng dụng AI với tính linh hoạt, kiểm soát dữ liệu và chi phí dự đoán hơn so với các giải pháp cloud tiêu thụ.
Daikin Applied Americas (DAA) scaled its data engineering practice by combining a structured operating model with Databricks Genie Code, an AI-assisted pipeline development tool. Rather than relying on ad hoc prompts, the team built a MECE (Mutually Exclusive, Collectively Exhaustive) skill framework where each skill encodes a specific data engineering competency — covering medallion architecture design, transformation patterns, canonical alignment and governance standards. These skills are loaded at runtime by Genie Code, replacing inconsistent prompt engineering with a governed execution model. The medallion architecture (Bronze/Silver/Gold) was reinforced with explicit checkpoints between layers, enforcing source grain definition, join validation and data stability checks before data advances. Pipelines are also anchored in stable business entities rather than technical structures, reducing ambiguity across teams. The result: pipeline prototyping that previously took days now takes minutes, outputs are more consistent across teams, and governance guardrails are embedded directly into the development workflow rather than enforced through downstream review.
Training-serving skew — the divergence between features used during model training and those seen at inference time — silently degrades ML accuracy and doubles infrastructure costs. The solution is a unified kappa architecture: compute features once in Apache Flink, dual-write to an offline store (Apache Iceberg or Delta Lake) for training and an online key-value cache for serving. DoorDash measured a 35.7% feature-value mismatch in their dual-pipeline setup; Netflix replaced a $93M/year dual-pipeline backfill with a $2M/year kappa replay. The reference architecture covers Kafka ingestion via Confluent's Kora engine, serverless Flink with event-time watermarks and exactly-once semantics, Tableflow for automated Iceberg/Delta materialization, and Stream Governance for schema enforcement and lineage. A tooling comparison covers Databricks, SageMaker+Kinesis, Tecton, Feast, and Confluent, with a decision framework based on latency requirements, existing stack investment, and pipeline fragmentation. The post is authored by a Confluent employee and promotes the Confluent Data Streaming Platform throughout.
As AI systems move beyond static training data, enterprises face a growing need for real-time web data infrastructure. Traditional model training on fixed snapshots is insufficient for use cases like dynamic pricing, market tracking, and reducing hallucinations. A new infrastructure layer — capable of emulating human browsing at massive scale, navigating anti-bot protections, and delivering structured data with low latency — is emerging to fill this gap. Bright Data's CEO argues that AI intelligence without a live knowledge layer is practically useless, and that 97% of AI organizations depend on real-time web data yet 90% feel constrained by access restrictions. Compliance with GDPR and CCPA is addressed through consent-based networks and public-data-only policies. This sponsored content promotes Bright Data's web data platform as a solution.
Bài viết hướng dẫn cách sử dụng Pulumi cùng provider @pulumi/databricks để triển khai một workspace Databricks có kiểm soát bằng TypeScript, bao gồm cluster policies, secret scopes, notebook, job ETL định kỳ và quản lý quyền truy cập. Giải pháp hỗ trợ multi-stack promotion (dev → prod) để duy trì governance controls nhất quán.
Lập trình viên cần đọc bài này để học cách tự động hóa và quản lý các quy tắc an toàn, chi phí và quyền hạn trong Databricks thông qua Pulumi, giúp giảm thiểu rủi ro từ cấu hình thủ công và tối ưu hóa quy trình triển khai từ dev đến sản xuất.