Cloudflare has published details on Town Lake, its internal unified data platform, and Skipper, an AI-powered analytics agent built on top of it. Town Lake uses a lakehouse architecture combining Apache Trino, Apache Iceberg, Cloudflare R2 object storage, and DataHub for metadata management, enabling cross-system SQL queries spanning Postgres, ClickHouse, Kafka, BigQuery, and object storage without moving data. A default-closed governance model ensures new datasets undergo automated PII scanning and human review before access is granted. Skipper translates natural language questions into validated SQL queries using schema metadata, transformation lineage, and documentation. Billing workloads dominate usage at 53% of all queries, with 91,760 billing-related queries processed from 324 employees in a measured period. Future plans include deeper integration with internal chat and ticketing systems, expanded Transformer pipeline capabilities, and migration of additional workloads to R2 SQL.
Nguồn: https://www.infoq.com/news/2026/07/cloudflare-unified-data-platform. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Nhóm Cloudflare Images phát hiện lỗi điều kiện chạy (race condition) trong thư viện hyper HTTP (phiên bản 0.14–1.8) khi chuyển đổi sang sử dụng Unix sockets, khiến dữ liệu ảnh lớn bị cắt xén ngẫu nhiên do vòng lặp xử lý không chờ Poll::Pending từ poll_flush. Lỗi chỉ xuất hiện trong môi trường sản xuất với tải cao, không thể tái hiện bằng curl hay thử nghiệm cục bộ. Nhóm đã khắc phục bằng cách bổ sung 4 dòng lệnh vào poll_shutdown để đảm bảo dữ liệu được ghi hết trước khi đóng kết nối.
Lập trình viên cần đọc bài này để hiểu cách một lỗi race condition trong thư viện HTTP phổ biến (hyper) có thể gây ra vấn đề nghiêm trọng trong ứng dụng thực tế, đặc biệt khi kết hợp với các điều kiện concurrency và giao thức socket, và cách team phát hiện, debug và fix bằng cách quan sát syscall thực tế.
DuckDB phiên bản 1.5.4 (Variegata) vừa ra mắt với nhiều bản sửa lỗi quan trọng, tối ưu hiệu năng và vá lỗ hổng bảo mật. Phiên bản này cải thiện xử lý JSON, sửa lỗi crash nghiêm trọng như double free trong Arrow GeoArrow CRS, đồng thời bổ sung tùy chọn giao diện dòng lệnh (CLI) dark/light mode. Nhóm phát triển cũng hé lộ kế hoạch phát hành DuckDB 2.0.0 vào mùa thu sắp tới.
Lập trình viên cần đọc bài này để cập nhật về các cải tiến mới trong DuckDB, đặc biệt là các sửa lỗi quan trọng về kết hợp dữ liệu, xử lý JSON, và hiệu suất—điều này sẽ giúp họ tối ưu hóa các ứng dụng xử lý dữ liệu lớn và tăng tính ổn định cho hệ thống.
Sắc lệnh hành pháp 14409 của Mỹ yêu cầu các cơ quan liên bang và nhà thầu phải chuyển sang mã hóa hậu lượng tử (PQC) vào năm 2030 và xác thực hậu lượng tử vào năm 2031, nhằm ngăn chặn các cuộc tấn công "thu thập giờ đây giải mã sau". Cloudflare khuyến nghị cần làm rõ tiêu chuẩn "chuyển đổi", ưu tiên khả năng thích ứng mật mã (crypto agility) và thúc đẩy sự thống nhất toàn cầu về thuật toán NIST để tránh phân mảnh.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi sang các giải pháp mã hóa chống lượng tử (post-quantum) không chỉ là một yêu cầu pháp lý mà là một chiến lược bảo mật cấp hệ thống, giúp bảo vệ ứng dụng của bạn trước các mối đe dọa tương lai từ máy tính lượng tử trong thời gian ngắn nhất.
EDB bổ sung khả năng phân tích hội tụ cho dịch vụ cơ sở dữ liệu EDB Postgres AI, sử dụng Apache Iceberg làm lớp danh mục chia sẻ kết nối ClickHouse, WarehousePG và Spark, đồng thời cung cấp tính năng "agentic database" tự động hóa nhiệm vụ DBA định kỳ. Giải pháp này nhấn mạnh quyền kiểm soát dữ liệu tại chỗ cho doanh nghiệp, khác biệt với cách tiếp cận lakehouse của Databricks, và có mức giá theo lõi CPU ổn định hơn so với các nền tảng cloud theo mức tiêu thụ.
Lập trình viên cần đọc bài này để hiểu cách Postgres AI của EDB kết hợp với Iceberg và các công cụ phân tích khác để tạo ra một hệ sinh thái tích hợp, giúp tối ưu hóa quy trình phát triển ứng dụng AI với tính linh hoạt, kiểm soát dữ liệu và chi phí dự đoán hơn so với các giải pháp cloud tiêu thụ.
A step-by-step guide for implementing data masking on Amazon RDS for Oracle using the Oracle Data Masking and Subsetting Pack with Oracle Enterprise Manager (OEM) Cloud Control. Covers the full workflow: creating an RDS snapshot clone, setting up OEM on EC2, building an Application Data Model, discovering sensitive columns, generating and running masking scripts, and automating the pipeline with EventBridge and Step Functions. Also addresses RDS-specific limitations (no direct ALTER SYSTEM access), security best practices, and AWS-native alternatives like AWS Glue and AWS DMS for simpler PII redaction scenarios.
Woodside Energy VP for Digital Andrew Melouney describes how the company has evolved its AI strategy over a decade, from traditional predictive analytics to agentic AI systems. Key initiatives include a 'Startup Advisor' copilot for LNG plant operators and a maintenance intelligence platform that correlates SAP records with time-series sensor data, targeting a 15% reduction in maintenance hours. The company now runs ~50 AI agents in production. Core lessons: build on governed, trusted data foundations; transition from isolated point solutions to enterprise-wide agentic systems; apply structured governance including an AI council; and follow a 'think big, prototype small, scale fast' philosophy. The long-term vision is an autonomous enterprise where interconnected agents deeply interact with core workflows.
Cloudflare Email Workers let you run code whenever an email arrives at an address you own, turning email into a trigger just like an HTTP request. After setting up Email Routing in the Cloudflare dashboard, you define an email handler in your Worker. The postal-mime library handles MIME parsing to extract subject, text, HTML, and attachments cleanly. You can forward emails to verified addresses, route by recipient, write to D1, push to a Queue, or post to Slack. Local testing is possible via wrangler dev with a curl command that POSTs a raw email payload without sending real mail.
A large-scale MIT-led study analyzed 28,323 U.S. census tracts to understand how urban design features correlate with population health outcomes. Using CDC health data, geospatial data including 8 million street view images, and a graph deep-learning model, researchers found that walkable, well-connected blocks with mixed-use amenities, urban greenery, parks, and cultural institutions significantly improve both physical and mental health. The study also found that investing in urban improvements in lower-income neighborhoods yields roughly four times the health benefits compared to equivalent investment in wealthier areas, offering a data-driven roadmap for city planners prioritizing preventative health.