Databricks Query Tags (now in Public Preview) solve the problem of opaque dbt pipeline cost attribution by auto-injecting metadata like dbt_model_name into every query recorded in system.query.history. The dbt-databricks adapter (v1.11+) supports tags at three levels: profile, project, and model. Custom tags (team, cost_center, env, etc.) merge with auto-injected tags and are queryable via standard SQL map syntax. A complete open-source reference project on GitHub demonstrates end-to-end setup, cost attribution dashboards, and integration with Databricks Genie for natural-language querying. The feature also supports the new metric_view materialization type in dbt-databricks 1.12+, with a clear distinction between query-level tags and Unity Catalog object-level tags.
Nguồn: https://www.databricks.com/blog/granular-usage-attribution-dbt-pipelines-query-tags. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Databricks nhấn mạnh tầm quan trọng của hệ sinh thái mở (Frontier Ecosystem) trong việc xây dựng hệ điều hành cho các tác nhân AI doanh nghiệp. Họ giới thiệu Omnigent, một meta-harness mã nguồn mở giúp chuẩn hóa API cho các coding agent như Claude Code, Codex và Cursor, hỗ trợ phiên làm việc liên tục, cộng tác và kiểm soát bảo mật. Ngoài ra, Databricks đề cập đến LTAP (Lake Transactional/Analytical Processing) nhằm hợp nhất workload giao dịch và phân tích, cũng như thảo luận về chiến lược mô hình Mosaic và vai trò của dữ liệu được tổ chức tốt trong việc tái định nghĩa phần mềm truyền thống.
Những lập trình viên xây dựng hệ thống AI hoặc ứng dụng doanh nghiệp nên đọc để hiểu cách kết hợp kiến trúc mở, quản lý dữ liệu hiệu quả và bảo mật thông minh để xây dựng các agent AI tự động hóa công việc một cách bền vững và tuân thủ.
Databricks Forward Deployed Engineering introduces Decision Execution Platforms (DEPs), a proposed new enterprise analytics category that goes beyond traditional BI dashboards. Rather than just surfacing insights, DEPs aim to run the full executive decision loop — signal, decision, execution, and outcome measurement — as one continuous, governed system on Databricks infrastructure. The concept addresses the fragmentation in current enterprise decision-making, where signals live in dashboards, reasoning in meetings, and execution across spreadsheets and Slack threads. A real-world case study describes a fulfillment optimization DEP built for a large athletic retailer, using Unity Catalog, typed action types, and agent runtimes to close a gap estimated at over nine figures annually.
Databricks has announced the winners of its 2026 Built-On Databricks Startup Challenge, a global competition for early-stage B2B startups building on the Databricks platform. The Grand Prize Winner is VisionHeight, an agentic threat intelligence platform that maps adversary infrastructure across the internet before attacks launch. The two other winners are Linkup, a production-grade web search API for AI applications, and Intelo, an agentic workforce platform for retail merchandising and planning. Databricks also announced a new startup program offering up to $200,000 in credits across Databricks and Neon for qualifying early-stage founders.
ClickHouse's product manager investigates a Databricks keynote benchmark that claimed ClickHouse 'crashed' under load during the Reyden announcement. The author attempts to reproduce the crash using TPC-H SF1 data and finds ClickHouse does not crash — it gracefully rejects queries at a configurable concurrency limit. The post argues the Databricks benchmark was opaque, used tiny datasets (fitting in iPhone memory), provided no hardware or configuration details, and was run on a product competitors cannot yet access. The author demonstrates that with proper node sizing (35 nodes for 15K QPS), ClickHouse handles the load without tuning. The broader argument is that benchmarks must be open, reproducible, and detailed to be meaningful, contrasting Databricks' approach with ClickHouse's public GitHub benchmark repository.
Cơ quan Giáo dục Đại học Anh (Office for Students) đã chuyển từ nền tảng phân tích cũ sang Databricks, giúp giảm thời gian xử lý dữ liệu 300 triệu bản ghi từ 8 giờ xuống vài phút và rút ngắn phân tích phân khúc sinh viên từ hai tuần xuống nửa ngày. Việc hợp nhất dữ liệu có cấu trúc, định tính và gần thời gian thực trên nền tảng quản trị thống nhất (Unity Catalog) cùng các công cụ AI như Genie Code đã tăng tốc độ phân tích, duy trì truy xuất dữ liệu và hỗ trợ ra quyết định có kiểm soát.
Lập trình viên nên đọc bài này để hiểu cách Databricks tích hợp AI/ML và quản lý dữ liệu quy mô lớn giúp tổ chức giáo dục tự động hóa phân tích dữ liệu, cải thiện hiệu quả công việc và đảm bảo tính minh bạch trong quyết định liên quan đến học sinh.
A practical guide to setting up Databricks Cleanrooms for privacy-safe cross-organizational data joins, drawn from real production experience. Covers Unity Catalog governance policies (row-level filters, column masking with HMAC tokens), provider and consumer configuration using the Databricks Python SDK, writing a privacy-safe PySpark notebook with mandatory cohort-size guards, and hard-won production pitfalls: token alignment failures, silently expiring Delta Sharing credentials, compute cost surprises, and result review bottlenecks. Also addresses regulatory mapping (PCI-DSS, GLBA, CCPA, SOX), revocation pipelines, differential privacy considerations, and an honest comparison against AWS Clean Rooms, Google Analytics Hub, federated learning, and synthetic data approaches. Ends with an unresolved question about audit log portability when partnerships dissolve.
Databricks biến video thành dữ liệu có thể tìm kiếm và xử lý bằng cách ứng dụng kỹ thuật dữ liệu quy mô lớn, sử dụng Serverless GPU Compute, Lakeflow pipelines và vision language models (VLM) như SAM3 của Meta. Hệ thống cho phép truy vấn bằng ngôn ngữ tự nhiên để tìm kiếm và tóm tắt nội dung video, ví dụ giảm 26 phút video camera giao thông xuống dưới 2 phút đoạn quan trọng nhờ AI. Pipeline hỗ trợ nhiều mô hình qua MLflow, kích hoạt sự kiện tự động, xử lý đồng thời và có thể mở rộng cho các trường hợp như kiểm tra cơ sở hạ tầng, an ninh công cộng hay hoạt động sân bay, với mã nguồn mở trên GitHub.
Lập trình viên nên đọc bài này để khám phá cách Databricks biến phân tích video thành một giải pháp hiệu quả bằng công nghệ data engineering, từ việc xử lý dữ liệu lớn đến tích hợp mô hình AI tiên tiến, giúp tự động hóa và tối ưu hóa các ứng dụng thực tế từ các thiết bị giám sát đến công tác an ninh.
Reynold Xin từ Databricks trình bày sự tiến hóa kiến trúc từ các cơ sở dữ liệu monolithic OLTP truyền thống đến Lakebase (Postgres serverless) và LTAP (Lake Transactional/Analytical Processing). Lakebase tách WAL ra khỏi máy chủ duy nhất, sử dụng SafeKeeper phân tán (Paxos-based) và PageServer dựa trên cloud object storage, giúp tính toán stateless, lưu trữ vô hạn, scale linh hoạt và branching tức thì. LTAP nâng cấp hơn bằng cách chuyển đổi dữ liệu dạng row của Postgres thành định dạng columnar (Parquet/Delta/Iceberg) ngay tại PageServer, cho phép cả Postgres và các engine phân tích Lakehouse cùng đọc từ một bản sao dữ liệu duy nhất, loại bỏ nhu cầu CDC, ETL chậm trễ và data drift.
Lập trình viên nên đọc bài này để hiểu cách Databricks chuyển đổi cơ sở dữ liệu từ mô hình truyền thống sang mô hình LTAP, giúp tối ưu hóa hiệu suất, giảm thiểu contention và tối đa hóa tính linh hoạt cho ứng dụng của họ trong môi trường cloud.