ClickHouse's internal logging platform LogHouse has scaled from 19 PiB to 431 PiB (1.59 quadrillion rows) across 30+ regions on three cloud providers. The post details the architectural decisions behind this 23x growth: geosharding with isolated cells for write scalability, Async Inserts to tame small-write problems and avoid TOO_MANY_PARTS errors, daily vs. monthly partitioning strategies for large tables, an S3-backed OTel pipeline for durability, and a three-level Distributed table hierarchy (local → regional → global) that hides topology from users. The sharding key mechanism using a dictionary sourced from system.clusters enables optimize_skip_unused_shards to prune irrelevant cells, keeping region-filtered queries under 300ms even cross-continent. Peak ingestion reaches 80 GiB/s and 190 million rows/second across 36 cells.
Nguồn: https://clickhouse.com/blog/a-quadrillion-rows-across-the-three-cloud-scaling-loghouse. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
IEEE Cloud Summit 2026 tập trung vào bảo mật và kiến trúc cho hệ thống AI agent, với những chia sẻ từ Salesforce về agent Kubernetes tự động hóa, AWS giới thiệu bảo mật ngữ cảnh cho agent, cùng công cụ AgentTrace giúp truy vết hành động của agent. Ba vấn đề chính nổi lên là quyền hạn quá mức của các danh tính phi con người, hệ thống xác suất chỉ nên xử lý nhiệm vụ mơ hồ, và khả năng truy xuất nguồn gốc phải là tiêu chuẩn thiết kế bắt buộc cho hệ thống agent.
Lập trình viên nên đọc bài này để hiểu cách ứng dụng kỹ thuật phân tích chính xác, bảo mật context-aware và tra cứu forensics trong các hệ thống AI agent, từ đó nâng cao kiến thức về cách xây dựng và bảo vệ các giải pháp cloud hiện đại, đặc biệt là khi triển khai các ứng dụng tự động hóa có độ tin cậy cao.
Vercel ra mắt AI SDK 7, bản cập nhật lớn cho TypeScript SDK hỗ trợ xây dựng ứng dụng và agent AI. SDK bổ sung tính năng kiểm soát lý luận chuẩn hóa, upload file/provider skill, hỗ trợ MCP Apps, giao diện UI terminal, WorkflowAgent bền vững, cấu hình timeout chi tiết, cùng nhiều cải tiến khác. Quá trình di chuyển từ v6 được tự động hóa qua codemod.
Lập trình viên phát triển ứng dụng AI sẽ tìm hiểu SDK mới này để tối ưu hóa hiệu suất, giảm thiểu chi phí và mở rộng khả năng tích hợp với các công cụ AI hiện đại mà không cần phải viết lại mã từ đầu.
Tempo 3.0, phiên bản mới của hệ thống truy vết phân tán mã nguồn mở, giới thiệu kiến trúc …
Vigilance là bảng điều khiển giám sát Laravel tự lưu trữ, theo dõi jobs, artisan commands và scheduled tasks trên mọi trình điều khiển queue (Redis, SQS, database, v.v.), ghi nhận lifecycle chi tiết. Nó cung cấp tính năng sampling, dispatch jobs thủ công, metrics tùy chỉnh, Real User Monitoring, exception grouping, SLO tracking, N+1 detection, uptime checks, log explorer, alerting và hỗ trợ MCP server cho AI agent, yêu cầu PHP 8.2+, Laravel 12/13 và Livewire 3.5+/4.
Lập trình viên cần đọc bài này để khám phá cách Vigilance giúp theo dõi và tối ưu hóa hiệu suất, lỗi, và hiệu suất của các nhiệm vụ queu, lệnh Artisan, và lịch lập trình trong Laravel một cách toàn diện, từ Redis đến các driver khác, với các công cụ như cảnh báo, phân tích lỗi và đo lường thực người dùng.
Đội ngũ xây dựng một lớp định tuyến dựa trên bộ phân loại (classifier) để tiết kiệm chi phí suy luận AI bằng cách chuyển truy vấn đơn giản sang các mô hình rẻ hơn, tiết kiệm ~60% chi phí hàng tháng. Tuy nhiên, sau ba tháng, sự hài lòng của khách hàng giảm và tỷ lệ rời bỏ tăng do chất lượng dịch vụ sụt giảm, khiến chi phí gấp 4-5 lần khoản tiết kiệm. Nguyên nhân gốc rễ là bộ phân loại không thể phát hiện đáng tin cậy độ phức tạp truy vấn "đuôi dài" (long-tail), các mô hình rẻ hơn thất bại mạnh mẽ trong các trường hợp biên, và hệ thống giám sát hiện tại không theo dõi chất lượng theo từng tầng, che giấu sự suy giảm riêng lẻ. Bài viết giải thích cơ chế thất bại, phương pháp phát hiện (giám sát chất lượng theo tầng, lấy mẫu thừa đuôi dài, theo dõi độ tin cậy bộ phân loại), và đề xuất kiến trúc thay thế — hệ thống phân tầng theo độ không chắc chắn (uncertainty-routed cascades), nơi mọi truy vấn bắt đầu từ mô hình rẻ nhất và chỉ leo thang lên mô hình mạnh hơn khi độ tin cậy thấp.
Lập trình viên nên đọc bài này để hiểu cách tính toán và quản lý rủi ro trong việc tối ưu hóa chi phí AI bằng cách tránh những sai lầm thường gặp khi giả định mô hình đơn giản có thể thay thế hiệu quả các giải pháp phức tạp mà không kiểm soát chất lượng.
Dapr 1.18 bổ sung tính năng Verifiable Execution, cung cấp khả năng xác minh bằng mật mã cho các ứng dụng phân tán và tác nhân AI thông qua lịch sử quy trình có chữ ký, truy xuất nguồn gốc và chính sách dựa trên bằng chứng. Bản phát hành cũng nâng cấp Jobs API lên ổn định, hỗ trợ hot reloading cho Component/Configuration, cải tiến runtime Actor cùng khả năng mạng IPv6/dual-stack.
Lập trình viên phát triển ứng dụng AI hoặc hệ thống phân tán cần đọc để hiểu cách Dapr 1.18 giúp xây dựng các giải pháp có thể chứng minh tính minh bạch, an toàn và tuân thủ quy định trong môi trường công nghệ mới, đặc biệt là khi cần chứng minh nguồn gốc và tính xác thực của các quyết định AI trong các ngành có yêu cầu nghiêm ngặt.
Vận hành foundation model (FM) trong sản xuất đòi hỏi coi chúng như những dịch vụ cấp cao, không phải sản phẩm giao bàn giao khoa học dữ liệu. Các nguyên tắc vận hành quan trọng bao gồm hiểu rằng ảo giác (hallucination) xuất phát từ sự dịch chuyển phân phối (distribution shift) chứ không phải lỗi triển khai, sử dụng prompt engineering và RAG trước khi fine-tuning, và xây dựng lớp quan sát (observability) chuyên dụng để phát hiện lỗi thầm lặng. Các công cụ như LangSmith hay Arize là cần thiết vì các bộ giám sát APM tiêu chuẩn không bắt được các lỗi đặc thù của hệ thống AI, vốn có thể đưa ra kết quả sai nhưng không báo lỗi. Vòng đời FM tương tự SDLC nhưng có nhiều lỗi thầm lặng hơn, và các kỹ sư thành công là những người áp dụng các phương pháp SRE đã được chứng minh: sổ tay vận hành (runbooks), giám sát, và quy trình leo thang rõ ràng.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi từ việc xử lý mô hình AI như một nhiệm vụ kỹ thuật số sang quản lý nó như một dịch vụ chuyên nghiệp, giúp giảm rủi ro, tối ưu hóa hiệu suất và đảm bảo an toàn sản phẩm trong môi trường sản xuất.
Grafana Cloud's Kubernetes Monitoring có hai hệ thống cảnh báo riêng biệt: cảnh báo quản lý bởi data source (Mimir/Prometheus) và cảnh báo quản lý bởi Grafana. Việc cài đặt lại app sẽ tự động chuyển quy tắc cảnh báo sang hệ thống Grafana, có thể làm gián đoạn các tuyến thông báo đã cấu hình trong Alertmanager. Bài viết hướng dẫn cách nhận diện hệ thống cảnh báo đang sử dụng, nguyên nhân ngừng hoạt động sau khi cài đặt lại, và các phương pháp tốt nhất như sử dụng nút Update thay vì cài đặt lại, sao lưu quy tắc tùy chỉnh trước khi nâng cấp, và lưu ý rằng cảnh báo quản lý bởi data source (Prometheus/Loki) sẽ ngừng hoạt động từ tháng 4/2026.
Lập trình viên cần đọc bài này để tránh mất hiệu suất cảnh báo trong Kubernetes khi tái cài đặt Grafana Cloud, vì nó có thể phá hủy cấu hình thông báo hiện có và cảnh báo cũ sẽ chuyển sang hệ thống quản lý mới, gây mất liên lạc với các hệ thống cảnh báo bên ngoài.