
The Kubernetes Device Management Working Group (WG Device Management) is spotlighted in an interview with its three co-chairs from NVIDIA, Intel, and Google. The group's primary deliverable, Dynamic Resource Allocation (DRA), recently graduated to GA in Kubernetes 1.34. DRA replaces the legacy Device Plugin API — which treated devices as opaque integers — with a structured, declarative framework covering four stages: modeling (ResourceSlice API), requesting (ResourceClaim API), scheduling, and actuation. This enables workloads to specify fine-grained hardware requirements like GPU memory, interconnect topology, and partitioning. The working group spans five SIGs (node, scheduling, autoscaling, network, architecture) and is now focused on extending DRA expressiveness, day-two operations like health monitoring, multi-node topology-aware scheduling, and consumable capacity sharing models. Key challenges include NP-hard scheduling complexity and modeling diverse hardware. NVIDIA recently donated its DRA GPU driver to the Kubernetes project, and the community is growing rapidly.
Nguồn: https://www.kubernetes.dev/blog/2026/06/24/wg-device-management-spotlight-2026. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.

Khi xây dựng hệ thống chỉ quan tâm giá trị mới nhất, cơ chế chặn mặc định của Go channels trở thành hạn chế. Bài viết giới thiệu hai cách giải quyết: gửi không chặn bằng select/default (bỏ qua giá trị khi buffer đầy, an toàn cho nhiều producers) và xả buffer trước khi gửi (đảm bảo consumer nhận dữ liệu mới nhất, nhưng yêu cầu single producer). Các ví dụ kèm biểu đồ ASCII minh họa ưu nhược điểm của từng phương pháp.
Một lập trình viên nên đọc bài này để hiểu cách xử lý hiệu quả các kênh Go khi chỉ cần lưu giữ thông tin mới nhất, tránh rủi ro về dữ liệu cũ bị giữ lại trong buffer và chọn lựa giải pháp phù hợp với từng trường hợp sử dụng cụ thể.
Grafana Cloud's Kubernetes Monitoring có hai hệ thống cảnh báo riêng biệt: cảnh báo quản lý bởi data source (Mimir/Prometheus) và cảnh báo quản lý bởi Grafana. Việc cài đặt lại app sẽ tự động chuyển quy tắc cảnh báo sang hệ thống Grafana, có thể làm gián đoạn các tuyến thông báo đã cấu hình trong Alertmanager. Bài viết hướng dẫn cách nhận diện hệ thống cảnh báo đang sử dụng, nguyên nhân ngừng hoạt động sau khi cài đặt lại, và các phương pháp tốt nhất như sử dụng nút Update thay vì cài đặt lại, sao lưu quy tắc tùy chỉnh trước khi nâng cấp, và lưu ý rằng cảnh báo quản lý bởi data source (Prometheus/Loki) sẽ ngừng hoạt động từ tháng 4/2026.
Lập trình viên cần đọc bài này để tránh mất hiệu suất cảnh báo trong Kubernetes khi tái cài đặt Grafana Cloud, vì nó có thể phá hủy cấu hình thông báo hiện có và cảnh báo cũ sẽ chuyển sang hệ thống quản lý mới, gây mất liên lạc với các hệ thống cảnh báo bên ngoài.
Bài viết hướng dẫn xây dựng một runtime AI agent sản xuất có khả năng chịu lỗi, phục hồi sau sự cố nhờ Temporal, tự động scale dựa trên độ sâu queue bằng KEDA, triển khai trên Kubernetes, và tích hợp công cụ qua Composio. Kiến trúc bao gồm workflow Temporal, FastAPI gateway, container hóa bằng Docker multi-stage, triển khai trên k3d, cùng cấu hình KEDA ScaledObjects để scale-to-zero khi không có tác vụ.
Lập trình viên muốn triển khai một hệ thống AI sản xuất có độ bền cao và tự động hóa quy mô theo nhu cầu thực tế sẽ tìm hiểu cách kết hợp Temporal, KEDA và Kubernetes để giải quyết vấn đề xử lý nhiệm vụ dài hạn, tự động hóa quy mô và đảm bảo sự ổn định trong môi trường cloud-native.
Bài viết giới thiệu các loại workload AI trên Kubernetes, bao gồm huấn luyện (training) và suy luận (inference), giải thích lý do Kubernetes phù hợp cho huấn luyện AI nhờ khả năng quản lý tài nguyên, đồng thời đề cập đến kỹ thuật fine-tuning và prompt engineering để tối ưu mô hình AI.
Là người phát triển AI, bạn nên đọc bài này để hiểu cách Kubernetes tối ưu hóa quy trình huấn luyện và triển khai mô hình AI, từ việc quản lý tài nguyên cho việc dự đoán đến các kỹ thuật tinh chỉnh mô hình và kỹ thuật prompt hiệu quả.
Backstage solves the developer portal problem but not the platform problem. Many organizations end up with a fragile 'messy middle' of point-to-point integrations between Backstage and their CI/CD, GitOps, Kubernetes, and observability tools. The solution is a three-layer architecture: a portal (Backstage), a control plane that compiles developer abstractions into Kubernetes resources, reconciles drift, and aggregates runtime state, and a data plane where workloads run. Developer abstractions (components, endpoints, dependencies) and platform abstractions (environments, pipelines, traits) are kept separate. The control plane bridges them, enabling unified observability, policy enforcement, and AI agent integration. OpenChoreo is presented as an open-source CNCF sandbox reference implementation of this architecture.
Argo CD 3.5 introduces native mutual TLS (mTLS) support for securing internal component communications, eliminating the need for service mesh sidecars or custom certificate management scripts. The post explains why mTLS is superior to one-way TLS in zero-trust environments, details the pre-3.5 workarounds (Istio/Linkerd sidecars, cert-manager, HashiCorp Vault), and provides a step-by-step setup guide. It covers both shared-certificate and per-component certificate configurations, migration patterns from existing setups, and real-world use cases including compliance with SOC 2, HIPAA, and PCI-DSS frameworks.
Giant Swarm traces the evolution of their internal configuration management system across three eras. Starting in 2020 with static, manually deployed configs, they built a 'vintage' release system using Go templates and a config-controller to generate ConfigMaps and Secrets from a structured Git repository. Alongside it ran a 'unique apps' system using draughtsman and architect, which suffered from hardcoded management cluster lists and manual update steps. Moving to GitOps with ArgoCD then Flux, they introduced konfigure as a KRM function plugin — solving the draughtsman problem but introducing opacity, swallowed errors, and a 'poison pill' issue where one bad config stalled all reconciliation. The current system rewrites konfigure internals around a schema-driven, general-purpose rendering engine exposed as a library, backed by konfigure-operator, which isolates errors per configuration and decouples config generation from App CRs entirely.
Bài viết hướng dẫn xây dựng một AI agent chạy trong cụm Kubernetes, quan sát trạng thái cụm qua Kubernetes API và sử dụng mô hình Mistral 7B cục bộ (qua Ollama) để suy luận. Toàn bộ CI/CD được quản lý bởi GitHub Actions (build ảnh) và Argo CD Image Updater (triển khai GitOps). Agent hoạt động dưới quyền RBAC read-only, cung cấp hai REST endpoint (LLM thuần túy và RAG chẩn đoán cụm), đồng thời lưu cache trọng số mô hình trên PersistentVolumeClaim. Dữ liệu không rời khỏi cụm và không phụ thuộc vào nhà cung cấp AI bên ngoài.
Lập trình viên muốn triển khai hệ thống AI tự động hóa an toàn và hiệu quả trong môi trường Kubernetes nên đọc để hiểu cách xây dựng một agent độc lập, tuân thủ nguyên tắc GitOps và bảo mật cao mà không phụ thuộc vào dịch vụ bên ngoài.