BEVPoolV3 is a new CUDA kernel optimization for bird's-eye-view (BEV) pooling used in autonomous vehicles and robotics. The post walks through a practical GPU optimization workflow: classify whether the working set fits in L2 cache, remove redundant scatter traffic via a five-array INT32 scatter map, implement interval-owned scatter-reduce to avoid atomics, and validate with NVIDIA Nsight Compute. On RTX PRO 6000 Blackwell Max-Q (large L2), BEVPoolV3 FP8 achieves up to 42x speedup over the V2 baseline. On RTX A6000 (small L2, DRAM-bound), the adapted FP16 path reaches 19x speedup. The post also explains why FP8 outperforms NVFP4 for L2-resident scatter-reduce workloads, and how the same methodology applies to sparse embeddings, voxelization, and other irregular memory-bound kernels.
Nguồn: https://developer.nvidia.com/blog/accelerating-bev-pooling-on-nvidia-gpus-for-physical-ai-applications. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
OpenAI và Broadcom hợp tác phát triển chip AI tùy chỉnh Jalapeño nhằm cạnh tranh với Nvidia Blackwell và Google TPU, nhắm vào workloads inference. Chip này đã được thử nghiệm với mô hình GPT-5.3-Codex-Spark và dự kiến triển khai vào cuối năm 2025, trong khi tình trạng thiếu hụt HBM đang ảnh hưởng đến biên lợi nhuận của Broadcom.
Lập trình viên nên đọc bài này để hiểu cách các công ty lớn như OpenAI và Broadcom hợp tác phát triển chip AI chuyên dụng, giúp tối ưu hóa hiệu suất cho các mô hình lớn như GPT-5.3, ảnh hưởng trực tiếp đến hiệu năng và chi phí của các ứng dụng AI trong tương lai.
Qt Canvas Painter giới thiệu QCanvasPath và nhóm path nhằm tối ưu hiệu suất render 2D, tiết kiệm ~60% bộ nhớ nhờ định dạng SoA thân thiện cache, hỗ trợ tái sử dụng giữa các frame và tương thích API với QCanvasPainter. Nhóm path cho phép GPU lưu trữ đỉnh (vertex) tĩnh, giúp xử lý biến đổi, màu sắc hay gradient mà không cần cập nhật buffer, đồng thời chứng minh khả năng render tiến triển 60fps trên thiết bị nhúng với tải CPU/GPU thấp hơn. Tính năng này sẽ trở thành module chính thức trong Qt 6.12.
Lập trình viên muốn tối ưu hiệu suất rendering 2D trên Qt nên đọc bài này để khám phá cách sử dụng QCanvasPath và path groups để giảm chi phí CPU/GPU, giảm bộ nhớ và cải thiện trải nghiệm 60FPS trên thiết bị embedded.
Giá DDR2 tăng 55-60% trong Q2/2026 do thiếu hụt DRAM trầm trọng khi các nhà sản xuất chuyển sản lượng wafer sang sản xuất HBM cho AI, dự báo tiếp tục tăng 35-40% trong Q3. Các hãng phần cứng buộc phải hạ cấp từ DDR4 xuống DDR3, rồi DDR3 xuống DDR2 để đảm bảo nguồn cung, ảnh hưởng đến hệ thống nhúng, thiết bị công nghiệp và mạng. Nguồn cung DDR2 không thể cải thiện trước năm 2027-2028 khi các nhà máy mới của SK Hynix và Micron đi vào hoạt động.
Lập trình viên nên đọc bài này vì nó giúp bạn hiểu rõ về những thách thức về nguồn cung cấp bộ nhớ DDR2, ảnh hưởng đến thiết kế phần cứng cho các ứng dụng embedded và hệ thống AI, từ đó có thể tối ưu hóa kiến trúc phần mềm và dự đoán chi phí phát triển sản phẩm trong tương lai.

Netflix giới thiệu hai mô hình chỉnh sửa video AI giai đoạn đầu là Vera và VOID. Vera sử dụng mô hình diffusion phân lớp, chỉ tái tạo vùng chỉnh sửa (kèm alpha matte) thay vì toàn bộ clip, bảo toàn nội dung chưa chỉnh sửa. VOID chuyên xóa vật thể trong video với kỹ thuật inpainting hợp lý vật lý, tái tạo cảnh thực tế khi vật thể bị loại bỏ. Cả hai mô hình đều vượt trội so với các phương pháp hiện có trong nghiên cứu.
Lập trình viên muốn phát triển các giải pháp AI tiên tiến trong xử lý video nên tham khảo để hiểu cách thiết kế mô hình hiệu quả như Vera và VOID, từ kiến trúc đặc biệt đến kỹ thuật điều khiển chi tiết để nâng cao chất lượng và tính khả thi của các ứng dụng AI video trong tương lai.
Running three different LLMs simultaneously on a single 8GB GPU fails because llama.cpp pre-allocates the full KV cache upfront, causing OOM errors for the second and third processes. The solution is a C++ daemon called lmxd that implements Connection Admission Control (borrowed from 5G/telecom) as a VRAM ledger: it tracks allocated bytes, enforces a 90% cap, and refuses new agent registrations before any GPU allocation is attempted. The daemon also handles KV-cache swapping to host RAM between agent switches, enabling multiple agents to share one GPU context slot. Additionally, a layer streaming technique using two CUDA streams overlaps compute and weight transfer, achieving ~22-32% wall-clock savings on a GTX 1080. The repo ships the admission control daemon and the streaming primitive as separate, composable components.
Chrome 149-150 bổ sung hai tính năng WebGPU quan trọng: Immediates (push constants/root constants) cho phép truyền dữ liệu nhỏ, thay đổi thường xuyên trực tiếp vào shader qua WGSL <immediate> và API setImmediates(), tối ưu hiệu suất bằng cách bỏ qua tạo buffer GPU. Đồng thời, quy tắc validation chặt chẽ hơn với transient attachments, yêu cầu viewFormats rỗng khi tạo texture tạm thời và hạn chế thay đổi usage flags trong createView().
Lập trình viên nên đọc bài này để cập nhật cách tối ưu hóa hiệu suất rendering bằng Immediates trong WebGPU, giúp giảm chi phí CPU-GPU và xử lý dữ liệu thay đổi thường xuyên trên mỗi vẽ hình, đồng thời nắm rõ các quy tắc mới về transient attachments để tránh lỗi và bảo đảm tính ổn định trong ứng dụng.

An AMD engineer has contributed an ONNX Runtime backend to FFmpeg's DNN (Deep Neural Network) processing filter. The addition enables inferencing across multiple GPU and NPU platforms, including NVIDIA CUDA, Windows DirectML for all major GPU vendors, and AMD Ryzen AI NPU support via the ONNX Runtime VitisAI execution provider. This marks AMD's effort to make the Ryzen AI NPU useful within FFmpeg workflows.
Sail Research has raised $80M in combined seed and Series A funding at a $450M valuation to reduce the cost of running long-horizon AI agents. Founded by ex-Apple and ex-NVIDIA engineers, the company claims its inference engine delivers up to 10x lower cost per token than rivals by optimizing for throughput rather than latency. Sail also offers 'Sailboxes,' sandboxed environments that only charge for active agent compute time. The startup topped the BrowseComp-Plus benchmark at 90.72% accuracy and already has paying customers. The round was led by Sequoia and Kleiner Perkins, with notable angels from Anthropic, OpenAI, and Alphabet.