NVIDIA Confidential Computing (CC) secures AI inference workloads at the hardware level using Blackwell GPUs with a silicon-embedded private key, remote attestation via NRAS (supporting AMD SEV-SNP and Intel TDX), and encrypted NVLink interconnects. Benchmarks on HGX B300 running Qwen 3.5 397B at FP8 precision show CC adds only 2–8% overhead across throughput and time-per-output-token metrics at various concurrency levels. Performance optimizations include CC-safe autotuner timing in FlashInfer, async device-to-host copy workers in SGLang, and piecewise CUDA graph support to reduce kernel launch overhead amplified in CC mode.
Nguồn: https://developer.nvidia.com/blog/hardware-rooted-ai-security-that-wont-slow-you-down. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Các nhà lãnh đạo từ Workato, Hippocratic AI và ISMG chia sẻ kinh nghiệm vận hành khối lượng lớn suy luận AI trong sản xuất, nhấn mạnh: hiệu suất suy giảm nhanh khi AI dùng trên 50 công cụ; độ trễ P99 gây nguy hiểm cho bệnh nhân trong ứng dụng giọng nói lâm sàng; AI không nên có quyền admin mà hoạt động như ủy quyền theo thời gian cho từng hành động; trì hoãn cấu trúc dữ liệu và quy trình trước khi áp dụng AI khiến doanh nghiệp tụt hậu 2 năm về mô hình vận hành. Nhóm thống nhất rằng mở rộng suy luận AI là vấn đề cơ sở hạ tầng và quản trị, không phải mô hình.
Những kinh nghiệm thực tế từ các đội phát triển AI ở quy mô lớn sẽ giúp bạn tránh những sai lầm gây tốn kém về thời gian và chi phí khi thiết kế hệ thống inference, từ đó tối ưu hóa hiệu suất và an toàn ngay từ giai đoạn xây dựng.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
NVIDIA BioNeMo Agent Toolkit tích hợp các khả năng khoa học GPU-accelerated (như NVIDIA Parabricks, RAPIDS-singlecell, nvMolKit) vào Claude Science, cho phép các nhà nghiên cứu mô tả nhiệm vụ bằng ngôn ngữ tự nhiên (như dự đoán cấu trúc protein) để AI orchestrate thực hiện. Toolkit này là mã nguồn mở, framework-agnostic, có sẵn trên GitHub, trong khi Claude Science đang trong giai đoạn public beta.
Lập trình viên chuyên về AI sinh học nên đọc để khám phá cách tích hợp công nghệ GPU cao cấp của NVIDIA vào các pipeline nghiên cứu sinh học sinh thái, giúp tối ưu hóa hiệu suất và mở rộng khả năng tự động hóa cho các dự án liên quan đến gen, phân tử và dữ liệu sinh học thông minh.
OpenAI và Broadcom hợp tác phát triển chip AI tùy chỉnh Jalapeño nhằm cạnh tranh với Nvidia Blackwell và Google TPU, nhắm vào workloads inference. Chip này đã được thử nghiệm với mô hình GPT-5.3-Codex-Spark và dự kiến triển khai vào cuối năm 2025, trong khi tình trạng thiếu hụt HBM đang ảnh hưởng đến biên lợi nhuận của Broadcom.
Lập trình viên nên đọc bài này để hiểu cách các công ty lớn như OpenAI và Broadcom hợp tác phát triển chip AI chuyên dụng, giúp tối ưu hóa hiệu suất cho các mô hình lớn như GPT-5.3, ảnh hưởng trực tiếp đến hiệu năng và chi phí của các ứng dụng AI trong tương lai.
Các mô hình Claude của Anthropic giờ đây đã sẵn sàng trên Microsoft Foundry, chạy trên GPU NVIDIA GB300 Blackwell Ultra kết nối qua Quantum-X800 InfiniBand trên Azure. Điều này giúp doanh nghiệp triển khai các tác nhân AI tự động và chuyên biệt với hiệu suất suy luận cải thiện và chi phí sở hữu thấp hơn.
Lập trình viên nên đọc bài này để khám phá cách kết hợp GPU Blackwell Ultra của NVIDIA với các mô hình AI như Claude của Anthropic, giúp tối ưu hóa hiệu suất xử lý và giảm chi phí cho các ứng dụng tự động hóa AI chuyên dụng trong doanh nghiệp.
Workday đề xuất giữ các AI agent gần dữ liệu quan trọng nhất bằng cách nhúng các rào cản an toàn (như danh tính người dùng, quyền ngân sách) trực tiếp vào lớp inference, thay vì sử dụng cổng agent bên ngoài. Tại DevCon 2026, Workday giới thiệu các công cụ Agent-Ready Tools (dựa trên MCP), Developer Agent (xây dựng ứng dụng bằng ngôn ngữ tự nhiên) và Agent Passport (xác thực, giám sát agent trong sản xuất), nhằm nhấn mạnh lợi thế cạnh tranh về kiểm soát inference, độ an toàn và tin cậy thay vì công cụ phát triển.
Lập trình viên nên đọc bài này để hiểu cách các công ty như Workday xây dựng hệ sinh thái AI an toàn và hiệu quả, đặc biệt là cách triển khai các guardrails trong layer xử lý logic thay vì phụ thuộc vào các gateway bên ngoài, giúp bảo vệ dữ liệu nhạy cảm trong ứng dụng doanh nghiệp.
NVIDIA ra mắt NVIDIA Agent Toolkit, một nền tảng mã nguồn mở và mô-đun giúp doanh nghiệp xây dựng các tác nhân AI chuyên biệt đáng tin cậy. Bộ công cụ tích hợp các mô hình Nemotron (tùy chỉnh lý luận), NemoClaw (đảm bảo hành vi an toàn) và OpenShell (thực thi bảo mật), được triển khai trong các lĩnh vực như y tế, an ninh mạng và thiết kế chip.
Lập trình viên chuyên về AI nên đọc bài này để hiểu cách xây dựng các hệ thống agent chuyên dụng, an toàn và có thể kiểm soát được, giúp họ ứng dụng kiến thức về mô hình open-source, bảo mật và tích hợp vào các dự án doanh nghiệp thực tế.
Nvidia has announced a new revenue-sharing and credit-support model that allows AI cloud providers to access large volumes of GPUs without paying the full cost upfront. Instead, Nvidia collects standard product revenue on chips plus a share of the cloud revenue generated from renting them out. Two early partners — Sharon AI and Firmus — are already operating under this model, with Firmus building a 360-megawatt AI factory in Indonesia housing up to 170,000 GPUs. The arrangement targets AI-native companies like Baseten, Fireworks AI, and Together AI that need elastic compute access without the balance-sheet risk of building data centers. For Nvidia, it creates a recurring usage-linked income stream on top of hardware sales, though it also exposes the company to AI demand slowdowns through both chip sales and shared cloud revenue.