NVIDIA's full-stack inference software, codesigned with its GPU and networking hardware, is enabling companies like Baseten, Cognition, Deep Infra, Together AI, and Cursor to dramatically reduce cost per token in production AI workloads. On the Blackwell platform, the stack has cut token costs by up to 5x for DeepSeek V4 within a month. The stack operates across three layers — production orchestration, application acceleration, and infrastructure access — and when combined, techniques like disaggregated serving, NVFP4 precision, and multi-token prediction compound to deliver up to 20x throughput gains. The open source ecosystem, particularly PyTorch and CUDA-native frameworks like vLLM and SGLang, accelerates this further by enabling day-zero deployment of new frontier models on Blackwell hardware.
Nguồn: https://blogs.nvidia.com/blog/inference-software-lowest-token-cost. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
NVIDIA BioNeMo Agent Toolkit tích hợp các khả năng khoa học GPU-accelerated (như NVIDIA Parabricks, RAPIDS-singlecell, nvMolKit) vào Claude Science, cho phép các nhà nghiên cứu mô tả nhiệm vụ bằng ngôn ngữ tự nhiên (như dự đoán cấu trúc protein) để AI orchestrate thực hiện. Toolkit này là mã nguồn mở, framework-agnostic, có sẵn trên GitHub, trong khi Claude Science đang trong giai đoạn public beta.
Lập trình viên chuyên về AI sinh học nên đọc để khám phá cách tích hợp công nghệ GPU cao cấp của NVIDIA vào các pipeline nghiên cứu sinh học sinh thái, giúp tối ưu hóa hiệu suất và mở rộng khả năng tự động hóa cho các dự án liên quan đến gen, phân tử và dữ liệu sinh học thông minh.
Các mô hình Claude của Anthropic giờ đây đã sẵn sàng trên Microsoft Foundry, chạy trên GPU NVIDIA GB300 Blackwell Ultra kết nối qua Quantum-X800 InfiniBand trên Azure. Điều này giúp doanh nghiệp triển khai các tác nhân AI tự động và chuyên biệt với hiệu suất suy luận cải thiện và chi phí sở hữu thấp hơn.
Lập trình viên nên đọc bài này để khám phá cách kết hợp GPU Blackwell Ultra của NVIDIA với các mô hình AI như Claude của Anthropic, giúp tối ưu hóa hiệu suất xử lý và giảm chi phí cho các ứng dụng tự động hóa AI chuyên dụng trong doanh nghiệp.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
OpenAI và Broadcom hợp tác phát triển chip AI tùy chỉnh Jalapeño nhằm cạnh tranh với Nvidia Blackwell và Google TPU, nhắm vào workloads inference. Chip này đã được thử nghiệm với mô hình GPT-5.3-Codex-Spark và dự kiến triển khai vào cuối năm 2025, trong khi tình trạng thiếu hụt HBM đang ảnh hưởng đến biên lợi nhuận của Broadcom.
Lập trình viên nên đọc bài này để hiểu cách các công ty lớn như OpenAI và Broadcom hợp tác phát triển chip AI chuyên dụng, giúp tối ưu hóa hiệu suất cho các mô hình lớn như GPT-5.3, ảnh hưởng trực tiếp đến hiệu năng và chi phí của các ứng dụng AI trong tương lai.
Workday đề xuất giữ các AI agent gần dữ liệu quan trọng nhất bằng cách nhúng các rào cản an toàn (như danh tính người dùng, quyền ngân sách) trực tiếp vào lớp inference, thay vì sử dụng cổng agent bên ngoài. Tại DevCon 2026, Workday giới thiệu các công cụ Agent-Ready Tools (dựa trên MCP), Developer Agent (xây dựng ứng dụng bằng ngôn ngữ tự nhiên) và Agent Passport (xác thực, giám sát agent trong sản xuất), nhằm nhấn mạnh lợi thế cạnh tranh về kiểm soát inference, độ an toàn và tin cậy thay vì công cụ phát triển.
Lập trình viên nên đọc bài này để hiểu cách các công ty như Workday xây dựng hệ sinh thái AI an toàn và hiệu quả, đặc biệt là cách triển khai các guardrails trong layer xử lý logic thay vì phụ thuộc vào các gateway bên ngoài, giúp bảo vệ dữ liệu nhạy cảm trong ứng dụng doanh nghiệp.
Vytautas Savickas, CEO của Oxylabs, cho rằng cạnh tranh tiếp theo của AI sẽ dựa vào cơ sở hạ tầng chứ không phải kích thước mô hình. Ông nhấn mạnh rằng hệ thống AI trong kỷ nguyên agent cần truy cập dữ liệu web thời gian thực, xử lý tự động hóa trình duyệt và kết nối thông tin cập nhật, thay vì chỉ tập trung vào mô hình lớn hơn.
Lập trình viên nên đọc bài này để hiểu cách xây dựng hệ thống AI mạnh mẽ không chỉ dựa trên kiến trúc mô hình lớn mà là vào khả năng kết nối với dữ liệu thực thời và cơ sở hạ tầng đáng tin cậy, giúp ứng dụng hoạt động hiệu quả hơn trong thế giới agentic.
NVIDIA ra mắt NVIDIA Agent Toolkit, một nền tảng mã nguồn mở và mô-đun giúp doanh nghiệp xây dựng các tác nhân AI chuyên biệt đáng tin cậy. Bộ công cụ tích hợp các mô hình Nemotron (tùy chỉnh lý luận), NemoClaw (đảm bảo hành vi an toàn) và OpenShell (thực thi bảo mật), được triển khai trong các lĩnh vực như y tế, an ninh mạng và thiết kế chip.
Lập trình viên chuyên về AI nên đọc bài này để hiểu cách xây dựng các hệ thống agent chuyên dụng, an toàn và có thể kiểm soát được, giúp họ ứng dụng kiến thức về mô hình open-source, bảo mật và tích hợp vào các dự án doanh nghiệp thực tế.
Micron Technology ký thỏa thuận nhiều năm cung cấp HBM, DRAM, SSD cho trung tâm dữ liệu của Anthropic, cùng hợp tác tối ưu kiến trúc bộ nhớ cho AI, và đầu tư chiến lược vào vòng Series H của Anthropic. Thỏa thuận này phản ánh xu hướng ngành khi các nhà sản xuất chip và đám mây vừa là nhà cung cấp vừa là cổ đông của các phòng thí nghiệm AI.
Lập trình viên nên đọc bài này để hiểu cách các công nghệ xử lý bộ nhớ (HBM, DRAM) và kiến trúc lưu trữ mới đang định hình hiệu suất, tiết kiệm năng lượng cho các mô hình AI lớn, từ đó tìm hiểu cách tối ưu hóa ứng dụng của mình với những tiến bộ này.