
vLLM-Omni extends the vLLM serving engine to handle multimodal output models like Qwen3-Omni, which produce text, audio, and images rather than just text tokens. The architecture decomposes inference into a graph of stages — Thinker (~30B MoE), Talker (~3B MoE), and Code2Wav vocoder — each with its own GPU memory budget and independent scaling. Key features include a single OpenAI-compatible endpoint, inherited vLLM primitives (PagedAttention, continuous batching, prefix caching extended to hidden-state tensors), shared-memory transport via OmniConnector, and async chunked pipeline execution that lets stages overlap so audio streams out before earlier stages finish. A demo on a single NVIDIA B200 shows an insurance claim triage use case with concurrent adjuster and customer-callback requests. Benchmarks against Hugging Face Transformers show vLLM-Omni achieves a real-time factor below 1.0 for audio generation versus 2.64 for the baseline. The engine also supports diffusion model stages alongside autoregressive ones on the same abstractions.
Nguồn: https://developers.redhat.com/articles/2026/07/01/inside-vllm-omni-architecture-serving-qwen3-omni. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Phòng thí nghiệm AI mới Thinking Machines đề xuất mô hình "interaction model" thay thế kiến trúc turn-based truyền thống bằng cách tích hợp tương tác trực tiếp vào mô hình, sử dụng các micro-turns (200ms) và phối hợp hai mô hình (tương tác nhanh + suy luận nền). Mô hình 276B tham số (12B tham số hoạt động) của họ thể hiện khả năng dịch thuật live, đếm nhịp real-time và sửa lỗi codeswitching giữa câu, nhưng vẫn gặp hạn chế về quản lý ngữ cảnh dài, yêu cầu kết nối và độ trễ.
Lập trình viên AI nên đọc bài này để hiểu cách thiết kế lại mô hình tương tác thực tế bằng cách loại bỏ giới hạn của hệ thống dựa trên vòng lặp ngôn ngữ truyền thống, giúp tối ưu hóa hiệu suất và khả năng tương tác đa phương tiện trong ứng dụng AI hiện đại.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
Workday đề xuất giữ các AI agent gần dữ liệu quan trọng nhất bằng cách nhúng các rào cản an toàn (như danh tính người dùng, quyền ngân sách) trực tiếp vào lớp inference, thay vì sử dụng cổng agent bên ngoài. Tại DevCon 2026, Workday giới thiệu các công cụ Agent-Ready Tools (dựa trên MCP), Developer Agent (xây dựng ứng dụng bằng ngôn ngữ tự nhiên) và Agent Passport (xác thực, giám sát agent trong sản xuất), nhằm nhấn mạnh lợi thế cạnh tranh về kiểm soát inference, độ an toàn và tin cậy thay vì công cụ phát triển.
Lập trình viên nên đọc bài này để hiểu cách các công ty như Workday xây dựng hệ sinh thái AI an toàn và hiệu quả, đặc biệt là cách triển khai các guardrails trong layer xử lý logic thay vì phụ thuộc vào các gateway bên ngoài, giúp bảo vệ dữ liệu nhạy cảm trong ứng dụng doanh nghiệp.
Đội kỹ thuật vLLM-Omni tối ưu hóa suy luận TTS cho bốn mô hình bằng cách tách rời kích thước chunk streaming khỏi cửa sổ decode, biên dịch toàn bộ mô hình bằng torch.compile, di chuyển trạng thái decode multi-codebook lên GPU, và sử dụng các kernel Triton tùy chỉnh. Kết quả đạt được cải thiện throughput 61,5% cho Qwen3-TTS, 172% cho VoxCPM2 và tăng tốc 2,7 lần cho Higgs Audio V3. Bài viết cũng đề cập những thiết kế bị loại bỏ như PIECEWISE CUDA Graph do không hiệu quả bằng eager plus local MLP graph.
Lập trình viên muốn tối ưu hóa hệ thống xử lý âm thanh hoặc phát triển các ứng dụng AI âm thanh phải tham khảo để học cách tối ưu hóa hiệu suất inference bằng cách áp dụng kiến trúc và kỹ thuật cụ thể như torch.compile, GPU-resident tensors, và attention kernels hiệu quả.

The final part of a four-part series on building a conversational analyst with Red Hat OpenShift AI and EnterpriseDB covers three main areas. First, it explains how the Model Context Protocol (MCP) extends JSON-RPC 2.0 to standardize tool integration between orchestrators and LLM servers, including initialization handshakes and tool description formats. Second, it details the server-sent events (SSE) streaming architecture that keeps users informed of agentic loop progress in real time. Third, it covers security practices for stochastic reasoning engines — including MCP tool registration enforcement, deep SQL syntax parsing with pglast, read-only database users, pod-level security constraints, and resource limits. Performance tuning topics include LLM temperature settings, Min-P sampling, prompt engineering techniques, vLLM continuous batching, and context length management for long agentic conversations.
AI chip startup Etched has raised $800M in total funding, with backers including trading firm Jane Street and TSMC-linked VentureTech Alliance. The company, founded in 2022 by Harvard dropouts, has signed $1B in sales contracts and plans to ship its Sohu chip this summer. Sohu is purpose-built for transformer model inference, embedding the architecture directly into silicon rather than repurposing general-purpose GPUs. Etched also designed its full server rack — including cooling and networking — a first among chip startups. Notable investors include Geoffrey Hinton, Fei-Fei Li, and Stanley Druckenmiller. The inference chip market is seeing massive capital inflows as the industry shifts from training to running AI models at scale.
NVIDIA's full-stack inference software, codesigned with its GPU and networking hardware, is enabling companies like Baseten, Cognition, Deep Infra, Together AI, and Cursor to dramatically reduce cost per token in production AI workloads. On the Blackwell platform, the stack has cut token costs by up to 5x for DeepSeek V4 within a month. The stack operates across three layers — production orchestration, application acceleration, and infrastructure access — and when combined, techniques like disaggregated serving, NVFP4 precision, and multi-token prediction compound to deliver up to 20x throughput gains. The open source ecosystem, particularly PyTorch and CUDA-native frameworks like vLLM and SGLang, accelerates this further by enabling day-zero deployment of new frontier models on Blackwell hardware.
Ahmad Osman, nhà sáng lập Osmantic, cho rằng AI cục bộ đang nhanh chóng thu hẹp khoảng cách với các mô hình tiên tiến dựa trên cloud. Ông nhấn mạnh rằng việc chạy AI cục bộ không chỉ phụ thuộc vào mô hình mà còn cần cả hệ thống hạ tầng đầy đủ như search, tools và agent harnesses. Osman dự đoán các mô hình nhỏ, chuyên biệt fine-tuned trên dữ liệu doanh nghiệp sẽ trở thành xu hướng chủ đạo, trong khi các phòng thí nghiệm mô hình open source sẽ kiếm doanh thu thông qua cấp phép fine-tuning và triển khai chuyên biệt.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi từ cloud sang AI địa phương sẽ giúp tối ưu hóa hiệu suất, bảo mật và chi phí cho ứng dụng của họ trong tương lai.