Multi-Token Residual Prediction (MRP) is a lightweight transformer module (3 layers) that accelerates diffusion language model (DLM) inference by predicting inter-step logit residuals rather than full distributions. Naive multi-token prediction collapses on DLMs beyond one step, but predicting the small correction between adjacent denoising steps is a low-complexity target a tiny module can handle. MRP serves two inference regimes: in static denoising it enables speculative decoding (up to 1.56× throughput in SGLang with lossless quality) or direct decoding (up to 1.9× with minor quality cost); in dynamic denoising it remasks over-eagerly revealed tokens using the residual signal, recovering up to +22.6 accuracy points on benchmarks like GSM8K, MATH500, HumanEval, and MBPP across SDAR 1.7B/4B/8B models. The module attaches to a frozen backbone, requires no backbone retraining, and composes with existing DLM inference methods.
Nguồn: https://modal.com/blog/multi-token-residual-prediction. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
Workday đề xuất giữ các AI agent gần dữ liệu quan trọng nhất bằng cách nhúng các rào cản an toàn (như danh tính người dùng, quyền ngân sách) trực tiếp vào lớp inference, thay vì sử dụng cổng agent bên ngoài. Tại DevCon 2026, Workday giới thiệu các công cụ Agent-Ready Tools (dựa trên MCP), Developer Agent (xây dựng ứng dụng bằng ngôn ngữ tự nhiên) và Agent Passport (xác thực, giám sát agent trong sản xuất), nhằm nhấn mạnh lợi thế cạnh tranh về kiểm soát inference, độ an toàn và tin cậy thay vì công cụ phát triển.
Lập trình viên nên đọc bài này để hiểu cách các công ty như Workday xây dựng hệ sinh thái AI an toàn và hiệu quả, đặc biệt là cách triển khai các guardrails trong layer xử lý logic thay vì phụ thuộc vào các gateway bên ngoài, giúp bảo vệ dữ liệu nhạy cảm trong ứng dụng doanh nghiệp.
AI chip startup Etched has raised $800M in total funding, with backers including trading firm Jane Street and TSMC-linked VentureTech Alliance. The company, founded in 2022 by Harvard dropouts, has signed $1B in sales contracts and plans to ship its Sohu chip this summer. Sohu is purpose-built for transformer model inference, embedding the architecture directly into silicon rather than repurposing general-purpose GPUs. Etched also designed its full server rack — including cooling and networking — a first among chip startups. Notable investors include Geoffrey Hinton, Fei-Fei Li, and Stanley Druckenmiller. The inference chip market is seeing massive capital inflows as the industry shifts from training to running AI models at scale.
Together AI has raised $800M in Series C funding from investors including NVIDIA, Aramco Ventures, Vista Equity, and General Catalyst, plus commitments for over 500 MW of compute capacity. The company argues that closed frontier LLMs become economically unsustainable at production scale, while open-weights models like DeepSeek and Nemotron deliver 6x–20x cost reductions. Together AI positions itself as a full-stack open-source AI platform covering inference, training, and accelerated compute, and highlights recent research output including FlashAttention-4 for NVIDIA Blackwell and Together Megakernel.
A deep dive into static vs. continuous batching for LLM inference servers. Static batching groups requests into fixed batches and waits for all to complete, wasting GPU cycles when request lengths vary. Continuous batching uses iteration-level scheduling to eject finished requests and admit new ones immediately, keeping GPU utilization high. The post explains prefill vs. decode phases, how vLLM implements continuous batching alongside PagedAttention for efficient KV cache memory management, and how Hugging Face TGI (now in maintenance mode) compares. Practical guidance covers when each approach fits best: static for predictable offline workloads, continuous for online multi-user APIs and chatbots.
NVIDIA's full-stack inference software, codesigned with its GPU and networking hardware, is enabling companies like Baseten, Cognition, Deep Infra, Together AI, and Cursor to dramatically reduce cost per token in production AI workloads. On the Blackwell platform, the stack has cut token costs by up to 5x for DeepSeek V4 within a month. The stack operates across three layers — production orchestration, application acceleration, and infrastructure access — and when combined, techniques like disaggregated serving, NVFP4 precision, and multi-token prediction compound to deliver up to 20x throughput gains. The open source ecosystem, particularly PyTorch and CUDA-native frameworks like vLLM and SGLang, accelerates this further by enabling day-zero deployment of new frontier models on Blackwell hardware.
Bài viết giới thiệu ILCP-for-agents, một mô hình nén trạng thái ẩn (hidden state) của sender thành latent payload nhỏ qua β-VAE, vận chuyển qua ranh giới agent và tái tạo thành K token bộ nhớ cho receiver. Phương pháp này kế thừa từ nghiên cứu handover 6G (ILCP, ICML 2026) giúp giảm handover lặp (0% so với 6.5%) và cải thiện độ chính xác lên đến +13.3 điểm phần trăm.
Lập trình viên muốn tối ưu hóa hiệu suất của các hệ thống AI multi-hop agent cần đọc bài này để khám phá cách áp dụng latent memory để giảm chi phí token và cải thiện độ chính xác khi chuyển giao thông tin giữa các bộ phận.
Ahmad Osman, nhà sáng lập Osmantic, cho rằng AI cục bộ đang nhanh chóng thu hẹp khoảng cách với các mô hình tiên tiến dựa trên cloud. Ông nhấn mạnh rằng việc chạy AI cục bộ không chỉ phụ thuộc vào mô hình mà còn cần cả hệ thống hạ tầng đầy đủ như search, tools và agent harnesses. Osman dự đoán các mô hình nhỏ, chuyên biệt fine-tuned trên dữ liệu doanh nghiệp sẽ trở thành xu hướng chủ đạo, trong khi các phòng thí nghiệm mô hình open source sẽ kiếm doanh thu thông qua cấp phép fine-tuning và triển khai chuyên biệt.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi từ cloud sang AI địa phương sẽ giúp tối ưu hóa hiệu suất, bảo mật và chi phí cho ứng dụng của họ trong tương lai.