UCLA and five major semiconductor companies — Applied Materials, GlobalFoundries, Meta, Synopsys, and Broadcom — have launched a $125 million university-industry hub aimed at accelerating semiconductor research and commercialization for the AI era. The hub spans all stages of semiconductor manufacturing, from materials and architectural design to packaging and fabrication, with a focus on AI inference at network edges. Unlike similar hubs at Berkeley and Arizona State, UCLA's program emphasizes early-stage, blue-sky research while maintaining close industry ties. Doctoral students will be co-advised by academic and industry supervisors and will complete year-long industry internships. The initiative responds to a growing mismatch between the rapid pace of AI model development and the slower 18–48 month semiconductor update cycles, with the goal of compressing commercialization timelines from decades to just two or three years.
Nguồn: https://spectrum.ieee.org/ai-chip-design-fab-ucla. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
Workday đề xuất giữ các AI agent gần dữ liệu quan trọng nhất bằng cách nhúng các rào cản an toàn (như danh tính người dùng, quyền ngân sách) trực tiếp vào lớp inference, thay vì sử dụng cổng agent bên ngoài. Tại DevCon 2026, Workday giới thiệu các công cụ Agent-Ready Tools (dựa trên MCP), Developer Agent (xây dựng ứng dụng bằng ngôn ngữ tự nhiên) và Agent Passport (xác thực, giám sát agent trong sản xuất), nhằm nhấn mạnh lợi thế cạnh tranh về kiểm soát inference, độ an toàn và tin cậy thay vì công cụ phát triển.
Lập trình viên nên đọc bài này để hiểu cách các công ty như Workday xây dựng hệ sinh thái AI an toàn và hiệu quả, đặc biệt là cách triển khai các guardrails trong layer xử lý logic thay vì phụ thuộc vào các gateway bên ngoài, giúp bảo vệ dữ liệu nhạy cảm trong ứng dụng doanh nghiệp.

The llm-d batch gateway is a Kubernetes-native batch inference service that integrates with Red Hat OpenShift AI to handle high-volume offline LLM workloads. It implements the OpenAI-compatible /v1/batches and /v1/files API, allowing existing clients to target private clusters with minimal configuration changes. The architecture shares GPU resources and model pods with interactive traffic while maintaining separate routing, security policies, and concurrency controls. Key design decisions include disk-backed execution plans for bounded memory, PrefixHash-ordered request dispatch to improve KV cache hit rates, two-level concurrency semaphores to prevent batch jobs from starving interactive requests, and startup recovery via PostgreSQL state reconciliation. Security is handled through Kubernetes TokenReview, SubjectAccessReview-based RBAC, and token-level rate limiting via Red Hat Connectivity Link. Common use cases include model evaluation, dataset scoring, embedding generation at scale, and differential pricing for batch vs. interactive traffic.
MRP là module transformer nhẹ (3 lớp) dự đoán residual logit giữa các bước khử nhiễu thay vì phân phối đầy đủ, giúp tăng tốc inference cho diffusion language model (DLM). Nó hỗ trợ speculative decoding (tăng 1.56× throughput) hoặc decoding trực tiếp (tăng 1.9× với chi phí nhỏ về chất lượng), đồng thời cải thiện độ chính xác lên đến +22.6 điểm trên các benchmark nhờ remask token không cần thiết. Module này gắn vào backbone đã đóng băng, không yêu cầu retraining và tương thích với các phương pháp inference DLM hiện có.
Là người phát triển hoặc nghiên cứu về các mô hình ngôn ngữ lớn, bạn nên đọc bài này để khám phá cách cải tiến hiệu suất và độ chính xác của quá trình giải mã diffusion bằng cách sử dụng môđun dự đoán lỗi nhỏ giữa các bước, giúp tối ưu hóa cả tốc độ và chất lượng cho các ứng dụng như tự động hóa mã và giải quyết vấn đề toán học.
Bài viết giới thiệu ILCP-for-agents, một mô hình nén trạng thái ẩn (hidden state) của sender thành latent payload nhỏ qua β-VAE, vận chuyển qua ranh giới agent và tái tạo thành K token bộ nhớ cho receiver. Phương pháp này kế thừa từ nghiên cứu handover 6G (ILCP, ICML 2026) giúp giảm handover lặp (0% so với 6.5%) và cải thiện độ chính xác lên đến +13.3 điểm phần trăm.
Lập trình viên muốn tối ưu hóa hiệu suất của các hệ thống AI multi-hop agent cần đọc bài này để khám phá cách áp dụng latent memory để giảm chi phí token và cải thiện độ chính xác khi chuyển giao thông tin giữa các bộ phận.
Together AI has raised $800M in Series C funding from investors including NVIDIA, Aramco Ventures, Vista Equity, and General Catalyst, plus commitments for over 500 MW of compute capacity. The company argues that closed frontier LLMs become economically unsustainable at production scale, while open-weights models like DeepSeek and Nemotron deliver 6x–20x cost reductions. Together AI positions itself as a full-stack open-source AI platform covering inference, training, and accelerated compute, and highlights recent research output including FlashAttention-4 for NVIDIA Blackwell and Together Megakernel.
Ahmad Osman, nhà sáng lập Osmantic, cho rằng AI cục bộ đang nhanh chóng thu hẹp khoảng cách với các mô hình tiên tiến dựa trên cloud. Ông nhấn mạnh rằng việc chạy AI cục bộ không chỉ phụ thuộc vào mô hình mà còn cần cả hệ thống hạ tầng đầy đủ như search, tools và agent harnesses. Osman dự đoán các mô hình nhỏ, chuyên biệt fine-tuned trên dữ liệu doanh nghiệp sẽ trở thành xu hướng chủ đạo, trong khi các phòng thí nghiệm mô hình open source sẽ kiếm doanh thu thông qua cấp phép fine-tuning và triển khai chuyên biệt.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi từ cloud sang AI địa phương sẽ giúp tối ưu hóa hiệu suất, bảo mật và chi phí cho ứng dụng của họ trong tương lai.

vLLM-Omni mở rộng engine vLLM để phục vụ các mô hình đa phương thức như Qwen3-Omni, xử lý đồng thời văn bản, âm thanh và hình ảnh thay vì chỉ token văn bản. Kiến trúc chia inference thành ba giai đoạn độc lập (Thinker, Talker, Code2Wav vocoder) với bộ nhớ GPU riêng, hỗ trợ endpoint tương thích OpenAI, cơ chế chia sẻ bộ nhớ OmniConnector và thực thi pipeline bất đồng bộ. Kết quả benchmark cho thấy tốc độ xử lý audio thời gian thực vượt trội so với Hugging Face Transformers.
Nếu bạn là lập trình viên muốn tối ưu hóa hệ thống AI đa mô hình (multimodal) với hiệu suất cao và khả năng mở rộng linh hoạt, vLLM-Omni sẽ là giải pháp thiết yếu để bạn hiểu cách xây dựng và triển khai các mô hình như Qwen3-Omni một cách hiệu quả, đặc biệt khi cần xử lý đồng thời văn bản, âm thanh và hình ảnh trên các GPU phân tán.