AI chip startup Etched has raised $800M in total funding, with backers including trading firm Jane Street and TSMC-linked VentureTech Alliance. The company, founded in 2022 by Harvard dropouts, has signed $1B in sales contracts and plans to ship its Sohu chip this summer. Sohu is purpose-built for transformer model inference, embedding the architecture directly into silicon rather than repurposing general-purpose GPUs. Etched also designed its full server rack — including cooling and networking — a first among chip startups. Notable investors include Geoffrey Hinton, Fei-Fei Li, and Stanley Druckenmiller. The inference chip market is seeing massive capital inflows as the industry shifts from training to running AI models at scale.
Nguồn: https://thenextweb.com/news/etched-800-million-jane-street-tsmc-inference-chip. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Các mô hình Claude của Anthropic giờ đây đã sẵn sàng trên Microsoft Foundry, chạy trên GPU NVIDIA GB300 Blackwell Ultra kết nối qua Quantum-X800 InfiniBand trên Azure. Điều này giúp doanh nghiệp triển khai các tác nhân AI tự động và chuyên biệt với hiệu suất suy luận cải thiện và chi phí sở hữu thấp hơn.
Lập trình viên nên đọc bài này để khám phá cách kết hợp GPU Blackwell Ultra của NVIDIA với các mô hình AI như Claude của Anthropic, giúp tối ưu hóa hiệu suất xử lý và giảm chi phí cho các ứng dụng tự động hóa AI chuyên dụng trong doanh nghiệp.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
OpenAI và Broadcom hợp tác phát triển chip AI tùy chỉnh Jalapeño nhằm cạnh tranh với Nvidia Blackwell và Google TPU, nhắm vào workloads inference. Chip này đã được thử nghiệm với mô hình GPT-5.3-Codex-Spark và dự kiến triển khai vào cuối năm 2025, trong khi tình trạng thiếu hụt HBM đang ảnh hưởng đến biên lợi nhuận của Broadcom.
Lập trình viên nên đọc bài này để hiểu cách các công ty lớn như OpenAI và Broadcom hợp tác phát triển chip AI chuyên dụng, giúp tối ưu hóa hiệu suất cho các mô hình lớn như GPT-5.3, ảnh hưởng trực tiếp đến hiệu năng và chi phí của các ứng dụng AI trong tương lai.
Workday đề xuất giữ các AI agent gần dữ liệu quan trọng nhất bằng cách nhúng các rào cản an toàn (như danh tính người dùng, quyền ngân sách) trực tiếp vào lớp inference, thay vì sử dụng cổng agent bên ngoài. Tại DevCon 2026, Workday giới thiệu các công cụ Agent-Ready Tools (dựa trên MCP), Developer Agent (xây dựng ứng dụng bằng ngôn ngữ tự nhiên) và Agent Passport (xác thực, giám sát agent trong sản xuất), nhằm nhấn mạnh lợi thế cạnh tranh về kiểm soát inference, độ an toàn và tin cậy thay vì công cụ phát triển.
Lập trình viên nên đọc bài này để hiểu cách các công ty như Workday xây dựng hệ sinh thái AI an toàn và hiệu quả, đặc biệt là cách triển khai các guardrails trong layer xử lý logic thay vì phụ thuộc vào các gateway bên ngoài, giúp bảo vệ dữ liệu nhạy cảm trong ứng dụng doanh nghiệp.
NVIDIA ra mắt NVIDIA Agent Toolkit, một nền tảng mã nguồn mở và mô-đun giúp doanh nghiệp xây dựng các tác nhân AI chuyên biệt đáng tin cậy. Bộ công cụ tích hợp các mô hình Nemotron (tùy chỉnh lý luận), NemoClaw (đảm bảo hành vi an toàn) và OpenShell (thực thi bảo mật), được triển khai trong các lĩnh vực như y tế, an ninh mạng và thiết kế chip.
Lập trình viên chuyên về AI nên đọc bài này để hiểu cách xây dựng các hệ thống agent chuyên dụng, an toàn và có thể kiểm soát được, giúp họ ứng dụng kiến thức về mô hình open-source, bảo mật và tích hợp vào các dự án doanh nghiệp thực tế.
Card đồ họa AMD RX 9070 GRE vốn độc quyền tại Trung Quốc nay trở thành lựa chọn tầm trung hấp dẫn toàn cầu nhờ giá trị vượt trội. Với hiệu năng rasterization gần ngang RTX 5070 (chênh 5-10%), hỗ trợ FSR 4.1 và 12GB VRAM, nó chiếm ưu thế về giá dưới 600 USD cho gaming 1440p so với đối thủ.
Lập trình viên nên đọc bài này để hiểu cách phân tích hiệu suất GPU qua các chỉ số kỹ thuật và so sánh giá trị thực tế của sản phẩm trong thị trường hiện đại, từ đó giúp họ đánh giá và tối ưu hóa hiệu năng cho các ứng dụng phát triển phần mềm.
NVIDIA's GeForce NOW is running summer membership discounts alongside the Steam Summer Sale, offering $70 off a 12-month Ultimate membership and $35 off a Performance membership. The Ultimate tier delivers RTX 4080/5080-class cloud performance at up to 4K/120fps with DLSS and ray tracing. Six new games join the GeForce NOW library this week, headlined by Devolver Digital's Dark Scrolls and Square Enix's The Adventures of Elliot: The Millennium Tales.
Cơ quan công tố quận Cơ Long (Đài Loan) đột kích văn phòng Super Micro Computer tại địa phương và hai công ty liên kết nhằm điều tra việc buôn lậu chip AI Nvidia sang Trung Quốc. Vụ việc mở rộng từ tháng 5 khi ba người, trong đó có đồng sáng lập Super Micro, bị bắt vì sử dụng giấy tờ giả để xuất khẩu máy chủ trang bị Nvidia. Vụ án có giá trị khoảng 2,5 tỷ USD theo cáo buộc của Mỹ. Đài Loan đang xem xét cấm hoàn toàn xuất khẩu chip AI sang Trung Quốc do các cáo buộc hiện dựa trên luật giả mạo tài liệu.
Lập trình viên nên đọc bài này vì họ có thể gặp phải các hệ thống server hoặc AI được sử dụng với chip Nvidia bị nghi ngờ vi phạm luật xuất khẩu, ảnh hưởng đến hiệu suất và tính hợp pháp của dự án công nghệ.