Researchers from Extropic Corp. and MIT have proposed a Denoising Thermodynamic Computer Architecture (DTCA) — a transistor-based probabilistic computing system that could perform AI inference tasks using roughly 10,000 times less energy than GPUs. The architecture uses conventional CMOS transistors to generate programmable random numbers, chaining sparse Boltzmann machines in a denoising pipeline inspired by diffusion models. On Fashion-MNIST benchmarks, simulated results show energy parity with GPU performance at a fraction of the cost. A hybrid approach combining small neural networks with thermodynamic hardware also showed promise on CIFAR-10. Key caveats: only the random-number generator circuit has been physically built; the full architecture remains theoretical, and scaling to large AI workloads is an unsolved challenge.
Nguồn: https://thequantuminsider.com/2026/07/03/researchers-propose-thermodynamic-computing-architecture-that-could-dramatically-reduce-ai-energy-use. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
OpenAI và Broadcom hợp tác phát triển chip AI tùy chỉnh Jalapeño nhằm cạnh tranh với Nvidia Blackwell và Google TPU, nhắm vào workloads inference. Chip này đã được thử nghiệm với mô hình GPT-5.3-Codex-Spark và dự kiến triển khai vào cuối năm 2025, trong khi tình trạng thiếu hụt HBM đang ảnh hưởng đến biên lợi nhuận của Broadcom.
Lập trình viên nên đọc bài này để hiểu cách các công ty lớn như OpenAI và Broadcom hợp tác phát triển chip AI chuyên dụng, giúp tối ưu hóa hiệu suất cho các mô hình lớn như GPT-5.3, ảnh hưởng trực tiếp đến hiệu năng và chi phí của các ứng dụng AI trong tương lai.
Anthropic ra mắt Claude Science, nền tảng AI hỗ trợ nghiên cứu sinh học, tích hợp với Modal để cung cấp tài nguyên GPU/CPU linh hoạt cho các tác vụ phức tạp như dự đoán cấu trúc protein hay CRISPR. Người dùng có thể kết nối workspace Modal trực tiếp, tự động chuyển tải workloads khi vượt quá khả năng cục bộ, với các tính năng như song song hóa quy mô lớn, lưu trữ chia sẻ (Modal Volumes) và môi trường tái sản xuất. Modal cam kết hỗ trợ tới 100.000 USD tín dụng compute cho các khoa sinh học thông qua chương trình cohort, hạn chót đăng ký đến 15/7/2026.
Nếu bạn đang làm việc trong lĩnh vực sinh học máy tính hoặc nghiên cứu sinh học, hãy đọc bài này để khám phá cách Modal kết hợp với Claude Science giúp các nhà khoa học sinh học tiết kiệm thời gian và chi phí khi xử lý các nhiệm vụ tính toán phức tạp như dự đoán cấu trúc protein mà không cần phải quản lý hạ tầng máy tính riêng.
Giá DDR2 tăng 55-60% trong Q2/2026 do thiếu hụt DRAM trầm trọng khi các nhà sản xuất chuyển sản lượng wafer sang sản xuất HBM cho AI, dự báo tiếp tục tăng 35-40% trong Q3. Các hãng phần cứng buộc phải hạ cấp từ DDR4 xuống DDR3, rồi DDR3 xuống DDR2 để đảm bảo nguồn cung, ảnh hưởng đến hệ thống nhúng, thiết bị công nghiệp và mạng. Nguồn cung DDR2 không thể cải thiện trước năm 2027-2028 khi các nhà máy mới của SK Hynix và Micron đi vào hoạt động.
Lập trình viên nên đọc bài này vì nó giúp bạn hiểu rõ về những thách thức về nguồn cung cấp bộ nhớ DDR2, ảnh hưởng đến thiết kế phần cứng cho các ứng dụng embedded và hệ thống AI, từ đó có thể tối ưu hóa kiến trúc phần mềm và dự đoán chi phí phát triển sản phẩm trong tương lai.
Qt Canvas Painter giới thiệu QCanvasPath và nhóm path nhằm tối ưu hiệu suất render 2D, tiết kiệm ~60% bộ nhớ nhờ định dạng SoA thân thiện cache, hỗ trợ tái sử dụng giữa các frame và tương thích API với QCanvasPainter. Nhóm path cho phép GPU lưu trữ đỉnh (vertex) tĩnh, giúp xử lý biến đổi, màu sắc hay gradient mà không cần cập nhật buffer, đồng thời chứng minh khả năng render tiến triển 60fps trên thiết bị nhúng với tải CPU/GPU thấp hơn. Tính năng này sẽ trở thành module chính thức trong Qt 6.12.
Lập trình viên muốn tối ưu hiệu suất rendering 2D trên Qt nên đọc bài này để khám phá cách sử dụng QCanvasPath và path groups để giảm chi phí CPU/GPU, giảm bộ nhớ và cải thiện trải nghiệm 60FPS trên thiết bị embedded.
OrthoRoute là công cụ định tuyến PCB tự động (autorouter) sử dụng GPU, hoạt động như plugin của KiCad, chuyên xử lý các bo mạch có mật độ siêu cao với hàng nghìn đường dẫn (nets). Nó áp dụng phương pháp lưới Manhattan kết hợp vias chôn/che giấu, dựa trên thuật toán PathFinder (dùng trong FPGA routing), giúp tăng tốc độ đáng kể nhờ GPU. Mặc dù hiện chỉ hữu ích cho nhóm nhỏ người dùng, kiến trúc plugin module và mã nguồn mở trên GitHub cho phép mở rộng và tùy biến.
Lập trình viên thiết kế PCB chuyên nghiệp cần tìm hiểu OrthoRoute để hiểu cách tối ưu hóa thuật toán routing trên GPU, giúp giải quyết những vấn đề khó khăn về mật độ mạch và hiệu suất cho các dự án PCB phức tạp.
Samsung Group công bố kế hoạch đầu tư 140 nghìn tỷ won (90 tỷ USD) trong thập kỷ tới tại tỉnh Chungcheong, Hàn Quốc, tập trung vào sản xuất OLED, bộ nhớ HBM, pin thế hệ mới và substrates FC-BGA cho AI. Tổng cộng, các doanh nghiệp trong khu vực dự kiến đầu tư khoảng 252,5 tỷ USD, với sự tham gia của Tổng thống Hàn Quốc nhằm thúc đẩy Chungcheong trở thành "Thung lũng Silicon của Hàn Quốc".
Đây là một ví dụ thực tế về cách công nghệ và đầu tư tập trung vào các lĩnh vực AI, bán dẫn và robotics sẽ định hình tương lai của một khu vực, giúp lập trình viên hiểu rõ về xu hướng công nghệ mới và cách nó tác động đến thị trường lao động.
Các nhà cung cấp inference serverless đưa ra quyết định hạ tầng không công khai (số lượng bản sao, mức lượng tử hóa, GPU, chiến lược batching) ảnh hưởng lớn đến độ trễ và tính nhất quán của cùng một model. Cùng một model có thể hoạt động khác biệt hoàn toàn giữa các nhà cung cấp, như trường hợp DeepSeek V4 Pro có hệ số biến thiên (CV) từ 21% đến 710% tùy nơi. Nguyên nhân là do các model phổ biến được tối ưu sâu (giữ bản sao "ấm", lượng tử hóa tối ưu), trong khi model ít lưu lượng phải khởi động lạnh thường xuyên. Đề xuất benchmark TTFT qua ít nhất 75 yêu cầu liên tiếp, đo lường median, p95 và CV% trước khi triển khai sản xuất.
Lập trình viên nên đọc bài này để tránh rủi ro về độ ổn định và hiệu suất không dự đoán được khi triển khai mô hình AI trên các nền tảng serverless, vì mỗi provider có cách tối ưu hóa khác nhau ảnh hưởng đến thời gian phản hồi và tính nhất quán.