MIT CSAIL researchers developed 'Masked Inverse Reinforcement Learning' (Masked IRL), a system that uses two LLMs to help robots interpret vague human instructions and identify which environmental details matter for task execution. The first LLM elaborates on ambiguous prompts based on kinesthetic demonstration data, while the second scores environmental elements as relevant or irrelevant, masking unnecessary details. This approach requires nearly five times less demonstration data than comparable methods and outperformed baselines by up to 15% in correctly identifying unstated user preferences. A real robotic arm trained on 50 demonstrations successfully navigated around obstacles like laptops while completing tasks such as moving cups and wiping tables.
Nguồn: https://news.mit.edu/2026/llms-help-robots-understand-vague-instructions-and-focus-key-details-0626. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Nghiên cứu định tính từ nhóm Rust về cách các nhà phát triển học ngôn ngữ Rust thông qua phỏng vấn và khảo sát, nổi bật các con đường học tập (tò mò, chuyển đổi công việc, áp dụng tổ chức), khó khăn thường gặp (quên thói quen OOP, 'clone guilt'), vai trò của borrow checker và trợ lý AI (LLMs), cũng như chiến lược đào tạo nhóm. Bài viết cũng đề cập đến tình trạng 'bỏ cuộc thầm lặng' và ảnh hưởng của cộng đồng đến sự gắn bó lâu dài, đồng thời đưa ra khuyến nghị cải thiện tài liệu học tập.
Những kinh nghiệm thực tế từ các lập trình viên học Rust sẽ giúp bạn hiểu rõ cách vượt qua thách thức từ bản chất mới của ngôn ngữ và xây dựng chiến lược học tập hiệu quả.
Vận hành foundation model (FM) trong sản xuất đòi hỏi coi chúng như những dịch vụ cấp cao, không phải sản phẩm giao bàn giao khoa học dữ liệu. Các nguyên tắc vận hành quan trọng bao gồm hiểu rằng ảo giác (hallucination) xuất phát từ sự dịch chuyển phân phối (distribution shift) chứ không phải lỗi triển khai, sử dụng prompt engineering và RAG trước khi fine-tuning, và xây dựng lớp quan sát (observability) chuyên dụng để phát hiện lỗi thầm lặng. Các công cụ như LangSmith hay Arize là cần thiết vì các bộ giám sát APM tiêu chuẩn không bắt được các lỗi đặc thù của hệ thống AI, vốn có thể đưa ra kết quả sai nhưng không báo lỗi. Vòng đời FM tương tự SDLC nhưng có nhiều lỗi thầm lặng hơn, và các kỹ sư thành công là những người áp dụng các phương pháp SRE đã được chứng minh: sổ tay vận hành (runbooks), giám sát, và quy trình leo thang rõ ràng.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi từ việc xử lý mô hình AI như một nhiệm vụ kỹ thuật số sang quản lý nó như một dịch vụ chuyên nghiệp, giúp giảm rủi ro, tối ưu hóa hiệu suất và đảm bảo an toàn sản phẩm trong môi trường sản xuất.
Một agent AI không phải là điều bí ẩn mà chỉ là sự kết hợp giữa một mô hình (model) và năm thành phần: hướng dẫn (instructions), bộ nhớ (memory), công cụ (tools) và vòng lặp thực thi (execution loop). Bài viết trình bày cách xây dựng một agent tối giản chỉ với 60 dòng Python, sử dụng giao diện mô hình dựa trên Protocol, lớp dataclass cho trạng thái, và vòng lặp while đơn giản xen kẽ giữa việc gọi công cụ và trả lời.
Để hiểu rõ cách các framework AI hiện đại như LangChain hay AutoGen thực sự hoạt động dưới góc độ cơ bản nhất, từ đó tránh bị lôi kéo bởi hype và xây dựng các giải pháp AI hiệu quả hơn.
Chính quyền Trump yêu cầu OpenAI trì hoãn triển khai rộng rãi mô hình GPT 5.6, chỉ cấp quyền truy cập cho một nhóm đối tác nhất định do lo ngại về an toàn và bảo mật. Động thái này tương tự cách Anthropic giới hạn mô hình Claude Mythos thông qua Project Glasswing, trong bối cảnh chính phủ Mỹ vừa ban hành sắc lệnh yêu cầu các công ty AI tự nguyện nộp mô hình mới để kiểm tra trước khi phát hành.
Lập trình viên nên đọc bài này để hiểu cách các cơ quan chính phủ và công ty AI đang quản lý rủi ro an ninh mạng khi phát triển các mô hình AI mạnh mẽ, giúp bạn dự đoán xu hướng bảo mật và cách ứng phó với những nguy cơ mới trong ngành công nghệ.

Bài viết phân tích sâu về luật scaling (quy luật mở rộng) trong mô hình ngôn ngữ lớn, từ những nghiên cứu ban đầu (Amari 1992, Hestness 2017) đến các công trình quan trọng như Kaplan et al. và Chinchilla. Nó giải thích mối quan hệ power-law giữa kích thước mô hình, dữ liệu và compute, đồng thời điều chỉnh bất đồng giữa hai nghiên cứu này, cũng như đề cập đến các thách thức thực tế khi áp dụng luật scaling như độ chính xác làm tròn, chọn vùng fit và ảnh hưởng của lặp dữ liệu.
Lập trình viên xây dựng mô hình AI cần hiểu về quy luật mở rộng của mô hình để tối ưu hóa hiệu suất, chi phí và hiệu quả của các mô hình lớn như LLM từ những nguyên tắc cơ bản về phân phối dữ liệu và tính toán.
LLM khiến người dùng kiệt sức vì đòi hỏi tương tác xã hội (năng lượng tinh thần như khi giao tiếp với người) nhưng không đem lại phần thưởng ngược lại như học hỏi, thử thách hay cảm hứng. Khác với công cụ truyền thống trở thành phần mở rộng của cơ thể nhờ tính nhất quán và tốc độ, LLM buộc người dùng phải đàm phán, thuyết phục và chủ yếu trả về nhiều code, test cùng lời bào chữa.
Một lập trình viên nên đọc bài này để hiểu cách phân biệt giữa công cụ hiệu quả và những tương tác tiêu tốn năng lượng mà không mang lại sự tiến bộ thực sự trong việc phát triển kỹ năng và hiệu suất code.
Các mô hình ngôn ngữ lớn (LLM) không có bộ nhớ bền vững giữa các lần gọi, toàn bộ bộ nhớ làm việc của chúng là context window. Việc lấp đầy context window một cách không kiểm soát sẽ làm giảm độ tin cậy do sự chú ý bị chia sẻ giữa tất cả các token, khiến thông tin quan trọng bị pha loãng. Bài viết đề xuất các chiến lược như lựa chọn thông tin đưa vào, tóm tắt và xóa bớt theo thời gian, giữ các quy tắc quan trọng trong system prompt hoặc file quy tắc bền vững, và sử dụng các sub-agents với ngữ cảnh mới cho các tác vụ dài. Ví dụ cụ thể với Uno Platform's App MCP cho thấy cách trạng thái runtime có thể thay thế việc sao chép thủ công để duy trì bộ nhớ làm việc sạch sẽ và chính xác.
Những lập trình viên xây dựng hệ thống AI tự động hóa nên đọc bài này để hiểu cách tối ưu hóa bộ nhớ làm việc của AI bằng cách tránh sự rối loạn trong dữ liệu, từ đó nâng cao độ tin cậy và hiệu suất trong các ứng dụng dài hạn.
Mô hình AI Mythos của Anthropic đã phát hiện lỗ hổng trong các hệ thống bí mật của chính phủ Mỹ trong một cuộc thử nghiệm kiểm tra đỏ có kiểm soát, chứ không phải do tấn công từ bên ngoài. Kết quả này nhấn mạnh khả năng của Mythos trong việc tìm ra hàng nghìn lỗ hổng zero-day trên các hệ điều hành và trình duyệt lớn, dù chính phủ Mỹ từng hạn chế công khai mô hình này sau một vụ jailbreak riêng.
Những phát hiện về khả năng phát hiện lỗ hổng trong hệ thống an ninh quốc gia của Mỹ cho thấy AI mạnh mẽ như Mythos có thể trở thành công cụ quan trọng trong bảo mật, nhưng cũng đặt ra thách thức về kiểm soát và ứng dụng công bằng—là vấn đề cần thảo luận để xây dựng hệ sinh thái an toàn và minh bạch cho công nghệ AI.