Armin Ronacher investigates a regression in newer Claude models (Opus 4.8, Sonnet 5) where they emit extra, invented keys in tool call arguments that don't match the schema, causing Pi's edit tool to reject calls. The failure is context-dependent, appearing mainly in long agentic sessions. The hypothesis is that post-training on Claude Code's forgiving harness — which silently filters unknown keys and applies parameter aliases — has reduced the gradient against schema violations, making newer models worse at adhering to non-Claude-Code tool schemas. Enabling Anthropic's strict mode eliminates the issue, suggesting server-side grammar-constrained sampling is the fix. The broader concern is that as post-training becomes increasingly tied to one closed-source harness, alternative tool schemas may become implicitly off-distribution, forcing third-party harnesses to either mimic Claude Code's quirks or rely on strict mode.
Nguồn: https://lucumr.pocoo.org/2026/7/4/better-models-worse-tools. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Claude Sonnet 5 cải thiện đáng kể khả năng chống tấn công prompt injection cho các hệ thống AI agent, giảm tỷ lệ thành công tấn công từ ~50% (Sonnet 4.6) xuống dưới 1% (và gần 0% với safeguards tích hợp). Mặc dù từ chối yêu cầu độc hại tăng từ 76,6% lên 92,4%, nhưng cũng dẫn đến từ chối cao hơn cho các tác vụ bảo mật hợp pháp. Sonnet 5 vượt trội hơn Sonnet 4.6 nhưng thấp hơn Opus 4.8 trong đánh giá khả năng tấn công mạng, với safeguards mặc định giảm điểm tấn công xuống 0 trên hầu hết tiêu chuẩn.
Lập trình viên xây dựng hệ thống AI agent phải đọc bài này để hiểu cách cải thiện an toàn chống lại tấn công prompt injection và các rủi ro bảo mật mới trong triển khai, từ đó tối ưu hóa thiết kế hệ thống mà không phụ thuộc vào các giải pháp bảo vệ bên ngoài.

Một nhà phát triển lập luận rằng nên viết code và test thay vì duy trì các bản đặc tả bằng tiếng Anh khi làm việc với các tác nhân lập trình AI. Code chính xác và tự tài liệu hóa, trong khi đặc tả không chính xác và gây gánh nặng bảo trì kép; test đóng vai trò yêu cầu khả thi, giúp xây dựng "bề mặt niềm tin mở rộng dần" cho phép AI hoạt động tự chủ hơn ở những khu vực đã được kiểm chứng.
Lập trình viên nên đọc bài này để hiểu cách chuyển đổi từ văn bản không chính xác sang hành động thực tế—giúp giảm thiểu rủi ro và tăng hiệu quả khi làm việc với các hệ thống AI thông minh.
Bài viết chỉ trích "AI Confidence Theater" – xu hướng thổi phồng khả năng và quy trình AI trên mạng xã hội lẫn trong doanh nghiệp, gây hại bằng cách bóp méo kỳ vọng, tạo FOMO, khó khăn trong tuyển dụng và áp lực giả vờ thành thạo AI. Tác giả đề xuất thay đổi bằng cách chia sẻ kết quả thực tế, thừa nhận giới hạn và tập trung vào công việc duy trì hệ thống AI vốn ít hào nhoáng nhưng mang lại giá trị thực.
Nếu bạn đang tìm hiểu về cách xây dựng dự án AI thực tế và tránh bị lừa bởi hype không có cơ sở, bài viết này giúp bạn phân biệt giữa tuyên bố hype và kiến thức thực sự để đưa ra quyết định sáng suốt về việc đầu tư thời gian và nguồn lực.
Function calling cho phép các mô hình ngôn ngữ lớn (LLMs) tương tác với hệ thống bên ngoài thông qua việc gọi các API hoặc hàm đã định nghĩa dựa trên đầu vào của người dùng, thay vì chỉ dừng lại ở sinh văn bản. Bài viết giải thích khái niệm, minh họa cách hoạt động bằng ví dụ JSON có cấu trúc, và cung cấp hướng dẫn Python hoàn chỉnh sử dụng GPT-4 của OpenAI để xây dựng hệ thống lọc email tự động lưu trữ thư quảng cáo và đánh dấu sao thư cá nhân hoặc công việc.
Là lập trình viên muốn tự động hóa công việc hoặc tích hợp AI vào ứng dụng thực tế, bài này sẽ giúp bạn hiểu cách biến mô hình ngôn ngữ lớn thành công cụ thực hành thông qua gọi hàm, từ đó tối ưu hóa hiệu suất và tính linh hoạt của hệ thống.
Google Lighthouse bổ sung hạng mục mới "Agentic Browsing" để kiểm tra mức độ sẵn sàng của website cho AI agents, cung cấp đánh giá pass/fail thay vì điểm 0-100. Các tiêu chí kiểm tra bao gồm: sự hiện diện của file llms.txt, tích hợp WebMCP, chất lượng cây truy cập (accessibility tree), và độ ổn định Cumulative Layout Shift (CLS).
Lập trình viên nên đọc bài này để hiểu cách chuẩn bị website cho tương tác với các bot AI tương tác trực tiếp với người dùng, từ đó tối ưu hóa hiệu suất, tính khả dụng và trải nghiệm cho các công cụ mới này.
Bài viết phân tích bốn lĩnh vực kỹ thuật theo lớp xung quanh các tác nhân dựa trên LLM: prompt engineering (điều chỉnh một lần gọi model), context engineering (quản lý thông tin model nhận mỗi lượt, bao gồm retrieval và memory), harness engineering (mã xung quanh cho tools, retries, sub-agents), và loop engineering (chạy đa lượt tự động với điều kiện dừng phù hợp). Ngoài ra, bài còn giới thiệu sơ lược 11 biểu đồ DS/ML quan trọng như ROC curves, SHAP, bias-variance tradeoff, và partial dependency plots.
Những kiến thức về prompt, context, harness và loop engineering cùng các mô hình thống kê cơ bản sẽ giúp bạn tối ưu hóa hiệu suất và độ tin cậy của các hệ thống AI tự động hóa, từ đó tiết kiệm thời gian và nâng cao chất lượng giải pháp kỹ thuật của bạn.
ACP và MCP là hai giao thức mở hỗ trợ workflow coding thông minh, trong đó ACP chuẩn hóa kết nối giữa trình soạn thảo code (editor) và agent AI, tương tự LSP cho công cụ ngôn ngữ, còn MCP chuẩn hóa giao tiếp giữa agent với các công cụ và nguồn dữ liệu (CI, database). ACP quản lý phiên làm việc, prompt, diffs, quyền truy cập, trong khi MCP xử lý lệnh gọi tool và truy xuất tài nguyên.
Lập trình viên nên đọc bài này để hiểu cách hai giao thức ACP và MCP mở rộng khả năng tích hợp AI vào quá trình phát triển mã, giúp tối ưu hóa hiệu suất và linh hoạt khi làm việc với các công cụ và môi trường khác nhau.
Kỷ nguyên AI "Agentic" đã khiến việc viết code thủ công trở nên lỗi thời, khi một kỹ sư đơn lẻ điều phối các pipeline AI có thể vượt trội hơn cả đội 4 người truyền thống. Bài viết đề xuất phương pháp xây dựng dựa trên logic (schema isolation, quản lý ngữ cảnh như KV cache pinning) cùng stack công nghệ tách rời (Next.js, TypeScript, Zustand, Supabase) tối ưu cho AI agent, đồng thời so sánh hiệu suất và chi phí, khẳng định lợi thế 1.59x năng suất với chi phí thấp hơn 70% trước khi giới thiệu dịch vụ freelance.
Nếu bạn đang tìm kiếm cách tối ưu hóa hiệu suất công việc với AI mà vẫn giữ được sự độc lập và kiểm soát kỹ thuật, bài viết này sẽ cung cấp một góc nhìn mới về cách xây dựng hệ thống logic-first và hiệu quả cho một lập trình viên tự chủ trong thời đại các hệ thống AI tự động.