Spring AI's Tool Search Tool solves the problem of token waste when many tools are registered with an LLM. Instead of sending all tool definitions upfront, tools are indexed at startup and only the Tool Search Tool is exposed initially. When the model needs a capability, it queries the Tool Search Tool using natural language, which returns only the most relevant tool definitions. A travel assistant example demonstrates the approach using a RegexToolSearcher and a custom TokenCounterAdvisor, showing a dramatic reduction in token usage: 974 tokens with dynamic discovery versus 3,685 tokens without it.
Nguồn: https://feeds.feedblitz.com/~/958677014/0/baeldung. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Nghiên cứu định tính từ nhóm Rust về cách các nhà phát triển học ngôn ngữ Rust thông qua …
Khi triển khai workflows agentic dựa trên LLM qua API, thách thức không còn là độ chính xác mà là đảm bảo đầu ra ổn định dưới các ràng buộc về thời gian, chi phí và token-rate. Giải pháp chủ yếu là cắt bỏ latency tail bằng cách gửi song song các yêu cầu hedge (p95) thay vì chờ đợi, giúp giảm p99 từ ~60s xuống ~25s trong dữ liệu thực tế. Cần lưu ý phân biệt slowness tạm thời, khối lượng công việc lớn hay câu trả lời sai để điều chỉnh model phù hợp, đồng thời tránh tiêu tốn TPM budget lặp lại.
Lập trình viên phải đọc bài này để hiểu cách tối ưu hóa các workflow tự động hóa dựa trên LLM bằng cách xử lý không chỉ là độ chính xác mà là sự đáng tin cậy trong các điều kiện cạnh tranh về thời gian, chi phí và tốc độ token, đặc biệt khi ứng dụng phải hoạt động liên tục trước API khách hàng.
Phân tích chi phí sơ lược cho thấy suy luận (inference) AI thực sự sinh lời, với chi phí ước tính khoảng 1 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức giá 4,5 USD trở lên của các nhà cung cấp như OpenAI, qua đó đạt biên lợi nhuận gộp 70–80%. Suy luận AI có lợi nhuận, nhưng các phòng thí nghiệm AI như OpenAI và Anthropic sử dụng khoản lợi nhuận này để bù đắp chi phí đào tạo mô hình tốn kém.
Là người phát triển muốn tối ưu chi phí cho ứng dụng AI của mình, bài viết này giúp bạn hiểu rõ về lợi nhuận thực tế của quá trình inference AI, từ đó có thể xây dựng mô hình kinh doanh hiệu quả và tránh bỏ lỡ cơ hội tiết kiệm chi phí mà không phụ thuộc vào sự hỗ trợ từ các công ty lớn.
Mô hình AI Mythos của Anthropic đã phát hiện lỗ hổng trong các hệ thống bí mật của chính phủ Mỹ trong một cuộc thử nghiệm kiểm tra đỏ có kiểm soát, chứ không phải do tấn công từ bên ngoài. Kết quả này nhấn mạnh khả năng của Mythos trong việc tìm ra hàng nghìn lỗ hổng zero-day trên các hệ điều hành và trình duyệt lớn, dù chính phủ Mỹ từng hạn chế công khai mô hình này sau một vụ jailbreak riêng.
Những phát hiện về khả năng phát hiện lỗ hổng trong hệ thống an ninh quốc gia của Mỹ cho thấy AI mạnh mẽ như Mythos có thể trở thành công cụ quan trọng trong bảo mật, nhưng cũng đặt ra thách thức về kiểm soát và ứng dụng công bằng—là vấn đề cần thảo luận để xây dựng hệ sinh thái an toàn và minh bạch cho công nghệ AI.
Bài viết giới thiệu 12 mô hình ngôn ngữ lớn (LLM) mã nguồn mở nổi bật năm 2026, mỗi mô hình có điểm mạnh riêng như khả năng đa phương thức của Llama 4 Scout, cửa sổ ngữ cảnh triệu token của DeepSeek V4 hay hiệu suất hàng đầu trên SWE-Bench Pro của GLM 5.1. Ngoài ra, bài còn so sánh kiến trúc SLM vs. LLM, đánh giá ưu nhược điểm giữa single-agent và multi-agent, cũng như 7 chế độ phân quyền trong Claude Code.
Lập trình viên nên đọc bài này để hiểu cách chọn và tối ưu hóa các mô hình ngôn ngữ mở nguồn (LLM) phù hợp với dự án của mình, từ khả năng xử lý đa modal cho đến hiệu suất trên các công việc lập trình chuyên sâu.
LLM khiến người dùng kiệt sức vì đòi hỏi tương tác xã hội (năng lượng tinh thần như khi giao tiếp với người) nhưng không đem lại phần thưởng ngược lại như học hỏi, thử thách hay cảm hứng. Khác với công cụ truyền thống trở thành phần mở rộng của cơ thể nhờ tính nhất quán và tốc độ, LLM buộc người dùng phải đàm phán, thuyết phục và chủ yếu trả về nhiều code, test cùng lời bào chữa.
Một lập trình viên nên đọc bài này để hiểu cách phân biệt giữa công cụ hiệu quả và những tương tác tiêu tốn năng lượng mà không mang lại sự tiến bộ thực sự trong việc phát triển kỹ năng và hiệu suất code.
Hibernate 7.2 bổ sung toán tử like regexp trong HQL, cho phép truy vấn chuỗi bằng regex mà không cần SQL native. Mỗi database dịch sang hàm regex riêng (Oracle: REGEXP_LIKE, PostgreSQL: ~, MySQL: REGEXP), nhưng cú pháp HQL có thể không tương thích hoàn toàn giữa các hệ thống do khác biệt về regex engine.
Lập trình viên cần đọc bài này để khám phá cách sử dụng tìm kiếm biểu thức chính quy (regex) trong HQL một cách hiệu quả, tránh phụ thuộc vào SQL nguyên sinh và tối ưu hóa các truy vấn tìm kiếm phức tạp trên các cơ sở dữ liệu khác nhau.
Kafka gặp lỗi CommitFailedException khi consumer bị loại khỏi nhóm do vượt quá timeout MAX_POLL_INTERVAL_MS khi chưa kịp poll dữ liệu, xảy ra khi xử lý record lâu hơn khoảng thời gian cấu hình. Giải pháp gồm điều chỉnh MAX_POLL_INTERVAL_MS/MAX_POLL_RECORDS_CONFIG hoặc chuyển sang xử lý bất đồng bộ bằng virtual threads kèm theo theo dõi offset theo partition. Phương pháp bất đồng bộ sử dụng CompletableFuture, ConcurrentHashMap và ConsumerRebalanceListener để commit an toàn các offset đang xử lý. Thêm vào đó, nên triển khai idempotency và Dead Letter Queue cho các message lỗi.
Lập trình viên cần đọc bài này để khắc phục lỗi CommitFailedException trong Kafka khi xử lý dữ liệu chậm, từ đó tối ưu hiệu suất và đảm bảo không mất dữ liệu trong trường hợp tái cân bằng nhóm.