Weaviate 1.38 ra mắt với các tính năng mới như HFresh (chỉ số vector dựa trên đĩa, tối ưu bộ nhớ cho streaming) và MCP Server tích hợp cho phép LLMs tương tác trực tiếp. Bản cập nhật cũng bổ sung async replication mặc định, Boost API (tái xếp hạng truy vấn), nested object filtering, cùng nhiều cải tiến khác như quản lý replica, cấu hình chỉ số vector, và module text2vec-digitalocean.
Vì sao nên đọc: Lập trình viên phát triển ứng dụng AI hoặc hệ thống vector search cần đọc để cập nhật về MCP Server và Boost API, giúp tối ưu hóa giao tiếp trực tiếp giữa LLM với cơ sở dữ liệu vector và cải thiện hiệu suất tìm kiếm bằng cách xếp hạng kết quả một cách linh hoạt mà không mất bất kỳ dữ liệu nào.
Nguồn: https://weaviate.io/blog/weaviate-1-38-release. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Hướng dẫn từng bước xây dựng một MCP server dựa trên HTTP bằng ASP.NET, sử dụng gói NuGet ModelContextProtocol.AspNetCore. Bài viết bao gồm thiết lập dự án, đăng ký server trong Program.cs, tạo lớp công cụ với các thuộc tính McpServerToolType và McpServerTool, viết chú thích tham số mô tả để AI client khám phá và gọi công cụ, đồng thời kết nối server với các client AI như GitHub Copilot hoặc VS Code thông qua tệp .mcp.json. Ví dụ minh họa là tìm kiếm danh mục sản phẩm, thể hiện cách câu hỏi ngôn ngữ tự nhiên được chuyển thành lời gọi công cụ và trả về câu trả lời dễ đọc.
Lập trình viên cần đọc bài này để hiểu cách triển khai một gói công cụ AI tích hợp sẵn trên ASP.NET, giúp tự động hóa các tác vụ cụ thể mà không cần viết mã thủ công, từ đó tiết kiệm thời gian và nâng cao hiệu suất trong phát triển ứng dụng.
Bài viết giới thiệu "Arbiter Pattern" trong RAG, nơi LLM đóng vai trọng tài bằng cách phân loại và đánh giá các nguồn tài liệu ứng viên dựa trên cấu trúc dữ liệu đầu vào, thay thế phương pháp kết hợp điểm số truyền thống. Tác giả nhấn mạnh embeddings nên là phương pháp cuối cùng trong tài liệu doanh nghiệp do hạn chế trong việc xác định sự vắng mặt của thông tin, trong khi keyword retrieval cung cấp khả năng phủ định chắc chắn. Ngoài ra, bài viết đề cập đến bộ chọn phương pháp truy xuất theo loại câu hỏi, lược đồ JSON thống nhất cho kết quả truy xuất nhằm đảm bảo khả năng kiểm tra, và tầm quan trọng của xử lý "không tìm thấy" đáng tin cậy trong ngữ cảnh tuân thủ quy định.
Một lập trình viên cần đọc bài này để tìm hiểu cách tối ưu hóa hệ thống RAG bằng cách áp dụng Arbiter Pattern—một giải pháp linh hoạt hơn fusion score, giúp xử lý các trường hợp phức tạp trong việc lựa chọn kết quả phù hợp từ nhiều nguồn thông tin khác nhau.
GraphRAG khắc phục hạn chế của vector search khi không thể truy vết mối quan hệ giữa tài liệu, cho phép các tác nhân AI kết nối bằng chứng đa bước nhờ mô hình hóa dữ liệu dưới dạng thực thể (entities) và liên kết (edges). Redis Iris cung cấp nền tảng tích hợp tìm kiếm vector, cập nhật dữ liệu theo thời gian thực, truy cập công cụ có kiểm soát và bộ nhớ đệm ngữ nghĩa để hỗ trợ kiến trúc truy xuất này.
Lập trình viên cần đọc bài này để hiểu cách xây dựng hệ thống tìm kiếm thông minh cho AI bằng GraphRAG, giúp giải quyết vấn đề truy vấn đa cấp và cập nhật dữ liệu hiệu quả trong ứng dụng agent.
Các sub-agent là những thành phần AI chuyên biệt đảm nhiệm nhiệm vụ nhỏ trong hệ thống multi-agent, giúp khắc phục giới hạn cửa sổ ngữ cảnh (context window) của LLM nhờ phân chia khối lượng công việc. Tuy nhiên, việc chia nhỏ này cũng gây ra rủi ro sai lệch trạng thái, trùng lặp công việc hoặc lỗi tích tụ. Giải pháp đề xuất là sử dụng bộ nhớ chia sẻ kết hợp nhiều lớp (bộ nhớ phiên ngắn hạn, dài hạn bằng vector search) cùng cơ chế điều phối như pub/sub hay Streams, với Redis Iris là giải pháp thống nhất hỗ trợ đầy đủ các yêu cầu này.
Lập trình viên cần đọc để hiểu cách tối ưu hóa hệ thống AI đa agent bằng cách giải quyết vấn đề phân tán thông tin và tránh rủi ro mất hiệu suất do quản lý bộ nhớ phân tán không hiệu quả.
Một giám đốc cấp cao tại GitHub chia sẻ cách cô ấy xây dựng 40 quy trình tự động hóa bằng ứng dụng GitHub Copilot trên desktop để quản lý khối lượng công việc vô hình của vai trò lãnh đạo cấp cao. Những tự động hóa này kết nối với lịch, email, Slack và kho lưu trữ GitHub thông qua tích hợp MCP để xử lý chuẩn bị họp, sàng lọc hàng ngày, theo dõi triển khai, phát hiện PR cũ và nhật ký sự nghiệp. Cô coi tự động hóa như một công cụ hỗ trợ khả năng tiếp cận cho người mắc AuDHD, thu hẹp khoảng cách giữa những ngày có chức năng điều hành tốt và kém.
Lập trình viên nên đọc bài này để hiểu cách áp dụng tự động hóa công cụ AI như Copilot không chỉ tiết kiệm thời gian mà còn nâng cao hiệu quả làm việc và quản lý dự án thông qua cách tiếp cận thiết thực, từ nhỏ đến lớn.
Google giới thiệu tầm nhìn tương lai về cơ sở dữ liệu với sự tích hợp AI agent và truy vấn không chính xác (inexact queries) thông qua ngôn ngữ tự nhiên, thay vì chỉ SQL truyền thống. Họ đang nhúng các chức năng AI (như AI.IF sử dụng Gemini) trực tiếp vào Google SQL trên các nền tảng Spanner, AlloyDB và BigQuery, đồng thời phát triển "proxy models" để giảm chi phí và độ trễ khi gọi LLM. Trong 3-5 năm tới, người dùng có thể chuyển từ tương tác trực tiếp sang điều phối các agent, thay thế dashboard truyền thống bằng phân tích hội thoại.
Những công nghệ mới từ Google như proxy models và AI tích hợp trực tiếp vào cơ sở dữ liệu sẽ giúp tối ưu hóa hiệu suất và chi phí khi xử lý các truy vấn phức tạp, đồng thời mở ra khả năng tương tác tự nhiên thông qua ngôn ngữ, giúp lập trình viên tìm hiểu cách ứng dụng AI vào hệ thống dữ liệu hiện đại.
Cloudflare released the Cloudflare One stack, an open-source library of agent skills that enables AI agents to plan, deploy, manage, and migrate Zero Trust environments. The library ships as two lightweight files: one for product guidance and one for vendor-to-vendor migration, with explicit logic for migrating from Zscaler and Palo Alto Networks. The migration logic is the same used in Cloudflare's Descaler and Deskope programs, which have moved enterprise customers in hours rather than months. When paired with the Cloudflare MCP server, agents can query live account configurations and make changes through curated workflows. The stack uses a review-before-apply pattern so practitioners approve changes before they are committed.

A deep-dive into the Data Governance Copilot architecture (Part 3), covering container-level design with SvelteKit frontend, FastAPI backend, and an agentic loop integrating OpenShift AI with the PG Airman MCP server. Explains two deployment modes: Red Hat Integrated Llama Stack versus lower-level MCP-direct using the OpenAI SDK and MCP Python library. Details how inbound LLM messages use OpenAI API format converted via Jinja tokenizer templates in vLLM, and how outbound tool calls are parsed — including a custom client-side parser needed for NVIDIA Nemotron Nano 9B due to its lack of streaming support in the native vLLM plugin. Compares Nemotron's XML-tagged TOOLCALL format against Qwen3's standard hermes parser output.