Controlled experiments comparing 512-token vs 8192-token context windows on a 32M ModernBERT-style encoder reveal that longer context rarely justifies its quadratic compute cost. On patent classification (HUPD), extending from 512 to 8192 tokens yielded only a statistically insignificant +1.15pp accuracy gain that flipped sign across seeds — even with a 4.7× larger model. A chunk-and-pool approach (16×512 chunks, mean-pooled) matched or beat the full 8192 pass at 4.6× less compute. For retrieval, chunking with 128-token overlap outperformed embedding entire documents as a single vector. Inference benchmarks show 8192 tokens is ~22× slower on GPU and ~1300× slower on CPU vs batched 512. The key insight: what matters is where the signal lives in the document, not document length. Most long documents (patents, papers, legal filings) front-load their key information, making expensive long-context passes redundant. A decision tree is provided to route tasks to the right approach.
Nguồn: https://towardsdatascience.com/long-context-vs-short-context-model-when-does-a-long-context-model-win. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Hướng dẫn từng bước xây dựng một tác nhân Q&A RAG chạy hoàn toàn cục bộ, bảo mật dữ liệu bằng LangChain v1, Ollama, Qwen và ChromaDB. Tác nhân này lập chỉ mục tài liệu PDF, Markdown và văn bản vào vector store cục bộ, sau đó trả lời câu hỏi ngôn ngữ tự nhiên kèm theo trích dẫn nguồn, tất cả đều chạy trên máy cá nhân mà không tốn phí API.
Là một lập trình viên muốn tự động hóa tìm kiếm thông tin trong tài liệu riêng của mình một cách an toàn và hiệu quả mà không phụ thuộc vào các dịch vụ bên ngoài, bài này sẽ hướng dẫn cách xây dựng một hệ thống RAG tự động hóa, chạy trên máy tính cá nhân với chi phí zero và bảo mật tuyệt đối.
Các pipeline RAG phổ biến thường sử dụng cosine similarity trên các embedding, nhưng cách này bỏ qua cấu trúc tài liệu và không thể chứng minh sự vắng mặt thông tin. Bài viết đề xuất sáu bài học: truy xuất nên hoạt động như SQL (lọc trên bảng cấu trúc), từ khóa ưu tiên vì rẻ và có thể trả về kết quả trống, mục lục tài liệu là tín hiệu quan trọng bắt lỗi paraphrase. Embedding chỉ là phương án dự phòng khi từ vựng không khớp, không phải nền tảng. Co-occurrence vượt trội so với BM25 trên dữ liệu doanh nghiệp hẹp, và cần tách biệt anchor (khớp chính xác) với context (phạm vi xung quanh). Một lần chạy LLM trên mục lục có thể giải quyết paraphrase hiệu quả, tạo thành pipeline ba tín hiệu (từ khóa + TOC + embedding) với ưu điểm về chi phí và khả năng kiểm toán.
Lập trình viên nên đọc bài này để hiểu cách tối ưu hóa hệ thống RAG bằng cách kết hợp các phương pháp truyền thống và tiên tiến—tránh sai lầm đơn giản như chỉ dùng cosine similarity mà bỏ qua cấu trúc văn bản và hiệu quả của các signal như từ khóa, TOC, và embeddings để cải thiện chất lượng và hiệu suất của hệ thống.

Khi phân phối các cuộc gọi LLM trên các worker PySpark bằng mapInPandas, MLflow's openai.autolog() không ghi lại traces do ba vấn đề: worker không kế thừa URI theo dõi và tên experiment từ driver, xuất traces bất đồng bộ gây xung đột thread khi kết thúc process, và không hỗ trợ liên kết trace cha-con. Giải pháp là thiết lập tracking URI, experiment name và tắt MLFLOW_ENABLE_ASYNC_TRACE_LOGGING=false trong hàm worker. Sau khi hoạt động, việc theo dõi từng cuộc gọi phát hiện chi phí ẩn do Spark lazy evaluation thực thi lại nhiều lần các cuộc gọi LLM.
Lập trình viên muốn tối ưu hóa và theo dõi hiệu suất mô hình ML trên Spark với OpenAI, đặc biệt khi sử dụng mapInPandas, nên đọc bài này để khắc phục lỗi trace không hoạt động và khám phá cách khắc phục vấn đề tái thực hiện LLM nhiều lần do tính chất lazy evaluation của Spark.
AI chuyên biệt không phải là lựa chọn mà là xu hướng tất yếu do ba nguyên lý: định lý No Free Lunch (không thuật toán tổng quát nào vượt trội trên mọi bài toán), sinh học tiến hóa (chuyên gia cạnh tranh hiệu quả hơn đa năng dưới áp lực tài nguyên), và thị trường cạnh tranh (tập trung chiến lược ưu việt hơn phân tán). Các bằng chứng từ machine learning (negative transfer, mixture-of-experts, AlphaFold) và sự phân biệt giữa domain knowledge (thay thế bởi scaling) với domain specialization (không bị loại bỏ) càng củng cố kết luận: khi nguồn lực hữu hạn và áp lực chọn lọc, sự phù hợp luôn thắng thế so với sự đa dạng.
Lập trình viên nên đọc bài này để hiểu cách AI và hệ thống máy học tự động hóa và tối ưu hóa thành công thông qua chuyên môn hóa chứ không phải sự đa dạng rộng rãi.
Kỹ thuật ngữ cảnh (context engineering) và kỹ thuật bộ nhớ (memory engineering) là hai lĩnh vực riêng biệt nhưng bổ trợ trong hệ thống AI tác nhân (agentic AI). Kỹ thuật ngữ cảnh quản lý thông tin đầu vào cho mỗi lần suy luận, bao gồm lựa chọn, sắp xếp, nén và phân bổ token, trong khi kỹ thuật bộ nhớ quản lý dữ liệu lưu trữ xuyên suốt các phiên làm việc, từ chính sách ghi, lựa chọn lớp lưu trữ đến chiến lược truy xuất và bảo trì. Hai lĩnh vực gặp nhau ở ranh giới truy xuất, nơi dễ xảy ra lỗi như đưa bộ nhớ truy xuất vào mà không cân nhắc ngân sách ngữ cảnh hoặc đặt nội dung ở vùng ít chú ý trong cửa sổ ngữ cảnh.
Lập trình viên nên đọc bài này để hiểu cách tối ưu hóa hiệu suất và độ tin cậy của hệ thống AI agent bằng cách kiểm soát và quản lý thông tin context và bộ nhớ một cách hiệu quả, từ việc chọn lọc dữ liệu đến quản lý chi phí token và lưu trữ.
Google Cloud vừa giới thiệu TPU Developer Hub, một nền tảng giáo dục tập trung dành cho nhà phát triển ML sử dụng TPU, bao gồm kiến trúc phần cứng, stack phần mềm (XLA, Pallas kernels), công cụ gỡ lỗi XProf, chiến lược tối ưu hóa (như offloading KV cache) cùng networking và bảo mật. Nội dung đa dạng từ Colabs tương tác, mã nguồn mở đến tài liệu chuyên sâu, hỗ trợ tích hợp AI-assisted development.
Lập trình viên ML nên đọc để hiểu cách tối ưu hóa hiệu suất và chi phí của mô hình trên TPU với các công cụ mới như XLA, Pallas và các chiến lược parallelism, từ đó tiết kiệm thời gian và nguồn lực trong triển khai sản phẩm AI.
Google Cloud vừa ra mắt tiện ích mở rộng Workbench Notebooks cho VS Code, giúp nhà khoa học dữ liệu và lập trình viên quản lý Jupyter notebooks trên cloud trực tiếp từ IDE cục bộ. Tiện ích này kết nối VS Code với cơ sở hạ tầng tối ưu AI của Google Cloud, giảm thiểu sự chuyển đổi ngữ cảnh giữa thử nghiệm cục bộ và điện toán đám mây.
Lập trình viên AI/ML sẽ tiết kiệm thời gian và hiệu suất khi sử dụng công cụ này để chạy và quản lý notebooks trên Google Cloud từ VS Code, tránh mất thời gian chuyển đổi giữa môi trường cài đặt địa phương và cloud.
Kỹ sư mabl chia sẻ ba năm kinh nghiệm xây dựng AI agents cho kiểm thử phần mềm sản xuất, từ những thất bại ban đầu với PaLM 2023 đến việc tận dụng sức mạnh LLM như LLM-as-judge, RAG với Gemini 2, và quản lý trạng thái đa nền tảng. Họ rút ra bài học: giao diện UI đơn giản vẫn khó điều hướng, nhóm ngữ nghĩa hiệu quả hơn so khớp từ, dữ liệu kiểm thử tĩnh không phù hợp cho AI xác suất, và CoT cứng nhắc phản tác dụng khi nâng cấp lên Gemini 2.5.
Bạn nên đọc bài này để hiểu cách chuyển đổi từ những thất bại ban đầu trong ứng dụng AI như PaLM sang xây dựng các hệ thống agent hiệu quả trong thực tế, từ đó tránh những sai lầm về cách tiếp cận và tối ưu hóa kiến trúc cho các ứng dụng AI trong sản xuất.