Cisco00 bình luận10 phút đọc2 giờ trước

Inherited Circuits, Learned Semantics: How Security Fine-Tuning Can Create Hidden Evasion Risk

Tóm tắt bởi AI

Việc tinh chỉnh bảo mật (fine-tuning) cho các mô hình ngôn ngữ lớn (LLM) có thể cải thiện độ chính xác phân loại nhưng đồng thời tạo ra những lỗ hổng né tránh (evasion) tiềm ẩn. Nghiên cứu chỉ ra rằng fine-tuning kế thừa mạch phân loại (classification circuit) từ mô hình gốc nhưng thay đổi cách các thành phần mạng sau xử lý bằng chứng, khiến các biến đổi đơn giản (thay thế alias, tái cấu trúc chuỗi, biến đổi chữ hoa/thường) có thể vượt qua mô hình fine-tuned dù mô hình gốc xử lý chúng tốt. Hai phương pháp giám sát trước triển khai được đề xuất: sử dụng linear probe để phát hiện drift biểu diễn (representation drift) và kiểm tra dấu token (sign test) để xác định các họ lệnh bị fine-tuning đảo ngược vai trò token. Khuyến nghị chính là coi fine-tuning như nguồn gây drift biểu diễn và tiến hành red-team (kiểm thử tấn công) các họ lệnh bị thay đổi nhiều nhất trước khi triển khai.

Vì sao nên đọc: Một lập trình viên phát triển hệ thống AI an toàn nên đọc bài này để hiểu cách fine-tuning mô hình ngôn ngữ lớn có thể tạo ra các lỗ hổng bí mật trong việc phân loại nguy hiểm, từ đó giúp họ thiết kế và kiểm thử hệ thống trước khi triển khai để tránh các cuộc tấn công thông minh.

Đọc bài gốc

#security #llm #deep-learning #powershell

Nguồn: https://blogs.cisco.com/ai/inherited-circuits-learned-semantics-how-security-fine-tuning-can-create-hidden-evasion-risk. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.

Đề xuất cho bạn

Gusto Engineering16 phút4 giờ trướcAI

From Prompt to Classifier: A Production Case Study

Đội kỹ thuật của Gusto xây dựng bộ phân loại chuyển tiếp AI-sang-người cho hệ thống hỗ trợ khách hàng bằng cách bắt đầu với prompt LLM, sử dụng dữ liệu sản xuất để tạo dataset 3.500 lượt hội thoại, sau đó tinh chỉnh mô hình BERT nhẹ đạt 94% precision và 93% recall. Phương pháp LLM-đầu-tiên-sau-chuyên-biệt phù hợp cho quyết định ổn định, khối lượng lớn như phân loại intent, nhưng không hiệu quả với sinh văn bản mở hoặc quy tắc thay đổi.

Lập trình viên nên đọc bài này để hiểu cách chuyển từ việc sử dụng mô hình LLM trực tiếp sang xây dựng hệ thống chuyên biệt hiệu quả, đặc biệt là trong trường hợp phân loại quyết định cụ thể như phân luồng hỗ trợ khách hàng, giúp tối ưu hóa chi phí và tốc độ triển khai.

#machine-learning

Inherited Circuits, Learned Semantics: How Security Fine-Tuning Can Create Hidden Evasion Risk

Đề xuất cho bạn

From Prompt to Classifier: A Production Case Study

Do excellent vulnerability reports

Inside Target’s LLM-Based System for Semantic Matching in Marketing Forecast Pipelines

The many journeys of learning Rust

Why Every Agent Vulnerability is a Trust Boundary Failure

Tail Control: The Counterintuitive Engineering of Reliable Agentic Workflows

Okta is the first to bring AI agent governance inside FedRAMP boundaries

AI inference is obviously profitable