AI video is shifting from a fidelity race to an interactivity race. A three-level framework defines interactive avatar models: Level 1 avatars can only talk (one-way generation), Level 2 can talk and listen (reacting to user audio in real time with nods, expressions, and vocal cues), and Level 3 can talk, listen, and see (responding to posture, gesture, and facial expression via camera feed). The critical leap is Level 1 to Level 2, because an avatar that talks without listening feels uncanny and worse than audio-only systems. Achieving convincing listening requires joint modeling of audio and motion rather than stacking separate systems. Level 3 represents full human-to-human interaction replication, including contextual cues like a person standing up to end a conversation.
Nguồn: https://thenextweb.com/news/interactive-avatar-models-three-levels-interactivity. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.
Phòng thí nghiệm AI mới Thinking Machines đề xuất mô hình "interaction model" thay thế kiến trúc turn-based truyền thống bằng cách tích hợp tương tác trực tiếp vào mô hình, sử dụng các micro-turns (200ms) và phối hợp hai mô hình (tương tác nhanh + suy luận nền). Mô hình 276B tham số (12B tham số hoạt động) của họ thể hiện khả năng dịch thuật live, đếm nhịp real-time và sửa lỗi codeswitching giữa câu, nhưng vẫn gặp hạn chế về quản lý ngữ cảnh dài, yêu cầu kết nối và độ trễ.
Lập trình viên AI nên đọc bài này để hiểu cách thiết kế lại mô hình tương tác thực tế bằng cách loại bỏ giới hạn của hệ thống dựa trên vòng lặp ngôn ngữ truyền thống, giúp tối ưu hóa hiệu suất và khả năng tương tác đa phương tiện trong ứng dụng AI hiện đại.

vLLM-Omni mở rộng engine vLLM để phục vụ các mô hình đa phương thức như Qwen3-Omni, xử lý đồng thời văn bản, âm thanh và hình ảnh thay vì chỉ token văn bản. Kiến trúc chia inference thành ba giai đoạn độc lập (Thinker, Talker, Code2Wav vocoder) với bộ nhớ GPU riêng, hỗ trợ endpoint tương thích OpenAI, cơ chế chia sẻ bộ nhớ OmniConnector và thực thi pipeline bất đồng bộ. Kết quả benchmark cho thấy tốc độ xử lý audio thời gian thực vượt trội so với Hugging Face Transformers.
Nếu bạn là lập trình viên muốn tối ưu hóa hệ thống AI đa mô hình (multimodal) với hiệu suất cao và khả năng mở rộng linh hoạt, vLLM-Omni sẽ là giải pháp thiết yếu để bạn hiểu cách xây dựng và triển khai các mô hình như Qwen3-Omni một cách hiệu quả, đặc biệt khi cần xử lý đồng thời văn bản, âm thanh và hình ảnh trên các GPU phân tán.
Pick n Pay is launching Penny, an AI shopping assistant built on Google's Gemini models, within its asap! delivery app. Penny lets customers build grocery baskets via text, voice, or photo — for example, asking for a recipe and getting ingredient options added to the cart. It supports multilingual input, can reference order history and Smart Shopper points via APIs, and is billed as South Africa's first conversational grocery shopping experience. Penny assembles baskets but does not yet place orders autonomously. The feature rolls out from 6 July. Pick n Pay also noted a retail-media layer is coming, allowing manufacturers to bid on conversational search terms. Rival Checkers Sixty60 launched a similar AI assistant called Pixie in April, though with a different philosophy focused on predictive replenishment rather than open conversation.
Pick n Pay has launched an AI shopping assistant called Penny inside its asap! app, built on Google's Gemini models. Penny allows customers to build grocery baskets via voice, text, or photo — including snapping a handwritten shopping list or requesting a recipe and getting ingredient options. It handles re-orders, meal planning, and substitutions, but does not yet place orders autonomously. Retail executive Enrico Ferigolli explains why Gemini was chosen over other LLMs, how Penny integrates with the app's own search and order history rather than directly querying databases, and the roadmap for multilingual support including South African languages.
Google has launched two new generative AI models: Nano Banana 2 Lite, a fast and cost-efficient image generation model (~4 seconds, ~$0.034 per 1K images) optimized for high-volume pipelines, and Gemini Omni Flash, a multimodal video generation model supporting conversational editing via text, images, audio, and existing video inputs. Together, they enable an image-to-video AI pipeline where images generated by Nano Banana 2 Lite can be animated using Gemini Omni Flash. Both are available through Google AI Studio and the Gemini API, targeting developers and enterprises building creative AI applications at scale.
Concentrix cut its full-year 2026 revenue guidance, sending its shares down over 21% and dragging rival Teleperformance down ~13%. The sell-off has hardened investor fears that AI-powered conversational agents are eroding the core business of human call-centre operators, with some analysts now labeling the sub-sector 'uninvestable.' Both companies argue AI can also boost agent productivity and open new automation revenue streams, but markets are pricing the simpler narrative of wholesale replacement. The episode mirrors a broader pattern of AI disrupting labor-intensive tech sectors, with the key open question being the speed of displacement rather than its direction.
Năm 2026, bốn mô hình AI sinh video hàng đầu gồm Seedance 2.0, Sora 2, Kling 3.0 và Veo 3.1 được đánh giá qua sáu kịch bản sản xuất thực tế dựa trên khả năng tham chiếu, hỗ trợ âm thanh/khớp môi và tính liên tục đa cảnh. Seedance 2.0 dẫn đầu nhờ khả năng xếp chồng 9 ảnh tham chiếu và lip-sync sẵn có, Sora 2 vượt trội về vật lý chân thực, Veo 3.1 chiếm ưu thế trong quay phim cinematic đơn cảnh cao cấp, còn Kling 3.0 tiết kiệm chi phí nhưng yếu về liên tục sản xuất. Lời khuyên chính là lựa chọn mô hình phù hợp với nhu cầu thay vì chỉ dựa vào điểm benchmark.
Lập trình viên nên đọc bài này để hiểu cách chọn và tối ưu hóa các mô hình AI video phù hợp với dự án cụ thể, thay vì chỉ quan tâm đến xếp hạng công nghệ cao nhất.
Mô hình Gemma 4 E2B của Google với ~5 tỷ tham số chỉ cần 3GB VRAM nhờ công nghệ Per-Layer Embeddings, hỗ trợ đa phương thức (văn bản, hình ảnh, âm thanh), ngữ cảnh 128k token và gọi hàm. Tác giả thử nghiệm trên PC gaming, iPhone 16 và Chromebook, nhận thấy hiệu suất đủ dùng cho phân tích giao diện hay xử lý tài liệu riêng tư, đồng thời tiết kiệm tài nguyên cho các tác vụ khác.
Lập trình viên nên đọc bài này để khám phá cách Gemma 4 tối ưu hóa hiệu suất với bộ nhớ VRAM thấp (3GB) thông qua kiến trúc Per-Layer Embeddings, giúp phát triển ứng dụng AI đa modal (text, hình ảnh, âm thanh) hiệu quả trên thiết bị có tài nguyên hạn chế mà vẫn giữ chất lượng cao.