A keynote talk and workshop at ML4EO 2026 challenged three common assumptions in spatial machine learning validation: that models can predict everywhere, that one validation approach fits all, and that all validation points are equally weighted. The talk introduced 'prediction-domain adaptive evaluation', which involves defining the prediction domain first, constructing validation folds that reflect it (using tools like Area of Applicability, Local Point Density, and kNNDM cross-validation), and summarizing performance weighted by prediction condition prevalence. The workshop provided practical R workflows implementing these ideas. The core message: spatial ML evaluation must answer not just 'how accurate is the model?' but 'where can the model be trusted?'
Nguồn: https://www.r-bloggers.com/2026/07/rethinking-validation-for-spatial-machine-learning-takeaways-from-the-talk. 8sync News chỉ tóm tắt và dẫn link; bản quyền nội dung thuộc tác giả và nguồn gốc.

rOpenSci has published a free guidebook titled 'From User to Contributor: Organizing Events for First-Time Contributors', funded by a NumFOCUS Small Development Grant. The guide documents two event formats designed to lower barriers for first-time open source contributors: mini-translathons (short coworking sessions focused on translation and localization) and mini-hackathons (short online sessions for fixing bugs, improving code, or updating documentation). The guide covers timelines, community calls, event formats, pilot event results, and includes communication templates. It is intended to be reusable by communities beyond rOpenSci.

Một nhà phát triển R lâu năm quyết định từ bỏ Tidyverse sau 8 năm sử dụng do trải nghiệm tiêu cực khi đóng góp vào package 'httpuv'. Anh ấy dự định chia sẻ cách thực hiện các tác vụ xử lý dữ liệu phổ biến bằng base R thay thế.
Lập trình viên R nên đọc bài này để hiểu cách chuyển đổi từ các công cụ mạnh mẽ của Tidyverse sang cơ sở hạ tầng cơ bản của R, giúp tiết kiệm thời gian và tránh những trải nghiệm thất vọng khi đóng góp vào cộng đồng mở.
The Gmisc R package's flowchart() function has been improved to support reproducible, code-generated research diagrams such as CONSORT charts, cohort derivation flows, data validation pipelines, and longitudinal follow-up diagrams. Unlike drawing tools, these flowcharts live inside the analysis pipeline — counts update automatically, exclusions stay in sync with the analysis script, and figures survive multiple reviewer rounds without manual editing. The post walks through several practical examples with full R code, covering grouped treatment arms, side exclusion branches, dotted return arrows for censored participants, and custom box shapes for data engineering workflows. The update targets Gmisc 3.4.0.

A new stick function (Seasonal, Trend, Irregular Contribution Kit) has been added to the greybox package for both R and Python. Based on Hans Levenbach's STI classification, it uses ANOVA to quantify the strength of seasonal, trend, and irregular components in a time series. Applied to the classic AirPassengers dataset, it reveals that trend accounts for ~86% of variability. The function supports multiple seasonal components and may be extended to include external regressors in the future.

Bài đánh giá các dự đoán bằng machine learning (ML) xác suất cho vòng bảng World Cup 2026 (72 trận) cho thấy thuật toán hoạt động tốt với các trận giữa đội tương đương nhưng yếu kém trước chênh lệch lớn do sự xuất hiện nhiều đội yếu trong định dạng 48 đội. Tỷ lệ hòa cao hơn dự đoán do lợi thế chiến thuật từ thể thức mới (8/12 đội đứng thứ ba vòng bảng được vào vòng sau), trong khi rootograms chỉ ra sai lệch hệ thống trong dự đoán chênh lệch bàn thắng ở các trận không cân sức. Xác suất vô địch vòng đấu loại trực tiếp cập nhật cho thấy Argentina và Anh hưởng lợi nhất từ lịch thi đấu, trong khi Tây Ban Nha, Pháp, Bồ Đào Nha và Đức đối mặt đường đi khó khăn hơn.
Lập trình viên nên đọc bài này để hiểu cách xây dựng và đánh giá mô hình dự đoán dựa trên dữ liệu không đồng đều, từ đó áp dụng kỹ thuật ensemble ML và kiểm soát bias trong dự đoán khi ứng dụng vào các dự án thực tế có biến số không cân bằng.
Bài viết sử dụng R để trực quan hóa dữ liệu tăng trưởng kinh tế dài hạn (GDP bình quân đầu người thực tế, 1900–2020) từ Maddison Project, xây dựng hàm draw_chart() tái sử dụng cho nhiều quốc gia. Tác giả minh họa xu hướng kinh tế của Úc, New Zealand, Mỹ, Đan Mạch, Anh, Trung Quốc, Ấn Độ, Indonesia và Nhật Bản, qua đó phản ánh tác động của các sự kiện lịch sử như Thế chiến II, Đại suy thoái hay độc lập dân tộc.
Lập trình viên nên đọc bài này để học cách xây dựng các hệ thống phân tích dữ liệu tự động hóa từ dữ liệu lịch sử kinh tế bằng R, từ đó tạo ra các công cụ tái sử dụng và minh họa hiệu quả cho các dự án nghiên cứu hoặc báo cáo khoa học.
Hướng dẫn trực quan hóa dữ liệu nhiệt độ bất thường theo tháng cho các thành phố Pháp bằng bộ dữ liệu SIM2 (1970–2025) của MétéoFrance, sử dụng R với các package {terra}, {osmdata} và {ggplot2}. Quá trình trích xuất dữ liệu lưới 8 km, tính toán bất thường so với chuẩn 1991–2020, và tạo biểu đồ cột kèm đường xu hướng LOESS, kèm theo code hoàn chỉnh cho bất kỳ thành phố nào có thể định vị địa lý.
Lập trình viên muốn tự động hóa phân tích khí hậu và tương tác với dữ liệu địa lý từ các nguồn mở để xây dựng ứng dụng dự báo thời tiết hoặc nghiên cứu biến đổi khí hậu hiệu quả.
A walkthrough on running local LLMs on a Surface Pro 11's Neural Processing Unit (NPU) using Microsoft's Foundry Local and the R ellmer package. Since Ollama and LM Studio don't natively support NPU inference, the author adapted Microsoft's Python getting-started guide into R code. The solution starts the Foundry service, downloads and loads a model (Qwen2.5-0.5B), discovers the dynamic endpoint, resolves the model ID via the REST API, and connects ellmer's chat_openai_compatible to the local OpenAI-compatible endpoint to send prompts.