Descrição
A predição confiável da condutividade hidráulica saturada (Ksat) em macroescala é vital para a gestão de recursos hídricos. Este estudo comparou a performance de modelos de Machine Learning (RF, SVM, GLMnet, XGBoost) para predizer Ksat na América do Sul, avaliando o impacto da inclusão da variável categórica (classe de solo) e os desafios inerentes à sua utilização. Dois conjuntos de modelagem foram realizados: um com e outro sem a variável “solo”, testando três cenários de tratamento de dados (A: todos os dados; B: Ksat ≤ 6 m/dia; C: filtragem robusta de outliers - MCD). Os resultados demonstram um duplo efeito. Primeiramente, a inclusão do solo trouxe um ganho substancial de acurácia em todos os cenários. O melhor modelo geral passou a ser o Random Forest no Cenário B (Ksat ≤ 6 m/dia), com RMSE log reduzido de 0,7387 (sem solo) para 0,5501 (com solo) e uma queda drástica do erro percentual médio (MAPE) de 88% para 51%, indicando predições muito mais precisas na escala original. Este resultado confirma a classe de solo como um preditor fundamental de Ksat. Contudo, o ganho estatístico revelou um desafio operacional crítico: a disparidade entre as classes de solo no banco amostral e no raster de entrada gerou extensas áreas em branco na espacialização final, pois o modelo não pôde extrapolar para classes não aprendidas. Este trabalho evidencia o trade-off, ou seja, a existência de uma relação de compensação entre dois ou mais aspectos desejáveis, mas que são dificilmente alcançáveis ao mesmo tempo entre acurácia e cobertura espacial em modelagem continental. Destacamos a premente necessidade de investimentos em mapas pedológicos mais detalhados e harmonizados e em campanhas de amostragem que cubram de forma representativa a variabilidade pedológica do continente, sob pena de se criarem modelos precisos, porém geograficamente incompletos.
| Selecione a modalidade do seu trabalho | Resumo Simples |
|---|