Подводя итог серии предыдущих постов, посвященных функции train()и различным методам препроцессинга данных c помощью функции preProcess, можно представить “стандартный” вид функции train() следующим образом: train(form = formula, data = data.frame, method= "…", preProcess = c("center", "scale", "…"), tuneGrid = expand.grid(param1 =c(), param2=c()), trControl = trainControl("repeatedcv", number=10, repeats=5) # "cv", "boot", … ) Дополнительные полезные функции:…

Для подготовки данных в пакете caret существует функция preProcess. library(caret) methods(preProcess) ## [1]preProcess.default args(preProcess.default) ## function (x, method = c(«center», «scale»), thresh = 0.95, pcaComp = NULL, ## na.remove = TRUE, k = 5, knnSummary = mean, outcome = NULL, ## fudge = 0.2, numUnique = 3, verbose = FALSE, …) ## NULL Подготовка данных…

Функция train() в пакете caret служит для тренировки, кросс-валидации (cross-validation) и, в конечном итоге, для выбора лучшей модели. Простейший пример применения функции: library(caret) set.seed(1) lmfit

Качество регрессионной модели определяется расхождением между предсказанными и наблюдаемыми значениями или, на статистическом языке, величиной ошибок: среднеквадратическая ошибка RMSE (Root mean square error) остаточная стандартная ошибка RSE (residual standard error) коэффициент детерминации (R-squared) Рассмотрим каким образом вычисляются эти значения и что они означают на примере зависимости з/п профессоров в США от количества лет, прошедших с…

Очень часто при анализе статистических моделей аналитики уделяют большое внимание p-значениям коэффиентов. Например, при анализе: lmfit <- lm (mpg ~ ., data=mtcars) summary(lmfit) ## ## Call: ## lm(formula = mpg ~ ., data = mtcars) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.4506 -1.6044 -0.1196 1.2193 4.6271 ## ## Coefficients: ## Estimate…

© 2014 In R we trust.
Top
Follow us: