Тест Манна-Уитни (Mann-Whitney U test), также известный как тест Вилкоксона для двух независимых выборок (Wilcoxon rank-sum test), — это непараметрический тест, используемый для сравнения двух независимых выборок, чтобы определить, различаются ли их распределения. Он является альтернативой t-тесту Стьюдента, когда данные не удовлетворяют требованиям нормальности. В R этот тест можно легко провести с помощью функции wilcox. test().
Синтаксис Функции Wilcox. test():
Wilcox. test(x, y, alternative = "two. sided", mu = 0, paired = FALSE, correct = TRUE, conf. int = FALSE, conf. level = 0.95)
Аргументы:
- x: Первая числовая выборка. y: Вторая числовая выборка. alternative: Строка, указывающая альтернативную гипотезу. Может принимать значения:
- "two. sided" (двусторонний тест): Проверяет, отличаются ли распределения выборок. "less": Проверяет, что распределение первой выборки сдвинуто влево относительно распределения второй выборки (то есть первая выборка имеет меньшие значения). "greater": Проверяет, что распределение первой выборки сдвинуто вправо относительно распределения второй выборки (то есть первая выборка имеет большие значения).
mu: Число, указывающее гипотетическую разницу в медианах двух выборок. По умолчанию 0. paired: Логическое значение. Если TRUE, выполняется парный тест Вилкоксона. В данном случае нас интересуют Независимые выборки, поэтому должно быть FALSE (по умолчанию). correct: Логическое значение. Если TRUE, применяется коррекция Йейтса для непрерывности. Рекомендуется использовать TRUE для небольших выборок. conf. int: Логическое значение. Если TRUE, вычисляется доверительный интервал для разницы в медианах. conf. level: Уровень доверия для доверительного интервала (по умолчанию 0.95).
Пример использования:
# Создадим два вектора с данными
Group1 <- c(23, 45, 12, 56, 78, 34, 21, 67, 89, 43)
Group2 <- c(34, 56, 23, 67, 89, 45, 32, 78, 90, 54)
# Проведем тест Манна-Уитни (двусторонний)
Result <- wilcox. test(group1, group2, alternative = "two. sided")
# Выведем результаты теста
Print(result)
Вывод результатов:
Вывод функции wilcox. test() содержит следующую информацию:
- Wilcoxon rank sum test: Указывает, какой тест был проведен. data: group1 and group2: Показывает, какие данные использовались для теста. W = …, p-value = …: Значение статистики теста (W) и p-value. P-value – это вероятность получить наблюдаемые или более экстремальные результаты, если нулевая гипотеза верна. alternative hypothesis: true location shift is not equal to 0: Указывает альтернативную гипотезу. Warning message: In wilcox. test. default(group1, group2, alternative = "two. sided") : cannot compute exact p-value with ties: Это предупреждение появляется, если в данных есть повторяющиеся значения (связи). Это не обязательно означает, что результаты теста недействительны, но стоит учитывать это при интерпретации.
Интерпретация результатов:
- P-value: Если p-value меньше выбранного уровня значимости (обычно 0.05), то нулевая гипотеза отвергается. Это означает, что есть статистически значимые различия между распределениями двух выборок. Альтернативная гипотеза: Если p-value меньше уровня значимости, то нужно посмотреть на альтернативную гипотезу, чтобы понять, в каком направлении сдвинуты распределения.
- "two. sided": Есть статистически значимая разница между распределениями. "less": Распределение первой выборки статистически значимо сдвинуто влево относительно распределения второй выборки. "greater": Распределение первой выборки статистически значимо сдвинуто вправо относительно распределения второй выборки.
Дополнительные примеры:
# Односторонний тест (альтернативная гипотеза: group1 меньше group2)
Result_less <- wilcox. test(group1, group2, alternative = "less")
Print(result_less)
# Односторонний Тест (Альтернативная Гипотеза: group1 Больше group2)
Result_greater <- wilcox. test(group1, group2, alternative = "greater")
Print(result_greater)
# С вычислением доверительного интервала
Result_confint <- wilcox. test(group1, group2, conf. int = TRUE)
Print(result_confint)
Важные Замечания:
- Предположения: Тест Манна-Уитни не требует, чтобы данные были нормально распределены, но требует, чтобы они были измерены по крайней мере в порядковой шкале (то есть можно было ранжировать данные). Он также предполагает, что выборки независимы. Связи: Наличие связей (повторяющихся значений) может повлиять на точность p-value, особенно в небольших выборках. Функция wilcox. test() выдает предупреждение, если обнаружены связи. Размер эффекта: P-value говорит только о статистической значимости, но не о величине эффекта. Для оценки величины эффекта можно использовать другие меры, такие как common language effect size (CLES) или rank biserial correlation. Визуализация данных: Перед проведением теста рекомендуется визуализировать данные с помощью гистограмм, boxplots или других графиков, чтобы получить представление о распределениях выборок.
Этот код демонстрирует, как использовать тест Манна-Уитни в R для сравнения двух независимых выборок. Помните о правильной интерпретации результатов и предположениях теста.