p-value
one-sided 방식은 위험할 수 있다.
어떤 약이 질병 회복 시간에 유의미한 영향을 끼치는지 확인하려고 한다.
약을 복용하지 않았을 때, 회복까지 평균 15일이 걸린다고 한다.
이때 One-sided 방식을 적용한다면,
약이 오히려 회복을 방해하는 경우를 잡아내지 못한다.
약을 복용했을 때 회복까지 평균 시간이 30일이 걸렸다면
약이 오히려 회복에 악영향을 미칠 가능성이 있는데,
Two-sided에서는 p = 0.001로
약을 복용하지 않은 것과 다르다고 판단하지만,
One-sided 방식에서는 p = 0.995로
약을 복용하지 않은 것과 차이가 없는 것으로 판단하게 된다.
그래서 One-sided는 더 조심해서 적용해야 한다.
p-value hacking
▶ Multiple Testing Problem
동일한 데이터 분포에서 추출한 데이터셋으로 여러 번 테스트 하다보면
대부분 두 데이터셋이 동일한 분포에 속한다는 결과가 나오지만 ( p >= 0.05 ),
언젠가는 두 데이터셋이 서로 다른 분포에 속한다는 결과가 나오게 된다 ( p < 0.05 ).
이렇게 여러 번 중 한 번 발생한 reject의 경우를 근거로,
두 데이터셋이 서로 다른 집단으로부터 나왔다고 결론짓는 것이 (즉, null hypothesis 를 reject) (=False Positive)
바로 p-value hacking 중 하나인 Multiple Testing Problem 이다.
이런 상황을 방지하기 위한 방법 중 하나가
False Discovery Rate (FDR) 이다.
▶ 데이터 수 추가에 따른 p-value 감소
유의미한 결과처럼 보이도록 p-value를 감소시키기 위해,
양쪽의 데이터셋에 데이터를 추가할 수 있다.
데이터를 추가하면,
p-value가 더 작아질 확률이 높다.
이러면 False Positive가 발생하기 쉽고,
이 경우 또한 p-value hacking 이다.
이를 방지하기 위해,
데이터셋에 들어갈 적절한 데이터 갯수를 정할 필요가 있다.
이때 쓸 수 있는 것이 Power Analysis 이다.
◎ References
< StatQuest, How to calculate p-values >
< StatQuest, p-hacking: What it is and how to avoid it! >
'Data Science' 카테고리의 다른 글
Probability and Likelihood (0) | 2023.05.01 |
---|---|
Linear Regression (0) | 2023.05.01 |
Gradient Boosting (그래디언트 부스팅) for regression (0) | 2023.04.28 |
Conditional Entropy (0) | 2023.04.27 |
Entropy & Surprise (0) | 2023.04.26 |