p-value & p-hacking

p-value

one-sided 방식은 위험할 수 있다.

어떤 약이 질병 회복 시간에 유의미한 영향을 끼치는지 확인하려고 한다.

약을 복용하지 않았을 때, 회복까지 평균 15일이 걸린다고 한다.

이때 One-sided 방식을 적용한다면,

약이 오히려 회복을 방해하는 경우를 잡아내지 못한다.

약을 복용했을 때 회복까지 평균 시간이 30일이 걸렸다면

약이 오히려 회복에 악영향을 미칠 가능성이 있는데,

Two-sided에서는 p = 0.001로

약을 복용하지 않은 것과 다르다고 판단하지만,

One-sided 방식에서는 p = 0.995로

약을 복용하지 않은 것과 차이가 없는 것으로 판단하게 된다.

그래서 One-sided는 더 조심해서 적용해야 한다.

p-value hacking

▶ Multiple Testing Problem

동일한 데이터 분포에서 추출한 데이터셋으로 여러 번 테스트 하다보면

대부분 두 데이터셋이 동일한 분포에 속한다는 결과가 나오지만 ( p >= 0.05 ),

언젠가는 두 데이터셋이 서로 다른 분포에 속한다는 결과가 나오게 된다 ( p < 0.05 ).

이렇게 여러 번 중 한 번 발생한 reject의 경우를 근거로,

두 데이터셋이 서로 다른 집단으로부터 나왔다고 결론짓는 것이 (즉, null hypothesis 를 reject) (=False Positive)

바로 p-value hacking 중 하나인 Multiple Testing Problem 이다.

이런 상황을 방지하기 위한 방법 중 하나가

False Discovery Rate (FDR) 이다.

▶ 데이터 수 추가에 따른 p-value 감소

유의미한 결과처럼 보이도록 p-value를 감소시키기 위해,

양쪽의 데이터셋에 데이터를 추가할 수 있다.

데이터를 추가하면,

p-value가 더 작아질 확률이 높다.

이러면 False Positive가 발생하기 쉽고,

이 경우 또한 p-value hacking 이다.

이를 방지하기 위해,

데이터셋에 들어갈 적절한 데이터 갯수를 정할 필요가 있다.

이때 쓸 수 있는 것이 Power Analysis 이다.

◎ References

Probability and Likelihood (0)	2023.05.01
Linear Regression (0)	2023.05.01
Gradient Boosting (그래디언트 부스팅) for regression (0)	2023.04.28
Conditional Entropy (0)	2023.04.27
Entropy & Surprise (0)	2023.04.26

How have I been doing so far?