본문 바로가기
임상시험/정보

P-value란? 1편 (P-value 정의, p값, p밸류, 통계적 유의성)

by 백억저장소 2023. 6. 17.

안녕하세요 백억 저장소입니다.
임상시험 결과의 공시나 뉴스에서 '통계적 유의성 확보 실패' 혹은 '통계적으로 유의함'이라는 말을 보신 적이 있을 겁니다.
통계적 유의성을 확보하지 못하면 임상시험이 실패인지 그렇지 않은지 의견이 분분합니다.
임상시험에서 뜨거운 감자인 P-value에 대해 알아보겠습니다. 
임상 시험과 통계에 대한 지식이 없는 분들도 이해하기 쉽게 설명드리겠습니다.


1. P-value란? 

P-value는 유의확률(probability value)라고 하며, 귀무가설이 참일 때 귀무가설을 기각할 수 있는 증거의 강도를 나타내는 값입니다. (귀무가설, 대립가설 본문 참조)

간단한 예로 천하제일요리 대회에서 '김치찌개'라는 주제로 요리경연을 한다고 가정해 봅시다. 저는 기본 김치찌개에서 돼지고기를 추가한 것이 더 맛있을 거라 판단하고, 돼지김치찌개를 만들었습니다. 경쟁자는 김치만 있는 기본 김치찌개를 만들었네요.

충분히 큰 샘플 사이즈에서 대중들에게 블라인드 테스트로 누가 더 맛있는지 1~10점 척도로 심사한다고 가정해 보겠습니다. 제 김치찌개는 평균 8점, 경쟁자의 평균 6점을 받았습니다. 그러면 저는 더 맛있는 김치찌개를 만든 것일까요? 일상 환경에서는 "그렇다."라고 말할 수 있겠지만, 통계적으로 봤을 땐 P-value를 확인해 봐야 합니다. 왜냐하면, 똑같은 레시피로, 똑같은 샘플사이즈로 여러 번 테스트하더라도 제 김치찌개가 점수가 더 높을지 모르기 때문입니다. 돼지고기를 안 먹는 이슬람국가 사람들에게 테스트를 받는다면 제 점수가 높을까요? 확신할 수가 없습니다.

여기서, 통계적 유의성이라는 개념이 나오게 됩니다. p-value가 낮으면(흔히 0.05 미만) 관찰된 차이가 우연에 의해서만 발생했을 가능성이 낮다는 것을 의미합니다. 반면에 p값이 높으면(0.05보다 크면) 관찰된 차이가 우연에 의한 것일 가능성이 높으므로 귀무가설을 기각하지 못하게 됩니다.

 

눈치챈 분도 계시겠지만 비유를 들어 설명하였습니다. 여기서 기본 김치찌개는 표준 치료이며(Standard of Care; SoC), 돼지김치찌개는 시험약이 됩니다. 똑같은 레시피는 시험약이 똑같이 투여되었는지를 의미하게됩니다.(예. 같은 용법, 투여 주기, 투여 경로 등) 

 

"돼지김치찌개는 기본 김치찌개보다 더 맛있을 것이다."라는 가정은 "시험약은 기존 치료법 보다 더 효능이 좋을 것이다."(대립가설) 가정의 비유였습니다. 이것을 가설 검정을 위한 귀무가설로 바꾼다면 "시험약과 기존 치료법은 효능의 차이가 없을 것이다"(귀무가설)가 됩니다.

2. 가설 검정

귀무가설, 대립가설이라는 개념이 나와서 조금 어렵게 느껴질 수 있을 것입니다. 임상 시험은 모수에서 표본을 뽑아서 임상시험 하기 때문에 통계적으로 참인지 확인이 필요합니다. 따라서 가설 검정을 시행하게 됩니다.

귀무가설: 연구자가 기각하고자 하는 가설입니다. 흔히 "두 집단 사이에 차이가 없다."로 표현됩니다.

대립가설: 귀무가설이 기각될 때 채택하는 가설이며 연구자가 증명하고자 하는 가설입니다.

가설검정은 귀무가설이 틀렸다는 것을 증명함으로써, 대립가설이 참임을 증명합니다. 대립가설이 참인 것을 바로 증명하면 깔끔하고 좋지 않냐고 생각하실 수 있겠지만 귀무가설 강력한 가설이며, 항상 참이라고 가정하기 때문입니다. 그냥 이런 방식이 있다고 이해하시면 되겠습니다.

3. 유의 수준 α, 검정력 1-β 

가설 검정에서 범할 수 있는 오류로 1종 오류와 2종 오류가 있습니다. 각각의 확률을 α, β라고 합니다.

α: 유의 수준이라고 하며, 1종 오류의 확률을 의미합니다.

β: 2종 오류의 확률을 의미합니다.

1종 오류는 귀무가설이 참임에도 귀무가설을 기각하는 경우를 의미합니다.

예를 들어 신약과 기존약의 효능의 차이가 없는데도, 신약이 더 효과가 있다고 판단하는 경우입니다.

2종 오류는 대립가설이 참임에도 대립가설을 기각하는 경우를 의미합니다.

예를 들어 신약이 기존약보다 효능이 있는데도, 기존약과 차이가 없다고 판단하는 경우입니다.

두 가지 오류 중에서 모두 줄이면 좋겠지만, 두 오류의 확률은 반비례 관계가 입니다. 한쪽을 낮추면 한쪽이 올라가는 형태인 것이죠. 둘 중 더 심각한 오류는 1종 오류라고 간주하는데, 신약이 효능이 없음에도 불구하고 효능이 있다고 판단하며 환자에게 해를 끼칠 수 있기 때문입니다. (윤리적인 문제)
α는 보통 0.05로 두고 P-value가 유의 수준인 α보다 작을 경우 통계적 유의하다고 하게 됩니다.

즉, 임상 시험약과 기존 치료법을 비교하였는데 평가 지표의 P-value가 0.05보다 낮다면 통계적 유의성이 존재하는 것이고, 0.05보다 낮다면 통계적 유의성이 없다.(=유의하지 않다, 효과가 없다)라고 하게 됩니다.

 

이번 포스트에서는 p-value, 가설 검정, 1종 오류, 2종 오류에 대해 간단히 알아 보았습니다. 다음 포스트에서는 임상 시험 에서 p-value가 임상시험의 성패를 결정하는 것인지에 대해 알아보겠습니다. 결과 공시, 뉴스를 보고 실제로 이용하는 방법을 설명드리겠습니다. 

 

[Disclaimer]

해당 포스트는 투자를 권유하는 게시물이 아니며, 투자 책임은 본인에게 있습니다.