표본 크기(n값) 산출의 중요성.

P-Values
image from: xkcd.com

조금 전, 학교 전산실에서 "통계 표본크기 산출" 주제의 세미나를 듣고 왔다.

???: "요즘 high IF journal에 논문 섭미션할때 그냥 p-value만 들이대면 리뷰오고 통계로 까이고 그러면 리젝받고. 그러면서도 리뷰어에게 허벌나게 치욕적 비난받고 낮은 IF 저널에 냅니다. 온코타겟을 살"(...)

결국 관건은, 통계 검정력을 위한 표본 숫자를 정확하게 계산해서 제시해야 논문 피어 리뷰어도 납득할거라는 얘기인듯 하다. 최근 들어 의학 및 심리학 논문들에서 재현성 위기 (https://en.wikipedia.org/wiki/Replication_crisis) 때문에 엄청 난리였는데, 잘못된 통계 검증 때문에 연구 자체의 유의성이 잘못 설정되어 실제로 그 연구들을 다시 수행해 보았을 경우 재현성이 나오지 않는 경우가 엄청 많았다고 한다. 특히 생물학의 경우 조사 대상의 약 80% 가까이 다른 논문의 방법을 따라했을 경우 결과 재현에 실패한 경험이 있고, 약 60%의 연구자는 심지어 본인의 실험 재현에도 실패한 적이 있다고 하더라(...).

그 이유로 생각해볼 만한 것이, 통계적 연관성이 인과성을 대표하지 않기 때문에 외부 조건에 따라 다른 결과가 나올 경우도 있겠지만, 많은 경우 통계적 계산을 잘못 적용하거나 너무 약한 통계검정을 사용하여 잘못된 통계치를 근거로 유의성을 주장했기 때문인 것으로 보인다.

그래서 요즘같은 경우에는 p-value (귀무가설이 참일 경우에도 이를 기각하는 결과가 나타날 확률) 만으로는 부족하고, 통계적 검정력 및 그에 입각한 표본 갯수 설정 과정도 요구하는 저널이 많아지고 있다. 앞으로 이에 대해 많이 공부해야 할듯 하다.

[Sample size 결정을 위한 effect size 결정]

Cohen's d : 표준화된 효과크기=실제 효과크기/표준편차
<0.4: 작은 효과크기
0.4-0.7: 중간 효과크기
>0.7: 큰 효과크기

여기서 G-Power 라는 프로그램이 실험군당 표본 수 결정을 계산하는 데 도움이 된다고 한다. (https://en.wikipedia.org/wiki/G*Power)

참고:
https://cs.kaist.ac.kr/colloquium/files/20161031.pdf

[신경 쓰이는 생물학 이야기] 미세아교세포, “시냅스, 먹는건가? 우걱우걱”



미세아교세포(microglia)는 뇌에서 중추신경의 면역반응을 담당하고 있으며, 신경발생 과정에서 시냅스 가지치기(synaptic pruning) 역할 또한 담당하고 있다. 이러한 가지치기 기능이 망가지면 불필요하게 많은 미성숙 시냅스들만 가득가득해져서 신경이 제대로 기능하지 못하게 된다. 현재로서는 시냅스 가지치기 과정은 미세아교세포가 대식작용(phagocytosis)을 통해 불필요한 시냅스를 먹어버림으로써 이루어진다고 알려져 있긴 하지만, 지금까지의 연구는 모두 간접적으로만 확인했을 뿐이고 이를 직접적으로 보여준 적은 없었다. 
(계속 읽기)

[신경 쓰이는 생물학 이야기] 배고프면 덜 아프다?

이제부터 당분간 브릭(BRIC; Biological Research Information Center)에 글을 연재하기로 했다. 2주 간격으로 약 두 달 정도 글을 업로드할 예정이다. 첫 번째 주제는 hunger signal 과 염증성 만성통증 사이의 경쟁관계를 밝혀낸 논문에 관한 뉴스를 작성해 보았다.

통증은, 우리 몸으로 하여금 부상으로부터 자기 자신을 지키게 하는, 진화적으로 필수적인 반응이라고 할 수 있다.......(계속 읽기)



[ChatGPT] AI 챗봇의 한계: 허위 정보를 속을만큼 예쁘게 적어서 내보낸다.

ChatGPT 에게 전문 지식에 대해 물어볼 때 조심해야 할 점: 가짜 정보를 마치 사실인 것처럼 이야기한다는 점이다.   우선, synaptic pruning이라는 신경생물학 이론에 대해 설명하는 아래 글에 나오는 Dr. Beatrice Golgi는...