본문 바로가기
의공학자를 위한 데이터분석/다변량 통계 분석

MVS-01 여는 글

by 율생공 2024. 11. 4.

공대생이 적어보는 다변량 통계

  참.. 많은 마음이 듭니다. 이걸 내가 왜 데이터사이언스학과까지 가서 배울까 싶은.. 나는 공대다니는데.. 

  그래도 환자 데이터 분석을 위해서 반드시 필요해서 수강했습니다. 많은 도움이 되고 있고, 그래서 듣기를 참 잘한 수업이었습니다. 교수님께서 현업 경험도 있으신 분이라 그런지 정말 리얼한 예시들을 많이 들으면서 분석의 기술들을 배울 수 있었습니다.

  그리고 자격증 시험을 보고나니(ADP) 수업 듣길 정말 잘했다는 생각이 드는 그런 수업이었습니다. 시험 범위에 다변량 통계 내용이 포함되어있기도 하고, 교수님께서 중간중간 설명해주신 통계모델이나 분포에 대한 내용들이 시험문제 중에도 정말 많이 나오더라구요.. 수업 한번 들어서 개념을 정리해놓으면 확실히 도움이 되는 것 같습니다.

 

다변량 통계의 해석

  다변량 통계 수업을 해주신 데이터사이언스 학과 교수님께서 말씀하시길, 다변량 통계를 위해서는 국어능력(특히 작문)이 중요하다고 합니다. 여타 통계분석과 다르게 다변량 통계에는 정답이 없기 때문에 결과에 대한 해석이 다양하게 나타날 수 있고, 데이터에 대한 인사이트가 중요하기 때문이라고 합니다.

  전 그 점이 가장 이해하기가 어려웠습니다. 제가 배운 여타 통계 이론들은 공학적으로 예측을 더 잘하기 위한 도구였지, 어떤 과학/사회/경제적 현상이 왜 일어나는지 이해하기 위한 방식이 아니었기 때문입니다. 그런데 다변량통계 수업을 들으면서, 그 차이를 더 잘 이해할 수 있었고 데이터사이언티스트와 엔지니어가 어떻게 다른지 새삼 느끼게 됐습니다. 

  교수님께서 예로 들어주신 사례는 참새 생존에 관한 데이터였는데요, 태풍에 살아남은 참새와 그렇지 못한 참새들의 신체적 차이들을 분석하는 것이었습니다. 그 어떤 개별적인 특징으로도 두 그룹간 차이가 유의하게 나타나지 않았는데요, 주성분분석을 통해 확인해보니 두 그룹의 차이를 확인해 볼 수 있었습니다. '개별적으로는 차이를 확인하기 어렵지만, 변수들을 여럿 모아놓으면 변수들간의 상관관계를 통해 그룹간 차이를 볼 수 있다' 라는 점이 매력적인 것 같습니다. 물론 현대의 머신러닝에서는 주성분분석 대신 비선형 특징을 보다 잘 반영할 수 있는 VAE같은 알고리즘들로 차원축소를 해내겠지만, 데이터 수가 적을 때나 선형적으로 나타낼 수 있는 특징들에는 여전히 좋은 방법이고, 다변량 통계 수업에서 계발하는 '작문' 능력 또한 축소된 차원에 의미를 부여하는 데에 좋은 영감을 줄 수 있는 것 같습니다. 

  

향후 목표

  주성분분석(PCA), 요인분석, 정준상관분석, 대응분석, 다차원척도법, 군집분석, 판별분석 등등 다변량 통계 기법들에 대해서 적어보려합니다. 헷갈리는 내용도 많고 공부도 필요하지만.. 공부한 것을 정리하는 것에 가깝게 수업 내용들을 위주로 적어보려합니다. 데이터분석을 하는 사람의 관점에서도, 또 머신러닝을 하는 공학 전공자의 관점에서 적어보겠습니다.