
마이크로어레이 자료를 이용한 유전자 선택 및 분류 방법 비교
A Comparison of Gene Selection and Classification using Microarray Data
- 박미주(Mi Ju Park) 이재원(Jae Won Lee)
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.17 No.1
- 등재여부 : KCI등재
- 2015.02
- 107 - 116 (10 pages)
마이크로어레이 자료에서의 분류 분석의 목적은 중요한 소수의 유전자를 선별하여 새로운 표본에서의 선별된 유전자 정보로부터 반응범주를 정확하게 분류하고 예측하는데 있다. 생물학적 현상을 입증하기 위해서는 분류 분석에 좋은 성능을 보이는 소수의 유전자를 선별하는 것이 중요하지만 분류 집단 수가 증가할수록 선택된 유전자 수가 증가하여 생물학적 현상을 증명하기에 어려움이 있다. 본 논문에서는 최근에 많이 사용되고 있는 마이크로어레이 자료의 분류 분석 방법인 Nearest Shrunken Centroids(NSC), Random Forest(RF), Bayesian Model Averaging(BMA), Eigengene-based Linear Discriminant Analysis(ELDA)를 소개하고, 다양한 집단 수를 가진 실제 마이크로어레이 자료를 이용하여 그 방법들의 분류 성능을 비교하였다. 분류 방법의 질적 평가는 선택 유전자 수, 오분류율, Brier score를 이용하여 수행하였다.
For classification analysis using gene expression microarray data, gene selection is necessary to discover genomic biomarkers for diagnosis and prognosis. It is important to select smaller classifier, but it is difficult to explain by biologically when the larger class size is, the larger selected genes increase. In this study, we introduced the classification methods which are nearest shrunken centroids (NSC), random forest (RF), Bayesian model averaging (BMA), eigengene-based linear discriminant analysis (ELDA), and compared these method using the real data in various situation. The evaluation of the quality was performed using number of selected genes, incorrectly grouped points and Brier score.
1. 서론
2. 분류 방법
3. 실제 자료 분석
4. 결론
References