상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
153076.jpg
KCI등재 학술저널

연속형과 범주형의 혼합자료에 대한 혼합형 h-plot

The Mixed h-plot for Continuous and Categorical Data

  • 23

연속형 변수와 범주형 변수가 혼합되어 있는 자료에 대한 탐색적 분석방법으로 일반화행렬도(generalized biplots)를 이용할 수 있다. 일반화행렬도는 개체들의 비유사성(dissimilarity)을 저차원공간 상에 투영(projection)한 후, 그 위에 추가적으로 연속형과 범주형 변수들의 정보를 가상점(pseudo-points)을 이용하여 나타냄으로서 개체들의 성향을 해석하는 데 도움을 얻고자 하는 분석기법이다. 그러나 일반화행렬도는 변수의 수가 많아질수록 가상점의 위치 좌표에 대한 계산시간이 오래 걸리는 단점이 있으며, 측정 단위(measure unit)에 따른 연속형 변수와 범주형 변수가 가지는 변동(variation)의 크기 차이로, 행렬도 상에 모든 변수들의 정보를 표현했을 때 소수의 범주수준으로 표현되는 범주형 변수들에 대한 해석에 어려움을 겪을 수도 있다. 이에 본 연구에서는 연속형과 범주형의 혼합자료에 대해 적용 가능한 혼합형 h-plot을 제안하고자 한다. 이는 일반화행렬도와 달리 변수들의 정보만을 저차원 공간상에 투영시켜 그들의 관계를 탐색하고자 하는 분석기법이다. 제안하는 혼합형 h-plot은 차원축소를 위한 비정칙값분해(singular value decomposition)를 범주형 자료 부분에 대해서도 적용 가능하도록 주어진 자료행렬의 적절한 변환이 요구되는데, 이 과정상에 일반화행렬도 상에서 나타났던 측정단위에 대한 문제도 고려하였다. 따라서 혼합형 h-plot을 통해 변수들의 관계에 대한 쉽고 유용한 해석을 기대할 수 있다.

Generalized biplots (Gower, 1992) offer the visualization of the given data that allows both the continuous and categorical variables to be included. The algorithm of generalized biplots aims to visualize the dissimilarity of individual objects in low dimensional space. And the pseudo-points are used to represent the informations of the variables. But sometimes, it requires a long computation time for coordinates of the pseudo-points when the number of variables is large. Furthermore, it is difficult to interpret the relationship of variables due to the difference in the variation of the continuous and categorical variables. In this study, we will propose the mixed h-plot in order to interpret the relationship of variables in low dimensional space. The singular value decomposition for dimensional reduction is required the appropriate transformation for the given data. On the process, we also consider the difference in the variation of the continuous and categorical variables. Hence, we can expect that our proposed h-plot give clear and useful interpretation for the correlation of the continuous variables, the relevance of the categorical variables and the difference in the means of the continuous variables according to the levels of the categorical variable.

1. 서론

2. 혼합자료에 대한 h-plot

3. 활용사례

4. 결론

References

로딩중