상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
한국자료분석학회 2022년 하계학술대회 발표집.jpg
학술대회자료

Self-supervised classification for functional data

  • 17

보행데이터는 뇌성마비 환자의 치료에 따른 재활의 정상성을 평가하기 위해 수집한 자료이다. 함수형(functional) 자료구조를 가진 보행데이터를 학습시, 시간에 따른 의존성을 모형에 반영할 필요성이 있다. 본 연구에서는 최근 높은 텍스트 이해 능력을 갖춘 거대 언어모델에 주목하고, 언어모델을 함수형 데이터분석에 활용하는 효과적인 방법을 제시하고자 한다. 거대 언어모델은 토큰들의 순서를 학습하는 매우 효과적인 방법이나, 대량의 문장과 고수준의 계산자원을 요구하므로 이를 효율적으로 추정하는 함수추정방법이 필요하다. 연구에서는 함수형 데이터를 범주화하여 언어 모델의 입력으로써 토큰의 개념을 정의하고, 어텐션 기반의 자기지도 학습을 통해 함수형 데이터의 분포를 학습하는 방안을 제시한다. 아울러, 거대 언어모형에 필요한 데이터를 확보하는 방안으로 trend filtering을 통해 데이터를 증강하는 기법을 제안한다. 또한, 관찰된 자료와 증강된 자료의 대비를 통한 잡음대조추정방법(noise contrastive estimation, NCE)을 도입하여, 추정의 효율성을 높이는 사전학습방법을 제안한다. 실제 보행자료를 통해 제안된 방법이 이상치에 둔감하고 자료의 측정시점의 정렬에 덜 의존함을 확인할 수 있었으며, 다운스트림 작업인 뇌성마비 환자의 운동기능 정상/비정상 분류성능을 향상시킴을 확인하였다. 보행데이터는 뇌성마비 환자의 치료에 따른 재활의 정상성을 평가하기 위해 수집한 자료이다. 함수형(functional) 자료구조를 가진 보행데이터를 학습시, 시간에 따른 의존성을 모형에 반영할 필요성이 있다. 본 연구에서는 최근 높은 텍스트 이해 능력을 갖춘 거대 언어모델에 주목하고, 언어모델을 함수형 데이터분석에 활용하는 효과적인 방법을 제시하고자 한다. 거대 언어모델은 토큰들의 순서를 학습하는 매우 효과적인 방법이나, 대량의 문장과 고수준의 계산자원을 요구하므로 이를 효율적으로 추정하는 함수추정방법이 필요하다. 연구에서는 함수형 데이터를 범주화하여 언어 모델의 입력으로써 토큰의 개념을 정의하고, 어텐션 기반의 자기지도 학습을 통해 함수형 데이터의 분포를 학습하는 방안을 제시한다. 아울러, 거대 언어모형에 필요한 데이터를 확보하는 방안으로 trend filtering을 통해 데이터를 증강하는 기법을 제안한다. 또한, 관찰된 자료와 증강된 자료의 대비를 통한 잡음대조추정방법(noise contrastive estimation, NCE)을 도입하여, 추정의 효율성을 높이는 사전학습방법을 제안한다. 실제 보행자료를 통해 제안된 방법이 이상치에 둔감하고 자료의 측정시점의 정렬에 덜 의존함을 확인할 수 있었으며, 다운스트림 작업인 뇌성마비 환자의 운동기능 정상/비정상 분류성능을 향상시킴을 확인하였다.

Reference

로딩중