상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
캡처.JPG
KCI등재 학술저널

챗GPT를 활용한 자기소개서 평가 성능 및 업무자동화 가능성에 대한 연구

A Study on the Performance of ChatGPT in Evaluating Cover Letters and Its Potential to Robotic Process Automation

DOI : 10.36459/jom.2023.47.4.27
  • 420

인공지능은 수많은 업무 영역에서 패러다임의 전환을 가져오고 있으며 인사관리 분야에서도 다양한 활용방안이 발굴되고 있다. 특히 챗GPT의 등장으로 기존 단순한 업무의 자동화에 그쳤던 인공지능의 활용이 보다 복잡한 인사담당자의 업무에 적용될 잠재력을 얻게 되었다. 그러나 챗GPT의 업무수행 성능을 구체적으로 검증한 연구는 부재한 상황이며, 이에 본 연구는 인사담당자의 업무, 특히 자기소개 서 평가에 대한 챗GPT의 성능을 분석해보고자 하였다. 84개의 자기소개서와 평가표를 23,940개의 단위로 구분하여 챗GPT에게 평가를 요청하였으며, 그 결과를 다면적으로 분석하고 인간 평가자의 평가 결과와 비교하였다. 분석 결과, 챗GPT의 주요 하이퍼파라미터(hyperparameter)인 온도(temperature) 가 증가함에 따라 오류가 발생활 학률이 증가하고 평가의 일관성이 감소하는 것을 확인할 수 있었다. 또한 챗GPT는 다양한 평가등급을 골고루 부여하기보다 특정 등급에 편향적으로 부여하는 경향이 나타 나는 것을 확인했으며, 그러한 다양성 수준은 평가표에서 어떠한 평가등급 명칭을 활용했느냐에 따라 상이했다. 다음으로 챗GPT 평가 결과를 인간 평가자의 자기소개서 평가와 비교해 본 결과, GPT-3.5 모델에서는 최대 0.34(p<.01), GPT-4 모델에서는 최대 0.60(p<.001)의 유의미한 양(+)의 상관관계 가 확인되었다. 마지막으로 챗GPT가 상위점수를 부여한 지원자가 실제 채용 합격자와 일치하는 정도 를 비교한 결과, GPT-3.5 모델은 평균 61%, GPT-4 모델의 경우는 평균 83%로 나타났다. 이러한 결과는 챗GPT가 자기소개서 평가 업무를 자동화하거나, 또는 인간 평가자의 업무를 지원하는 데 활용 될 수 있다는 것을 보여준다. 특히 하나의 자기소개서를 평가하는 데에 소요되는 시간은 1분 이내이며, 비용 또한 $0.03 수준인 점을 고려했을 때, 챗GPT의 잠재력을 주목할 만하다. 이러한 연구결과를 기반으로 결론에서는 연구의 이론적, 실무적 시사점 및 향후 연구의 방향성에 대해 기술하였다.

Artificial intelligence is revolutionizing various work sectors, including human resource management, With the advent of ChatGPT in particular, AI has moved beyond simple task automation to potentially handle complex duties in HR. Due to the lack of specific studies on ChatGPT's performance, this research focuses on analyzing its efficacy in cover letter evaluation. ChatGPT was used to evaluate 23,940 units derived from 84 cover letters and evaluation sheets, with the results analyzed and compared to human evaluations. We found that an increase in the temperature, ChatGPT's key hyperparameter, led to rising error rates and declining rating consistency. We also found that ChatGPT tended to assign a bias toward certain ratings rather than assigning a variety of ratings evenly, with diversity levels influenced by the rating nomenclature used. Next, we identified significant positive correlations between ChatGPT and human raters, reaching up to 0.34 (p<.01) and 0.60 (p<.001) for GPT-3.5 and GPT-4 models, respectively. We also found that ChatGPT's top-scoring applicants matched actual hires by 61% for the GPT-3.5 model and 83% for the GPT-4 model. These results suggest that ChatGPT could support or automate cover letter assessments. ChatGPT's potential was found to be significant, given its ability to evaluate a cover letter in under a minute for just $0.03. Based on these findings, the conclusion discusses the theoretical and practical implications of the study and directions for future research.

로딩중