104 0

생성모델을 통한 한국어 과업지향 대화시스템 데이터 구축

Title
생성모델을 통한 한국어 과업지향 대화시스템 데이터 구축
Other Titles
Korean Task-Oriented Dialogue system data construction via Generative Model
Author
나선옥
Alternative Author(s)
NA SEON OK
Advisor(s)
김영민
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
최근 몇 년 사이 대화 시스템과 대화 에이전트는 딥 러닝 모델의 성능 향 상으로 큰 발전을 이루고 있다. 또한 생성모델의 발전으로 구조적인 개선 또한 활발하게 연구되고 있다. 이러한 대화 시스템 중 사용자의 요청을 파 악하고, 이를 수행하는 것을 과업지향 대화시스템이라고 한다. 과업지향 대 화시스템은 다양한 분야에 적용가능 하며, 자동화를 통해 비용을 감소시키 고, 사용자 경험을 향상시킨다. 과업지향 대화시스템을 구축하기 위해서는 타겟 도메인에 대한 특수성이 반영된 방대한 량의 데이터가 필요하다. 과업지향 대화시스템 데이터셋은 각 세부 모듈을 학습하기 위해 slot, intent, act 같은 레이블 정보를 포함해 야 하며, 이를 직접 레이블링 하는 것은 매우 노동집약적인 과정이다. 또한 대화과정에서 다양한 시나리오 파생이 발생하며, 이것을 모두 수집하는 것 은 매우 어려운 작업이다. 이로 인해 과업지향 대화시스템 데이터를 직접 구현하는 것은 많은 시간과 노력이 들어간다. 하지만 현재 공개되어 있는 과업지향 대화시스템 데이터셋은 주로 영어로 구축되어 있다. 이는 다국어 환경에서 과업지향 대화시스템 연구를 어렵게 하는 요인이 되고 있으며, 한국어와 같은 고립어는 활용가능한 언어자원이 희소하여 더 큰 어려움이 따른다. 이에 따라 다국어 환경에서 사용 가능한 데이터셋을 구축하는 연구가 활발하게 이루어지고 있다. 본 논문에서는 생성모델을 활용해 한국어와 같은 고립어에 대해 보다 효 율적으로 과업지향 대화시스템 데이터셋을 구축하는 방법을 제시한다. 제안 된 방법론은 기존 방식에 비해 더 적은 리소스만을 필요로 하며, 도메인에 따른 차이를 충분히 반영할 수 있다. 또한 본 논문의 제안된 방법론의 활용 성을 검증하기 위해 케이스 스터디로서 과업지향 대화시스템 데이터셋을 구 축하였다. 이 데이터셋은 세 가지 주요 시나리오에 대해 여러 파생된 시나 리오를 제공하며, 750개의 시나리오, 8,000개의 발화를 포함한다. 구축된 데 이터셋은 기존 데이터처럼 slot, act, intent에 대한 레이블을 포함하며, 이를 활용하여 NLU(Natural Language Understanding), slot filling, DST(Dialogue States Tracking) 학습에 사용할 수 있다. 본 논문에서는 이 렇게 구축한 한국어 데이터셋을 공개한다.
URI
http://hanyang.dcollection.net/common/orgView/200000722072https://repository.hanyang.ac.kr/handle/20.500.11754/189164
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF INDUSTRIAL DATA ENGINEERING(산업데이터엔지니어링학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE