139 0

시각적 대화를 위한 구조 인식 기반 멀티모달 순차 학습

Title
시각적 대화를 위한 구조 인식 기반 멀티모달 순차 학습
Other Titles
A Structure-aware Multimodal Sequential Learning for Visual Dialog
Author
김영진
Alternative Author(s)
김영진
Advisor(s)
김은솔
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
웹에서 방대한 양의 언어 데이터를 수집하고 이를 학습하여 언어를 이해할 수 있는 능력을 갖춘 Large-scale Language Models(LLMs)은 놀라운 발전을 이루었다. 이러한 발전을 통해서 사람과 유창한 대화가 가능한 챗봇과 같은 대화 시스템이 등장하였다. 최근에는 인간과 에이전트 간 상호작용을 가능케 하는 대화 시스템의 성능 향상으로, 언어 기반 대화뿐만 아니라 이미지에 대한 정보와 함께 시각적 대화에 대한 연구가 제안되었다. 시각적 대화는 언어와 이미지의 멀티모달한 정보를 담고 있으며 단일 질의응답이 아닌 멀티 턴으로 이루어져 있어 대화의 흐름 및 맥락을 파악하는 것이 즁요하다. 본 논문에서는 시각적 대화 모.델 훈련을 위해서 기존의 각 모달리티에 대한 사전학습된 대규모 모델을 활용하는 새로운 멀티모달 순차 학습 방법을 제안한다. 본 접근 방법의 주요 아이디어는 공간 및 시각 그래프의 구조적인 정보를 활용하여 대화에 필요한 컨텍스트를 파악하고, 사전학습된 모델을 바탕으로 각 모달리티 별 모델 간의 의미 공간을 조정하기 위해 모델 사이에 순차적인 모듈레이션 블록(modulation block)을 도입한다. 실험에서는, COMET을 포함한 Visual Dialog, MNIST Dialog의 세 가지 시각 대화 데이터 셋에 대해서 최고 성능(state-of-the-art)을 달성했음을 입증한다. 또한 정성적 평가를 통해서 각 대화의 시점마다 필요한 컨텍스트를 효과적으로 검색할 수 있음을 보인다.
URI
http://hanyang.dcollection.net/common/orgView/200000725432https://repository.hanyang.ac.kr/handle/20.500.11754/189295
Appears in Collections:
ETC[S] > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE