Repository at Hanyang University: 시각적 대화를 위한 구조 인식 기반 멀티모달 순차 학습

Browse

My Repository

Repository at Hanyang UniversityETC[S]ETC

139 0

시각적 대화를 위한 구조 인식 기반 멀티모달 순차 학습

Title: 시각적 대화를 위한 구조 인식 기반 멀티모달 순차 학습

Other Titles: A Structure-aware Multimodal Sequential Learning for Visual Dialog

Author: 김영진

Alternative Author(s): 김영진

Advisor(s): 김은솔

Issue Date: 2024. 2

Publisher: 한양대학교 대학원

Degree: Master

Abstract: 웹에서 방대한 양의 언어 데이터를 수집하고 이를 학습하여 언어를 이해할 수 있는 능력을 갖춘 Large-scale Language Models(LLMs)은 놀라운 발전을 이루었다. 이러한 발전을 통해서 사람과 유창한 대화가 가능한 챗봇과 같은 대화 시스템이 등장하였다. 최근에는 인간과 에이전트 간 상호작용을 가능케 하는 대화 시스템의 성능 향상으로, 언어 기반 대화뿐만 아니라 이미지에 대한 정보와 함께 시각적 대화에 대한 연구가 제안되었다. 시각적 대화는 언어와 이미지의 멀티모달한 정보를 담고 있으며 단일 질의응답이 아닌 멀티 턴으로 이루어져 있어 대화의 흐름 및 맥락을 파악하는 것이 즁요하다. 본 논문에서는 시각적 대화 모.델 훈련을 위해서 기존의 각 모달리티에 대한 사전학습된 대규모 모델을 활용하는 새로운 멀티모달 순차 학습 방법을 제안한다. 본 접근 방법의 주요 아이디어는 공간 및 시각 그래프의 구조적인 정보를 활용하여 대화에 필요한 컨텍스트를 파악하고, 사전학습된 모델을 바탕으로 각 모달리티 별 모델 간의 의미 공간을 조정하기 위해 모델 사이에 순차적인 모듈레이션 블록(modulation block)을 도입한다. 실험에서는, COMET을 포함한 Visual Dialog, MNIST Dialog의 세 가지 시각 대화 데이터 셋에 대해서 최고 성능(state-of-the-art)을 달성했음을 입증한다. 또한 정성적 평가를 통해서 각 대화의 시점마다 필요한 컨텍스트를 효과적으로 검색할 수 있음을 보인다.

URI: http://hanyang.dcollection.net/common/orgView/200000725432 https://repository.hanyang.ac.kr/handle/20.500.11754/189295

Appears in Collections:: ETC[S] > ETC

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show full item record

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository

Browse

My Repository

BROWSE