674 0

양방향성 장단기 기억 기술 순환신경망 모델 기반 음성 거짓말 탐지 알고리즘 개발

Title
양방향성 장단기 기억 기술 순환신경망 모델 기반 음성 거짓말 탐지 알고리즘 개발
Other Titles
Bi-LSTM Based Development of Speech Deception Detection Algorithm
Author
김영명
Alternative Author(s)
Kim, Yeong Myeong
Advisor(s)
김인영
Issue Date
2020-02
Publisher
한양대학교
Degree
Master
Abstract
거짓말 탐지(Polygraph)는 거짓말을 할 경우 나타나는 인지부조화(Cognitive dissonance)를 해소하기 위하여 체내에서 자율 신경계가 활성화 되고, 그로인한 여러 가지 생리적 변화들을 지표로 거짓말을 탐지해내는 기술이다. 이러한 거짓말 탐지는 접촉식으로 생체 신호를 획득하고 검사관의 숙련도와 주관에 따라 결과가 바뀔 가능성이 있는 등의 한계점을 지닌다. 이러한 한계점들을 극복하기 위하여 최근 비접촉식 방법으로 생체 신호를 획득하여 거짓말 탐지하는 다양한 연구들이 진행되고 있다. 그 예로 음성, RGB 영상, IR 영상, fMRI 등의 접근 방법이 연구되고 있다. 그중 본 연구에서는 측정의 복잡성이 가장 낮고 접근성이 용이한 음성을 통한 거짓말 탐지 연구를 진행하였다. 음성 발화를 이용한 거짓말 탐지 사전 연구의 경우 대개의 연구가 정해진 질문에 대한 자유 답변으로 이루어져있다. 이는 낮은 성능과 함께 특정 단어에 참과 거짓으로 편향 될 가능성이 높기에, 실제 수사에서 사용될 수 있을 가능성이 매우 낮은 한계점을 갖는다. 이를 극복하기 위하여 본 연구에서는 서울지방결찰청 과학수사과에서 실제 거짓말 탐지 수사에 사용되는 프로토콜을 차용하여 실험 프로토콜을 제작하였고, 모든 참과 거짓 답변은 ‘아니요’로 통일하여 취득하였다. 본 연구에서는 기존의 음성 발화를 통한 거짓말 탐지 연구에서 많이 사용된 6,373종의 openSMILE 특징점 집합과 본 연구에서 제안하는 특징점 집합으로써 음성을 분석하는데 가장 기본적으로 사용되는 기본 주파수, 음의 강도, 기본주파수의 변화량, 진폭의 변화량을 시계열 형태로써 추출 및 구축한 시계열 특징점 집합, 두 가지의 형태로 뽑혀진 특징점 집합을 비교하였다. 구성된 음성 특징 벡터인 openSMILE을 이용하여 1D 형태의 정보를 분류 할 수 대표적인 모델인 서포트 벡터 머신(Suppot Vector Machine: SVM)과 심층 인공 신경망(Deep Neural Network: DNN)의 학습을 진행하였다. 동일한 조건의 데이터에 대하여 서포트 벡터 머신 63.25%, 심층 인공 신경망 52.54%으로써 서포트 벡터 머신이 심층 인공 신경망에 비해서 약 10.7%의 우수한 성능을 확인하였다. 시계열 특징점 집합을 이용하여 시계열 형태의 정보를 학습을 학습하는데 가장 우수한 성능을 보이는 장단기 기억 기술과, 양방향성 장단기 기억 기술 모델의 학습을 진행하였으며, 이때 장단기 기억 기술 모델은 59.88%, 양방향성 장단기 기억 기술은 66.58%의 성능을 확인하였다. 이로써 시계열의 특징점 집합을 이용하여 양방향성 장단기 기억 기술 모델을 학습하였을 때의 성능이 가장 우수함을 확인하였다. 그러나, 이때의 결과에서는 실제 수사 과정에 유용하게 사용되어질만한 성능을 보이지 못하였다. 이 한계점을 극복하기 위하여, 중범죄자의 경우에 한해서는 사전 인터뷰를 통하여 ‘아니요’로 이루어진 진실과 거짓 데이터를 획득 가능하다는 점에 착안 하여 개인별 ‘진실과 거짓 등록(enrollment) 연구’를 진행하였다. 진행된 개인의 참과 거짓 등록 연구는 추가 실험을 통하여 구축한 피험자 4명의 데이터를 이용하여 진행하였다. 각 한명의 피험자 당 총 10번의 실험을 진행하여 데이터를 획득하였다. 사전 등록에 사용된 데이터의 개수와 거짓말 탐지 성능을 비교하였다. 그 결과 전체적으로 등록용 데이터의 개수가 증가함에 따라서 거짓말 탐지의 성능도 비례하여 증가하는 경향을 확인 할 수 있었으며 78.75%의 성능을 획득 하였다. 따라서 본 연구에서 제안된 ‘아니요’ 발화로 이루어진 참과 거짓말 데이터에서 시계열 특징점 집합을 추출하고, 이를 양방향성 장단기 기억 기술 모델을 학습한 후, 개인별 참 거짓 데이터 등록을 진행 하였을 때, 기존의 음성 발화를 이용한 거짓말 탐지 연구들에 비하여 실제 거짓말 탐지 수사에 더 높은 성능으로 사용될 수 있을 것이다. | In order to eliminate the cognitive dissonance that appears when lying, the autonomic nervous system is activated. Because of the activated nervous system, Various physiological changes occur in body, then through the Polygraph we can find a deception. However, it acquires a biological signal by a contact sensors, and has a limit point where the result may change depending on the skill level of the inspector and subjectivity. In order to overcome these limitations, various studies are being carried out to acquire biological signals and detect them in a non-contact methods. For example, approaches such as voice, RGB video, IR video, and fMRI are studied. In this study, we conducted a deception detection study with the voice which has lowest measurement complexity and ease of access. In the case of prior research on a deception detection using voice speech, the research is generally made up of open type answers to questions. This, along with its low performance, is highly unlikely to be used in actual investigations because it is highly likely to deflect certain words in truth or deception. In order to overcome this, our test protocol is derived from the SNU Scientific Investigation Department, which has been used for the actual detection of deception. In this study, 6,373 OpenSMILE feature set which is often used in the prior art of a deception detection and the other feature set proposed in this study is made up with time series of pitch, intensity, jitter and shimmer. OpenSMILE, a voice feature vector configured, can be used to classify 1D-form information, and a representative model: Suppot Vector Machine (SVM) and Deep Neural Network (DNN). For the same condition data, 63.25% of the support vector machines and 52.54% of the DNN confirmed the excellent performance of about 10.7% of the support vector machines compared to the DNN. Then, we used the Long Short Term Memory(LSTM) model and Bidirectional Long Short Term Memory(Bi-LSTM) which provide the best learning performance in the time series type feature set. We got the accuracy of 59.88% through LSTM model. Thus, it is confirmed that performance when learning the Bi-LSTM model is the most excellent by using the time-series feature set. However, the results did not show enough performance to be used in the actual investigation process. In order to overcome this limitation, we focused on the fact that only heavy criminals can obtain the truth and deception data consisting of "no" through prior interviews, and conducted individual "enrollment research". The research into the truth and deception registration of individuals was conducted using the data of four participants, which were constructed through additional experiments. Each participants conducted 10 experiments, obtained data, and compared the number of data used for pre-registration with a deception detection performance. As a result, as the number of data for registration as a whole has increased, it has confirmed that lie-finding performance is increasing in proportion, and it has achieved 78.75%. Therefore, a set of time series feature set is extracted from the true and deception data of the "no" answer proposed in this study, and this is a deception that can be used by individuals to search for deception data.; In order to eliminate the cognitive dissonance that appears when lying, the autonomic nervous system is activated. Because of the activated nervous system, Various physiological changes occur in body, then through the Polygraph we can find a deception. However, it acquires a biological signal by a contact sensors, and has a limit point where the result may change depending on the skill level of the inspector and subjectivity. In order to overcome these limitations, various studies are being carried out to acquire biological signals and detect them in a non-contact methods. For example, approaches such as voice, RGB video, IR video, and fMRI are studied. In this study, we conducted a deception detection study with the voice which has lowest measurement complexity and ease of access. In the case of prior research on a deception detection using voice speech, the research is generally made up of open type answers to questions. This, along with its low performance, is highly unlikely to be used in actual investigations because it is highly likely to deflect certain words in truth or deception. In order to overcome this, our test protocol is derived from the SNU Scientific Investigation Department, which has been used for the actual detection of deception. In this study, 6,373 OpenSMILE feature set which is often used in the prior art of a deception detection and the other feature set proposed in this study is made up with time series of pitch, intensity, jitter and shimmer. OpenSMILE, a voice feature vector configured, can be used to classify 1D-form information, and a representative model: Suppot Vector Machine (SVM) and Deep Neural Network (DNN). For the same condition data, 63.25% of the support vector machines and 52.54% of the DNN confirmed the excellent performance of about 10.7% of the support vector machines compared to the DNN. Then, we used the Long Short Term Memory(LSTM) model and Bidirectional Long Short Term Memory(Bi-LSTM) which provide the best learning performance in the time series type feature set. We got the accuracy of 59.88% through LSTM model. Thus, it is confirmed that performance when learning the Bi-LSTM model is the most excellent by using the time-series feature set. However, the results did not show enough performance to be used in the actual investigation process. In order to overcome this limitation, we focused on the fact that only heavy criminals can obtain the truth and deception data consisting of "no" through prior interviews, and conducted individual "enrollment research". The research into the truth and deception registration of individuals was conducted using the data of four participants, which were constructed through additional experiments. Each participants conducted 10 experiments, obtained data, and compared the number of data used for pre-registration with a deception detection performance. As a result, as the number of data for registration as a whole has increased, it has confirmed that lie-finding performance is increasing in proportion, and it has achieved 78.75%. Therefore, a set of time series feature set is extracted from the true and deception data of the "no" answer proposed in this study, and this is a deception that can be used by individuals to search for deception data.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/123982http://hanyang.dcollection.net/common/orgView/200000437522
Appears in Collections:
GRADUATE SCHOOL OF BIOMEDICAL SCIENCE AND ENGINEERING[S](의생명공학전문대학원) > BIOMEDICAL ENGINEERING(생체의공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE