171 0

Improving discriminant models in chemometrics using external perturbation and machine learning

Title
Improving discriminant models in chemometrics using external perturbation and machine learning
Other Titles
외부 섭동과 머신러닝을 활용한 케모메트릭스에서의 판별 모델 개선
Author
송우석
Alternative Author(s)
Woosuk Sohng
Advisor(s)
정회일
Issue Date
2023. 8
Publisher
한양대학교
Degree
Doctor
Abstract
본 학위 논문에서는 분광분석 데이터를 활용하는 케모메트릭스 분야에서 외부 섭동(external perturbation)과 머신러닝 기법을 활용하여 분석 모델 성능을 향상시키는 연구에 대해 기술하였다. 제 I장에서는 외부 섭동을 시료에 적용하는 방법을 이용하여 일반적 분석 방법 대비 새로운 판별 모델의 정확도가 이전보다 개선되도록 하였고, 외부 섭동의 종류로는 온도와 전압 두 가지가 사용되었다. 제 II장에서는 외부 섭동을 활용한 측정 방법을 이용 할 수 없는 상태에서 활용할 수 있는 방법으로, 데이터 처리 단계에서 가중치부여 트윈서포트벡터머신과 오토인코더와 같은 머신러닝 알고리즘을 활용하는 방법을 제안하였다. 제안한 방법을 적용해 볼 수 있는 적합한 연구 주제를 선정하여 실험을 진행하였고, 각 장 별로 제시된 방법이 분석 모델의 성능 향상에 도움을 주는지 평가하고 및 향상된 원인에 대한 고찰을 서술하였다. 제 I.1장에서는 온도 조절에 의한 스펙트럼 변화를 감지하기 위하여 2차원 상관분석(2D correlation analysis)을 결합하는 전략을 제안하였다. 근적외선 분광 분석을 이용하여 순수 올리브 오일의 진위성을 판별을 하는 실험을 통해 평가되었다. 평가를 위해, 9개의 순수 올리브 오일과 순수 올리브 오일에 카놀라, 대두, 옥수수 오일이 첨가된 90개의 혼합 올리브 오일 (타 종류의 오일 5% 첨가)이 준비되었다. 총 99개의 시료에 대한 근적외선 스펙트럼이 네 가지 다른 온도 (20, 27, 34, 41℃)에서 얻어졌다. 각 온도로부터 측정된 적외선 스펙트럼 데이터를 활용하여 주성분분석을 수행하였고, 얻어진 순수 올리브 오일과 혼합 올리브 오일의 주성분 점수는 네 가지 경우에서 모두 상당히 겹쳐 있었다. 온도가 변동하는(20 ~ 41℃) 스펙트럼을 사용하여 2D correlation analysis을 수행하고, 이 결과로 얻은 동기 맵에서의 스펙트럼이 주성분 분석에 사용되었을 때, 두 그룹의 구분이 눈에 띄게 향상되었다. 시료의 동적인 온도에 의한 스펙트럼 변화는 2D correlation analysis에 의해 효과적으로 특징이 추출되었고, 이는 최종적으로 더 많은 정보를 제공하고 정확도를 향상시키는데 도움을 주었다. 또한 두 가지 온도 (20, 41℃)에서 측정된 데이터를 활용하는 이원이차 상관분석(2T2D correlation analysis)을 활용하여 마찬가지로 주성분분석을 수행하였다. 2T2D correlation analysis 은 시료의 두 스펙트럼 사이의 비동기적인 스펙트럼 정보를 민감하게 포착하여 비동기적 상관 특징을 추출할 수 있어, 원래의 스펙트럼보다 더 향상된 판별 결과를 나타내었다. 외부 섭동의 한 가지 종류로서 전압이 적용된 표면증강라만의 소변 측정 방식을 통해 췌장암 질병을 구분하는 방법이 제 I.2장에 제시되었다. 높은 분석 민감도를 갖는 표면증강라만 분석이 성분 선택성을 향상시킬 수 있는 전압 적용 방법과 결합되어 종합적인 시료 구별력이 향상되었다. 전기화학적 표면증강라만 분석을 수행하기 위하여, 은 나노와이어 구조가 적층된 스크린인쇄전극에 0에서 -0.7V까지의 전압을 다르게 가하여 측정된 라만 스펙트럼을 얻었다. 전압이 적용되지 않은 라만 스펙트럼만을 이용하여 건강한 그룹과 췌장암 그룹을 구별하는 것은 어려웠지만, -0.7V의 전압이 가해진 시료의 스펙트럼을 주성분 분석에 사용되었을 때 확연한 구분이 가능하였다. 이소프로필알코올 용액에 서스펜드된 은 나노와이어를 스크린인쇄전극 기판에 떨어뜨려 말렸을 때, 은 표면에서는 산화 반응이 발생하여 은 산화물로 치환되었다. 측정 단계 중 시료에 -0.7V의 전위를 적용하였을 때 은 산화물이 자체적으로 환원되어 수산화 이온을 생성하는 것으로 추정되었다. 그런 다음, 소변 대사물 중 특정 분자들이 수산화 이온에 의해 탈양성자화되어 은 표면에 대한 친화력이 향상되었다. 특정 탈양성자화된 대사물들의 표면증강라만 신호가 민감하게 증폭되었고, 이는 건강한 그룹에 대한 췌장암의 스펙트럼 차이를 발생시켰다. 다음 주성분 분석 결과로 얻어진 첫 번째와 두 번째 주성분 점수는 건강 그룹과 췌장암 그룹 사이의 명확한 구분을 가능하도록 하였다. 제 II.1장은 가중치부여 트윈서포트벡터머신(wTWSVM)이 판별 분석 결과를 향상시킬 수 있는 방법으로 제안되었고, 유용성을 평가하기위한 연구로는 12가지 농산물에 대한 근적외선 분광분석의 원산지 판별 모델이 선정되었다. wTWSVM에서는 각 시료 스펙트럼의 변수에 가중치가 적용되어 세부적인 근적외선 스펙트럼 특징을 강조하고, 판별 오류를 최소화하는 최적의 가중치를 반복적으로 검색하였다. 그런 다음, 가중치가 부여된 스펙트럼에 대해 비평행 초평면을 이용하는 TWSVM을 사용하여 시료의 원산지를 판별하였다. 성능 평가를 위해, SVM, TWSVM, wTWSVM의 판별 정확도를 비교하였다. SVM과 wTWSVM의 정확도를 비교하였을 때, wTWSVM의 모델 정확도는 12가지 농산물에 대하여 유의하게 향상되었다. TWSVM-wTWSVM 정확도 비교의 경우, 10개 제품에 대해 wTWSVM의 모델 정확도가 유의하게 높았으므로, wTWSVM의 우수한 판별 성능을 입증하였다. 마지막 제 II.2장의 내용은 오토인코더(Autoencoder)의 특징 추출 기법으로서의 유용성이 검토되었으며, 근적외선 분광분석 기반의 판별 분석에 대해 8개의 농산물 원산지 판별을 사례 연구로 수행하였다. 근적외선 스펙트럼의 특징은 상당히 중첩된 개별 신호로 인해 성분 구분이 어렵다는 것으로, 스펙트럼에서 시료의 특징을 추출할 수 있는 Autoencoder를 사용하였을 때 판별 정확도를 향상시킬 수 있었다. 특징 추출 기법의 성능 비교를 하기 위하여 스펙트럼 데이터, 주성분 점수, 지역적 선형 임베딩(LLE)으로부터 추출된 변수, Autoencoder로 추출된 특징 변수, 총 네 가지를 원산지 판별 모델인 서포트벡터머신의 입력값으로 사용되었다. Autoencoder로 추출된 특징을 입력했을 때 8개의 모든 농산물에서 판별 정확도가 향상되었다. 특히 시료의 스펙트럼의 분산이 크고 특징이 불분명할 경우에 대해 판별 모델이 크게 개선되는 경향을 보였다. 이는 Autoencoder가 복잡한 구성을 가진 시료의 분광분석 데이터에 대한 추출 기법으로서 가능성을 보여주었다.|This thesis describes research aimed at improving the performance of analytical models in the field of chemometrics, utilizing spectroscopic data, external perturbations, and machine learning techniques. In Part I, a novel discrimination model was developed that improved accuracy compared to traditional analysis methods by applying external perturbations to samples. Two types of external perturbations were used: temperature and voltage. Part II proposed the use of machine learning algorithms such as weighted Twin Support Vector Machine (wTWSVM) and Autoencoder as a method that can be used when external perturbation measurement methods cannot be utilized, applying at the data processing stage. Suitable research subjects were selected to apply the proposed methods and experiments were conducted. The effectiveness of the methods presented in each Part on improving the performance of the analysis model was evaluated, and the causes of the improvements were discussed. In Part I.1, a strategy combining spectroscopy and two-dimensional (2D) correlation analysis was proposed to detect spectral changes induced by temperature control. This was evaluated through an experiment for authentication of pure olive oil using near-infrared spectroscopy. Rather than using static spectral information at a certain temperature, dynamic spectral features induced by external perturbation such as temperature changes were advantageous for distinguishing samples. Therefore, 2D correlation analysis, which is useful for characterizing changes in the spectrum, was chosen. For evaluation, nine pure olive oils and ninety olive oils adulterated with canola, soybean, and corn oil (rate: 5%) were prepared. Near-infrared spectra for a total of 99 samples were obtained at four different temperatures (20, 27, 34, 41℃). Principal Component Analysis (PCA) was performed using the spectral data measured from each temperature, and the principal component scores of pure olive oil and adulterated olive oil overlapped significantly in all four cases. When performing 2D correlation analysis using spectra with varying temperatures (20 ~ 41℃), and when the spectra from the synchronous map obtained as a result were used in PCA, the distinction between pure olive oil and adulterated olive oil groups noticeably improved. The dynamic spectral changes of the sample due to temperature were effectively characterized by 2D correlation analysis, which ultimately provided more information and helped improve accuracy. Moreover, a PCA was also carried out using two-temperature two-dimensional (2T2D) correlation analysis, utilizing data measured at two temperatures (20, 41℃). The 2T2D correlation analysis sensitively captures asynchronous spectral information between the two spectra of the sample and can extract asynchronous correlation features, showing improved discrimination results compared to the original spectrum. Part I.2 presents a method to distinguish pancreatic cancer through the measurement of urine using surface-enhanced Raman spectroscopy (SERS), with voltage applied as one type of external perturbation. The SERS, which has high analytical sensitivity, was combined with a voltage application method to improve component selectivity, thereby enhancing the overall sample discrimination. To perform electrochemical SERS (EC-SERS), Raman spectrum was obtained by varying the voltage from 0 to -0.7V on a screen-printed electrode (SPE) where silver nanowire structures were stacked. Although it was challenging to distinguish between the healthy group and the pancreatic cancer group using only the Raman spectrum without applied voltage, a clear distinction was possible when the spectrum of the sample with -0.7V applied voltage was used in principal component analysis. When silver nanowires suspended in isopropanol solution were dropped and dried on a SPE substrate, an oxidation reaction occurred on the silver surface, substituting it with silver oxide. It was hypothesized that when a potential of -0.7V was applied to the sample during the measurement stage, the silver oxide self-reduced, generating hydroxide ions. Then, specific molecules in urine metabolites were deprotonated by the hydroxide ions, enhancing their affinity to the silver surface. The SERS signals of certain deprotonated metabolites were sensitively amplified, causing spectral differences between the pancreatic cancer and healthy groups. The first and second principal component scores obtained from the following principal component analysis made a clear distinction between the healthy group and the pancreatic cancer group possible. Part II.1 proposed the weighted Twin Support Vector Machine (wTWSVM) as a method to improve the results of discriminant analysis, with a model to distinguish the origin of 12 kinds of agricultural products using near-infrared spectroscopy selected for the study to evaluate its usefulness. In wTWSVM, weights are applied to the variables of each sample spectrum to highlight the detailed features of the near-infrared spectrum, and the optimal weights that minimize discriminant errors are repeatedly searched for. Then, the origin of the agricultural products was determined using TWSVM with non-parallel hyperplanes on the spectrum with the applied weights. For performance evaluation, the discriminant accuracy of SVM, TWSVM, and wTWSVM were compared. When comparing the accuracy of SVM and wTWSVM, the classification accuracy of wTWSVM significantly improved for all 12 agricultural products. In the case of the TWSVM-wTWSVM comparison, the model accuracy of wTWSVM was significantly higher for 10 products, thus proving the superior discriminant performance of wTWSVM. The final section II.2 examined the usefulness of Autoencoder as a feature extraction technique, conducting a case study on origin determination of 8 agricultural products based on discriminant analysis using near-infrared spectroscopy. Given that the features of the near-infrared spectrum are difficult to distinguish due to significantly overlapping individual signals, the discriminant accuracy could be improved when an Autoencoder, which can extract informatic features from the spectrum, was utilized. To evaluate the performance of feature extraction techniques, original spectrum data, principal component scores, variables extracted from Local Linear Embedding (LLE), and feature variables extracted by Autoencoder, a total of four, were used as input values for the discrimination model, support vector machine. When features extracted by Autoencoder were inputted, the discriminant accuracy improved for all 8 agricultural products. Particularly, the discrimination model showed a tendency to be greatly improved for cases where the dispersion of the sample's spectrum was large and the spectral features were indistinct. This demonstrated the potential of Autoencoder as an extraction method for spectroscopic data of samples with complex configurations.
URI
http://hanyang.dcollection.net/common/orgView/200000683343https://repository.hanyang.ac.kr/handle/20.500.11754/187125
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > CHEMISTRY(화학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE