201 0

Analysis of characteristics of long-term smartphone keystroke dynamics as a digital phenotype for healthcare

Title
Analysis of characteristics of long-term smartphone keystroke dynamics as a digital phenotype for healthcare
Author
임석빈
Alternative Author(s)
Seokbeen Lim
Advisor(s)
장동표
Issue Date
2023. 8
Publisher
한양대학교
Degree
Doctor
Abstract
스마트폰의 보급으로 인해 모바일 헬스케어 영역에서 디지털 표현형 개념이 대두되었다. 이 개념은 개인의 건강 상태를 나타내는 새로운 행동 패턴을 의미한다. 디지털 표현형은 전통적인 디지털 헬스케어 기술이 갖고 있는 지속적인 사용자 참여의 필요성 및 데이터의 희소성 과 같은 제한 사항을 개선하였다. 디지털 표현형 데이터의 높은 시간 분해능은 풍부한 데이터를 획득이 가능하도록 하며 사용자의 의식적인 개입 없이 수동적이고 지속적으로 수집이 되어 장기간 모니터링을 용이하게 한다. 스마트폰은 다양한 센서를 내장하고 있고 원격 모니터링 기능이 가능하여 디지털 표현형 데이터를 측정할 수 있는 기본 장치이다. 스마트폰에서 수집되는 다양한 디지털 표현형 데이터 중 하나인 키스트로크 다이나믹스는 사용자가 스마트폰과 상호 작용 중에 생성되며 주의력, 기억력, 반응 시간, 미세 운동 기능, 인지 기능, 그리고 감정 상태와 관련이 있다. 다양한 사전 연구에서 파킨슨병, 양극성 장애, 다발성 경화증 질환과 같은 특정 환자 그룹과 정상 군 사이에서 모바일 키스트로크 다이나믹스 특성을 비교하였다. 그러나 디지털 헬스케어 분야에서 치료 및 진단을 위한 모바일 키스트로크 다이나믹스와 같은 디지털 표현형 데이터는 대용량 빅 데이터를 필요로 한다. 데이터 공유 및 소유권 문제의 관점에서 이러한 형태의 데이터를 대규모로 수집하는 것은 어려우며 잠재적으로 비용이 많이 소모될 수 있다. 또한 환자군 별로 연구가 진행되어 다른 질환군에 확장이 어려울 수 있다. 건강한 개인으로 구성된 대규모 정상군 빅 데이터 구축은 이러한 문제를 해결하기 위한 방법으로 대안으로 제시될 수 있다. 이러한 접근 방식은 대규모 정상군 빅데이터를 통해 정상인들의 데이터 특성을 이해하고 이를 기반으로 다양한 환자 그룹에 적용할 수 있으므로 잠재적으로 비용 절감이 가능한 장점이 있다. 키스트로크 다이나믹스 데이터의 경우, 건강한 개인의 빅데이터는 정상군으로부터 관찰된 키 입력 특성 분포를 반영할 수 있으며 결과적으로 정상군 키스트로크 특성 분포 내에서 환자군 키스트로크 특성의 분포의 차이를 파악할 수 있게 된다. 그 과정에서 환자군을 분류할 수 있는 정량적 지표를 도출할 수 있을 것으로 기대한다. 따라서, 본 연구에서는 건강한 개인의 키스트로크 다이나믹스 데이터에서 도출할 수 있는 여러 파라미터와 세 가지 분석 관점 (나이, 외로움 수준, 정신 스트레스 모니터링) 간의 연관성을 조사하는 것을 목표로 하였다. 이는 키스트로크 다이나믹스 데이터로부터 추출된 다양한 파라미터 들이 일상생활 속에서 건강한 개인의 건강 지표로써 잠재력을 갖고 있는지 확인하기 위함이다. 먼저, 나이와 키스트로크 다이나믹스 특성과의 연관성을 조사하였습니다. 키스트로크 다이나믹스 데이터의 정규화 분포로부터 추출한 값은 나이와 상당한 연관성을 보여주었다. 연속된 키 입력에 관한 특징들의 정규화 된 분포로부터 50번째 백분위수와 최빈값은 나이와 양의 상관관계를 보였다. 반면, 첨도는 음의 상관관계를 나타냈다 (최고 성능 특징: FT B2C 50th percentile, R-squared score: 0.8143). 이는 타이핑 속도가 나이가 증가함에 따라 감소하며 타이핑 속도의 변동성이 나이에 따라 더 커짐을 의미한다. 양적 키스트로크 특성은 타이핑 횟수가 나이와 음의 상관관계가 있음을 보였다 (최고 성능 특징: Total count, R-squared score: 0.2211). 그러나 타이핑 횟수 비율과 나이 사이에는 명확한 상관관계가 없었다 (최고 성능 특징: Enter key ratio, R-squared score: 0.0475). 이는 나이가 들수록 일반적으로 스마트폰 키보드를 덜 사용하는 경향이 있음을 의미한다. 외로움 수준과 키스트로크 다이나믹스 특성 간의 연관성을 분석했을 때, 우리는 하루 주기 또는 주간 주기 내에서 키스트로크 특성을 추출하여 분석하는 방법이 나이와 키스트로크 특성을 분석에 사용했던 방법 (특정 키스트로크 특징 데이터의 정규화 분포로부터 값을 추출)에 비해 더 적합할 수 있음을 확인하였다. 몇 가지 특징을 제외하고 키스트로크 다이나믹스 데이터의 정규화 분포로부터 추출한 값과 외로움 점수 사이에는 명확한 상관관계는 보이지 않았다 (Post CS kurtosis, R-squared score: 0.0838; Caps key count, R-squared score:0.0719). 그러나 하루 주기 내 분석에서 우리는 각 외로움 그룹에 대해 수면 시간 동안 타이핑 횟수가 다르다는 것 (Kruskal Wallis H test, H = 8.53, p < 0.05) 과 외로움이 없는 그룹과 매우 심한 그룹의 주중/주말 타이핑 횟수 비율에서 코사인 유사성이 다르다는 것 (Welch’s t-test, t = 2.27, p < 0.05) 을 확인할 수 있었다. 마지막으로 개인별 스트레스 수준에 따라 참여자 간의 PSS 가 높은 주, 낮은 주를 비교하여 키스트로크 특성의 변화를 조사하였다. 분석 결과 PSS Low 주에서 PSS High 주보다 시간 관련 키스트로크 특성의 전반적인 변동성 (Volatility)이 높았으며 느린 평균 타이핑 속도를 보였다. 또한 이러한 특성을 기계 학습을 통해 분류를 시도하였고 사용자의 정신적 스트레스 수준을 추정할 수 있는 가능성을 확인하였다. 그러나 사용자별 정규화 기법과 고도화된 머신 러닝 기법을 적용하는 추가 연구가 필요하다는 것을 확인할 수 있었다. 본 연구를 통해 세 가지 다른 특성 (나이, 외로움 수준, 정신 스트레스 모니터링)에 따라 모바일 키스트로크 다이나믹스 파라미터를 다양한 방법으로 추출해야 함을 확인할 수 있었다. 각각 특성에 따라 데이터를 분석할 때 사용자별 전체 데이터의 분포에서 파라미터를 추출해야 할 수도 있고, 일별 및 주별 주기 내에서 데이터 패턴의 변화를 반영하는 파라미터를 추출해야 할 수도 있으며, 주별로 변화하는 변동성에 대한 키스트로크 특성 파라미터를 추출해야 할 수 있음을 확인하였다. 이는 일상생활에서 수집된 사용자의 디지털 표현형 데이터와 관련된 건강 지표를 식별하고자 추출된 키스트로크 다이나믹스 파라미터에 대해서 다양한 분석 방법이 적용될 수 있음을 시사하였다. |The prevalence of smartphones has given rise to the concept of a digital phenotype in the realm of mobile healthcare. This refers to novel behavioral patterns indicative of an individual's health state. Digital phenotype has improved several limitations inherent in traditional digital healthcare technologies, such as data scarcity and the challenge of sustained measurement due to the necessity for ongoing user engagement. The high time resolution of digital phenotype data allows for the acquisition of enriched data sets and facilitates long-term monitoring as the data is gathered passively, continuously, and without the need for conscious user intervention. Smartphones are the primary tools for such measurements, given their ubiquity and capacity for remote monitoring of behavioral patterns. Their built-in array of sensors offers the potential to collect various behavioral data. Keystroke dynamics, a form of digital phenotype data gathered from smartphone usage, is generated during user interaction and relates to attention, memory, reaction time, fine motor function, cognitive ability, and emotional states. Various studies have compared mobile keystroke dynamics between specific patient groups and control groups, focusing on conditions such as Parkinson's disease, bipolar disorder, and multiple sclerosis. However, for treatment and diagnosis, digital healthcare data like mobile keystroke dynamics necessitates large data volumes. From the perspective of data sharing and ownership issues, collating this data on a large scale can be challenging and potentially costly. Furthermore, as each patient group is distinct, scalability can be difficult. To address these obstacles, we propose the creation of a large-scale dataset comprising healthy individuals. This approach would allow for the identification of normal keystroke characteristics and their extrapolation to various patient groups, potentially leading to cost reductions. The extensive dataset of healthy individuals would reflect the distribution of keystroke characteristics observed in this group. Consequently, it would be possible to pinpoint the position of patient group keystroke characteristics within this normative distribution, and quantitative indicators that could classify patient groups might be derived in the process. Hence, this study aimed to examine the relationship between parameters derived from healthy individuals’ keystroke data and three principal targets (age, loneliness level, and mental stress monitoring). This was to ascertain if the keystroke parameters correlated to principal targets possess potential as daily life health indicators from healthy individuals. Firstly, we explored the correlation between age and keystroke features. The values derived from the keystroke feature distribution demonstrated a robust association with age. With regard to consecutive keystroke features, the 50th percentile of the normalized distribution displayed a positive correlation with the mode, while kurtosis exhibited a negative correlation (Best performing feature: Flight Time Backspace-Character (FT B2C) 50th percentile, R-squared score: 0.8143). This suggests that typing speed diminishes with age, and the variability of keystroke features intensifies. Quantity-specific keystroke features showed that typing frequency has a negative correlation with age (Best performing feature: Total count, R-squared score: 0.2211). However, there was no evident correlation between typing frequency ratio and age (Best performing feature: Enter key ratio, R-squared score: 0.0475). This implies that as individuals age, they tend to use their smartphone keyboards less frequently in general. When exploring the relationship between levels of loneliness and keystroke features, we found that analyzing the characteristics of keystroke patterns within daily or weekly cycles could be more relevant compared to the method used for age association analysis. There were no significant correlations between loneliness scores and values extracted from the normalized distribution of overall keystroke features for the participants, except for a few features (Post-correction Slowing (Post CS) kurtosis, R-squared score: 0.0838; caps key count, R-squared score: 0.0719). However, within the daily cycle, we noticed different characteristics in the typing counts during sleep time (Kruskal-Wallis H test, H = 8.53, p < 0.05) for each loneliness group and different cosine similarities in the proportions of typing counts on weekdays and weekends between no loneliness and very severe loneliness group (Welch's t-test, t = 2.27, p < 0.05). Lastly, we examined the variations in keystroke characteristics among participants based on their individual perceived stress levels, comparing weeks of PSS (Perceived Stress Scale) High with weeks of PSS Low. The results demonstrated higher overall variability in time-related keystroke characteristics and a slower average typing speed in PSS Low weeks. Furthermore, we found potential for estimating each user's mental stress level through machine learning methodologies that consider these characteristics. However, it became evident that additional research on user-specific normalization techniques and advanced machine-learning methods is necessary. Through this thesis, we discovered that it is necessary to extract parameters from mobile keystroke dynamics characteristics in various ways, depending on the three subjects under consideration. When analyzing data from certain target perspectives, it may be vital to extract parameters from the entire data distribution for each user, or to draw out parameters reflecting shifts in data patterns within daily and weekly cycles. Furthermore, it became apparent that extracting parameters method for the rhythmic volatility that varies week by week is also significant. This suggests that a variety of analytical methods can be employed on the extracted parameters in order to identify health indicators associated with a user's digital phenotype data collected during daily life.
URI
http://hanyang.dcollection.net/common/orgView/200000684198https://repository.hanyang.ac.kr/handle/20.500.11754/187431
Appears in Collections:
GRADUATE SCHOOL OF BIOMEDICAL SCIENCE AND ENGINEERING[S](의생명공학전문대학원) > BIOMEDICAL ENGINEERING(생체의공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE