심전도 진단 성능을 향상시키는 기본 비전 변환기
npj Digital Medicine 6권, 기사 번호: 108(2023) 이 기사 인용
측정항목 세부정보
심전도(ECG)는 유비쿼터스 진단 방식입니다. ECG 분석에 적용되는 CNN(컨벌루션 신경망)은 큰 샘플 크기가 필요하며, 생물 의학 문제에 대한 전이 학습 접근 방식은 자연 이미지에 대해 사전 훈련을 수행할 때 최적이 아닌 성능을 초래할 수 있습니다. 우리는 마스크 이미지 모델링을 활용하여 심전도 파형 분석을 위한 비전 기반 변환기 모델인 HeartBEiT를 만들었습니다. 우리는 850만 개의 ECG에 대해 이 모델을 사전 훈련한 다음 다양한 훈련 샘플 크기와 독립적인 검증 데이터 세트를 사용하여 비후성 심근병증, 낮은 좌심실 박출률 및 ST 상승 심근 경색 진단을 위한 성능과 표준 CNN 아키텍처를 비교했습니다. 우리는 HeartBEiT이 다른 모델에 비해 더 낮은 샘플 크기에서 훨씬 더 높은 성능을 갖는다는 것을 발견했습니다. 또한 HeartBEiT은 표준 CNN과 EKG의 생물학적 관련 영역을 강조하여 진단 설명 가능성을 향상시키는 것으로 나타났습니다. 도메인별 사전 훈련된 변환기 모델은 특히 매우 낮은 데이터 체제에서 자연 이미지에 대해 훈련된 모델의 분류 성능을 초과할 수 있습니다. 아키텍처와 사전 학습을 결합하면 모델 예측을 보다 정확하고 세부적으로 설명할 수 있습니다.
심전도(ECG)는 심장 내 전기 활동을 신체 표면 수준에서 기록하는 것입니다. 저렴한 비용, 비침습성 및 심장 질환에 대한 광범위한 적용 가능성으로 인해 ECG는 유비쿼터스 조사이며 미국 내에서만 매년 1억 건 이상의 ECG가 다양한 의료 환경에서 수행됩니다. 그러나 ECG는 의사가 질병을 나타내는 패턴을 일관되게 식별할 수 없기 때문에 범위가 제한됩니다. 특히 확립된 진단 기준이 없는 상태 또는 그러한 패턴이 사람의 해석에 너무 미묘하거나 혼란스러운 경우에는 더욱 그렇습니다.
여러 진단 및 예후 사용 사례2,3,4,5,6를 위해 심전도 데이터에 딥 러닝이 적용되었습니다. 이 작업의 대부분은 CNN(Convolutional Neural Networks)7을 기반으로 구축되었습니다. 다른 신경망과 마찬가지로 CNN은 분산이 높은 구조이며8 과적합을 방지하려면 많은 양의 데이터가 필요합니다9. CNN은 또한 수신 데이터의 차원을 수용할 수 있도록 특수 제작되어야 하며 ECG를 1D 파형 및 2D 이미지로 해석하는 데 사용되었습니다10.
이러한 맥락에서 ECG를 2D 이미지로 해석하는 것은 소규모 데이터 세트에 대한 모델링 작업의 시작점 역할을 하는 널리 사용 가능한 사전 훈련된 모델로 인해 이점을 제공합니다11. 이 기술은 더 크고 관련이 없을 수도 있는 데이터 세트에 대해 훈련된 모델이 문제와 관련된 더 작은 데이터 세트에 대해 미세 조정되는 전이 학습으로 설명됩니다12. 제한된 환자 코호트, 관심 결과의 희소성, 유용한 라벨 생성과 관련된 비용으로 인해 데이터 세트의 크기가 제한되어 있기 때문에 전이 학습은 의료 분야에서 특히 유용합니다. 결과적으로 자연 이미지13에 대해 감독 방식으로 처음 훈련된 비전 모델은 의료 환경에서 사용되는 모델의 기초를 형성하는 경우가 많습니다. 불행하게도 이러한 자연 이미지를 사용한 전이 학습은 보편적인 솔루션이 아니며 사전 훈련 및 미세 조정 데이터 세트에 상당한 차이가 있을 때 차선책 결과를 생성하는 것으로 알려져 있습니다14.
변환기 기반 신경망은 주의 메커니즘15을 활용하여 토큰16이라고 알려진 개별 입력 데이터 단위 간의 관계를 설정하고 정의합니다. 변환기가 허용하는 중요한 이점은 레이블이 지정되지 않은 대규모 데이터 모음에서 비지도 학습을 통해 토큰 간의 관계를 학습한 다음 이 정보를 다른 다운스트림 작업에 활용하는 것입니다16. 구조화되지 않은 텍스트를 토큰으로 쉽게 분해할 수 있기 때문에 변환기는 자연어 처리(NLP) 작업에서 엄청난 성공을 거두었습니다17,18. 최근 연구에서는 이러한 모델의 기능을 비전 기반 작업으로 확장하여 비전 변환기16,19의 출현으로 이어졌습니다.