서 론
폐암은 한국에서 시대를 거듭할수록 발병 보고 건수가 꾸준히 증가 하고있고,모든 암 질환 중에 가장 높은 사망률을 특징으로 하고 있다.
[1]. 그래서 폐암을 치료하려면 어떤 약물을 처방할지, 예방하기 위해서 는 어떤 요인들이 있는지 알아내기 위해 폐암에 대한 다각적인 관점의 연구가 끊이지 않고 있다. 그러나 애석하게도, 폐암 환자의 전자의무기 록 데이터(Electronic Medical Record, EMR)는 접근하기 어려울 뿐만 아니라 가공하는 데 시간과 비용이 많이 들며, 데이터가 적재되는 속 도에도 명확하게 한계가 있다. 따라서 이러한 단점을 극복하기 위해 실 제 데이터인 EMR을 대신하는 실제 데이터를 모방한 합성 데이터(synthetic data)를 이용하여 분석 및 예측모형 학습 등에 활용할 수 있을지 다양한 관점에서의 연구 고찰이 필요하다.
실제로 의료 데이터는 환자의 신상, 질병, 보험 정보 등 다양한 민감 정보를 담고 있어 활용이 쉽지 않다. 데이터 3법이 시행됨에 따라 가명 정보를 활용할 수 있는 법적 근거가 마련됐지만, 활용 기관과 사유 등 이 명확하지 않고 다양한 규제가 산재해 있어 현실적인 데이터 활용에 어려움을 겪고 있는 실정이다. 이에 적은 양의 실제 데이터를 바탕으로 연구에 활용할 수 있도록 만든 ‘ 합성 데이터 ’ 가 하나의 대안으로 떠오 르고 있다. 합성 데이터는 실제로 측정된 데이터를 생성하는 모형이 존 재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용해 추정 된 모형에서 새롭게 생성한 모의데이터(simulated data)를 말한다. 개인 의 프라이버시를 보호하면서도 민감한 정보를 분석하고자 하는 연구 자들에게 데이터를 제공할 수 있는 대안적 개인정보 비식별 조치 기법 중 하나이다. 가령, 원본의 Electronic Health Records (EHR) 데이터셋 에서 각 변수들의 공통 분포에 유사한 합성 데이터를 생성하는 AI 모 델을 개발해 합성 데이터를 생성하고 재식별 가능성을 최소화하는 시 도가 진행되고 있으며[2], 미국 George Mason 대학 연구팀은 오픈소스 로 공개된 합성 데이터 생성기 Synthea에서 생성한 메사추세츠 환자 코호트를 대상으로 임상적 중요성이 높은 대장암 검진, 만성 폐쇄성 질환 30일 사망률, 고관절 및 무릎 교체 후 합병증 발생률, 고혈압 관리
등 4가지에 대한 데이터 품질을 측정하여 데이터의 신뢰성이 높은 것 으로 확인되었다[3]. 또한, 스위스 제약회사 Roche는 데이터 익명화 전 문회사 Statice와 함께 오픈소스로 공개된 Harvard Dataverse 데이터셋 을 활용해 임상시험 데이터에서 합성 데이터를 생성하는 연구를 진행 하여 합성 데이터가 데이터 분석에 유용하다는 점이 입증되었다.
본 연구에서는 국내 합성데이터를 활용하여 실제 폐암 환자의 항암 제 세대별 생존분석에 대한 임상적 연구개발 가능성을 확인하고 이를 통해 합성데이터의 유용성을 검증하고자 한다. CONNECT의 DATAFREE-BOX 로부터 암 빅데이터 플랫폼에서 제공하는 암 라이브러리 데이터 활용을 위한 합성 데이터셋을 사용하였다[4]. 구체적인 연구목 적은 다음과 같다.
• 합성 데이터의 생존분석 결과가 기존 임상적 연구 결과와 비슷한 경향을 가지고 있는지 파악한다.
• 합성 데이터의 생성 및 활용 연구 시 고려해야 할 사항이 무엇인지 고찰한다.
고 찰
본 연구는 폐암 환자의 합성 데이터를 활용하여 생존분석을 진행하 였고, 이를 분석한 결과가 실제 임상데이터와 유사한 경향을 가지는지 에 초점을 두고 관찰하고자 하였다. 실제 암 환자의 데이터를 활용하기 위해서는 데이터를 오랜 기간 동안 적재 및 보관하고, 이를 열람하려 면 환자의 안전을 위해 윤리적인 연구 절차가 선행되어야 한다. 이 절 차들은 환자의 정보보호와 안전을 위해 중요하지만, 연구에 있어서 많 은 시간을 할애해야 하는 부수적인 절차이다. 그런데 이런 실제 데이 터와 비슷한 경향성을 가진 합성 데이터를 활용한다면 예측모형 등을
제작할 때 비용적인 문제와 윤리적인 문제를 최소화하면서 복잡한 절 차를 간소화하여 연구에 대한 소요시간과, 금전적 비용을 줄여줄 수 있을 것이다.
합성 데이터의 유효성에 대한 관점으로 보았을 때, 합성 데이터가 실 제 데이터의 경향을 참고하고 만들어졌다고 하더라도 본 데이터셋을 통해 볼 수 있는 분석 결과는 현실적인 데이터 바탕의 분석 결과와 많 은 차이가 있었다. 예를 들어, N descriptor는 그 값에 따라 폐암 환자의 5년 생존율이 다름을 확인할 수 있었다. 실제로 CONNECT에서 제공 되고 있는 합성데이터 분석을 통해 우리는 합성데이터가 아직은 임상 현장의 실제 데이터를 대체할 수는 없다는 것을 재차 확인할 수 있었 다. 기존 임상 데이터를 기반으로 발표된 암 병기 정보 혹은 흡연 여부 에 따른 생존분석 패턴[16,19,20]과 동일한 결과를 도출할 수 없었기 때 문이다. 따라서 좀 더 실제 임상 데이터의 대안이 될 수 있는 다양한 방 법에 대한 고려가 필요할 것이다. 첫째, 합성 데이터와 실제 데이터에 대한 비교 근거를 정량적으로 설명할 수 있는 적절한 모형의 도입이 필 요하다. 예를 들면, Kaplan-Meier curve는 누적생존율의 형태로 표현되 기 때문에 exponential function의 형태로 근사할 수 있다. 그러므로 이 점을 이용하여 실제 데이터와 합성 데이터의 차이를 설명할 수 있을 것이다. Cox proportional hazard model을 이용하여 y= λe −bx 의 꼴로 나 타낼 수 있는데, 합성 데이터를 만들 때 사용한 실제 데이터를 분석하 여 얻은 λ , b, c값과 합성 데이터로 분석한 λ , b, c값의 차이를 비교하면 합성 데이터의 품질을 설명할 수 있을 것이다. 둘째, 데이터 표준화 또 한 함께 고려되어야 할 것이다. 본 데이터셋의 TNM 병기 데이터는 American Joint Committee on Cancer (AJCC)의 staging guideline의 버 전[16,19,21]에 따라 표기를 변환하는 과정이 수반되었으며 이로 인하 여 합성을 통해 얻을 수 있을 정보가 손실될 수 밖에 없었다고 생각된 다. 셋째, 모두가 수용 가능한 임상 임계값을 설정하기 위해서는 임상 전문의들과의 협의 및 합의 기반 절차가 수반되어야 할 것이다[22]. 마 지막으로 사건발생 수나 샘플 수가 어느 정도 확보될 수 있도록 다양 한 시도가 필요할 것이다.
또한, 합성데이터는 그 기초가 되는 원천 데이터의 경향을 모방하여 원천 데이터의 값에 근사하게 제작된다. 따라서 데이터의 변수 간 상관 성 등이 원천 데이터의 성질과 비슷하게 나타날 수 있다[3,23]. 그러므 로 합성 데이터는 그 원천 데이터가 여러 곳에 유래될수록 일반적인 경향성을 내포할 수 있다. 이런 성향으로 인해 합성 데이터의 모체인 원천 데이터의 변수들의 분포 및 상관관계 등 데이터의 경향성에 대해 임상에서의 상황을 대변할 수 있는지 질적으로 면밀한 검토가 이루어 져야 하고, 합성 데이터의 경향이 원천 데이터의 이러한 경향과 얼마나 차이가 나는지 정량적으로 분석할 필요가 있다. 이번 연구에서는 사용 할 수 있었던 데이터셋이 화순전남대학교병원의 합성 폐암 데이터셋 만이 존재하였고, 이것의 원천 데이터는 공개되지 않았기에 본 합성 데 이터셋의 질적인 검토에 있어서 한계점이 있었다. 그래서 본 데이터셋 의 경향성만으로 임상현장에서의 실제 경향성을 대표한다고 하기에 는 무리가 있었다. 이번 연구는 합성 데이터로 임상 실제 데이터의 경 향성을 비슷하게 모방하는지 관찰하는 것에 의의가 있다. 후속 연구에 서는 데이터셋의 유래를 다양하게 하여 준비할 필요가 있다.
더 나아가 본 연구에서의 한계점을 돌파하기 위해 두 가지 개선사항 의 검토가 필요하였다. 첫째, 추가적으로 합성데이터를 활용한 분석 결 과는 통계학적인 관점뿐만 아니라 임상적인 관점에서도 함께 고려하 여 결과를 재해석해야 한다. 이를 뒷받침하는 사례로, 통계적 차이뿐 만 아니라 임상적 중요도라는 개념을 도입하여 다각적으로 결과를 해 석할 수 있음을 보여준 연구들이 존재하였다[24,25]. 이러한 개념을 본 연구에 적용하자면, 95% 신뢰구간의 한계선까지 임상적 의미의 기준 값을 넘어갈 때 비로소 어떤 세대의 항암제보다 좋다고 해석하는 것이 가능해진다. 다만, 임상적 중요도라는 개념은 연구자의 주관성이 반영 되는 것이기 때문에 해당 분야에 대한 이해가 많은 임상전문의들과 논 의하여 설정하여야 한다. 둘째, 특정 하위그룹에서 샘플의 수가 지나치 게 적었다. Cox 회귀 모형은 준모수적인 데이터를 다룰 수 있는 특징이 있지만, 너무 적은 데이터로는 통계적 유의미함과 상관없이 결과를 해 석하기 힘들다고 사료되었다. Cox regression analysis에서 보편적으로 변수당 사건발생 수(events per variable, EPV)는 최소 10건으로 설정하 지만, 사실 EPV의 최소한계는 데이터를 분석함으로써 알아내야 하고, 일반적으로 20건이 넘을 때 회귀계수의 편향을 제거할 수 있다고 하였 다[26]. 따라서 EPV를 고려하여 데이터 수를 확보할 필요가 있다.
결 론
본 연구에서는 폐암 환자의 생존분석 연구를 통해 합성 데이터의 활용 가능성을 고찰하고자 하였다. 합성 데이터를 통해 간소한 절차의 임상 데이터를 확보하고 분석하여 연구할 수 있는 기회의 장이 마련되 었지만 실제 데이터의 대안으로 그 유용성을 평가하기에는 많은 보완 이 필요할 것으로 사료된다. 이와 같은 차이를 지속적으로 연구하여 보완할 수 있는 가이드라인을 개발할 수 있다면 향후 합성 데이터 생 성 및 그 데이터의 유효성 검사의 기준을 마련함에 이바지할 수 있을 것이다. 또한, 이러한 연구 시도들이 궁극적으로는 실제 임상 데이터 활용의 파일럿 연구로의 토대 마련에 기여할 수 있을 것이라 기대한다.
참고 논문: 유제형,이승희,김종엽,손지웅,구관우,and 이수현. "합성 데이터를 활용한 폐암 환자의 생존분석 가능성 검정." 보건정보통계학회지 47.4 (2022): 279-289.
'질병' 카테고리의 다른 글
보통 건선의 한방치료 효과 (0) | 2023.09.30 |
---|---|
폐암 정복을 위한 전방위적 반격이 이루어지고 있습니다. (1) | 2023.09.04 |
대한민국 국민의 3대 사망원인과 10대 사망원인은 무엇일까요? (0) | 2023.09.01 |