
희귀질환을 겪는 환자와 가족들이 가장 힘들어하는 지점은 치료보다 먼저, “도대체 병의 이름이 무엇인지조차 모르는 상태가 오래 이어진다”는 점입니다. 유전자 분석 기술이 크게 발전했지만, 여전히 희귀질환 환자 2명 중 1명은 평생 명확한 진단을 받지 못한 채 여러 병원을 전전하는 경우가 많습니다. 수만 개에 이르는 유전 변이 중 실제로 질병을 일으키는 “진짜 범인”을 찾아내기가 그만큼 어렵기 때문입니다.
이런 상황에서 하버드 의과대학과 바르셀로나 게놈 규제 센터 연구진이 새롭게 발표한 인공지능 모델 ‘popEVE(팝이브)’는 희귀질환 진단의 판을 바꿀 수 있는 기술로 주목받고 있습니다. 이 모델은 수십억 년에 걸친 진화 정보와 전 세계 인구 유전 데이터를 함께 학습해, 인간 유전체 안에서 어떤 변이가 치명적인지, 어떤 변이는 비교적 무해한지를 정교하게 가려냅니다. 그 결과, 심각한 발달 장애를 가진 어린이 31,000건 이상의 사례 가운데 98%에서 가장 유해한 유전 변이를 정확히 짚어냈다는 결과가 나왔습니다.
이 글에서는 “AI, 수십억 년 진화를 학습하다… 희귀질환 진단 정확도 98%의 비밀”이라는 주제를 중심으로, popEVE가 어떤 방식으로 진화 정보를 활용하는지, 왜 희귀질환 진단에서 높은 정확도를 보여주는지, 조상·인종 편향을 어떻게 줄였는지, 그리고 앞으로 실제 의료 현장과 환자에게 어떤 변화를 가져올지까지 차근차근 살펴보겠습니다.
1. 진화를 학습하는 AI란 무엇인가: popEVE의 핵심 원리
1-1. 수십억 년 ‘진화 데이터’를 통째로 학습하는 AI
먼저 “AI가 수십억 년 진화를 학습한다”는 말이 무엇을 의미하는지부터 정리해보겠습니다. 우리의 유전자는 우연히 만들어진 것이 아니라, 오랜 진화 과정 속에서 살아남은 결과물입니다. 수백, 수천 종의 동물, 심지어 수십만 종에 이르는 생명체의 유전자를 비교해 보면, 어떤 아미노산 위치는 거의 변하지 않고 유지되는 반면, 어떤 위치는 여러 종에서 다양한 형태로 바뀌어도 생존에 큰 영향을 미치지 않는다는 것을 알 수 있습니다. 변하면 생존이 어려운 부분은 그만큼 “생명 유지에 필수적인 영역”이고, 자유롭게 바뀌는 부분은 “변화에 관대한 영역”이라고 볼 수 있습니다.
popEVE는 바로 이 지점을 이용합니다. 연구진은 수백, 수천이 아니라 수백만·수천만 개에 가까운 생물 종의 유전 정보를 모아, 인간 단백질 약 20,000개 각각의 어떤 부분이 진화적으로 보존되어 있는지, 어떤 부분은 변해도 괜찮았는지를 통계적으로 학습시켰습니다. 그리고 이 데이터에 UK Biobank, gnomAD와 같은 대규모 인구 유전 데이터베이스를 결합해, 실제 건강한 사람들 안에서 어떤 변이들이 자연스럽게 존재하는지도 함께 반영했습니다. 이렇게 진화와 인구 데이터를 결합해 만든 것이 바로 이번에 발표된 진화 정보 기반 AI 모델 popEVE입니다.
1-2. 미스센스 변이, 작은 차이에서 시작되는 심각한 질병
popEVE가 집중하는 대상은 특히 “미스센스 변이(missense variant)”입니다. 미스센스 변이란 DNA 서열의 단 한 글자가 바뀌면서 단백질을 구성하는 아미노산 하나가 다른 아미노산으로 치환되는 변이를 말합니다. 얼핏 보면 아주 작은 변화처럼 보이지만, 이 한 번의 치환이 단백질의 구조를 크게 비틀어 버리거나, 효소의 활성 부위를 망가뜨려 심각한 희귀 유전 질환으로 이어지는 경우가 적지 않습니다.
문제는 이런 미스센스 변이가 한 사람의 유전체 안에만 수천 개씩 존재한다는 점입니다. 의사가 희귀질환 환자의 유전체를 분석하면 “이론상”은 수천 개의 후보 변이 중 진짜 원인을 찾아야 하는 상황에 놓입니다. 기존 알고리즘들도 이 변이들을 위험도에 따라 점수화해 주지만, 유전자마다 기준이 달라 점수를 그대로 비교하기 어렵고, 아직 관찰된 적 없는 새로운 변이에 대해서는 신뢰도가 떨어지는 문제가 있었습니다.
1-3. 단백질 전체를 한 번에 보는 ‘생성 모델’ 접근
popEVE는 여기서 한 단계 더 나아가 “단백질 전체를 한꺼번에 이해하는 딥러닝 생성 모델” 접근을 택했습니다. 연구진은 각 단백질에 대해 다양한 종에서 관찰된 아미노산 조합을 학습시켜, “이 단백질이 정상적으로 존재하기 위한 가장 자연스러운 아미노산 패턴”을 확률적으로 모델링했습니다. 그리고 나서 특정 변이가 들어갔을 때 그 단백질의 패턴이 얼마나 “어색해지는지”를 점수로 계산합니다. 이 점수가 높을수록, 즉 자연에서 거의 보이지 않는 조합일수록 질병을 일으킬 가능성이 크다고 판단하는 구조입니다.
이렇게 진화 정보와 인구 데이터를 함께 반영한 덕분에, popEVE는 이전 세대 모델들보다 더 일관된 기준으로 변이의 위험도를 평가할 수 있게 되었습니다. 이 덕분에 “AI, 수십억 년 진화를 학습하다”라는 표현이 과장이 아니라, 실제로 진화의 발자국 전체를 데이터로 삼아 희귀질환 진단에 활용하는 셈이라고 이해하셔도 무방합니다.
2. 31,000가족 데이터, 98% 정확도: popEVE가 바꾸는 희귀질환 진단
2-1. 31,000건 발달장애 사례에서 검증된 성능
그렇다면 “희귀질환 진단 정확도 98%”라는 숫자는 어떤 의미일까요? 연구진은 심각한 발달 장애를 가진 아이들이 포함된 31,000가족의 유전체 데이터를 이용해 popEVE를 검증했습니다. 특히 이들 중에서도, 기존에는 알려진 병원성 변이나 이미 보고된 원인 유전자가 없던 “완전히 새로운 변이”에 집중했습니다.
그 결과는 인상적입니다. 아이의 유전체 안에 존재하는 수많은 변이 가운데 popEVE가 “가장 해로울 것”이라고 점수를 매긴 변이가, 실제 임상의와 연구자가 판단한 질병 원인 변이와 일치한 비율이 약 98%에 달했습니다. 즉, popEVE는 “이 아이에게 가장 큰 문제를 일으키고 있을 만한 후보 1순위 변이”를 상당히 높은 확률로 정확하게 짚어낸 것입니다. 이는 DeepMind의 AlphaMissense를 포함한 기존 경쟁 모델보다 우수한 성능으로 보고되었습니다.
2-2. 123개의 새로운 질병 유전자 발견
popEVE의 진짜 가치는 단지 기존 질병 유전자를 더 잘 찾아내는 데 그치지 않습니다. 연구진은 popEVE를 활용해 기존에 질병과 연관성이 알려지지 않았던 123개의 새로운 후보 유전자를 찾아냈습니다. 이 유전자들은 주로 뇌 발달과 관련된 기능을 가지고 있거나, 이미 알려진 질병 유전자와 물리적으로 상호작용하는 단백질로 나타났습니다. 그중 상당수는 단 한두 명의 환자에서만 관찰된 매우 희귀한 변이였습니다.
이러한 결과는 popEVE가 “희귀질환의 원인을 처음부터 끝까지 추적해내는 탐지견”에 가깝다는 점을 보여줍니다. 진단되지 못한 채 남아 있던 수많은 발달장애와 희귀질환 사례에 대해, 이제는 보다 명확한 유전적 실마리를 제공할 수 있게 된 것입니다. “AI, 수십억 년 진화를 학습하다… 희귀질환 진단 정확도 98%의 비밀”이라는 제목 속 숫자 98%는 단순히 모델의 점수 이상의 의미를 갖습니다. 이는 오랜 시간 진단을 기다려온 실제 아이와 가족에게 “병의 이름을 붙여 줄 수 있는 확률”이 높아졌다는 것을 뜻합니다.
2-3. 부모 DNA 없이도 가능한 진단, 자원 제한 국가의 게임체인저
현재 희귀질환 진단에서 가장 이상적인 방법으로 꼽히는 것은 트리오 시퀀싱(trio sequencing)입니다. 이는 환자本人뿐 아니라 부모 양쪽의 DNA까지 함께 분석해 어떤 변이가 “새로 생긴 것(신새 변이)”인지, 어떤 변이는 부모에게서 그대로 물려받은 것인지 비교하는 방식입니다. 다만 이 방식은 비용도 크고, 부모가 모두 내원하기 어려운 상황(한부모 가정, 해외 근무, 사망 등)에서는 적용 자체가 쉽지 않습니다.
popEVE의 강점은 “아이의 유전체 정보만 가지고도 상당한 수준의 진단이 가능하다”는 점입니다. 진화와 인구 데이터를 토대로 각 변이의 위험도를 계산하기 때문에, 부모 DNA 없이도 “이 변이가 아이에게 치명적인 영향을 줄 가능성이 크다”는 판단을 내릴 수 있는 것입니다. 연구진은 실제로 자원이 제한된 국가의 환자들에게 popEVE를 적용해 진단과 치료 전략을 세운 사례도 보고했습니다. 이는 희귀질환 진단의 장벽을 낮추고, 국가·소득 수준에 따른 진단 격차를 줄이는 데 중요한 의미를 갖습니다.
3. 조상 편향을 줄이는 AI: 누구에게나 공정한 희귀질환 진단
3-1. 기존 유전 데이터베이스의 치명적인 한계, ‘유럽 편향’
그동안 유전학·유전체 연구에서 지적되어 온 큰 문제 중 하나는 데이터의 조상(ancestry) 편향입니다. 현재 구축된 대규모 유전 데이터베이스는 대부분 유럽계 인구 비중이 압도적으로 높고, 아시아·아프리카·라틴계는 상대적으로 크게 부족합니다. 이 말은 곧, 기존 알고리즘이 “위험하다/안전하다”를 판단하는 기준이 사실상 유럽계 사람들을 기준으로 만들어졌다는 뜻이기도 합니다.
이런 상황에서, 비유럽계 환자를 대상으로 유전 진단을 진행하면 동일한 변이임에도 불리한 평가를 받거나, 반대로 충분히 주의해야 할 변이가 “안전하다”고 잘못 분류될 위험이 있습니다. 이른바 “AI가 기존의 인종·조상 불평등을 그대로 복제하거나, 심지어 강화할 수 있다”는 우려가 제기된 이유입니다.
3-2. popEVE가 조상 편향을 줄이는 방식
popEVE가 눈에 띄는 부분은 바로 이 조상 편향 문제를 완화하려는 시도에 있습니다. 연구진은 popEVE가 특정 인구 집단에서 자주 관찰되는 변이와 드물게 관찰되는 변이를 인위적으로 차별하지 않도록 설계했습니다. 즉, 유럽 집단에서 수천 번 관찰된 변이든, 다른 집단에서 단 한 번 보고된 변이든, “인간에게서 관찰된 모든 변이를 동등하게 취급”하도록 모델을 구성한 것입니다.
여기에 더해, 수십만 종에 이르는 생명체의 진화 데이터를 사용함으로써 “인간 내부의 비교”만이 아니라 “생명 전체의 스펙트럼 속에서 이 변이가 자연스러운지, 부자연스러운지”를 함께 평가할 수 있게 했습니다. 이 덕분에 popEVE는 특정 조상 집단에 편향된 패턴보다는, 보다 보편적인 생물학적 제약을 기반으로 변이의 위험도를 추정할 수 있습니다.
연구를 이끈 과학자들은 “전 세계 데이터베이스에서 자신의 커뮤니티가 충분히 대표되지 않는다는 이유만으로, 누구도 두려운 결과를 받아서는 안 된다”고 강조합니다. “AI, 수십억 년 진화를 학습하다… 희귀질환 진단 정확도 98%의 비밀”이라는 문맥에서, 이 98%라는 숫자는 단지 정확도만이 아니라 “누가 검사를 받더라도 공평하게 높은 정확도를 누릴 수 있어야 한다”는 가치와도 연결되어 있습니다.
3-3. 실제 환자에게 어떤 차이를 만들어낼까
조상 편향을 줄였다는 이야기는 다소抽象적으로 느껴질 수 있습니다. 하지만 희귀질환 환자 입장에서 보면, 이는 “진단의 기회가 공평해진다”는 뜻입니다. 예를 들어 아프리카, 아시아, 남미 등에서 태어난 아이가 지금까지의 유럽 중심 데이터베이스에서는 애매하게 분류되던 변이를 가지고 있었다고 가정해 보겠습니다. 예전에는 “정보 부족”이라는 이유로 진단이 지연되거나, 모호한 판정을 받았을 가능성이 높았습니다.
그러나 popEVE는 전 세계 다양한 조상 배경과 수십억 년 진화 기록을 함께 반영하기 때문에, 해당 변이가 실제로 단백질 기능에 치명적인 영향을 줄 가능성이 큰지, 혹은 비교적 안전한 변이인지에 대해 보다 명확한 근거를 제시할 수 있습니다. 이는 희귀질환 환자의 출신 국가나 인종과 상관없이 비슷한 수준의 진단 품질을 제공할 수 있는 기반이 됩니다.
4. 맺음말: 진화 기반 AI가 여는 희귀질환 진단의 다음 단계
4-1. 진단 오디세이의 시간을 줄여 줄 수 있을까
희귀질환 환자와 가족들은 진단을 받기까지 평균 수년 이상의 시간을 보내곤 합니다. 여러 전문의를 전전하면서 수차례 검사를 반복하고, 유전자 검사 결과를 들고도 “확실한 원인을 모르겠다”는 말을 듣는 일도 흔합니다. popEVE와 같은 진화 기반 AI 모델이 의료 현장에 본격적으로 도입된다면, 이른바 “진단 오디세이(diagnostic odyssey)”로 불리는 긴 여정을 상당 부분 단축시킬 수 있을 것으로 기대됩니다.
특히 “AI, 수십억 년 진화를 학습하다… 희귀질환 진단 정확도 98%의 비밀”이라는 제목에서 보듯이, popEVE는 한 번의 유전체 분석만으로도 의사가 가장 먼저 살펴봐야 할 변이의 우선순위를 제시할 수 있습니다. 이는 곧 진단 과정의 효율화, 더 나아가 환자와 가족이 치료와 돌봄에 더 많은 시간을 쓸 수 있게 해 주는 기반이 됩니다.
4-2. AI가 모든 것을 해결해 주는 것은 아니다: 남아 있는 과제들
물론 popEVE가 임상의의 판단을 대체하는 것은 아닙니다. 연구진 역시 이 AI 모델이 해석하는 범위는 “미스센스 변이”에 국한돼 있고, 스플라이싱 변이, 구조 변이, 복잡한 조합 효과 등 다른 유형의 유전 변이까지 모두 포괄하는 것은 아니라는 점을 분명히 합니다. 또한 유전 정보만으로 설명되지 않는 환경적 요인, 후성유전학적 변화 등은 여전히 의사와 연구자가 함께 고민해야 할 영역입니다.
더불어, 유전체 데이터를 대규모로 수집하고 분석하는 과정에서 개인정보 보호와 윤리, 데이터 사용 동의 문제도 꾸준히 다뤄져야 합니다. 희귀질환 진단에 도움이 된다는 이유만으로 환자의 유전 정보가 과도하게 공유되거나, 보험·고용 등 다른 영역에서 불이익으로 돌아오는 일이 있어서는 안 됩니다. AI 기술의 발전과 동시에, 이를 둘러싼 제도·윤리 논의가 병행되어야 하는 이유입니다.
4-3. 환자, 의료진, 연구자에게 주는 현실적인 시사점
그럼 이 기술은 실제로 우리에게 어떤 의미를 줄 수 있을까요? 환자와 보호자 입장에서는, “AI가 진화 정보를 학습해 희귀질환 진단 정확도를 크게 끌어올리고 있다”는 사실만으로도 “언젠가 내 아이의 병에도 이름이 붙을 수 있다”는 희망을 가질 수 있습니다. 의사 입장에서는, 수천 개 후보 변이 중 어디부터 집중해서 봐야 할지에 대한 기준이 생기기 때문에, 진단과 상담 과정에서 더 큰 자신감을 가질 수 있는 도구가 됩니다.
연구자에게는 popEVE가 새로운 질병 유전자를 발굴하고, 치료 타깃을 찾는 데 중요한 출발점이 됩니다. 123개의 새로운 질병 연관 유전자가 발굴되었다는 것은, 앞으로 이 유전자들을 중심으로 기능 연구, 약물 개발, 맞춤 치료 전략이 이어질 수 있다는 뜻이기도 합니다. AI가 단순히 데이터를 분류하는 수준을 넘어, 질병의 생물학적 이해를 넓히는 도구로 활용되는 흐름입니다.
4-4. 앞으로의 전망: “진화 기반 AI + 임상의 경험”의 결합
결국 희귀질환 진단의 미래는 “진화 기반 AI 모델과 임상의의 경험, 그리고 환자의 이야기가 결합되는 방향”으로 흘러갈 가능성이 큽니다. AI는 수십억 년에 걸친 진화 기록과 수십만 명의 유전체 데이터를 바탕으로 가장 위험도가 높은 변이를 빠르게 찾아내고, 의사는 환자의 증상, 가족력, 생활환경 등을 종합해 최종 진단과 치료 방침을 결정하는 구조입니다.
지금 이 순간에도 전 세계 연구실에서는 popEVE와 같은 진화 정보 기반 AI 모델들이 계속해서 고도화되고 있습니다. “AI, 수십억 년 진화를 학습하다… 희귀질환 진단 정확도 98%의 비밀”이라는 문장은, 단지 한 모델의 성과를 넘어 “진화라는 거대한 시간의 데이터가 이제 실제 환자의 진단과 치료에 직접 활용되는 시대”가 열렸다는 선언에 가깝습니다. 희귀질환 진단을 기다려온 수많은 환자와 가족에게, 이 변화가 실제 삶의 질 개선으로 이어지기를 기대해 봅니다.