최신 서열분석 기술인 롱리드 시퀀싱(long read sequencing)을 이용해 인간유전체를 분석하고 이를 새로운 알고리즘으로 연결하는 신생 조합 방법(de novo assembly)을 사용해 현존하는 유전체 정보 중에 가장 완벽한 인간 표준 유전체가 한국인 연구팀에 의해 네이처 최신호(2016. 10. 6. 한국시간)에 발표됐다(논문명: De novo assembly and phasing of a Korean human genome).
서울의대 유전체의학연구소(소장 서정선)와 생명공학기업 마크로젠(대표이사 정현용)은 한국인 유전체를 대상으로 기술적으로 최고 정밀도를 갖춘 아시아인 표준 유전체를 구축했다.
그동안 사용된 인간 표준 유전체 GRCh38(Genome Reference Consortium human build 38)은 주로 백인과 흑인 일부의 유전체를 반영한 것으로 아시아인의 분석에 상당한 문제점을 보였다. 이번에 발표된 아시아인 표준 유전체는 기존 표준 유전체와 비교해서 약 1만8000개의 구간에서 현격한 구조적 차이를 보여주고 있다.
이번 연구에는 퍼시픽 바이오사이언스(Pacific Biosciences), 10x 지노믹스(10x Genomics), 바이오나노 지노믹스(BioNano Genomics) 등 다양한 유전체 분석 기술 전문기업의 기술진들이 참여했다.
현재까지 인간 유전체 분석은 과학적 신뢰도와 호환성을 확보하기 위해 미국 국립보건원 산하의 국립생물정보센터(NCBI, National Center for Biotechnology Information)에서 제공하는 서양인을 중심으로 하는 ‘GRCh38’을 전 세계 공통 표준으로 해 진행돼 왔다. 그러나 이 표준 유전체에는 한국인을 포함한 아시아인이 가지고 있는 특이적인 유전자 정보가 반영되지 않아 질병연구 또는 신약개발 시 이러한 유전적 특이성과 직접적으로 연관된 사항들이 충분히 고려되지 못했다. 따라서 정상적인 한국인이나 아시아인에서 질병 관련 유전자 변이 또는 유전자 기능 변이가 있는 것으로 보고되는 사례가 빈번했다.
서울의대 유전체의학연구소는 이러한 서양인 중심의 표준 유전체의 한계를 극복하기 위해서 아시안 표준 유전체 프로젝트(Asian Reference Genome Project)를 수행해 왔다. 그 첫 번째 연구성과로서 연구소는 2009년 7월 북방계아시아인의 전형으로서 한국인 ‘AK1’의 유전체를 분석하고 그 결과를 네이처지에 발표했다.
7년만인 2016년 10월 연구소는 국제 표준 유전체와 비교하여 분석을 진행하는 기존 방법 대신 롱 리드 시퀀싱(long read sequencing) 등 최신 서열분석 기술들과 신생 조합(de novo assembly) 알고리즘을 사용해 한국인을 대상으로 최고 완성도의 아시아인 표준 유전체를 완성하게 됐다.
네이처지는 전 세계 언론에 배포한 논문 보도자료에서 “이번에 발표된 한국인 표준 유전체는 현존하는 유전체 중에 가장 완벽한(most contiguous) 표준 유전체이며 동시에 인종 특이적인 최초의 표준 유전체이다. 아시아인 표준 유전체로써 미래 정밀의학에 사용할 수 있는 의학용 표준 유전체”라고 소개하고 있다.
이번 연구성과가 이와 같은 찬사를 받을 수 있었던 것은 현재 사용되고 있는 인간 표준 유전체의 한계를 극복하고 인종별 표준 유전체를 구축할 수 있는 한 단계 높은 기술적 토대를 마련했기 때문이다.
현재의 인간 표준 유전체 GRCh38에서는 기술적 한계로 인해 확인이 불가능한 190개의 DNA 영역(DNA region)을 공백 상태로 남겨 두고 있어서 표준 유전체로서의 활용도에 한계가 되고 있는 것으로 지적되고 있다.
서울의대-마크로젠 공동연구팀은 이번 연구를 통해 기존 표준 유전체에 존재하는 총 190개의 공백 중 105개(55%)를 완벽하게 밝히는 데 성공했고, 부분적으로 해결된 72개까지 포함하면 93%의 공백을 밝히는 데 성공했다. 이것은 최초의 표준 유전체가 발표된 2003년 7월부터 2016년 GRCh38까지 지난 14년 동안 기술적으로 해결되지 못하고 공백으로 남아 있던 190개의 지역이 대부분 본 연구팀에 의해서 해결된 것으로 이번 연구의 완성도를 보여주고 있다.
공동연구팀은 또한 770만 개의 염기에 해당하는 1만 개 이상의 전혀 새로운 삽입형(insertion) 구조 변이를 발견해 인종 간의 차이가 상당함을 밝혔다. 그 중 54개의 구조 변이는 유전자 발현이 일어남을 확인했고, 137개의 변이는 단백질 구조를 변화시킨다는 것을 확인했다. 특히 기술적 한계로 인해 표준 유전체에 누락돼 있던 800개의 인류 공통 구조 변이를 새롭게 찾아냄으로써 공동연구팀의 표준 유전체가 기술적으로 한 단계 진일보했음을 증명했다. 더 나아가 연구팀은 POU2F3, HRASLS2 등을 포함한 다수의 새로운 아시아인 특이적인 구조 변이를 밝혀냈다.
이번 연구성과가 주목을 받고 있는 것은 15년 전인 2001년 한국인 유전체 지도 초안 작성을 위해 서울의대 유전체의학연구소와 마크로젠이 공동 구축한 10만 개의 박테리아 인공 염색체(Bacterial Artificial Chromosome) AK1 BAC 클론을 사용하여 불분명한 구조 변이를 검증하고 부모의 유전체를 분리시키는 페이징(phasing)을 가능하게 했기 때문이다. 페이징은 부모로부터 각각 받은 염색체로 구성된 한 사람의 유전체를 보다 정확하게 분석하기 위해서 이를 각각 분리해 분석하는 방법으로 기존 유전체 염기서열 분석 기술로는 이러한 분석이 어려웠다.
공동연구팀은 각기 다른 유전체 분석 플랫폼인 PacBio RS II, HiSeq 등을 통해 확보한 유전체 데이터와 10x 지노믹스에서 제공한 연결성 정보(linked read), 그리고 BAC 클론의 염기서열 정보를 활용하여 유전자 변이들의 염색체 상의 위치를 정확히 확인해 페이징을 구현해 매우 정밀하게 유전형을 파악하는 데 성공했다.
공동연구팀은 독자적으로 수립한 이러한 새로운 접근법을 통해 최대 6500만 염기 이상 떨어져 있는 유전적 변이 간의 관계까지 규명하는 것은 물론 그 정확도 역시 97%까지 끌어올림으로써 이전 연구들보다 탁월한 성과를 달성할 수 있었다.
또한 공동연구팀은 부모로부터 받은 양쪽 염색체의 유전체 정보를 파악하는 것이 가장 어려웠던 구간 중 하나인 장기이식검사에 사용되는 조직적합항원 유전자를 재구성하는 데 성공했다. 이번 연구성과는 장기이식 수술 시 유전체 분석만으로 보다 적합한 이식 대상을 선정할 수 있음을 보여 주고 있다.
공동연구팀은 약물 대사 속도를 결정하는 CYP2D6 유전자의 유형을 정확히 규명하는 데에도 성공했다. 따라서 향후 각 개인의 약물 대사 속도를 정확하게 예측해 약물 과용에 따른 부작용을 최소화할 수 있다.
서울의대 유전체의학연구소 서정선 소장은 “이번 고정밀도 아시아인 표준 유전체의 완성은 아시아 정밀의학 계획을 수행하는 데 필수적인 기반을 확보한 것”이라며 “아시아 국가/민족별 표준 유전체 프로젝트에서 한국이 기술 주도권을 확보함으로써 향후 45억 아시아인을 위한 정밀의료를 선도할 수 있게 되었다는 데에 큰 의미가 있다”고 말했다.
서울의대 유전체의학연구소와 마크로젠은 이번 연구를 통해 확보한 표준 유전체 구축 기술을 ‘지놈아시아 100K 이니셔티브(GenomeAsia 100K Initiative)’의 연구 프로젝트에 핵심기술로 사용할 계획이다. 두 기관이 주도적으로 참여하고 있는 지놈아시아 100K 이니셔티브는 지난 2월 출범해 향후 3년 동안 1200억 원을 투자, 아시아인 10만 명에 대한 유전체 정보 분석 프로젝트를 추진하고 있다. 이 프로젝트는 남아시아 12개 국가와 동북아시아 7개국이 참여해 50~100개 규모의 아시아인 표준 유전체를 구축하고, 미국의 정밀의학 이니셔티브(Precision Medicine Initiative), 영국 지노믹스 잉글랜드(Genomics England)의 100,000 게놈 프로젝트(100,000 Genomes Project) 등과 같은 서양인 중심의 대규모 유전체 분석 프로젝트와 연구성과를 공유하여 정밀의학 실현을 앞당기는 것을 목표로 하고 있다.
이번 연구논문의 공동 교신저자인 마크로젠 바이오인포매틱스연구소 김창훈 소장은 “연간 4만 명의 유전체를 분석할 수 있는 데이터 처리 인프라, 18.1페타바이트에 달하는 유전체 데이터베이스 등 마크로젠이 구축하고 있는 세계 최고 수준의 IT 인프라를 통해 서울의대와 함께 의학용 아시아인 표준 유전체를 성공적으로 구축할 수 있었다”면서 “마크로젠은 지놈아시아 100K 이니셔티브와 같은 국제 컨소시움 참여와 글로벌 정밀의학 센터 네트워크의 지속적 확장으로 정밀의학을 선도해 나갈 것”이라고 말했다.
서울의대 서정선 교수 연구팀은 이번 ‘최고 완성도의 한국인 표준 유전체’ 논문(Nature, 2016. 10)을 포함해 아빠 없는 생쥐(Nature, 2004. 4.), 자이모모나스 미생물 유전체 분석(Nature Biotechnology, 2005. 1.), 한국인 유전체 분석(Nature, 2009. 7.), 초고해상도 아시아인 유전자 복제수 변이지도(Nature Genetics, 2010. 4.), 대규모 RNA 자체 서열 변이 발견(Nature Genetics, 2011. 7.), 프로젝트 그란디오스 만능줄기세포 생성 비밀 규명(Nature a, Nature b, Nature Comm a, Nature Comm b, 2014. 12.) 등 지금까지 유전체 연구 분야에서 네이처와 그 자매지에 총 10편의 논문을 발표하는 성과를 달성했다.