컨텐츠 바로가기 영역
주메뉴로 바로가기
본문으로 바로가기

지식in

  • 출처정해영/한국생명공학연구원 국가생명연구자원정보센터(KOBIC)
  • 조회수 8959
  • 등록일2013-05-30
  • 첨부파일

NGS를 이용한 미생물 유전체 해독 연구 동향 : 완성 수준의 해독을 향하여

 Bioin스페셜 WebZine 2013년 34호 : [유전체연구동향]
 
NGS를 이용한 미생물 유전체 해독 연구 동향 : 완성 수준의 해독을 향하여
 
 
 
정해영 한국생명공학연구원
국가생명연구자원정보센터(KOBIC) 책임연구원

1. 서론
 
  차세대 유전체 염기서열 해독기술(Next-Generation Sequencing, NGS)은 기존의 Sanger 방식에 의한 유전체 정보 분석을 대체하는 수준을 넘어서 exome 분석, 전사체 분석과 epigenetics 연구 등 종래의 염기서열 해독 기법으로는 다루기 어려웠던 영역으로 그 응용의 폭을 넓혀가고 있다. 이에 맞추어 새로운 체계의 대용량 데이터에 적합한 자료의 처리와 고도 분석을 위한 응용 프로그램의 개발도 활발히 이어지고 있다. NGS에 의해 미생물 유전체 분야의 연구 파라다임도 크게 바뀌어 가고 있는데(MacLean 등, 2009), 종래의 방법으로는 기대하기 어려운 속도로 대량 생산된 신규 유전체를 정보가 증가하면서 연구의 폭을 크게 확대한 바람직한 측면이 있는 반면 충분히 검증되거나 재가공되지 않은 유전체 정보의 양산이라는 우려를 낳고 있는 것도 부정할 수 없는 현실이다. 본고에서는 NGS 시대를 맞는 미생물 유전체 해독 연구 분야의 현황을 알아보고, 특히 3세대 유전체 염기서열 해독 기법의 등장 이후로 급속히 발달하고 있는 유전체 정보 완성(ing) 기술의 현황에 대해 논하고자 한다.

2. 본론
  
 가. 미생물 유전체 연구의 중요성
 
  인간 유전체 프로젝트(HGP, 1990~2003)1)가 성공적으로 완수되면서 인류는 궁극의 관심사인 인간 자신에 대한 유전체 청사진 정보를 확보하게 되었고, HGP 이후의 시대를 일컫는 post-genome 시대에 본격적으로 접어들게 되면서 이제 모든 유전자의 카탈로그가 확보되었으니 이에 대한 기능 연구를 확충함으로써 질병의 정복과 신약 개발 등 인간 유전체 연구 성과의 결실로서 보다 건강한 사회로 진입하는 초석이 마련될 것을 기대하게 되었다. 그러나 현실은 이와는 다른 양상으로 새롭게 바뀌어 가고 있다. 지구상의 60억 인구에 대해 하나의 참조 서열을 확보한 것만으로는 각 개인에게 어떻게 질병이 발생하고 약물에 대한 반응이 다른지를 설명할 수 없었다. 즉 참조 서열과 비교하여 각 개인의 유전체 서열이 어떤 차이를 보이는지가 문제 해결의 열쇠를 쥐고 있다는 것을 인식하게 되었고, 때맞추어 등장한 NGS 기술로 인해 유전체 해독 비용이 획기적으로 감소하면서 유전체 해독 연구와 관련 시장(장비, 분석 기술 및 IT 인프라)은 새로운 기회를 맞고 있다.

  미생물 유전체 해독 연구 역시 NGS의 등장으로 큰 전환기를 접하고 있다. 1995년 인류 역사 최초로 생명체의 유전체 서열(폐렴균 Haemophilus influenzae)을 완전히 해독한 이래(Fleischmann 등, 1995) 지금까지 약 4천 건이 넘는 생명체의 유전체 정보가 완전히 해독되어 공개되었으며2), 완성되지 않은 draft 상태이거나 비공개인 것을 포함하면 이것의 수 배 이상이 될 것으로 추정된다. 이제는 미생물 한 종 내에서도 복수의 균주(strain)에 대한 유전체 정보를 쉽게 접할 수 있는 시대가 되었다. 이와 같이 미생물 유전체 연구가 여전히 확장 일로에 있다는 것은 다른 고등 생명체에 비해 유전체 크기가 작아서 비교적 연구가 용이하다는 이유도 있지만, 미생물이 갖는 생태·환경·산업·학술적 가치가 워낙 크기 때문이다(Ahmed 2009). 미생물은 실험실 수준의 유전자 재조합 기초연구에서부터 대규모의 생명공학 기술에까지 폭넓게 적용되는 연구 대상으로서 신기능 biocatalyst의 발굴과 활용에 필수적인 유전자원이다. 특히 병원성 미생물에 대해 효과적으로 대처하고 치료제 타겟을 발굴하기 위해 유전체 수준의 연구가 필수적이며, 각각의 고유한 서식지에서 환경에 맞게 변화해 온 진화의 경로를 연구하기 위하여서도 유전체의 해독 연구가 필요하다. 지구상에 존재하는 미생물 중에서 제대로 분리되어 동정된 것이 전체의 1%가 채 되지 않는다는 사실에 비추어 볼 때 미생물은 새로운 유전자의 매력적인 연구 대상인 것이다.

1) http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
2) 2013년 5월 17일 기준으로 완성본 4342건.
http://www.genomesonline.org/ 참조.
 
 나. 유전체 해독 연구의 개요
 
  유전체 해독 연구는 좁은 의미로 이야기하자면 genome sequencing, 즉 대용량 염기서열 결정 기법을 이용하여 연구대상 생명체의 유전체의 염기서열을 염색체 수준으로 재구성하는 것을 의미한다. 넓은 의미로는 완성된 유전체 염기서열로부터 유전자 정보를 추출하고, 이로부터 유전자 산물의 기능 정보를 부가하는 유전체 주석화(genome annotation) 작업까지도 포함할 수 있다.

  유전체 해독은 그 목적에 따라 연구 대상 생명체 혹은 근연종의 유전체에 대한 활용 없이 염기서열을 해독해 나가는 de novo sequencing과, 참조 서열(reference genome sequence)에 대한 연구 대상 유전체의 차이점을 밝히려는 resequencing으로 나누어 볼 수 있다. De novo sequencing에서는 서열 단편(read) 간의 관계를 찾아내어 보다 긴 단위의 contig 혹은 scaffold를 재구성하는 fragment assembly가 가장 핵심적인 과정이 된다. Resequencing의 경우에는 유전체 해독 대상과 상당히 가까운 생명체의 유전체 정보가 이미 확보되어 있어야 한다. 일반적으로 참조 서열 위에 대상 유전체 유래의 서열 단편을 매핑하는 것이 resequencing의 기본 단계가 되므로, 원핵 미생물의 경우라면 사용 가능한 참조 서열이 최소한 동일 종 내에서 구할 수 있어야 한다. 원래 resequencing에서는 NGS 유래의 짧은 read를 참조 서열 위에 매핑한 뒤 SNP나 InDel 형태의 variant를 호출하는 것이 일반적이지만, de novo assembly에서 얻어지는 결과물과 유사한 형태의 consensus 서열을 추출하기도 하므로 최근에는 reference 또는 mapping assembly라고 부르기도 한다.

  NGS에서 생산된 read는 기본적으로 Sanger read보다 길이가 짧고 정확도가 떨어지며 그 양이 방대하기 때문에, resequencing 이외의 목적에는 적합하지 않다는 것이 일반적인 인식이었다. 그러나 de Brujin 그래프 이론이 short read를 이용한 de novo assembly에 적용되면서(Compeau 등, 2011) Velvet(Zerbino & Birney, 2008), AbySS(Simpson 등, 2009), SOAPdenovo(Li 등, 2010),  AllPaths-LG(Gnerre 등, 2011), CLC Assembly Cell3) 등 다양한 특성을 갖춘 assembler가 등장하게 되었다. 
 
 다. Genome assembler의 성능 비교
 
  현재 공급되고 있는 여러 NGS 장비들의 특성을 벤치마킹한 결과가  논문에서 다루어지고 있듯이(Liu 등, 2012; Loman 등, 2012a; Loman 등 2012b; Quail 등, 2012) short read 용 genome assembler들의 결과를 서로 비교하면서 성능을 개선해 나가려는 노력은 Assemblathon4), de Novo Genome Assessment Project(dnGASP)5), Genome Assembly Gold-standard Evaluation(GAGE)6) 등의 활동으로 나타나고 있다. GAGE의 결과에서는 2종류의 세균을 비롯한 4종 생물종으로부터 일루미나 방식의 NGS data를 생산한 뒤 다양한 de novo assembler를 실행하여 종합적으로 비교한 결과 AllPaths-LG가 전반적으로 가장 우수함을 보였다(Salzberg 등, 2012).

 
 
<그림 1> N50 contig(A) 및 scaffold(B) 길이에 대한 rate.
자료 출처는 Salzberg 등, 2012.

   
 라. 유전체 초안(draft)과 완성본
 
  De novo assembly의 결과인 유전체 초안(draft)은 기본적으로 contig 혹은 gap을 포함하는 scaffold로 주어진다. NGS의 등장에 의해 유전체 초안 작성에 드는 비용은 기존 방식과 비교하면 약 1천분의 1 수준으로 줄어들었다. 그러나 초안을 마무리()하여 염색체 수준으로 재구성하는 과정에서는 대부분 PCR 혹은 개별 클론(plasmid, cosmid, fosmid 또는 BAC)을 이용한 template의 생성 및 Sanger chemistry과 같은 수작업에 의존해야 하고, 대상 영역의 선별(low quality/depth), 반복 서열에서 기인한 assembly 오류의 검출 및 수정 등 근본적으로 병렬화나 자동화가 불가능한 작업이 포함되기에 여전히 수 개월에서 1년 이상의 시간이 소요되고 있다. 즉, 예전보다 월등히 적은 비용으로도 일개 랩 단위의 연구실에서 일 년에 수십 종의 미생물에 대한 유전체 초안을 작성하는 것은 얼마든지 가능하지만, 이를 자체적으로 ing하여 완벽한 원형의 유전체 서열을 확보하는 것은 단 한 종도 기대하기 어려운 것이 현실이다.

  많은 시간과 비용이 소요되지만 ing을 거친 완성본 유전체 서열을 만들어 내는 것이 좋은가, 혹은 완성되지 않은 초안이라 해도 되도록 많은 종류의 유전체 정보를 해독하여 빨리 학계에 공개하는 것이 바람직한가? 이에 대해서는 이미 십여 년 전에 학술지 상에서 공개적인 논란이 있었다(Fraser 등, 2002; Branscomb & Predki, 2002). 초안의 유용성을 주장하는 쪽에서는 비록 완성도가 떨어진다 하여도 대부분의 유전자 정보가 확보된다는 입장을 견지하고 있다.

  최근 수년간 NCBI 등에 미생물의 유전체 초안 정보가 현저히 많이 등재되고 있는 것은 NGS의 대중화도 큰 몫을 차지하고 있다. 그동안 접근할 수 없었던 많은 미생물의 유전체 정보가 NGS에 의해서 밝혀져 학계에 공개되는 것은 분명 바람직한 일이다. 그러나 NGS에 의해 양산되는 draft는 다음과 같은 두 가지의 문제를 내포하고 있다. 첫째, 이들은 앞으로도 전혀 개선되지 않은 채 permanent draft 상태로 남아있을 가능성이 매우 크다는 것이고, 둘째로는 short read로부터 만들어져 검증을 거치지 않은 assembly의 정확도는 우려할 정도로 낮을 수 있다는 것이다.

  Alkan 등은 short read만으로 구성된 genome assembly의 정확성을 검증하기 위해 SOAP package로 만들어진 두 건의 인간 유전체 assembly를 실험적으로 검증된 유전체 특성들과 비교한 결과, de novo assembly는 참조 서열에 비해 16.2%나 짧았으며 420.2 Mb의 common repeat과 99.1%의 확인된 duplication이 누락된 것을 발견하였다(Alkan 등, 2011). 이는 결과적으로 2,377개의 coding exon을 전혀 발견하지 못하는 오류를 초래하는 것이다. 이러한 서열 조립의 오류는 반복 서열에 의해 일어난다는 사실이 이미 잘 알려져 있다. 진핵 미생물은 고등 생명체의 유전체에 비교할 바는 아니지만 1-6 bp 단위가 반복되는 microsatellite나 transposon, insertion sequence, rRNA operon, rhs element 등 de novo assembly의 오류를 유발할 수 있는 반복 서열이 존재하고 있다.
 
또 다른 보고에서는 Sanger 방법으로 유전체 염기서열이 완전히 결정된 미생물 4종을 선정하여 시뮬레이션에 의해 short read를 생산하여 Velvet과 ABySS로 de novo assembly를 수행한 뒤 이를 원본 유전체 데이터와 비교해 보았다(Ricker 등, 2012). 그 결과 반복 서열에서 유래한 contig는 현저한 overcollapsing을 보였으며, 긴 contig 서열은 반복 서열 혹은 mobile element를 경계로 끊어지는 형태를 보였다. 또한 작은 transposable element를 흔히 포함하고 있는 genomic island에서 fragmentation의 정도가 매우 높은 것으로 나타났다. 이상의 결과를 종합해 보면 유전체의 크기나 복잡성에 따라 차이가 있겠지만 NGS data에 전적으로 의존하는 de novo assembly에 오류가 있음을 분명히 인식하는 것이 중요함을 시사한다.
 
 마. NGS data를 이용한 automatic gap closing
 
  위에서도 언급했듯이 기존의 방식으로 ing(주로 gap filling)을 진행하는 데에는 많은 시간과 노력이 수반되므로, 이 과정을 최대한 자동화하기 위한 소프트웨어들이 개발되고 있다. 가장 대표적인 전략으로는 reference 서열에 contig를 정렬하여 순서와 방향을 결정함으로써 scaffold 정보를 만들고, 정렬 상태를 시각화하며, 예측된 scaffold로부터 gap 영역을 증폭할 수 있는 프라이머 세트를 설계해 주는 것이다(Galardni 등, 2011). 그러나 이는 엄밀히 말하자면 수작업에 의한 ing을 도와주는 것에 불과할 뿐 직접적으로 서열 데이터를 이용하여 gap을 채워주는 도구는 아니다. 최근에는 assembly에 사용한 short read를 다시 이용하여 소프트웨어적인 방법으로 gap을 제거하려는 노력이 시도되고 있다. 다시 말하자면 NGS read로 작성한 contig의 말단 부위에 위치할 수 있는 paired end read를 찾아내어 연결함으로써 기존의 contig를 확장하거나 더 바람직하게는 gap을 채우는 것이 가능하다. 현재 공개되어 있는 short read 기반 gap 제거 소프트웨어로는 SOAPdenovo package의 GapCloser, IMAGE(Tsai 등, 2010), 및 GapFiller(Boetzer & Pirvano, 2012) 등이 있다. 이들 프로그램은 local assembly를 위해 de Brujin 그래프를 활용하는데(그림 2), gap size 정보를 고려하는 것은 GapFiller가 유일하다.
 
 
<그림 2> IMAGE 작업 과정(그림 출처: Tsai 등, 2010).
 
 바. Pacific Bioscience RS 데이터를 이용한 ing 수준의 미생물 genome assembly
 
  Pacific Biosciences(이하 PacBio)7) RS system은 단일 DNA 분자에서 일어나는 DNA polymerase의 중합 반응을 실시간으로 모니터하여 염기서열 정보를 읽어내는 장비이다. 이와 같이 단일 DNA 분자로부터 염기서열 정보를 직접 확인하는 기술을 NGS와 구별하기 위해 제3세대 염기서열 해독 기술이라 부르기도 한다. PacBio RS의 SMTRTM 기술에서는 PCR에 의한 증폭 없이 DNA 분자를 직접 활용하기 때문에 바이어스가 유발되지 않으며, 약 20 kb에 육박하는 매우 긴 read가 생성된다는 것이 특징이다. 염기서열 생산량의 측면에서는 아직 개선의 여지가 있지만 긴 read를 활용하면 contig들을 매우 효율적으로 연결할 수 있으므로, 유전체의 ing에 이를 활용하려는 시도가 이어져 왔다(English 등, 2012; Zhang 등, 2012).

7) http://www.pacificbiosciences.com/ 

  PacBio 유래의 long read는 정확도가 약 85% 수준으로서 그대로 de novo assembly에는 사용하기 곤란한 수준이다. 따라서 Illumina의 데이터를 혼합하여 PacBio의 long read에 대한 오류를 먼저 수정한 뒤 본격적인 조립에 이용하는 hybrid 전략이 여러 연구 그룹을 통해 발표된바 있다(Bashir 등, 2012; Koren 등, 2012). 일례로써 Ribeiro 등은 AllPaths-LG를 이용하여 미생물의 유전체를 거의 완성 수준으로 조립하는 방법을 제안하였다(Ribeiro 등, 2012). 이 방법에서는 일루미나의 paired end 데이터(short fragment & jumping pairs)와 PacBio의 long read가 전부 필요하다. 각 타입의 데이터는 서로 상보적인 역할을 하는데, 염기의 정확도 측면에서는 일루미나의 데이터가 더 중요하게 쓰이는 한편 PacBio의 데이터는 샘플 준비 단계에서 PCR bias에 의해 손실된 부분의 일루미나 데이터를 보충하는 역할을 한다. 이 연구에서 총 16개의 세균 샘플이 쓰였는데(3개는 완성본 유전체 서열이 존재), 대장균과 S. pneumoniae의 경우 오류가 거의 없는 각 하나씩의 circular contig가 얻어졌다.

  2013년에 이르러서는 PacBio의 자체 데이터만을 이용하여 사실상 ing 수준의 결과를 작성하는 진정한 의미의 non-hybrid 전략이 보고되었다(Chin 등, 2013). HGAP(hierarchical genome-assembly process)라고도 불리는 이 기법에서는 첫 번째 단계로서 longest read들을 일종의‘seed read’로 간주하여 여기에 정렬할 수 있는 다른 짧은 read를 전부 모아서 acyclic graph-based consensus 과정을 통해 정확도가 매우 높은 preassembled read를 만든다. 두 번째 단계에서는 가용한 long-read assembler(Celera Assembler 혹은 MIRA)를 사용하여 유전체 수준의 assembly를 실시하게 된다. HGAP에서는 PacBio 데이터의 오류 정정을 위해 일루미나 데이터와 같이 정확도가 높은 별도의 read를 필요로 하지 않는다. 대장균 K-12 MG1655(4.6 Mb)를 이용한 시험에서는 8개의 SMRT cell에서 생산된 평균 길이 8.5 kb의 read(461 Mb, 141,492 reads)를 사용하여 단 하나의 contig를 얻었는데, reference 대비 99.999% 이상의 정확도를 나타내었다.
 
 
<그림 3> PacBio long read의 길이 분포(A), HGAP과정의 원리(B). 그림 출처: PacBio 홈페이지 및 Chin 등, 2013.
 

3. 결론 및 시사점
 
  완성된 유전체 서열의 과학적 가치는 아무리 강조해도 지나치지 않다. 특히 mobile genetic element나 genomic island 등은 종 내의 유전적 차이에서 가장 크게 기여하는 부분인데, 이러한 영역은 초안 수준의 assembly에서는 정확하게 재구성하는 것이 곤란하다. 따라서 유전체 비교 연구의 수요가 높은 미생물 분야에서는 완성본 유전체 정보를 확보하는 것이 무엇보다도 중요한 관건이 된다. 
 
  이상에서 살펴본 기술을 통해서 아직 초안 상태로 머물러 있는 많은 미생물 유전체의 완성도가 한층 더 향상되어 활용 가치가 높아질 것이고, 3세대 NGS 기술이 더욱 널리 보급되고 이를 활용한 자동 ing이 보편화된다면 공공 데이터베이스 유전체 초안 정보를 등록하기 위해 요구되는 유전체 초안의 최소 충족 요건이 더욱 높아질 수도 있다. 이는 일시적으로 데이터 생산과 분석 비용의 증가를 유발할 수 있으나, 그동안 NGS를 통해 경험한 비용 감소의 효과를 통해 충분히 극복 가능할 것이며, 한층 완성도가 높아진 미생물 유전체 정보를 이용한 새로운 과학적 발견에 더욱 기여하게 될 것이다.
 
참고문헌
 
1. Ahmed N. A flood of microbial genomes-do we need more? PLoS One. 2009 Jun 9;4
   (6):e5831.
2. Alkan C, Sajjadian S, Eichler EE. Limitations of next-generation genome sequence
    assembly. at Methods. 2011 Jan;8(1):61-5.
3. Bashir A, Klammer AA, Robins WP, Chin CS, Webster D, Paxinos E et al. A hybrid approach
    for the automated ing of bacterial genomes. Nat Biotechnol. 2012 Jul 1;30(7):701-7.
4. Boetzer M, Pirovano W. Toward almost closed genomes with GapFiller. Genome Biol. 2012
    Jun 25;13(6):R56.
5. Branscomb E, Predki P. On the High Value of Low Standards. J Bacteriol. 2002 December;
    184(23): 6406–6409.
6. Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C et al. Nonhybrid, ed
    microbial genome assemblies from long-read SMRT sequencing data. Nat Methods. 2013
    May 5. [Epub ahead of print]
7. Compeau PE, Pevzner PA, Tesler G. How to apply de Bruijn graphs to genome assembly.
    Nat Biotechnol. 2011 Nov 8;29(11):987-91.
8. English AC, Richards S, Han Y, Wang M, Vee V, Qu J et al. Mind the gap: upgrading
    genomes with Pacific Biosciences RS long-read sequencing technology. PLoS One.
    2012;7(11):e47768.
9. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR et al. Whole-
    genome random sequencing and assembly of Haemophilus influenzae Rd. Science. 1995
    Jul 28;269(5223):496-512.
10. Fraser CM, Eisen JA, Nelson KE, Paulsen IT, Salzberg SL. The value of complete microbial
     genome sequencing (you get what you pay for). J Bacteriol. 2002 Dec;184(23):6403-5.
11. Galardini M, Biondi EG, Bazzicalupo M, Mengoni A. CONTIGuator: a bacterial genomes
     ing tool for structural insights on draft genomes. Source Code Biol Med. 2011 Jun
     21;6:11.
12. Gnerre S, Maccallum I, Przybylski D, Ribeiro FJ, Burton JN, Walker BJ et al. High-quality
      draft assemblies of mammalian genomes from massively parallel sequence data. Proc
      Natl Acad Sci U S A. 2011 Jan 25;108(4):1513-8.
13. Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G et al. Hybrid
     correction and de novo assembly of single-molecule sequencing reads. Nat Biotechnol.
     2012 Jul 1;30(7):693-700.
14. Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z et al. De novo assembly of human genomes
     with massively parallel short read sequencing. Genome Res. 2010 Feb;20(2):265-72.
15. Liu L, Li Y, Li S, Hu N, He Y, Pong R et al. Comparison of next-generation sequencing
     systems. J Biomed Biotechnol. 2012;2012:251364.
16. Loman NJ, Constantinidou C, Chan JZ, Halachev M, Sergeant M, Penn CW et al. High-
     throughput bacterial genome sequencing: an embarrassment of choice, a world of
     opportunity. Nat Rev Microbiol. 2012 Sep;10(9):599-606.
17. Loman NJ, Misra RV, Dallman TJ, Constantinidou C, Gharbia SE, Wain J et al. Performance
     comparison of benchtop high-throughput sequencing platforms. Nat Biotechnol. 2012
     May;30(5):434-9.
18. MacLean D, Jones JD, Studholme DJ. Application of 'next-generation' sequencing
     technologies to microbial genetics. Nat Rev Microbiol. 2009 Apr;7(4):287-96.
19. Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR et al. A tale of three next
     generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and
     Illumina MiSeq sequencers. BMC Genomics. 2012 Jul 24;13:341
20. Ribeiro FJ, Przybylski D, Yin S, Sharpe T, Gnerre S, Abouelleil A et al. Finished bacterial
     genomes from shotgun sequence data. Genome Res. 2012 Nov;22(11):2270-7.
21. Ricker N, Qian H, Fulthorpe RR. The limitations of draft assemblies for understanding
     prokaryotic adaptation and evolution. Genomics. 2012 Sep;100(3):167-75.
22. Salzberg SL, Phillippy AM, Zimin A, Puiu D, Magoc T, Koren S et al. GAGE: A critical
     evaluation of genome assemblies and assembly algorithms. Genome Res. 2012 Mar;22
     (3):557-67.
23. Simpson JT, Wong K, Jackman SD, Schein JE, Jones SJ, Birol I. ABySS: a parallel
     assembler for short read sequence data. Genome Res. 2009 Jun;19(6):1117-23.
24. Tsai IJ, Otto TD, Berriman M. Improving draft assemblies by iterative mapping and
     assembly of short reads to eliminate gaps. Genome Biol. 2010;11(4):R41.
25. Zhang X, Davenport KW, Gu W, Daligault HE, Munk AC, Tashima H et al. Improving genome
     assemblies by sequencing PCR products with PacBio. Biotechniques. 2012 Jul;53(1):61-2. 26. Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn
     graphs. Genome Res. 2008 May;18(5):821-9.

 
 

목록으로