GraphTyper: A pangenome method for identifyingsequence variants at a population scale

Hannes Eggertsson

Research output: Types of ThesisPh.D. Thesis

Abstract

A fundamental requisite for genetic studies is an accurate determination of sequence variation. While human genome sequence diversity is increasingly well characterized, there is a need for efficient ways to utilize this knowledge in sequence analysis. Here we present GraphTyper, a publicly available novel algorithm and software for genotyping sequence variants. GraphTyper can discover small variants directly from sequence data and is able to encode and accurately genotype all sizes of variants. GraphTyper realigns short-read sequence data to a pangenome, a variation-aware graph structure that encodes sequence variation within a population by representing possible haplotypes as graph paths. Our results show that GraphTyper is fast, highly scalable, and provides sensitive and accurate genotype calls. GraphTyper genotyped 60 million sequence variants in whole-genomes of 49,962 Icelanders, including half a million structural variants, which is to our knowledge the largest such sequence analysis to date. We compare GraphTyper to previous methods and show that it is a valuable tool in characterizing sequence variation in both small and population-scale sequencing studies.
Nauðsynleg krafa fyrir erfðafræðirannsóknir eru áreiðanlegar aðferðir til að finna arfgerðir einstaklinga með raðgreiningargögnum. Miklum upplýsingum um erfðabreytileika hefur nú þegar verið safnað, sem kallar á nýjar aðferðir til að nýta þessar upplýsingar. Hér kynnum við GraphTyper, frjáls og frír hugbúnaður sem finnur erfðabreytileika í raðgreiningargögnum. GraphTyper býr til stærðfræðilegt net sem inniheldur þekkta erfðabreytileika, þar sem að hver leið í netinu skilgreinir mögulegar erfðaraðir. GraphTyper ber saman raðgreiningargögn við netið til að bera kennsl á arfgerð einstaklings. Niðurstöður okkar sýna að GraphTyper skalast vel með fjölda einstaklinga og veitir bæði næm og nákvæm köll á arfgerðum í samanburði við aðra samskonar hugbúnaða. GraphTyper kallaði 60 milljón breytileika í 49,962 Íslendingum, þar á meðal hálfa milljón breytileika sem eru stærri en 50 basapör, og er það stærsta slík köllun sinnar tegundar. Við trúum að GraphTyper sé framför fyrir svið erfðafræðirannsókna og muni nýtast í að tengja erfðafræðiupplýsingar við sjúkdóma og aðrar svipgerðir
Original languageEnglish
QualificationDoctor
Supervisors/Advisors
  • Melsted, Páll, Supervisor
Publisher
Print ISBNs978-9935-9473-2-1
Publication statusPublished - Jun 2019

Other keywords

  • DNA-rannsóknir
  • C++ (forritunarmál)
  • Tölvunarfræði
  • Doktorsritgerðir

Fingerprint

Dive into the research topics of 'GraphTyper: A pangenome method for identifyingsequence variants at a population scale'. Together they form a unique fingerprint.

Cite this