Varför Hadoop är en perfekt match för genomsekvensering

Innehåll

Genomics nutid och framtid
Genom kartläggningsindustrins behov
Vad förväntas i lösningen?
Varför Hadoop är den bästa lösningen för genomsekvensering
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Vad annat kan Hadoop göra?
Möjligheter för Hadoop
Crossbow: plattformen för nästa generations datahantering
Annan Hadoop-baserad Genomics-programvara
Slutsats

Källa: A3701027 / Dreamstime.com

Hämtmat:

Genom sekvensering behöver kraftfulla teknikverktyg för att hantera alla dess data, och Hadoop är upp till uppgiften.

Klinisk genomik är ett fascinerande ämne där människor arbetar med den senaste tekniken för att bearbeta snabba och exakta resultat. Det finns många genomsekvenser tillgängliga på marknaden, och de producerar petabytes av sekvensdata, och tillväxten i sekvensering kommer att producera exabyter med data inom en snar framtid. Här är Hadoop den perfekta plattformen för att bearbeta komplext genomiskt arbetsflöde. Hadoop kan lagra och sortera enorma mängder information och kan också göra en meningsfull analys. (För att få en uppfattning om hur mycket data det här verkligen innebär, läs Förstå bitar, bitar och deras multiplar.)

Genomics nutid och framtid

Idag har genomkartläggningen nått sin topp för utveckling. Många personer som är associerade med genomikindustrin spricker av nyfikenhet, och när nya möjligheter presenterar sig är bättre teknik timmens behov. Genomsekvensering är en mycket repetitiv och resurskrävande uppgift. Enbart under 2013 producerades cirka 15 petabyt data och endast av 2 000 sequencers. Denna käkeuttagande mängd inkluderade 300 KB sekvensbestämda mänskliga genomdata. Med denna hastighet av dataproduktion kan det uppskattas att år 2018 kommer cirka en exabyte av data att produceras. Detta beror på tillväxten av sequencers, som kommer att producera mer och mer data per körning. En annan anledning är tillkomsten av extremt kraftfulla och billiga genomföljningsmaskiner. Sedan 2008 har priset på dessa maskiner sjunkit stadigt. Detta beror på kraftfulla nästa generations maskiner som har kommit in på marknaden.

Genom kartläggningsindustrins behov

Komplexa algoritmer används för att bearbeta data som samlas in från det mänskliga genomet. Därefter måste denna information lagras. Det kan granskas i framtiden för jämförelse med originaldata. Uppgiften att bearbeta och lagra 100 GB data är inte så svårt, speciellt när du gör det med de kraftfulla maskiner som används vid sekvenseringscentra. Studier visar att denna mängd data kan behandlas på ungefär 1 000 CPU-timmar, så det är mycket enkelt. Med denna takt av teknisk utveckling framgår det att genomindustrin snart kommer att behandla tusentals gigabyte på bara några sekunder.

Datahantering och lagringstekniker utvecklas emellertid inte så snabbt, varför en stor förlust av värdefull data kan förväntas. Detta är verkligen oönskat, eftersom det allvarligt kommer att hindra framstegen inom mänsklig genomik. Så behovet av en effektiv datahanteringsteknik, som lätt kan uppdateras, är mycket stort. Detta kan vara effektivt särskilt inom en snar framtid, där genombildning av genom kommer att flytta från stora laboratorier med kraftfulla datorer till små sjukhus och laboratorier.

Vad förväntas i lösningen?

Den hastighet där nya genomiska sekvenseringstekniker upptäcks och utvecklas är extremt hög. Denna takt kan vara mycket fördelaktigt för medicinsk vetenskap i form av ett kraftfullt steg mot att utrota stora sjukdomar. Men denna takt kan också vara mycket utmanande.

Utmaningen kommer i form av att hantera de stora mängder data som produceras av sekvenseringsprojekten. Så det krävs en effektiv lösning som hjälper till med lagring och bearbetning av big data. Denna lösning måste vara billig och snabb, samtidigt som den är anpassningsbar. Analysen från denna lösning måste också vara exakt och konstant. Så vad är lösningen på problemet? Utan tvekan är det Hadoop. (För mer information om användning av Hadoop, se 5 Insikter om Big Data (Hadoop) som en tjänst.)

Varför Hadoop är den bästa lösningen för genomsekvensering

Vad genomicsindustrin behöver är en överlägsen lösning som kan hjälpa dem att effektivt hantera data, bearbeta dem och lagra dem för framtida användning. Denna lösning verkar vara en perfekt matchning med Hadoop-programvaran. Så Hadoop kan betraktas som den perfekta programvaran för stordatahantering som kan förbättra den nuvarande datalagringstekniken inom genomikindustrin.

Hadops realtidsfunktioner gör det möjligt för genomsekvenser att analysera och lagra stora mängder data samtidigt i realtid. Detta möjliggör också datorns framtida användning. Hadoop kan slå många gamla system, eftersom det är mycket snabbare och mer pålitligt än dem.

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Vad annat kan Hadoop göra?

På grund av Hadoop har ett stort antal möjligheter och möjligheter öppnats inom området genomik och gensekvensering. Hadoop erbjuder parallella datoralternativ på grund av vilken snabbare sekvensering är möjlig. Med hjälp av MapReduce-funktionen i Hadoop kan också ett stort antal gener kartläggas mycket enkelt. På grund av detta blir sekvensering med Hadoop verkligen "nästa gen" och kommer att vara mycket mindre komplicerad.

Möjligheter för Hadoop

Hadoop har flera möjligheter inom genomindustrin, men den bästa härleddes från Lynda Chins artikel "Gör känsla för cancergenomisk data" i tidskriften Genes & Development. I denna artikel diskuterar hon hur modern genomik har öppnat nya dörrar, och detta har lett till många positiva resultat som upptäckten av genomisk information om cancer. På grund av detta är vi närmare att upptäcka botemedel mot cancer själv. Detta behöver dock lite mer uppmärksamhet och en kraftfull datahanteringsapplikation för bättre forskningskapacitet på området. Detta kan vara den bästa möjligheten för Hadoop att bevisa dess hastighet, kraft och noggrannhet.

Crossbow: plattformen för nästa generations datahantering

Crossbow, som är en mjukvarapipeline som är avsedd för analys av genom-sekvensering av genom, är en av de bästa lösningarna. Det var resultatet av integrationen inom Hadoop mellan en snabb algoritm för att anpassa sekvensbestämda data, som kallas Bowtie, och en kraftfull algoritm som jämför och undersöker sekvensbestämda data, dvs en genotyper med namnet SoapSNP. Det är byggt på Apache Hadoop och baseras på en implementering av MapReduce-ramverket. Crossbow är bärbar, skalbar och är också lämplig som ett cloud computing-verktyg.

Med denna kraftfulla integration kan ett komplett genom undersökas på bara en dag på ett lokalt kluster med 10 noder. Med ett kluster med 40 noder är processen ännu snabbare och avslutas på bara tre timmar med en total kostnad på mindre än 100 $! En studie genomförd för att testa noggrannheten hos Crossbow visade att den kan jämföra varje genom med 99 procents noggrannhet. En annan användbar funktion hos Crossbow är att den körs på molnet. Således kommer Crossbow att göra det möjligt för tusentals framtida sekvenseringscentra, som sjukhus, att ordna stora mängder genomdata utan behov av kraftfulla, kostsamma datorer och teknik.

Annan Hadoop-baserad Genomics-programvara

Många företag har erkänt kraften hos Hadoop när det gäller att förändra genomikvärlden. De har ändrat Hadoop på lämpligt sätt för att utnyttja potentialen för avancerad genomsekvensering. Några exempel på berömda Hadoop-baserade genomsekvenslösningar ges nedan:

Hadoop-BAM: Detta är ett kraftfullt datahanteringsverktyg som använder funktionen MapReduce för Hadoop för olika aktiviteter relaterade till genomik, som genotypning. Detta fungerar i formatet Binary Alignment / Map.
Cloudburst: Denna Hadoop-baserade lösning skapades 2009. Den är extremt effektiv i jämförelse av genomsekvenser och kartläggning av enskilda gener. Detta är också en av de första Hadoop-baserade applikationerna designade för detta ändamål.

Slutsats

Integrationen mellan big data och genomicsindustrin visar sig vara en välsignelse i modern tid. Dessa plattformar är effektiva i upptäckten av behandlingar av flera sjukdomar som cancer. Uppgifterna som hittas genom genomkartning kan användas för formulering av förebyggande information om sådana sjukdomar. Tillkomsten av big data kan betraktas som en vändpunkt i genomikvärlden, och om informationen används på ett klokt sätt, eventuellt även inom det bredare området för sjukvård. Det enda sättet för detta fält att gå vidare är användningen av korrekt datahanteringsverktyg som Hadoop.