Een wolk van rekenkracht

CREDIT: NICSKraken / Gedistribueerd onder een CC-BY 2.0-licentie.

Als data-driven discovery de norm wordt, zullen meer wetenschappers moeten upgraden van hun desktopcomputers naar krachtigere, schaalbare computersystemen. Als directeur van onderzoek-fysische wetenschappen aan het eScience-instituut aan de Universiteit van Washington (UW) is het Jeffrey Gardner's taak om onderzoekers met die migratie te helpen.

Gardner is niet alleen een facilitator van computationeel werk, maar ook een computationele astrofysicus. Hij heeft code uitgevoerd die alle 100.000-plus computer processing unit (CPU) cores en 10.000-plus harde schijven van de supercomputer Kraken gebruikte in het National Supercomputing Center aan de Universiteit van Tennessee Knoxville. Hij werkt parttime bij Google, als gastwetenschapper. Voordat hij bij UW kwam, was hij senior wetenschappelijk specialist bij het Pittsburgh Supercomputing Center. Hij kent dus bronnen voor wetenschappelijke berekeningen.

"Zelfs voor vooraanstaande laboratoria is het moeilijk om duizend of meer kernen te beveiligen voor meerdere maanden voor een individueel project in hun eigen instelling." —Kai Kohlhoff
Jeffrey Gardner

Jeffrey Gardner

CREDIT: Alan Freed

CREDIT: Alan Freed Jeffrey Gardner

Het is niet zo dat computerhulpmiddelen moeilijk te verkrijgen zijn; ze zijn verkrijgbaar bij verschillende bronnen. Gardner is, naast zijn andere taken, UWs campusambassadeur voor het Extreme Science and Engineering Discovery Environment (XSEDE) -programma van de National Science Foundation, dat al 25 jaar reken- en opslagplatforms gratis beschikbaar stelt voor academici onderzoekers in de Verenigde Staten met high-performance computing (HPC) -behoeften. "Ik schreeuw nu ongeveer 5 jaar GRATIS COMPUTING TIJD van de daken", schrijft hij per e-mail. "Door een tiental sites in het hele land te financieren, heeft NSF ervoor gezorgd dat elke onderzoeker dezelfde toegang tot de bronnen krijgt, ongeacht waar deze zich bevinden."

Het ministerie van Energie en NASA beschikken ook over krachtige computerfaciliteiten, die beschikbaar zijn voor onderzoekers wier projecten worden gefinancierd door die instanties. En bij de meeste topuniversiteiten en onderzoeksinstituten kunnen wetenschappers toegang krijgen tot krachtige computerclusters op de campus, meestal tegen betaling.

Vandaag is er nog een nieuwe speler op het gebied van schaalbare computing: de cloud. In verafgelegen datacenters kunnen "elastische" clusters van rekencapaciteit op aanvraag worden samengesteld. Dit is mogelijk omdat bedrijven commerciële cloudplatforms - Amazon Web Services, Windows Azure, Google Compute Engine en dergelijke - beschikbaar hebben gemaakt voor wetenschappers. De primaire aantrekkingskracht van deze benadering is de relatief lage kostprijs, mogelijk gemaakt omdat de clusters zijn samengesteld uit basishardware en -software - gemakkelijk beschikbare computercomponenten - zegt Joseph Hellerstein, manager van computational discovery voor wetenschap bij Google.

Maar er zijn nog andere praktische voordelen. Net als de andere computerbronnen waarover wetenschappers beschikken, heeft wetenschappelijke cloud computing een niche.

<p> Joseph Hellerstein </p>

Joseph Hellerstein

CREDIT: Joe Hellerstein / Google

CREDIT: Joseph Hellerstein / Google

Joseph Hellerstein

Ruotti's vlucht

Om de onderzoeksmogelijkheden van commerciële clusters aan wetenschappers die in de academische wereld werken te demonstreren, kondigde Cycle Computing eind 2011 de BigScience Challenge aan, een wedstrijd die op zoek was naar 'de runts, de buitenbeentjes, de gekke ideeën die normaal te groot of te duur zijn om te vragen, maar zou, misschien wel, de mensheid kunnen helpen ', aldus de website van het bedrijf. Jason Stowe, de CEO van het bedrijf, zegt dat het doel van de competitie is om wetenschappers in staat te stellen groot te denken in het formuleren van onderzoeksvragen, niet beperkt door de beschikbaarheid van computationele middelen.

Victor Ruotti, die in 2011 een computerbioloog was aan het Morgridge Institute for Research aan de Universiteit van Wisconsin-Madison, wilde genexpressieprofielen van weefselmonsters onder de loep nemen om de genen te vinden die betrokken zijn bij de differentiatie van menselijke embryonale stamcellen. De resultaten kunnen klinische onderzoekers helpen behandelingen voor bepaalde ziekten te ontdekken. Maar het zou 115 jaar duren om een ​​dergelijk project op een enkele computerkern te voltooien.

De run van Ruotti gebruikte een virtueel cluster van gemiddeld 5000 cores, 8000 piek. Het had toegang tot 78 terabytes aan genomische gegevens en het duurde een week om het te voltooien. Als winnaar van de Big Science Challenge heeft Ruotti niets betaald, maar als hij had betaald wat hij had gedaan, zou deze droomloop bijna $ 20.000 hebben gekost.

Ruotti had gebruik kunnen maken van het computernetwerk van zijn universiteit, bestaande uit bijna 10.000 kernen in het Center for High Throughput Computing. "Maar om dezelfde werklast in een week af te ronden, zou het werk van andere gebruikers volledig moeten zijn gestopt, wat niet praktisch was", zegt Stowe. Cycle Computing heeft een veilig, on-demand cluster bij Amazon Web Services geïmplementeerd, exclusief voor Ruotti, dat de planning, gegevenscodering en technische details orkestreert. De onderzoeker hoefde alleen de software voor genomische gegevensanalyse - en de gegevens - te brengen.

Jason Stowe

Jason Stowe

Met dank aan Cycle Computing

Met dank aan Cycle Computing Jason Stowe

Cycle Computing is niet de enige speler op het toneel. Vorig jaar heeft Google, als onderdeel van zijn Exacycle-project, meer dan 100 miljoen gratis kernuren toegekend aan zes grote wetenschapsprojecten. De planningsinfrastructuur van Exacycle lokaliseert inactieve CPU-cores in Google-datacenters en gebruikt deze om wetenschappelijke code uit te voeren. Gardner is een van de leidende wetenschappers in een van die projecten, het enige niet-life science project onder de gekozen zes.

Een andere Exacycle-gebruiker is Kai Kohlhoff, onderzoekswetenschapper bij Google. Het Exacycle-project van Kohlhoff voert dynamische simulaties uit van een klasse verbindingen die essentieel zijn voor medicamenteuze therapieën. "Simulaties van dergelijke grotere moleculaire systemen worden meestal gedaan op een supercomputer zoals Anton, een gedistribueerd computerproject of een vrijwillige 'cloud' zoals, " zegt hij. Maar: "Zelfs voor toonaangevende laboratoria is het moeilijk om duizend of meer kernen te beveiligen om meerdere maanden te gebruiken voor een individueel project in hun eigen instelling, " zegt hij. Met zouden ze een veel kleinere dataset hebben gegenereerd, waardoor veel minder inzichten mogelijk waren.

Economie versus gebruiksgemak

Cloud computing is meestal niet gratis, waardoor het duurder is dan het gratis XSEDE-programma van NSF. Maar, zegt Gardner, de cloudbenadering geeft onderzoekers dingen die ze waarderen. Om tijd op haar computers te kunnen besteden, heeft NSF een langdurig voorstel nodig, ongeveer 10 pagina's, dat wordt beoordeeld door een panel van experts. Het schrijven van een goed voorstel duurt maanden. "Voor de cloud daarentegen heb je alleen een creditcard nodig en ga je verder", zegt Gardner, die onderzoekers van UW helpt bij het schrijven van voorstellen.

Er kunnen andere redenen zijn om de duurdere optie te kiezen, merkt Gardner op. Hoogwaardige computersystemen kunnen behoorlijk kale botten zijn; commerciële clouds bieden mogelijk betere toplaag-interfaces. Er kunnen onbewerkte mogelijkheden zijn die de onderzoeker nodig heeft en die gemakkelijker te verkrijgen zijn in de cloud, zoals toegang tot een databasesysteem. Bij nationale faciliteiten moeten onderzoekers hun banen in een batchwachtrij plaatsen en wachten tot de middelen beschikbaar zijn; met cloudplatforms kunnen onderzoekers veel sneller resultaten behalen.

Universitaire HPC-centra, zoals Hyak bij UW, zijn ook niet gratis, maar ook cruciale stukjes van de wetenschappelijke rekenpuzzel. "Laten we zeggen dat je een snelle test van 15 minuten wilt uitvoeren om te zien of je van een bug bent afgekomen. Het is zonde om je taak in de wachtrij te plaatsen en bijvoorbeeld 24 uur te wachten voordat deze kan worden uitgevoerd", zegt Gardner. Of misschien heeft een onderzoeker slechts enkele knooppunten op een cluster nodig - niet genoeg om het gebruik van een Kraken of een Anton te rechtvaardigen. In dat geval is het lokale HPC-centrum misschien iets voor u.

Hoewel steeds grotere clusters relatief eenvoudig in de cloud kunnen worden geassembleerd, zijn cloudplatforms slecht geschikt voor sommige wetenschappelijke problemen. De problemen die goed werken in de cloud kunnen worden uitgevoerd met een hoge mate van parallellisme, zonder de noodzaak van snelle communicatie tussen componenten van het cluster, zegt Google Hellerstein. Omdat ze geen snelle verbindingen hebben, zijn clusters niet ideaal voor bijvoorbeeld het simuleren van het menselijk brein, waar neuronen constant met elkaar communiceren. Maar oplossingen kunnen mogelijk zijn, voegt hij eraan toe, dus misschien kunnen ook deze op een dag op clusters worden uitgevoerd.

Gegevens in de cloud

Naarmate gegevensverzameling eenvoudiger wordt, worden vragen over gegevensopslag dringender. Hoewel computergeheugen goedkoop is, maken beveiligings- en archiveringsproblemen de keuze van een opslagmedium belangrijk. Cloudplatforms, hoe vluchtig ze ook lijken, bieden mogelijkheden voor gegevensopslag op de lange termijn. Maar waarom zou u de cloud gebruiken wanneer u de gegevens in uw eigen laboratorium kunt opslaan en hiervan een back-up kunt maken?

Cloudplatforms bieden de belofte van universele, open toegang door andere onderzoekers. Gedeelde code heeft vergelijkbare voordelen, waardoor wetenschappers sneller kunnen bouwen op de resultaten van collega's, zegt Hellerstein. Hij verwijst naar het voorbeeld van de non-profit Sage Bionetworks, wiens missie het is om biomedisch onderzoek open te maken door onderzoekers te overtuigen om genomische en biomedische gegevens samen te brengen in een enorme, goed samengestelde database in de cloud. Een ander voorbeeld is de online repository genomische gegevens van de National Institutes of Health, GenBank. In sommige wetenschappelijke disciplines, zoals deeltjesfysica en astrofysica, is de praktijk van het delen van experimentele gegevens meer verspreid dan op andere gebieden.

"De belangrijke uitdaging is meer doen dan alleen de gegevens opslaan", zegt John Quackenbush, professor aan computerbiologie en bio-informatica aan het Dana-Farber Cancer Institute van Harvard University. Hij bouwt geïntegreerde databases die verschillende maar complementaire soorten gegevens samenbrengen die relevant zijn voor de behandeling van kanker. "We moeten hulpmiddelen en protocollen ontwikkelen om de gegevens toegankelijk, bruikbaar en nuttig te maken bij het beantwoorden van relevante biologische vragen."

Op de lange termijn zou dit de grootste aantrekkingskracht van wetenschap in de cloud kunnen zijn, speculeert Hellerstein: de versnelling van wetenschappelijke ontdekking door bevordering van het delen van gegevens en samenwerking.