Podatkovna zbirka, ki obvladuje 22 tetrabajtov velik arhiv, ki se podvoji vsakih deset mesecev, je Oracle Database 10g. Podatki so procesirani v podatkovno zbirko z uporabo skupine štirih strežnikov HP ES45.

Martin Widlake, vodja storitev podatkovnih zbirk pri inštitutu Wellcome Trust Sanger, je povedal: »Pri 22.000 GB je arhiv Trace med desetimi največjimi podatkovnimi zbirkami v okoljih UNIX na svetu, kar za raziskovalno organizacijo z 850 zaposlenimi na podeželju blizu Cambridgea, ni slabo. Hitra rast podatkovne baze pa pomeni tudi večje težave pri dostopanju do podatkov. Pregledovanje celotnega nabora podatkov pri iskanju enega genetskega zaporedja je namreč zelo naporno delo, zelo podobno iskanju enega stavka v celotni vsebini Britanske knjižnice, zato ekipa Inštituta Sanger razvija nove metode za lažje iskanje in dostopanje do podatkov.«

Vsak vnos v podatkovno bazo je del genskih informacij, dolg v povprečju 864 znakov. Znanstveniki lahko iščejo med temi sekvencami in jih sestavljajo za izgradnjo celotne genske informacije različnih organizmov – miši, rib, muh, bakterij in, seveda, človeka. Vsi podatki so prosto na voljo svetovni znanstveni skupnosti in dragocen vir genetikom po vsem svetu. Ko raziskovalec preučuje bolezen ali gen, lahko prenese vse genske informacije, ki so znane o področju, ki ga preučuje. Podatke aktivno uporabljajo biomedicinskih raziskovalci tako v akademskih in zasebnih organizacijah.

Po raziskavi podatkovnih zbirk za leto 2005, ki ga opravlja Winter Corporation, je arhiv Trace verjetno največja znanstvena podatkovna zbirka (britanska knjižnica ima 13 milijonov kosov gradiva; ameriška kongresna knjižnica pa 115 milijonov), postavlja na peto mesto za velikani kot so AT&T in Yahoo. Na tem seznamu so Oraclove podatkovne zbirke na vrhu v večini kategorij, npr. največja zasebna podatkovna zbirka, največja znanstvena podatkovna zbirka, največja podatkovna zbirka, ki temelji na Linuxu. Kot zanimivost: izpis vseh podatkov arhiva Trace v eni vrstici besedila bi zemeljsko oblo obkrožil 250-krat, izpis vseh podatkov na strani A4 pa bi ustvarilo kup papirja, ki bi bil dva in pol krat višji kot Mount Everest.

Dodatne infromacije - DNA sledi
Tehnologija nizanja DNA označi vsako črko genskega zapisa (osnova) s fluorescentno kemikalijo. To zaporedje preberejo roboti, ki vizualizirajo vsako črko kot vrhunec rdeče, zelene, rumene ali modre fluorescentne barve. Ta slika se imenuje »sled«.

Vsaka datoteka surovih podatkov ima okrog 200 KB. Sledi preberejo robotski programi in odkrijejo črke (»pokličejo osnove«). Iskanje je mogoče po tekstovnem zapisu sekvence; potrebni pa so zelo hitri programi za upravljanje iskanja skoraj enega bilijona črk (ena milijarda zapisov po povprečno 864 osnov, plus nekateri starejši zapisi zgodnejših različic).
http://trace.ensembl.org/index.html/"">http://trace.ensembl.org/index.html

Nazaj