O supercomputador Santos Dumont tem capacidade para processar em apenas 1 segundo um volume de cerca de 4 trilhões de dados que necessitariam de 4 milhões de laptops, trabalhando em conjunto, para serem processados
O LNCC – Laboratório Nacional de Computação Científica passou a disponibilizar, gratuitamente, a pesquisadores e cientistas que trabalham em soluções para a nova pandemia de coronavírus, os recursos de processamento paralelizado (GPU) do supercomputador Santos Dumont, com o software Parabricks, da NVIDIA Enterprise.
O Santos Dumont é o maior supercomputador da América Latina e está localizado em Petrópolis, no Rio de Janeiro. Ele está envolvido em cerca de 150 projetos de pesquisas que atendem a exploração de petróleo e gás, carvão mineral e energias renováveis, desenvolvimento de fármacos para HIV, estudos sobre clima, e pesquisas dos vírus da ZIKA, Dengue, e, atualmente, também do novo coronavírus.
Para otimizar o processo, o supercomputador foi atualizado com 376 GPUs Tesla V100, também da NVIDIA, em dezembro de 2019, passando para a capacidade de processamento total de aproximadamente 5,1 quatrilhões de operações por segundo. O que gera um aumento de aproximadamente 360% se comparado às especificações originais de 2015 que era de 1,1 petaflops.
O Parabricks usa GPUs para acelerar a análise do genoma em 50 vezes a velocidade de servidor para servidor. Este software pode reduzir o tempo para analisar um genoma humano inteiro de 2 dias para menos de uma hora. Dada a disseminação sem precedentes da pandemia, gerar resultados em horas, em vez de dias, pode ter um impacto extraordinário no entendimento da evolução do vírus e do desenvolvimento de vacinas.
“O supercomputador Santos Dumont será utilizado para o processamento de exomas e genoma humanos e genomas da Covid-19”, explica Luiz Gonzaga, Tecnologista do Laboratório de Bioinformática do Laboratório Nacional de Computação Científica. Para se ter uma dimensão do que isso representa, vale destacar que Exoma é a fração do genoma que codifica os genes. O genoma humano é composto de 3 bilhões de bases, sendo que os genes compõem somente 1 a 2% do total. As regiões do DNA genômico que codificam os aminoácidos de cada gene são os exons, daí o termo "exoma". O Exoma, portanto, é o conjunto de aproximadamente 200.000 exons que codificam os genes que determinam a produção das proteínas. “Com o pacote NVIDIA Parabricks Genome Analisys Toolkit (GATK), executado nos nós com GPU, buscaremos variantes nas amostras de DNA de paciente e do vírus, para entendermos o comportamento da doença em diferentes indivíduos para dar suporte a estratégias de como enfrentar a pandemia”, conclui Gonzaga. O software Parabricks estará disponível gratuitamente por 90 dias.
O Laboratório Nacional de Computação Científica é uma Unidade de Pesquisa do Ministério da Ciência, Tecnologia, Inovações e Comunicações - MCTIC, realizando pesquisas em métodos de Computação Científica com aplicações em diferentes áreas do conhecimento, e atua como Centro Nacional de Supercomputação, coordenador do SINAPAD – Sistema Nacional de Processamento de Alto Desempenho. Possui, ainda, um programa de Pós-Graduação interdisciplinar, com conceito 6 da CAPES, formando Mestres e Doutores em Modelagem Computacional