Estudo bioinformático de teste genético

As diferenças genéticas podem se manifestar em diferenças nas características morfológicas, fisiológicas, bioquímicas (tipagem sanguínea, por exemplo) ou diretamente na sequência do DNA, os chamados marcadores moleculares ou mais especificamente, marcadores de DNA. Explicando de outra forma, são regiões do genoma que revelam polimorfismos (variações na sequência do DNA) entre os indivíduos.

Com o advento das tecnologias modernas da Genética e da Biologia Molecular, surgiram diversos tipos de marcadores moleculares que tem revolucionado as análises genéticas: os SNPs (Single Nucleotide Polymorphism). Os diversos projetos de sequenciamento detectaram e vem detectando milhares destes marcadores distribuídos de forma homogênea pelo genoma. Além disso, apresentam outras vantagens como automação de análise, erros laboratoriais mínimos e baixos índices de erro de genotipagem (<0,01%, inerentes da técnica). Devido a esta facilidade de automação, o custo da genotipagem para fins de teste de paternidade é menor do que os microssatélites, mesmo considerando que, devido ao seu menor conteúdo de polimorfismo, são necessários mais marcadores. De acordo com o ISAG, International Society of Animal Genetics, órgão que regulamenta os testes genéticos, são preconizados 12 marcadores microssatélites específicos para bovinos, enquanto que para testes que utilizam SNPs, os painéis têm que ter pelo menos 100 marcadores.

A imputação é a técnica computacional usada para inferir sequências de DNA que não foram lidas – num processo parecido quando lemos uma frase, em que algumas letras estão faltando. A chance é grande de que você pode inferir quais são as letras faltando, a partir do contexto. Nem todas as empresas de DNA utilizam os mesmos SNPs. Para encontrar correspondências de DNA entre os usuários que usam testes de DNA diferentes, é importante poder inferir os SNPs que não foram lidos antes de compararmos os resultados. A localização de um determinado marcador genético, ou segmento de DNA, ou um outro elemento em um cromossomo se dá através de uma nomenclatura.

A “posição genômica” indica o primeiro e último par de bases, ou nucleotídeo, do segmento, contando a partir do final do cromossomo. RSID é uma sigla para Reference SNP ID (ID de referência do SNP) e indica o “nome” do primeiro e último SNP do segmento. O número rs é um número de acesso usado por pesquisadores e bancos de dados para se referir a SNPs específicos. Ele significa ID do cluster de SNP de referência. Um SNP é um local no genoma que é conhecido por variar entre os indivíduos. Quando os pesquisadores identificam um SNP, eles enviam um relatório (que inclui a sequência imediatamente ao redor do SNP) para o banco de dados dbSNP . Se forem enviados relatórios sobrepostos, eles serão mesclados no mesmo cluster SNP de referência, não redundante, que recebe um rsid exclusivo. Em todo o genoma Estudos de associação que ligam SNPs a características ou condições geralmente relatam seus resultados por rsid.

Como ler o resultado do seu exame de DNA dipostos em arquivo de dados brutos?

Os arquivos de resultados brutos do Family Finder são arquivos de variável separada por vírgula (CSV). Geralmente são baixados em arquivos comprimidos GZ (zipados) para armazenamento e portabilidade. Para extrair o arquivo CSV do arquivo GZ, você precisará de um software de compactação/descompactação para descompactar o arquivo. Muitos desses programas estão disponíveis gratuitamente, como Win-Rar. Depois de extrair um arquivo CSV, você pode abri-lo com um programa de edição de texto (Notepad, jEdit, etc.) ou um programa de planilha eletrônica (MS Excel, OpenOffice Calc, Gnumeric, Lotus, etc.).

Os arquivos de resultados contêm as quatro colunas de dados a seguir:

A coluna RSID fornece o número RS para o SNP no banco de dados NIH dbSNP.
A coluna CHROMOSOME fornece o nome do cromossomo no qual o SNP está localizado. Para um arquivo autossômico, isso é de 1 a 22. Para um arquivo de cromossomo X, isso é X.
A coluna POSITION fornece o local específico no cromossomo especificado do SNP.
A coluna RESULTADO fornece os valores de alelo para o SNP.

Estas tabelas mostram os valores possíveis para a coluna RESULT e seus significados. É relatado os resultados de acordo com as especificações de cada fabricante de chips de microarray.

O banco de dados de polimorfismo de nucleotídeo único (dbSNP) é um arquivo público gratuito para variação genética entre diferentes espécies. Foi criado em setembro de 1998 para suplementar o GenBank, a coleção de sequências de ácidos nucléicos e proteínas. O dbSNP acumulou mais de 64 milhões de variantes distintas. O acesso à variação molecular catalogada no banco de dados auxilia a pesquisa básica, como mapeamento físico, genética populacional, investigações sobre relacionamentos evolutivos, além de ser capaz de quantificar a quantidade de variação em um determinado local de interesse no gene. Além disso, os guias dbSNP aplicaram pesquisas em farmacogenômica e a associação da variação genética com características fenotípicas. De acordo com o site do NCBI (Centro Nacional de Informações sobre Biotecnologia):

"O investimento de longo prazo em pesquisas tão inovadoras e empolgantes [dbSNP] promete não apenas promover a biologia humana, mas também revolucionar a prática da medicina moderna".

a) Várias fontes enviam dados, e cada variação é atribuída a um único ID de número de SNP enviado (ss#).

b) dbSNP compila registros ss# idênticos em um cluster SNP de referência (rs#) contendo dados de cada ss#. c) Os usuários podem recuperar dados para registros rs# específicos e analisar essas variações.

d) Os dados do dbSNP auxiliam a pesquisa clínica e aplicada.

Os IDs ss# e rs# nesta figura abaixo são apenas exemplos:

Através do sequenciamento do meu DNA autossômico pela FamilyTreeDNA e pelo acesso ao dbSNP costruí um estudo genético aplicado as minhas doenças autoimunes. Por meio do estudo consegui rastrear os SNPs no gene CBLB (Cbl proto-oncogene B, codificando proteína ligase de ubiquitina) no cromossomo 3, no gene CTLA4 (codificando proteína 4 associada a linfócitos T citotóxicos) no cromossomo 2, e na posição 32789461 do cromossomo 6, responsáveis pelas minhas doenças autoimunes.

Um relatório baseado em um estudo de 480 famílias dinamarquesas indicou que o SNP rs3772534 no gene CBLB mostra um aumento no risco de desenvolver diabetes tipo 1, e que pode haver co-herança com o SNP rs3087243 encontrado no gene CTLA4. Estudando mais a fundo o meu gene CTLA4, não consegui achar o polimorfismo de co-herança citado, mas sim outro SNP responsável por influenciar o desenvolvimento de autoimunidade persistente das ilhotas de Langerhans e diabetes tipo 1 em crianças com genótipos HLA-DR3/4, DQ8 (antígenos e alelos de histocompatibilidade estão totalmente envolvidos na causa dessa endocrinopatia). Esse é o rs231775, polimorfismo associado a várias doenças autoimunes. Indivíduos heterozigóticos como eu (A,G), tem 1,5x mais chances de contrair outra doença autoimune. Em vez de testes baseados em anticorpos mais tradicionais, outros dois SNPs (rs2040410 e rs7454108) podem ser usados para identificar a presença ou ausência do genótipo DR3/4-DQ8 e, portanto, o genótipo heterozigótico de maior risco associado ao diabetes melittus tipo 1. No meu caso possuo o polimorfismo rs7454108 no cromossomo 6 sendo heterozigoto (C,T).

Em uma metanálise dos SNPs do gene CTLA4, o rs231775 foi mais associado ao vitiligo; entretanto, a associação se mantém apenas no subgrupo de pacientes com outras doenças autoimunes, que é o meu caso! Tenho diabetes melittus 1 desde um ano de idade e por causa desse polimorfismo contraí vitiligo aos quatorze anos. A biologia molecular é incrivelmente fantástica. Descoberta a “origem” de minhas doenças autoimunes!