El avance del pangenoma: una imagen cristalina de la diversidad genómica humana
HogarHogar > Noticias > El avance del pangenoma: una imagen cristalina de la diversidad genómica humana

El avance del pangenoma: una imagen cristalina de la diversidad genómica humana

Apr 28, 2024

Por Universidad Rockefeller 13 de mayo de 2023

El Consorcio de Referencia del Pangenoma Humano ha logrado avances significativos en la creación de un genoma humano de referencia más inclusivo mediante el ensamblaje de secuencias genómicas de 47 individuos de todo el mundo. El genoma humano de referencia original se basó en datos de un solo individuo de origen africano-europeo, lo que limita su representación de la diversidad genética. Este nuevo pangenoma, que representa más del 99% de cada secuencia con alta precisión, revela casi 120 millones de pares de bases de ADN nunca antes vistos. Al proporcionar una representación más precisa de la diversidad genética humana, los investigadores pueden perfeccionar su comprensión del vínculo entre genes y enfermedades, acelerar la investigación clínica y, en última instancia, ayudar a abordar las disparidades en salud.

En un avance importante, los científicos han ensamblado secuencias genómicas de 47 personas de diversos orígenes para crear un pangenoma, que ofrece una representación más precisa de la diversidad genética humana que el genoma de referencia existente. Este nuevo pangenoma ayudará a los investigadores a perfeccionar su comprensión del vínculo entre genes y enfermedades y, en última instancia, podría ayudar a abordar las disparidades en salud.

Durante más de 20 años, los científicos han confiado en el genoma humano de referencia, una secuencia genética consensuada, como estándar con el que comparar otros datos genéticos. Utilizado en innumerables estudios, el genoma de referencia ha permitido identificar genes implicados en enfermedades específicas y rastrear la evolución de los rasgos humanos, entre otras cosas.

But it has always been a flawed tool. One of its biggest problems is that about 70 percent of its data came from a single man of predominantly African-European background whose DNADNA, or deoxyribonucleic acid, is a molecule composed of two long strands of nucleotides that coil around each other to form a double helix. It is the hereditary material in humans and almost all other organisms that carries genetic instructions for development, functioning, growth, and reproduction. Nearly every cell in a person’s body has the same DNA. Most DNA is located in the cell nucleus (where it is called nuclear DNA), but a small amount of DNA can also be found in the mitochondria (where it is called mitochondrial DNA or mtDNA)." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"> El ADN fue secuenciado durante el Proyecto Genoma Humano, el primer esfuerzo por capturar todo el ADN de una persona. Como resultado, poco puede decirnos sobre el 0,2 al 1 por ciento de la secuencia genética que hace que cada una de los siete mil millones de personas de este planeta sea diferente entre sí, creando un sesgo inherente en los datos biomédicos que se cree son responsables de parte de los problemas de salud. disparidades que afectan a los pacientes hoy en día. Muchas variantes genéticas encontradas en poblaciones no europeas, por ejemplo, no están representadas en absoluto en el genoma de referencia.

El nuevo borrador de referencia pangenoma contiene 47 genomas en lugar de solo uno, y proporcionará un punto de comparación mucho mejor que la referencia tradicional para encontrar y comprender las diferencias en nuestro ADN. Crédito: Instituto Nacional de Investigación del Genoma Humano

For years, researchers have called for a resource more inclusive of human diversity with which to diagnose diseases and guide medical treatments. Now scientists with the Human Pangenome Reference Consortium have made groundbreaking progress in characterizing the fraction of human DNA that varies between individuals. As they recently published in Nature, they’ve assembled genomic sequences of 47 people from around the world into a so-called pangenome in which more than 99 percent of each sequence is rendered with high accuracyHow close the measured value conforms to the correct value." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">exactitud.

Superpuestas unas sobre otras, estas secuencias revelaron casi 120 millones de pares de bases de ADN que no se habían visto antes.

Si bien todavía es un trabajo en progreso, el pangenoma es público y puede ser utilizado por científicos de todo el mundo como una nueva referencia estándar del genoma humano, dice Erich D. Jarvis de la Universidad Rockefeller, uno de los investigadores principales.

"Esta compleja colección genómica representa una diversidad genética humana significativamente más precisa que nunca antes", dice. "Con una mayor amplitud y profundidad de datos genéticos a su disposición y una mayor calidad de los ensamblajes del genoma, los investigadores pueden perfeccionar su comprensión del vínculo entre los genes y los rasgos de las enfermedades y acelerar la investigación clínica".

Completado en 2003, el primer borrador del genoma humano era relativamente impreciso, pero se volvió más nítido con el paso de los años gracias a los vacíos completados, los errores corregidos y el avance de la tecnología de secuenciación. El año pasado se alcanzó otro hito, cuando finalmente se secuenció el ocho por ciento final del genoma (principalmente ADN muy enrollado que no codifica proteínas ni regiones repetitivas de ADN).

A pesar de este progreso, el genoma de referencia siguió siendo imperfecto, especialmente con respecto al crítico 0,2 a uno por ciento del ADN que representa la diversidad. El Consorcio de Referencia del Pangenoma Humano (HPRC), una colaboración financiada por el gobierno entre más de una docena de instituciones de investigación en Estados Unidos y Europa, se lanzó en 2019 para abordar este problema.

At the time, Jarvis, one of the consortium’s leaders, was honing advanced sequencing and computational methods through the Vertebrate Genomes Project, which aims to sequence all 70,000 vertebrate speciesA species is a group of living organisms that share a set of common characteristics and are able to breed and produce fertile offspring. The concept of a species is important in biology as it is used to classify and organize the diversity of life. There are different ways to define a species, but the most widely accepted one is the biological species concept, which defines a species as a group of organisms that can interbreed and produce viable offspring in nature. This definition is widely used in evolutionary biology and ecology to identify and classify living organisms." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"> especies. Su laboratorio y otros laboratorios colaboradores decidieron aplicar estos avances para ensamblajes de genomas diploides de alta calidad para revelar la variación dentro de un solo vertebrado: el Homo sapiens.

Para recolectar una diversidad de muestras, los investigadores recurrieron al Proyecto 1000 Genomas, una base de datos pública de genomas humanos secuenciados que incluye más de 2500 individuos que representan 26 poblaciones geográfica y étnicamente variadas. La mayoría de las muestras proceden de África, hogar de la mayor diversidad humana del planeta.

"En muchos otros grandes proyectos de diversidad del genoma humano, los científicos seleccionaron principalmente muestras europeas", dice Jarvis. “Hicimos un esfuerzo decidido para hacer lo contrario. Estábamos tratando de contrarrestar los prejuicios del pasado”.

Es probable que entre estas poblaciones se puedan encontrar variantes genéticas que podrían informar nuestro conocimiento sobre enfermedades tanto comunes como raras.

Pero para ampliar el acervo genético, los investigadores tuvieron que crear secuencias más nítidas y claras de cada individuo, y los enfoques desarrollados por los miembros del Proyecto Genoma de Vertebrados y los consorcios asociados se utilizaron para resolver un problema técnico de larga data en este campo.

Cada persona hereda un genoma de cada padre, por lo que terminamos con dos copias de cada cromosoma, lo que nos da lo que se conoce como genoma diploide. Y cuando se secuencia el genoma de una persona, separar el ADN de los padres puede resultar un desafío. Las técnicas y algoritmos más antiguos cometían errores de forma rutinaria al fusionar datos genéticos parentales de un individuo, lo que daba como resultado una vista turbia. "Las diferencias entre los cromosomas de mamá y papá son mayores de lo que la mayoría de la gente cree", dice Jarvis. "Mamá puede tener 20 copias de un gen y papá sólo dos".

With so many genomes represented in a pangenome, that cloudiness threatened to develop into a thunderstorm of confusion. So the HPRC homed in a method developed by Adam Phillippy and Sergey Koren at the National Institutes of HealthThe National Institutes of Health (NIH) is the primary agency of the United States government responsible for biomedical and public health research. Founded in 1887, it is a part of the U.S. Department of Health and Human Services. The NIH conducts its own scientific research through its Intramural Research Program (IRP) and provides major biomedical research funding to non-NIH research facilities through its Extramural Research Program. With 27 different institutes and centers under its umbrella, the NIH covers a broad spectrum of health-related research, including specific diseases, population health, clinical research, and fundamental biological processes. Its mission is to seek fundamental knowledge about the nature and behavior of living systems and the application of that knowledge to enhance health, lengthen life, and reduce illness and disability." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"> Institutos Nacionales de Salud sobre “tríos” de padres e hijos: una madre, un padre y un niño cuyos genomas habían sido secuenciados. Utilizando los datos de mamá y papá, pudieron aclarar las líneas de herencia y llegar a una secuencia de mayor calidad para el niño, que luego utilizaron para el análisis del pangenoma.

El análisis de los investigadores de 47 personas arrojó 94 secuencias genómicas distintas, dos para cada conjunto de cromosomas, además del cromosoma sexual Y en los hombres.

Luego utilizaron técnicas computacionales avanzadas para alinear y superponer las 94 secuencias. De los 120 millones de pares de bases de ADN que no se habían visto anteriormente o que se encontraban en una ubicación diferente a la que se observó en la referencia anterior, alrededor de 90 millones derivan de variaciones estructurales, que son diferencias en el ADN de las personas que surgen cuando se reordenan fragmentos de cromosomas. movidos, eliminados, invertidos o con copias adicionales de duplicaciones.

Es un descubrimiento importante, señala Jarvis, porque estudios de los últimos años han establecido que las variantes estructurales desempeñan un papel importante en la salud humana, así como en la diversidad específica de la población. "Pueden tener efectos dramáticos sobre las diferencias de rasgos, las enfermedades y la función genética", dice. "Con tantos nuevos identificados, habrá muchos descubrimientos nuevos que antes no eran posibles".

The pangenome assembly also fills in gaps that were due to repetitive sequences or duplicated genes. One example is the major histocompatibility complex (MHC), a cluster of genes that code proteins on the surface of cells that help the immune system recognize antigens, such as those from the SARS-CoV-2Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) is the official name of the virus strain that causes coronavirus disease (COVID-19). Previous to this name being adopted, it was commonly referred to as the 2019 novel coronavirus (2019-nCoV), the Wuhan coronavirus, or the Wuhan virus." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">SARS-CoV-2 virusA virus is a tiny infectious agent that is not considered a living organism. It consists of genetic material, either DNA or RNA, that is surrounded by a protein coat called a capsid. Some viruses also have an outer envelope made up of lipids that surrounds the capsid. Viruses can infect a wide range of organisms, including humans, animals, plants, and even bacteria. They rely on host cells to replicate and multiply, hijacking the cell's machinery to make copies of themselves. This process can cause damage to the host cell and lead to various diseases, ranging from mild to severe. Common viral infections include the flu, colds, HIV, and COVID-19. Vaccines and antiviral medications can help prevent and treat viral infections." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">virus.

"Son realmente importantes, pero era imposible estudiar la diversidad del MHC utilizando los métodos de secuenciación más antiguos", afirma Jarvis. “Estamos viendo una diversidad mucho mayor de la que esperábamos. Esta nueva información nos ayudará a comprender cómo varían las respuestas inmunitarias contra patógenos específicos entre las personas”. También podría conducir a mejores métodos para hacer coincidir a los donantes de órganos con los pacientes, o identificar a las personas en riesgo de desarrollar enfermedades autoinmunes.

El equipo también ha descubierto nuevas características sorprendentes de los centrómeros, que se encuentran en el punto crucial de los cromosomas y llevan a cabo la división celular, separándose a medida que las células se duplican. Las mutaciones en los centrómeros pueden provocar cánceres y otras enfermedades.

A pesar de tener secuencias de ADN altamente repetitivas, "los centrómeros son tan diversos de un haplotipo a otro, que pueden representar más del 50 por ciento de las diferencias genéticas entre personas o haplotipos maternos y paternos, incluso dentro de un mismo individuo", dice Jarvis. "Los centrómeros parecen ser una de las partes del cromosoma que evoluciona más rápidamente".

Sin embargo, el pangenoma actual de 47 personas es sólo un punto de partida. El objetivo final del HPRC es producir genomas de alta calidad y casi sin errores de al menos 350 individuos de poblaciones diversas para mediados de 2024, un hito que permitiría capturar alelos raros que confieren importantes rasgos adaptativos. Los tibetanos, por ejemplo, tienen alelos relacionados con el uso de oxígeno y la exposición a la luz ultravioleta que les permiten vivir a gran altura.

Un desafío importante al recopilar estos datos será ganarse la confianza de las comunidades que han visto abusos de datos biológicos en el pasado; por ejemplo, en el estudio actual no hay muestras de pueblos nativos americanos ni aborígenes, que durante mucho tiempo han sido ignorados o explotados por los estudios científicos. Pero no es necesario retroceder mucho en el tiempo para encontrar ejemplos de uso poco ético de datos genéticos: hace apenas unos años, se comercializaron muestras de ADN de miles de africanos en varios países sin el conocimiento, el consentimiento o el beneficio de los donantes.

Estos delitos han sembrado desconfianza hacia los científicos entre muchas poblaciones. Pero al no ser incluidos, algunos de estos grupos podrían permanecer genéticamente oscuros, lo que llevaría a la perpetuación de los sesgos en los datos y a continuas disparidades en los resultados de salud.

"Es una situación compleja que requerirá mucha construcción de relaciones", dice Jarvis. "Ahora hay una mayor sensibilidad".

E incluso hoy, muchos grupos están dispuestos a participar. “Hay individuos, instituciones y organismos gubernamentales de diferentes países que dicen: 'Queremos ser parte de esto. Queremos que nuestra población esté representada'”, dice Jarvis. "Ya estamos progresando".

Para obtener más información sobre este avance, consulte Referencia del pangenoma humano: una comprensión más profunda de la diversidad genómica mundial.

Referencias:

“Un borrador de referencia del pangenoma humano” por Wen-Wei Liao, Mobin Asri, Jana Ebler, Daniel Doerr, Marina Haukness, Glenn Hickey, Shuangjia Lu, Julian K. Lucas, Jean Monlong, Haley J. Abel, Sylvia Buonaiuto, Xian H. Chang, Haoyu Cheng, Justin Chu, Vincenza Colonna, Jordan M. Eizenga, Xiaowen Feng, Christian Fischer, Robert S. Fulton, Shilpa Garg, Christian Groza, Andrea Guarracino, William T. Harvey, Simon Heumos, Kerstin Howe, Miten Jain, Tsung-Yu Lu, Charles Markello, Fergal J. Martin, Matthew W. Mitchell, Katherine M. Munson, Moses Njagi Mwaniki, Adam M. Novak, Hugh E. Olsen, Trevor Pesout, David Porubsky, Pjotr ​​​​Prince, Jonas A Sibbesen, Jouni Mermaid, Chad Tomlinson, Flavia Villani, Mitchell R. Vollger, Lucinda L. Antonacci-Fulton, Gunjan Baid, Carl A. Baker, Anastasia Belyaeva, Konstantinos Billis, Andrew Carroll, Pi-Chuan Chang, Sarah Cody, Daniel E Cook, Robert M. Cook-Deegan, Omar E. Cornejo, Mark Diekhans, Peter Ebert, Susan Fairley, Oliver Fedrigo, Adam L. Felsenfeld, Giulio Formenti, Adam Frankish, Yan Gao, Nanibaa' A. Garrison, Carlos García Girón , Richard E. Green, Leanne Haggerty, Kendra Hoekzema, Thibaut Hourlier, Hanlee P. Ji, Eimear E. Kenny, Barbara A. Koenig, Alexey Kolesnikov, Jan O. Korbel, Jennifer Kordosky, Sergey Koren, HoJoon Lee, Alexandra P. Lewis, Hugh Magalhães, James Marco-Sola, Pierre Marijon, Ann McCartney, Jennifer McDaniel, Jacquelyn Mountcastle, Maria Nattestad, Sergey Nurk, Nathan D. Olson, Alice B. Popejoy, Daniela Puiu, Mikko Rautiainen, Allison A. Regier, Arang Rhie, Samuel Sacco, Ashley D. Sanders, Valerie A. Schneider, Baergen I. Schultz, Kishwar Shafin, Michael W. Smith, Heidi J. Sofia, Ahmad N. Abou Tayoun, Francoise Thibaud-Nissen, Francesca Floriana Tricomi, Justin Wagner , Brian Walenz, Jonathan MD Wood, Alexey V. Zimin, William Bourque, Mark JP Chaisson, Paul Flicek, Adam M. Phillippy, Justin M. Zook, Evan E. Eichler, David Haussler, Ting Wang, Erich D. Jarvis, Karen https://doi.org/10.1038/s41586-023-05896-x

“Aumento de la tasa de mutación y conversión de genes dentro de duplicaciones segmentarias humanas” por Mitchell R. Vollger, Philip C. Dishuck, William T. Harvey, William S. DeWitt, Xavi Guitart, Michael E. Goldberg, Allison N. Rozanski, Julian Lucas, Mobin Asri, Human Pangenome Reference Consortium, Katherine M. Munson, Alexandra P. Lewis, Kendra Hoekzema, Glennis A. Logsdon, David Porubsky, Benedict Paten, Kelley Harris, PingHsun Hsieh y Evan E. Eichler, 10 de mayo de 2023. Nature.DOI: 10.1038/s41586-023-05895-y

En un avance importante, los científicos han ensamblado secuencias genómicas de 47 personas de diversos orígenes para crear un pangenoma, que ofrece una representación más precisa de la diversidad genética humana que el genoma de referencia existente. Este nuevo pangenoma ayudará a los investigadores a perfeccionar su comprensión del vínculo entre genes y enfermedades y, en última instancia, podría ayudar a abordar las disparidades en salud.