La aparición de nuevas variantes del virus SARS-CoV-2 representa una gran amenaza para el progreso de los esfuerzos de vacunación en curso contra el COVID-19 en todo el mundo. Por lo tanto, para los científicos ha representado un desafío identificar y clasificar las variantes emergentes.
Un grupo de trabajo de la Universidad de Harvard se ha interesado en investigar qué tan similares son las secuencias de nucleótidos de la variante Ómicron con respecto a otras secuencias de nucleótidos que se recolectaron de pacientes con COVID-19 en el transcurso de la pandemia.
Para diciembre pasado la base de datos de GISAID, una iniciativa de ciencia global y la fuente primaria establecida en 2008 que proporciona acceso abiertos a datos genómico del virus influenza y el coronavirus, constaba de más de seis millones de secuencias genómicas del SARS-CoV-2. Estos incluyen secuencias de la variante Ómicron descubierta recientemente, así como cepas anteriores que se han recolectado de pacientes con enfermedad por COVID-19 en todo el mundo desde el comienzo de la pandemia en 2020. Varios estudios previos han realizado un amplio análisis de los genomas del SARS-CoV-2 utilizando enfoques basados en modelos que asumen una estructura de árbol.
Un nuevo estudio publicado en la plataforma de preimpresión Biorxiv, especialistas de la Escuela de Salud Pública TH Chan de Harvard, utilizaron un análisis de conglomerados de todo el genoma basado en la matriz de similitud de Jaccard.Todas las secuencias se tradujeron a una matriz de Hamming, que indicó todas las mutaciones en comparación con la secuencia de referencia inicial (REUTERS/Diego Vara)
Posteriormente, todas las secuencias se tradujeron a una matriz de Hamming, que indicó todas las mutaciones en comparación con la secuencia de referencia inicial. La matriz de Hamming sirve como entrada para la matriz de similitud de Jaccard, que da como resultado un índice de similitud entre cero y uno para todas las comparaciones de secuencias. Luego, se aplica a la matriz de similitud de Jaccard para identificar grupos de genomas de SARS-CoV-2. Los investigadores identificaron inicialmente 132.065 secuencias genómicas.
Más tarde, el conjunto de datos se muestreó a 10 000 secuencias. Finalmente, los investigadores agregaron las 287 secuencias de las variantes de Ómicron disponibles en GISAID al 26 de diciembre pasado, lo que dio un total de 10.287 secuencias genómicas para el análisis de este estudio. La información de metadatos utilizada para el estudio fue la ubicación geográfica donde se recolectaron las secuencias.
El análisis del estudio mostró que las secuencias del SARS-CoV-2 se extendieron desde el origen en la matriz de Jaccard de manera distintiva y formaron numerosos grupos distintos según su origen geográfico. Los grupos genómicos de África se identificaron en el cuadrante superior izquierdo de la gráfica, mientras que los de Europa se encontraron en el cuadrante inferior izquierdo.
En particular, las secuencias genómicas de Ómicron estaban algo alejadas del grupo europeo y más cercanas al origen. El estudio demostró que las nuevas secuencias genómicas de Ómicron estaban estrechamente relacionadas con las secuencias enviadas a GISAID en los primeros meses de la pandemia, alrededor de enero de 2020. Utilizando gráficos de componentes principales, los especialistas observaron que las nuevas secuencias de la variante Ómicron están estrechamente relacionadas con las secuencias derivadas de los primeros meses de la pandemia, las obtenidas alrededor de enero de 2020, y están desconectadas de las otras secuencias que se han enviado recientemente a GISAID, independientemente de su origen.Esto podría respaldar la hipótesis de que la variante Ómicron está relacionada con infecciones a largo plazo
Esto podría respaldar la hipótesis de que la variante Ómicron está relacionada con infecciones a largo plazo. La amplia difusión de los genomas de Ómicron con respecto al primer componente principal podría sugerir que la cepa ha estado en circulación durante algún tiempo.
Los hallazgos del estudio también establecieron que el análisis de conglomerados no supervisado es una gran herramienta para el monitoreo continuo de datos de bases de datos públicas como GISAID debido a su simplicidad y velocidad computacional. Esta herramienta también ha demostrado ser esencial para clasificar todas las variantes emergentes de interés del SARS-CoV-2 para análisis de seguimiento posteriores. Estas conclusiones, de todos modos, aguardan respaldo por pares y más profundidad en las investigaciones.