BIBLIOTECA MANUEL BELGRANO - Facultad de Ciencias Económicas - UNC

Imagen de cubierta local
Imagen de cubierta local
Imagen de Google Jackets

Imputación de genotipos faltantes en datos de secuenciación masiva / Gabriel Alejandra Merino. [recurso electrónico]

Por: Tipo de material: TextoTextoDetalles de publicación: Córdoba, Argentina : s.n., 2018Descripción: 1 recurso en línea (94 p.) PDFTema(s): Recursos en línea: Nota de disertación: Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados, 2018. Resumen: Las estrategias de genotipi cación masiva de poblaciones de mejoramiento mediante secuenciación de alto rendimiento son cada vez más utilizadas en el ámbito de las ciencias agrarias. Tales estrategias favorecen la exploración de la diversidad genética propia de una población, aunque, generan matrices de genotipado con un alto porcentaje de datos faltantes. Para resolver esta limitante se recurre a la predicción de los genotipos faltantes mediante la implementación de técnicas estadísticas. No obstante, la mayoría de éstas han sido desarrolladas para trabajar con especies como maíz o soja que disponen de genomas de referencia de alta calidad y matrices de genotipado completo, lo que aporta información valiosa para la imputación. Sin embargo, la mayoría de los cultivos no se encuentra en esta situación en términos de información útil disponible. Esta tesis tiene como objetivo aportar soluciones al problema de imputación en matrices de genotipado obtenidas mediante secuenciación de especies poco estudiadas. Aquí se propuso diseñar una estrategia de imputación basada en la combinación de técnicas estadísticas y evidencias genéticas. Dado que la matriz de trabajo contiene muchos más genotipos incompletos que individuos genotipados, se seleccionó la metodología Random Forest para la predicción y posterior imputación de los genotipos faltantes. Adicionalmente, se conoce que las variantes genotípicas, en este caso polimorfi smos de nucleótido único (SNPs), están correlacionadas desde el punto de vista genético (grupos de ligamiento) y/o genómico (pseudo-moléculas de ADN), por lo que se incorporó tal información con el n de obtener resultados más precisos. En base a estos principios, se diseñaron seis alternativas de imputación y se establecieron cuatro métricas de desempeño (exactitud, F-score, sensibilidad y precisión) para su evaluación y comparación. Los algoritmos propuestos inicialmente se ensayaron usando datos simulados y los resultados obtenidos fueron contrastados con los conseguidos al utilizar estrategias de imputación de uso frecuente, según la literatura, sobre las mismas matrices simuladas. De los seis métodos desarrollados, se encontró que el algoritmo RFCorOOBLD que considera la correlación entre un SNP incompleto y los SNPs completos del mismo grupo de ligamiento, y un umbral de error de predicción (OOB), fue la que logró el mejor desempeño. Si bien las estrategias que no consideran el error OOB permitieron recuperar más SNPs incompletos, RFCorOOBLD fue superior a todas las alternativas propuestas en términos de sensibilidad y precisión. Se analizó además el impacto de la modi ficación del umbral del error OOB sobre el desempeño de las estrategias evaluadas, observándose que un umbral de 0,2 permite obtener un óptimo entre el porcentaje de SNPs imputados y el máximo error de estimación admitido. Se encontró además que la metodología RFCorOOBLD fue la más robusta ante las variaciones en el porcentaje de genotipos faltantes en la matriz inicial, observándose también que es la que mejor desempeño ofrece en matrices con valores superiores al 20% de datos faltantes. En cuanto al desempeño como función del porcentaje de SNPs completos, esta metodología fue una de las que más incrementó sus medidas como consecuencia del aumento de datos completos. Se demostró además que la metodología desarrollada resultó superior en desempeño respecto de otras metodologías disponibles y comúnmente utilizadas para la imputación de genotipos faltantes, como son la imputación por la moda, Beagle y LinkImputeR. Adicionalmente, las medidas de desempeño de las estrategias aquí propuestas fueron más robustas con respecto al porcentaje de datos faltantes que las correspondientes a las tres metodologías alternativas contrastadas. Los algoritmos desarrollados que tuvieron los mejores desempeños se aplicaron además a un estudio real basado en una matriz de datos incompletos generada mediante genotipi ficación por secuenciación de una población de asociación de girasol, llevada a cabo por el Instituto Nacional de Tecnología Agropecuaria. En este caso, la estrategia RFCorOOBLD permitió recuperar miles de SNPs incompletos, logrando conservar más del 75% de todos los SNPs de la matriz de genotipado luego de la imputación. Por lo expuesto, se concluye que la metodología aquí presentada representa un aporte importante al problema de imputación de genotipos faltantes en matrices de genotipificación por secuenciación de individuos no relacionados o poco relacionados genéticamente.

Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados, 2018.

Bibliografía: p. 89-94.

Las estrategias de genotipi cación masiva de poblaciones de mejoramiento mediante secuenciación de alto rendimiento son cada vez más utilizadas en el ámbito de las ciencias agrarias. Tales estrategias favorecen la exploración de la diversidad
genética propia de una población, aunque, generan matrices de genotipado con un alto porcentaje de datos faltantes. Para resolver esta limitante se recurre a la predicción de los genotipos faltantes mediante la implementación de técnicas estadísticas. No obstante, la mayoría de éstas han sido desarrolladas para trabajar con especies como maíz o soja que disponen de genomas de referencia de alta calidad y matrices de genotipado completo, lo que aporta información valiosa para la imputación. Sin embargo, la mayoría de los cultivos no se encuentra en esta situación en términos de información útil disponible. Esta tesis tiene como objetivo aportar soluciones al problema de imputación en matrices de genotipado obtenidas mediante secuenciación de especies poco estudiadas. Aquí se propuso diseñar una estrategia de imputación basada en la combinación de técnicas estadísticas y evidencias genéticas. Dado que la matriz de trabajo contiene muchos más genotipos incompletos que individuos genotipados, se seleccionó la metodología Random Forest para la predicción y posterior imputación de los genotipos faltantes. Adicionalmente, se conoce que las variantes genotípicas, en este caso polimorfi smos de nucleótido único (SNPs), están correlacionadas desde el punto de vista genético (grupos de ligamiento) y/o genómico (pseudo-moléculas de ADN), por lo que se incorporó tal información con el n de obtener resultados más precisos. En base a estos principios, se diseñaron seis alternativas de imputación y se establecieron cuatro métricas de desempeño (exactitud, F-score, sensibilidad y precisión) para su evaluación y comparación. Los algoritmos propuestos inicialmente se ensayaron usando datos simulados y los resultados obtenidos fueron contrastados con los conseguidos al utilizar estrategias de imputación de uso frecuente, según la literatura, sobre las mismas matrices simuladas. De los seis métodos desarrollados, se encontró que el algoritmo RFCorOOBLD que considera la correlación entre un SNP incompleto y los SNPs completos del mismo grupo de ligamiento, y un umbral de error de predicción (OOB), fue la que logró el mejor desempeño. Si bien las estrategias que no consideran el error OOB permitieron recuperar más SNPs incompletos, RFCorOOBLD fue superior a todas las alternativas propuestas en términos de sensibilidad y precisión. Se analizó además el impacto de la modi ficación del umbral del error OOB sobre el desempeño de las estrategias evaluadas, observándose que un umbral de 0,2 permite obtener un óptimo entre el porcentaje de SNPs imputados y el máximo error de estimación admitido. Se encontró además que la metodología RFCorOOBLD fue la más robusta ante las variaciones en el porcentaje de genotipos faltantes en la matriz inicial, observándose también que es la que mejor desempeño ofrece en matrices con valores superiores al 20% de datos faltantes. En cuanto al desempeño como función del porcentaje de SNPs completos, esta metodología fue una de las que más incrementó sus medidas como consecuencia del aumento de datos completos. Se demostró además que la metodología desarrollada resultó superior en desempeño respecto de otras metodologías disponibles y comúnmente utilizadas para la imputación de genotipos faltantes, como son la imputación por la moda, Beagle y LinkImputeR. Adicionalmente, las medidas de desempeño de las estrategias aquí propuestas fueron más robustas con respecto al porcentaje de datos faltantes que las correspondientes a las tres metodologías alternativas contrastadas. Los algoritmos desarrollados que tuvieron los mejores desempeños se aplicaron además a un estudio real basado en una matriz de datos incompletos generada mediante genotipi ficación por secuenciación de una población de asociación de girasol, llevada a cabo por el Instituto Nacional de Tecnología Agropecuaria. En este caso, la estrategia RFCorOOBLD permitió recuperar miles de SNPs incompletos, logrando conservar más del 75% de todos los SNPs de la matriz de genotipado luego de la imputación. Por lo expuesto, se concluye que la metodología aquí presentada representa un aporte importante al problema de imputación de genotipos faltantes en matrices de genotipificación por secuenciación de individuos no relacionados o poco relacionados genéticamente.

No hay comentarios en este titulo.

para colocar un comentario.

Haga clic en una imagen para verla en el visor de imágenes

Imagen de cubierta local

Bv. Enrique Barros s/n - Ciudad Universitaria. X5000HRV-Córdoba, Argentina - Tel. 00-54-351-4437300, Interno 48505
Horario de Atención: Lunes a Viernes de 8 a 18

Contacto sobre Información bibliográfica: proinfo.bmb@eco.uncor.edu