3款猪50K SNP芯片基因型填充至序列数据的效果评估

引用本文

曾浩南, 钟展明, 徐志婷, 等. 3款猪50K SNP芯片基因型填充至序列数据的效果评估[J]. 华南农业大学学报, 2022, 43(4): 10-15.

ZENG Haonan, ZHONG Zhanming, XU Zhiting, et al. Evaluation on genotype imputation performance of three porcine 50K SNP chips from chip data to sequencing data[J]. Journal of South China Agricultural University, 2022, 43(4): 10-15.

基金项目

财政部和农业农村部：国家现代农业产业技术体系资助

通信作者

张　哲，教授，博士，主要从事动物遗传育种研究，E-mail: zhezhang@scau.edu.cn

作者简介

曾浩南，硕士研究生，主要从事动物遗传育种研究，E-mail: hnzeric@hotmail.com

文章历史

收稿日期：2021-10-26
网络首发时间：2022-05-12 17:56:20

Contents Abstract Full text Figures/Tables PDF

3款猪50K SNP芯片基因型填充至序列数据的效果评估

曾浩南, 钟展明, 徐志婷, 滕金言, 袁晓龙, 李加琪, 张哲

华南农业大学动物科学学院/广东省农业动物基因组学与分子育种重点实验室/国家生猪种业工程技术研究中心, 广东广州 510642

收稿日期：2021-10-26；网络首发时间：2022-05-12 17:56:20

基金项目：财政部和农业农村部：国家现代农业产业技术体系资助

作者简介：曾浩南，硕士研究生，主要从事动物遗传育种研究，E-mail: hnzeric@hotmail.com.

通信作者：张　哲，教授，博士，主要从事动物遗传育种研究，E-mail: zhezhang@scau.edu.cn.

摘要：【目的】利用猪50K SNP(Single nucleotide polymorphisms)芯片开展基因组育种已经得到了广泛的应用与认可。基因型填充可在不增加基因型检测成本的前提下大幅提高基因型数据量，有利于开展复杂性状的遗传解析与遗传评估。本研究旨在评估3款猪SNP芯片基因型填充至序列数据的填充效果。【方法】选用3款芯片共同检测的48头杜洛克猪群体作为填充的目标群体，260头猪的全基因组测序数据作为参考群体，使用Beagle5.1软件进行基因型填充，对比3款不同猪SNP芯片纽勤50K、中芯一号50K和液相50K基因型填充至序列数据的填充效果。【结果】 3款芯片原始的SNP数分别为50697、57466和50885个。填充至序列后，未质控时位点填充准确性(基因型一致性)分别为0.886、0.886和0.898，质控过滤DR²(Dosage R-squared)<0.95的位点后，填充准确性(基因型一致性)分别提升至0.974、0.976和0.969，位点数分别为3393066、3139095和3320627个。【结论】不同芯片基因型填充至序列数据具有可行性，通过基因型填充可获得高质量的高密度基因型数据，可为后续的育种应用研究打下基础。

关键词：猪 SNP芯片基因型填充序列数据基因型一致性

Evaluation on genotype imputation performance of three porcine 50K SNP chips from chip data to sequencing data

ZENG Haonan, ZHONG Zhanming, XU Zhiting, TENG Jinyan, YUAN Xiaolong, LI Jiaqi, ZHANG Zhe

College of Animal Science, South China Agricultural University/Guangdong Provincial Key Laboratory of Agro-animal Genomics and Molecular Breeding/National Engineering Research Center for Breeding Swine Industry, Guangzhou 510642, China

Abstract: 【Objective】 Porcine 50K SNP (single nucleotide polymorphisms) chips have been widely used in pig genomic breeding. Meanwhile, genotype imputation can significantly increase the amount of genotype data without increasing the cost of sequencing, which facilitates genetic resolution and genetic evaluation of complex traits. This study was aimed to evaluate the genotype imputation performance from genotype to sequence data of three porcine SNP chips.【Method】 A total of 48 Duroc pigs with three kinds of porcine SNP chips were used as target panel to evaluate the genotype imputation accuracy. A total of 260 pigs with whole genome sequencing data formed a reference panel for genotype imputation. The genotype imputation was performed using Beagle5.1 software to compare the imputation effect of Geneseek 50K, ZhongxinⅠ 50K and Liquid 50K.【Result】 The numbers of original SNPs in three kinds of chips were 50697, 57466 and 50885 respectively. The imputation accuracies (genotype consistencies) were 0.886, 0.886 and 0.898 respectively after imputation without any quality control. After filtering the imputed SNPs with low reliability DR² (Dosage R-squared) <0.95, the imputation accuracies (genotype consistencies) of three kinds of chips were up to 0.974, 0.976 and 0.969 respectively, and the numbers of remaining SNPs were 3393066, 3139095 and 3320627 respectively. 【Conclusion】 Genotype data from the three types of porcine SNP chips can be imputed to sequence data with a high imputation accuracy. This study provides useful reference for subsequent breeding application research.

Key words: Pig SNP chip Genotype imputation Sequence data Genotype consistency

单核苷酸多态性(Single nucleotide polymorphisms, SNP)是指由于单个核苷酸发生变异引起的基因组水平上DNA序列的多态性，具有遗传稳定性强、位点数量多且分布广，易于大规模自动化检测的优势，SNP芯片作为检测SNP的重要手段，已被广泛应用于生物、医学、农学等领域^[1]。在猪育种中，相对低密度芯片的位点信息不足和高密度芯片的价格高昂，中密度50K芯片成为了猪基因组选择的主流芯片类型。其中，Neogen子公司Geneseek研发的纽勤50K(Porcine SNP 50K beadchip)、江西农业大学研发的中芯一号50K(KPS Porcine breeding chip v2)及中国农业大学研发的液相50K(GenoBaits porcine SNP 50K)为国内常见的3款猪50K SNP芯片。3款芯片设计的原理不同，纽勤50K和中芯一号50K均是基于Illumina平台研发的固相芯片，液相50K芯片是基于靶向测序基因型分型技术^[2]研发的芯片。

全基因组测序数据(Whole genome sequencing, WGS)相比芯片数据记录了更完整的遗传信息，但由于直接测序成本较高，因此人们常用基因型填充技术将低密度的芯片数据填充至序列数据。基因型填充是一项根据参考群体的基因型信息推断目标群体缺失基因型的技术，其能够充分利用现有的SNP芯片信息将低密度数据准确填充至高密度，实现了在节约育种成本的基础上提高育种准确性^[3-4]。现有的基因型填充软件有很多，常用的有Beagle^[5-6]、Impute2^[7]、Findhap^[8]、AlphaImpute^[9]、FAMHAP^[10]、FImpute^[11]等。基因型填充技术现已成为一种常规、有效的工具，被广泛应用于动物遗传育种领域，在猪的相关研究中，基于填充后的数据有助于筛选新的候选基因^[12]、提升基因组选择的准确性，并降低生产的成本^[13-15]。同样，在牛^[16-17]、羊^[18]、鸡^[19]的遗传育种研究中基因型填充也起到了重要的作用。一方面，基因型填充的效果受到许多数据如参考群体大小、参考群体与目标群体之间的遗传关系、最小等位基因频率(Minor allele frequency, MAF)等的影响；另一方面，不同填充软件计算的质控指标对填充准确性也有一定的影响，如Beagle^[5-6]软件的DR²(Dosage R-squared)、Impute^[7]软件的INFO等。

此前，国内研究团队对3款芯片之间相互填充的效果进行了评估^[20]，但对3款芯片填充至序列数据的效果鲜有报道，因此本研究旨在评估3款猪50K SNP芯片基因型填充至序列数据的效果，以期为我国猪遗传研究和分子育种工作提供参考和借鉴。

1 材料与方法 1.1 芯片群体

本研究所用的48头杜洛克猪的芯片群体来自广西某育种场，该群体在纽勤50K、中芯一号50K及液相50K芯片的位点数分别为50697、57466和50885，具体的位点重叠情况见图1a。另外，在芯片重叠的位点里，本研究在等位基因精确匹配后评估了3款芯片两两之间的一致性与相关性。

图 1 3款芯片之间的位点分布 Fig. 1 Distribution of loci among three chips

芯片数据利用根据以下步骤进行质量控制：1)剔除位置重复或未知的位点；2)剔除非常染色体位点；3)利用Conform-gt软件校正正反链并去除参考群以外的位点。质控后纽勤50K、中芯一号50K及液相50K芯片剩余位点数分别为31756、29469和42311，分别占原始芯片数据的62.6%、51.3%和83.2%，质控后具体的位点重叠情况见图1b。

1.2 参考群体

本研究使用的全基因组测序参考群体共260头猪，其中50头来自福建某种猪场的杜洛克，210头来自华南地区的21个地方猪品种。该群体平均测序深度为14.53×，平均测序覆盖度为98.85%，经过MAF<0.01的质量控制后，本研究使用Beagle5.1对其进行单倍型分型(Phasing)，最后参考群体的SNP位点数为31407555个。

1.3 基因型填充方法及准确性评估

本研究使用Beagle5.1软件对芯片数据的18条常染色体进行基因型填充。评估填充准确性的步骤如下：1)在填充前将芯片数据有序不重复地缺失5%，共缺失20次；2)根据保留的95%芯片位点填充缺失的5%芯片位点，共填充20次；3)将20次填充后的结果合并在一起，从位点水平上以缺失前与填充后的基因型一致性与相关性作为基因型填充准确性的评估指标。其中，基因型一致性指的是基因型完全一致的个数占总基因型个数的比例，而基因型相关性指的是将基因型转换为0、1、2编码方式后计算基因型之间的皮尔逊相关系数。

相比基因型一致性，基因型相关性更能反映准确性整体的变化规律，因此本研究在研究MAF与DR²对填充准确性的影响时，均以基因型相关性作为填充准确性的指标。

2 结果与分析 2.1 芯片之间重叠位点的基因型一致性与相关性

表1展示了3款芯片之间位置与等位基因信息完全重叠的位点基因型一致性与相关性情况。从表1中可以看出，3款芯片重叠的位点基本保持一致，其中2款固相芯片之间的一致性最高，达到了0.999；2款固相芯片与液相50K芯片之间的一致性略低，为0.991。

表 1 芯片之间重叠位点的基因型一致性与相关性 Table 1 The consistency and correlation of overlapping loci among three chips

2.2 芯片填充至序列数据的填充准确性

表2展示了3款芯片基因型填充后未进行任何质控处理的填充准确性情况。从表2中可以看出液相50K芯片的位点基因型一致性最高，达到0.898，纽勤50K的位点基因型相关性最高，达到0.828，此时，3款芯片填充后的位点数均为31407555。

表 2 3款芯片基因型填充至序列数据的填充准确性¹⁾ Table 2 The imputation accuracy of three chips from chip data to sequencing data

2.3 MAF与DR²对填充准确性的影响

本研究将3款芯片合并为一个整体，研究MAF对填充准确性(位点的基因型相关性)的影响，结果见图2a。从整体可以看出，随着MAF的增加，填充的准确性显示出上升的趋势；当MAF<0.1时，随着MAF的增加，填充准确性得到了显著的提升，而当MAF>0.1时，填充的准确性也有提升的趋势，但提升的程度趋于平缓。其中，质控过滤MAF<0.1的位点时，纽勤50K、中芯一号50K及液相50K这3款芯片的准确性分别为0.838、0.835和0.825，而此时剩余的位点数分别为7956801、8202065和7717077。

图 2 MAF、DR²与填充准确性(基因型相关性)的分布 Fig. 2 Distribution of MAF, DR² and imputation accuracy (genotype correlation) 各点95%置信区间以垂直线标识 The vertical line represents the 95% confidence interval of each point

DR²可以作为Beagle^[5-6]软件基因型填充后的质控指标，3款芯片整体的DR²对填充准确性的影响结果见图2b。从图2b中可以明显看到DR²与填充准确性存在较强的正相关关系，其中，质控过滤DR²<0.4的位点后填充的准确性增长趋势较为缓慢，当逐步剔除0.4≤DR²≤1的位点时，3款芯片的填充准确性得到了较有效的提升。相比DR²≥0.4的情况，DR²≥0.6时，纽勤50K、中芯一号50K和液相50K芯片的填充准确性分别提升了3.84%、4.16%和3.92%；DR²≥0.8时，3款芯片的填充准确性分别提升了9.17%、9.44%和9.88%；当DR²≥0.95时，3款芯片的填充准确性分别提升了14.95%、14.37%和16.11%，此时的准确性分别为0.966、0.959和0.960，剩余的位点数为3 393 066、3 139 095和3320627。

3 讨论与结论

本研究展示了国内3款常用的猪50K SNP芯片的基本情况与基因型填充至序列数据的结果。从芯片的基本情况来看，3款芯片均有较高的SNP检出率及重叠位点的一致率，3款芯片的SNP位点数均达到50K芯片的标准。在本研究中，中芯一号50K芯片虽然原始位点数较多，但非多态的位点也较多，导致填充前质控位点后剩余的位点数较少，一方面的原因是本研究使用的芯片数据个体数偏少导致位点整体的多态率较低，另一方面可能是中芯一号50K芯片位置的设计原则与其余2款芯片的有较大的出入，但从结果上看这并没有导致中芯一号50K芯片基因型填充的效果弱于其余2款芯片。

从芯片的基因型填充的结果上看，3款芯片的原始填充效果并没有明显的差异。此外，在本研究中3款芯片填充后的位点基因型一致性均值为0.890，尚未达到很高的水平。一方面，已有研究证实参考群规模的大小会影响填充的效果^[21-22]，本研究使用的参考群体个体数为260，在参考群体规模上一定程度地限制了填充的效果；另一方面，本研究参考群体里杜洛克个体数仅为50，个体数少导致参考群体的杜洛克单倍型信息并不能很好地囊括整个品种，进而填充的效果降低。

MAF也是影响填充准确性的一个重要因素，据报道，MAF<0.05时，MAF每提升0.01填充准确性都会得到较大的提升，而MAF≈0.1已经与最高点没有明显的差异^[23-27]，在本研究中，MAF的趋势也与前人的结果基本符合。

DR²作为Beagle^[5-6]填充的质控指标，根据DR²进行基因型填充后，位点的质控可以最直接地提升基因型填充的准确性，从而提升全基因组关联分析及基因组选择等下游分析的效果^[28-31]。从本研究的结果看，当DR²≥0.95时，纽勤50K、中芯一号50K及液相50K芯片的填充效果很好(基因型一致性与相关性均高于0.950)，但是位点数也由原来的约4 000万减少到约300万。在基因组选择领域，一方面位点数的减少可能会导致位点变异解释的遗传力降低，从而影响基因组选择的效果^[32]，另一方面位点错误率升高也会降低基因组选择的效果^[33]，因此在实际应用中，DR²的阈值选取需要研究者根据自身需求进行考量。需要注意的是，DR²和填充准确性的增长趋势与Beagle设置的参数有效群体大小(ne)有关，默认的参数较大(1000000)，而畜禽育种的有效群体大小相比人类普遍较低，因此基因型填充时需要根据参考群体的规模适当进行该参数的调整，以适应更多畜禽育种的群体情况，这有利于提升填充效果^[5-6]。

综上所述，本研究评估了3款猪SNP芯片基因型填充至序列数据的效果，结果表明3款芯片基因型填充至序列数据的策略可行，均可获得较高的填充准确性。

参考文献

[1]	唐立群, 肖层林, 王伟平. SNP分子标记的研究及其应用进展[J]. 中国农学通报, 2012, 28(12): 154-158. DOI:10.11924/j.issn.1000-6850.2012-0074 (0)
[2]	徐云碧, 杨泉女, 郑洪建, 等. 靶向测序基因型检测(GBTS)技术及其应用[J]. 中国农业科学, 2020, 53(15): 2983-3004. DOI:10.3864/j.issn.0578-1752.2020.15.001 (0)
[3]	何桑, 丁向东, 张勤. 基因型填充方法介绍及比较[J]. 中国畜牧杂志, 2013, 49(23): 95-100. DOI:10.3969/j.issn.0258-7033.2013.23.022 (0)
[4]	叶绍潘. 基于全基因组测序数据的基因型填充准确性研究[D]. 广州: 华南农业大学, 2017. (0)
[5]	BROWNING B L, ZHOU Y, BROWNING S R. A one-penny imputed genome from next-generation reference panels[J]. American Journal of Human Genetics, 2018, 103(3): 338-348. DOI:10.1016/j.ajhg.2018.07.015 (0)
[6]	BROWNING S R, BROWNING B L. Rapid and accurate haplotype phasing and missing-data inference for whole-genome association studies by use of localized haplotype clustering[J]. American Journal of Human Genetics, 2007, 81(5): 1084-1097. DOI:10.1086/521987 (0)
[7]	HOWIE B N, DONNELLY P, MARCHINI J. A flexible and accurate genotype imputation method for the next generation of genome-wide association studies[J]. PLoS Genetics, 2009, 5(6): e1000529. DOI:10.1371/journal.pgen.1000529 (0)
[8]	VANRADEN P M, SUN C, O'CONNELL J R. Fast imputation using medium or low-coverage sequence data[J]. BMC Genetics, 2015, 16: 82. (0)
[9]	HICKEY J M, KINGHORN B P, TIER B, et al. A phasing and imputation method for pedigreed populations that results in a single-stage genomic evaluation[J]. Genetics Selection Evolution, 2012, 44(1): 9. DOI:10.1186/1297-9686-44-9 (0)
[10]	BECKER T, KNAPP M. Maximum-likelihood estimation of haplotype frequencies in nuclear families[J]. Genetic Epidemiology, 2004, 27(1): 21-32. DOI:10.1002/gepi.10323 (0)
[11]	SARGOLZAEI M, CHESNAIS J P, SCHENKEL F S. A new approach for efficient genotype imputation using information from relatives[J]. BMC Genomics, 2014, 15: 478. DOI:10.1186/1471-2164-15-478 (0)
[12]	汪楷庭, 付璐, 孟庆利, 等. 基于填充测序数据的大白猪繁殖性状全基因组关联分析[C]//中国畜牧兽医学会. 第三届中国猪业科技大会暨中国畜牧兽医学会2019年学术年会论文集. 青岛: 中国畜牧兽医学会, 2019: 55. (0)
[13]	CLEVELAND M A, HICKEY J M. Practical implementation of cost-effective genomic selection in commercial pig breeding using imputation[J]. Journal of Animal Science, 2013, 91(8): 3583-3592. DOI:10.2527/jas.2013-6270 (0)
[14]	ZHANG C, KEMP R A, STOTHARD P, et al. Genomic evaluation of feed efficiency component traits in Duroc pigs using 80K, 650K and whole-genome sequence variants[J]. Genetics Selection Evolution, 2018, 50(1): 14. DOI:10.1186/s12711-018-0387-9 (0)
[15]	GROSSI D A, BRITO L F, JAFARIKIA M, et al. Genotype imputation from various low-density SNP panels and its impact on accuracy of genomic breeding values in pigs[J]. Animal: An International Journal of Animal Bioscience, 2018, 12(11): 2235-2245. DOI:10.1017/S175173111800085X (0)
[16]	ALILOO H, MRODE R, OKEYO A M, et al. The feasibility of using low-density marker panels for genotype imputation and genomic prediction of crossbred dairy cattle of East Africa[J]. Journal of Dairy Science, 2018, 101(10): 9108-9127. DOI:10.3168/jds.2018-14621 (0)
[17]	IBEAGHA-AWEMU E M, PETERS S O, AKWANJI K A, et al. High density genome wide genotyping-by-sequencing and association identifies common and low frequency SNPs, and novel candidate genes influencing cow milk traits[J]. Scientific Reports, 2016, 6: 31109. DOI:10.1038/srep31109 (0)
[18]	TALOUARN E, BARDOU P, PALHIÈRE I, et al. Genome wide association analysis on semen volume and milk yield using different strategies of imputation to whole genome sequence in French dairy goats[J]. BMC Genetics, 2020, 21(1): 19. DOI:10.1186/s12863-020-0826-9 (0)
[19]	HUANG S, HE Y, YE S, et al. Genome-wide association study on chicken carcass traits using sequence data imputed from SNP array[J]. Journal of Applied Genetics, 2018, 59(3): 335-344. DOI:10.1007/s13353-018-0448-3 (0)
[20]	邱奥, 王雪, 孟庆利,等. 3款猪50K SNP芯片基因型填充效果研究[J]. 中国畜牧杂志, 2021, 57(S1): 33-38. (0)
[21]	BUTTY A M, SARGOLZAEI M, MIGLIOR F, et al. Optimizing selection of the reference population for genotype imputation from array to sequence variants[J]. Frontiers in Genetics, 2019, 10: 510. DOI:10.3389/fgene.2019.00510 (0)
[22]	PAUSCH H, AIGNER B, EMMERLING R, et al. Imputation of high-density genotypes in the Fleckvieh cattle population[J]. Genetics Selection Evolution, 2013, 45(1): 3. DOI:10.1186/1297-9686-45-3 (0)
[23]	DAETWYLER H D, CAPITAN A, PAUSCH H, et al. Whole-genome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle[J]. Nature Genetics, 2014, 46(8): 858-865. DOI:10.1038/ng.3034 (0)
[24]	MCCARTHY S, DAS S, KRETZSCHMAR W, et al. A reference panel of 64, 976 haplotypes for genotype imputation[J]. Nature Genetics, 2016, 48(10): 1279-1283. DOI:10.1038/ng.3643 (0)
[25]	DAVIES R W, FLINT J, MYERS S, et al. Rapid genotype imputation from sequence without reference panels[J]. Nature Genetics, 2016, 48(8): 965-969. DOI:10.1038/ng.3594 (0)
[26]	DAVIES R W, KUCKA M, SU D, et al. Rapid genotype imputation from sequence with reference panels[J]. Nature Genetics, 2021, 53(7): 1104-1111. DOI:10.1038/s41588-021-00877-0 (0)
[27]	RUBINACCI S, RIBEIRO D M, HOFMEISTER R J, et al. Efficient phasing and imputation of low-coverage sequencing data using large reference panels[J]. Nature Genetics, 2021, 53(1): 120-126. DOI:10.1038/s41588-020-00756-0 (0)
[28]	BOLORMAA S, GORE K, VAN DER WERF J H J, et al. Design of a low-density SNP chip for the main Australian sheep breeds and its effect on imputation and genomic prediction accuracy[J]. Animal Genetics, 2015, 46(5): 544-556. DOI:10.1111/age.12340 (0)
[29]	VAN DEN BERG I, BOICHARD D, LUND M S. Comparing power and precision of within-breed and multibreed genome-wide association studies of production traits using whole-genome sequence data for 5 French and Danish dairy cattle breeds[J]. Journal of Dairy Science, 2016, 99(11): 8932-8945. DOI:10.3168/jds.2016-11073 (0)
[30]	PICCOLI M L, BRITO L F, BRACCINI J, et al. Genomic predictions for economically important traits in Brazilian Braford and Hereford beef cattle using true and imputed genotypes[J]. BMC Genetics, 2017, 18(1): 2. DOI:10.1186/s12863-017-0475-9 (0)
[31]	王珏, 刘成琨, 刘德武, 等. 基于不同密度SNP芯片在杜洛克公猪中的全基因组选择效果分析[J]. 中国畜牧杂志, 2019, 55(12): 75-79. (0)
[32]	DUFFLOCQ P, PÉREZ-ENCISO M, LHORENTE J P, et al. Accuracy of genomic predictions using different imputation error rates in aquaculture breeding programs: A simulation study[J]. Aquaculture, 2019, 503: 225-230. DOI:10.1016/j.aquaculture.2018.12.061 (0)
[33]	AKBARPOUR T, HOSSEIN-ZADEH N G, SHADPARVAR A A. Marker genotyping error effects on genomic predictions under different genetic architectures[J]. Molecular Genetics and Genomics, 2021, 296(1): 79-89. DOI:10.1007/s00438-020-01728-z (0)