基于SV的GWAS分析流程

基于 SV 的 GWA 研究已经出现。由于 PLINK 集成了许多实用的统计测试方法,SDFA 为进一步挖掘易受影响的 SV 提供了基于 SV 的 GWA 工作流程。

以 UKBB 数据库为例,当样本量为海量时,考虑到数据量巨大,将总体 SV 数据拆分为多个 VCF 文件,每个文件存储整个 SV 数据的一部分。同时,由于 PLINK 已经集成了许多 GWA 相关的统计分析工具,SDFA 提供了 SDF2Plink 工具,将 SDF 文件转换为 Plink 输入文件,用于后续基于 SV 的 GWA 分析。

SDFA 已经建立了一个 VCF ⇒ SDF ⇒ Plink 的模式,它主要包含4个过程:

  • VCF2SDF:将 VCF 转换为 SDF 文件,并执行 SV 过滤、信息提取等操作。
  • SDFConcat:将多个 SDF 文件集成到一个 SDF 文件中。
  • SDFExtract:从集成的 SDF 文件中提取部分样本信息。
  • SDF2Plink:将提取的样本转换为 Plink 文件格式,即.fam.bed.bim 文件。

[!NOTE|lable:Example 1]

这里我们举一个例子,首先对./test/resource/gwas中的多个SDF文件进行集成,接着提取./test/resource/gwas/sample.ped中的样本,最后转化为PLINK文件。最后使用PLINK文件进行分析

java -jar ./SDFA.jar gwas \
-dir ./test/resource/gwas \
-o ./test/resource/gwas/output \
--ped-file ./test/resource/gwas/sample.ped \
--concat \
-t 4

# plink
## 1. filter
./test/resource/gwas/plink2 --bfile ./test/resource/gwas/output/ \
--geno 0.2 \
--mind 0.8 \
--hwe 1e-6 \
--maf 0.05 \
--make-bed \
--out ./test/resource/gwas/output/geno_0.2_mind_0.8_maf_0.05
## 2. association
./test/resource/gwas/plink2 --bfile ./test/resource/gwas/output/geno_0.2_mind_0.8_maf_0.05 \
-adjust \
--glm \
allow-no-covars \
--out ./test/resource/gwas/output/geno_0.2_maf_0.05_res
Copyright ©彭文杰 all right reserved文档修订时间: 2025-05-14 06:54:10

results matching ""

    No results matching ""