从 MAF 文件构建 GTB 存档
Mutation Annotation Format (即 MAF) 是一个制表符分隔的文本文件,用于整合所有样本的体细胞突变注释结果,通过一个文件就可以包含所有样本的 SNV 和对应的注释信息。GBC 为 MAF 文件中的变异记录创建汇总信息,按照 染色体-坐标-等位基因
的形式组织相同的突变信息。在命令行中,使用如下指令为 MAF 文件构建 GTB 存档:
java -jar gbc.jar maf2gtb <input> [output] [options]
[!NOTE|label:示例程序|style:callout]
使用 GBC 为示例文件
https://pmglab.top/gbc/download/all_QC_mutation_profile.maf
构建存档,并将参考基因组的版本从 hg19 提升到 hg38:# 下载数据文件 wget https://pmglab.top/gbc/download/all_QC_mutation_profile.maf -O all_QC_mutation_profile.maf # 在终端直接运行 java -jar gbc.jar maf2gtb ./all_QC_mutation_profile.maf ./all_QC_mutation_profile.hg38.gtb \ --liftover hg19ToHg38 # 使用 docker 运行 docker run -v `pwd`:`pwd` -w `pwd` --rm -it -m 4g gbc \ maf2gtb ./all_QC_mutation_profile.maf ./all_QC_mutation_profile.hg38.gtb \ --liftover hg19ToHg38
程序参数
语法: maf2gtb <input> [output] [options]
Java-API: edu.sysu.pmglab.gbc.MAF2GTB
关于: 为 MAF 文件压缩和构建 GTB 文件.
参数:
--chromosome 指定染色体标签文件.
格式: --chromosome <file>
--threads,-t 设置并行线程数.
默认值: 4
格式: --threads <int>
--add-meta 添加元信息到输出文件.
格式: --add-meta <key>=<value> <key>=<value> ...
--field 设置记录突变累计数的字段名.
默认值: Tumor_Allele_Count
格式: --field <string>
--liftover 对坐标进行版本转换. 转换文件从http://hgdownload.cse.ucsc.edu/goldenPath/<version>/liftOver 下载.
格式: --liftover <string> ([hg19ToHg38/hg38ToHg19/hg18ToHg19/hg18ToHg38] (忽略大小写))
API 工具
将 MAF 文件转换为 GTB 文件的 API 工具是 edu.sysu.pmglab.gbc.MAF2GTB,使用示例如下:
MAF2GTB.of("https://pmglab.top/gbc/download/all_QC_mutation_profile.maf")
.setOutputFile(new File("./all_QC_mutation_profile.hg38.maf"))
.liftOver(RefGenomeVersion.hg19, RefGenomeVersion.hg38)
.convert();