按照坐标排序
通常 GTB 文件都是按照坐标有序的,但当发生了 LiftOver 或按照某些注释字段排序(例如,按照变异位点的致病潜力排序)后就可能导致 GTB 文件变成坐标无序的文件。使用以下指令对 GTB 文件按照坐标进行排序:
java -jar gbc.jar sort <input> [output] [options]
未设置 output
时,输出文件将覆盖原文件。如果输入文件为远程站点文件,则输出文件保存在当前的本地工作路径下。
GTB 文件要求的 “有序” 是弱有序,即染色体之间可以无序排列,但相同染色体的数据必须是有序的。有序的 GTB 或 VCF 在许多的算法设计中都是强制的。例如,计算 LD 系数时,无序的 GTB 或 VCF 文件将会耗费大量时间捕捉窗口内的变异位点;无序的 GTB 或 VCF 文件在检索坐标时需要查询所有的数据。
[!NOTE|label:示例程序|style:callout]
使用 GBC 为示例文件
https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb
按照变异位点的坐标排序 (该文件从 hg19 转换为 hg38,未对坐标排序):# 在终端直接运行 java -jar gbc.jar sort https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb # 使用 docker 运行 docker run -v `pwd`:`pwd` -w `pwd` --rm -it -m 4g gbc \ sort https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb
程序参数
语法: sort <input> [output] [options]
Java-API: edu.sysu.pmglab.gbc.toolkit.GTBSorter
关于: 按照坐标排序 GTB 文件中的变异位点.
参数:
--chromosome 指定染色体标签文件.
格式: --chromosome <file>
--threads,-t 设置并行线程数.
默认值: 4
格式: --threads <int>
API 工具
对 GTB 文件进行排序的 API 工具是 edu.sysu.pmglab.gbc.GTBSorter,使用示例如下:
GTBSorter.of("https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb")
.submit();