按照坐标排序

通常 GTB 文件都是按照坐标有序的,但当发生了 LiftOver 或按照某些注释字段排序(例如,按照变异位点的致病潜力排序)后就可能导致 GTB 文件变成坐标无序的文件。使用以下指令对 GTB 文件按照坐标进行排序:

java -jar gbc.jar sort <input> [output] [options]

未设置 output 时,输出文件将覆盖原文件。如果输入文件为远程站点文件,则输出文件保存在当前的本地工作路径下。

GTB 文件要求的 “有序” 是弱有序,即染色体之间可以无序排列,但相同染色体的数据必须是有序的。有序的 GTB 或 VCF 在许多的算法设计中都是强制的。例如,计算 LD 系数时,无序的 GTB 或 VCF 文件将会耗费大量时间捕捉窗口内的变异位点;无序的 GTB 或 VCF 文件在检索坐标时需要查询所有的数据。

[!NOTE|label:示例程序|style:callout]

使用 GBC 为示例文件 https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb 按照变异位点的坐标排序 (该文件从 hg19 转换为 hg38,未对坐标排序):

# 在终端直接运行
java -jar gbc.jar sort https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb

# 使用 docker 运行
docker run -v `pwd`:`pwd` -w `pwd` --rm -it -m 4g gbc \
sort https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb

程序参数

语法: sort <input> [output] [options]
Java-API: edu.sysu.pmglab.gbc.toolkit.GTBSorter
关于: 按照坐标排序 GTB 文件中的变异位点.
参数:
  --chromosome  指定染色体标签文件.
                格式: --chromosome <file>
  --threads,-t  设置并行线程数.
                默认值: 4
                格式: --threads <int>

API 工具

对 GTB 文件进行排序的 API 工具是 edu.sysu.pmglab.gbc.GTBSorter,使用示例如下:

GTBSorter.of("https://pmglab.top/gbc/download/assoc.unorder.hg38.gtb")
        .submit();
Copyright ©张柳彬 all right reserved文档修订时间: 2023-04-01 19:59:50

results matching ""

    No results matching ""