[!TIP|label:这是一个存档版本]
GBC-stable-1.0 版本已发布,请通过 http://pmglab.top/gbc 访问。
关于 GBC
GenoType Blocking Compressor (简称 GBC) 是一个基因型数据分块压缩算法,它旨在为 VCF 文件中的基因型数据创建一个统一、灵活的结构 GenoType Block (简称 GTB)。使用 GTB 格式替代传统的 gz 格式,用户可以实现更少的硬盘空间占用、更快速的数据访问与提取、更方便的群体文件管理以及更高效的数据分析功能。GBC 包含的功能如下:
- 高效压缩: 单线程压缩时内存占用 < 4 GB、速度高达 78516269 genotypes/s、具有最高压缩比;
- 质量控制: 位点水平、基因型水平、群体等位基因频率水平质量控制, 并保留扩展接口;
- 快速查询: 查询连续/随机位点, 按照等位基因频数/频率过滤位点, 提取子集样本等;
- 文件管理: 合并、连接、拆分、子集样本选择、排序、等位基因标签检查等;
- 复杂计算: 快速 LD 计算;
- 广泛单倍体/二倍体生物的基因型编码表示
GBC 是一个免费使用的独立工具包,可以用于改进大规模基因型数据的储存与文件管理。同时,GBC 也是基础性的 API 开发工具库,可以很方便地整合到现有的工具流中,加速基于基因型数据的分析和计算流程。