HiC辅助组装基因组,juicer+3D-DNA和ALLHIC流程

416

1. 前言

写于20211009,现在重新整理发布于这里

2. juicebox+3D-DNA流程

安装juicer和3ddna。

建立fastq文件夹,cat分别合并 R1和R2测序文件。

建立reference文件夹,放入.fa文件,用以下命令进行预处理

mamba activate juicer
mamba install -y bwa
bwa index genome.fa

python ~/software/juicer-1.6/misc/generate_site_positions.py MboI genome genome.fa
awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_MboI.txt  > skgenome.chrom.size

mkdir fastq
ln -s /mnt/caigui/41_sk_genome_129M/37_hicpro/fastq/sample1/reads_R1.fastq.gz fastq
ln -s /mnt/caigui/41_sk_genome_129M/37_hicpro/fastq/sample1/reads_R2.fastq.gz fastq

# 整理目录如下

运行

nohup ~/software/juicer-1.6/CPU/juicer.sh \
    -g genome \
    -s MboI \
    -z /mnt/caigui/41_sk_genome_129M/39_juicer/genome.fa \
    -y /mnt/caigui/41_sk_genome_129M/39_juicer/genome_MboI.txt \
    -p /mnt/caigui/41_sk_genome_129M/39_juicer/skgenome.chrom.size \
    -D /home/caigui/software/juicer-1.6/ \
    -t 40 &> juicer.log &

juicer处理结果中的align文件夹中的inter_30.hic可以进行可视化,merged_nodups.txt 是下一步的输入文件。

3D-DNA部分

~/software/3d-dna-201008/run-asm-pipeline.sh -r 2 /mnt/caigui/41_sk_genome_129M/39_juicer/genome.fa /mnt/caigui/41_sk_genome_129M/39_juicer/aligned/merged_nodups.txt &> 3d.log 

下载sk_genome.final.hic和sk_genome.final.assembly文件到本地,使用juicebox进行手动调整,输出调整后sk_genome.final.review.assembly文件。

使用调整后的assembly文件,再跑一次3Ddna

~/software/3d-dna-201008/run-asm-pipeline-post-review.sh -r sk_genome.final.review.assembly /mnt/caigui/41_sk_genome_129M/39_juicer/genome.fa /mnt/caigui/41_sk_genome_129M/39_juicer/aligned/merged_nodups.txt &> 3d.log &

输出的sk_genome_HiC.fasta为Hic辅助组装结果。

3. 也可以选择ALLHIC流程

对于简单二倍体基因,可以使用作者最新更新的ALLHiC/bin/ALLHiC_pip.sh流程进行辅助组装

使用此流程除了基础版本需要的Samtools, bedtools, matplotlib外,还需要安装Pysam, Numpy,另外还需要安装作者未提到的Bwa和Parafly

# 使用示例
ALLHiC_pip.sh -r genome.nextpolish.purged.fa -1 /mnt/caigui/33_SKDeNovo/01_data/08_allhic/rawdata/combine/reads_R1.fastq.gz -2 /mnt/caigui/33_SKDeNovo/01_data/08_allhic/rawdata/combine/reads_R2.fastq.gz -k 10 -e GATC -t 40