2025-11-23 09:48:08

如何简单高效下载ncbi中refseq、genbank数据库的基因组或EBI数据库中的原始reads数据

(一)利用ncbi-genome-download批量下载基因组文件12#安装conda install bioconda::ncbi-genome-download

主要参数groups参数定于目标物种所在的大类,包括’all’, ‘archaea’, ‘bacteria’, ‘fungi’, ‘invertebrate’, ‘metagenomes’, ‘plant’, ‘protozoa’, ‘vertebrate_mammalian’, ‘vertebrate_other’, ‘viral’。只将所属类群的名字放在命令行中-s或–section 选择数据库refseq或genbank,一般不添加该参数,默认为refseq数据库-t或–taxid 添加所下载物种在ncbi的id,可以直接添加,也可以放入一个文件中批量下载多个物种-F或–formats 定义所需物种的数据的类型,包括’genbank’, ‘fasta’, ‘rm’, ‘features’, ‘gff’, ‘protein-fasta’, ‘genpept’, ‘wgs’, ‘translated-cds’, ‘all’,如果仅下载基因组数据则用fasta,看个人需求-A或–assembly-accessions 利用基因组的accession号来下载,-t和-A参数选一个使用–flat-output 该参数将所有文件直接转储到输出路径中,而不创建任何子目录-o或–output-folder 输出文件的名字

12345678910#示例1:下载文昌鱼的基因组文件,文昌鱼在ncbi的id为7739,注意在第2、3命令行中,在使用accessions号时,默认检索refseq库,应该用GCF开头的accession,如果使用GCA开头的accessions,应该加上-s genbank参数ncbi-genome-download --taxid 7739 invertebrate -F fasta --flat-output -o Amphioxusncbi-genome-download --assembly-accessions GCF_000003815.2 invertebrate -F fasta --flat-output -o Amphioxusncbi-genome-download -s genbank --assembly-accessions GCA_000003815.2 invertebrate -F fasta --flat-output -o Amphioxus1#示例2:批量下载文昌鱼和amil(id为45264)的基因组,将两着的id放到文件download_id.txt中ncbi-genome-download --taxid download_id.txt invertebrate -F fasta --flat-output -o genome_data#示例3:下载amil的gff、genbank和protein-fasta文件ncbi-genome-download --taxid 45264 invertebrate -F gff,genbank,protein-fasta --flat-output -o amil

ncbi-genome-download的其他用法,比如下载某一个属下所有的基因组等,可以参考https://github.com/kblin/ncbi-genome-download

(二)利用aspera在EBI数据库下载sra数据优势:①aspera中的ascp命令的下载速度远比wget和prefetch快;②相比与NCBI的SRA数据库,EBI可以直接下载fastq文件,避免sra文件向fastq文件的转换;

12#安装conda install hcc::aspera-cli

主要参数-v 打印详细信息-i 密钥文件的地址,如果是conda下载,则在下载环境中的etc目录中:/home/tianzhen/miniconda3/envs/evolution_work/etc/asperaweb_id_dsa.openssh-l 最大下载速度-k 1 设置断点续传-T 禁用加密–mode=recv 选择下载模式,send为上传模式–host=fasp.sra.ebi.ac.uk NCBI的host名是ftp-private.ncbi.nlm.nih.gov,EBI的host名为fasp.sra.ebi.ac.uk–user=era-fasp NCBI的用户名anonftp,EBI的用户名era-fasp

123#示例:将accession号存入到文件sra_id.txt中,例如人皮肤转录组reads(SRR28800820)ascp -v -QT -l 200m -P33001 -k1 -i /home/tianzhen/miniconda3/envs/evolution_work/etc/asperaweb_id_dsa.openssh --mode=recv era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR288/020/SRR28800820/SRR28800820_1.fastq.gz ./

下载速度平均60M/s

利用EBI下载页面导出多个下载链接进行批量下载。

参考:

https://github.com/kblin/ncbi-genome-download

https://lishensuo.github.io/posts/bioinfo/049%E4%B8%8B%E8%BD%BD%E6%B5%8B%E5%BA%8F%E6%95%B0%E6%8D%AEsrr%E4%B8%8Efastq.gz%E6%96%B9%E5%BC%8F/https://cloud.tencent.com/developer/article/1587554

Copyright © 2088 英式橄榄球世界杯_世界杯女篮 - tylpr.com All Rights Reserved.
友情链接