python 服务器批处理得到PSSM矩阵的问题

 更新时间:2022年07月21日 11:37:37   作者:李划水员  
这篇文章主要介绍了python 服务器批处理得到PSSM矩阵,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

Python客栈送红包、纸质书

1. 在linux上安装psiblast

最好新建一个python环境,因为我发现conda安装blast默认的是python==3.6.11,可能会不小心把你的python版本改掉…然后你写好的代码全die了……

1
2
3
conda create -n blast python==3.6.11
source activate blast
conda install -c bioconda blast

2.下载并编译用于比对的大型蛋白质数据库

nr和uniprot是比较通用的数据库:

ftp://ftp.ncbi.nlm.nih.gov/blast/db/
https://www.uniprot.org/downloads

1)nr是ncbi收集的目前所有微生物的蛋白序列,是用来计算氨基酸一般情况下的频率的,160G

2)uniprot90根据相似性做了一个去冗余,所以比nr要小很多,56G

1
2
3
4
# 以uniprot90为例
wget ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz # 下载
gzip -d uniref90.fasta.gz # 解压
makeblastdb -in uniref90.fasta -parse_seqids -hash_index -dbtype prot # 编译

解析完成后的样子:

文件是这个样子:(只截取了一部分)

3. 获取PSSM矩阵

我的初始文件是:

P00269.fasta是对单条蛋白质处理,里面的格式是:

testset.fasta是对蛋白质集合批处理,里面的格式是(也可以单独蛋白质存为.fasta文件,由于blast只能处理单条蛋白糊,把这个集合知识归总的意思,第一步还是要生成单条蛋白质的.fasta文件,所以这个文件看个人意愿):

1)单条蛋白质序列的处理方法

1
2
import os
os.system('psiblast -query dataset/P00269.fasta -db /PSSM/uniref90.fasta -num_iterations 3 -out_ascii_pssm /dataset/P00269.pssm')##这个蛋白质好慢呀

2)批处理获取的方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import os
  
file_name='/dataset/testset.fasta'
Protein_id=[]
with open(file_name,'r') as fp:
    i=0
    for line in fp:
  
        if i%2==0:
            # Protein_id.append(line[1:-1])
            id=line[0:-1]
            p=line[1:-1]
            with open ('/dataset/'+str(p)+'.fasta','a') as protein:
                protein.write(id)
                # protein.write()
        if i%2==1:
            seq=line[0:-1]
            with open ('/dataset/'+str(p)+'.fasta','a') as protein:
                protein.write('\n')
                protein.write(seq)
        i=i+1
  
        os.system('psiblast -query '+'/dataset/'+str(p)+'.fasta -db /PSSM/uniref90.fasta -num_iterations 3 -out_ascii_pssm /dataset/'+str(p)+'.pssm')

##PSSM真是太慢了,下面是只生成一个后的截图

emmmm,在研究怎么把这个矩阵存入文件方便调用,今天应该会更新……但是他好慢啊,不想用了。

参考文献:

linux下用psiblast批量生成pssm矩阵

到此这篇关于python服务器批处理得到PSSM矩阵的文章就介绍到这了,更多相关python服务器批处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

蓄力AI

微信公众号搜索 “ 脚本之家 ” ,选择关注

程序猿的那些事、送书等活动等着你

原文链接:https://blog.csdn.net/Daisy4/article/details/125876214

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!

相关文章

  • 利用pyinstaller打包exe文件的基本教程

    利用pyinstaller打包exe文件的基本教程

    这篇文章主要给大家介绍了关于利用pyinstaller打包exe文件的基本方法,文中通过示例代码介绍的非常详细,对大家学习或者使用pyinstaller具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • python 获取list特定元素下标的实例讲解

    python 获取list特定元素下标的实例讲解

    下面小编就为大家分享一篇python 获取list特定元素下标的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python 实现一个计时器

    Python 实现一个计时器

    这篇文章主要介绍了Python 实现一个计时器的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • Pyinstaller加密打包应用的示例代码

    Pyinstaller加密打包应用的示例代码

    这篇文章主要介绍了Pyinstaller加密打包应用的示例代码,代码简单易懂,非常不错,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • Pandas DataFrame实现任意位置插入一列或一行

    Pandas DataFrame实现任意位置插入一列或一行

    Pandas是Python中最流行的数据处理和分析库之一,在数据分析过程中,有时候需要在Dataframe中插入新的数据列,本文主要介绍了Pandas DataFrame实现任意位置插入一列或一行,具有一定的参考价值,感兴趣的可以了解一下
    2023-08-08
  • Jupyter Notebook 远程访问配置详解

    Jupyter Notebook 远程访问配置详解

    这篇文章主要介绍了Jupyter Notebook 远程访问配置详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • python操作配置文件实战记录

    python操作配置文件实战记录

    这篇文章主要给大家介绍了关于python操作配置文件的相关资料,配置文件是为程序配置参数和初始设置的文件,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-11-11
  • Python+ChatGPT实现5分钟快速上手编程

    Python+ChatGPT实现5分钟快速上手编程

    最近一段时间chatGPT火爆出圈!无论是在互联网行业,还是其他各行业都赚足了话题。俗话说:“外行看笑话,内行看门道”,今天从chatGPT个人体验感受以及如何用的角度来分享一下
    2023-02-02
  • 学会这个炫酷图表利器pyecharts,还怕不被公司重用?

    学会这个炫酷图表利器pyecharts,还怕不被公司重用?

    前段时间,公司高层要看上半年度项目组业绩数据分析,没办法,硬着头皮也要上!说到数据分析,肯定离不开数据的可视化,毕竟图表比冷冰冰的数字更加直观,Boss只想一眼就能看出趋势和结论.今天我们就聊一聊 pyecharts 中几种常用的图表, ,需要的朋友可以参考下
    2021-06-06
  • Python中json格式数据的编码与解码方法详解

    Python中json格式数据的编码与解码方法详解

    这篇文章主要介绍了Python中json格式数据的编码与解码方法,详细分析了Python针对json格式数据的编码转换操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2016-07-07

最新评论