蛋白质数据库检索：使用指南

用户5579

用户8457

用户1288

4月15日修改

海量数据，一站式蛋白质检索

MatwingsVenus™ 将海量生物信息数据与高性能分析能力整合在统一入口中，让序列比对与数据检索始终保持连贯。​

生物信息学分析师在进行蛋白质和基因序列比对时，常常需要在不同数据库与不同页面间切换，导入导出数据，流程既繁琐又易出错。这种体验和日益增长的多源数据之间形成了矛盾。MatwingsVenus™ 提出的理念是：数据越多，流程越少。通过重新设计交互逻辑，统一入口和内置引擎，实现了一站式检索和分析，让复杂的数据检索变得简单自然。​

common.docs_name - LarkCCM_Docs_Menu_Image

1 支持的数据库（DATABASE）

•
UniProt（默认）​

•
UniProt Swiss Prot​

•
KEGG DB​

•
自有数据库​

2 支持的检索方式（PROGRAM）

•
序列检索（BLAST）​
◦
blastp：用蛋白质序列搜索蛋白质序列库（当前版本已支持）​
◦
blastx：用于检索核酸序列（待更新……）​

•
mmseqs-remote：用于蛋白质与核酸序列的检索与对比（待更新……）​

3、支持的识别模式（MODE）

•
自动识别​

•
序列检索​

•
ID查找（待更新……）​

•
全文检索（待更新……）​

3 高级检索功能（Advanced Search）

3.1 检索参数（Params）

•
E-Thrhreshold：通过阈值，越小越严格。​
10：最宽松，结果最多，含大量假阳性，适合最大化发现潜在同源序列​
1：宽松，结果较多，假阳性概率较高，适合初步筛选、寻找远缘同源蛋白​
0.1：中等宽松，结果适中，假阳性风险降低，适合常规同源性搜索​
0.001：中等严格，BLAST 默认值，平衡数量与准确性，适合大多数通用比对​
1e-5：严格，仅返回高置信度结果，假阳性概率低，适合寻找近缘同源蛋白​
1e-10：最严格，仅返回极显著结果，几乎无假阳性，适合精确同源性验证​

•
MATRIX：打分矩阵。​
如果事先并不知道序列之间的相似程度，可以多试几个矩阵，最后再使用给分最高的那个矩阵。​

•
MAX TARGETS：设置最多返回多少条序列。​

•
HSPS PER HIT：每个 hit 中的高得分片段对数量上限。​

蛋白质数据库检索：使用指南​

蛋白质数据库检索：使用指南