Uniprot數據庫是資源最廣、信息最豐富的蛋白質數據庫,是查詢蛋白功能的首選數據庫。Uniprot數據庫由Swiss-Prot、TrEMBL和PIR-PSD三大子數據庫構成,數據主要來自于各物種基因組測序完成后得到的全基因蛋白質序列,并包含了很多來自文獻中的蛋白及其功能信息。尤其是swiss-prot 子數據庫,庫中蛋白質信息都是手工核對過的 ,非冗余, 有詳細注釋信息的蛋白數據。作為一名科研工作者,Uniprot數據庫的使用技能應該是必備的技能之一。
(1)UniProtKB(UniProt Knowledgebase)是蛋白質序列、功能、分類、交叉引用等信息存取中心;UniProtKB 主要由兩部分組成∶
UniProtKB/Swiss-Prot∶高質量的、手工注釋的、非冗余的數據集;主要來自文獻中的研究成果和 E-value 校驗過計算分析結果。有質量保證的數據才被加入該數據庫;
UniProtKB/TrEMBL∶該數據集包含高質量的計算分析結果,—般都在自動注釋中富集,主要應對基因組項目獲得的大量數據流以及人工校驗在時間上和人力上的不足。注釋所有可用的蛋白序列。在三大核酸數據庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都被自動翻譯并加入該數據庫中。它也有來自 PDB 數據庫的序列,以及Ensembl、Refeq和 CCDS基因預測的序列;
(2)UniRef(UniProt Non-redundant Reference)將密切相關的蛋白質序列組合到一條記錄中,以便提高搜索速度。目前,根據序列相似程度形成 3個子庫,即 UniRef10 0、UniRef90和 UniRef50;
(3)UniParc(UniProt Archive)是一個綜合性的非冗余數據庫,包含了所有主要的、公開的數據庫的蛋白質序列。由于蛋白質可能在不同的數據庫中存在,并且可能在同一個數據庫中有多個版本,為了去幾余,UniaraParc 對每條唯—的序列只存—次無論是否為同一物種的序列,只要序列相同就被合并為一條,每條序列提供穩定的、唯一的編號 UPI。該數據庫含有蛋白質的序列信息,而沒有注釋數據。
UniProt 數據庫中,UniProtKB/Swiss-Prot 是我們最常用的,今天我們主要介紹這個數據庫的使用。我們在輸入欄中輸入CCL4L2,點擊search,就會出現不同物種該蛋白的詳細信息。找到我們想要的物種條目,點擊進入。
Uniprot數據庫主要子數據庫組成:
以上子數據庫間的關系如下:uniprot會收集EMBL,GenBank,DDBJ等公共數據庫中的蛋白質序列及功能信息等原始數據,處理后存入UniParc的非冗余蛋白質序列數據庫;UniPrc作為數據倉庫,再分別給UniProtKB,Proteomes,UNIRef提供可靠的數據集,其中在UniProtKB數據庫中Swiss-Prot是由TrEMBL經過手動注釋后得到的高質量非冗余數據庫,也是我們最常用的蛋白質數據庫之一。
Uniprot數據庫官方鏈接:https://www.uniprot.org/
1. 單個蛋白質信息查詢
下圖是Uniprot官方網站首頁,在UniprotKB欄輸入蛋白ID或Accession number,然后點擊search,就可以查詢蛋白功能。
我們以HUMAN CCL4L2為例,搜索其在Uniprot數據庫中的信息,如下圖,頁面默認顯示Entry模式,頁面顯示內容包括:蛋白名稱、物種來源、GO功能注釋、亞細胞定位、組織特異性表達情況、互作蛋白、Domain、序列信息、同源蛋白以及其他數據鏈接等信息。
點擊Display下Publications按鈕,數據庫會展示該蛋白發表已經收錄的文章。
2. 批量蛋白質信息查詢
假如需要查詢的蛋白較多,則可以通過點擊首行任務欄Retrieve/ID mapping,如下圖,查詢蛋白列表可直接粘貼在下圖1. Provide your identifiers文本框中,也可以將蛋白ID單列粘貼于TXT文本中提交到網站。另外該頁面2. Select options 還可提供ID轉換功能,支持多種數據庫間的ID轉換。
提交好蛋白列表后,點擊Submit,網站便會自動分析,結果展現形式如下:
展示信息包括:蛋白對應的基因名、蛋白描述、序列長度等信息。
點擊Column按鈕,可以選擇需要展示的數據庫信息,如GO、pathway、亞細胞定位等注釋信息,如下圖,選擇完畢后點擊save保存設置,系統會自動跳轉至信息展示頁面。
最終結果展示如下圖,勾選感興趣的蛋白,即可將本次注釋結果下載到本地查看,并且支持包括Excel格式在內的多種文本格式。
對于科研試劑銷售工作者來說,用的比較多的是這個板塊,該板塊展示的是命名(其中包括蛋白名,基因名)和來源種屬信息,如需要可以直接跳轉到NCBI、Enzem數據庫進行查詢。
之后是蛋白的亞細胞定位和拓撲結構。可以看到CCL4L2 是位于細胞膜外的分泌蛋白
在PTM部分,列舉著蛋白合成過程中,分子加工,氨基酸修飾及翻譯后修飾,比如剪切、糖基化、脂酰化、二硫鍵位置等信息,可以了解到此蛋白的信號肽序列,和前體蛋白并加以列出。
序列這部分是科研工作者需要的重要信息,此部分列出了蛋白從信號肽開始的完整序列,如果該蛋白有不同的剪切體,各剪切體的序列也會一一列出。方便研究者取用。
今天Uniprot數據庫的使用就介紹到這里,希望對您的科研有所幫助!
關注微信公眾號