做科研有三種痛不能忍,一種是腦袋空空沒思路,二是辛辛苦苦沒成果,三是別人輕輕松松發文章。今兒先和大家聊聊課題思路方面的事兒,今天主題我們選了基因研究,為啥?生信火,大數據火,這兩個都繞不開基因。 所以你的日??赡苁沁@樣的: 1 花了老大筆錢測了序,篩了一堆讓人傻眼的基因,接下去怎么做? 2 挖了數據分析了半天,還是一堆看不出所以然的基因,接下去呢? 3 看文獻相中了一個感興趣的基因,那我可不可以就做這一個? 歸納一下就兩個問題:1、怎么確定一個基因可以做;2、基因研究該怎么做。 這兩個問題也是老生常談了,但攻略干貨看起來簡單,回歸到實際問題還是得文獻數據庫來回翻。今天就來解決點實際問題: 看看如何快速判斷一個基因是否值得做,怎么做。 用到的一個懶人工具——基因雷達,非常適合文獻和數據庫不對付的親,只要輸入你感興趣的基因,基因的科研熱度,相關疾病,調控網絡和在癌癥中的表達值四個層面就全出來了。似乎從此可以脫離苦海了。 1 如何省時省力確定一個基因可以做 先看差異表達 比如說你翻翻翻文獻看到了一個還不錯的基因CCL5(PMID:17914389,乳腺癌),也想研究下,但自己沒有數據,不知道這個基因在你研究中的疾病到底是個什么情況。 不用翻TCGA,你就可以在基因雷達中中查看CCL5在33種腫瘤中正常組織和癌組織的表達情況。在工具中輸入CCL5,選擇表達概況,就可以得到下面的結果。 (點開看大圖) PS:表達概況是基于TCGA的RNA-SEQv2數據中的標準化數據文件中的表達值進行直接使用(數據收集時間為2016年6月)。 CCL5在乳腺癌轉移中有重要作用,通過下面數據可以推測CCL5在某些腫瘤中高表達也可能具有轉移作用,比如膀胱膀胱尿路上皮癌(BLCA)。 再看研究概況 好,有數據依據了,那CCL5別人都研究到什么程度了呢?這時你可以通過工具中的研究熱點來看。研究熱點根據基因在數據庫中的注釋情況,從相關文獻、通路、功能、已驗證的靶向miRNA、和疾病五個角度來統計和評價基因研究情況。 (點開看大圖) PS : 綠色代表目標基因,灰色代表了數據庫中眾基因在 各個層面的中位數。 1. 相關文獻:被文獻報道的總次數; 2. 通路:即根據KEGG數據庫統計基因參與的通路的數 量; 3. 功能:即根據Go數據庫(Gene Ontology,基因本 體學數據庫),統計基因參與的功能(生物過程)的數 量。 4. 已驗證的靶向microRNA:已經有文獻發表驗證的 miRNA的數量。 5. 疾?。阂呀浻形墨I發表的疾病數量。 從上圖綠色包圍灰色的形勢看,這個CCL5也算研究的熱門了。點擊相應的內容,可以進入到對應的數據界面。 那CCL5都在哪些疾病中研究過了呢?點擊“disease”就可以跳轉到疾病界面,它統計了基因的研究最多的疾病TOP 20。我們關注CCL5在癌癥轉移方面的研究,找到“癌癥轉移”,不算太多,點擊即可進入文獻詳情頁面。 (點開看大圖) 好用不?下面解決下第二個問題。 2 確定基因后如何快速確定下一步怎么做 現在假設CCL5是可以作為我們后續的研究對象,在基因層面,一般的思路是先做基因的功能驗證,再探討基因的作用機理。前者比較常規,在這不做過多討論,今天來看看如何用基因雷達快速挖掘出基因可能的調控網絡。 畫調控網絡 在機制探索中,找出關鍵基因后,會以它為中心展開,看其受到哪些基因調控,又調控了哪些基因,就是所謂的找其上下游基因/調控因子,進而摸索出一整個調控網絡。 在基因里雷達中,調控網絡整合了文獻報道過的TF,miRNA,lncRNA及KEGG數據庫中的上下游基因。如CCL5的調控網絡,不同色塊代表不同的基因層面和作用方式,點擊圖中的某個點可看到具體的數據信息。 (點開看大圖) ps: 1. 轉錄因子:已經有文獻報道的相關轉錄因子; 2. miRNA:已經有文獻報道的相關miRNA; 3. lncRNA:依據文獻挖掘可能有關的lncRNA;(準確性較弱) 4. 上下游相關基因:依據KEGG數據庫的基因上下游關系。 圖很炫,但結果這么多,咋理出一條線來呢?這個的話就需要結合具體的研究場景去做篩選了。 如果想找新的被人沒做過的轉錄因子,可在基因雷達中的預測轉錄一因子部分查看。還是CCL5為例,CCL5預測到的TF只有三個,這樣 (點開看大圖) Ps:基于基因的轉錄本通過Transfac數據庫進行轉錄因子預測,以推薦度來表示預測出來的轉錄因子的科研價值,推薦度越高越好。 用完只有一種感覺,專門為我這種四體不勤的人準備的嘛。求鏈接! |
|