1.1 一維的染色體的情況 ??我們首先來看一個圖 它展示了人1號到XY染色體的基因結構,包括插入,刪失,倒位異位等情況。很直觀,但是也展示了人染色體的復雜程度!面對如此復雜的基因組情況,如何去下手分析? 
圖一:人類染色質的情況從 chr1-XY 1.2:染色質折疊的過程 ??從一級結構DNA 到二級結構 核小體(還可以形成30nm纖絲)到三級結構(染色質 染色體) 
圖二:染色質的空間折疊 ??Ou H D et al Science, 2017 ??我們來思考一個問題,染色質的序列和染色質的構象有什么聯系or區別? 1.3:如何去研究3D基因組?
3D基因組主要依據染色體構象捕獲技術(Capturing Chromosome Conformation),用于解釋細胞內DNA物理長度與細胞核直徑之間及功能復雜性之間的矛盾,大致的實驗技術主要包括: 1. 3C (Chromatin Conformation Capture),one-to-one:通過基因座特異性引物PCR檢測單個連接產物,大多數3C通常僅能分析幾十到幾百Kb染色質之間的相互作用。 2. 4C (Circularized Chromatin Conformation Capture),one-to-all:使用反向PCR產生單基因座的全基因組相互作用圖,研究已知DNA片段(bait)與全基因組未知DNA片段之間的互作。 3. 5C (Chromatin Conformation Capture Carbon Copy),many-to-many:基于3C的基本原理,結合連接介導的擴增 (ligation-mediated amplification,LMA)來增加3C檢測的通量,識別兩組大量位點之間并行的數百萬個相互作用。 4. Hi-C(High-throughput chromosome conformation capture),all-to-all:用于對整個基因組所有位點間進行無偏差的作用分析的3C衍生技術。 5. ATAC-Seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing)及結合免疫沉淀相關技術包含ChIP-loop(chromatin immunoprecipitation-loop assay)、ChIA-PET(chromatin interaction analysis by paired-end tag sequencing)等。 Hi-C技術能夠應用的方面包括輔助基因組組裝、 研究基因間空間調控機制/構建基因組三維結構模型 、構建基因組單體型圖譜。而ATAC-Seq能夠探究染色質的開放性、開放區域定位、TF footprint、核小體定位、調控元件定位。兩者都是通過特定的手段獲得互作片段,通過二代測序獲得高通量數據。Hi-C著重于互作矩陣的分析及圖譜構建,而ATAC-Seq著重于對開放片段的分布及功能分析。 2.1 3C??2002年,Job Dekker等在Science上發表文章 Capturing Chromosome Conformation (染色質捕獲技術,簡稱3C) ??用的材料是酵母,Eco R1限制性內切酶。每一個都是黏性末端,可以連接起來。去掉蛋白后,然后再進行PCR。如果這兩個染色質的構象比較接近的話是可以通過PCR驗證出來的,比如說圖五。如果進行交聯之后,然后可以發現位置比較靠近的地方是可以P出來條帶的,說明它們的位置比較近。 (PS:這個實驗設計的比較巧妙的地方是:它有primer設計的是同向的,正常道理P不出條帶,但是可以P出來,說明位置靠的近。正好可以頭對頭P出來,而且5和6的位置靠的近。6和13的位置靠的比較遠,本文章后續還有一系列的公式推導,有興趣的話可以看看)

圖三:3C文章 ?? Job Dekker et al Science 2002 
圖四:原理圖 ?? Job Dekker et al Science 2002 
圖五:ligase驗證 ?? Job Dekker et al Science 2002 缺點:一對一,每設計一對引物只能涉及到單點的interaction。通量太低了
2.2 4C之前說過3C技術是2002年的發表產物,4C技術誕生于2006年。 chromosome conformation capture on chip (4C) 
圖六 4C技術文章 ??Simonis M et al Nature Genetics, 2006 首先也是用甲醛進行交聯 ??然后再用限制性內切酶進行酶切 用的是兩種限制性內切酶 一個是 HindIII 另是個DpnII,切完了之后可以發現一種D-H-D的模式,之后再進行連接就可以成環。 紅色的序列是知道的,但是藍色的序列是我們未知的區域。(這個是基于2003年4月人類基因組計劃完成了,那么我們就可以選擇已知的序列進行驗證了) ??紅色的序列可以設計primer,然后對這個紅-藍-紅進行測序,然后再回帖到基因組上,我們就可以知道哪一個部分和紅色的有相互作用。 
圖七 4C技術路線圖??Simonis M et al Nature Genetics, 2006 優點:一對多,可以知道一個點對于多個位點的相互距離,可以用于后續的驗證。只是06年用的是芯片測序,現在可以直接上二代測序。 2.3 5CChromosome Conformation Capture Carbon Copy (5C) ??它可以檢測若干點對若干點的相互作用,它已經是現在的技術所淘汰了。

圖八 5c技術圖 ??Dostie J et al Reinhard bendix 2006 這個技術是基于3C的基本原理,結合連接介導的擴增 (ligation-mediated amplification,LMA)來增加3C檢測的通量。以3C酶切連接文庫為模板 ,在3C引物端加上通用接頭(例如T7、T3),例如在正向引物(bait)的5’端加上T7接頭,在反向引物的3’端加上T3接頭,若兩個推測片段存在相互連接,由于連接酶介導的連接作用的性質,只有連接上的片段才有擴增。這樣,利用通用引物T7、T3進行PCR,而后將產物進行高通量測序即可實現高通量的3C實驗。[5] 2.4 Hi-C&A B Compartment??HiC的文章是發表于2009年,這個技術的革新突破是源于2006年illumina公司的測序成功上市推廣。可以解決全基因組所有對所有的相互作用的一個探究! ??下圖放的是09年的原文的版本,現在用的HiC的protocol 是14年的改進版本,同樣是說通過甲醛可以把位置距離靠的比較近的DNA鏈連在了一起。之后,用限制性內切酶進行酶切,酶切完了之后進行補平(在T的位置加上了biotein的標簽),補平完了之后進行連接。然后去掉蛋白質進行超聲破碎和打斷,然后可以可以用抗體把帶有biotein標簽的DNA進行捕獲,然后進行雙端測序!再把基因A B回帖回去,展示其相互位置。 ??(ps:為什么要加Biotein標簽呢?因為在后期的時候形成的 DNA loop會被打斷,會產生 黃色 藍色 黃藍色三種顏色代表的DNA, 那么我們需要的是黃藍色的DNA,這種DNA被biotein特異性標記,后續純化下來的,就是我們想要的目的片段。)

圖九:Hic 實驗流程圖 ??Lieberman-Aiden E et al science 2009 那么我們再來看一個3D基因組領域最常見的熱圖

圖十:Hic 的熱圖展示及重復結果??Lieberman-Aiden E et al science 2009 ??這張圖B分別代表的是 用HindIII 酶切之后的染色體的相互作用的圖,橫 縱坐標是14號染色體的結構位置,以1M為一個小格子單位,C圖是代表了一個生物學重復,D圖是用另一個限制性內切酶做出來的結果。(這里14號染色體斷臂的結構沒有顯示出來,只是畫了一部分)而且這個圖展示的是Cis-interaction的結果(什么是Cis interaction?它指的是雙端測序都map到一個染色體上的情況,每一個小格子里會統計reads map到里面的多少) 紅的顏色越深代表的他們之間測到的reads越多。 從以上的圖我們可以看到:
1:熱圖是對稱的(所以一般看的時候會看到一個三角形的熱圖) 2:熱圖是有若干個分區的,每個分區都有強和弱的分界線
然后呢?作者想去進一步去探尋其中的規律,首先它先算出來了,觀察值和期望值的比值。然后根據觀察值和期望值的比值做了另一個熱圖。 (PS:如何去看這個圖?首先來了解一下 什么觀察值?什么是期望值?觀察值就是圖十中的熱圖原始數據,在后續的計算中,肯定是需要對觀察值進行一定的數值校正,那么校正后的值就是期望值。然后用觀察值/期望值,如果這個算出來的結果是大于1,那么用紅色標注一下,反之用藍色標注小塊。) 
圖十一:obs/exp的值 ??Lieberman-Aiden E et al science 2009 然后再對其做了一個相關系數的計算,如果這兩個區域靠的比較近,得到的結果就會顯著相關 
圖十二, 相關性系數計算矩陣 ??Lieberman-Aiden E et al science 2009 然后是不是C圖比B圖看的要更清楚了? 這里的分析出來的結果,其實就已經是主成分(PCA)分析的套路前兩步,第一步歸一化,第二步求協方差(這里的相關系數和協方差得到效果一樣,正的協方差表達了正相關性,負的協方差表達了負相關性。)
那么接下來就是要去求主成分,第一主成分,第二主成分 主成分為正的區域,我們成為A compartment ;主成分為負的區域,我們稱為B compartment接下來我們來看一個圖 
圖十三:chr14 的分析圖??Lieberman-Aiden E et al science 2009 這個圖,上面半部分的幾行(從上到下)分別是
coverage 覆蓋度 (對chr14進行畫bin,然后對每個bin里的reads進行統計,柱子越高代表統計到的reads越多)
genes 基因數(每個bin里面的基因數目多少也用柱狀來表示)
H3K36me3 (H3組蛋白第36賴氨酸三甲基化修飾,代表的是活躍的組蛋白修飾)
H3K27me3 (H3組蛋白第27賴氨酸三甲基化修飾,代表的抑制的組蛋白修飾)
DNAseI (DNA酶切割活性情況,如果柱子的圖越高,說明可以被切割的DNA越多,染色質是趨于開放狀態的)
Eig (主成分分析正負的情況,上面是正的(A compartment),下面是負的(B compartment)) 這個圖的下面那部分是chr14的相關系數圖,灰色區域代表的是沒有匹配上區域。(暫時不關注) 當對應的是A compartment的時候,對應的DNA密度高,基因也多,而且相關組蛋白修飾也表示轉錄活躍。反之 B compartment的信號低。
當基因密度高,轉錄活性和組蛋白修飾高的時候。是代表轉錄和染色體信號越松散越活越。反之越不活躍
2.5 ?? TAD(topological associated domains)在3D基因組領域內另一個比較重要的概念TAD(topological associated domains )是2012年提出,這篇工作發表在nature上。它的長度大概是1M以下,300Kb以上。并且他們通過這個TAD結構,發現了在邊界區域,CTCF ,管家基因,轉座子等有富集。并且證明了一定的生物學功能。 
圖十四 關于TAD的nature 文章 
圖十五 Fig1 通過染色質的相互來發現TAD 從上往下看
domain 首先把之前得到的正方形的矩陣按對角線取一半,然后再倒過來。我們就可以看到很多的三角形,通過一定的算法,把每個三角形的邊界計算出。
DI directionality index 方向性指數,用于量化基因組區域的上游或下游相互作用偏差的程度,發現在邊界區的偏差很大
HMM stats 使用基于方向性指數(DI)的隱馬爾可夫模型(HMM)來識別偏向的“狀態”,從而推斷出基因組中拓撲結構域的位置
CTCF ChIP 數據,用CTCF抗體拉的
H3K4me3 ChIP 數據,用H3K4me3抗體拉的
RNA POl III ChIP 數據,用RNA POl III抗體拉的
p300 ChIP 數據,用p300抗體拉的
H3K4 me1 ChIP 數據,用H3K4 me1抗體拉的
基因分布 列出來基因的分布及名字 發現:在TAD(紅色三角形)的內部和邊緣, 信號強度完全不一樣。 在每個三角形的邊界上CTCF的信號比較強,H3K4me3信號強。說明它們的結構比較致密。 然后進一步去的看這個boundary的富集情況 
圖十六 人的細胞repeat 
圖十七 CTCF 富集情況 說明在染色質的邊界處的CTCF是非常富集的,CTCF有助于染色質的折疊,且有可能和絕緣子有關。 2.6 trans interaction??有沒有情況說,在雙端測序的結果匹配到不同染色體上呢?(一條reads匹配到了一個染色體,另一個reads匹配到了另一個染色體。完全有可能) ??我們來看A圖,橫坐標代表的是距離,縱坐標代表的是他們之間的靠近情況,如果線越高實線代表的1號染色體的相互作用的情況,綠色的虛線是染色體1-10號之間的相互作用的情況。紅色的虛線是染色體1-21之間的互作情況,灰色的是1號染色體和其他染色體之間的情況。 ??B圖,我們可以看到不同染色體之間的互作情況,中間的對角線代表自己和自己的相互作用用灰色代替了(讓其他染色體之間的相互作用看的清楚一些) 
圖十八 染色質的territory 情況 我們可以得出什么結論? 1 :染色體自己和自己的結合是緊密的。和其他染色體的相互作用弱 2:小的染色體的之間的相互作用強一些,除了18號染色體以外,它的位置是在細胞核的邊緣,不在細胞核的中心。
用一張圖去總結 
圖十九 3D基因組技術發展歷史 Mora et al.2015 
Ref: 1:Tuzun, E., Sharp, A.J., Bailey, J.A., Kaul, R., Morrison, V.A., Pertz, L.M., Haugen, E., Hayden, H., Albertson, D., Pinkel, D., et al. 2005. Fine-scale structural variation of the human genome. Nat. Genet. 37: 727-732. 2:Ou H D , Phan, Sébastien, Deerinck T J , et al. ChromEMT: Visualizing 3D chromatin structure and compaction in interphase and mitotic cells[J]. Science, 2017, 357(6349):eaag0025. 3:Simonis M . Simonis, M. et al. Nuclear organization of active and inactive chromatin domains uncovered by chromosome conformation capture-on-chip (4C). Nat. Genet. 38, 1348-1354[J]. Nature Genetics, 2006, 38(11):1348-1354. 4:Dostie J , Richmond T A , Arnaout R A , et al. Chromosome Conformation Capture Carbon Copy (5C): a massively parallel solution for mapping interactions between genomic elements[M]// An intellectual portrait /. Reinhard bendix, 2006. 5:http:///cn/%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF/2016/04/15/3C-4C-5C-HiC-ChIAPET-and-ChIPloop.html 6:Lieberman-Aiden E, van Berkum NL, Williams L, Imakaev M, Ragoczy T, Telling A, Amit I, Lajoie BR, Sabo PJ, Dorschner MO, Sandstrom R, Bernstein B, Bender MA, Groudine M, Gnirke A, Stamatoyannopoulos J, Mirny LA, Lander ES, Dekker J (2009) Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science 326: 289–293 7:Dixon J R , Selvaraj S , Yue F , et al. Topological domains in mammalian genomes identified by analysis of chromatin interactions[J]. Nature, 2012, 485(7398):376-380.
|