與LPDDR4完全兼容且無需刷新的新型內存單元

方珺逸 2016-12-13

展開全文

垂直分層晶閘管(Vertical Layered Thyristor)，即VLT存儲單元，是Kilopass研發出的一種可以顯著降低動態隨機存取存儲器(DRAM)的成本和復雜性的新型存儲單元。這是一種靜態存儲單元，無需刷新操作；它可以使用現有晶圓工廠中的設備來制造，不需要任何新的材料或者工藝。與普通DRAM相比，VLT存儲陣列能節約多達45%的成本；這些成本節約來源于更小的VLT存儲單元，以及驅動更長行與列的能力所帶來的存儲陣列效率的提升。然而在DRAM 這樣成熟的市場中，想要發揮這些優勢，VLT 產品的設計制造必須依據行業標準，確保與不同供應商的存儲器產品兼容。

目前，基于VLT技術的存儲器已具備與現有LPDDR4制式完全兼容的能力。VLT存儲器可以模擬傳統DRAM中的分組，并且兼容其時序。設計VLT電路時，設計者可以選擇設計標準DDR控制器，或是成本較低的簡化版控制器。若使用標準控制器，由于不需要刷新，VLT存儲器會將刷新序列忽略。系統其他部分會將VLT DRAM視為通用DRAM，無需任何改變。

傳統DRAM存儲單元

為了幫助大家理解如何使用VLT存儲單元構造LPDDR4內存，我們先回顧一下傳統DRAM以及LPDDR4的工作方式。很多內容也許熟悉DRAM的人已經有所了解，但實際運用時還是有一些細微的不同，我們在這里先定義一些準則與術語，方便大家理解。

DRAM運行的很多方面取決于其電容存儲單元。首先電容的漏電特性導致了刷新的存在，其次存儲單元的基本工作方式之一是讀取，它會影響存儲器的其他工作方式。

下圖為一個電容存儲單元的原理圖，左右圖分別代表了讀取1和讀取0。電路通過電荷分配讀取存儲數值。位線(bitline)首先被預充電到一個在0和1之間的電壓值，然后通過打開讀數晶體管來選擇一個存儲單元，使電荷可以在位線與存儲單元間流動。如果位線電壓高于存儲單元電壓，那么負電荷就會從存儲單元上流出到位線上；如果位線上的電壓低于存儲單元，那么負電荷就會從位線上流進存儲單元。

Kilo16120901 圖1：傳統DRAM存儲單元電荷分配原理。(圖中綠色箭頭所示為電流，即負電荷流動的相反方向。)

Wordline: 字線 Select: 選擇 Bitline: 位線 storage capacitor: 存儲電容 Read1: 讀取1 Read 0: 讀取0

這種電荷轉移改變了位線上的電壓，通過傳感鎖存得到最終所讀的數值。然而在存儲電容中失去或者獲得的電荷，改變了節點上原有的電荷，這意味著讀取的過程是破壞性的。因此，每一次讀取之后，必須通過回寫操作恢復存儲單元中的電荷。

LPDDR4

LPDDR4標準是第四代雙倍數據速率(DDR)DRAM的低功耗版本標準，它通過總體架構，定義了內存芯片的高層結構，以及如何安置雙輸入線存儲模組(DIMM)。

通常分析DRAM有兩種方式：抽象物理器件的細節，著重分析其邏輯功能，或者通過器件的物理性質來分析內存陣列的特性。VLT和傳統DRAM雖然物理結構不同，但是必須實現相同的邏輯功能，因此我們首先用第一種方式來分析。

一塊LPDDR4存儲器芯片擁有8Gb的存儲容量，它通過兩個4Gb的獨立存儲串列(channel)來實現。每個串列擁有8個存儲庫(bank)，其中每個存儲庫包括32K存儲頁(page)，每頁上有16K存儲位(bit)。每個存儲庫的總容量為512Mb。

Kilo16120902 圖2：典型的DRAM架構和層級。

4-Gb channel: 4-Gb存儲串列 Bank: 存儲庫 Pages: 存儲頁

一塊完整的LPDDR4存儲器芯片包括兩個總單元：存儲陣列和DDR接口。一部分操作會影響到存儲陣列，而另一部分則會影響到接口。DDR接口可以同時與內存陣列以及外部系統進行通信。

Kilo16120903 圖3：LPDDR4的邏輯組織架構，圖中將存儲陣列和DDR接口分開。箭頭代表一次讀取操作以及回寫。

Memory array: 存儲陣列 Sense-amps/latches: 傳感放大器/鎖存器 DDR Interface and control: DDR接口和控制 Shadow register: 影寄存器 DDR Register: DDR寄存器 Output register: 輸出寄存器

上圖說明了這種關系，即用DDR寄存器作為外部系統和存儲陣列的主接口。讀取數據時，陣列數據會先被加載到DDR寄存器之中；進行寫操作時，所寫數據會先從外部被寫進寄存器。

由于傳統DRAM中讀取操作會破壞原數據，每一次讀取之后都必須進行一次回寫操作，以恢復原來的數據。讀取之后，DDR寄存器的內容被復制到影寄存器(Shadow Register)。當外部系統讀取DDR寄存器中的數據時，影寄存器負責將數據回寫到所選頁。同樣，寫入數據時，DDR寄存器中的數據會被傳輸到影寄存器中，這樣具體執行寫入操作時DDR寄存器就可以載入新的數據。

讀取一頁數據需要涉及一系列活動，它類似于兩個嵌套的軟件DO循環。每一個存儲頁都被分成成批(burst)讀取的、256bit一組的存儲組。這樣一來，同一個庫中的16Kbit存儲頁將有64個批存儲組。通過順序讀取每一個批存儲組，可以讀取一個完整的存儲頁，這類似于外部DO循環。

Kilo16120904 圖4：每個存儲頁由批存儲組構成，其讀取方式是順序讀取；每個批存儲組都被分成16個16位字傳送到I/O。

Burst group: 批存儲組 Page: 存儲頁

每個批存儲組被加載到256位的DDR寄存器之中，該寄存器被分為16個16位字，其內容被順序讀出，在每一個時鐘邊緣提供每一個16位字。這種操作方式是內部的DO循環。

每一行的地址(RAS)負責選擇存儲頁。每一列的地址(CAS)則同時選擇批存儲組并設置從DDR寄存器中讀取的開始字，因為不是必須從DDR寄存器的左側開始讀取。

有一點需要注意，即在影寄存器執行回寫或是寫入DDR寄存器中載入的數據的同時，DDR寄存器已經開始從存儲陣列中讀入數據或是從外部載入所寫數據。

LPDDR的運行

LPDDR4功能本質上包含四項基本操作：啟動、讀取、寫入和預充電。這些操作的其他變換形式，比如成批讀/寫和自動預充電等，可能構成一個更長的指令列表，但是并不帶來新的技術挑戰。此外，還添加了刷新、訓練和模式寄存器操作等維護性指令，以應對復雜的操作命令。

這些基本操作的簡要介紹如下：

· 啟動：它通過選擇特定的字線(wordline)將一頁數據“打開”。該存儲頁上的內容被傳感并且鎖存，然后該頁保持打開，用來在讀取操作時進行回寫，或者在寫(即讀取-修改-寫入)操作時被重新寫入。

· 讀取：它標志著開始讀出數據，每一個批存儲組的數據會從傳感放大器中被加載到DDR寄存器中。緊接著DDR寄存器開始順序讀取，每次讀取一個16bit的字。與此同時芯片通過影寄存器在仍保持著打開狀態的頁上進行回寫。

· 寫操作：數據被載入DDR寄存器，每次16字。隨后數據被轉移到影寄存器中，以便之后寫入打開頁。寫入時，如果需要，DDR寄存器可以同時載入新的256bit數據，以便進行下一次寫入。

· 預充電：在最后一個批存儲組被讀或者寫之后，存儲陣列必須為下一次操作做好準備。在寫的情況下，必須等待一個寫恢復延遲，以確保最后的批存儲組在繼續其他操作前能被成功寫入。這時打開的存儲頁已被關閉，使位線能夠自由浮動，并能重新充電恢復到VDD/2電位，如上所述。

請注意只有啟動操作才涉及存儲器陣列傳感放大，讀操作只涉及在鎖存器與DDR寄存器之間傳輸數據，以及讀出DDR寄存器的數值。

針對某些操作順序，DDR的時序可能會很復雜。但如果相鄰讀取操作發生在不同存儲庫的數據之間，時序則會大大簡化。因為在從下一個存儲庫中讀取數據前，不需要在原有的存儲庫中等待回寫和預充電。時序控制最困難的是同一存儲庫中的連續讀寫。

實現存儲陣列：MAT

當單個存儲庫的邏輯容量達到32K行乘以16K列時，在已知現有技術下，物理上已經不可能制造這樣的存儲陣列。這是因為

· 驅動晶體管的驅動能力有限，在保持性能的前提下，只有一定數量下的內存單元可以被驅動。

· 傳感放大器只能支持有限數量的存儲單元。存儲單元數量太多時，電荷分配帶來的電壓變化會減小，并被噪聲淹沒。

因此，為了確保存儲器芯片可靠并且可以制造，每一種存儲器應用都受到不同程度的物理尺寸限制。達到這種上限的存儲陣列被稱作“存儲陣列片”，簡稱為MAT。每一個MAT是一個功能齊全的陣列，包含字線和位線的譯碼器，以及傳感放大器。

以一種采用二十余納米工藝節點的普通DRAMMAT為例，其位線和字線的規模分別達到了1024條和620條。字線數量不是2的整數次方，這帶來了一些解碼方面的挑戰。該芯片或許只用了最后的幾個MAT，但這是一個可以忽略的芯片實現上的細節。

通過拼接MAT可以制造一個16×53大小，總共包含848個MAT的存儲庫。一整頁代表一行MAT中的一行存儲單元：打開一頁時，需要啟動同一行存儲單元上相應的字線。

Kilo16120905 圖5：一塊傳統DRAM上的物理布局。

16 MATs with 1K bitlines each: 16個MAT，每個都有1K位線 Conventional MAT: 傳統的MAT 53 MATs with 618 wordlines each: 53個MAT，每個都有618個字線

在了解了這些背景知識后，我們轉到全新的Kilopass存儲單元，以及它如何打造與此相同的存儲庫。

VLT存儲單元

Kilopasss的全新存儲單元基于一種垂直分布的晶閘管(也被稱為半導體控制整流器，或者SCR)。這種pnpn堆疊構建于一個p-阱之上，它可以帶走來自下部n型層中的任何空穴。

Kilo16120906 圖6：VLT存儲單元：一個帶有寫入支持PMOS晶體管的晶閘管。

p-well: p阱

通過在淺溝道隔離(STI)結構中植入一個預埋的字線，下面的n型層被連接到一個字之中。預埋字線與外部銅金屬M1層字線通過相對電阻比較大的金屬鎢來連接。這樣一來，我們可以制造比傳統DRAM更長的字線。

由于傳感機制非電荷分配，傳感放大器可以承受更長的位線。因此，這種技術可以支持大達2Kbit寬，4Kbit長的MAT ——遠大于傳統的DRAM MAT。用更大的MAT拼接成的存儲芯片冗余更少，進而使VLT內存的陣列效率達到77%(示例中二十余納米節點DRAM只有64%)。

采用VLT存儲單元構建一個LPDDR4存儲器

MAT容量增大后，一個LPDDR4存儲庫就可以用更少的MAT來組成。單純按照比特數計算，一個基于VLT技術的存儲庫將包含64個MAT，與之相對的是普通DRAM的存儲庫需要配置848個更小的MAT。余下的問題就是如何最好地配置這些MAT。

一種配置方式是每個MAT都帶有512個支持4K位線的傳感放大器，這意味著每個傳感放大器都有多路復用器去在8條位線中進行選擇。其中多路復用器的選擇基于CAS地址，將圖3中的存儲陣列原理圖進行修改，新的原理圖如下：

Kilo16120907 圖7：為VLT存儲器添加位線多路復用器。

因此對于每個被選定的存儲頁，每個MAT中八分之一的位線都被選中，這與普通DRAM實現方式中所有位線都被選中相反。這種更高效的傳感放大器利用方式在普通DRAM中是不可能的，因為所有的位線都必須被讀出，以實現回寫目的。由于VLT讀出不是破壞性的，不需要回寫操作，因而多個存儲單元能夠共享傳感放大器。

另一個問題是如何在一個MAT物理陣列中配置這些MAT。基于VLT MAT的靈活性，物理上配置這些MAT可以不與邏輯上的配置完全吻合。只要合理安排各條總線的路徑，任何形式的配置都是可能的。舉例來說，一個存儲庫可以被配置為4×16個MAT陣列，并且傳輸與傳統LPDDR4相同的數據。下圖說明了普通DRAM和VLT技術在存儲頁選擇上有什么不同，前者是選擇了一行中的所有MAT，而后者從中選擇了一個4×8的單元區塊。

Kilo16120908 圖8：存儲頁選擇，其中被選擇的MAT為紅色：傳統DRAM通過行來選擇存儲頁，而VLT DRAM則通過單元區塊來選擇存儲頁。

由VLT制造的LPDDR4，在外部操作上與傳統LPDDR4完全相同。內部操作會發生變化，例如不再需要回寫和預充電，但這不會太影響DDR控制器；如果滿足了VLT的時序要求，其內存的邏輯組織方式與傳統DDR完全一致。

消除刷新

VLT存儲單元最明顯的優點之一就是其不需要刷新。然而刷新已經成為DRAM運行中自帶的操作；無論存儲器是處在睡眠狀態或是被接通，必須進行刷新操作，防止數據丟失。

完整的DDR控制器狀態機說明了刷新對運行的影響，如下圖所示，所有紅色的狀態都與刷新或者基于刷新的分支相關；借助VLT技術，這些狀態都是冗余的，并能夠被消除。

Kilo16120909 圖9：傳統DRAM實現方式中的LPDDR4狀態原理圖，與刷新相關的狀態及與基于刷新的分支相關的狀態都被標注為紅色，標注為灰色的狀態與接口相關。

下圖是一種簡化的狀態機，其中與刷新相關的狀態都已經省去。在設計基于VLT的存儲器時，設計者可以采用一個現有的DDR控制器，省去那些不需要的狀態；也可以設計一種優化的DDR控制器，去掉所有與刷新相關的電路。后者將占用更小的芯片面積并降低功耗。不管選擇哪種控制器，都不會影響其他系統與存儲芯片的交互。

Kilo16120910 圖10：移除與刷新相關狀態后的LPDDR4狀態原理圖。

總結

VLT存儲單元可以打造一種比普通DRAM存儲單元成本更低、功耗也更低的存儲器，目前VLT 存儲芯片已可以與現有的LPDDR4存儲器完全兼容。通過適當設計架構、命令以及時序，VLT存儲芯片可與傳統存儲芯片無差別地應用在實際系統上。

通過一個可以翻譯內部操作的接口，一個基于VLT的存儲陣列可以與標準LPDDR4控制器配合使用；如果設計一款新的LPDDR4控制器，則可以節約成本與功耗，同時保證從外部看來，存儲控制器保持完整，進而保證現有驅動仍能繼續工作，只在內部忽略了與刷新有關的操作。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。