Resumen:
|
[ES] Las memorias cache de un microprocesador se implementan habitualmente con tecnología Static Random-Access Memory (SRAM) puesto que es la tecnología electrónica más rápida. Sin embargo, las caches SRAM ocupan un área ...[+]
[ES] Las memorias cache de un microprocesador se implementan habitualmente con tecnología Static Random-Access Memory (SRAM) puesto que es la tecnología electrónica más rápida. Sin embargo, las caches SRAM ocupan un área significativa del microprocesador y además consumen una gran cantidad de energía estática por corrientes de fuga, lo cual resulta en un problema de diseño importante, ya que este consumo aumenta a medida que el tamaño del transistor se encoge en sucesivos nodos tecnológicos. En este sentido, algunos procesadores comerciales de IBM e Intel incluyen el uso de tecnologías alternativas de bajo consumo como embedded Dynamic RAM (eDRAM) en los últimos niveles de cache como L2 o L3. No obstante, eDRAM requiere operaciones de refresco periódicas sobre los datos y además no es tan rápida como SRAM. Estos inconvenientes impiden que eDRAM se pueda utilizar directamente en el primer nivel (L1) de cache. Por otro lado, las tecnologías magnéticas, como la emergente Domain Wall Memory (DWM), están generando un interés creciente porque su consumo estático es nulo, no requieren operaciones de refresco y ofrecen una gran densidad y tiempos de acceso competitivos frente a SRAM. Sin embargo, al almacenar los bits en una cinta magnética, DWM requiere operaciones de desplazamiento de la cinta para alinear los cabezales de acceso con los datos requeridos, lo cual afecta al tiempo de acceso de la cache. Algunos trabajos de investigación recientes han explorado diferentes organizaciones de los datos y políticas de manejo de los cabezales para atenuar este problema, concretamente en caches L2 y L3.
En el presente trabajo se explora el uso de la tecnología DWM en caches de datos L1. Para ello, se implementan y validan distintas políticas de manejo de los cabezales del estado-del-arte sobre L1, cuantificando experimentalmente el impacto de cada una de ellas en base a la cantidad de desplazamientos de los datos a través de las cintas. Además, se propone y valida una nueva organización de los datos en la cache que se ajusta a las características y requerimientos de las caches L1. Para ello, se instrumenta un simulador de procesadores ciclo-a-ciclo y se obtienen resultados experimentales mediante la ejecución de un conjunto representativo de aplicaciones científicas.
Los resultados experimentales muestran que, entre las políticas de gestión de cabezales del estado-del-arte, la política que mejor se ajusta a L1 es Dynamic Lazy debido a que disminuye el número de operaciones de desplazamiento así como la distancia máxima de desplazamiento en número de bits. Además, la propuesta de organización de los datos en la cache reduce el número de desplazamientos en un 16% frente a una organización de datos convencional. Finalmente, también se ha comprobado de manera empírica que existe una relación inversa entre la capacidad de la cache y la penalización por desplazamiento.
[-]
[EN] Microprocessor caches are usually implemented with Static Random-Access Memory (SRAM) technology as it is the fastest electronic technology. However, SRAM caches occupy a significant area of the microprocessor and ...[+]
[EN] Microprocessor caches are usually implemented with Static Random-Access Memory (SRAM) technology as it is the fastest electronic technology. However, SRAM caches occupy a significant area of the microprocessor and they also consume a large amount of static energy from leakage currents. This results in a major design problem because this consumption increases as the size of the transistor shrinks in successive technology nodes. In this sense, some commercial processors from IBM and Intel include the use of alternative low-power technologies such as embedded Dynamic RAM (eDRAM) in the latest cache levels such as L2 or L3. However, eDRAM requires periodic data refresh operations and is not as fast as SRAM. These drawbacks prevent eDRAM from being used directly on the first-level (L1) cache. On the other hand, magnetic technologies, such as the emerging Domain Wall Memory (DWM), are receiving increasing attention because their static consumption is zero, they do not require refresh operations, and they offer high density and competitive access times compared to SRAM. However, by storing the bits on a magnetic tape, DWM requires tape shifting operations to align the access heads with the required data, which affects the access time of the cache. Recent research has explored different data organizations and head management policies to mitigate this problem, particularly in L2 and L3 caches.
This work explores the use of DWM technology in L1 data caches. For this purpose, different head policies from the state-of-the-art are implemented and validated for L1, experimentally quantifying the impact of each of them based on the amount of data shift operations along the tapes. Besides, a new data organization for the cache is proposed and validated, which fits the characteristics and requirements of L1 caches. In order to achieve that, a cycle-accurate microprocessor simulator is instrumented and experimental results are obtained through the execution of a set of representative scientific applications.
Experimental results show that, among the state-of-the-art head management policies, the policy that works best on L1 is Dynamic Lazy because it decreases the number of shifting operations as well as the maximum shifting distance in number of bits. In addition, the proposed data organization in the cache reduces the number of shifts by 16% compared to a conventional data organization. Finally, it has also been empirically proven that there is an inverse relation between cache capacity and shift penalty.
[-]
[CA] Les memòries cau d’un microprocessador s’implementen sovint utilitzant la tecnologia Static Random-Access Memory (SRAM), ja que és la tecnologia electrònica més ràpida.
Tot i això, les memòries cau SRAM ocupen una ...[+]
[CA] Les memòries cau d’un microprocessador s’implementen sovint utilitzant la tecnologia Static Random-Access Memory (SRAM), ja que és la tecnologia electrònica més ràpida.
Tot i això, les memòries cau SRAM ocupen una àrea significativa del microprocessador
i a més consumeixen una gran quantitat d’energia estàtica per corrents de fuga, el que
resulta en un problema de disseny important perquè aquest consum augmenta a mesura
que la mida del transitor es redueix en successius nodes tecnològics. En aquest sentit,
alguns processadors comercials d’IBM i Intel inclouen l’ús de tecnologies alternatives de
baix consum com embedded Dynamic RAM (eDRAM) en els últims nivells de memòria cau
com L2 o L3. Això no obstant, eDRAM requereix operacions de refresc periòdiques sobre
les dades i a més no és tan ràpida com SRAM. Aquests inconvenients impossibiliten que
eDRAM es puga utilitzar directament en el primer nivell (L1) de la memoria cau. Per
altra banda, les tecnologies magnètiques, com l’emergent Domain Wall Memory (DWM),
estan rebent un creixent interés perquè el seu consum estàtic és nul, no requereixen operacions de refresc i ofereixen una gran densitat i accessos competitius front a SRAM. Tot
i això, al enmagatzemar els bits en una cinta magnètica, DWM requereix operacions de
desplaçament de la cinta per a alinear els capçals d’accés amb les dades requerides, la
qual cosa afecta el temps d’accés a la memòria cau. Alguns treballs d’investigació recents
han explorat diferents organitzacions de les dades i polítiques de gestió dels capçals per
a reduir aquest problema, particularment en les memòries cau L2 i L3.
En el present treball, s’explora l’ús de la tecnologia DWM en memòries cau de dades L1. Per a fer-ho, s’implementen i validen distintes polítiques de gestió dels capçals
del estat-del-art sobre L1, quantificant de manera experimental l’impacte de cadascuna
d’elles en base a la quantitat de desplaçaments de les dades a través de les cintes. A
més, es proposa i valida una nova organització de les dades en la cache que s’ajusta a
les característiques i requeriments de les memòries cau L1. Per a això, s’instrumenta
un simulador de processadors cicle-a-cicle i s’obtenen resultats experimentals mitjançant
l’execució d’un conjunt representatiu d’aplicacions científiques.
Els resultats experimentals mostren que, entre les polítiques de gestió dels capçals del
estat-del-art, la política que millor s’ajusta a L1 és Dynamic Lazy pel fet que disminueix el
nombre d’operacions de desplaçaments així com la distància máxima de desplaçament
en nombre de bits. A més, la proposta d’organització de les dades en la memoria cau
redueix el nombre de desplaçaments en un 16% front a una organització de dades convencional. Finalment, també s’ha comprovat de manera empírica que existeix una relació
inversa entre la capacitat de la memoria cau i la penalització per desplaçament.
[-]
|