Vista previa de la arquitectura de la GPU NVIDIA Pascal: dentro de la GP100 - Noticias, Gadgets, Android, Móviles, Descargas de Aplicaciones

En la Conferencia de Tecnología de GPU de la semana pasada, el CEO de NVIDIA, Jen-Hsun Huang, dio a conocer un par de productos y tecnologías clave que apuntan al espacio de Computación de Alto Rendimiento, o HPC, incluido el acelerador de centro de datos Tesla P100 y su compañero de aprendizaje profundo DGX-1. system, que es un servidor potente que tiene hasta ocho tarjetas Tesla P100 en su núcleo. Sin embargo, hoy tenemos más información sobre la arquitectura subyacente empleada en el P100, también conocida como arquitectura de GPU Pascal de NVIDIA.

Pascal es el seguimiento de la arquitectura Maxwell, que se aprovecha en la generación actual de tarjetas gráficas y GPU móviles de NVIDIA. Y la GPU basada en Pascal en el corazón del Tesla P100 tiene el nombre en código GP100 y promete ser un animal muy diferente.

conector tesla p100
NVIDIA Tesla P100, con la GPU GP100 con HBM2

Si la pasada convención de nomenclatura de GPU de NVIDIA se cumple en toda la próxima generación, el GP100 será la versión “grande” de Pascal, y presumiblemente las iteraciones reducidas del chip impulsarán más GPU de clase de consumidor, al menos inicialmente. Con Maxwell, la “gran” GM200 no apareció en una GPU dirigida al consumidor hasta mucho después de que las tarjetas basadas en la GM204, y las GPU más pequeñas basadas en Maxwell ya hubieran estado en el mercado durante bastante tiempo. Echemos un vistazo a las implementaciones de Tesla de la generación anterior para tener una perspectiva …

	Tesla K40	Tesla M40	Tesla P100
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)
SMS	15	24	56
TPC	15	24	28
Núcleos CUDA FP32 / SM	192	128	64
FP32 CUDA Núcleos / GPU	2880	3072	3584
Núcleos FP64 CUDA / SM	64	4	32
FP64 CUDA Núcleos / GPU	960	96	1792
Reloj base	745 MHz	948 MHz	1328 MHz
Reloj GPU Boost	810/875 MHz	1114 MHz	1480 MHz
FP64 GFLOP	1680	213	5304
Unidades de textura	240	192	224
interfaz de memoria	GDDR5 de 384 bits	GDDR5 de 384 bits	HBM2 de 4096 bits
Tamaño de la memoria	Hasta 12 GB	Hasta 24 GB	16 GB
Tamaño de caché L2	1536 KB	3072 KB	4096 KB
Registrar tamaño de archivo / SM	256 KB	256 KB	256 KB
Registrar tamaño de archivo / GPU	3840 KB	6144 KB	14336 KB
TDP	235 vatios	250 vatios	300 vatios
Transistores	7.1 mil millones	8 mil millones	15,3 mil millones
Tamaño de matriz de GPU	551 mm²	601 mm²	610 mm²
Proceso de manufactura	28 nm	28 nm	FinFET de 16 nm

Según lo que sabemos hasta ahora sobre la GP100, es una auténtica bestia de GPU. Tiene aproximadamente 3 veces el rendimiento informático, 5 veces el ancho de banda de GPU a GPU y 3 veces el ancho de banda de memoria de los productos de gama alta de la generación anterior de NVIDIA. El complemento completo de características y especificaciones que se han revelado hasta la fecha se representa en la tabla anterior. gráfico p100
El GP100 se fabricará utilizando el proceso FinFET de 16 nm de TSMC. La GPU se compone de aproximadamente 15,3 mil millones de transistores y tiene un tamaño de matriz de 610 mm2. Eso es aproximadamente del mismo tamaño que el GM200 basado en Maxwell, que tiene aproximadamente 601 mm2, pero con casi el doble de transistores: 15,3 mil millones frente a 8 mil millones. Además del proceso de fabricación avanzado, el GP100 de NVIDIA también hará uso de HBM2 (memoria de alto ancho de banda de segunda generación) y aprovechará las nuevas tecnologías como NVLink, la memoria unificada y un nuevo diseño de placa / conector. nvidia pascal gp100 morir mapa
Diagrama de bloques de la GPU NVIDIA GP100
En su implementación completa, el GP100 cuenta con 60 multiprocesadores de transmisión (SM). Sin embargo, como está configurado en el Tesla P100, solo 56 de esos SM están habilitados. El reloj base de la GPU es un impresionante 1348MHz, con un aumento de reloj de 1480MHz y un TDP de 300 vatios. Teniendo en cuenta lo joven que es el proceso FinFET de 16 nm de TSMC, ver relojes tan altos en un chip tan grande es un buen augurio para NVIDIA. Según su configuración, y con esos relojes, el Tesla P100 con tecnología GP100 ofrece 5.3 teraflops (TFLOP) de rendimiento de cómputo de doble precisión, 10.6 TFLOP de cómputo de precisión total y 21.2 TFLOP con precisión media. También debemos mencionar que la adición atómica está disponible con doble precisión con Pascal, mientras que con Maxwell no lo está.
Configuración de NVIDIA Pascal SM en el GP100
Dentro del GP100, esos 56 SM activos albergan un total de 3584 núcleos FP32 o 1792 FP 64 núcleos. Hay 64 núcleos FP32 / 32 FP64 por SM y 224 unidades de textura en total. La GPU se vincula a sus 16 GB de memoria HMB2 a través de una interfaz de 4096 bits, que ofrece hasta 720 GB / s de ancho de banda máximo. Hay 4 MB de caché L2 en el chip y un archivo de registro de 256K por SM, para un total de 14.336KB. Eso es el doble de los registros de la generación anterior, con 1,33 veces la capacidad de memoria compartida y el doble del ancho de banda de la memoria compartida. En otras palabras, esto es enorme, pero profundicemos más …