Noticias, Gadgets, Android, Móviles, Descargas de Aplicaciones

Vista previa de la arquitectura de la GPU NVIDIA Pascal: dentro de la GP100

En la Conferencia de Tecnología de GPU de la semana pasada, el CEO de NVIDIA, Jen-Hsun Huang, dio a conocer un par de productos y tecnologías clave que apuntan al espacio de Computación de Alto Rendimiento, o HPC, incluido el acelerador de centro de datos Tesla P100 y su compañero de aprendizaje profundo DGX-1. system, que es un servidor potente que tiene hasta ocho tarjetas Tesla P100 en su núcleo. Sin embargo, hoy tenemos más información sobre la arquitectura subyacente empleada en el P100, también conocida como arquitectura de GPU Pascal de NVIDIA.

Pascal es el seguimiento de la arquitectura Maxwell, que se aprovecha en la generación actual de tarjetas gráficas y GPU móviles de NVIDIA. Y la GPU basada en Pascal en el corazón del Tesla P100 tiene el nombre en código GP100 y promete ser un animal muy diferente.

conector tesla p100
NVIDIA Tesla P100, con la GPU GP100 con HBM2

Si la pasada convención de nomenclatura de GPU de NVIDIA se cumple en toda la próxima generación, el GP100 será la versión “grande” de Pascal, y presumiblemente las iteraciones reducidas del chip impulsarán más GPU de clase de consumidor, al menos inicialmente. Con Maxwell, la “gran” GM200 no apareció en una GPU dirigida al consumidor hasta mucho después de que las tarjetas basadas en la GM204, y las GPU más pequeñas basadas en Maxwell ya hubieran estado en el mercado durante bastante tiempo. Echemos un vistazo a las implementaciones de Tesla de la generación anterior para tener una perspectiva …

Tesla K40 Tesla M40 Tesla P100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal)
SMS 15 24 56
TPC 15 24 28
Núcleos CUDA FP32 / SM 192 128 64
FP32 CUDA Núcleos / GPU 2880 3072 3584
Núcleos FP64 CUDA / SM 64 4 32
FP64 CUDA Núcleos / GPU 960 96 1792
Reloj base 745 MHz 948 MHz 1328 MHz
Reloj GPU Boost 810/875 MHz 1114 MHz 1480 MHz
FP64 GFLOP 1680 213 5304
Unidades de textura 240 192 224
interfaz de memoria GDDR5 de 384 bits GDDR5 de 384 bits HBM2 de 4096 bits
Tamaño de la memoria Hasta 12 GB Hasta 24 GB 16 GB
Tamaño de caché L2 1536 KB 3072 KB 4096 KB
Registrar tamaño de archivo / SM 256 KB 256 KB 256 KB
Registrar tamaño de archivo / GPU 3840 KB 6144 KB 14336 KB
TDP 235 vatios 250 vatios 300 vatios
Transistores 7.1 mil millones 8 mil millones 15,3 mil millones
Tamaño de matriz de GPU 551 mm² 601 mm² 610 mm²
Proceso de manufactura 28 nm 28 nm FinFET de 16 nm

Según lo que sabemos hasta ahora sobre la GP100, es una auténtica bestia de GPU. Tiene aproximadamente 3 veces el rendimiento informático, 5 veces el ancho de banda de GPU a GPU y 3 veces el ancho de banda de memoria de los productos de gama alta de la generación anterior de NVIDIA. El complemento completo de características y especificaciones que se han revelado hasta la fecha se representa en la tabla anterior.gráfico p100
El GP100 se fabricará utilizando el proceso FinFET de 16 nm de TSMC. La GPU se compone de aproximadamente 15,3 mil millones de transistores y tiene un tamaño de matriz de 610 mm2. Eso es aproximadamente del mismo tamaño que el GM200 basado en Maxwell, que tiene aproximadamente 601 mm2, pero con casi el doble de transistores: 15,3 mil millones frente a 8 mil millones. Además del proceso de fabricación avanzado, el GP100 de NVIDIA también hará uso de HBM2 (memoria de alto ancho de banda de segunda generación) y aprovechará las nuevas tecnologías como NVLink, la memoria unificada y un nuevo diseño de placa / conector.nvidia pascal gp100 morir mapa
Diagrama de bloques de la GPU NVIDIA GP100
En su implementación completa, el GP100 cuenta con 60 multiprocesadores de transmisión (SM). Sin embargo, como está configurado en el Tesla P100, solo 56 de esos SM están habilitados. El reloj base de la GPU es un impresionante 1348MHz, con un aumento de reloj de 1480MHz y un TDP de 300 vatios. Teniendo en cuenta lo joven que es el proceso FinFET de 16 nm de TSMC, ver relojes tan altos en un chip tan grande es un buen augurio para NVIDIA. Según su configuración, y con esos relojes, el Tesla P100 con tecnología GP100 ofrece 5.3 teraflops (TFLOP) de rendimiento de cómputo de doble precisión, 10.6 TFLOP de cómputo de precisión total y 21.2 TFLOP con precisión media. También debemos mencionar que la adición atómica está disponible con doble precisión con Pascal, mientras que con Maxwell no lo está.nvidia pascal sm
Configuración de NVIDIA Pascal SM en el GP100
Dentro del GP100, esos 56 SM activos albergan un total de 3584 núcleos FP32 o 1792 FP 64 núcleos. Hay 64 núcleos FP32 / 32 FP64 por SM y 224 unidades de textura en total. La GPU se vincula a sus 16 GB de memoria HMB2 a través de una interfaz de 4096 bits, que ofrece hasta 720 GB / s de ancho de banda máximo. Hay 4 MB de caché L2 en el chip y un archivo de registro de 256K por SM, para un total de 14.336KB. Eso es el doble de los registros de la generación anterior, con 1,33 veces la capacidad de memoria compartida y el doble del ancho de banda de la memoria compartida. En otras palabras, esto es enorme, pero profundicemos más …