Noticias, Gadgets, Android, Móviles, Descargas de Aplicaciones

Se revelan las arquitecturas Arm Cortex-A76 y Mali-G76 para dispositivos móviles de próxima generación


La semana pasada, Arm mostró el funcionamiento interno de su nuevo diseño de procesador de aprendizaje automático, pero eso no es todo lo que la compañía tenía esperando. Arm también detalla más tecnología de vanguardia en forma de sus diseños de CPU Cortex-A76, GPU Mali-G76 y VPU Mali-V76. Los tres chips están programados para ser pesos pesados ​​en sus respectivas categorías, y gracias a algunos informes en profundidad en el campus a principios de este mes, tenemos todos los detalles para compartir …

Corteza A-76

objetivos de diseño de arm tech day 1 a76

El Cortex-A76 representa la revisión más radical de Arm sobre diseños anteriores. La nueva arquitectura del A76 aporta mejoras decisivas a la potencia y la eficiencia. Los ingenieros de procesadores de Arm trabajaron con un objetivo de diseño de superar los diseños de sus competidores, pero con la mitad del área y la potencia. Esta filosofía es muy crítica en el espacio móvil donde tanto los presupuestos de energía como el espacio físico están muy restringidos. arm tech day 2 a76 rendimiento eficiencia

Para la renovación de la arquitectura del A76, se prestó especial atención a reducir la latencia y eliminar los cuellos de botella del ancho de banda siempre que fuera posible. Uno de los objetivos más importantes de Arm es eliminar los ciclos de repuesto o desperdiciados. Los ciclos de repuesto suelen aparecer cuando el procesador no puede recuperar los datos correctos de la memoria con la suficiente rapidez.brazo tech día 3 predictor de rama a76

Un método que Arm está empleando para combatir los ciclos libres es desacoplar la predicción de rama del A76 del buscador de instrucciones. Los predictores de rama “leen con anticipación” e intentan adivinar de qué manera una ruta de código saltará a un condicional. El predictor de ramas ahora está ajustado para operar al doble de la tasa de recuperación. Esto puede parecer un arreglo peculiar, pero Arm razona que esto ayuda a disimular los errores de predicción al garantizar que la búsqueda siempre tenga su cola llena. Es más eficiente desde el punto de vista energético quemar ciclos en el predictor de rama cuando las instrucciones se alimentan correctamente que perder ciclos en todo el núcleo cuando se produce una falla.núcleo de ejecución arm tech day 4 a76

El núcleo de ejecución del A76 consta de una unidad de rama, dos ALU simples y una combinación de ALU simple y de ciclos múltiples para cargas de trabajo enteras. El núcleo de ejecución se actualiza a tuberías ASIMD / FP duales de 128 bits para proporcionar el doble de ancho de banda que las CPU Arm anteriores. Este aumento de ASIMD contribuye significativamente a la mejora casi 4 veces mayor del A76 en el rendimiento del aprendizaje automático con respecto al A75 de la generación anterior.arm tech day 5 jerarquía de caché a76

Arm también proporcionó algunas métricas de caché interesantes. El objetivo de Arm aquí es ofrecer una proporción perfecta de aciertos de caché, ya que los errores de caché incurren en penalizaciones de latencia. El A76 puede soportar hasta 20 fallas L1 pendientes, hasta 46 fallas L2 y hasta 94 fallas L3. El A76 ofrece 64K de caché L1, en versiones I-Cache y D-Cache, 256-512K de caché L2 privada y 2-4M de caché L3 compartida. En términos de latencia, la caché L1 tiene un período de carga de uso de 4 ciclos (uso de LD), la caché de L2 es de uso de LD de 9 ciclos y la caché de L3 está en el orden de 26-31 ciclos de uso de LD, por lo que La precisión del prefetcher es vital para un buen funcionamiento.arm tech día 6 a76 versus a75

Arm proyecta un 35% más de rendimiento que un núcleo Cortex-A75 al tiempo que mantiene un 40% más de eficiencia energética. Notaremos que esta comparación enfrenta a un A76 de 7 nm con una frecuencia de reloj de 3,0 GHz contra un A75 de 10 nm a 2,8 GHz, pero aún así, la reducción de la matriz y el aumento de frecuencia por sí solos no explican todas las ganancias del A76. En comparaciones de isoproceso y frecuencia, el A76 aún ofrece un aumento del 25% en el IPC entero (SPECINT), una mejora del 35% en el rendimiento de ASIMD / FP (SPECFP) y un aumento del 90% en el ancho de banda de la memoria (LMBench).Comparación de rendimiento arm tech day 7 a76

Arm afirma un rendimiento de clase portátil con el A76. Si bien muchos pueden tomar esto como algo en el nivel de un núcleo Intel Atom, Arm cree que su núcleo A76 puede funcionar dentro del 10 por ciento de un núcleo Skylake con las mismas restricciones térmicas, pero con aproximadamente la mitad del espacio ocupado. Esto tiene implicaciones prometedoras para el futuro de los portátiles Windows con tecnología Arm, siempre que se pueda mantener el costo. También existe el problema de traducir las instrucciones x86 para aplicaciones heredadas, pero Microsoft ya proporciona herramientas de desarrollo bastante buenas para la compilación nativa de Arm, por lo que el software común se puede ejecutar de forma nativa.arm tech day 8 a76 microarquitectura

Según ARM, las contracciones del nodo de proceso por debajo de 16 nm no han producido aumentos significativos de la velocidad del reloj. Más bien, los nodos de proceso más pequeños se benefician principalmente de la reducción del consumo de energía y la producción térmica. Sin embargo, esto sigue siendo importante por consideraciones de rendimiento, porque un chip más frío puede tener un rendimiento sostenido mejorado. Arm espera que los núcleos A76 ingresen al mercado en el proceso de 7 nm para casos de uso de rendimiento y el proceso de 12 nm para implementaciones de menor costo con la posibilidad de variantes de proceso de 5 nm en el futuro. Los TDP objetivo serían los mismos en todos estos nodos de proceso.arm tech day 9 a76 dynamiq y resumen

El núcleo A76 está diseñado para su uso como núcleo (s) “grande” en los grupos Arm’s DynamIQ con el venerable Cortex-A55 que comprende sus contrapartes “LITTLE”. Al igual que con el A75 anterior, las configuraciones de DynamIQ pueden admitir hasta cuatro núcleos A76 con hasta ocho núcleos A55, con un máximo combinado total de ocho núcleos. Si bien Arm anticipa que los procesadores de gama alta incorporarán configuraciones completas de 4x A76 + 4x A55, muchos diseños de gama media y económicos utilizarán un diseño 1x A76 + 7x A55 o 2x A76 + 6x A55 con más énfasis en la eficiencia energética.arm tech day 10 a76 a55 revisiones

Arm señala que es poco probable que el núcleo A55 sea reemplazado por una variante más nueva en el corto plazo. Puede reducirse a medida que se perfeccionan los nodos más pequeños para mejorar aún más la eficiencia, mientras que su función como núcleo LITTLE no exige ganancias de rendimiento significativas. Dicho esto, Arm ha aumentado la cantidad de caché L2 en el núcleo A55 cuando se usa con núcleos A76.

Arm también detalló sus nuevos diseños de GPU Mali-G76 y VPU V76 que exploraremos en la página siguiente …