Recientemente, al discutir el τ scaling (microescalado temporal) de Huawei con algunas personas, descubrí que la discusión se queda en lo superficial sin tocar su esencia, probablemente porque muchos amigos no vienen de ingeniería eléctrica y no conocen el significado clásico del símbolo τ en circuitos. La constante de tiempo que primero se aprende en los cursos de circuitos es τ = RC, la resistencia de un cable multiplicada por su capacitancia, que es el orden de magnitud del tiempo que tarda una señal en atravesar ese cable. Cuanto más largo es el cable, mayor es la resistencia y la capacitancia, y más lenta es la señal. En este marco, el microescalado geométrico de los últimos sesenta años se reinterpreta como una forma de implementar el microescalado temporal: hacer los transistores más pequeños es para acortar el retardo de conmutación, y disponer los circuitos más apretados es para acortar las interconexiones metálicas y reducir el retardo de propagación de la señal. El microescalado geométrico es solo un medio; comprimir el retardo es el objetivo. La teoría de Huawei es que, cuando el microescalado geométrico ya no pueda avanzar, se buscarán otros métodos para seguir comprimiendo el retardo.



Justo, el artículo de He Tingbo sobre τ scaling publicó hace dos días la versión v2, expandiendo el contenido de 16 a 23 páginas. Comparé ambas versiones: los datos y conclusiones no han cambiado; el contenido adicional responde principalmente a varias críticas de la industria sobre la v1. Hay tres puntos que vale la pena comentar.

El más importante es que se ha agregado evidencia de prueba a la declaración anterior de "mejora del 41% en eficiencia energética". En la v1, este número no tenía línea base ni condiciones de prueba, siendo el punto más susceptible a cuestionamientos. La v2 incluye una tabla comparativa completa. La línea base es el Kirin 9030 Pro de 2025, con ambos chips usando el mismo nodo de proceso maduro; la diferencia clave es que la línea base tiene un diseño plano tradicional, mientras que el Kirin 2026 pliega las rutas críticas en dos capas de oblea superiores e inferiores. El plegado acorta las interconexiones y reduce el retardo de interconexión; el margen de tiempo adicional en las rutas críticas se convierte directamente en un aumento del límite de frecuencia de reloj, alcanzando una frecuencia máxima de 3.1 GHz a 1.1 V de alimentación, un 13% más alta que la línea base. Y la "mejora del 41% en eficiencia energética" proviene de otro punto de trabajo especialmente configurado: reducir el voltaje a 0.9 V y la frecuencia a 2.5 GHz, realizando una comparación de rendimiento equivalente con la línea base; la potencia medida a 25 °C es 0.59 veces la de la línea base. También se cumple teóricamente: la potencia dinámica es aproximadamente proporcional al cuadrado del voltaje; una reducción del 18% en el voltaje de alimentación aporta aproximadamente un tercio de la reducción solo por el cuadrado, más la reducción del 9% en frecuencia y la capacitancia de interconexión recortada por el plegado, dando justo alrededor de 0.59. Por lo tanto, el significado preciso de la mejora del 41% en eficiencia energética es la reducción de potencia a rendimiento equivalente; esencialmente, se intercambia el margen de tiempo ganado por el plegado por una reducción de potencia, y la mejora en la relación de eficiencia proviene del plegado lógico. Además, la v2 incluye un dato adicional: después del apilamiento de doble capa, la densidad de potencia es un 5.6% menor que la línea base.

El segundo contenido nuevo responde a la pregunta más común de los colegas: ya existen apilamientos 3D, como el 3D V-Cache de AMD y el Foveros de Intel en producción; ¿qué tiene de nuevo tu LogicFolding? Para entender la respuesta del artículo, primero hay que saber cómo se comunican las señales entre dos capas de chips: se utiliza un punto de enlace entre capas, similar a un ascensor que conecta las capas superior e inferior. En los apilamientos 3D producidos anteriormente, la distancia entre los puntos de enlace era de 9 micras a decenas de micras, permitiendo más de diez mil conexiones por milímetro cuadrado, suficiente para conectar un bus a una caché completa. Por eso, los diseños anteriores trasladaban bloques funcionales completos a la capa superior, como AMD que apila una caché completa sobre el procesador; ambas capas se diseñan por separado y se conectan mediante interfaces. Pero dentro de un chip, un milímetro cuadrado alberga cientos de millones de transistores; para que puertas lógicas adyacentes estén una en la capa superior y otra en la inferior, la densidad de conexión necesaria es mucho mayor. El Kirin 2026 logra una distancia entre puntos de enlace de 1.5 micras, con 440,000 conexiones por milímetro cuadrado, una densidad similar a la de los cables metálicos de las capas superiores dentro del chip; el costo de cruzar una línea entre capas es casi el mismo que el de mover una línea dentro de las capas metálicas del chip. A este nivel, las dos capas de silicio se fusionan en un solo chip en el sentido del circuito; las herramientas EDA pueden decidir a nivel de puerta lógica qué colocar en cada capa, optimizando globalmente mediante algoritmos, con un grado de libertad de diseño sin precedentes. El artículo también explica por qué no se sigue una ruta más agresiva: fabricar directamente una segunda capa de dispositivos sobre la primera. Esa ruta tiene la conexión entre capas más fina, pero la fabricación de la segunda capa requiere altas temperaturas que dañarían la primera capa ya fabricada, por lo que actualmente no es viable para producción en masa.

El tercer punto es la gestión térmica. El apilamiento vertical aumenta significativamente la densidad de calor por unidad de área, y la ruta de disipación de la capa inferior de silicio queda obstruida por la capa superior; esta es la primera pregunta inevitable sobre el apilamiento 3D, que la v1 no abordó en profundidad. La v2 reconoce explícitamente que la gestión térmica sigue siendo un desafío clave para la arquitectura LogicFolding, y propone como contramedida una partición y planificación del diseño conscientes del calor: excluir del rango de plegado los circuitos de alta potencia durante la fase de diseño, y evitar que módulos de alta potencia se superpongan verticalmente para prevenir la acumulación de puntos calientes. El artículo no especifica si esta estrategia es una restricción aplicada manualmente por los ingenieros o si ya está integrada en el flujo automático de las herramientas EDA internas; solo menciona que la cadena de herramientas multifísicas es la inversión más importante para la próxima década. Junto con los datos medidos de que la densidad de potencia es un 5.6% menor que la línea base en el punto de trabajo de rendimiento equivalente, se da una respuesta positiva al problema de disipación de calor. Sin embargo, este enfoque es esencialmente evasivo; si el número de capas apiladas aumenta a tres o cuatro, el espacio de circuitos plegables se verá cada vez más restringido por las restricciones térmicas, algo que el artículo no discute en detalle.

Además, la v2 incluye una fotografía de sección transversal microscópica de la interfaz de unión entre dos capas de silicio, y especifica explícitamente que se utiliza unión híbrida wafer on wafer. Vale la pena comparar esta especificación con la industria: no hay precedentes de unión híbrida de oblea a oblea con un paso de 1.5 micras en chips lógicos de producción en masa; el SoIC de TSMC actualmente tiene un paso de 6 micras en producción, y el Foveros Direct de Intel tiene 9 micras. Es realmente impresionante.

Después de comparar las dos versiones del artículo, todavía tengo dos preguntas. Una sobre el equipo: ¿quién suministra el equipo de unión con esta especificación? El artículo solo dice que es el resultado de años de desarrollo de procesos en un ecosistema de múltiples proveedores. La otra sobre las herramientas EDA: diseñar dos capas de silicio como un solo chip no puede ser realizado por las herramientas EDA existentes en el mercado; el artículo lo reconoce y solo dice que los detalles metodológicos se publicarán "en unos meses". Pero en la tabla de frecuencias, la generación de Kirin de 2027 a 3.39 GHz ya está marcada como un chip físico, lo que indica que esta herramienta ya ha sido probada internamente en Huawei, y al menos en dos generaciones de productos. Personalmente, supongo que esta EDA fue desarrollada por Huawei. Bienvenidos amigos que conozcan la situación a compartir sus opiniones.
Ver original
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado