¿Qué tipo de chip necesita ChatGPT? - Noticias Industriales

Recientemente, ChatGPT se ha convertido en el nuevo punto de acceso para la IA, con Microsoft y Google en Silicon Valley invirtiendo fuertemente en dicha tecnología (Microsoft tiene una participación de $ 10 mil millones en OpenAI, la compañía detrás de ChatGPT, y Google lanzó recientemente su propio modelo BARD), mientras que las empresas de tecnología de Internet en China, representadas por Baidu y otros, también han indicado que están desarrollando dicha tecnología y que entrarán en funcionamiento en un futuro próximo. En China, Baidu y otras empresas de tecnología de Internet también han indicado que están desarrollando dichas tecnologías y que se pondrán en marcha en un futuro próximo.

Los modelos generativos representados por ChatGPT tienen una característica común, es decir, utilizan datos masivos para el entrenamiento previo y, a menudo, se combinan con un modelo de lenguaje más potente. La función principal del modelo de lenguaje es aprender del corpus masivo existente y, después del aprendizaje, puede comprender las instrucciones lingüísticas del usuario o, además, generar una salida de texto relevante de acuerdo con las instrucciones del usuario.

Los modelos generativos se pueden clasificar en términos generales en dos categorías, una son los modelos generativos basados en el lenguaje y la otra son los modelos generativos basados en imágenes. Los modelos generativos basados en el lenguaje están representados por ChatGPT, cuyo modelo de lenguaje no solo puede aprender a comprender el significado de los comandos del usuario (por ejemplo, "escribir un poema, al estilo de Li Bai"), sino también generar texto relevante basado en el usuario. comandos después de entrenar con datos masivos (en el ejemplo anterior, escribir un poema al estilo de Li Bai). poema). Esto significa que ChatGPT debe tener un modelo de lenguaje grande (LLM) que entienda el lenguaje del usuario y pueda producir un resultado de lenguaje de alta calidad; por ejemplo, el modelo debe saber cómo generar poemas, cómo generar poemas al estilo de Li Bai. , etcétera. Esto también significa que los grandes modelos de lenguaje en la IA generativa basada en el lenguaje requieren una gran cantidad de parámetros para realizar este tipo de aprendizaje complejo y recordar tanta información. ChatGPT, por ejemplo, tiene 175 mil millones de parámetros (700 GB de espacio de almacenamiento si se usan números de coma flotante estándar), lo que muestra cuán "grande" es su modelo de lenguaje.

Otra clase de modelos generativos es el modelo de generación de imágenes representado por Diffusion, típicamente Dalle de OpenAI, ImaGen de Google y actualmente el más popular Stable Diffusion de Runway AI. Estos modelos de generación similares a imágenes también utilizan un modelo de lenguaje para comprender los comandos lingüísticos del usuario y luego generar imágenes de alta calidad basadas en esos comandos. A diferencia de los modelos generativos basados en el lenguaje, el modelo de lenguaje utilizado aquí utiliza principalmente el lenguaje para comprender la entrada del usuario sin generar la salida del lenguaje, por lo que la cantidad de parámetros puede ser bastante pequeña (del orden de unos pocos cientos de millones), mientras que la cantidad de parámetros para Los modelos de difusión basados en imágenes son relativamente pequeños, del orden de unos pocos miles de millones en general, pero el esfuerzo computacional no es pequeño porque la resolución de las imágenes o videos generados puede ser muy alta.

Los modelos generativos pueden producir resultados de alta calidad sin precedentes a través del entrenamiento masivo de datos, y ya hay una serie de mercados de aplicaciones claros, que incluyen búsqueda, bots de diálogo, generación y edición de imágenes, etc. Se esperan más aplicaciones en el futuro, lo que también aumenta la demanda de fichas relacionadas.

La necesidad de chips para generar modelos de clase.

Como se mencionó anteriormente, ChatGPT representa un modelo generativo que necesita aprender de grandes cantidades de datos de entrenamiento para lograr resultados generativos de alta calidad. Para respaldar un entrenamiento y una inferencia eficientes, los modelos generativos tienen sus propios requisitos para los chips relacionados.

El primero es la necesidad de computación distribuida; la cantidad de parámetros para los modelos generativos de lenguaje como ChatGPT es de cientos de miles de millones, y es casi imposible usar el entrenamiento y la inferencia de una sola computadora, pero se debe usar una gran cantidad de computación distribuida. En la informática distribuida, el ancho de banda de interconexión de datos entre las máquinas y el chip informático para dicha informática distribuida (como RDMA) tiene una gran demanda, porque a menudo el cuello de botella de la tarea puede no estar en la informática, sino en la interconexión de datos anterior, especialmente en este tipo de computación distribuida a gran escala, el chip para el soporte eficiente de la computación distribuida se ha vuelto más crítico.

Lo siguiente es la capacidad de memoria y el ancho de banda. Aunque el entrenamiento y la inferencia distribuidos son inevitables para los modelos generativos basados en el lenguaje, la memoria local y el ancho de banda de cada chip determinarán en gran medida la eficiencia de ejecución de un solo chip (porque la memoria de cada chip se usa al límite). Para los modelos generativos basados en imágenes, es posible colocar todos los modelos (alrededor de 20 GB) en la memoria del chip, pero a medida que los modelos generativos basados en imágenes evolucionen más en el futuro, es probable que sus requisitos de memoria también aumenten aún más. . Desde esta perspectiva, la tecnología de memoria de ancho de banda ultra alto representada por HBM se convertirá en la opción inevitable para los chips aceleradores relacionados, mientras que los modelos de clase generativa también acelerarán la memoria de HBM para aumentar aún más la capacidad y el ancho de banda. Además de HBM, las nuevas tecnologías de almacenamiento como CXL junto con las optimizaciones de software también tendrán el potencial de aumentar la capacidad y el rendimiento del almacenamiento local en tales aplicaciones y se estima que obtendrán una mayor adopción industrial a partir del aumento del modelo de clase generativa.

Finalmente, la computación, tanto los modelos de clase generativos basados en el lenguaje como los basados en imágenes, tienen una gran demanda computacional, y los modelos generativos basados en imágenes pueden tener una demanda mucho mayor de poder aritmético a medida que generan resoluciones cada vez más altas y avanzan hacia las aplicaciones de video - actual Los modelos generativos de imágenes convencionales tienen un volumen computacional de alrededor de 20 TFlops, y en cuanto a alta resolución e imágenes, es probable que 100-1000 TFLOPS de demanda aritmética sea la norma.

En resumen, creemos que los requisitos de los modelos generativos para chips incluyen computación distribuida, almacenamiento y computación, que se puede decir que involucran todos los aspectos del diseño de chips y, lo que es más importante, cómo combinar todos estos requisitos de manera razonable. para garantizar que un solo aspecto no se convierta en un cuello de botella, que también se convertirá en un problema de ingeniería del sistema de diseño de chips.

GPU y el nuevo chip AI, quién tiene más posibilidades

Los modelos generativos tienen una nueva demanda de chips. ¿Quién tiene una mejor oportunidad de capturar esta nueva demanda y mercado de GPU (representadas por Nvidia y AMD) y nuevos chips de IA (representados por Habana, GraphCore)?

Primero, desde la perspectiva de los modelos generativos basados en el lenguaje, los proveedores de GPU que actualmente tienen un diseño completo en este tipo de ecología son más ventajosos debido a la gran cantidad de participantes y la necesidad de un buen soporte informático distribuido. Este es un problema de ingeniería de sistemas que requiere una solución completa de software y hardware y, en este sentido, Nvidia ha combinado sus GPU para lanzar la solución Triton, que admite el entrenamiento distribuido y la inferencia distribuida, lo que permite dividir un modelo en varias partes y procesarlo. en diferentes GPU, resolviendo así el problema de demasiados parámetros que no pueden ser acomodados por la memoria principal de una GPU. Esto resuelve el problema de demasiados parámetros para la memoria principal de una GPU. Ya sea que use Triton directamente o realice un mayor desarrollo sobre la base de Triton en el futuro, es más conveniente tener una GPU ecológica completa. Desde un punto de vista computacional, dado que el cómputo principal del modelo de generación basado en lenguaje es el cómputo matricial, que es la fortaleza de la GPU, el nuevo chip de IA no tiene una ventaja obvia sobre la GPU desde este punto de vista.

Desde el punto de vista de los modelos de generación basados en imágenes, la cantidad de parámetros de dichos modelos también es grande, pero de uno a dos órdenes de magnitud menor que los modelos de generación basados en el lenguaje, además de que su cálculo aún se utilizará en una gran cantidad. número de cálculos convolucionales, por lo que las aplicaciones de inferencia, si puede hacer una muy buena optimización, los chips de IA pueden tener algunas oportunidades. Aquí, la optimización incluye una gran cantidad de almacenamiento en el chip para acomodar parámetros y resultados de cálculos intermedios, para la convolución y el soporte eficiente de las operaciones matriciales.

En general, la generación actual de chips de IA está diseñada para modelos más pequeños (número de parámetros al nivel de mil millones, cálculo al nivel 1TOPS), mientras que la demanda de modelos generativos sigue siendo relativamente mayor que el objetivo del diseño original. Las GPU están diseñadas para ser más flexibles a costa de la eficiencia, mientras que los chips de IA están diseñados para hacer lo contrario, buscando la eficiencia de la aplicación de destino. Por lo tanto, creemos que las GPU seguirán dominando la aceleración de modelos generativos en uno o dos años, pero a medida que los diseños de modelos generativos se vuelvan más estables y los diseños de chips de IA tengan tiempo de ponerse al día con las iteraciones de modelos generativos, los chips de IA tendrán la oportunidad de superar a las GPU. en el espacio del modelo generativo desde una perspectiva de eficiencia.

ND2N9T12-full-automatic5