AI Hypercomputer es el sistema de supercomputación integrado que respalda cada carga de trabajo de IA en Google Cloud. Se compone de hardware, software y modelos de consumo diseñados para simplificar la implementación de IA, mejorar la eficiencia a nivel del sistema y optimizar los costos.
Descripción general
Elige entre opciones de procesamiento (incluidos aceleradores de IA), almacenamiento y redes optimizadas para objetivos detallados a nivel de la carga de trabajo, ya sea una capacidad de procesamiento mayor, una latencia más baja, un tiempo de obtención de resultados más rápido o un TCO más bajo. Obtén más información sobre los siguientes temas: Cloud TPU, GPU de nube, además de las novedades en almacenamiento y redes.
Aprovecha al máximo tu hardware con software líder en la industria, integrado con frameworks, bibliotecas y compiladores abiertos para que el desarrollo, la integración y la administración de la IA sean más eficientes.
Las opciones de consumo flexible permiten a los clientes elegir costos fijos con descuentos por compromiso de uso o modelos dinámicos según demanda para satisfacer las necesidades empresariales. El programador dinámico de cargas de trabajo y las VMs Spot pueden ayudarte a obtener la capacidad que necesitas sin sobreasignar recursos. Además, las herramientas de optimización de costos de Google Cloud ayudan a automatizar el uso de recursos para reducir las tareas manuales de los ingenieros.
Cómo funciona
Usos comunes
La inferencia se está volviendo más diversa y compleja rápidamente, y está evolucionando en tres áreas principales:
PUMA se asoció con Google Cloud para su infraestructura de IA integrada (AI Hypercomputer), lo que le permite usar Gemini para instrucciones del usuario junto con el programador dinámico de cargas de trabajo para escalar la inferencia de forma dinámica en GPU, lo que reduce drásticamente los costos y el tiempo de generación.
Impacto:
La inferencia se está volviendo más diversa y compleja rápidamente, y está evolucionando en tres áreas principales:
PUMA se asoció con Google Cloud para su infraestructura de IA integrada (AI Hypercomputer), lo que le permite usar Gemini para instrucciones del usuario junto con el programador dinámico de cargas de trabajo para escalar la inferencia de forma dinámica en GPU, lo que reduce drásticamente los costos y el tiempo de generación.
Impacto:
Las cargas de trabajo de entrenamiento deben ejecutarse como trabajos altamente sincronizados en miles de nodos en clústeres estrechamente acoplados. Un solo nodo degradado puede interrumpir un trabajo completo y retrasar el tiempo de salida al mercado. Realice lo siguiente:
Queremos que sea extremadamente fácil para los clientes implementar y escalar cargas de trabajo de entrenamiento en Google Cloud.
Para crear un clúster de IA, comienza con uno de nuestros instructivos:
Moloco se basó en la pila completamente integrada de AI Hypercomputer para escalar automáticamente en hardware avanzado como TPU y GPU, lo que liberó a los ingenieros de Moloco, mientras que la integración con la plataforma de datos líder en la industria de Google creó un sistema cohesivo de extremo a extremo para cargas de trabajo de IA.
Después de lanzar sus primeros modelos de aprendizaje profundo, Moloco experimentó un crecimiento y una rentabilidad exponenciales, ya que se multiplicaron por 5 en 2.5 años, y logró un

AssemblyAI
AssemblyAI usa Google Cloud para entrenar modelos con rapidez y a gran escala

LG AI Research redujo drásticamente los costos y aceleró el desarrollo, a la vez que cumplió con estrictos requisitos de seguridad y residencia de los datos

Anthropic anunció planes para acceder a hasta 1 millón de TPU para entrenar y entregar modelos de Claude, lo que equivale a decenas de miles de millones de dólares. Pero ¿cómo se ejecutan en Google Cloud? Mira este video para ver cómo Anthropic está superando los límites de procesamiento de la IA a gran escala con GKE.
Las cargas de trabajo de entrenamiento deben ejecutarse como trabajos altamente sincronizados en miles de nodos en clústeres estrechamente acoplados. Un solo nodo degradado puede interrumpir un trabajo completo y retrasar el tiempo de salida al mercado. Realice lo siguiente:
Queremos que sea extremadamente fácil para los clientes implementar y escalar cargas de trabajo de entrenamiento en Google Cloud.
Para crear un clúster de IA, comienza con uno de nuestros instructivos:
Moloco se basó en la pila completamente integrada de AI Hypercomputer para escalar automáticamente en hardware avanzado como TPU y GPU, lo que liberó a los ingenieros de Moloco, mientras que la integración con la plataforma de datos líder en la industria de Google creó un sistema cohesivo de extremo a extremo para cargas de trabajo de IA.
Después de lanzar sus primeros modelos de aprendizaje profundo, Moloco experimentó un crecimiento y una rentabilidad exponenciales, ya que se multiplicaron por 5 en 2.5 años, y logró un

AssemblyAI
AssemblyAI usa Google Cloud para entrenar modelos con rapidez y a gran escala

LG AI Research redujo drásticamente los costos y aceleró el desarrollo, a la vez que cumplió con estrictos requisitos de seguridad y residencia de los datos

Anthropic anunció planes para acceder a hasta 1 millón de TPU para entrenar y entregar modelos de Claude, lo que equivale a decenas de miles de millones de dólares. Pero ¿cómo se ejecutan en Google Cloud? Mira este video para ver cómo Anthropic está superando los límites de procesamiento de la IA a gran escala con GKE.
Google Cloud proporciona imágenes que contienen sistemas operativos, frameworks, bibliotecas y controladores comunes. AI Hypercomputer optimiza estas imágenes preconfiguradas para admitir tus cargas de trabajo de IA.
“Trabajar con Google Cloud para incorporar la IA generativa nos permite crear un asistente de viajes personalizado dentro de nuestro chatbot. Queremos ayudar a nuestros clientes no solo a planificar un viaje, sino también a crear una experiencia de viaje única para ellos”. Martin Brodbeck, director de Tecnología, Priceline

Lightricks
Lightricks está escalando herramientas de creación de contenido de vanguardia con Google Cloud

Quillbot
QuillBot reduce el tiempo de escritura de más de 10 millones de usuarios con Google Cloud

Creación de una supercomputadora de IA para potenciar a un ingeniero de software de IA automatizado
Google Cloud proporciona imágenes que contienen sistemas operativos, frameworks, bibliotecas y controladores comunes. AI Hypercomputer optimiza estas imágenes preconfiguradas para admitir tus cargas de trabajo de IA.
“Trabajar con Google Cloud para incorporar la IA generativa nos permite crear un asistente de viajes personalizado dentro de nuestro chatbot. Queremos ayudar a nuestros clientes no solo a planificar un viaje, sino también a crear una experiencia de viaje única para ellos”. Martin Brodbeck, director de Tecnología, Priceline

Lightricks
Lightricks está escalando herramientas de creación de contenido de vanguardia con Google Cloud

Quillbot
QuillBot reduce el tiempo de escritura de más de 10 millones de usuarios con Google Cloud

Creación de una supercomputadora de IA para potenciar a un ingeniero de software de IA automatizado
Preguntas frecuentes
Si bien los servicios individuales ofrecen capacidades específicas, AI Hypercomputer proporciona un sistema integrado en el que el hardware, el software y los modelos de consumo están diseñados para funcionar de manera óptima en conjunto. Esta integración ofrece eficiencias a nivel del sistema en rendimiento, costo y tiempo de salida al mercado que son más difíciles de lograr uniendo servicios dispares. Simplifica la complejidad y proporciona un enfoque integral de la infraestructura de IA.
Sí, AI Hypercomputer se diseñó pensando en la flexibilidad. Las tecnologías como Cross-Cloud Interconnect proporcionan conectividad de alto ancho de banda a centros de datos locales y otras nubes, lo que facilita las estrategias de IA híbrida y de múltiples nubes. Operamos con estándares abiertos y, además, integramos software popular de terceros para que puedas crear soluciones que abarquen varios entornos y cambiar los servicios cuando quieras.
La seguridad es un aspecto fundamental de AI Hypercomputer. Se beneficia del modelo de seguridad de varias capas de Google Cloud. Las funciones específicas incluyen microcontroladores de seguridad Titan (que garantizan que los sistemas se inicien desde un estado de confianza), firewall RDMA (para redes de confianza cero entre TPU y GPU durante el entrenamiento) y la integración con soluciones como Model Armor para la seguridad de la IA. Estos se complementan con políticas y principios sólidos de seguridad de la infraestructura, como el Secure AI Framework.
No. AI Hypercomputer se puede usar para cargas de trabajo de cualquier tamaño. Las cargas de trabajo de menor tamaño aún aprovechan todos los beneficios de un sistema integrado, como la eficiencia y la implementación simplificada. AI Hypercomputer también ayuda a los clientes a medida que sus empresas crecen, desde pequeñas pruebas de concepto y experimentos hasta implementaciones de producción a gran escala.
Para la mayoría de los clientes, una plataforma de IA administrada como Vertex AI es la forma más fácil de comenzar a usar la IA, ya que tiene todas las herramientas, plantillas y modelos integrados. Además, Vertex AI está impulsado por AI Hypercomputer de forma interna, de una manera optimizada en tu nombre. Vertex AI es la forma más fácil de comenzar porque ofrece la experiencia más sencilla. Si prefieres configurar y optimizar cada componente de tu infraestructura, puedes acceder a los componentes de AI Hypercomputer como infraestructura y ensamblarlos de una manera que satisfaga tus necesidades.
Sí, estamos creando una biblioteca de recetas en GitHub. También puedes usar Cluster Toolkit para obtener planos de clústeres prediseñados.
Hardware optimizado para IA
Almacenamiento
Redes
Procesamiento: Accede a las TPU de Google Cloud (Trillium), las GPU de NVIDIA (Blackwell) y las CPU (Axion). Esto permite la optimización en función de las necesidades específicas de la carga de trabajo para la capacidad de procesamiento, la latencia o el TCO.
Software y frameworks abiertos líderes
Modelos de consumo: