Blog de gestión térmica

En el ámbito de la tecnología de disipación de calor, la gestión térmica es crucial. El blog térmico de Walmate sirve como plataforma. Aquí compartimos soluciones avanzadas de gestión térmica, desde disipadores de calor innovadores hasta sistemas de refrigeración inteligentes, para que pueda mantenerse a la vanguardia.

Solución de refrigeración por aceite de inmersión para servidores GPU NVIDIA H200

Solución de refrigeración por aceite de inmersión para servidores GPU NVIDIA H200

La NVIDIA H200 es una potencia computacional que impulsa la revolución de la IA con un ancho de banda de memoria y una velocidad de procesamiento sin precedentes. Sin embargo, este rendimiento conlleva un alto coste térmico. Con una potencia de diseño térmico (TDP) superior a... 700 W por GPU y las densidades de potencia del rack superan 50kWLa refrigeración por aire tradicional ya no solo es ineficiente, sino que representa un cuello de botella crítico para el rendimiento. Para aprovechar al máximo el potencial de estos clústeres de alta densidad, los centros de datos deben adoptar un paradigma de gestión térmica más eficaz.

Refrigeración por aceite de inmersión Implica sumergir toda la infraestructura del servidor H200 en un fluido dieléctrico termoconductor. Este método elimina la resistencia térmica del aire, lo que permite índices de eficiencia energética (PUE) tan bajos como 1.03, aumentando la densidad del rack mediante hasta el 100%.y garantizar velocidades de reloj pico constantes sin riesgo de estrangulamiento térmico.

Esta guía ofrece un análisis de ingeniería exhaustivo sobre la implementación de refrigeración por inmersión en clústeres HGX H200. Examinaremos la termodinámica del aceite monofásico, seleccionaremos los fluidos dieléctricos óptimos, definiremos la arquitectura del sistema necesaria y resolveremos los problemas de compatibilidad de materiales para construir un centro de datos de IA de alta densidad y con garantía de futuro.

¿Por qué la refrigeración por aire está obsoleta para los clústeres NVIDIA H200?

La transición a NVIDIA H200 marca el fin definitivo de la era de la refrigeración por aire para la informática de alto rendimiento. El límite térmico de la refrigeración por aire forzado tradicional se considera generalmente de alrededor de... 30-40 kW por rackSin embargo, los cúmulos de H200 de alta densidad pueden superar fácilmente 100 kW por rackEsto crea una carga térmica que el aire no puede eliminar físicamente sin generar ruido, vibración y costos energéticos excesivos. Intentar refrigerar estos sistemas con aire resulta en una limitación térmica inmediata y una reducción drástica de la eficiencia computacional.

La termodinámica del fallo: Especificaciones del H200

Para comprender por qué falla el aire, debemos analizar los datos térmicos brutos del hardware. El NVIDIA H200 no es solo un chip; es un desafío térmico que desafía los límites de la física:

  • TDP extremo: Una sola GPU H200 (SXM5) tiene una potencia de diseño térmico (TDP) de 700W, con picos de carga transitoria que a menudo superan esta cifra. Una placa base HGX de 8 GPU por sí sola genera... 5.6 kW de calor en un chasis de 4U o 6U.
  • Altas temperaturas de unión: Para mantener los relojes de impulso máximos, la temperatura de unión de la GPU (Tj) debe mantenerse muy por debajo de su límite máximo (normalmente ~90°C a 95°C). El enfriamiento por aire lucha por mantener este delta T con flujos de calor tan altos.
  • Explosión de densidad de rack: Un rack estándar equipado con servidores H200 puede alcanzar densidades de potencia de 50 kw a 100 kwEl aire requiere un caudal volumétrico masivo (CFM) para enfriarse, lo que genera requisitos de velocidad imposibles.

Las consecuencias de aferrarse al aire

Seguir utilizando refrigeración por aire para las implementaciones de H200 conlleva graves consecuencias operativas:

  • Pérdida de potencia parásita: Para refrigerar un rack de 100 kW con aire, los ventiladores del servidor deben funcionar a las RPM máximas (más de 10 000). Esta carga parásita puede consumir 15% a% 25 de la energía total del centro de datos, lo que aumenta significativamente la PUE (eficacia en el uso de energía).
  • Vibración acústica: Los ventiladores de alta velocidad generan niveles de ruido superiores 100 dBAEsta energía acústica provoca microvibraciones que pueden degradar el rendimiento de la unidad de disco duro (HDD) y aflojar los conectores con el tiempo.
  • Estrangulamiento térmico: El aire crea "puntos calientes" debido a la distribución desigual del flujo. Cuando una GPU alcanza su límite térmico, se reduce automáticamente, lo que significa que pagas por un rendimiento de H200 pero obtienes velocidades de H100 (o inferiores).
Especificaciones Requisito de NVIDIA H200 (SXM5) Límite de enfriamiento del aire Resultado
TDP por GPU 700 Watts ~350-400 vatios (eficientemente) Regulación térmica
Densidad de potencia del rack > 50 kW – 100 kW ~30 kW – 40 kW Requiere implementación de baja densidad (espacio desperdiciado)
Delta T (chip a refrigerante) Requiere baja resistencia térmica Alta resistencia (el aire es un aislante) Altas temperaturas en las uniones
Consumo de energía del ventilador N/A (Sin ventilador en aceite) 20% de la carga de TI PUE alto (>1.5)

¿Qué es la refrigeración por inmersión? Monofásica vs. bifásica

El enfriamiento por inmersión se clasifica en dos tecnologías distintas: Fase única y Dos fases. En Inmersión monofásicaLos servidores se sumergen en un fluido dieléctrico (normalmente un aceite de hidrocarburo) que permanece en estado líquido y elimina el calor mediante convección activa bombeada. Inmersión bifásicaUn fluido de ingeniería especializado hierve directamente sobre la superficie del componente, aprovechando el calor latente de vaporización para eliminar el calor antes de volver a condensarse en líquido. Si bien el aceite bifásico ofrece mayores tasas de transferencia de calor teóricas, el aceite monofásico se considera ampliamente la mejor opción para la estabilidad operativa a largo plazo y el costo total de propiedad (TCO).

Refrigeración por inmersión monofásica (el estándar de la industria)

Los sistemas monofásicos utilizan un fluido dieléctrico con un punto de ebullición alto (normalmente > 150 ° C) para que nunca cambie de estado durante el funcionamiento. El fluido absorbe el calor de las GPU H₂O y se bombea a una Unidad de Distribución de Refrigerante (CDU) para disiparlo.

  • Mecanismo: Se basa en convección forzadaLas bombas hacen circular el aceite a través del tanque y el chasis del servidor.
  • Eficiencia de transferencia de calor: El coeficiente de transferencia de calor típico (h) varía entre 1,200 a 1,500 W/m²KAunque esta temperatura es inferior a la de ebullición, es suficiente para enfriar la GPU H200 de 700 W con un caudal modesto.
  • Costo del fluido: Utiliza fluidos a base de hidrocarburos (aceites minerales o PAO sintéticos), que son rentables (aprox. $5 – $15 por litro).
  • <b>Mantenimiento:</b> Los diseños de baño abierto facilitan el acceso. El fluido no se evapora rápidamente, lo que facilita los procedimientos de mantenimiento, como el intercambio de una DIMM o una GPU (sumergir y limpiar).

Refrigeración por inmersión bifásica (el nicho de alto rendimiento)

Los sistemas de dos fases utilizan fluidos basados ​​en fluorocarbonos diseñados para hervir a bajas temperaturas (por ejemplo, 50 ° C). El proceso de ebullición crea burbujas de vapor en la superficie del chip, que suben a un serpentín de condensación en la parte superior del tanque sellado.

  • Mecanismo: Se basa en ebullición nucleada y cambio de fase (calor latente de vaporización).
  • Eficiencia de transferencia de calor: Extremadamente alto, con coeficientes superiores 10,000W/m²K. Esto proporciona las temperaturas de unión más bajas posibles.
  • Costo del fluido: Fluidos de ingeniería extremadamente costosos (por ejemplo, Novec), que a menudo cuestan $150 – $300+ por litro.
  • Riesgos Ambientales: Muchos fluidos bifásicos se clasifican como PFAS (“químicos permanentes”), frente a inminentes prohibiciones regulatorias en la UE y los EE.UU.
  • Riesgo operacional: El tanque debe estar herméticamente sellado. Incluso una microfuga provoca la rápida pérdida de miles de dólares en líquido al escaparse el vapor.

Perspectiva de ingeniería: Para la mayoría de las implementaciones a hiperescala, Walmate Thermal recomienda Aceite monofásicoSi bien el sistema bifásico ofrece métricas térmicas ligeramente mejores, el elevado coste del fluido, la alta complejidad de mantenimiento (sellado hermético) y la incertidumbre regulatoria con respecto a los PFAS lo convierten en una inversión arriesgada para un ciclo de vida de 10 años en un centro de datos. Los sistemas monofásicos son robustos, sostenibles y proporcionan una capacidad de refrigeración más que suficiente (hasta... 200 kW+ por tanque) para los clústeres H200 actuales y futuros.

Característica Monofásico (petróleo) Bifásico (fluido de ingeniería)
Coeficiente de transferencia de calor ~1,200 – 1,500 W/m²K > 10,000 W/m²K
Costo del fluido (aprox.) Bajo ($5 – $15 / L) Muy alto ($150 – $300+ / L)
Complejidad del mantenimiento Bajo (Acceso abierto) Alto (Requiere recipiente sellado)
Riesgo de pérdida de líquidos Insignificante (no volátil) Alto (evaporación rápida si se rompe el sello)
Potencial PUE 1.03 – 1.05 1.02 – 1.03
Estado reglamentario Opciones seguras y biodegradables Riesgo de prohibición de PFAS

Selección del fluido dieléctrico adecuado (el «aceite»)

El fluido dieléctrico es el elemento vital de un sistema de inmersión. Actúa como refrigerante y aislante eléctrico. Para los clústeres de H₂O₂ de alta densidad, el fluido debe cumplir requisitos rigurosos: rigidez dieléctrica superior a 40 kV para evitar cortocircuitos, alta conductividad térmica para transportar la carga de calor de 700 W por GPU y riguroso compatibilidad materialSi bien los aceites minerales refinados son comunes, los centros de datos modernos están cambiando hacia aceites sintéticos de PAO (polialfaolefina) por su estabilidad superior a la oxidación y viscosidad constante a lo largo de un 10 + año esperanza de vida.

Propiedades clave: La física del fluido

La selección de un fluido no solo es una cuestión de precio; también tiene que ver con la dinámica del fluido y las especificaciones de seguridad:

  • Viscosidad (cSt): Esto determina la intensidad con la que debe trabajar la bomba. Cuanto menor sea la presión, mejor será la transferencia de calor. Los fluidos ideales tienen una viscosidad cinemática de < 10 cSt a 40 °CLos fluidos de alta viscosidad crean capas límite estancadas en la matriz de la GPU, lo que aumenta las temperaturas de unión.
  • Punto de inflamación y seguridad contra incendios: El fluido no debe ser inflamable en condiciones normales de funcionamiento. Un punto de inflamación > 150 ° C es el margen de seguridad estándar, muy por encima de la temperatura de funcionamiento del servidor de ~50-60 °C.
  • Punto de fluidez: Es fundamental para los arranques en frío. El fluido debe permanecer líquido a bajas temperaturas, idealmente <-40 ° C, para garantizar que las bombas puedan hacer circular el fluido inmediatamente después de un corte de energía en las instalaciones durante el invierno.

El riesgo oculto: la compatibilidad de los materiales

El modo de fallo más común en los primeros despliegues de inmersión no era térmico, sino químico. Los aceites de hidrocarburos pueden actuar como disolventes.

  • Endurecimiento del cable: Los aceites pueden desprender plastificantes del aislamiento estándar de los cables de PVC, haciéndolos frágiles y propensos a agrietarse. Es obligatorio utilizar cables aptos para inmersión (p. ej., de teflón/PTFE).
  • Lavado de TIM: Las pastas térmicas estándar pueden disolverse o filtrarse en el aceite, contaminando el fluido y dejando la matriz de la GPU con un contacto térmico deficiente. Se requieren láminas de indio o TIM de inmersión especializados.
Propiedad PAO sintético Aceite mineral refinado Aceite de transformador estándar Objetivo ideal para H200
Resistencia dieléctrica > 50kV > 40kV > 30kV > 45kV
Viscosidad a 40°C 6 - 8 cSt 10 - 15 cSt > 20 cSt (demasiado espeso) < 10 cSt
Punto de inflamabilidad > 160 ° C > 140 ° C ~ 135 ° C > 150 ° C
Coste relativo $$ $ $ Equilibrio rendimiento/costo

Arquitectura del sistema: tanques, CDU y colectores

Implementar la refrigeración por inmersión no es tan sencillo como llenar una tina con aceite. Requiere una sofisticada arquitectura hidráulica de circuito cerrado, diseñada para mover grandes cantidades de energía térmica con precisión. Un ecosistema de inmersión completo para clústeres NVIDIA H200 consta de tres subsistemas esenciales: Tanque de inmersión (el vaso primario), el Unidad de distribución de refrigerante (CDU) (el motor de gestión térmica), y el Sistema de rechazo de calor (enfriadores secos o enfriadores). Cada componente debe estar diseñado para manejar la dinámica de flujo específica y los requisitos de compatibilidad de materiales de los fluidos dieléctricos.

Un sistema completo de refrigeración por inmersión para clústeres NVIDIA H200 se basa en tres subsistemas integrados que funcionan en armonía. Primero, el Tanque de inmersión alberga el hardware del servidor y actúa como el principal recipiente de captura de calor. En segundo lugar, el Unidad de distribución de refrigerante (CDU) Actúa como el corazón del sistema, gestionando el flujo de fluido, la filtración y la regulación de la temperatura mediante un intercambiador de calor líquido-líquido. Finalmente, un externo Enfriador seco o enfriador rechaza el calor capturado a la atmósfera, completando el circuito térmico.

El tanque de inmersión: más que un simple contenedor

El tanque es la interfaz entre el hardware informático y el fluido. Para racks de H₂O₂ de alta densidad, el diseño del tanque debe resolver varios desafíos mecánicos:

  • Materiales de construcción: Los tanques generalmente se fabrican a partir de Acero inoxidable (304 o 316) para garantizar una interacción cero con el fluido dieléctrico y proporcionar rigidez estructural para la carga pesada del fluido (a menudo > 1,000 kg de aceite por tanque).
  • Gestión de cables y absorción: El aceite puede ascender por los cables por capilaridad (mecha). Los tanques deben contar con bandejas para cables y sellos especiales para evitar que el aceite gotee al suelo o alcance zonas de no inmersión.
  • Suministro de energía mediante barras colectoras: La entrega de 100 kW El suministro de energía a un tanque requiere barras colectoras rígidas en lugar de cables estándar. Estas barras deben ser compatibles con el fluido dieléctrico y estar diseñadas para minimizar la caída de tensión.

La CDU: el corazón del sistema

La Unidad de Distribución de Refrigerante (CDU) crea el circuito secundario, aislando el costoso fluido dieléctrico del tanque del circuito de agua de la instalación. Es responsable del control del caudal, la filtración y la estabilidad de la temperatura.

  • Intercambiadores de calor: Este es el componente principal. Alta eficiencia. Intercambiadores de calor de placas soldadas (BPHE) Se utilizan para transferir calor del aceite al agua de la planta. Walmate Thermal se especializa en la fabricación de estos componentes críticos, optimizando la geometría de las placas para manejar la mayor viscosidad del aceite en comparación con el agua.
  • Estrategia de redundancia: La confiabilidad no es negociable. Las CDU para clústeres H200 generalmente emplean un Configuración de bomba N+1Si una bomba falla, la de respaldo se hace cargo inmediatamente para evitar una fuga térmica, que puede ocurrir en <30 segundos en estas densidades de potencia.
  • Filtración: La CDU debe filtrar continuamente el aceite para eliminar partículas (residuos, fundente de soldadura) que podrían puentear los contactos. Una clasificación de filtración de < 10 micras Es estándar para proteger componentes sensibles de la GPU.

Colectores y distribución de caudal

Simplemente bombear aceite al tanque no es suficiente. El flujo debe dirigirse con precisión a los componentes calientes. Esto se logra mediante colectores diseñados a medida.

  • Requisitos de velocidad de flujo: Para enfriar eficazmente una GPU de 700 W con aceite monofásico, se requiere un caudal localizado de aproximadamente 10-15 litros por minuto (LPM) A menudo se requiere por nodo.
  • Uniformidad: El diseño del colector debe garantizar una caída de presión uniforme en todas las ranuras de los servidores. Un diseño deficiente del colector provoca la inanición de los servidores en el extremo del tanque, lo que provoca que se sobrecalienten mientras que otros permanecen fríos.
  • La experiencia de Walmate: Diseñamos y fabricamos colectores de distribución de fluidos de acero inoxidable personalizados utilizando Simulación CFD para garantizar perfiles de velocidad uniformes en todo el volumen del tanque.
Componente Función de la tecla Especificación crítica (datos)
Tanque de inmersión Alberga equipos informáticos y fluidos Capacidad de Carga: 42U – 52U; Fuerza: 100 kilovatios+
CDU (Intercambiador de calor) Transfiere calor al agua de la instalación. Temperatura de aproximación: 3 ° C - 5 ° C; Tipo: Placa soldada
Bombas de circulación Mueve fluido dieléctrico Tasa de flujo: > 300 LPM (por tanque de 100kW); Redundancia: N + 1
Sistema de filtracion Elimina partículas Clasificación: 5-10 micrones; Reemplazable durante el funcionamiento
Enfriador seco Rechaza el calor a la atmósfera. Temperatura del agua de retorno: 35 ° C - 45 ° C (Permite enfriamiento gratuito)

El ROI de la inmersión: PUE, densidad y TCO

La transición a la refrigeración por inmersión requiere una mayor inversión inicial en tanques y fluidos, pero el retorno de la inversión (ROI) es rápido y sustancial. La justificación financiera de la inmersión se basa en tres pilares: reducciones drásticas del consumo energético (OpEx), aumentos considerables de la densidad de cómputo (ahorro de espacio) y una mayor vida útil del hardware. Para un clúster NVIDIA H200 de alta densidad, la refrigeración por inmersión suele ser la única manera de lograr un coste total de propiedad (TCO) sostenible.

La refrigeración por inmersión reduce drásticamente los gastos operativos al abordar las causas fundamentales de la ineficiencia del centro de datos. Al eliminar los ventiladores de los servidores y las unidades CRAC de alto consumo energético, se reduce el consumo total de energía en... 30-50%, lo que permite índices de eficacia en el uso de energía (PUE) tan bajos como 1.03 en comparación con los 1.5+ típicos de las instalaciones refrigeradas por aire. Además, permite aumentar la densidad del hardware en 2-3x, ahorrando así costosos espacios en el suelo y costes de construcción.

Desglose del ahorro energético

El ahorro de energía proviene de la eliminación de dos cargas parásitas masivas:

  • Eliminación de los fanáticos del servidor: En un servidor H200 refrigerado por aire, los ventiladores pueden consumir 15-20% De la potencia total de TI para impulsar el aire a través de disipadores de calor densos. En inmersión, los ventiladores se eliminan por completo. Esto reduce instantáneamente la carga de TI hasta en un 20 % con la misma potencia de procesamiento.
  • Refrigeración sin compresor: La refrigeración por aire requiere enfriadores que produzcan aire frío (a menudo entre 15 y 20 °C). El aceite de inmersión funciona a temperaturas más altas (entre 40 y 50 °C), lo que permite... enfriamiento gratis utilizando únicamente enfriadores secos al aire libre en casi cualquier clima, eliminando la necesidad de refrigeración mecánica que consume mucha energía (compresores).

Vida útil y confiabilidad del hardware

La inmersión no solo enfría el hardware, sino que lo protege. Esto extiende el tiempo medio entre fallos (MTBF).

  • Estabilidad térmica: La alta masa térmica del aceite elimina los picos rápidos de temperatura (ciclos térmicos) que provocan fatiga en las uniones soldadas.
  • Protección contra contaminantes: Los componentes sumergidos son inmunes al polvo, la humedad, el azufre y la oxidación, que son causantes habituales de daños en los dispositivos electrónicos refrigerados por aire.
  • Eliminación de vibraciones: Sin ventiladores de alta velocidad, se elimina la vibración acústica, lo que protege las matrices y los conectores de HDD.
Métrico Refrigeración por aire heredada Enfriamiento por aceite de inmersión Ahorros/Ganancias
PUE (eficacia en el uso de la energía) 1.4 – 1.6 1.03 – 1.05 ~30% menor potencia total
Densidad de potencia del rack (kW) 15-30 kW 100 kW – 200 kW+ Densidad 3x – 6x
Alimentación del ventilador del servidor 15% – 20% de la carga de TI 0% (Eliminado) Ganancia inmediata de eficiencia
Tasa de fallos (MTBF) Base Extendido (Temperatura estable) Menor costo de mantenimiento
Espacio de piso requerido Alto (Pasillos fríos/calientes) Bajo (Tanques Compactos) ~60% de ahorro de espacio

Desafíos de diseño e implementación (y soluciones)

Implementar la refrigeración por inmersión en los clústeres de H₂O₂ requiere superar obstáculos de ingeniería específicos, más allá de la termodinámica. La transición presenta desafíos físicos únicos: Compatibilidad de materiales problemas en los que los hidrocarburos pueden eliminar los plastificantes de los cables; Cable absorbente, donde el aceite viaja por el aislamiento del cable a través de la acción capilar hasta zonas de no inmersión; y Utilidad Restricciones que exigen nuevos protocolos para el manejo de hardware aceitoso. Para mitigar estos riesgos con éxito, es necesario seleccionar con precisión los materiales, como el uso de cableado de PTFE y módulos de información térmica (TIM) de lámina de indio, junto con un diseño robusto de las instalaciones.

Compatibilidad de materiales: El asesino silencioso

Los componentes estándar del servidor están diseñados para aire, no para aceite. La exposición prolongada a fluidos de hidrocarburos puede causar degradación química en ciertos materiales, lo que puede provocar fallos en el sistema.

  • Aislamiento del cableado: Estándar PVC (cloruro de polivinilo) Los cables contienen plastificantes que pueden filtrarse en el aceite con el tiempo. Esto los vuelve frágiles y propensos a agrietarse, además de contaminar el fluido dieléctrico. La Solución: Todo cableado sumergido debe ser reemplazado por PTFE (teflón) or FEP aislamiento, que es químicamente inerte en aceite.
  • Juntas y Sellos: Los sellos de caucho comunes como EPDM pueden hincharse o disolverse. La Solución: Usa Vitón (FKM) or Nitrilo (Buna-N) Juntas que han demostrado estabilidad a largo plazo en entornos de hidrocarburos.
  • Etiquetado: Las etiquetas de papel y los adhesivos estándar se desprenderán y obstruirán los filtros. La Solución: Utilice etiquetas de poliéster resistentes al aceite o grabadas con láser.

El fenómeno de la capilaridad

El aceite tiene una tensión superficial muy baja, lo que le permite subir por el cobre trenzado dentro de un cable y viajar potencialmente metros desde el tanque hasta la unidad de distribución de energía (PDU) o el conmutador de red.

  • Riesgo: Aceite que gotea sobre baldosas de piso no sumergibles o ingresa a puertos de equipos de red.
  • Mitigación: Instalar prensaestopas herméticos o "bloques de absorción" en la salida del tanque. Como alternativa, se puede incluir un "bucle de servicio" en el recorrido del cable que descienda por debajo del punto de salida, creando una trampa de gravedad.

Modificación de servidores H200 para inmersión

No se puede simplemente sumergir un zócalo HGX H200 estándar en aceite; requiere modificaciones específicas para que funcione correctamente:

  • Eliminación y suplantación de ventiladores: Es necesario retirar los ventiladores físicos para permitir el flujo de fluido. Sin embargo, el BMC (controlador de administración de la placa base) detectará un fallo en el ventilador e impedirá el arranque. La Solución: Instalar parodias de fans (pequeños dongles) que envían una señal de tacómetro falsa de “todo bien” a la placa base.
  • Reemplazo de TIM: La grasa térmica estándar puede erosionarse o degradarse en aceite con el tiempo. La Solución: Reemplace la grasa con Lámina de indio o sólido Material de cambio de fase (PCM) almohadillas. La lámina de indio proporciona una excelente conductividad (86 W / m · K) y es inmune al lavado químico.
Factor de riesgo Impacto potencial Estrategia de mitigación (solución de ingeniería)
Contaminación de fluidos Rigidez dieléctrica reducida; obstrucción del filtro Retire todas las etiquetas de papel; Utilice cables sin PVC; Continuo filtración de 10 µm.
Cable absorbente Fugas de aceite fuera del tanque (Peligro de seguridad) Utilice cables de núcleo sólido siempre que sea posible; Instale bloques de sellado de compresión a la salida del tanque.
Lavado de TIM Sobrecalentamiento de la GPU debido a la formación de huecos Reemplace la pasta con Lámina de indio o almohadillas de grafito (estables verticalmente).
Fallo del sello Pérdida masiva de líquidos (problema ambiental) Usa Juntas tóricas de Viton/FKM;Diseño de tanques de contención de doble pared.

Preguntas Frecuentes (FAQ)

1. ¿El enfriamiento por inmersión anula la garantía de NVIDIA?

Modificar una placa base HGX H200 estándar refrigerada por aire quitando ventiladores y disipadores anulará la garantía estándar. Sin embargo, NVIDIA trabaja con integradores de sistemas certificados (como Supermicro, Gigabyte y QCT) que ofrecen “listo para la inmersión” SKU con garantía completa para inmersión en líquidos. Adquiera siempre hardware con certificación de inmersión en lugar de actualizar unidades estándar para garantizar la cobertura del soporte.

2. ¿Con qué frecuencia se debe cambiar el aceite dieléctrico?

Los fluidos dieléctricos sintéticos PAO de alta calidad son increíblemente estables. A diferencia del agua-glicol en los circuitos DLC, que pueden requerir mantenimiento cada 3 a 5 años, el aceite de inmersión monofásico suele tener una vida útil superior a... 10 a 15 añosEl fluido se filtra continuamente para eliminar partículas y se recomienda realizar análisis de laboratorio periódicos para verificar si hay oxidación o entrada de humedad, pero rara vez es necesario un reemplazo completo durante el ciclo de vida del servidor.

3. ¿Puedo adaptar los servidores refrigerados por aire H200 existentes para inmersión?

Técnicamente sí, pero requiere mucha ingeniería. Debe retirar todos los ventiladores, reemplazar el TIM con lámina de indio o almohadillas de grafito (ya que la pasta se desprende), instalar suplantadores de ventiladores y, posiblemente, modificar la BIOS. Si bien es posible para pruebas de concepto, no se recomienda para clústeres de producción debido a los riesgos de garantía y los costos de mano de obra. Los servidores de inmersión diseñados específicamente son la mejor opción.

4. ¿Qué pasa si falla la bomba en un tanque de inmersión?

La inmersión ofrece un margen de seguridad significativo en comparación con las placas frías. Debido a que el tanque contiene más de 1,000 litros de fluido, existe una inmensa masa térmica. Si la circulación se detiene, la temperatura del fluido aumenta lentamente, lo que da a los operadores varios minutos para reaccionar antes de que se alcancen los límites de la unión en T. Además, los diseños de sistemas robustos utilizan Bombas redundantes N+1, por lo que una sola falla de la bomba no detiene la circulación ni afecta el rendimiento de enfriamiento.

5. ¿El aceite mineral es inflamable?

Los fluidos dieléctricos son combustibles, pero difíciles de encender. Los fluidos de inmersión estándar tienen un punto de inflamación alto, típicamente... > 150 ° C (302 ° F)Dado que la temperatura de funcionamiento del aceite se mantiene entre 40 °C y 50 °C, existe un amplio margen de seguridad de más de 100 °C. Los sistemas de extinción de incendios son estándar en los centros de datos, pero el riesgo de ignición espontánea es extremadamente bajo en comparación con los riesgos de incendio eléctrico en los racks refrigerados por aire.

6. ¿Cuánto espacio en el suelo se ahorra con la refrigeración por inmersión?

La refrigeración por inmersión mejora drásticamente la eficiencia del espacio. Un rack estándar refrigerado por aire podría soportar... 30 kW, lo que requiere un espacio considerable para los pasillos de frío y calor. Un tanque de inmersión puede manejar 100 kw a 200 kw en un espacio similar sin necesidad de pasillos. Esto generalmente resulta en una Reducción del 60% al ​​75% en el espacio en blanco requerido para la misma cantidad de potencia de cómputo.

7. ¿Puede Walmate diseñar tanques de inmersión o CDU personalizados?

Sí. Walmate Thermal es un fabricante especializado en componentes térmicos críticos para un ecosistema de inmersión. Diseñamos y fabricamos sistemas de alta eficiencia. intercambiadores de calor de placas soldadas para las CDU y colectores de fluidos de acero inoxidable personalizados Para garantizar una distribución uniforme del flujo dentro de los tanques, colaboramos con integradores de sistemas para suministrar el hardware térmico a medida necesario para implementaciones de H₂O₂ de alta densidad.

Conclusión

NVIDIA H200 exige un cambio de paradigma térmico. A medida que las densidades de rack superan los 50 kW, la física de la refrigeración por aire se ha convertido en un problema, limitando el rendimiento e incrementando los costes operativos. La refrigeración por aceite por inmersión no es solo una alternativa; es la vía de ingeniería probada para liberar todo el potencial de la infraestructura de IA. Al eliminar la resistencia térmica y las cargas parásitas de los ventiladores, permite un rendimiento máximo real a la vez que reduce drásticamente el consumo de energía.

Para implementar con éxito esta tecnología se necesita más que un simple tanque: se requiere una arquitectura hidráulica robusta e integrada capaz de gestionar flujos de calor masivos con absoluta confiabilidad.

Asociese con los expertos en refrigeración de alta densidad.
Walmate Thermal se especializa en la fabricación de hardware esencial para sistemas de inmersión. Desde alta eficiencia intercambiadores de calor de placas soldadas para sus CDU Colectores de distribución de fluidos de acero inoxidable personalizados Adaptados a la geometría de su tanque, proporcionamos la estructura térmica para centros de datos de última generación. Le ayudamos a diseñar un sistema que gestione 100kW+ bastidores con facilidad.

Contacte hoy mismo con nuestros ingenieros térmicos para una consulta. Construyamos un futuro más fresco y rápido para la IA.

 

Blog reciente

Buscar en el blog de Walmate

Walmate Thermal puede responder a sus preguntas técnicas:

Aunque contamos con numerosos artículos teóricos y compartimos información técnica, si tiene preguntas o inquietudes sobre radiadores, placas de refrigeración líquida o nuevos materiales en el proceso de diseño térmico, puede enviarnos un correo electrónico y nuestros ingenieros le responderán.

Puedes enviarnos un correo electrónico a:

Índice

Contáctenos