Künstliche Intelligenz fordert Rechenzentren so viel Leistung ab, dass herkömmliche Luftkühlung nicht mehr ausreicht. Der Trend geht daher zu Flüssigkeitskühlung. Die ist wesentlich effizienter, macht aber auch einige Anpassungen nötig.
Super Micro Computer (oder kurz Supermicro) arbeitet unter anderem zusammen mit Foxconn für ein großes KI-Rechenzentrum in Japan an einem flüssigkeitsgekühlten KI-Super-Cluster. Für die dort geplanten Hochleistungs-GPUs von Nvidia will Supermicro auch entsprechende Wassertürme und Rohrleitungen bauen.
Diese Meldung kam Anfang Juni 2024 gleichzeitig zu einem Gastbeitrag in der Computerwoche. Der beginnt damit, dass Luftkühlung in den Datacentern angesichts des steigenden Leistungsbedarfs durch KI etwa an ihre Grenzen stößt und Flüssigkeitskühlung Abhilfe schaffen kann, diese aber auch einige Anpassungen erfordert.
Luftkühlung kommt an seine Grenzen und ist sehr laut
Die in den Rechenzentren installierten Systeme aus Servern, Speichergeräten, Netzwerk-Hardware und anderen Komponenten werden ohne Kühlung so heiß, dass sie sonst buchstäblich verglühen und ihren Dienst einstellen würden. Die traditionell eingesetzte Luftkühlung hält die Temperaturen für die empfindlichen Geräte auf ein erträgliches Maß und sorgt dafür, dass sie über die versprochene Lebensdauer ordnungsgemäß funktionieren. Die Luft, das traditionell wichtigste Medium für den Wärmeaustausch, muss dabei an allen wichtigen Komponenten vorbeiströmen, um sie schließlich an die Außenumgebung oder ein Klimagerät abzuführen, wo sie gekühlt wird, um sie wieder in den Kreislauf zu bringen.
Wer sich schon über die Lüftergeräusche ärgert, die von einem Notebook oder PC ausgehen, hat gar keine Vorstellungen, wie laut die Hochleistungslüfter und großen Kühlelemente in den Rechenzentren sein können. Der typische Geräuschpegel liegt bei 70 bis 80 dB (Dezibel), entsprechend dem an einer Hauptverkehrsstraße und bereits am Rande der Gefahrenschwelle für den Menschen. Zum Teil gehen die exponentiell wachsenden Werte der Hochleistungslüfter aber auch auf 90 dB hoch, was irgendwo zwischen Bohrmaschine und Disco liegt.
Flüssigkeitskühlung ist wesentlich effektiver
Flüssigkeitskühlung ist wesentlich effizienter, braucht aber auch eintauchfähige Server. Bildquelle: pixabay / Tom159
Bei der klassischen Luftkühlung wird die kühle Luft durch Bodenöffnungen erst in den Kaltgang des Rechenzentrums gepumpt, bevor sie die Serverschränke umströmt, um schließlich durch Deckenlüftungsöffnungen abgesaugt und der Außenluft oder umweltfreundlicher den Klimageräten zugeführt zu werden, womit sich der Kreislauf wiederholt.
Der Leistungsbedarf von Serverschränken in den Rechenzentren ist aber in den letzten Jahren von fünf bis 7 Kilowatt (kW) auf bis zu 50 kW oder in einzelnen Fällen sogar auf über 100 kW gestiegen. Und damit hat sich auch die von den Servern und anderen Komponenten ausgehende Wärmemenge so stark erhöht, dass die herkömmliche Luftkühlung nicht mehr ausreicht.
Daher „erwärmt“ sich die Industrie laut Mustafa Keskin, Applications Solutions Manager bei Corning Optical Communications, im KI-Zeitalter immer mehr für die Flüssigkeitskühlung. Wasser hat ihm zufolge eine 1.000-mal höhere Kühlkapazität als Luft, weil die Wassermoleküle enger beieinander liegen. Aber anders als mit Luft kann man die Server und anderen IT-Komponenten wie die für KI eingesetzten Grafikprozessoren von Nvidia und Co. nicht einfach mit Wasser umspülen.
1PIC und 2PIC – zwei verschiedene Tauchlösungen
Aber es ist möglich, das Wasser in isolierten Rohren um die Wärme oder Hitze erzeugenden Komponenten zirkulieren zu lassen. Der bereits etablierte Trick ist dabei der Einsatz von isolierten wärmeleitenden Platten. Das erfordert aber entsprechende Serverschränke mit vertikalen und horizontalen Flüssigkeitskühlverteilern sowie Flüssigkeitskühlplatten statt der bei Luftkühlung üblichen Kühlkörper in den Servern und Netzwerk-Switches. Die Verteiler bestehen in der Regel aus größeren Rohren, die sich in mehreren Öffnungen verzweigen und mit aus den Servern kommenden kleineren Rohren verbunden sind.
Wie der Corning-Manager Keskin weiter ausführt, gibt es zwei Varianten von Tauchkühllösungen: solche mit Einphasen und Zweiphasen oder Single und Two-Phase Immersion Cooling Fluid System (1PIC und 2PIC). Bei der 1PIC-Variante ruhen die Server praktisch in einem Kühlmittelbad aus einer dielektrischen Flüssigkeit auf Kohlenwasserstoffbasis.
Dabei überträgt die Kühlflüssigkeit die Wärme durch direkten Kontakt mit den Serverkomponenten, um sie über eine Warmwasserkreislauf und ein externes Kühlsystem dann wieder zu kühlen. Das erfordert aber eintauchfähige Server sowie den Anschluss an eine externe Pumpe und einen Kühlturm, der das zurückfließende heiße Wasser aus dem System umwälzt und die Wärme an die Umgebung des Rechenzentrums abgibt.
Liquid Cooling erfordert neue Serverschränke
Bei 2PIC-Systemen sind die Server in einem Bad aus einer speziellen Flüssigkeit auf Basis von Fluorkohlenwasserstoff mit niedrigem Siedepunkt (oft unter 50 Grad Celsius) versiegelt. Die Serverabwärme bringt die Flüssigkeit zum Sieden. Dadurch findet ein Phasenwechsel von flüssig zu gasförmig statt, daher Zweiphase-Tauchkühlung. Der gasförmige Dampf kondensiert in die flüssige Form zurück, wenn er die gekühlten Kondensatorenspulen erreicht hat und tropft dann in das Flüssigkeitsbad zurück, um schließlich ins System zurückgeführt zu werden.
Eine der Herausforderungen bei der Flüssigkeitskühlung ist, dass in den Schränken zwischen den Kühlrohren und -verteilern wenig Platz für die Anschlusstechnik bleibt. Keskin zufolge ist es daher besser, die optischen Verbindungskomponenten außerhalb des Kühltanks unterzubringen. Außerdem setzen Tauchkühlungssysteme die Verwendung von Kabeln voraus, die sich nicht im Laufe der Zeit in der Flüssigkeit versetzen können. Der Vorteil der Flüssigkeitskühlung für Rechenzentren und ihre Betreiber sollen aber bis 55 Prozent weniger Stromkosten sein. Als weiteren Bonus sieht Keskin einen deutlich geringeren Geräuschpegel.
Fazit: Rechenzentren von Luft- auf Flüssigkeitskühlung umzustellen, ist nicht trivial, weil das eintauchfähige Server und neuartige, robustere Materialien verlangt. Aber erstens ist die Flüssigkeits- oder Wasserkühlung sehr viel effizienter, zweitens ist sie angesichts der durch KI und Bitcoin Mining stark steigenden Leistungsdichte in Rechenzentren mittelfristig wohl alternativlos.