Speaker
Rainer Herbst
(MJBK)
Description
Die Servicegruppe IT betreibt einen kleineren HPC-Cluster und nutzt Slurm (Simple Linux Utility for Resource Management) für die Administration.
Die Auslastung des Clusters variiert. Mit Slurms "Power saving" werden Compute-Nodes automatisiert heruntergefahren und bei Bedarf wieder gestartet.
Gezeigt werden techn. Details wie die Slurm-Konfiguration und Shell-Skripts sowie Daten zum Energieverbrauch des Clusters. Weiterhin werden Hardware-Ausfallraten und Auswirkung auf die Nutzenden ausgewertet.
Primary author
Rainer Herbst
(MJBK)