From 59f8fbbe15facd3e65164a74fb493485417acbbe Mon Sep 17 00:00:00 2001 From: Marcel Nijenhof Date: Tue, 2 Jun 2020 02:13:52 -0400 Subject: [PATCH] Integratie wait en mpitests-mpich - Gebruik gemaakt van wait als init zodat de processen opgeruimt worden - mpitests-mpich als mpi demo toegevoegd - In README: testen uitgebreid met mpi & logfiles sbatch beschreven --- README.md | 35 ++++++++++++++++++++++++++++++++++- cal/files/startup | 3 ++- slurm-base/Dockerfile | 9 ++++++++- slurm-base/files/startup | 4 ---- submit/files/startup | 4 +++- 5 files changed, 47 insertions(+), 8 deletions(-) delete mode 100644 slurm-base/files/startup diff --git a/README.md b/README.md index 9ef560b..cc607d8 100644 --- a/README.md +++ b/README.md @@ -61,10 +61,43 @@ Wat je ziet is dat elke node 2 scripten start. De overige 4 blijven in de queue staan. +Je kunt de output van de shell script bekijken in de logfiles +slurm-<nr>.out + +### Mpich test programma's + +Via srun kunnen we programma's vanaf de submit node in de voorgrond draaien. +De output komt dan gewoon naar het scherm. + +Start het mpi hello test programma met: +``` +srun --mpi=pmi2 -n 4 /usr/lib64/mpich/bin/mpitests-osu_hello +``` + +We zien dat hij netjes meld dat hij met 4 nodes gedraait heeft. + +We kunnen ook een latency test draaien met 2 nodes: +``` +srun --mpi=pmi2 -n 2 /usr/lib64/mpich/bin/mpitests-osu_acc_latency +``` + +In dit geval draaien beide programma's op de zelfde node. +Laten we het zelfde doen maar dan een mpi programma per node: +``` +srun --mpi=pmi2 -N 2 -n 2 /usr/lib64/mpich/bin/mpitests-osu_acc_latency +``` + +In dat geval zien we een hogere latency! + +Ten slotte een test waarbij mpi op alle beschikbare cpu's draait: + +``` +srun --mpi=pmi2 -n 4 /usr/lib64/mpich/bin/mpitests-osu_allgather +``` + ## Todo ### Nu - - Integratie mpi. - Integratie waqua/d-hydro. - Workshop schrijven. diff --git a/cal/files/startup b/cal/files/startup index 89fccba..9acb8c8 100644 --- a/cal/files/startup +++ b/cal/files/startup @@ -1,4 +1,5 @@ #!/bin/sh su -s /bin/sh munge -c /usr/sbin/munged -exec /opt/slurm/sbin/slurmd -D /opt/slurm/etc/slurm.conf +/opt/slurm/sbin/slurmd /opt/slurm/etc/slurm.conf +exec /sbin/wait diff --git a/slurm-base/Dockerfile b/slurm-base/Dockerfile index f6706c9..74f82b4 100644 --- a/slurm-base/Dockerfile +++ b/slurm-base/Dockerfile @@ -14,7 +14,9 @@ RUN "/usr/bin/yum" "-y" "install" \ https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm RUN "/usr/bin/yum" "-y" "install" \ - slurm + slurm \ + mpich-3.0 \ + mpitests-mpich RUN "/usr/sbin/groupadd" "-g" "1000" "marceln" RUN "/usr/sbin/useradd" \ @@ -38,3 +40,8 @@ RUN chmod 600 /etc/munge/munge.key RUN mkdir /opt/slurm/etc /var/log/slurm/ ADD files/slurm.conf /opt/slurm/etc/slurm.conf ADD files/slurm.sh /etc/profile.d/slurm.sh + +# +# Add wait +# +ADD files/wait /sbin/wait diff --git a/slurm-base/files/startup b/slurm-base/files/startup deleted file mode 100644 index d856f31..0000000 --- a/slurm-base/files/startup +++ /dev/null @@ -1,4 +0,0 @@ -#!/bin/sh - -su -s /bin/sh munge -c /usr/sbin/munged -exec /opt/slurm/sbin/slurmctld -D /opt/slurm/etc/slurm.conf diff --git a/submit/files/startup b/submit/files/startup index d856f31..c130e26 100644 --- a/submit/files/startup +++ b/submit/files/startup @@ -1,4 +1,6 @@ #!/bin/sh su -s /bin/sh munge -c /usr/sbin/munged -exec /opt/slurm/sbin/slurmctld -D /opt/slurm/etc/slurm.conf +/opt/slurm/sbin/slurmctld /opt/slurm/etc/slurm.conf +exec /sbin/wait +