Tiene que tener suficiente memoria y CPUs, en especial esta última, para el despliegue de los nodos por Ansible. Luego para que ejecute slurm no necesita casi nada, pero es lo que hay (es un desperdicio que se podría solucionar poniendo al master que funcione también como un nodo, pero eso estro tema).
Tiene que tener suficiente memoria y CPUs, en especial esta última, para el despliegue de los nodos por Ansible. Luego para que ejecute slurm no necesita casi nada, pero es lo que hay (es un desperdicio que se podría solucionar poniendo al master que funcione también como un nodo, pero eso estro tema).
En general 4GB es más que suficiente. Pero 4 VCPUs puede valer para 8 nodos de trabajo, pero esto último lo decidimos despúes, según cuántos nodos creamos.
En general 4GB es más que suficiente. Pero 4 VCPUs puede valer para 8 nodos de trabajo, pero esto último lo decidimos despúes, según cuántos nodos creamos.
## Número y tipo de nodos.
### Número y tipo de nodos.
Lo ideal es intentar copar el máximo de cores disponibles (VCPUS) en el proveedor Cloud con el mínimo número de MVs y memoria por MV. De esta forma aseguras que las simulaciones terminan antes (tienes más cores disponibles por simulación) y te aseguras que el máximo de memoria usable en el proveedor te impida obtener todas las VCPUs restantes. Lo suyo es que todas los nodos de trabajo sean iguales.
Lo ideal es intentar copar el máximo de cores disponibles (VCPUS) en el proveedor Cloud con el mínimo número de MVs y memoria por MV. De esta forma aseguras que las simulaciones terminan antes (tienes más cores disponibles por simulación) y te aseguras que el máximo de memoria usable en el proveedor te impida obtener todas las VCPUs restantes. Lo suyo es que todas los nodos de trabajo sean iguales.
...
@@ -36,12 +36,14 @@ Es decir, tenemos para 12 máquinas de 16 VCPUs y 1 de 8VCPUs. Entonces podemos
...
@@ -36,12 +36,14 @@ Es decir, tenemos para 12 máquinas de 16 VCPUs y 1 de 8VCPUs. Entonces podemos
- el máster tendría 8 VCPUs y 4GB de RAM
- el máster tendría 8 VCPUs y 4GB de RAM
- 12 nodos de trabajo con 16 VCPUs y (500+16*250MB=) 4.5 GB de RAM.
- 12 nodos de trabajo con 16 VCPUs y (500+16*250MB=) 4.5 GB de RAM.
## - Comprobar si está todo bien, para ello se entra en el master y al pasar a "root" comprueba que aparece el hostname "slurmserver", no quedan procesos "ansible" consumiendo mucha CPU y que los nodos están "idle".
### Comprobar si está todo bien.
Para ello se entra en el master y al pasar a "root" comprueba que aparece el hostname "slurmserver", no quedan procesos "ansible" consumiendo mucha CPU y que los nodos están "idle".
Lanzar la creación y esperar a que esté todo OK en verde (10-15 minutos para 8 nodos)
Lanzar la creación y esperar a que esté todo OK en verde (10-15 minutos para 8 nodos)