Differenze tra le versioni di "AIE:Guida Utenti"
(Correzione descrizione Cluster) |
|||
Riga 65: | Riga 65: | ||
'''TODO''' Si accede al frontend<syntaxhighlight lang="bash"> | '''TODO''' Si accede al frontend<syntaxhighlight lang="bash"> | ||
− | ssh ... | + | ssh <username>@edge-mst1.isti.cnr.it |
− | </syntaxhighlight>'''TODO''' Si richiede risorse con SLURM<syntaxhighlight lang="bash"> | + | </syntaxhighlight> |
+ | |||
+ | E' obbligatorio l'utilizzo di slurm per lanciare jobs sul cluster. | ||
+ | La documentazione ufficiale e' disponibile ai seguenti link:<br/> | ||
+ | https://slurm.schedmd.com/documentation.html<br/> | ||
+ | https://slurm.schedmd.com/tutorials.html<br/> | ||
+ | |||
+ | |||
+ | |||
+ | '''TODO''' Si richiede risorse con SLURM<syntaxhighlight lang="bash"> | ||
srun/sbatch ... | srun/sbatch ... | ||
</syntaxhighlight> | </syntaxhighlight> |
Versione delle 12:40, 6 mag 2022
DRAFT: Questa pagina è una bozza.
Guida per gli utenti del Cluster di calcolo e NVIDIA DGX in AI@Edge.
Architettura Cluster
AI@Edge mette a disposizione:
Cluster di Calcolo
E' costituito da:
- Un nodo frontend;
- Quattro nodi di calcolo identici;
- Un nodo di storage.
Il nodo frontend ha le seguenti caratteristiche:
CPU: 1 x AMD EPYC 7352 (24 cores, 48 threads)
System memory: 128GB
Storage: 4HDD in RAID 5
/ 200GB
/home 500GB (contiene le home degli utenti ed e' esportata via NFS sul frontend e sui nodi di calcolo)
/opt/share 9.8TB (contiene software condiviso ed e' esportata via NFS sul frontend e sui nodi di calcolo)
Ciascun nodo di calcolo ha le seguenti caratteristiche:
CPU: 2 x AMD EPYC 7413 (48 cores, no HT)
System memory: 512GB
GPU: 1 x NVIDIA A100 GPU
Storage: 440GB
Il nodo di storage dispone di
2 SSD in RAID1 per il sistema operativo;
4 SSD in RAID5 5.2TB dedicati al folder /datafast (esportata via NFS sul frontend e sui nodi di calcolo)
8 HDD in RAID5 63.7TB dedicati al folder /data (esportata via NFS sul frontend e sui nodi di calcolo)
TODO: 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software)
NVIDIA DGX A100
TODO caratteristiche DGX, lista mountpoints e path di interesse
Richiesta Creazione Utente sul Cluster
TODO Chi può accedere al momento.
TODO elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info...
Accesso e Utilizzo Cluster di calcolo
Una volta ottenuto l'utente
TODO Si accede al frontend
ssh <username>@edge-mst1.isti.cnr.it
E' obbligatorio l'utilizzo di slurm per lanciare jobs sul cluster.
La documentazione ufficiale e' disponibile ai seguenti link:
https://slurm.schedmd.com/documentation.html
https://slurm.schedmd.com/tutorials.html
TODO Si richiede risorse con SLURM
srun/sbatch ...
Accesso e Utilizzo NVIDIA DGX A100
TODO Si accede alla DGX via ssh con certificato preinstallato
ssh ...
TODO Usare docker per creare immagini con il software necessario e per lanciare:
docker build ...
docker run --gpus ...