Differenze tra le versioni di "AIE:Guida Utenti"
(Creata bozza di struttura per guida utenti del cluster AI@Edge.) |
(Descrizione Cluster) |
||
Riga 5: | Riga 5: | ||
==Architettura Cluster== | ==Architettura Cluster== | ||
AI@Edge mette a disposizione: | AI@Edge mette a disposizione: | ||
+ | |||
===Cluster di Calcolo=== | ===Cluster di Calcolo=== | ||
+ | E' costituito da: | ||
+ | |||
+ | * Un nodo frontend; | ||
+ | * Quattro nodi di calcolo identici; | ||
+ | * Un nodo di storage. | ||
+ | |||
+ | Il nodo frontend ha le seguenti caratteristiche: | ||
+ | |||
+ | CPU: 1 x AMD EPYC 7352 (24 cores, 48 threads) | ||
+ | |||
+ | System memory: 128GB | ||
+ | |||
+ | Storage: 4HDD in RAID 5 | ||
+ | |||
+ | / 200GB | ||
+ | |||
+ | /home 500GB (contiene le home degli utenti ed e' esportata via NFS sui nodi di calcolo) | ||
+ | |||
+ | /opt/share 9.8TB (contiene software condiviso ed e' esportata via NFS sui nodi di calcolo) | ||
+ | |||
+ | |||
+ | Ciascun nodo di calcolo ha le seguenti caratteristiche: | ||
+ | |||
+ | CPU: 2 x AMD EPYC 7413 (48 cores, no HT) | ||
+ | |||
+ | System memory: 512GB | ||
+ | |||
+ | GPU: 1 x NVIDIA A100 GPU | ||
+ | |||
+ | Storage: 440GB | ||
+ | |||
+ | |||
+ | Il nodo di storage dispone di | ||
+ | |||
+ | 2 SSD in RAID1 per il sistema operativo; | ||
+ | |||
+ | 4 SSD in RAID5 5.2TB dedicati al folder /datafast (esportata via NFS sui nodi di calcolo) | ||
+ | |||
+ | 8 HDD in RAID5 63.7TB dedicati al folder /data (esportata via NFS sui nodi di calcolo) | ||
+ | |||
+ | |||
+ | |||
+ | |||
'''TODO''': 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software) | '''TODO''': 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software) | ||
Riga 12: | Riga 56: | ||
'''TODO''' caratteristiche DGX, lista mountpoints e path di interesse | '''TODO''' caratteristiche DGX, lista mountpoints e path di interesse | ||
− | ==Richiesta Creazione Utente sul Cluster== | + | ==Richiesta Creazione Utente sul Cluster == |
'''TODO''' Chi può accedere al momento. | '''TODO''' Chi può accedere al momento. | ||
'''TODO''' elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info... | '''TODO''' elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info... | ||
− | == Accesso e Utilizzo Cluster di calcolo == | + | ==Accesso e Utilizzo Cluster di calcolo== |
Una volta ottenuto l'utente | Una volta ottenuto l'utente | ||
Riga 26: | Riga 70: | ||
</syntaxhighlight> | </syntaxhighlight> | ||
− | ==Accesso e Utilizzo NVIDIA DGX A100== | + | == Accesso e Utilizzo NVIDIA DGX A100== |
'''TODO''' Si accede alla DGX via ssh con certificato preinstallato<syntaxhighlight lang="bash"> | '''TODO''' Si accede alla DGX via ssh con certificato preinstallato<syntaxhighlight lang="bash"> | ||
ssh ... | ssh ... |
Versione delle 11:25, 6 mag 2022
DRAFT: Questa pagina è una bozza.
Guida per gli utenti del Cluster di calcolo e NVIDIA DGX in AI@Edge.
Architettura Cluster
AI@Edge mette a disposizione:
Cluster di Calcolo
E' costituito da:
- Un nodo frontend;
- Quattro nodi di calcolo identici;
- Un nodo di storage.
Il nodo frontend ha le seguenti caratteristiche:
CPU: 1 x AMD EPYC 7352 (24 cores, 48 threads)
System memory: 128GB
Storage: 4HDD in RAID 5
/ 200GB
/home 500GB (contiene le home degli utenti ed e' esportata via NFS sui nodi di calcolo)
/opt/share 9.8TB (contiene software condiviso ed e' esportata via NFS sui nodi di calcolo)
Ciascun nodo di calcolo ha le seguenti caratteristiche:
CPU: 2 x AMD EPYC 7413 (48 cores, no HT)
System memory: 512GB
GPU: 1 x NVIDIA A100 GPU
Storage: 440GB
Il nodo di storage dispone di
2 SSD in RAID1 per il sistema operativo;
4 SSD in RAID5 5.2TB dedicati al folder /datafast (esportata via NFS sui nodi di calcolo)
8 HDD in RAID5 63.7TB dedicati al folder /data (esportata via NFS sui nodi di calcolo)
TODO: 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software)
NVIDIA DGX A100
TODO caratteristiche DGX, lista mountpoints e path di interesse
Richiesta Creazione Utente sul Cluster
TODO Chi può accedere al momento.
TODO elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info...
Accesso e Utilizzo Cluster di calcolo
Una volta ottenuto l'utente
TODO Si accede al frontend
ssh ...
TODO Si richiede risorse con SLURM
srun/sbatch ...
Accesso e Utilizzo NVIDIA DGX A100
TODO Si accede alla DGX via ssh con certificato preinstallato
ssh ...
TODO Usare docker per creare immagini con il software necessario e per lanciare:
docker build ...
docker run --gpus ...