Differenze tra le versioni di "AIE:Guida Utenti"

Da ISTI S2I2S Wiki.
Jump to navigation Jump to search
(Creata bozza di struttura per guida utenti del cluster AI@Edge.)
 
(Descrizione Cluster)
Riga 5: Riga 5:
 
==Architettura Cluster==
 
==Architettura Cluster==
 
AI@Edge mette a disposizione:
 
AI@Edge mette a disposizione:
 +
  
 
===Cluster di Calcolo===
 
===Cluster di Calcolo===
 +
E' costituito da:
 +
 +
* Un nodo frontend;
 +
* Quattro nodi di calcolo identici;
 +
* Un nodo di storage. 
 +
 +
Il nodo frontend ha le seguenti caratteristiche:
 +
 +
CPU: 1 x AMD EPYC 7352 (24 cores, 48 threads)
 +
 +
System memory: 128GB
 +
 +
Storage: 4HDD in RAID 5
 +
 +
   /                200GB
 +
 +
   /home       500GB (contiene le home degli utenti ed e' esportata via NFS sui nodi di calcolo)
 +
 +
   /opt/share  9.8TB (contiene software condiviso ed e' esportata via NFS sui nodi di calcolo)
 +
 +
 +
Ciascun nodo di calcolo ha le seguenti caratteristiche:
 +
 +
CPU: 2 x AMD EPYC 7413 (48 cores, no HT)
 +
 +
System memory: 512GB
 +
 +
GPU: 1 x NVIDIA A100 GPU
 +
 +
Storage: 440GB
 +
 +
 +
Il nodo di storage dispone di
 +
 +
   2 SSD in RAID1 per il sistema operativo;
 +
 +
   4 SSD in RAID5 5.2TB dedicati al folder /datafast (esportata via NFS sui nodi di calcolo)
 +
 +
   8 HDD in RAID5 63.7TB dedicati al folder /data (esportata via NFS sui nodi di calcolo)
 +
 +
 +
   
 +
 
'''TODO''': 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software)
 
'''TODO''': 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software)
  
Riga 12: Riga 56:
 
'''TODO''' caratteristiche DGX, lista mountpoints e path di interesse
 
'''TODO''' caratteristiche DGX, lista mountpoints e path di interesse
  
==Richiesta Creazione Utente sul Cluster==
+
==Richiesta Creazione Utente sul Cluster ==
 
'''TODO''' Chi può accedere al momento.
 
'''TODO''' Chi può accedere al momento.
  
 
'''TODO''' elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info...
 
'''TODO''' elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info...
  
== Accesso e Utilizzo Cluster di calcolo ==
+
==Accesso e Utilizzo Cluster di calcolo==
 
Una volta ottenuto l'utente
 
Una volta ottenuto l'utente
  
Riga 26: Riga 70:
 
</syntaxhighlight>
 
</syntaxhighlight>
  
==Accesso e Utilizzo  NVIDIA DGX A100==
+
== Accesso e Utilizzo  NVIDIA DGX A100==
 
'''TODO''' Si accede alla DGX via ssh con certificato preinstallato<syntaxhighlight lang="bash">
 
'''TODO''' Si accede alla DGX via ssh con certificato preinstallato<syntaxhighlight lang="bash">
 
ssh ...
 
ssh ...

Versione delle 11:25, 6 mag 2022

DRAFT: Questa pagina è una bozza.

Guida per gli utenti del Cluster di calcolo e NVIDIA DGX in AI@Edge.

Architettura Cluster

AI@Edge mette a disposizione:


Cluster di Calcolo

E' costituito da:

  • Un nodo frontend;
  • Quattro nodi di calcolo identici;
  • Un nodo di storage.

Il nodo frontend ha le seguenti caratteristiche:

CPU: 1 x AMD EPYC 7352 (24 cores, 48 threads)

System memory: 128GB

Storage: 4HDD in RAID 5

   /           200GB

   /home       500GB (contiene le home degli utenti ed e' esportata via NFS sui nodi di calcolo)

   /opt/share  9.8TB (contiene software condiviso ed e' esportata via NFS sui nodi di calcolo)


Ciascun nodo di calcolo ha le seguenti caratteristiche:

CPU: 2 x AMD EPYC 7413 (48 cores, no HT)

System memory: 512GB

GPU: 1 x NVIDIA A100 GPU

Storage: 440GB


Il nodo di storage dispone di

   2 SSD in RAID1 per il sistema operativo;

   4 SSD in RAID5 5.2TB dedicati al folder /datafast (esportata via NFS sui nodi di calcolo)

   8 HDD in RAID5 63.7TB dedicati al folder /data (esportata via NFS sui nodi di calcolo)


  

TODO: 4 nodi con XX caratteristiche, frontend che con SLURM comanda sotto nodi, lista mountpoints/paths di interesse (dati e software)

NVIDIA DGX A100

TODO caratteristiche DGX, lista mountpoints e path di interesse

Richiesta Creazione Utente sul Cluster

TODO Chi può accedere al momento.

TODO elenco amministratori per laboratiorio. Contattare tizio, caio e fornire le seguenti info...

Accesso e Utilizzo Cluster di calcolo

Una volta ottenuto l'utente

TODO Si accede al frontend

ssh ...

TODO Si richiede risorse con SLURM

srun/sbatch ...

Accesso e Utilizzo NVIDIA DGX A100

TODO Si accede alla DGX via ssh con certificato preinstallato

ssh ...

TODO Usare docker per creare immagini con il software necessario e per lanciare:

docker build ...

docker run --gpus ...