Ollama

Ollama è un runtime per eseguire modelli di linguaggio (LLM) in locale. Permette di utilizzare modelli come Llama, Mistral, Phi e altri senza dipendere da servizi cloud.

Cos'è Ollama

Ollama è un tool che:

  • Esegue LLM localmente sul tuo server
  • Supporta molti modelli open source
  • Fornisce API compatibili con OpenAI
  • Gestisce automaticamente download e ottimizzazione dei modelli
  • Non richiede GPU (ma le supporta per prestazioni migliori)

Configurazione Base

Campo Descrizione
Enabled Attiva o disabilita Ollama
Version Versione di Ollama da utilizzare

Configurazione Docker

Campo Descrizione
CPU Cores Limit Limite CPU per il container
Memory Limit (MB) Limite memoria per il container (importante: i modelli richiedono molta RAM)

File di Configurazione

File Descrizione
Dockerfile File Docker per la build dell'immagine Ollama

Requisiti di Memoria

I modelli LLM richiedono molta RAM. Stima approssimativa:

Dimensione Modello RAM Richiesta
3B parametri 4-6 GB
7B parametri 8-12 GB
13B parametri 16-24 GB
70B parametri 48-64 GB

Modelli Supportati

Modello Dimensioni Descrizione
llama2 7B, 13B, 70B Meta AI, general purpose
llama3 8B, 70B Meta AI, ultima versione
mistral 7B Mistral AI, efficiente
mixtral 8x7B Mistral AI, MoE
phi 2.7B Microsoft, compatto
codellama 7B, 13B, 34B Meta AI, per coding

Casi d'Uso

1. Chatbot Privato

Crea assistenti virtuali senza inviare dati a terzi.

2. Generazione di Codice

Usa modelli specializzati per il coding.

3. RAG Locale

Combina con Qdrant per RAG completamente on-premise.

4. Elaborazione Testi

Automatizza task di elaborazione testuale.

Connessione dall'Applicazione

Dalla rete Docker interna:

  • API: http://ollama:11434

API Endpoints

Endpoint Metodo Descrizione
/api/generate POST Genera testo da prompt
/api/chat POST Conversazione multi-turno
/api/tags GET Lista modelli disponibili
/api/pull POST Scarica un modello
/api/delete DELETE Elimina un modello

Best Practices

  1. Alloca RAM sufficiente - i modelli richiedono molta memoria
  2. Scegli il modello giusto - modelli più piccoli sono più veloci
  3. Pre-scarica i modelli - evita attese al primo utilizzo
  4. Usa streaming per risposte lunghe
  5. Considera GPU per prestazioni migliori

Prossimi Passi

  • Qdrant - Vector database per RAG
  • Node.js - Integra Ollama con applicazioni Node.js