Ollama
Ollama è un runtime per eseguire modelli di linguaggio (LLM) in locale. Permette di utilizzare modelli come Llama, Mistral, Phi e altri senza dipendere da servizi cloud.
Cos'è Ollama
Ollama è un tool che:
- Esegue LLM localmente sul tuo server
- Supporta molti modelli open source
- Fornisce API compatibili con OpenAI
- Gestisce automaticamente download e ottimizzazione dei modelli
- Non richiede GPU (ma le supporta per prestazioni migliori)
Configurazione Base
| Campo | Descrizione |
|---|---|
| Enabled | Attiva o disabilita Ollama |
| Version | Versione di Ollama da utilizzare |
Configurazione Docker
| Campo | Descrizione |
|---|---|
| CPU Cores Limit | Limite CPU per il container |
| Memory Limit (MB) | Limite memoria per il container (importante: i modelli richiedono molta RAM) |
File di Configurazione
| File | Descrizione |
|---|---|
| Dockerfile | File Docker per la build dell'immagine Ollama |
Requisiti di Memoria
I modelli LLM richiedono molta RAM. Stima approssimativa:
| Dimensione Modello | RAM Richiesta |
|---|---|
| 3B parametri | 4-6 GB |
| 7B parametri | 8-12 GB |
| 13B parametri | 16-24 GB |
| 70B parametri | 48-64 GB |
Modelli Supportati
| Modello | Dimensioni | Descrizione |
|---|---|---|
| llama2 | 7B, 13B, 70B | Meta AI, general purpose |
| llama3 | 8B, 70B | Meta AI, ultima versione |
| mistral | 7B | Mistral AI, efficiente |
| mixtral | 8x7B | Mistral AI, MoE |
| phi | 2.7B | Microsoft, compatto |
| codellama | 7B, 13B, 34B | Meta AI, per coding |
Casi d'Uso
1. Chatbot Privato
Crea assistenti virtuali senza inviare dati a terzi.
2. Generazione di Codice
Usa modelli specializzati per il coding.
3. RAG Locale
Combina con Qdrant per RAG completamente on-premise.
4. Elaborazione Testi
Automatizza task di elaborazione testuale.
Connessione dall'Applicazione
Dalla rete Docker interna:
- API:
http://ollama:11434
API Endpoints
| Endpoint | Metodo | Descrizione |
|---|---|---|
| /api/generate | POST | Genera testo da prompt |
| /api/chat | POST | Conversazione multi-turno |
| /api/tags | GET | Lista modelli disponibili |
| /api/pull | POST | Scarica un modello |
| /api/delete | DELETE | Elimina un modello |
Best Practices
- Alloca RAM sufficiente - i modelli richiedono molta memoria
- Scegli il modello giusto - modelli più piccoli sono più veloci
- Pre-scarica i modelli - evita attese al primo utilizzo
- Usa streaming per risposte lunghe
- Considera GPU per prestazioni migliori