Ollama

Ollama è un runtime per eseguire modelli di linguaggio (LLM) in locale. Permette di utilizzare modelli come Llama, Mistral, Phi e altri senza dipendere da servizi cloud.

Cos'è Ollama

Ollama è un tool che:

Esegue LLM localmente sul tuo server
Supporta molti modelli open source
Fornisce API compatibili con OpenAI
Gestisce automaticamente download e ottimizzazione dei modelli
Non richiede GPU (ma le supporta per prestazioni migliori)

Configurazione Base

Campo	Descrizione
Enabled	Attiva o disabilita Ollama
Version	Versione di Ollama da utilizzare

Configurazione Docker

Campo	Descrizione
CPU Cores Limit	Limite CPU per il container
Memory Limit (MB)	Limite memoria per il container (importante: i modelli richiedono molta RAM)

File di Configurazione

File	Descrizione
Dockerfile	File Docker per la build dell'immagine Ollama

Requisiti di Memoria

I modelli LLM richiedono molta RAM. Stima approssimativa:

Dimensione Modello	RAM Richiesta
3B parametri	4-6 GB
7B parametri	8-12 GB
13B parametri	16-24 GB
70B parametri	48-64 GB

Modelli Supportati

Modello	Dimensioni	Descrizione
llama2	7B, 13B, 70B	Meta AI, general purpose
llama3	8B, 70B	Meta AI, ultima versione
mistral	7B	Mistral AI, efficiente
mixtral	8x7B	Mistral AI, MoE
phi	2.7B	Microsoft, compatto
codellama	7B, 13B, 34B	Meta AI, per coding

Casi d'Uso

1. Chatbot Privato

Crea assistenti virtuali senza inviare dati a terzi.

2. Generazione di Codice

Usa modelli specializzati per il coding.

3. RAG Locale

Combina con Qdrant per RAG completamente on-premise.

4. Elaborazione Testi

Automatizza task di elaborazione testuale.

Connessione dall'Applicazione

Dalla rete Docker interna:

API: http://ollama:11434

API Endpoints

Endpoint	Metodo	Descrizione
/api/generate	POST	Genera testo da prompt
/api/chat	POST	Conversazione multi-turno
/api/tags	GET	Lista modelli disponibili
/api/pull	POST	Scarica un modello
/api/delete	DELETE	Elimina un modello

Best Practices

Alloca RAM sufficiente - i modelli richiedono molta memoria
Scegli il modello giusto - modelli più piccoli sono più veloci
Pre-scarica i modelli - evita attese al primo utilizzo
Usa streaming per risposte lunghe
Considera GPU per prestazioni migliori

Prossimi Passi

Qdrant - Vector database per RAG
Node.js - Integra Ollama con applicazioni Node.js

Docs