Ollama 快速入门
Ollama 让你在本地运行大语言模型,一行命令即可启动。本文从安装到使用,再到 API 集成,帮你快速上手本地 AI 开发。
什么是 Ollama
Ollama 是一个本地大语言模型运行工具,它简化了在个人电脑上运行开源模型的流程——不需要配置 GPU 环境、不需要编译、一行命令就能跑起来。
核心优势:
- 开箱即用:安装后一行命令下载并运行模型
- 完全本地:数据不出你的电脑,隐私安全
- API 兼容 OpenAI:可以直接对接已有工具和代码
- 支持多种模型:Llama 3、Qwen、DeepSeek、Gemma、Mistral 等
安装
Linux / WSL2
bash
curl -fsSL https://ollama.com/install.sh | sh
macOS
bash
brew install ollama
Windows
从 ollama.com 下载安装包,图形化安装。
验证安装
bash
ollama --version
运行模型
交互式对话
bash
ollama run llama3
首次运行会自动下载模型(几个 GB),下载完成后进入交互式对话界面,直接输入问题即可。
常用模型
bash
# Meta Llama 3(8B)—— 通用能力均衡
ollama run llama3
# Qwen 2.5(中文能力强)
ollama run qwen2.5
# DeepSeek Coder(代码能力突出)
ollama run deepseek-coder
# Gemma 2(Google 出品)
ollama run gemma2
# Mistral(轻量高效)
ollama run mistral
在 ollama.com/library 查看所有可用模型。
指定模型大小
同一模型系列通常有多个参数规模:
bash
ollama run qwen2.5:7b # 7B 参数,约 4.7 GB
ollama run qwen2.5:14b # 14B 参数,约 9 GB
ollama run qwen2.5:32b # 32B 参数,需要较好硬件
选择建议:
| 硬件条件 | 推荐参数规模 |
|---|---|
| 8 GB 内存 | 7B - 8B |
| 16 GB 内存 | 7B - 14B |
| 32 GB+ 内存 | 14B - 32B |
模型管理
bash
# 查看已下载的模型
ollama list
# 删除模型
ollama rm qwen2.5:7b
# 查看模型信息
ollama show qwen2.5:7b
API 使用
Ollama 启动后会自动在 http://localhost:11434 提供 REST API,兼容 OpenAI 格式。
对话补全
bash
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5",
"messages": [
{"role": "user", "content": "用一句话解释什么是 Docker"}
]
}'
文本生成
bash
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5",
"prompt": "写一段 Python 快速排序代码"
}'
OpenAI 兼容接口
很多工具和库(如 LangChain、Continue 等)支持 OpenAI API 格式。Ollama 兼容这个格式:
bash
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen2.5",
"messages": [
{"role": "user", "content": "Hello"}
]
}'
在 Python 中使用 openai 库直接对接:
python
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意值即可
)
response = client.chat.completions.create(
model="qwen2.5",
messages=[
{"role": "user", "content": "你好"}
]
)
print(response.choices[0].message.content)
Modelfile(自定义模型)
Modelfile 类似于 Dockerfile,用于基于现有模型创建自定义版本:
docker
FROM qwen2.5
# 设置系统提示词
SYSTEM 你是一个专业的 Go 语言开发者,回答简洁,给出代码示例。
# 设置温度参数
PARAMETER temperature 0.7
构建和运行:
bash
ollama create go-expert -f Modelfile
ollama run go-expert
常见问题
启动后无法连接 API
确认 Ollama 服务是否在运行:
bash
# Linux / macOS
ollama serve
# Windows 检查服务状态
# 或在系统服务中确认 Ollama 已启动
模型运行很慢
- 确保有足够的内存(模型大小需要约 1.5 倍内存)
- macOS 确保有 Apple Silicon(M1+),Intel Mac 会非常慢
- 可以尝试更小参数的模型
WSL2 下 GPU 不可用
确保安装了 NVIDIA 驱动和 CUDA 工具包,并且在 WSL2 中可以识别 GPU:
bash
nvidia-smi
速查表
text
安装:
curl -fsSL https://ollama.com/install.sh | sh Linux/WSL2
brew install ollama macOS
模型:
ollama run qwen2.5 运行模型(自动下载)
ollama list 查看已安装模型
ollama rm model 删除模型
ollama show model 查看模型信息
ollama create name -f file 自定义模型
API:
localhost:11434 Ollama 服务地址
/api/chat 对话接口
/api/generate 生成接口
/v1/chat/completions OpenAI 兼容接口
Python:
base_url="http://localhost:11434/v1"
api_key="ollama" 任意值