iFluxArt Docs

什么是 Ollama

Ollama 是一个本地大语言模型运行工具，它简化了在个人电脑上运行开源模型的流程——不需要配置 GPU 环境、不需要编译、一行命令就能跑起来。

核心优势：

开箱即用：安装后一行命令下载并运行模型
完全本地：数据不出你的电脑，隐私安全
API 兼容 OpenAI：可以直接对接已有工具和代码
支持多种模型：Llama 3、Qwen、DeepSeek、Gemma、Mistral 等

安装

Linux / WSL2

bash

curl -fsSL https://ollama.com/install.sh | sh

macOS

bash

brew install ollama

Windows

从 ollama.com 下载安装包，图形化安装。

验证安装

bash

ollama --version

运行模型

交互式对话

bash

ollama run llama3

首次运行会自动下载模型（几个 GB），下载完成后进入交互式对话界面，直接输入问题即可。

常用模型

bash

# Meta Llama 3（8B）—— 通用能力均衡
ollama run llama3

# Qwen 2.5（中文能力强）
ollama run qwen2.5

# DeepSeek Coder（代码能力突出）
ollama run deepseek-coder

# Gemma 2（Google 出品）
ollama run gemma2

# Mistral（轻量高效）
ollama run mistral

在 ollama.com/library 查看所有可用模型。

指定模型大小

同一模型系列通常有多个参数规模：

bash

ollama run qwen2.5:7b      # 7B 参数，约 4.7 GB
ollama run qwen2.5:14b     # 14B 参数，约 9 GB
ollama run qwen2.5:32b     # 32B 参数，需要较好硬件

选择建议：

硬件条件	推荐参数规模
8 GB 内存	7B - 8B
16 GB 内存	7B - 14B
32 GB+ 内存	14B - 32B

模型管理

bash

# 查看已下载的模型
ollama list

# 删除模型
ollama rm qwen2.5:7b

# 查看模型信息
ollama show qwen2.5:7b

API 使用

Ollama 启动后会自动在 http://localhost:11434 提供 REST API，兼容 OpenAI 格式。

对话补全

bash

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5",
  "messages": [
    {"role": "user", "content": "用一句话解释什么是 Docker"}
  ]
}'

文本生成

bash

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "写一段 Python 快速排序代码"
}'

OpenAI 兼容接口

很多工具和库（如 LangChain、Continue 等）支持 OpenAI API 格式。Ollama 兼容这个格式：

bash

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5",
    "messages": [
      {"role": "user", "content": "Hello"}
    ]
  }'

在 Python 中使用 openai 库直接对接：

python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值即可
)

response = client.chat.completions.create(
    model="qwen2.5",
    messages=[
        {"role": "user", "content": "你好"}
    ]
)
print(response.choices[0].message.content)

Modelfile（自定义模型）

Modelfile 类似于 Dockerfile，用于基于现有模型创建自定义版本：

docker

FROM qwen2.5

# 设置系统提示词
SYSTEM 你是一个专业的 Go 语言开发者，回答简洁，给出代码示例。

# 设置温度参数
PARAMETER temperature 0.7

构建和运行：

bash

ollama create go-expert -f Modelfile
ollama run go-expert

常见问题

启动后无法连接 API

确认 Ollama 服务是否在运行：

bash

# Linux / macOS
ollama serve

# Windows 检查服务状态
# 或在系统服务中确认 Ollama 已启动

模型运行很慢

确保有足够的内存（模型大小需要约 1.5 倍内存）
macOS 确保有 Apple Silicon（M1+），Intel Mac 会非常慢
可以尝试更小参数的模型

WSL2 下 GPU 不可用

确保安装了 NVIDIA 驱动和 CUDA 工具包，并且在 WSL2 中可以识别 GPU：

bash

nvidia-smi

速查表

text

安装:
  curl -fsSL https://ollama.com/install.sh | sh    Linux/WSL2
  brew install ollama                                macOS

模型:
  ollama run qwen2.5          运行模型（自动下载）
  ollama list                 查看已安装模型
  ollama rm model             删除模型
  ollama show model           查看模型信息
  ollama create name -f file  自定义模型

API:
  localhost:11434             Ollama 服务地址
  /api/chat                  对话接口
  /api/generate              生成接口
  /v1/chat/completions       OpenAI 兼容接口

Python:
  base_url="http://localhost:11434/v1"
  api_key="ollama"            任意值

什么是 Ollama

Ollama 是一个本地大语言模型运行工具，它简化了在个人电脑上运行开源模型的流程——不需要配置 GPU 环境、不需要编译、一行命令就能跑起来。

核心优势：

开箱即用：安装后一行命令下载并运行模型
完全本地：数据不出你的电脑，隐私安全
API 兼容 OpenAI：可以直接对接已有工具和代码
支持多种模型：Llama 3、Qwen、DeepSeek、Gemma、Mistral 等

安装

Linux / WSL2

bash

curl -fsSL https://ollama.com/install.sh | sh

macOS

bash

brew install ollama

Windows

从 ollama.com 下载安装包，图形化安装。

验证安装

bash

ollama --version

运行模型

交互式对话

bash

ollama run llama3

首次运行会自动下载模型（几个 GB），下载完成后进入交互式对话界面，直接输入问题即可。

常用模型

bash

# Meta Llama 3（8B）—— 通用能力均衡
ollama run llama3

# Qwen 2.5（中文能力强）
ollama run qwen2.5

# DeepSeek Coder（代码能力突出）
ollama run deepseek-coder

# Gemma 2（Google 出品）
ollama run gemma2

# Mistral（轻量高效）
ollama run mistral

在 ollama.com/library 查看所有可用模型。

指定模型大小

同一模型系列通常有多个参数规模：

bash

ollama run qwen2.5:7b      # 7B 参数，约 4.7 GB
ollama run qwen2.5:14b     # 14B 参数，约 9 GB
ollama run qwen2.5:32b     # 32B 参数，需要较好硬件

选择建议：

硬件条件	推荐参数规模
8 GB 内存	7B - 8B
16 GB 内存	7B - 14B
32 GB+ 内存	14B - 32B

模型管理

bash

# 查看已下载的模型
ollama list

# 删除模型
ollama rm qwen2.5:7b

# 查看模型信息
ollama show qwen2.5:7b

API 使用

Ollama 启动后会自动在 http://localhost:11434 提供 REST API，兼容 OpenAI 格式。

对话补全

bash

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5",
  "messages": [
    {"role": "user", "content": "用一句话解释什么是 Docker"}
  ]
}'

文本生成

bash

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "写一段 Python 快速排序代码"
}'

OpenAI 兼容接口

很多工具和库（如 LangChain、Continue 等）支持 OpenAI API 格式。Ollama 兼容这个格式：

bash

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5",
    "messages": [
      {"role": "user", "content": "Hello"}
    ]
  }'

在 Python 中使用 openai 库直接对接：

python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值即可
)

response = client.chat.completions.create(
    model="qwen2.5",
    messages=[
        {"role": "user", "content": "你好"}
    ]
)
print(response.choices[0].message.content)

Modelfile（自定义模型）

Modelfile 类似于 Dockerfile，用于基于现有模型创建自定义版本：

docker

FROM qwen2.5

# 设置系统提示词
SYSTEM 你是一个专业的 Go 语言开发者，回答简洁，给出代码示例。

# 设置温度参数
PARAMETER temperature 0.7

构建和运行：

bash

ollama create go-expert -f Modelfile
ollama run go-expert

常见问题

启动后无法连接 API

确认 Ollama 服务是否在运行：

bash

# Linux / macOS
ollama serve

# Windows 检查服务状态
# 或在系统服务中确认 Ollama 已启动

模型运行很慢

确保有足够的内存（模型大小需要约 1.5 倍内存）
macOS 确保有 Apple Silicon（M1+），Intel Mac 会非常慢
可以尝试更小参数的模型

WSL2 下 GPU 不可用

确保安装了 NVIDIA 驱动和 CUDA 工具包，并且在 WSL2 中可以识别 GPU：

bash

nvidia-smi

速查表

text

安装:
  curl -fsSL https://ollama.com/install.sh | sh    Linux/WSL2
  brew install ollama                                macOS

模型:
  ollama run qwen2.5          运行模型（自动下载）
  ollama list                 查看已安装模型
  ollama rm model             删除模型
  ollama show model           查看模型信息
  ollama create name -f file  自定义模型

API:
  localhost:11434             Ollama 服务地址
  /api/chat                  对话接口
  /api/generate              生成接口
  /v1/chat/completions       OpenAI 兼容接口

Python:
  base_url="http://localhost:11434/v1"
  api_key="ollama"            任意值