Ollama使用指南 - Echo's blog

概述#

Ollama 是一个开源的大语言模型运行框架，支持在本地运行 Llama、Gemma、Mistral、Qwen 等多种开源模型。它提供了两种主要的使用方式：

CLI 命令行：直接在终端中与模型交互
REST API：通过 HTTP 接口集成到应用程序中

本文将详细介绍 Ollama 的完整使用方法，帮助您快速上手并充分利用其功能。

安装与验证#

安装 Ollama#

Windows#

PRTCL // POWERSHELL

1
# 下载安装包
2
# 访问 https://ollama.ai/download 下载 Windows 版本
3

4
# 运行安装程序
5
# 安装完成后，Ollama 会自动启动服务
6

7
# 验证安装
8
ollama --version

macOS#

PRTCL // BASH

1
# 使用 Homebrew 安装
2
brew install ollama
3

4
# 验证安装
5
ollama --version

Linux#

PRTCL // BASH

1
# 一键安装脚本
2
curl -fsSL https://ollama.ai/install.sh | sh
3

4
# 验证安装
5
ollama --version

验证服务状态#

PRTCL // BASH

1
# 检查服务是否运行
2
curl http://localhost:11434/api/tags
3

4
# 或者使用 CLI
5
ollama list

基础命令#

下载模型#

PRTCL // BASH

1
# 下载模型
2
ollama pull llama3.2:3b
3

4
# 下载指定版本
5
ollama pull qwen2.5:7b-instruct
6

7
# 下载量化模型（更小更快）
8
ollama pull mistral:7b-q4_K_M
9

10
# 查看可用模型
11
ollama search llama

运行模型#

PRTCL // BASH

1
# 交互式对话
2
ollama run llama3.2:3b
3

4
# 单次提示
5
ollama run llama3.2:3b "你好，请介绍一下自己"
6

7
# 指定参数运行
8
ollama run llama3.2:3b --temperature 0.7 "写一首关于春天的诗"
9

10
# 使用 stdin 输入
11
echo "解释量子力学" | ollama run llama3.2:3b

查看模型列表#

PRTCL // BASH

1
# 列出已下载的模型
2
ollama list
3

4
# 查看模型详细信息
5
ollama show llama3.2:3b
6

7
# 查看模型参数
8
ollama show llama3.2:3b --modelfile

删除模型#

PRTCL // BASH

1
# 删除指定模型
2
ollama rm llama3.2:3b
3

4
# 删除所有模型（谨慎使用）
5
ollama list | awk '{print $1}' | xargs -I {} ollama rm {}

REST API 使用#

基础 API 端点#

端点	方法	说明
`/api/generate`	POST	生成文本
`/api/chat`	POST	多轮对话
`/api/tags`	GET	列出模型
`/api/show`	POST	查看模型信息
`/api/copy`	POST	复制模型
`/api/delete`	DELETE	删除模型

生成文本#

PRTCL // BASH

1
# 非流式输出
2
curl http://localhost:11434/api/generate -d '{
3
  "model": "llama3.2:3b",
4
  "prompt": "写一个 Python Hello World 程序",
5
  "stream": false
6
}'
7

8
# 流式输出
9
curl http://localhost:11434/api/generate -d '{
10
  "model": "llama3.2:3b",
11
  "prompt": "写一个 Python Hello World 程序",
12
  "stream": true
13
}'

多轮对话#

PRTCL // BASH

1
curl http://localhost:11434/api/chat -d '{
2
  "model": "llama3.2:3b",
3
  "messages": [
4
    {
5
      "role": "user",
6
      "content": "你好，请问你能帮我做什么？"
7
    },
8
    {
9
      "role": "assistant",
10
      "content": "我可以帮你写代码、回答问题、翻译文本等。"
11
    },
12
    {
13
      "role": "user",
14
      "content": "那帮我写一个快速排序算法吧"
15
    }
16
  ],
17
  "stream": false
18
}'

列出模型#

PRTCL // BASH

1
curl http://localhost:11434/api/tags

Python 示例#

PRTCL // PYTHON

1
import requests
2
import json
3

4
# 生成文本
5
def generate_text(prompt, model="llama3.2:3b", stream=False):
6
    url = "http://localhost:11434/api/generate"
7
    payload = {
8
        "model": model,
9
        "prompt": prompt,
10
        "stream": stream
11
    }
12
    response = requests.post(url, json=payload)
13
    return response.json()
14

15
# 多轮对话
16
def chat(messages, model="llama3.2:3b", stream=False):
17
    url = "http://localhost:11434/api/chat"
18
    payload = {
19
        "model": model,
20
        "messages": messages,
21
        "stream": stream
22
    }
23
    response = requests.post(url, json=payload)
24
    return response.json()
25

26
# 使用示例
27
if __name__ == "__main__":
28
    # 生成文本
29
    result = generate_text("写一个 Python Hello World 程序")
30
    print(result["response"])
31

32
    # 多轮对话
33
    messages = [
34
        {"role": "user", "content": "你好"},
35
        {"role": "assistant", "content": "你好！有什么我可以帮助你的吗？"},
36
        {"role": "user", "content": "帮我写一个快速排序算法"}
37
    ]
38
    result = chat(messages)
39
    print(result["message"]["content"])

JavaScript 示例#

PRTCL // JAVASCRIPT

1
// 生成文本
2
async function generateText(prompt, model = "llama3.2:3b") {
3
  const response = await fetch("http://localhost:11434/api/generate", {
4
    method: "POST",
5
    headers: {
6
      "Content-Type": "application/json",
7
    },
8
    body: JSON.stringify({
9
      model: model,
10
      prompt: prompt,
11
      stream: false,
12
    }),
13
  });
14
  const data = await response.json();
15
  return data.response;
16
}
17

18
// 多轮对话
19
async function chat(messages, model = "llama3.2:3b") {
20
  const response = await fetch("http://localhost:11434/api/chat", {
21
    method: "POST",
22
    headers: {
23
      "Content-Type": "application/json",
24
    },
25
    body: JSON.stringify({
26
      model: model,
27
      messages: messages,
28
      stream: false,
29
    }),
30
  });
31
  const data = await response.json();
32
  return data.message.content;
33
}
34

35
// 使用示例
36
(async () => {
37
  // 生成文本
38
  const result = await generateText("写一个 Python Hello World 程序");
39
  console.log(result);
40

41
  // 多轮对话
42
  const messages = [
43
    { role: "user", content: "你好" },
44
    { role: "assistant", content: "你好！有什么我可以帮助你的吗？" },
45
    { role: "user", content: "帮我写一个快速排序算法" },
46
  ];
47
  const chatResult = await chat(messages);
48
  console.log(chatResult);
49
})();

参数配置#

生成参数#

参数	类型	默认值	说明
`temperature`	float	0.7	控制输出的随机性（0-1）
`top_p`	float	0.9	核采样概率
`top_k`	int	40	保留前 k 个最高概率的词
`num_predict`	int	-1	最大生成的 token 数（-1 表示无限制）
`num_ctx`	int	2048	上下文窗口大小
`repeat_penalty`	float	1.1	重复惩罚
`repeat_last_n`	int	64	重复惩罚的上下文范围
`seed`	int	0	随机种子（0 表示随机）
`stop`	array	[]	停止词列表
`format`	string	""	输出格式（json）

参数配置示例#

PRTCL // BASH

1
# 创意写作（高温度）
2
curl http://localhost:11434/api/generate -d '{
3
  "model": "llama3.2:3b",
4
  "prompt": "写一个关于 AI 的故事",
5
  "temperature": 0.9,
6
  "top_p": 0.95,
7
  "stream": false
8
}'
9

10
# 代码生成（低温度）
11
curl http://localhost:11434/api/generate -d '{
12
  "model": "llama3.2:3b",
13
  "prompt": "写一个 Python 快速排序函数",
14
  "temperature": 0.2,
15
  "top_p": 0.95,
16
  "stream": false
17
}'
18

19
# 结构化输出（JSON 格式）
20
curl http://localhost:11434/api/generate -d '{
21
  "model": "llama3.2:3b",
22
  "prompt": "生成一个 JSON 格式的用户信息，包含 name、age、email 字段",
23
  "format": "json",
24
  "stream": false
25
}'
26

27
# 自定义停止词
28
curl http://localhost:11434/api/generate -d '{
29
  "model": "llama3.2:3b",
30
  "prompt": "列出三个编程语言",
31
  "stop": ["\n\n"],
32
  "stream": false
33
}'

CLI 参数配置#

PRTCL // BASH

1
# 指定温度
2
ollama run llama3.2:3b --temperature 0.9 "写一个创意故事"
3

4
# 指定最大输出长度
5
ollama run llama3.2:3b --num_predict 500 "写一篇文章"
6

7
# 指定上下文窗口
8
ollama run llama3.2:3b --num_ctx 4096 "分析这段长文本"
9

10
# 组合参数
11
ollama run llama3.2:3b \
12
  --temperature 0.7 \
13
  --top_p 0.9 \
14
  --top_k 40 \
15
  --num_predict 1000 \
16
  --num_ctx 2048 \
17
  "写一篇技术文章"

高级功能#

自定义模型（Modelfile）#

创建自定义模型配置文件 Modelfile：

PRTCL // PLAINTEXT

1
FROM llama3.2:3b
2

3
PARAMETER temperature 0.7
4
PARAMETER top_p 0.9
5
PARAMETER top_k 40
6

7
SYSTEM """
8
你是一个专业的代码助手，擅长回答编程相关的问题。
9
回答时要简洁明了，必要时提供代码示例。
10
"""
11

12
TEMPLATE """
13
{{- range .Messages }}
14
{{- if eq .Role "user" }}User: {{ .Content }}
15
{{- else if eq .Role "assistant" }}Assistant: {{ .Content }}
16
{{- end }}
17
{{- end }}
18
Assistant:
19
"""

创建模型：

PRTCL // BASH

1
# 从 Modelfile 创建模型
2
ollama create my-model -f Modelfile
3

4
# 运行自定义模型
5
ollama run my-model
6

7
# 查看模型信息
8
ollama show my-model --modelfile

模型微调#

PRTCL // BASH

1
# 创建基础模型 Modelfile
2
cat > base-modelfile << EOF
3
FROM llama3.2:3b
4
PARAMETER temperature 0.1
5
EOF
6

7
# 创建模型
8
ollama create my-base-model -f base-modelfile
9

10
# 准备训练数据（JSONL 格式）
11
cat > training-data.jsonl << EOF
12
{"user": "什么是机器学习？", "assistant": "机器学习是人工智能的一个分支..."}
13
{"user": "什么是深度学习？", "assistant": "深度学习是机器学习的子集..."}
14
EOF
15

16
# 注意：Ollama 本身不支持微调，需要使用其他工具如 LLaMA-Factory
17
# 这里只是展示数据格式

模型复制与共享#

PRTCL // BASH

1
# 复制模型
2
ollama copy llama3.2:3b my-llama3.2:3b
3

4
# 导出模型
5
ollama export my-llama3.2:3b > my-model.gguf
6

7
# 导入模型
8
ollama import my-model.gguf

并发请求#

PRTCL // PYTHON

1
import requests
2
import asyncio
3
import aiohttp
4

5
async def generate_text_async(session, prompt, model="llama3.2:3b"):
6
    url = "http://localhost:11434/api/generate"
7
    payload = {
8
        "model": model,
9
        "prompt": prompt,
10
        "stream": False
11
    }
12
    async with session.post(url, json=payload) as response:
13
        return await response.json()
14

15
async def main():
16
    prompts = [
17
        "写一个 Python Hello World 程序",
18
        "解释什么是机器学习",
19
        "写一个快速排序算法"
20
    ]
21

22
    async with aiohttp.ClientSession() as session:
23
        tasks = [generate_text_async(session, prompt) for prompt in prompts]
24
        results = await asyncio.gather(*tasks)
25

26
        for result in results:
27
            print(result["response"])
28

29
if __name__ == "__main__":
30
    asyncio.run(main())

性能优化#

量化模型#

PRTCL // BASH

1
# 下载量化模型
2
ollama pull llama3.2:3b-q4_K_M
3

4
# 量化等级对比
5
# q4_K_M: 4-bit 量化，平衡精度和速度
6
# q4_K_S: 4-bit 量化，更小更快
7
# q5_K_M: 5-bit 量化，精度更高
8
# q8_0: 8-bit 量化，精度最高
9

10
# 查看模型大小
11
ollama list

批量处理#

PRTCL // PYTHON

1
import requests
2

3
def batch_generate(prompts, model="llama3.2:3b"):
4
    results = []
5
    for prompt in prompts:
6
        payload = {
7
            "model": model,
8
            "prompt": prompt,
9
            "stream": False
10
        }
11
        response = requests.post(
12
            "http://localhost:11434/api/generate",
13
            json=payload
14
        )
15
        results.append(response.json()["response"])
16
    return results
17

18
# 使用示例
19
prompts = ["问题 1", "问题 2", "问题 3"]
20
results = batch_generate(prompts)
21
for i, result in enumerate(results):
22
    print(f"问题 {i+1}: {result}")

缓存优化#

PRTCL // BASH

1
# 设置模型保活时间（避免重复加载）
2
export OLLAMA_KEEP_ALIVE=30m
3

4
# 或在 Modelfile 中设置
5
PARAMETER keep_alive 30m

GPU 加速#

PRTCL // BASH

1
# 检查 GPU 是否可用
2
nvidia-smi
3

4
# 启用 GPU 加速
5
# Ollama 会自动检测并使用 GPU
6

7
# 如果 GPU 不可用，检查 NVIDIA 驱动
8
sudo apt install nvidia-driver-525
9
sudo systemctl restart ollama

常见使用场景#

文本生成#

PRTCL // BASH

1
# 创意写作
2
ollama run llama3.2:3b "写一个关于未来的科幻短篇故事"
3

4
# 生成标题
5
ollama run llama3.2:3b "为这篇关于 AI 的文章生成 5 个吸引人的标题"
6

7
# 生成摘要
8
ollama run llama3.2:3b "为以下文本生成摘要：[长文本内容]"

代码生成#

PRTCL // BASH

1
# 生成代码
2
ollama run codellama:7b "写一个 Python 快速排序函数"
3

4
# 代码解释
5
ollama run codellama:7b "解释以下代码的作用：[代码]"
6

7
# 代码调试
8
ollama run codellama:7b "找出以下代码中的 bug 并修复：[有 bug 的代码]"

文本处理#

PRTCL // BASH

1
# 翻译
2
ollama run llama3.2:3b "将以下中文翻译成英文：你好，世界"
3

4
# 摘要
5
ollama run llama3.2:3b "为以下文章生成摘要：[文章内容]"
6

7
# 关键词提取
8
ollama run llama3.2:3b "从以下文本中提取关键词：[文本内容]"
9

10
# 情感分析
11
ollama run llama3.2:3b "分析以下评论的情感倾向：[评论内容]"

问答系统#

PRTCL // BASH

1
# 知识问答
2
ollama run llama3.2:3b "什么是机器学习？"
3

4
# 数学计算
5
ollama run llama3.2:3b "计算 123 × 456"
6

7
# 逻辑推理
8
ollama run llama3.2:3b "如果所有的猫都喜欢鱼，而小白是一只猫，那么小白喜欢鱼吗？"

与 OpenClaw 集成#

配置 OpenClaw 使用 Ollama#

PRTCL // YAML

1
providers:
2
  - name: "ollama"
3
    type: "local"
4
    baseUrl: "http://localhost:11434"
5
    api: "openai-completions"
6
    models:
7
      - id: "ollama/llama3.2:3b"
8
        name: "Llama 3.2 3B"
9
        capabilities:
10
          - "text"
11
          - "code"
12
      - id: "ollama/qwen2.5:7b"
13
        name: "通义千问 7B"
14
        capabilities:
15
          - "text"
16
          - "code"
17
          - "tool"
18

19
defaultModel: "ollama/qwen2.5:7b"

测试连接#

PRTCL // BASH

1
# 测试 Ollama 服务
2
curl http://localhost:11434/api/tags
3

4
# 测试 OpenClaw 连接
5
openclaw model test ollama/qwen2.5:7b

监控与调试#

查看日志#

PRTCL // BASH

1
# 查看 Ollama 服务日志
2
# macOS/Linux
3
tail -f ~/.ollama/logs/server.log
4

5
# Windows
6
type %USERPROFILE%\.ollama\logs\server.log
7

8
# Docker 部署
9
docker logs -f ollama

性能监控#

PRTCL // BASH

1
# 查看资源使用
2
# CPU
3
top
4

5
# 内存
6
free -h
7

8
# GPU
9
nvidia-smi
10

11
# 磁盘
12
df -h

调试模式#

PRTCL // BASH

1
# 启用调试日志
2
export OLLAMA_DEBUG=1
3

4
# 重新启动服务
5
ollama serve
6

7
# 查看详细日志

最佳实践#

✅ 选择合适的模型：根据任务复杂度选择模型大小
✅ 使用量化模型：在精度和性能之间找到平衡
✅ 调整参数：根据任务类型调整 temperature、top_p 等参数
✅ 启用流式输出：提升用户体验
✅ 使用缓存：避免重复加载模型
✅ 监控资源：及时发现问题
✅ 备份数据：定期备份模型数据
✅ 更新版本：获取最新功能和修复
✅ 安全配置：生产环境使用 HTTPS 和认证
✅ 日志管理：配置日志轮转，避免磁盘占满

故障排查#

模型加载慢#

症状：首次运行模型时加载时间很长

解决方案：

PRTCL // BASH

1
# 使用量化模型
2
ollama pull llama3.2:3b-q4_K_M
3

4
# 增加 GPU 内存
5
# 在 Docker 中配置
6
--gpus all
7

8
# 减少模型大小
9
ollama pull llama3.2:3b

响应慢#

症状：生成文本速度慢

解决方案：

PRTCL // BASH

1
# 启用 GPU 加速
2
nvidia-smi
3

4
# 使用量化模型
5
ollama pull llama3.2:3b-q4_K_M
6

7
# 减少上下文长度
8
--num_ctx 1024
9

10
# 减少输出长度
11
--num_predict 500

内存不足#

症状：程序崩溃或 OOM 错误

解决方案：

PRTCL // BASH

1
# 减少并发数
2
export OLLAMA_NUM_PARALLEL=1
3

4
# 减少模型大小
5
ollama pull llama3.2:3b
6

7
# 减少上下文长度
8
--num_ctx 1024
9

10
# 释放未使用的模型
11
ollama rm unused-model

API 调用失败#

症状：HTTP 请求失败

解决方案：

PRTCL // BASH

1
# 检查服务状态
2
curl http://localhost:11434/api/tags
3

4
# 检查防火墙
5
sudo ufw allow 11434
6

7
# 检查端口占用
8
sudo netstat -tlnp | grep 11434

关于我#

项目	内容
编辑	echowang
来源	echospace
邮箱	echohaoran@gmail.com
简介	AI 爱好者，专注于大语言模型应用与智能体开发，分享技术与实践心得
社交	欢迎交流讨论，共同成长

概述#

安装与验证#

安装 Ollama#

Windows#

macOS#

Linux#

验证服务状态#

基础命令#

下载模型#

运行模型#

查看模型列表#

删除模型#

REST API 使用#

基础 API 端点#

生成文本#

多轮对话#

列出模型#

Python 示例#

JavaScript 示例#

参数配置#

生成参数#

参数配置示例#

CLI 参数配置#

高级功能#

自定义模型（Modelfile）#

模型微调#

模型复制与共享#

并发请求#

性能优化#

量化模型#

批量处理#

缓存优化#

GPU 加速#

常见使用场景#

文本生成#

代码生成#

文本处理#

问答系统#

与 OpenClaw 集成#

配置 OpenClaw 使用 Ollama#

测试连接#

监控与调试#

查看日志#

性能监控#

调试模式#

最佳实践#

故障排查#

模型加载慢#

响应慢#

内存不足#

API 调用失败#

相关资源#

关于我#

Related Posts

Comments