CoPaw 本地模型配置#

概述#

CoPaw 支持在本地运行大语言模型，无需 API 密钥，无需云依赖。支持 llama.cpp（跨平台）和 MLX（Apple Silicon）两种本地模型运行方式。

本地模型概述#

为什么使用本地模型#

优势	说明
完全隐私	数据不上传云端，完全本地处理
无网络依赖	离线运行，无需网络连接
无 API 费用	无需支付 API 调用费用
完全控制	完全掌控模型和行为
数据安全	敏感数据不会离开本地

支持的本地模型后端#

后端	平台支持	优势	劣势
llama.cpp	macOS、Linux、Windows	跨平台、模型丰富	性能略低
MLX	Apple Silicon M1+	性能最优、省电	仅限 Apple

硬件要求#

模型大小	显存需求	内存需求	推荐配置
3B 模型	4GB	8GB	入门级
7B 模型	8GB	16GB	中端
13B 模型	16GB	32GB	高端
MLX（Apple）	-	8GB	Apple Silicon M1+

llama.cpp 配置#

安装 llama.cpp#

方式一：通过包管理器安装

PRTCL // BASH

1
# macOS
2
brew install llama.cpp
3

4
# Linux
5
# 使用包管理器安装
6
sudo apt install llama-cpp-python
7

8
# Windows
9
# 下载预编译二进制文件
10
# https://github.com/ggerganov/llama.cpp/releases

方式二：从源码编译

PRTCL // BASH

1
# 克隆仓库
2
git clone https://github.com/ggerganov/llama.cpp.git
3
cd llama.cpp
4

5
# 编译
6
make
7

8
# 安装 Python 绑定
9
pip install llama-cpp-python

下载模型#

查看可用模型：

PRTCL // BASH

1
copaw models list

下载模型：

PRTCL // BASH

1
# 下载 7B 模型
2
copaw models download llama2-7b
3

4
# 下载 13B 模型
5
copaw models download llama2-13b
6

7
# 下载量化模型
8
copaw models download llama2-7b-q4

手动下载模型：

PRTCL // BASH

1
# 从 Hugging Face 下载
2
# https://huggingface.co/TheBloke/Llama-2-7B-GGUF
3

4
# 下载模型文件
5
wget https://huggingface.co/TheBloke/Llama-2-7B-GGUF/resolve/main/llama-2-7b.Q4_K_M.gguf
6

7
# 保存到模型目录
8
mv llama-2-7b.Q4_K_M.gguf ~/.local/models/llama.cpp/

配置 CoPaw#

配置文件：

PRTCL // YAML

1
local:
2
  llama_cpp:
3
    enabled: true
4
    model_path: "~/.local/models/llama.cpp/llama-2-7b.Q4_K_M.gguf"
5
    n_ctx: 2048  # 上下文长度
6
    n_gpu_layers: 35  # GPU 层数
7
    n_threads: 4  # 线程数
8
    temperature: 0.7
9
    top_p: 0.9
10
    top_k: 40

CLI 配置：

PRTCL // BASH

1
# 设置本地模型为默认
2
copaw models set llama.cpp
3

4
# 配置模型参数
5
copaw models config llama.cpp

测试本地模型#

测试连接：

PRTCL // BASH

1
# 测试模型连接
2
copaw models test llama.cpp
3

4
# 测试推理
5
copaw models chat llama.cpp

性能测试：

PRTCL // BASH

1
# 运行性能测试
2
copaw models benchmark llama.cpp

MLX 配置（Apple Silicon）#

安装 MLX#

前提条件：

Apple Silicon M1、M2、M3 或 M4
macOS 12.0+
Python 3.10+

安装步骤：

PRTCL // BASH

1
# 安装 MLX
2
pip install mlx mlx-lm
3

4
# 安装依赖
5
pip install transformers

下载模型#

下载模型：

PRTCL // BASH

1
# 下载 7B 模型
2
copaw models download mlx-7b
3

4
# 下载 13B 模型
5
copaw models download mlx-13b

手动下载模型：

PRTCL // BASH

1
# 从 Hugging Face 下载
2
# https://huggingface.co/mlx-community
3

4
# 下载模型文件
5
git lfs install
6
git clone https://huggingface.co/mlx-community/Llama-3.2-3B-Instruct-4bit ~/.local/models/mlx/

配置 CoPaw#

配置文件：

PRTCL // YAML

1
local:
2
  mlx:
3
    enabled: true
4
    model_path: "~/.local/models/mlx/Llama-3.2-3B-Instruct-4bit"
5
    max_tokens: 2048
6
    temperature: 0.7
7
    top_p: 0.9
8
    gpu_memory_limit: 4  # GB

CLI 配置：

PRTCL // BASH

1
# 设置 MLX 为默认
2
copaw models set mlx
3

4
# 配置 MLX 参数
5
copaw models config mlx

测试 MLX 模型#

测试连接：

PRTCL // BASH

1
# 测试模型连接
2
copaw models test mlx
3

4
# 测试推理
5
copaw models chat mlx

性能测试：

PRTCL // BASH

1
# 运行性能测试
2
copaw models benchmark mlx

模型管理#

模型列表#

查看已安装模型：

PRTCL // BASH

1
# 列出所有已安装的模型
2
copaw models list
3

4
# 列出特定类型的模型
5
copaw models list --type local

模型信息#

查看模型详情：

PRTCL // BASH

1
# 查看模型详情
2
copaw models info llama.cpp
3

4
# 查看模型参数
5
copaw models parameters llama.cpp

模型切换#

切换模型：

PRTCL // BASH

1
# 切换到本地模型
2
copaw models set llama.cpp
3

4
# 切换到云端模型
5
copaw models set openai
6

7
# 查看当前模型
8
copaw models current

模型删除#

删除模型：

PRTCL // BASH

1
# 删除模型
2
copaw models remove llama.cpp
3

4
# 清理未使用的模型
5
copaw models cleanup

模型优化#

量化模型#

什么是量化：量化是一种模型压缩技术，通过降低模型参数的精度来减少模型大小和提高推理速度。

量化级别：

量化级别	模型大小	精度	速度
FP16	100%	最高	最慢
Q8_0	50%	很高	慢
Q4_K_M	25%	高	快
Q2_K	12.5%	中等	很快

量化模型：

PRTCL // BASH

1
# 下载量化模型
2
copaw models download llama2-7b-q4
3

4
# 或自己量化
5
# 需要原始模型和量化工具
6
python quantize.py llama-2-7b-f16.gguf llama-2-7b-q4.gguf q4_k_m

参数调优#

常用参数：

PRTCL // YAML

1
parameters:
2
  # 上下文长度
3
  n_ctx: 2048  # 根据需要调整
4

5
  # 温度参数（0.0-1.0）
6
  temperature: 0.7  # 0.0= 确定性，1.0= 创造性
7

8
  # Top P（0.0-1.0）
9
  top_p: 0.9  # 核采样
10

11
  # Top K（0+）
12
  top_k: 40  # 限制候选词数量
13

14
  # 频率惩罚（-2.0-2.0）
15
  frequency_penalty: 0.0  # 减少重复
16

17
  # 存在惩罚（-2.0-2.0）
18
  presence_penalty: 0.0  # 鼓励新话题
19

20
  # 重复惩罚（0.0-2.0）
21
  repeat_penalty: 1.1  # 减少重复
22

23
  # 线程数
24
  n_threads: 4  # 根据 CPU 核心数调整
25

26
  # GPU 层数
27
  n_gpu_layers: 35  # 根据 GPU 显存调整

性能优化#

GPU 加速：

PRTCL // YAML

1
# 启用 GPU 加速
2
local:
3
  llama_cpp:
4
    n_gpu_layers: 35  # 将所有层放到 GPU
5
    use_mmap: true  # 使用内存映射
6
    use_mlock: false  # 不锁定内存

内存优化：

PRTCL // YAML

1
# 优化内存使用
2
local:
3
  llama_cpp:
4
    use_mmap: true  # 使用内存映射
5
    use_mlock: false  # 不锁定内存
6
    n_batch: 512  # 批处理大小

常见问题#

模型加载失败#

问题：模型无法加载

解决方案：

PRTCL // BASH

1
# 检查模型文件
2
ls -lh ~/.local/models/llama.cpp/
3

4
# 验证模型文件
5
copaw models validate llama.cpp
6

7
# 重新下载模型
8
copaw models download llama2-7b --force

推理速度慢#

问题：模型推理速度慢

解决方案：

PRTCL // YAML

1
# 启用 GPU 加速
2
local:
3
  llama_cpp:
4
    n_gpu_layers: 35
5

6
# 减少上下文长度
7
n_ctx: 1024
8

9
# 使用量化模型
10
model_path: "~/.local/models/llama.cpp/llama-2-7b-q4.gguf"

内存不足#

问题：内存不足

解决方案：

PRTCL // YAML

1
# 优化内存使用
2
local:
3
  llama_cpp:
4
    use_mmap: true
5
    use_mlock: false
6
    n_batch: 512
7

8
# 减少上下文长度
9
n_ctx: 1024
10

11
# 使用更小的模型
12
model_path: "~/.local/models/llama.cpp/llama-2-3b-q4.gguf"

最佳实践#

模型选择#

使用场景	推荐模型	原因
日常问答	7B Q4	平衡性能和质量
代码生成	13B Q4	更好的理解能力
快速响应	3B Q4	最快的推理速度
高质量输出	13B FP16	最高的输出质量

参数调优#

创造性任务：

PRTCL // YAML

1
parameters:
2
  temperature: 0.9
3
  top_p: 0.95
4
  top_k: 50

确定性任务：

PRTCL // YAML

1
parameters:
2
  temperature: 0.2
3
  top_p: 0.8
4
  top_k: 30

平衡任务：

PRTCL // YAML

1
parameters:
2
  temperature: 0.7
3
  top_p: 0.9
4
  top_k: 40

性能建议#

使用量化模型：大幅减少模型大小
启用 GPU 加速：显著提高推理速度
优化上下文长度：根据需要调整
监控资源使用：定期检查 CPU 和内存使用

资源链接#

llama.cpp: https://github.com/ggerganov/llama.cpp
MLX: https://github.com/ml-explore/mlx
Hugging Face: https://huggingface.co/
CoPaw 模型文档: https://copaw.bot/docs/models

最后更新: 2026-03-12 作者: EchoHaoRan

CoPaw本地模型配置

CoPaw 本地模型配置#

概述#

本地模型概述#

为什么使用本地模型#

支持的本地模型后端#

硬件要求#

llama.cpp 配置#

安装 llama.cpp#

下载模型#

配置 CoPaw#

测试本地模型#

MLX 配置（Apple Silicon）#

安装 MLX#

下载模型#

配置 CoPaw#

测试 MLX 模型#

模型管理#

模型列表#

模型信息#

模型切换#

模型删除#

模型优化#

量化模型#

参数调优#

性能优化#

常见问题#

模型加载失败#

推理速度慢#

内存不足#

最佳实践#

模型选择#

参数调优#

性能建议#

资源链接#

Related Posts

Comments