本地大模型部署指南：Ollama 与 LM Studio 完整教程

在追求 AI 隐私、成本优化或定制化需求的今天，本地部署大语言模型（LLM）已经成为越来越多开发者和爱好者的选择。本文将详细介绍两款主流的本地模型运行工具——Ollama 和 LM Studio——的安装、配置与参数调整，帮助你快速在本地搭建属于自己的 AI 运行环境。

一、工具概述

1.1 Ollama

Ollama 是一款专注于命令行界面的本地大模型运行工具，支持 macOS、Linux 和 Windows。它最大的特点是将模型运行化繁为简，通过简单的命令即可启动和交互。

核心特点：

轻量级，安装简单
支持 GGUF、GGML 格式模型
内置模型管理命令
可作为 API 服务运行

1.2 LM Studio

LM Studio 是一款功能更全面的桌面应用程序，提供图形化界面，适合希望直观管理模型的用户。

核心特点：

图形化界面，操作友好
内置模型下载器
支持 Chat UI 对话
可切换不同推理引擎
支持 GPU 加速配置

二、Ollama 部署教程

2.1 安装 Ollama

macOS / Linux：

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

Windows：
直接访问 Ollama 官网下载安装包。

安装完成后，验证版本：

ollama --version

2.2 基础使用命令

下载模型：

# 查看可用模型
ollama list

# 拉取模型（以 llama3 为例）
ollama pull llama3

# 拉取特定版本
ollama pull llama3:8b

运行模型：

# 交互式对话
ollama run llama3

# 指定参数运行
ollama run llama3 --temperature 0.7 --top-p 0.9

2.3 Ollama 参数详解

Ollama 通过命令行参数或环境变量配置运行时行为：

参数	说明	取值范围	默认值
`--temperature`	控制随机性，越高越有创意	0-2	0.7
`--top-p`	核采样阈值，越低越保守	0-1	0.9
`--top-k`	限制词汇表大小	1-100	40
`--num_ctx`	上下文窗口大小	512-8192	2048
`--num_gpu`	GPU 层数，0 表示全部用 CPU	0-100	-
`--main_gpu`	指定主 GPU 设备	0-N	0
`--threads`	CPU 线程数	1-128	自动
`--memory`	内存阈值百分比	0-100	-

高级参数示例：

# 低温度，更确定性的输出
ollama run llama3 --temperature 0.1 --top-p 0.5

# 创意模式
ollama run llama3 --temperature 1.5 --top-p 0.95

# 大上下文窗口
ollama run llama3 --num_ctx 4096

2.4 作为 API 服务运行

Ollama 默认提供本地 API：

# 启动服务（默认端口 11434）
ollama serve

# 调用 API 示例
curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    {"role": "user", "content": "Hello!"}
  ]
}'

2.5 环境变量配置

在运行前设置环境变量可以调整默认行为：

# 调整 GPU 使用
export OLLAMA_GPU_LAYERS=32

# 调整内存
export OLLAMA_RAM_GPU_LOAD=0.9

# 设置日志级别
export OLLAMA_LOG_LEVEL=debug

# 代理配置（如需下载模型）
export HTTP_PROXY=http://proxy:8080
export HTTPS_PROXY=http://proxy:8080

三、LM Studio 部署教程

3.1 安装 LM Studio

下载方式：

访问 LM Studio 官网
下载对应系统的安装包（Windows/macOS/Linux）
运行安装程序

最低系统要求：

Windows 10/11 或 macOS 12+
至少 16GB RAM
支持 CUDA 的 NVIDIA GPU（可选，但推荐）

3.2 图形界面使用

首次启动界面：

启动后主界面包含：

左侧边栏：模型管理
中间：聊天界面
底部：参数调节面板

下载模型：

点击左侧的 🔍 搜索图标
输入想下载的模型（如 llama3、qwen）
选择模型版本，点击下载
等待下载完成

启动模型：

在模型列表中点击模型
等待加载完成
在聊天界面开始对话

3.3 LM Studio 参数面板详解

LM Studio 在聊天界面底部提供实时参数调节：

参数	说明	推荐场景
Temperature	随机性控制	创意写作: 1.0+, 精确任务: 0.1-0.3
Max Length	生成最大 token 数	短回答: 512, 长文: 4096+
Context Length	上下文窗口	对话: 2048-4096, 长文: 8192+
GPU Layers	GPU 加载层数	显存充足: 全部, 不足: 减少
Threads	CPU 线程数	高性能CPU: 8-16
Top P	核采样	保守: 0.7, 平衡: 0.9
Top K	词汇限制	精确: 20, 创意: 100
Repeat Penalty	重复惩罚	避免: 1.1-1.2
Presence Penalty	出现惩罚	避免重复: 0.5-1.0
Frequency Penalty	频率惩罚	降低词频: 0.5-1.0

3.4 高级设置

推理引擎设置：

点击右上角 ⚙️ 打开设置：

推理引擎：可选 llama.cpp、Auto、vLLM（需手动安装）
GPU Offload：调节 GPU 加载层数
CPU 线程：手动指定线程数
Memory：显示当前内存使用

API 服务：

LM Studio 也可以作为 API 服务器：

点击左侧边栏的 🔌 图标
选择 “Enable API Server”
设置端口（默认 1234）
访问 http://localhost:1234/v1/chat/completions

3.5 常见问题解决

问题	解决方案
模型加载慢	增加 GPU Layers 或 Threads
显存不足	减少 GPU Layers，改用 CPU
回复速度慢	确保使用 GPU，升级显卡
中文显示乱码	确认模型支持中文（如 Qwen、ChatGLM）
内存占用高	减少 Context Length，关闭其他应用

四、模型选择建议

4.1 按用途选择

用途	推荐模型
通用对话	Llama 3、Qwen 2.5、Mistral
编程辅助	CodeLlama、DeepSeek-Coder
中文任务	Qwen、ChatGLM、Yi
轻量部署	Phi-3、Gemma 2B

4.2 按硬件选择

显存/内存	推荐配置
8GB 显存	7B 模型，GPU Layers 20+
16GB 显存	13B 模型，GPU Layers 35+
24GB+ 显存	34B-70B 模型，全 GPU
纯 CPU	7B 以下模型

五、性能优化技巧

5.1 Ollama 优化

# 使用量化模型减小体积
ollama pull llama3:8b-q4_0  # 4bit 量化
ollama pull llama3:8b-q5_1  # 5bit 量化

# 限制 CPU 使用
ollama run llama3 --threads 8 --no-mmap

# 批量处理
OLLAMA_BATCH_SIZE=512 ollama run llama3

5.2 LM Studio 优化

启用 GPU 加速：设置 → 推理 → GPU Offload 调至最大
使用量化模型：下载时选择 Q4_K_M 等量化版本
关闭不必要的后台应用：释放内存和 GPU 资源
定期清理缓存：设置 → 存储 → 清理缓存

六、总结

Ollama 和 LM Studio 各自有适用场景：

Ollama：适合开发者、命令行爱好者，追求轻量级和脚本自动化
LM Studio：适合初学者、追求可视化操作的用户

两者都支持本地隐私运行、无 API 费用、离线使用。建议根据个人需求选择，也可以同时安装配合使用——Ollama 做 API 服务，LM Studio 做交互界面。

祝你在本地 AI 之旅玩得开心！如有疑问，欢迎在评论区交流。

参考资料：