Ollama

关注公众号 jb51net

关闭
AI > Ollama >

Ollama 命令行工具(CLI)

脚本之家

Ollama 提供了多种命令行工具(CLI)供用户与本地运行的模型进行交互。

基本格式:

ollama <command> [args]

我们可以用 ollama --help 查看包含有哪些命令:

Large language model runner
Usage:
  ollama [flags]
  ollama [command]
Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command
Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

1、使用方法

ollama [flags]:使用标志(flags)运行 ollama。

ollama [command]:运行 ollama 的某个具体命令。

2、可用命令

serve:启动 ollama 服务。

create:根据一个 Modelfile 创建一个模型。

show:显示某个模型的详细信息。

run:运行一个模型。

stop:停止一个正在运行的模型。

pull:从一个模型仓库(registry)拉取一个模型。

push:将一个模型推送到一个模型仓库。

list:列出所有模型。

ps:列出所有正在运行的模型。

cp:复制一个模型。

rm:删除一个模型。

help:获取关于任何命令的帮助信息。

3、标志(Flags)

完整示例:

命令 (Command)说明 (Description)示例 (Example)
ollama run运行模型。如果不存在则自动拉取。ollama run llama3
ollama pull拉取模型。从库中下载模型但不运行。ollama pull mistral
ollama list列出模型。显示本地所有已下载的模型。ollama list
ollama rm删除模型。移除本地模型释放空间。ollama rm llama3
ollama cp复制模型。将现有模型复制为新名称(用于测试)。ollama cp llama3 my-model
ollama create创建模型。根据 Modelfile 创建自定义模型(高级)。ollama create my-bot -f ./Modelfile
ollama show显示信息。查看模型的元数据、参数或 Modelfile。ollama show --modelfile llama3
ollama ps查看进程。显示当前正在运行的模型及显存占用。ollama ps
ollama push推送模型。将你自定义的模型上传到 ollama.com。ollama push my-username/my-model
ollama serve启动服务。启动 Ollama 的 API 服务(通常后台自动运行)。ollama serve
ollama help帮助。查看任何命令的帮助信息。ollama help run

1. 拉取与删除模型

pull拉取远端模型到本地。

ollama pull <model>

rm / remove删除本地模型。

ollama rm <model>

list / ls列出所有本地模型。

ollama list

2. 运行模型

run交互模式运行模型,不退出。

ollama run <model>

可带系统信息与 prompt:

ollama run <model> -s "<system>" -p "<prompt>"

run + script从文件读取 prompt:

ollama run <model> < input.txt

当你输入 ollama run 进入聊天界面后,你不再是在操作命令行,而是在和 AI 对话。这时你可以使用以 / 开头的快捷指令来控制对话:

3. 推理接口(一次性执行)

generate执行单次推理,输出文本。

ollama generate <model> -p "<prompt>"

4. 创建与修改模型

create用 Modelfile 创建本地模型。

ollama create <model-name> -f Modelfile

cp复制一个模型为新名字。

ollama cp <src> <dst>

5. 服务器相关

serve启动 Ollama 本地服务(默认 11434)。

ollama serve

run serverless当 ollama run 时会自动拉起后台服务,不需单独执行。

6. 模型信息

show查看模型元数据、参数、模板。

ollama show <model>

7. 专用参数

这些参数多数可用于 run/generate:

--num-predict <number>    限制输出 token 数
--temperature <float>     控制随机性
--top-k <int>             采样范围
--top-p <float>           核采样
--seed <int>              固定随机性
--format json             输出 JSON
--keepalive <seconds>     会话保持时间

8. Modelfile 指令

构建模型时使用:

9. API(当 serve 运行时)

REST 端点(默认 http://localhost:11434/api):

调用示例(curl):

curl http://localhost:11434/api/generate \
  -d '{"model":"qwen2.5","prompt":"hello"}'

10. 进阶

自定义参数运行:

ollama run <model> --temperature 0.2 --top-p 0.9

持久会话(保留上下文):会话由模型内部缓存自动管理,无需额外命令。