使用 Llama.cpp 在本地部署 Qwen3 模型并API调用


硬盘泡枸杞养生局
原创
发布时间: 2026-04-27 14:57:17 | 阅读数 0收藏数 0评论数 0
封面
本文详细介绍了如何使用llama.cpp部署本地大语言模型,本文部署的模型是qwen3-0.6B模型。教你从克隆代码、服务启动到通过API调用的完整流程。
1

拉取Llama.cpp源代码

点击进入到lLlama.cpp项目拉取代码,有两种方式根据你自己的情况来进行选择。可以通过gitclone代码又或者下载zip包放入到服务器。

2

安装cmake

# 下载 CMake 二进制包
wget https://github.com/Kitware/CMake/releases/download/v3.29.3/cmake-3.29.3-linux-x86_64.tar.gz

# 解压压缩包
tar -zxvf cmake-3.29.3-linux-x86_64.tar.gz

# 将 CMake 文件复制到系统目录
sudo cp -r cmake-3.29.3-linux-x86_64/* /usr/local/

# 将 CMake 添加到环境变量(适用于 bash)
echo 'export PATH=/usr/local/bin:$PATH' >> ~/.bashrc

# 重新加载环境变量
source ~/.bashrc

# 验证安装是否成功
cmake --version
3

编译

# 进入 Llama.cpp 项目目录
cd /usr/local/project/llama.cpp.master

# 创建并进入构建目录
mkdir -p build && cd build

# 配置 CMake
cmake ..

# 编译项目
make -j
4

对外提供API服务

# 在后台启动 Llama.cpp 服务
nohup ./build/bin/llama-server
-m qwen3/models/qwen3-0.6b-jifenqi.gguf
-c 1024
--host 0.0.0.0
--port 80
> llama.output.log 2>&1 &
5

postman测试

在浏览器或 API 调试工具(如 Postman、curl 等)的地址栏中,输入以下 URL:

http://<服务器IP地址>/v1/chat/completions

请求方法POST

Body 类型raw(JSON 格式)

请求体示例

{
"model": "qwen3",
"messages": [
{
"role": "user",
"content": "请输入您的问题或内容"
}
]
}

说明

  1. model:指定使用的模型名称(需与服务端加载的模型一致);
  2. messages:对话消息列表,当前仅包含一条用户消息;
  3. role 可为 "user""assistant""system"(根据模型支持情况)。

确保服务已成功启动并监听对应 IP 和端口,方可正常调用接口。

阅读记录0
点赞0
收藏0
禁止 本文未经作者允许授权,禁止转载
猜你喜欢
评论/提问(已发布 0 条)
评论 评论
收藏 收藏
分享 分享
pdf下载 下载
pdf下载 举报