跳到内容

GPT4All API 服务器

GPT4All 提供了一个本地 API 服务器,允许您通过 HTTP API 运行大型语言模型 (LLM)。

主要功能

  • 本地执行:在您自己的硬件上运行模型,以保护隐私和离线使用。
  • 本地文档集成:结合 本地文档集合 向您的 LLM 提供相关文本片段,运行 API。
  • OpenAI API 兼容性:将现有 OpenAI 兼容的客户端和工具与您的本地模型一起使用。

激活 API 服务器

  1. 打开 GPT4All 聊天桌面应用程序。
  2. 转到 设置 > 应用程序 并向下滚动到 高级
  3. 勾选 “启用本地 API 服务器” 设置旁的复选框。
  4. 服务器默认监听端口 4891。您可以在 “API 服务器端口” 设置中选择其他端口号。

连接到 API 服务器

API 服务器使用的基本 URL 是 http://localhost:4891/v1(如果您使用不同的端口号,则为 http://localhost:<PORT_NUM>/v1)。

服务器只接受 HTTP 连接(不接受 HTTPS),并且只监听 localhost (127.0.0.1)(例如,不监听 IPv6 localhost 地址 ::1)。

示例

GPT4All API 调用示例

curl -X POST http://localhost:4891/v1/chat/completions -d '{
"model": "Phi-3 Mini Instruct",
"messages": [{"role":"user","content":"Who is Lionel Messi?"}],
"max_tokens": 50,
"temperature": 0.28
}'
Invoke-WebRequest -URI http://localhost:4891/v1/chat/completions -Method POST -ContentType application/json -Body '{
"model": "Phi-3 Mini Instruct",
"messages": [{"role":"user","content":"Who is Lionel Messi?"}],
"max_tokens": 50,
"temperature": 0.28
}'

API 端点

方法 路径 描述
GET /v1/models 列出可用模型
GET /v1/models/<name> 获取特定模型的详细信息
POST /v1/completions 生成文本补全
POST /v1/chat/completions 生成聊天补全

本地文档集成

您可以将本地文档与 API 服务器一起使用

  1. 在 GPT4All 应用程序中打开“聊天”视图。
  2. 滚动到聊天历史侧边栏底部。
  3. 选择服务器聊天(它有不同的背景颜色)。
  4. 在右侧边栏中激活本地文档集合。

(注意:本地文档目前只能通过 GPT4All UI 激活,不能通过 API 本身激活)。

现在,您对本地 LLM 的 API 调用将从您的本地文档集合中检索到相关参考信息,并将其放置在输入消息中,供 LLM 回应。

为您的 API 调用检索到的参考信息可以在 API 响应对象中访问,位于

response["choices"][0]["references"]

references 中包含的数据是

  • text: 从参考文档中提取的文本片段的实际文本内容

  • author: 参考文档的作者(如果可用)

  • date: 参考文档的创建日期(如果可用)

  • page: 片段所在的页码(目前仅适用于 PDF 文档)

  • title: 参考文档的标题(如果可用)