GPT4All API 服务器

GPT4All 提供了一个本地 API 服务器，允许您通过 HTTP API 运行大型语言模型 (LLM)。

主要功能

本地执行：在您自己的硬件上运行模型，以保护隐私和离线使用。
本地文档集成：结合本地文档集合向您的 LLM 提供相关文本片段，运行 API。
OpenAI API 兼容性：将现有 OpenAI 兼容的客户端和工具与您的本地模型一起使用。

激活 API 服务器

打开 GPT4All 聊天桌面应用程序。
转到 设置 > 应用程序 并向下滚动到 高级。
勾选 “启用本地 API 服务器” 设置旁的复选框。
服务器默认监听端口 4891。您可以在 “API 服务器端口” 设置中选择其他端口号。

连接到 API 服务器

API 服务器使用的基本 URL 是 https://:4891/v1（如果您使用不同的端口号，则为 https://:<PORT_NUM>/v1）。

服务器只接受 HTTP 连接（不接受 HTTPS），并且只监听 localhost (127.0.0.1)（例如，不监听 IPv6 localhost 地址 ::1）。

示例

GPT4All API 调用示例

cURLPowerShell

curl -X POST https://:4891/v1/chat/completions -d '{
"model": "Phi-3 Mini Instruct",
"messages": [{"role":"user","content":"Who is Lionel Messi?"}],
"max_tokens": 50,
"temperature": 0.28
}'

Invoke-WebRequest -URI http://localhost:4891/v1/chat/completions -Method POST -ContentType application/json -Body '{
"model": "Phi-3 Mini Instruct",
"messages": [{"role":"user","content":"Who is Lionel Messi?"}],
"max_tokens": 50,
"temperature": 0.28
}'

API 端点

方法	路径	描述
GET	`/v1/models`	列出可用模型
GET	`/v1/models/<name>`	获取特定模型的详细信息
POST	`/v1/completions`	生成文本补全
POST	`/v1/chat/completions`	生成聊天补全

本地文档集成

您可以将本地文档与 API 服务器一起使用

在 GPT4All 应用程序中打开“聊天”视图。
滚动到聊天历史侧边栏底部。
选择服务器聊天（它有不同的背景颜色）。
在右侧边栏中激活本地文档集合。

（注意：本地文档目前只能通过 GPT4All UI 激活，不能通过 API 本身激活）。

现在，您对本地 LLM 的 API 调用将从您的本地文档集合中检索到相关参考信息，并将其放置在输入消息中，供 LLM 回应。

为您的 API 调用检索到的参考信息可以在 API 响应对象中访问，位于

response["choices"][0]["references"]

references 中包含的数据是

text: 从参考文档中提取的文本片段的实际文本内容
author: 参考文档的作者（如果可用）
date: 参考文档的创建日期（如果可用）
page: 片段所在的页码（目前仅适用于 PDF 文档）
title: 参考文档的标题（如果可用）