自托管 AI 基础设施
私有 AI 部署,不经过任何云端 API。架构层面(而非政策层面)合规 HIPAA、GDPR 与 PCI-DSS。基于 Ollama、vLLM 和 Open WebUI 构建,完全在您的环境内运行。
如果您的组织处理受保护的健康信息、律师与客户之间的通信,或受监管的金融数据,这个页面就是写给您的。AI 在哪里运行并非偏好选择。对于许多受监管的组织而言,这是一个法律问题。
为什么 44% 的企业至今仍未部署 AI#
数据隐私是头号障碍,不是成本或能力#
技术并不是障碍。根据 Kong 发布的《2025 企业 AI 报告》,44% 的企业将数据隐私与安全列为采用 LLM 的首要障碍,超过了成本、实施复杂度与人才短缺。模型已经存在,应用场景也很清晰。问题在于,大多数 AI 基础设施都是为别人的合规要求设计的,不是为您的。
医疗机构无法将临床记录发送到外部 API 并继续满足 HIPAA 合规要求。律师事务所无法通过商业模型处理受特权保护的文件而不破坏特权关系。受 SEC Regulation S-P 与 FINRA Rule 3110 约束的金融服务公司也无法将客户信息路由到第三方云基础设施,同时满足其记录保存义务。这些并非边缘情况,而是受监管行业中大多数高价值 AI 应用场景的真实写照。
「私有 AI」到底意味着什么(以及不意味着什么)#
市面上相当一部分被宣传为「私有 AI」的产品,实际上只是套了品牌界面的云端 API,有些加了 VPN 封装,有些连这层都没有。您的数据仍然途经第三方基础设施,仍然受该厂商服务条款管辖,他们的数据保留政策仍然适用。这不符合 HIPAA 的最小必要标准、GDPR 的数据驻留要求,也不符合律师与客户特权原则。
真正的私有 AI 意味着推理发生在您自己的环境内。模型权重存放在您控制的硬件上,网络流量从不离开您的边界,不发起任何外部 API 调用。架构本身就是合规机制,而不是厂商设置面板上的一个勾选项。
云 API 无法弥合的合规鸿沟#
云 AI 厂商提供 BAA。部分厂商拥有强有力的安全体系。但这些都不足以让它们适用于每一种工作负载。Business Associate Agreement 解决的是责任划分问题,并不改变数据去向、处理方、以及由此产生的访问权限。
2026 年 2 月,美国纽约南区联邦地区法院裁定,使用商业生成式 AI 工具创建并分享给律师的文件不受律师与客户之间特权的保护。与公共 AI 平台的通信缺少必要的保密要素,因为数据被传输到并由特权关系之外的第三方处理。这是一项具有约束力的裁定,不是理论风险,适用于任何使用商业云模型处理文件工作的法律团队。
FINRA 的《2025 监管监督报告》将记录保存、客户信息保护以及 Reg BI 合规确定为使用生成式 AI 的金融服务公司的首要 AI 风险领域。自托管基础设施,加上完全由您控制的审计日志,是满足这些要求而不做结构性妥协的唯一架构。
自托管 AI 基础设施包含什么#
全栈私有部署不是一个单独的工具,而是由多个组件协调组成的系统,每个组件都需要被正确配置、集成与维护。
私有 LLM 推理(Ollama、vLLM、llama.cpp)#
推理层是系统的核心,在完全属于您自己的环境内处理提示、生成响应。我们会为您的工作负载部署合适的推理运行时:
- Ollama 适用于注重简洁性、快速启动和广泛模型支持的团队部署。Ollama 支持 Llama、Mistral、Qwen、Phi 等数十种开源权重模型,API 简单,基础设施开销低。
- vLLM 适用于生产级、高吞吐量的环境,在这类场景中,并发用户数、Token 吞吐与延迟都是硬性运营要求。vLLM 的 PagedAttention 架构在 GPU 利用率上显著优于简单的推理方案。
- llama.cpp 适用于无 GPU 或边缘部署场景,在这些场景下,GPU 硬件不可用或并不合适。
模型选型是每一次合作的一部分。我们会根据您具体的工作负载,文档分析、代码生成、摘要、问答等,评估开源权重模型并给出合适的规模建议。我们不会默认部署某一个固定模型就算完事。
基于您的文档与内部数据构建的 RAG 系统#
检索增强生成将您的 LLM 连接到组织的知识库。系统不再仅依赖模型训练语料,而是在查询时从您的内部文档、合同、临床指南、合规政策、操作规程中检索相关上下文,并将其纳入提示。
我们构建的 RAG 管线可以接入您的多种文档格式(PDF、DOCX、HTML、纯文本),使用合适的模型进行切块与向量化,将向量存储在您自己控制的数据库中,并在查询时精准检索。最终效果是一个能够回答关于您自身数据的问题的系统,而不是泛泛的互联网知识。
在您网络内部运行的工作流自动化#
独立的 LLM 只是一个聊天界面。接入您的工作流之后,它就成为运营资产。我们把自托管推理接入基于 n8n(自托管)或自研 Python 编排器的内部自动化管线,可支撑以下应用场景:
- 自动化文档分诊与分类
- 预授权文书起草与复核队列
- 合同条款提取与标注
- 客户进件处理
- 对照内部政策文档进行合规监控
所有自动化都在您的网络内部运行。工作流中没有任何数据流向外部服务。
用户界面与访问控制(Open WebUI、自定义门户)#
您的团队需要一个可用的界面。我们部署 Open WebUI,这是一款能力完备、可自托管的聊天界面,结合 LDAP 或 Active Directory 认证,让访问权限由您既有的身份基础设施统一管理。用户使用企业凭证登录,权限基于角色,每次会话与查询都会写入您的审计跟踪。
对于有特定工作流需求的组织,我们会构建自定义 Web 门户,在具体任务场景中暴露 AI 能力,而不是通用聊天界面。这会降低培训成本并提升采用率。
请参见 OpenClaw 部署案例,了解在私有 LLM 基础设施之上构建的自定义门户示例。
我们如何构建#
第 1 步:基础设施与合规评估#
在推荐技术栈或模型之前,我们需要了解您实际需要遵守哪些合规要求、会处理什么数据,以及您目前的基础设施现状。我们会审阅您的监管义务,HIPAA、GDPR、PCI-DSS、SOC 2、FINRA,或这些要求的组合,并将其映射为架构要求。我们会梳理 AI 基础设施需要与哪些既有系统集成,以及数据边界应设置在哪里。
这一步会产出一份书面范围文档,定义部署架构、安全控制与合规态势。后续所有决策都从中衍生。
第 2 步:模型选型与硬件规格评估#
并非每种工作负载都需要相同的模型或相同的硬件。我们会根据您的应用场景评估可用的开源权重模型,并推荐与工作负载和预算相匹配的规模。15 人团队做文档摘要的需求,与 300 人事务所并发起草临床记录的需求完全不同。
我们会给出硬件规格建议,GPU 要求、内存、存储、网络配置,并与您的基础设施团队或您选定的硬件供应商协同工作,确保环境在我们开始部署之前已被正确配置。
第 3 步:部署、加固与集成#
我们部署并配置推理运行时、RAG 管线、自动化层与用户界面。我们对环境进行加固:网络分段、防火墙规则、加密卷、审计日志、基于角色的访问控制。我们与您的认证基础设施集成(LDAP、Active Directory、SAML),并连接到 AI 工作流所需接入的内部系统。
我们不会扔给您一个 Docker Compose 文件加一个 README 了事。我们会部署到您的环境中,验证系统运行正常,并将构建的内容以及决策依据写成文档。
第 4 步:用户接入、监控与交接文档#
部署要做到您的团队可以独立运营才算完成。我们配置监控:模型健康、请求延迟、错误率,并根据您的运维态势配置合适的告警。我们产出交接文档,涵盖系统架构、配置决策、维护流程与模型更新流程。
我们还会在交接后提供一段明确的支持期。大多数问题都出现在投产后的头几周,因此我们会在那段时间保持可联络。
技术栈#
我们并不绑定单一工具链。下面的组件是我们当前标准部署方案所使用的工具,这些工具在私有 AI 基础设施领域已经经过验证:
推理层#
| 工具 | 应用场景 |
|---|---|
| Ollama | 团队部署、开发以及多模型访问,运维开销低 |
| vLLM | 高吞吐生产推理,支持并发用户与严格的延迟要求 |
| llama.cpp | 没有 GPU 硬件时的纯 CPU 或边缘部署 |
界面层#
| 工具 | 应用场景 |
|---|---|
| Open WebUI | 自托管聊天界面,支持 LDAP/AD 认证与完整会话日志 |
| 自定义门户 | 针对特定任务的界面,通用聊天 UX 不适合的工作流 |
RAG 与检索#
| 工具 | 应用场景 |
|---|---|
| LangChain | 文档摄取、切块与检索管线的编排层 |
| ChromaDB | 适合中小规模部署的嵌入式向量库 |
| pgvector | 对于已经运行 Postgres 的组织,提供 PostgreSQL 原生的向量存储 |
编排#
| 工具 | 应用场景 |
|---|---|
| n8n(自托管) | 可视化工作流自动化,无需依赖外部 API |
| 自研 Python 智能体 | 复杂多步逻辑、专用集成与高吞吐处理 |
安全#
每一次部署都包含网络分段、加密存储卷、基于角色的访问控制以及集中式审计日志。安全不是部署之后再加进去的东西。
行业部署#
医疗:面向临床记录、预授权与账单工作流的 HIPAA 合规 AI#
医疗行业最高价值的 AI 应用场景,临床文档、预授权、账单审核,都涉及 PHI。这些数据不能离开您的网络。与云厂商签订 BAA 并不会改变底层的数据流向。自托管部署则从根本上消除了这一数据流向。
我们构建的 HIPAA 合规部署在您的环境内处理 PHI。临床记录起草、预授权函生成、账单编码审核、临床指南问答,全部运行在您自己的基础设施上,可审计,并且可在您的合规体系下加以辩护。
如需了解我们如何界定医疗部署范围,请参阅医疗自托管 AI 部署指南。
法律:文档审阅与合同分析,不暴露特权内容#
2026 年 2 月 SDNY 的那项裁决让风险变得具体:使用商业云模型处理受特权保护的文件工作,您可能已经破坏了这些文件的特权。唯一可行的架构应对就是确保 AI 永不接触任何第三方系统。
我们为律师事务所和法务部门部署私有 LLM 基础设施,他们在文档审阅、合同分析与内部研究中,需要数据完全保持在特权关系内部。没有外部处理,没有第三方服务条款,也没有在您控制之外的保留政策。
如需了解法律行业部署的具体细节,请参阅法律自托管 AI 部署指南。
金融服务:符合 SEC Regulation S-P 与 FINRA Rule 3110 的合规 AI#
FINRA 的《2025 监管监督报告》将客户信息保护列为首要的 AI 风险领域。SEC Regulation S-P 规定了金融服务公司如何处理非公开客户数据。将这类数据交给商业云模型处理,会带来厂商政策文档无法化解的合规敞口。
自托管基础设施为金融服务公司提供了具备可辩护合规态势的 AI 能力:数据保留在您的环境内部,访问被记录且可审计,并且系统具备足以应对检查请求的文档。
如需详细了解金融服务部署,请参阅金融服务自托管 AI 部署指南。
自托管 vs 云 AI:真正的权衡#
如果云 AI 确实是您工作负载的正确选择,我们不会强行推销自托管基础设施。有些情况需要自托管,有些不需要。以下是诚实的对比。
什么情况下自托管更便宜(以及什么情况下并非如此)#
云 AI API 按 Token 计费。在低用量下,经济账明显倾向于云端:没有硬件、没有运维、没有维护。对于探索性用途、原型验证或每月低于 1000-2000 万 Token 的工作负载,从总拥有成本看,云 API 几乎总会更便宜。
在高用量下,这笔账会反转。IDC 2025 年的数据显示,每月处理 1 亿 Token 及以上的组织,通过将高用量的受监管工作负载迁移到自托管基础设施,每年可节省 500 万至 5000 万美元。盈亏平衡点取决于您具体的模型、硬件成本与运维开销,但对于任何存在持续、高吞吐 AI 工作流的组织而言,都值得算一算。
如需详细分析,请参阅我们的自托管 AI 与云 AI 对比。
什么情况下合规要求直接替您做了决定#
如果您的数据受 HIPAA 管辖、受律师与客户特权约束,或属于 Reg S-P 下的非公开客户金融信息,这个问题可能根本就不是经济账。架构由监管要求决定。带 BAA 的云 API 与数据从不离开您的边界并不是同一回事,对某些工作负载而言,只有后者才合规。
SDNY 的那项裁决在这里很能说明问题。法院并没有评估 AI 厂商的安全态势。它评估的是这项通信在构造上是否是私密的。云 API 在构造上并非私密,自托管部署则是。
部署之后,持续运维实际上是什么样#
自托管基础设施需要实打实的维护,带着清晰预期进场很重要。模型会随着更优版本发布而需要更新。硬件需要监控。安全补丁需要打。这些运维开销是真实存在的,云 API 确实能把它们消除。
我们构建的部署方案,目标是由一位具备一定技术能力的人员,高级 IT 管理员、DevOps 工程师或内部开发者,在无需 AI 基础设施专项知识的前提下就能维护。我们会整理运维手册,明确更新节奏,并在后续保持响应能力。只要最初的部署做得到位,维护工作就可以管理。
如需从实务视角了解后续维护的样貌,请阅读自托管 AI 搭建指南。
定价#
自托管 AI 基础设施按合作进行范围界定。影响成本的变量包括:
- 用户数量与并发负载要求
- 用于 RAG 摄取的文档数量与复杂度
- 需要构建的工作流自动化数量
- 是否需要纳入硬件采购
- 监管要求与合规文档需求
基础设施评估与架构界定: 固定费用。这是每一次合作的起点,一份在任何构建工作开始之前就确立架构、合规态势与部署计划的明确文档。
部署与集成: 按项目计费,基于架构文档界定范围。大多数全栈部署耗时 6 到 14 周,视集成复杂度与组织就绪程度而定。
支持与维护年服务: 部署完成后,面向希望就模型更新、系统健康与运营变更获得持续覆盖的团队提供。
我们不公布定价表,因为不同组织的范围差异很大。基础设施审计是合适的第一步:一项范围明确、固定费用的合作,产出一份由您拥有的书面架构文档,无论您接下来决定做什么。
常见问题#
什么是自托管 AI 基础设施,什么时候需要它?
自托管 AI 基础设施是一种完全在您自己环境内运行的私有 LLM 部署,在您的硬件上、您的网络内,不发起任何外部 API 调用。当您的数据受到禁止或限制第三方处理的监管要求约束(HIPAA、律师与客户特权、SEC Reg S-P)时,当您的 Token 使用量使得云 API 成本难以承受时,或者当您的组织出于法律、合同或安全原因要求完整的数据主权时,您就需要它。
自托管 AI 合规 HIPAA 吗?
架构得当的自托管部署在设计上满足 HIPAA 对 PHI 处理的要求。因为 PHI 从不离开您控制的环境,所以不存在需要管辖的第三方数据传输,也没有 BAA 依赖,更没有需要管理的外部保留政策。架构本身就是合规机制。话虽如此,HIPAA 合规不止需要正确的基础设施。您还需要合适的访问控制、审计日志与行政性保障,这些我们都会在每一次医疗部署中构建进去。
部署自托管 LLM 会用到哪些工具?
我们的标准技术栈在推理层使用 Ollama 或 vLLM(视工作负载而定),用户界面使用 Open WebUI,RAG 管线使用 LangChain 搭配 ChromaDB 或 pgvector,工作流自动化使用 n8n(自托管)或自研 Python 智能体。所有组件均为开源,完全运行在您的环境内。
部署私有的本地 LLM 需要多少成本?
硬件成本因需要运行的模型与需要支撑的并发负载而差异较大。面向团队的部署,在单台 GPU 服务器上运行中等规模模型(7B-13B 参数),硬件大约需要 10000-25000 美元。需要更高吞吐或更大模型的生产部署,成本会在此基础上往上走。软件与部署成本按合作界定范围;基础设施评估是获取真实报价的合适第一步。
什么时候自托管 AI 会比云 AI API 更便宜?
盈亏平衡点取决于您的 Token 用量、具体的模型,以及硬件与运维成本。作为一个参考点,IDC 2025 年的数据显示,每月处理 1 亿 Token 及以上的组织,通过迁移到自托管基础设施每年可节省 500 万至 5000 万美元。对于大多数每月处理低于 1000-2000 万 Token 的团队,从总拥有成本看,云 API 依然更便宜。
能部署哪些开源权重模型?
我们可以部署任何能在 Ollama 或 vLLM 上运行的开源权重模型,包括 Llama 系列、Mistral、Qwen、Phi、Gemma、DeepSeek 等。模型选型是合作范围界定流程的一部分。我们会根据您的应用场景、上下文窗口要求与性能需求,对照当前可选模型给出明确推荐。
是否负责硬件采购?
可以。对于没有现成 GPU 采购流程的客户,我们会与硬件供应商合作,规格设计并采购合适的配置。对于已有 IT 采购关系的客户,我们提供详细的硬件规格并在配置上给出建议。无论哪种情况,我们都会在部署开始前确认硬件就绪。
如果您的工作负载涉及受监管数据,并且需要了解合规的私有部署对您的组织意味着什么,那么基础设施审计是合适的起点。
审计是一项范围明确的合作:明确的范围、固定的费用,以及一份书面产出,一份由您拥有的架构文档,无论您接下来决定构建什么都归您所有。