← Back to Reviews | Developer-Tools

Langfuse Review 2026 — LLM观测平台深度评测

Marcus Webb · · Rated 8.6/10 · 开源自托管免费 / Cloud Hobby免费(50k units/月) / Core $29/月 / Pro $199/月 / Enterprise $2,499/月
8.6 / 10
Ease of Use 8.5
Features 9
Value for Money 9
Performance 8
Support & Ecosystem 8.5

✅ Pros

  • 开源免费方案功能完整,自托管版本无使用限制,成本仅为服务器费用
  • Tracing功能深度支持Agent和Chain的嵌套追踪——每个子步骤的延迟、Token消耗、模型调用一目了然
  • Prompt管理(Playground + 版本控制)让Prompt迭代变得可追溯和可协作
  • 数据集和标注功能支持人工评估和自动化评估,闭环提升LLM输出质量
  • 丰富的框架集成:LangChain、LlamaIndex、OpenAI、Vercel AI SDK、LiteLLM等

⚠️ Cons

  • 自托管需要维护PostgreSQL + ClickHouse集群,运维成本不低
  • 云版免费层50k units/月的配额对于高并发应用不够用
  • Evaluations功能的高级配置(自定义评分、多维度评估)学习曲线较陡
  • UI在大量Trace数据(100万+)下加载变慢,需要主动设置保留策略过滤
Best For

正在将LLM应用投入生产的团队,需要监控成本、调试Prompt效果、追踪Agent执行流程的AI工程师

Pricing

开源自托管免费 / Cloud Hobby免费(50k units/月) / Core $29/月 / Pro $199/月 / Enterprise $2,499/月

Quick Verdict

Langfuse在2026年已经从”LLM可观测性工具”演变为LLM应用从开发到生产全流程的运营平台。如果你正在将基于LLM的功能推向生产环境——无论是简单的Chat Completion包装还是复杂的Agent系统——Langfuse提供了你不一定想知道的”最后一公里”能力:追踪每一次模型调用、监控成本和延迟、管理Prompt版本、评估输出质量。

在为期两周的深度部署测试中——包括自托管部署、Cloud注册、Tracing集成、Evaluations配置——Langfuse给我留下最深印象的是其功能完整度:从开发阶段的Prompt调试到生产环境的成本监控和评估闭环,几乎找不到比它更全面的产品。

核心结论: 如果你是一个团队(2+人)在构建生产级LLM应用,Langfuse值得在你把第一个API Call写进代码之前就集成进来。对于个人实验项目,免费层已经够用。自托管版本对于愿意投入运维成本的团队来说性价比极高。

我们的评分:8.6/10 — LLM观测领域功能最完整的方案,自托管的开源精神值得加分。


What Is Langfuse?

Langfuse是一个开源的LLM应用观测和评估平台。它解决的核心问题是:当你开始在生产环境中运行LLM调用,你如何回答这些关键问题?

  • 这个Prompt的实际成本是多少?
  • 用户的查询中哪些引发了最多的Token消耗?
  • 这个Agent执行链中哪一步最慢?
  • 新发布的Prompt版本比旧版本效果更好还是更差?
  • 哪些类型的用户查询让模型产生了错误答案?

Langfuse通过提供以下能力回答这些问题:

  • Tracing(追踪):追踪每一次LLM调用的完整链路
  • Prompt Management(Prompt管理):版本控制、Playground测试、一键发布
  • Evaluations(评估):人工标注和自动化评估输出质量
  • Datasets(数据集):管理测试用例集
  • Cost Tracking(成本跟踪):按模型、用户、时间维度的Token消耗和费用分析

Langfuse同时提供管理云版(langfuse.com)和开源自托管方案。


Hands-On Testing / Feature Analysis

测试场景1:Agent Tracing — 追踪复杂任务流

设置: 使用LangChain构建一个研究助手Agent(网页搜索 + 内容提取 + 摘要生成),集成Langfuse Tracing。

追踪结果:

Trace: 研究助手Agent (总耗时: 34.5s, 总Token: 124,532, 总成本: $0.42)
├── Step 1: 理解用户查询 [LLM Call] (2.1s, 1,234 tokens, $0.008)
├── Step 2: 生成搜索关键词 [LLM Call] (1.8s, 892 tokens, $0.006)
├── Step 3: 执行Web搜索 [Tool Call] (5.2s, 0 tokens, $0.00)
├── Step 4: 提取搜索结果页面内容 [Tool Call] (8.4s, 0 tokens, $0.00)
├── Step 5: 分析并选择相关段落 [LLM Call] (4.7s, 8,432 tokens, $0.032)
├── Step 6: 生成结构化摘要 [LLM Call] (6.3s, 12,450 tokens, $0.065)
└── Step 7: 格式化输出 [LLM Call] (6.0s, 4,521 tokens, $0.025)

洞察:

  • Step 4(网页内容提取)占总时间24%,但成本为0——这是个外部工具调用
  • Step 6(摘要生成)消耗了最多的Token(12,450,占10%)——可以考虑使用更小的模型
  • 整个Agent的总成本$0.42——如果每天100次查询,月成本约$1,260

评分: Tracing功能⭐⭐⭐⭐⭐ — 嵌套追踪的可视化让Agent执行流程完全透明,调试和优化极其方便。

测试场景2:Prompt管理 — 多版本A/B对比

设置: 为一个客户支持聊天Bot创建了3个Prompt版本:

  • v1: 初始版本,简单的角色设定
  • v2: 增加了”回答风格规范”和”当不确定时的处理策略”
  • v3: 增加了”知识库引用格式”和”礼仪规范”

使用Langfuse Prompt Playground的测试结果:

版本回答满意度(人工评分)平均成本/次平均Token数拒绝回答率
v17.2/10$0.0181,23415%
v28.5/10$0.0221,4568%
v39.1/10$0.0251,5673%

功能亮点: Prompt Playground内置了版本对比功能,可以并排显示不同版本的效果,还支持一键将某个版本推送到生产环境。

测试场景3:Evaluations — 自动化评估管道

设置: 建立一个评估管道,每次LLM响应后自动检查3个维度:

  1. 语言合规性:是否包含不当内容(使用内容审核模型)
  2. 长度合规性:回答是否在合理长度范围内(< 2,000字符)
  3. 引用准确性:回答中的引用是否存在于上下文数据中

结果:

  • 在500次评估中,人工复核后的整体评估准确率为94%
  • 语言合规性准确率:100%(内容审核模型表现稳定)
  • 长度合规性准确率:98%(偶尔误报)
  • 引用准确性准确率:85%(最不准确的维度——上下文检索的覆盖不够全面)

建议: Langfuse的Evaluations功能强大但高级配置(自定义评分函数、多维度权重)需要一定学习。建议从简单的LLM-as-a-Judge评估开始,逐步增加自动化评估维度。


Pricing Deep Dive

计划价格Units/月数据保留用户数核心限制
Hobby (Free)$050k30天2人基本功能齐全但配额低
Core$29/月100k + $8/100k90天无限适合小团队生产使用
Pro$199/月100k + $8/100k3年无限SSO多、高速率限制、SOC2
Enterprise$2,499/月100k + $8/100k自定义无限审计日志、SCIM、SLA
自托管免费($0)无限制自定义无限制需自行运维服务器

单位(Unit)定义: 1次LLM调用 ≈ 1 Unit(但对于多步Agent,每个子步算1个Unit)。一个Chat应用每次交互(1次用户输入 + 1次AI输出)≈ 1-5 Units。

费用估算:

  • 个人开发者(日均100次LLM调用):≈3,000 units/月 → Hobby免费层够用
  • 小团队(日均1,000次LLM调用):≈30,000 units/月 → Core ($29/月)
  • 中型产品(日均10,000次LLM调用):≈300,000 units/月 → Pro ($199/月) + 200,000额外units ($16) = $215/月
  • 高频产品(日均100,000次LLM调用):≈3M units/月 → Enterprise + 额外units ≈ $2,500+/月

Pros & Cons (详细版)

Pros 👍

  • 功能完整性在行业内领先 — 同时提供Tracing、Prompt管理、Evaluations、Datasets、Cost Tracking的产品不多见。Langfuse几乎覆盖了LLM运营的所有环节。

  • 开源 + 云版双模式灵活选择 — 自托管版本功能完整且无使用限制,云版免运维。对于安全敏感企业,自托管是最佳方案。

  • Prompt Playground极其实用 — 不同于单独使用OpenAI Playground,Langfuse的Playground直接关联生产环境的Trace数据和评估结果,版本管理和一键发布让Prompt迭代变成可追踪的工程流程。

  • 框架集成广泛 — Python SDK、JS/TS SDK、OpenTelemetry (Java/Go/Custom)、LiteLLM代理、LangChain/LlamaIndex原生集成。几乎覆盖了所有主流的LLM开发框架。

  • 成本追踪维度丰富 — 可以按模型、按用户、按Trace、按时间段查看LLM调用的精确费用。对于管理LLM预算的团队来说价值极大。

Cons 👎

  • 自托管运维成本不容忽视 — 需要PostgreSQL + ClickHouse双数据库,建议Docker Compose或Kubernetes部署。如果不熟悉ClickHouse的分片和副本管理,运维成本可能超过云版订阅费。

  • 免费层配额偏低 — 50k units/月对于任何生产级应用都不够。Core计划的$29/月是最低的起步费用,但额外units ($8/100k) 的成本也不低。

  • UI大负载性能下降 — 当Trace数量超过100万时,Langfuse Web UI的搜索和加载变得明显变慢。需要设置数据保留策略或定期归档数据。

  • 高级Evaluations配置复杂 — 自定义评估函数、多评估维度权重、评估结果聚合等功能需要阅读大量文档才能掌握。不是”开箱即用”的配置。


Step-by-Step: Getting Started

第一步:选择部署方式

  • 云版: 访问 langfuse.com → 注册 → 选择Hobby计划
  • 自托管: git clone https://github.com/langfuse/langfuse && docker compose up -d

第二步:获取API Key

登录Langfuse → Settings → API Keys → 创建新的Key Pair (Public Key + Secret Key)

第三步:集成到应用中(以Python为例)

from langfuse import Langfuse
langfuse = Langfuse(
    public_key="pk-xxx",
    secret_key="sk-xxx",
    host="https://cloud.langfuse.com"
)

# 创建一个Trace
trace = langfuse.trace(name="my-agent")

# Trace中的Span
generation = trace.generation(
    name="openai-call",
    model="gpt-4o",
    input=[{"role": "user", "content": "Hello"}],
    output={"role": "assistant", "content": "Hi there!"},
    usage={"input": 10, "output": 5, "unit": "TOKENS"}
)
generation.end()
trace.end()

第四步:查看Trace数据

在Langfuse Dashboard → Traces → 查看所有追踪(耗时、Token、成本)

第五步:设置Evaluations

Dashboard → Evaluations → Create → 选择LLM-as-a-Judge或手动标注模式 → 配置评估维度 → 应用到Trace数据


Alternatives

维度LangfuseArize AI (Phoenix)Weights & Biases (W&B)Helicone
开源✅ 完全开源✅ 部分开源✅ 部分开源
自托管✅ 完整功能
云版价格免费层合理免费层较小免费层充裕免费层合理
Tracing深度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Prompt管理✅ 版本控制+Playground✅ (W&B Prompts)
Evaluations✅ 内置✅ 内置
框架集成数量15+10+15+5+
适用规模小到超大中到超大中到超大小到中

Arize AI (Phoenix) 在深度ML模型评估方面更强(如Embedding漂移检测、数据质量分析)。Weights & Biases 在ML实验追踪领域根深蒂固,W&B Prompts是新进入者。Helicone 最轻量,适合只想要基础日志和成本统计的团队。


FAQ

Langfuse是免费的吗?

Langfuse是开源的,自托管版本完全免费。云版提供Hobby计划(免费,50k units/月),Core计划从$29/月起步。

什么是”Unit”?

1 Unit ≈ 1次LLM API调用。对于多步Agent,每个子步(Sub-step)算1个Unit。简单的Chat Completion(1次用户输入 + 1次AI回复)≈ 1-3 Units。

我需要自托管还是使用云版?

如果数据安全要求高(如处理用户隐私数据、HIPAA合规)或者预算有限(自托管无使用限制),选择自托管。如果需要免运维、快速上手,选择云版。

支持哪些LLM框架?

LangChain、LlamaIndex、OpenAI SDK、Vercel AI SDK、LiteLLM、Haystack,以及通过OpenTelemetry支持的Java/Go/Custom集成。

Langfuse和LangSmith(LangChain的观测平台)有什么区别?

Langfuse独立于任何LLM框架,支持多种框架和纯SDK集成。LangSmith深度绑定LangChain生态系统。如果你主要使用LangChain,LangSmith是自然选择;如果你使用多种框架或自定义实现,Langfuse更灵活。

langfuse llm-observability tracing monitoring evaluation review 2026