[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-deploy-monitor-observability-zh":3,"seo:pack:deploy-monitor-observability:zh":100},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":99},"deploy-monitor-observability","📡","#0891B2","new","本周新建","上线 + 监控 + 可观测性 一站套件","10 件套，给真正把代码上线的开发者：部署目标（Vercel \u002F Kamal \u002F Coolify）+ 错误追踪 + OpenTelemetry + 指标 + 日志 + 仪表盘 + 在线状态 + 告警 — 按顺序串起来，下次宕机才能真正接到电话。",[16,28,38,46,53,60,67,75,82,92],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},3033,"2d5d7b20-25a2-4f99-bb2e-827672d613dd","vercel-cli-preview-deployments-from-terminal","Vercel CLI — Preview Deployments from Terminal","Vercel CLI runs dev servers, pulls project env, and creates preview or production deployments from the terminal. Useful for agent-built web changes.","Vercel",83,0,"en","script","Script",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":36,"type_label":37},1443,"5211d45c-3908-11f1-9bc6-00163e2b0d79","kamal-zero-downtime-docker-deploys-any-server-5211d45c","Kamal — Zero-Downtime Docker Deploys to Any Server","Kamal is Basecamp's deploy tool that ships Docker containers to bare metal or cloud VMs with a single command, giving you Heroku-like workflows on servers you actually own.","Script Depot",122,"skill","Skill",{"id":39,"uuid":40,"slug":41,"title":42,"description":43,"author_name":44,"view_count":45,"vote_count":24,"lang_type":25,"type":36,"type_label":37},464,"202dfab1-6823-4fb2-a585-8af913d55af3","coolify-self-hosted-vercel-netlify-alternative-202dfab1","Coolify — Self-Hosted Vercel & Netlify Alternative","Deploy apps, databases, and services on your own server with one click. No vendor lock-in. 52K+ GitHub stars.","AI Open Source",152,{"id":47,"uuid":48,"slug":49,"title":50,"description":51,"author_name":44,"view_count":52,"vote_count":24,"lang_type":25,"type":36,"type_label":37},945,"ece57add-34d8-11f1-9bc6-00163e2b0d79","sentry-open-source-error-tracking-performance-monitoring-ece57add","Sentry — Open Source Error Tracking & Performance Monitoring","Sentry is the developer-first error tracking and performance monitoring platform. Capture exceptions, trace performance issues, and debug production errors across all languages.",176,{"id":54,"uuid":55,"slug":56,"title":57,"description":58,"author_name":44,"view_count":59,"vote_count":24,"lang_type":25,"type":36,"type_label":37},1472,"1e161adc-3929-11f1-9bc6-00163e2b0d79","opentelemetry-collector-vendor-neutral-telemetry-pipeline-1e161adc","OpenTelemetry Collector — Vendor-Neutral Telemetry Pipeline","The OpenTelemetry Collector is the CNCF-graduated pipeline for receiving, processing, and exporting metrics, logs, and traces across any observability backend, replacing per-vendor agents with one portable binary.",130,{"id":61,"uuid":62,"slug":63,"title":64,"description":65,"author_name":44,"view_count":66,"vote_count":24,"lang_type":25,"type":36,"type_label":37},916,"ed3a8de4-34ae-11f1-9bc6-00163e2b0d79","prometheus-open-source-monitoring-alerting-toolkit-ed3a8de4","Prometheus — Open Source Monitoring & Alerting Toolkit","Prometheus is the CNCF-graduated monitoring system and time series database. Pull-based metrics collection, powerful PromQL queries, and built-in alerting for cloud-native infrastructure.",135,{"id":68,"uuid":69,"slug":70,"title":71,"description":72,"author_name":73,"view_count":74,"vote_count":24,"lang_type":25,"type":36,"type_label":37},958,"92fa7c1f-352f-11f1-9bc6-00163e2b0d79","grafana-loki-prometheus-inspired-log-aggregation-system-92fa7c1f","Grafana Loki — Prometheus-Inspired Log Aggregation System","Loki is a horizontally scalable, multi-tenant log aggregation system by Grafana Labs. Unlike other log systems, Loki indexes metadata about logs, not log content itself.","Grafana Labs",210,{"id":76,"uuid":77,"slug":78,"title":79,"description":80,"author_name":73,"view_count":81,"vote_count":24,"lang_type":25,"type":36,"type_label":37},915,"ed1a524f-34ae-11f1-9bc6-00163e2b0d79","grafana-open-source-data-visualization-observability-ed1a524f","Grafana — Open Source Data Visualization & Observability","Grafana is the leading open-source platform for monitoring and observability. Visualize metrics, logs, and traces from Prometheus, Loki, Elasticsearch, and 100+ data sources.",193,{"id":83,"uuid":84,"slug":85,"title":86,"description":87,"author_name":88,"view_count":89,"vote_count":24,"lang_type":25,"type":90,"type_label":91},465,"88e260be-dfd0-46b6-883f-21141a8c2f23","uptime-kuma-self-hosted-uptime-monitoring-88e260be","Uptime Kuma — Self-Hosted Uptime Monitoring","Monitor HTTP, TCP, DNS, Docker services with notifications to 90+ channels. Beautiful dashboard. 84K+ GitHub stars.","MCP Hub",171,"mcp","MCP",{"id":93,"uuid":94,"slug":95,"title":96,"description":97,"author_name":34,"view_count":98,"vote_count":24,"lang_type":25,"type":36,"type_label":37},2026,"51f92d7e-3f31-11f1-9bc6-00163e2b0d79","prometheus-alertmanager-alert-routing-notification-hub-51f92d7e","Prometheus Alertmanager — Alert Routing and Notification Hub","Alertmanager handles alerts sent by Prometheus, deduplicating, grouping, and routing them to the right notification channel such as email, Slack, PagerDuty, or webhooks.",133,"tokrepo install pack\u002Fdeploy-monitor-observability",{"pageType":101,"pageKey":8,"locale":102,"title":103,"metaDescription":104,"h1":13,"tldr":105,"bodyMarkdown":106,"faq":107,"schema":123,"internalLinks":129,"citations":142,"wordCount":155,"generatedAt":156},"pack","zh","上线 + 监控 + 可观测性 一站套件 — 10 件套带你从 git push 走到真正能接告警","Vercel CLI \u002F Kamal \u002F Coolify \u002F Sentry \u002F OpenTelemetry Collector \u002F Prometheus \u002F Loki \u002F Grafana \u002F Uptime Kuma \u002F Alertmanager — 一套经过深思熟虑的顺序：部署 → 追踪 → 日志 → 指标 → 在线状态 → 告警 → 仪表盘。开源优先，TokRepo 一键安装。","10 件套，带你从 `git push` 走到生产宕机时电话真的能响。3 个部署目标（PaaS \u002F 容器 \u002F 自托管），Sentry 抓异常，OpenTelemetry 串数据，Prometheus + Loki 收指标和日志，Grafana 做大盘，Uptime Kuma 心跳探活，Alertmanager 路由告警。开源优先；只在 SaaS 真值钱的地方点名。","## 这个 pack 包含什么\n\n这是一个真正的后端工程师在产品**有真实用户之前那一周**会装的套件 — 不是宕机后通宵抢救的那种。每个都**开源优先**、**$20 VPS 跑得起**、**能跟下一个工具串起来**。顺序很重要：每一层喂养下一层。\n\n| # | 工具 | 层 | 干什么 |\n|---|---|---|---|\n| 1 | Vercel CLI | 部署（PaaS） | 每次 `git push` 自动给一个预览 URL，Next\u002FNuxt\u002FAstro 零配置 |\n| 2 | Kamal | 部署（容器） | 零停机 Docker 部署到任意 VPS — Basecamp 自家工具 |\n| 3 | Coolify | 部署（自托管 PaaS） | 开源版 Vercel\u002FHeroku，跑在你自己服务器上 |\n| 4 | Sentry | 错误 + APM | 异常捕获 \u002F 发布健康度 \u002F 性能追踪 |\n| 5 | OpenTelemetry Collector | 遥测管道 | 厂商无关的汇聚层，traces \u002F metrics \u002F logs 一起进 |\n| 6 | Prometheus | 指标 | 拉取式时序数据库，业界默认 |\n| 7 | Grafana Loki | 日志 | 像 Prometheus 思路的日志存储 — 便宜、按标签索引 |\n| 8 | Grafana | 仪表盘 | 所有数据汇聚到的大屏 |\n| 9 | Uptime Kuma | 在线状态 + 状态页 | 自托管心跳，宕机时给你打电话；自带 public 状态页 |\n| 10 | Prometheus Alertmanager | 告警路由 | 去重 \u002F 分组 \u002F 路由到 PagerDuty \u002F 飞书 \u002F Slack \u002F 邮件 |\n\n## 推荐安装顺序（部署 → 追踪 → 日志 → 指标 → 在线状态 → 告警 → 仪表盘）\n\n顺序是有讲究的。**别一上来装仪表盘** — 空盘子什么都教不了你。先把数据源接上，仪表盘是最后那 10% 的工作。\n\n1. **选一个部署目标**。Vercel CLI：你在写 JS 框架想要每个 PR 自动预览 URL。Kamal：你已经被 Heroku 类定价宰过，想自己拥有服务器。Coolify：想在自己机器上拿到 Vercel 的体验。**选一个**，另外两个跳过。\n2. **接着装 Sentry**。错误是你能加的信噪比最高的遥测。SDK 初始化 5 行代码，立刻开始抓你从来不知道存在的异常。第一天就把 release 追踪开起来 — 让你能回答「这个 bug 是不是上次发版才有的」。\n3. **OpenTelemetry Collector**。别把自己锁死在某家厂商的 SDK 上。Collector 是一个 Go 二进制，从你的 app 收 OTLP，分发到 Sentry \u002F Prometheus \u002F Loki 或任何下游。配一次，换后端不用动业务代码。\n4. **Prometheus 收指标**。从你的 app、Node Exporter、数据库 exporter 抓 `\u002Fmetrics`。四个黄金信号 — 延迟 \u002F 流量 \u002F 错误率 \u002F 饱和度 — 都进这里。\n5. **Loki 收日志**。已经用 Prometheus 了，Loki 就是顺理成章的日志存储：同样的标签模型，相似的查询语言，跑在同一台 VM 上。**不要把每个 JSON 字段都索引** — 按 service \u002F env \u002F level 打标，剩下的用 LogQL 过滤。\n6. **Uptime Kuma 做心跳**。外部视角的 ping。能抓到你内部栈看不见的宕机（DNS \u002F TLS 证书过期 \u002F CDN 抽风）。自带公开状态页。\n7. **Alertmanager 接 Prometheus**。告警要打在**症状**上（p95 延迟 > 2s、错误率 > 1%），不是**原因**上（CPU > 80%）。P1 进电话，P2 进 Slack，P3 进每日汇总。\n8. **最后才上 Grafana**。数据流通了，再做**三个**仪表盘：on-call 工程师一个（延迟 \u002F 错误率 \u002F 最近发版），产品一个（注册 \u002F 转化 \u002F 单用户成本），老板一个（uptime % \u002F MAU \u002F 周环比）。通用仪表盘没人看。\n\n## 你会遇到的取舍\n\n- **Vercel vs Kamal vs Coolify** — Vercel：零运维、可缩到零、规模上来很贵、栈不归你。Kamal：服务器归你、Docker 是唯一抽象、便宜可预测。Coolify：中间路线，自托管 UI + Docker。大多数团队 MVP 跑 Vercel，账单到 $500\u002F月就迁 Kamal\u002FCoolify。\n- **Sentry SaaS vs 自托管** — 自托管 Sentry 要起 6 个服务（Kafka \u002F Postgres \u002F Redis \u002F ClickHouse 等）。月 10w event 以下，SaaS 免费层比你的人力时间便宜。等过了免费层 + 有运维人手再自托管。\n- **Prometheus + Loki + Grafana vs Datadog** — Datadog 是付费精品。开源栈 ~$20\u002F月 VPS vs Datadog 单 host $15-31\u002F月，10 个 host 就 $300+\u002F月。代价：你自己照看这套。10 个服务以下开源完胜，50 个服务以上 Datadog 的 ergonomics 开始值钱。\n- **推 vs 拉 指标** — Prometheus 是拉模型（它来抓你）。如果你是 Serverless 或短生命周期 job，拉不动 — 用 Pushgateway，或者切到 OpenTelemetry 推到 Collector。别跟模型硬刚。\n\n## 常见踩坑\n\n- **告警打在原因上而不是症状上**。「CPU > 80%」凌晨 3 点把你叫醒，工作负载其实没事。「面向用户的 p95 > 2s」只在真出问题时叫你。**先调症状告警，醒了再查原因**。\n- **Grafana 不打 release 标记**。半数事故都是「刚发完版就坏的」。部署脚本里加一条 POST Grafana annotation，时间轴上那道火苗每次事故省你 20 分钟。\n- **日志字段全索引**。Loki 的卖点就是不全索引。如果你每条日志加 50 个 label，基数爆炸，便宜的日志存储变贵的。**按 service \u002F env \u002F level 打标，剩下的 grep**。\n- **所有告警走同一个通道**。P1（站挂了）→ 电话。P2（降级）→ Slack @channel。P3（异常）→ 每日汇总。混在一起要么忽略电话要么忽略汇总，两边都失败。\n- **没有外部 uptime 探测**。你内网 Prometheus 觉得服务在线，但 Cloudflare 或 CDN 在 `eu-west` 把 30% 的请求丢了。从不同网络的 Uptime Kuma 能抓到。5 分钟就能配。",[108,111,114,117,120],{"q":109,"a":110},"10 个工具真的都需要吗？看着好多。","你需要每一**层**选一个，不是 10 个全装。pack 里在同一层列了备选（3 个部署目标、metrics 可走 Prometheus 也可走 OTel）— 按你的规模选。1 人独立开发者最小可行栈：Vercel CLI + Sentry + Uptime Kuma。第二个工程师进来再加 Prometheus + Grafana + Alertmanager。超过 10 个服务再加 Loki + OpenTelemetry Collector。别提前装。",{"q":112,"a":113},"这套月成本大概多少？","小团队：Vercel 免费或 $20\u002F月，Sentry 免费层（5k 事件\u002F月）或 $26\u002F月，剩下一台 $5-20 VPS 同时跑 Prometheus + Loki + Grafana + Uptime Kuma + Alertmanager（全都 RAM 占用很轻）。合计 $25-60\u002F月就能拿到真能抓宕机的可观测性。对比 Datadog 单 host $15-31\u002F月，10 host 经常 $300+\u002F月。",{"q":115,"a":116},"这个跟 LLM Observability pack 重叠吗？","LLM Observability（Langfuse \u002F Phoenix \u002F AgentOps）是**应用语义层** — prompt 追踪 \u002F token 成本 \u002F eval 评分。这个 Deploy + Monitor + Observability pack 是**基础设施层** — 容器活着没、HTTP p95 行不行、上次发版有没有把错误率打爆。两个都要。本 pack 里的 OpenTelemetry Collector 能从 Langfuse\u002FPhoenix 收 LLM trace 转发到下游，on-call 在同一个 Grafana 大盘看到两层数据。",{"q":118,"a":119},"为啥推 Kamal 不推 Docker Swarm 或 Nomad？","Kamal 主张极强，简单到无聊 — 这正是部署工具该有的样子。它只做零停机容器 rollout + traefik 路由，没有 scheduler、没有 service mesh、没有 YAML 教堂。1-10 台服务器场景下，它是「能跑就行」的最简方案。Swarm 已进入维护期；Nomad 很好但运维成本对小团队偏大。等到团队里有一个人全职做 k8s，再上 k8s。",{"q":121,"a":122},"Serverless 后端（AWS Lambda \u002F Cloudflare Workers）能用这套吗？","能，但拉模型不行了。Serverless 用 OpenTelemetry SDK **推**模式：trace 和 metric 通过 OTLP 推到 OpenTelemetry Collector。Collector 再 remote_write 进 Prometheus、写进 Loki，下游其他工具一行不用改。Uptime Kuma 照样 ping 公网 URL，Sentry SDK 在 Lambda\u002FWorkers 运行时正常工作，Grafana 仪表盘不在乎数据从哪来。",{"@context":124,"@type":125,"name":13,"description":126,"numberOfItems":127,"inLanguage":128},"https:\u002F\u002Fschema.org","ItemList","10 个开源优先的工具，带开发者从 git push 走到一条真正能用的告警链路：部署 \u002F 追踪 \u002F 日志 \u002F 指标 \u002F 在线状态 \u002F 告警 \u002F 仪表盘。",10,"zh-CN",[130,134,138],{"url":131,"anchor":132,"reason":133},"\u002Fzh\u002Fpacks\u002Fllm-observability","LLM 可观测性 pack","面向 LLM 应用的应用语义层，跟本 pack 的基础设施层互补",{"url":135,"anchor":136,"reason":137},"\u002Fzh\u002Fai-tools-for\u002Fdevops","DevOps 工具集（面向 AI Agent）","Kamal \u002F Coolify \u002F k8s 工具的更全目录",{"url":139,"anchor":140,"reason":141},"\u002Fzh\u002Ftopics","浏览其他主题 pack","还有后端 AI 工具包、前端 AI 工具包、AI 第二大脑等主题",[143,147,151],{"claim":144,"source_name":145,"source_url":146},"Kamal 提供零停机的 Docker 应用部署到任意服务器","Kamal 官网","https:\u002F\u002Fkamal-deploy.org\u002F",{"claim":148,"source_name":149,"source_url":150},"OpenTelemetry Collector 是厂商无关的遥测数据接收、处理与导出实现","OpenTelemetry Collector 文档","https:\u002F\u002Fopentelemetry.io\u002Fdocs\u002Fcollector\u002F",{"claim":152,"source_name":153,"source_url":154},"Prometheus Alertmanager 负责告警的去重、分组与路由","Prometheus Alertmanager 官方文档","https:\u002F\u002Fprometheus.io\u002Fdocs\u002Falerting\u002Flatest\u002Falertmanager\u002F",895,"2026-05-22T10:00:00Z"]