Knowledge2026年5月8日·1 分钟阅读

Fireworks Inference — 100+ Open Models on OpenAI-Compat API

Fireworks runs Llama, Mixtral, DeepSeek, Qwen, Phi via OpenAI-compat API. Sub-second TTFT, speculative decoding on flagship models.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Stage only · 15/100Stage only
Agent 入口
任意 MCP/CLI Agent
类型
Knowledge
安装
Stage only
信任
信任等级:New
入口
Asset
通用 CLI 安装命令
npx tokrepo install 63bacf7e-2334-4483-a208-b2b40b09383c

简介

Fireworks AI 是 100+ 开源权重模型的无服务器推理平台 —— Llama 3.3、Mixtral、DeepSeek-V3、Qwen 2.5、Phi 4,加图像(Flux、SDXL)和音频(Whisper)模型。API 在 api.fireworks.ai/inference/v1,跟 OpenAI 兼容。首 token 延迟 <1 秒,旗舰模型上推测解码带 2-4× 吞吐。适合需要快速 OSS 推理的生产应用、因成本或合规离开 OpenAI 的团队、任何要规模化跑 DeepSeek-V3 或 Llama 3.3 的人。兼容 openai-python、openai-node、LangChain、LlamaIndex。装机时间 3 分钟。


OpenAI 兼容客户端

from openai import OpenAI

client = OpenAI(
    base_url="https://api.fireworks.ai/inference/v1",
    api_key=os.environ["FIREWORKS_API_KEY"],
)

resp = client.chat.completions.create(
    model="accounts/fireworks/models/llama-v3p3-70b-instruct",
    messages=[{"role": "user", "content": "写一首关于开源 AI 的俳句"}],
)
print(resp.choices[0].message.content)

生产模型路径

模型 Fireworks model ID
Llama 3.3 70B accounts/fireworks/models/llama-v3p3-70b-instruct
DeepSeek-V3 accounts/fireworks/models/deepseek-v3
DeepSeek-R1 accounts/fireworks/models/deepseek-r1
Qwen 2.5 72B accounts/fireworks/models/qwen2p5-72b-instruct
Mixtral 8×22B accounts/fireworks/models/mixtral-8x22b-instruct
Whisper v3 accounts/fireworks/models/whisper-v3
Flux dev accounts/fireworks/models/flux-1-dev-fp8

推测解码(旗舰吞吐加速)

Llama 3.3 70B 和 DeepSeek-V3 默认开推测解码 —— 小 draft 模型提议 token,大模型并行验证。长生成净吞吐比朴素解码快 2-4×。代码不用改。

图像生成

import requests

r = requests.post(
    "https://api.fireworks.ai/inference/v1/image_generation/accounts/fireworks/models/flux-1-dev-fp8",
    headers={"Authorization": f"Bearer {os.environ['FIREWORKS_API_KEY']}", "Accept": "image/jpeg"},
    json={"prompt": "黄昏赛博朋克东京天际线,照片级写实", "aspect_ratio": "16:9", "steps": 30},
)
open("output.jpg", "wb").write(r.content)

价格快照(每百万 token,2026 年 5 月)

  • Llama 3.3 70B:输入 $0.90 / 输出 $0.90
  • DeepSeek-V3:$0.90 / $0.90
  • DeepSeek-R1:$3.00 / $8.00
  • Qwen 2.5 72B:$0.90 / $0.90

FAQ

Q: Fireworks vs Together AI vs Groq? A: Groq chat 最快(LPU 芯片,Llama 3.3 ~280 tok/秒)但模型目录小。Fireworks 和 Together 都提供 100+ 模型、价格相似;Fireworks 吞吐和图像生成更强,Together 长上下文 Llama 变体更多。

Q: Fireworks 支持微调吗? A: 支持 —— Llama / Qwen / Mixtral 上的无服务器 LoRA 微调。通过 Firectl CLI 训练,在同一 OpenAI 兼容 endpoint 用微调 model ID 部署。价格按训练 token + 托管平摊费。

Q: 怎么监控成本和延迟? A: fireworks.ai 仪表盘显示每模型 token 用量、成本、p50/p95 延迟。要 trace 级观测就用 Phoenix 或 Langfuse 注入 —— Fireworks 是 OpenAI 兼容,OpenInference 可用。


🙏

来源与感谢

Built by Fireworks AI. Docs at docs.fireworks.ai.

fw-ai/forge — open SDKs and tooling

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产