How do I install Fireworks Inference — 100+ Open Models on OpenAI-Compat API?

Visit the asset page on TokRepo and click "Copy for agent" to get the installation instructions. Most assets can be installed with a single command.

Fireworks Inference — 100+ Open Models on OpenAI-Compat API

Name: Fireworks Inference — 100+ Open Models on OpenAI-Compat API
Author: Fireworks AI

简介

Fireworks AI 是 100+ 开源权重模型的无服务器推理平台 —— Llama 3.3、Mixtral、DeepSeek-V3、Qwen 2.5、Phi 4，加图像（Flux、SDXL）和音频（Whisper）模型。API 在 api.fireworks.ai/inference/v1，跟 OpenAI 兼容。首 token 延迟 <1 秒，旗舰模型上推测解码带 2-4× 吞吐。适合需要快速 OSS 推理的生产应用、因成本或合规离开 OpenAI 的团队、任何要规模化跑 DeepSeek-V3 或 Llama 3.3 的人。兼容 openai-python、openai-node、LangChain、LlamaIndex。装机时间 3 分钟。

OpenAI 兼容客户端

from openai import OpenAI

client = OpenAI(
    base_url="https://api.fireworks.ai/inference/v1",
    api_key=os.environ["FIREWORKS_API_KEY"],
)

resp = client.chat.completions.create(
    model="accounts/fireworks/models/llama-v3p3-70b-instruct",
    messages=[{"role": "user", "content": "写一首关于开源 AI 的俳句"}],
)
print(resp.choices[0].message.content)

生产模型路径

模型	Fireworks model ID
Llama 3.3 70B	`accounts/fireworks/models/llama-v3p3-70b-instruct`
DeepSeek-V3	`accounts/fireworks/models/deepseek-v3`
DeepSeek-R1	`accounts/fireworks/models/deepseek-r1`
Qwen 2.5 72B	`accounts/fireworks/models/qwen2p5-72b-instruct`
Mixtral 8×22B	`accounts/fireworks/models/mixtral-8x22b-instruct`
Whisper v3	`accounts/fireworks/models/whisper-v3`
Flux dev	`accounts/fireworks/models/flux-1-dev-fp8`

推测解码（旗舰吞吐加速）

Llama 3.3 70B 和 DeepSeek-V3 默认开推测解码 —— 小 draft 模型提议 token，大模型并行验证。长生成净吞吐比朴素解码快 2-4×。代码不用改。

图像生成

import requests

r = requests.post(
    "https://api.fireworks.ai/inference/v1/image_generation/accounts/fireworks/models/flux-1-dev-fp8",
    headers={"Authorization": f"Bearer {os.environ['FIREWORKS_API_KEY']}", "Accept": "image/jpeg"},
    json={"prompt": "黄昏赛博朋克东京天际线，照片级写实", "aspect_ratio": "16:9", "steps": 30},
)
open("output.jpg", "wb").write(r.content)

价格快照（每百万 token，2026 年 5 月）

Llama 3.3 70B：输入 $0.90 / 输出 $0.90
DeepSeek-V3：$0.90 / $0.90
DeepSeek-R1：$3.00 / $8.00
Qwen 2.5 72B：$0.90 / $0.90

FAQ

Q: Fireworks vs Together AI vs Groq？ A: Groq chat 最快（LPU 芯片，Llama 3.3 ~280 tok/秒）但模型目录小。Fireworks 和 Together 都提供 100+ 模型、价格相似；Fireworks 吞吐和图像生成更强，Together 长上下文 Llama 变体更多。

Q: Fireworks 支持微调吗？ A: 支持 —— Llama / Qwen / Mixtral 上的无服务器 LoRA 微调。通过 Firectl CLI 训练，在同一 OpenAI 兼容 endpoint 用微调 model ID 部署。价格按训练 token + 托管平摊费。

Q: 怎么监控成本和延迟？ A: fireworks.ai 仪表盘显示每模型 token 用量、成本、p50/p95 延迟。要 trace 级观测就用 Phoenix 或 Langfuse 注入 —— Fireworks 是 OpenAI 兼容，OpenInference 可用。

Fireworks Inference — 100+ Open Models on OpenAI-Compat API

这个资产可以被 Agent 直接读取和安装

简介

OpenAI 兼容客户端

生产模型路径

推测解码（旗舰吞吐加速）

图像生成

价格快照（每百万 token，2026 年 5 月）

FAQ

来源与感谢

讨论

相关资产

GroqCloud Quickstart — 250 tokens/sec OpenAI-Compat API

Fireworks Fine-Tuning — Serverless LoRA on Llama in 30 min

DeepSeek Coder — Code-Specialized Model for Local Inference

DeepSeek-V3 — Open-Weight 671B MoE Model with GPT-4o Quality