Gemini API推出优先选项 贵80%但可以优先调用

互联网 来源:蓝点网 2026-04-04 03:58:47

谷歌人工智能 API 平台日前为高阶开发者推出新的平衡选项,开发者可以在标准层 (也就是当前版本) 外选择自适应 (Flex) 和优先级 (Priority),让开发者在调用模型时可以根据使用场景自由选择成本与可靠性的平衡点。

这种新选项也算是谷歌应对 AI 算力需求爆炸式增长推出的新商业模式,根据开发者愿意支付的价格来调整算力供应,帮助预算较低的开发者节省成本、预算较高的开发者获得更高的稳定性。

新层级的主要区别在哪里:

Gemini API Flex 层:是标准层价格的 50%,适合后台和非实时任务,但延迟时间不保证 (1~15 分钟甚至更长时间),高峰期时还可能出现被延迟或直接返回错误。

Gemini API Standard 层:也就是当前的标准层级,是所有开发者的默认选项,标准定价,延迟在秒级或分钟级,适合大多数普通应用。

Gemini API Priority 层:这个优先级层价格是标准层的 75%~100%,提供最高优先级处理,延迟极低 (毫秒级到秒级),适合实时和关键业务场景,即便在高峰期也会优先得到算力支持。

怎么才能实现成本最小化:

对开发者而言谷歌新推出的层级还是有些好处的,那就是智能重试逻辑。

例如普通任务先尝试使用 Flex 层看看延迟时间和结果能不能满足使用需求,如果能满足使用需求就直接用 Flex 层,毕竟只需要 50% 的成本。

如果 Flex 层出现太长的延迟或者出现消息丢弃等问题,再自动切换到 Standard 标准层,这种情况下应该可以满足大多数开发者的需求。

但如果标准层的延迟时间仍然达不到开发者的需求,再自动切换为 Priority 层,用最高的成本换取可以预测的执行结果时间。

有开发者不认同这种模式:

不过在开发者的讨论里也有质疑声音,那就是 AI 算力紧张的背景下,谷歌推出这种高价优先级,可能会让中小开发者利益受损,即中小开发者无法承受更高的价格,而更多算力被分配给优先级层,未来如果大家都用优先级层那和当前的标准层也没有区别。

不过这种情况与乘坐飞机的头等舱和经济舱类似,如果大家都有钱了那头等舱价格还是会涨,同理如果大家都愿意加钱上优先层,估计未来谷歌也会涨价或者推出更高的层级来分配算力。

怎么使用不同的层级:

目前新层级仅在 Gemini 3 Flash Preview 模型中测试,后续谷歌会逐渐将其扩展到更多模型,不过并非所有开发者都能调整层级,目前谷歌限制仅 Gemini API 平台的 Tier 2/3 或更高等级才能切换。

如果开发者的账户已经是 Tier 2/3 等级,则可以在模型调用代码中新增指令来进行切换:config={"service_tier": "flex"} 有兴趣的开发者可以在自己的应用里试试看。

via Google

延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
内容推荐