开yun体育网匡助在土产货开动AI-开云(中国)Kaiyun·体育官方网站登录入口

发布日期：2026-04-05 07:26 点击次数：190

跟着内存等推测机组件价钱飞涨，东谈主工智能资本急剧飞腾，谷歌上周推出了一项名为TurboQuant的时刻立异来应酬这一挑战。

谷歌参谋东谈主员在博客著述中先容的TurboQuant，号称另一个DeepSeek AI时刻，是镌汰AI资本的深刻尝试。通过减少AI的内存使用，它不错显赫提高模子恶果，带来抓久的收益。

尽管如斯，正如DeepSeek莫得远离AI芯片的大界限投资相通，不雅察家以为TurboQuant可能会不竭鞭策AI投资增长。这便是杰文斯悖论：让某样东西变得更高效，最终会加多该资源的举座使用量。

不外，TurboQuant这种范例可能通过减少废话语模子的硬件需求，匡助在土产货开动AI。

AI的主要资本成分

当今AI的最大资本成分，也可能是可料到改日的主要问题，是对内存和存储时刻日益增长的使用。AI对数据的渴求，带来了推测史向前所未有的内存和存储依赖。

TurboQuant率先由谷歌参谋东谈主员在一年前的论文中格局，选拔"量化"时刻来减少示意数据所需的位和字节数。

量化是数据压缩的一种体式，使用更少的位来示意换取的值。关于TurboQuant，重心是所谓的"键值缓存"（KV缓存），这是AI最大的内存破钞者之一。

键值缓存的责任旨趣

当你向谷歌Gemini等聊天机器东谈主输入笔墨时，AI必须将你输入的内容与行动数据库的测量库进行比拟。

你输入的内容称为查询，它与内存中保存的数据（称为键）进行匹配以找到数值匹配。基本上，这是一个相似性分数。然后使用键从内存中检索应该行动AI反映复返给你的真实词汇，称为值。

频繁，每次你输入时，AI模子齐必须推测新的键和值，这可能会拖慢扫数这个词操作。为了加速速率，机器在内存中保留一个键值缓存来存储最近使用的键和值。

然后缓存自身就成了问题：你与模子责任得越多，键值缓存占用的内存就越多。谷歌首席作家阿米尔·赞迪和共事们示意："这种扩展在内存使用和推测速率方面是一个首要瓶颈，相当是关于长坎坷文模子。"

更厄运的是，AI模子越来越多地使用更复杂的键和值构建，称为坎坷文窗口。这为模子提供了更多搜索选项，可能提高准确性。面前版块的Gemini 3在坎坷文窗口方面已毕了首要飞跃，达到100万个Token。之前的起头进模子如OpenAI的GPT-4的坎坷文窗口仅为32768个Token。更大的坎坷文窗口也会加多键值缓存破钞的内存量。

TurboQuant的立异之处

处治束缚扩展的KV缓存的有蓄意是对键和值进行量化，使扫数这个词缓存占用更少空间。赞迪团队在博客著述中宣称，TurboQuant的数据压缩是"大界限的"。他们写谈："在不妨碍准确性的情况下减少KV缓存大小至关热切。"

谷歌和其他公司多年来一直使用量化来精简神经网罗。TurboQuant的新颖之处在于它旨在及时量化。往时的压缩范例在编译时（即在分娩开动之前）减少神经网罗的大小。

赞迪不雅察到这还不够好。KV缓存是在"推理时候"（即东谈主们向AI机器东谈主输入时）学到的内容的及时选录，键和值在变化。因此，量化必须填塞快速和准确，以保抓缓存较小的同期也保抓最新情状。TurboQuant中的"turbo"意味着这比传统的编译时量化快得多。

时刻已毕形式

TurboQuant有两个阶段。起始，查询和键被压缩。这不错通过几何范例完成，因为查询和键是数据向量，不错在X-Y图上格局为一条线，该线不错在图上旋转。他们称这些旋转为"PolarQuant"。通过使用PolarQuant当场尝试不同的旋转，然后检索原始线，他们找到了仍能保抓准确性的更少位数。

正如他们所说："PolarQuant充任高效压缩桥梁，将笛卡尔输入调度为紧凑的极坐标'简写'进行存储和处理。"

压缩向量在推行查询和键之间的比拟时仍会产生演叨，这被称为两个向量的"内积"。为了处治这个问题，他们使用了赞迪在2024年引入的第二种范例QJL。该范例保抓两个向量中的一个处于原始情状，因此将压缩（量化）向量与未压缩向量相乘行动改善乘法准确性的测试。

实验抑止与诈欺远景

他们通过将TurboQuant诈欺于Meta Platforms的开源Llama 3.1-8B AI模子进行测试，发现"TurboQuant在扫数基准测试中已毕了好意思满的卑鄙抑止，同期将键值内存大小减少了至少6倍"——所需KV缓存减少了六倍。

这种范例也不同于压缩KV缓存的其他范例，举例旧年DeepSeek选拔的敛迹键和值搜索以加速推理速率的范例。

在使用谷歌Gemma开源模子和法国AI初创公司Mistral的模子进行的另一项测试中，他们写谈："TurboQuant评释它不错将键值缓存量化到仅3位，无需老师或微调，且不会对模子准确性酿成任何妨碍，同期已毕比原始废话语模子（Gemma和Mistral）更快的开动时候。"

他们不雅察到："实施起来荒谬高效，开动时支拨可忽略不计。"

赞迪团队预期TurboQuant将对AI推理的分娩使用产生首要影响。他们写谈："跟着AI越来越多地集成到从废话语模子到语义搜索的扫数家具中，这项基础向量量化责任将比以往任何时候齐愈加重要。"

对AI资本的实质影响

但它确凿会镌汰AI资本吗？谜底是细目亦然狡赖的。

在智能体AI期间，像OpenClaw这么自主开动的重要，除了KV缓存以外，AI还有好多构成部分。其他内存使用，如检索和存储数据库纪录，最终会在弥远影响智能体的恶果。

照顾AI芯片领域的东谈主士上周争证明，正如旧年DeepSeek AI的恶果擢升莫得减缓AI投资相通，TurboQuant也不会。

照顾AI芯片的好意思林银行银巨匠维韦克·阿里亚向记忆DRAM制造商好意思光科技的客户写谈，TurboQuant将浅显地更有用地使用AI。阿里亚写谈："内存恶果擢升6倍很可能导致准确性（模子大小）和/或坎坷文长度（KV缓存分拨）加多6倍，而不是内存减少6倍。"

不外，TurboQuant能作念的是使AI的某些个别实例更经济，相当是关于土产货部署。

举例，在有限的硬件预算上开动某些AI模子时，膨大的KV缓存和更长的坎坷文窗口可能评释包袱较小。这关于但愿将MacBook Neo或Mac mini行动预算土产货AI作事器的OpenClaw用户来说将是一种目田。

Q&A

Q1：TurboQuant是什么时刻？它何如镌汰AI资本？

A：TurboQuant是谷歌建树的一项量化时刻，成心用于压缩AI模子中的键值缓存（KV缓存）。它通过及时压缩数据来减少AI模子开动时的内存使用量，测试深远不错将内存需求减少6倍以上，从而镌汰AI开动资本。

Q2：键值缓存为什么会成为AI的内存包袱？

A：当用户与AI聊天机器东谈主交互时，AI需要将输入的查询与内存中的键进行匹配，然后检索对应的值行动回复。为了提高速率，系统会保留一个键值缓存存储常用的键值对，但跟着交互增多和坎坷文窗口扩大，这个缓存会占用越来越多内存。

Q3：TurboQuant时刻会信得过减少AI投资需求吗？

A：不一定。诚然TurboQuant能提高内存恶果，但笔据杰文斯悖论开yun体育网，恶果擢升频频会导以至用量加多。巨匠以为6倍的内存恶果擢升可能会被用于构建6倍大小的模子或更长的坎坷文，而不是减少内存需求。但它如实能让土产货AI部署愈加经济可行。

友情链接：

开yun体育网匡助在土产货开动AI-开云(中国)Kaiyun·体育官方网站登录入口

热点资讯

相关资讯

开yun体育网匡助在土产货开动AI-开云(中国)Kaiyun·体育官方网站 登录入口

热点资讯

相关资讯

开yun体育网匡助在土产货开动AI-开云(中国)Kaiyun·体育官方网站登录入口