
跟着内存等推测机组件价钱飞涨,东谈主工智能资本急剧飞腾,谷歌上周推出了一项名为TurboQuant的时刻立异来应酬这一挑战。
谷歌参谋东谈主员在博客著述中先容的TurboQuant,号称另一个DeepSeek AI时刻,是镌汰AI资本的深刻尝试。通过减少AI的内存使用,它不错显赫提高模子恶果,带来抓久的收益。
尽管如斯,正如DeepSeek莫得远离AI芯片的大界限投资相通,不雅察家以为TurboQuant可能会不竭鞭策AI投资增长。这便是杰文斯悖论:让某样东西变得更高效,最终会加多该资源的举座使用量。
不外,TurboQuant这种范例可能通过减少废话语模子的硬件需求,匡助在土产货开动AI。
AI的主要资本成分
当今AI的最大资本成分,也可能是可料到改日的主要问题,是对内存和存储时刻日益增长的使用。AI对数据的渴求,带来了推测史向前所未有的内存和存储依赖。
TurboQuant率先由谷歌参谋东谈主员在一年前的论文中格局,选拔"量化"时刻来减少示意数据所需的位和字节数。
量化是数据压缩的一种体式,使用更少的位来示意换取的值。关于TurboQuant,重心是所谓的"键值缓存"(KV缓存),这是AI最大的内存破钞者之一。
键值缓存的责任旨趣
当你向谷歌Gemini等聊天机器东谈主输入笔墨时,AI必须将你输入的内容与行动数据库的测量库进行比拟。
你输入的内容称为查询,它与内存中保存的数据(称为键)进行匹配以找到数值匹配。基本上,这是一个相似性分数。然后使用键从内存中检索应该行动AI反映复返给你的真实词汇,称为值。
频繁,每次你输入时,AI模子齐必须推测新的键和值,这可能会拖慢扫数这个词操作。为了加速速率,机器在内存中保留一个键值缓存来存储最近使用的键和值。
然后缓存自身就成了问题:你与模子责任得越多,键值缓存占用的内存就越多。谷歌首席作家阿米尔·赞迪和共事们示意:"这种扩展在内存使用和推测速率方面是一个首要瓶颈,相当是关于长坎坷文模子。"
更厄运的是,AI模子越来越多地使用更复杂的键和值构建,称为坎坷文窗口。这为模子提供了更多搜索选项,可能提高准确性。面前版块的Gemini 3在坎坷文窗口方面已毕了首要飞跃,达到100万个Token。之前的起头进模子如OpenAI的GPT-4的坎坷文窗口仅为32768个Token。更大的坎坷文窗口也会加多键值缓存破钞的内存量。
TurboQuant的立异之处
处治束缚扩展的KV缓存的有蓄意是对键和值进行量化,使扫数这个词缓存占用更少空间。赞迪团队在博客著述中宣称,TurboQuant的数据压缩是"大界限的"。他们写谈:"在不妨碍准确性的情况下减少KV缓存大小至关热切。"
谷歌和其他公司多年来一直使用量化来精简神经网罗。TurboQuant的新颖之处在于它旨在及时量化。往时的压缩范例在编译时(即在分娩开动之前)减少神经网罗的大小。
赞迪不雅察到这还不够好。KV缓存是在"推理时候"(即东谈主们向AI机器东谈主输入时)学到的内容的及时选录,键和值在变化。因此,量化必须填塞快速和准确,以保抓缓存较小的同期也保抓最新情状。TurboQuant中的"turbo"意味着这比传统的编译时量化快得多。
时刻已毕形式
TurboQuant有两个阶段。起始,查询和键被压缩。这不错通过几何范例完成,因为查询和键是数据向量,不错在X-Y图上格局为一条线,该线不错在图上旋转。他们称这些旋转为"PolarQuant"。通过使用PolarQuant当场尝试不同的旋转,然后检索原始线,他们找到了仍能保抓准确性的更少位数。
正如他们所说:"PolarQuant充任高效压缩桥梁,将笛卡尔输入调度为紧凑的极坐标'简写'进行存储和处理。"
压缩向量在推行查询和键之间的比拟时仍会产生演叨,这被称为两个向量的"内积"。为了处治这个问题,他们使用了赞迪在2024年引入的第二种范例QJL。该范例保抓两个向量中的一个处于原始情状,因此将压缩(量化)向量与未压缩向量相乘行动改善乘法准确性的测试。
实验抑止与诈欺远景
他们通过将TurboQuant诈欺于Meta Platforms的开源Llama 3.1-8B AI模子进行测试,发现"TurboQuant在扫数基准测试中已毕了好意思满的卑鄙抑止,同期将键值内存大小减少了至少6倍"——所需KV缓存减少了六倍。
这种范例也不同于压缩KV缓存的其他范例,举例旧年DeepSeek选拔的敛迹键和值搜索以加速推理速率的范例。
在使用谷歌Gemma开源模子和法国AI初创公司Mistral的模子进行的另一项测试中,他们写谈:"TurboQuant评释它不错将键值缓存量化到仅3位,无需老师或微调,且不会对模子准确性酿成任何妨碍,同期已毕比原始废话语模子(Gemma和Mistral)更快的开动时候。"
他们不雅察到:"实施起来荒谬高效,开动时支拨可忽略不计。"
赞迪团队预期TurboQuant将对AI推理的分娩使用产生首要影响。他们写谈:"跟着AI越来越多地集成到从废话语模子到语义搜索的扫数家具中,这项基础向量量化责任将比以往任何时候齐愈加重要。"
对AI资本的实质影响
但它确凿会镌汰AI资本吗?谜底是细目亦然狡赖的。
在智能体AI期间,像OpenClaw这么自主开动的重要,除了KV缓存以外,AI还有好多构成部分。其他内存使用,如检索和存储数据库纪录,最终会在弥远影响智能体的恶果。
照顾AI芯片领域的东谈主士上周争证明,正如旧年DeepSeek AI的恶果擢升莫得减缓AI投资相通,TurboQuant也不会。
照顾AI芯片的好意思林银行银巨匠维韦克·阿里亚向记忆DRAM制造商好意思光科技的客户写谈,TurboQuant将浅显地更有用地使用AI。阿里亚写谈:"内存恶果擢升6倍很可能导致准确性(模子大小)和/或坎坷文长度(KV缓存分拨)加多6倍,而不是内存减少6倍。"
不外,TurboQuant能作念的是使AI的某些个别实例更经济,相当是关于土产货部署。
举例,在有限的硬件预算上开动某些AI模子时,膨大的KV缓存和更长的坎坷文窗口可能评释包袱较小。这关于但愿将MacBook Neo或Mac mini行动预算土产货AI作事器的OpenClaw用户来说将是一种目田。
Q&A
Q1:TurboQuant是什么时刻?它何如镌汰AI资本?
A:TurboQuant是谷歌建树的一项量化时刻,成心用于压缩AI模子中的键值缓存(KV缓存)。它通过及时压缩数据来减少AI模子开动时的内存使用量,测试深远不错将内存需求减少6倍以上,从而镌汰AI开动资本。
Q2:键值缓存为什么会成为AI的内存包袱?
A:当用户与AI聊天机器东谈主交互时,AI需要将输入的查询与内存中的键进行匹配,然后检索对应的值行动回复。为了提高速率,系统会保留一个键值缓存存储常用的键值对,但跟着交互增多和坎坷文窗口扩大,这个缓存会占用越来越多内存。
Q3:TurboQuant时刻会信得过减少AI投资需求吗?
A:不一定。诚然TurboQuant能提高内存恶果,但笔据杰文斯悖论开yun体育网,恶果擢升频频会导以至用量加多。巨匠以为6倍的内存恶果擢升可能会被用于构建6倍大小的模子或更长的坎坷文,而不是减少内存需求。但它如实能让土产货AI部署愈加经济可行。