尊享奢华赌场与独特娱乐体验清程极智翟季冬: token也有“质地问题”

来源：未知作者：admin 时间：2026-06-08 17:44 浏览：125

在智能体活跃，token（词元）破费量呈指数级增多的2026年，token经济以及算力的受疼爱进度日新月异。以“龙虾”OpenClaw为代表的智能体需要破费算力，用户必须从token供应商处获取API key（密钥），才能让这些智能体粗浅启动。

不外，许多东说念主不知说念的是，即即是合并款模子，凭据供应商的不同，其token的“质地”也会存在互异。近日，‌清华大学绸缪机系长聘栽种‌、博士生导师，‌清程极智首席科学家翟季冬接受了新京报贝壳财经记者的采访，揭开了token经济中这一“潜藏的旯旮”。

此外，行为曾指导清华团队十五次得到国际大学生超算竞赛冠军的指导憨厚，翟季冬和团队成员也对刻下国产算力芯片若何与大模子进行适配，以及二者之间“推理引擎”层的作用，对新京报贝壳财经记者进行了科普。

‌清华大学绸缪机系长聘栽种‌、博士生导师，‌清程极智首席科学家翟季冬陈说记者发问。罗亦丹/摄

合并模子，低廉token有可能更“用钱”

“token是本年最火的词，但token底层波及许多本事。”翟季冬开门见平地说，在他看来，token产业不错分为三层：底层是在芯片上部署大模子，出产token的出产层；中间层是行为token供应商转运分发token的指挥层；最表层则是个东说念主和企业用户成功调用API消费token的使用层。

开运体育中国app官方手机版

这三层结构听上去跟电力系统有些相似，但翟季冬强调，两者的老练度整个不在一个量级，“当咱们用电时，无谓惦念发出来的电有‘分辩’，但token不同，不异的模子、不异的价钱，token质地却可能狼藉不王人。”

他告诉记者，实质上，token供应商的看法有许多，除了下里巴人的价钱、荆棘文长度外，还有首字蔓延、婉曲量，以及平凡用户较难泄露的精度、 KV Cache（键值缓存）掷中等。

而这些“潜藏的细节”可能决定模子的恶果和token破费的大小。

在模子恶果方面，翟季冬例如称，比如模子发布时可能接受了BF16精度，但有些供应商会把它量化成INT8以致INT4来部署，平正是算力破费减半，不错承载更多用户，代价是模子才调被“编著”了，不再是原汁原味的恶果。

据了解，FP16、INT8等专科术语指的是大模子推理的精度，数字（4/8/16/32/64）代表位数，一般来说，位数越高，绸缪精度越高、阻抑越准，但速率越慢、破费算力越大；位数越低，速率越快、越省算力，但会隐微亏欠模子恶果。

而在token破费量方面，翟季冬给记者算了一笔账：不异的模子，一家供应商报价每百万token3元，另一家报价1元，看似低廉的那家，实质总老本可能反而更高。“它有两行报价，一转是token掷中，可能是一毛钱，token不掷中是一块钱。然则它的token出产作念得很差，你的这些肯求都不掷中，终末反而用钱。”

清程极智团结独创东说念主师天麾诠释注解称，尊享奢华赌场与独特娱乐体验这里的中枢本事是KV Cache（键值缓存）贬责——在多轮对话场景中，缓存掷中不错从简90%的老本，但不同供应商的缓存贬责水平差距盛大，其中报价低的干事商也许缓存并不高，本该从简的那些缓存没能从简，导致总老本很高。但干事商在卖token时，一般不会成功诠释缓存掷中率是若干，以致有些干事商成功不给缓存掷中的优惠价钱。

针对这一乱象，清程极智推出了AI Ping一站式大模子干事评测与API智能路由平台，目下，平台已接入30余家主流干事商、600余个大模子干事，掩饰文本、图片、视频等全场景；通过7×24小时多地域散播式监测，及时输出蔓延、婉曲、可靠性、价钱等中枢看法。

不同供应商提供的DeepSeek-V4-Pro模子的token蔓延情况对比图。数据开始：aiping.cn

6月8日，新京报贝壳财经记者登录AI Ping平台，当场搜检了DeepSeek-V4-Pro模子不同token供应商的蔓延情况，发现其纪录了价钱、蔓延、婉曲等看法。如关于蔓延这一看法，一些干事商的弧线波动极大，而最为结识的则是DeepSeek官方提供的token。

“中国的电力系统在全宇宙是第一的，咱们但愿通过各式勤奋，大要把我国token干事的质地和性能也作念到全宇宙第一。”翟季冬说。

芯片发展趋势：接济的精度类型越来越多

token质地的互异，追根究底要落到芯片和推理引擎上。一个容易被忽略的事实是：在国产算力和国产模子之间，并不是成功对接的相关，中间还隔着一层至关挫折的“推理引擎”。这层软件束上起下，决定了芯片的算力能不可被高效开释，也决定了最毕出产出来的token质地够不够好。

翟季冬用精度问题向贝壳财经记者诠释注解了推理引擎的价值——“许多东说念主认为芯片正在向精度越来越高发展，但事实上，芯片正在向接济的精度类型越来越多发展，例如，传统CPU可能只接济三、四种精度类型，而目下的AI芯片能接济十几种，从FP64、FP32、FP16到FP8、FP4，还有INT8、INT4等整数精度，每一种都有不同的性能和恶果量度。”

“模子不是说一定要选最高的精度才好，因为精度更高的同期，也更慢，每个模子会选一个恰到平正的精度。”清程极智团结独创东说念主唐适之补充说念，“目下来讲，主流模子的聘请不绝追随英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度，DeepSeek以为FP8最合适我方的模子，就选了这个设施。”

但问题随之而来：国产芯片的精度接济并不整个跟英伟达对王人。“对DeepSeek来讲，国产卡有的精渡过高有的精渡过低，使用起来无论若何都是有亏欠的。”

这恰是推理引擎的用武之地。翟季冬告诉记者，国外主流推理引擎如vLLM、SGlang对英伟达、AMD的生态接济更好，但对国产芯片的优化参预有限。针对大模子部署老本高、国产算力适配不及的痛点，清程极智推出了自主研发的国产推理引擎赤兔，其对国产模子、国产芯片的接济在很厚情况下比vLLM、SGlang要更好。

这种上风不仅仅体目下精度适配层面。唐适之先容，不同国产芯片的硬件脾气互异很大，比如有些卡的张量绸缪才和洽标量绸缪才调之间的量度跟英伟达不一样，有些卡的卡间互联口头也不同，推理引擎需要针对这些特色作念定制化假想。“咱们要简直地凭据国产卡上头的特色来选咱们的杀青决策，而不是说看英伟达上头有这个精度就选这个精度。”

“咱们将合手续深耕AI基础要道边界，坚合手中枢本事自主可控，约束迭代赤兔推理引擎对国产芯片的适配才调，完善AI Ping评测与路由干事，联动国产算力、国产模子、行业诈欺等产业链伙伴，打造高效、普惠、安全的国产AI基础要道体系，反应国度‘东说念主工智能+’举止，以本事翻新鼓吹中国AI产业高质地发展。”翟季冬说。

新京报贝壳财经首席记者罗亦丹编著陈莉校对柳宝庆尊享奢华赌场与独特娱乐体验

尊享奢华赌场与独特娱乐体验 清程极智翟季冬: token也有“质地问题”

尊享奢华赌场与独特娱乐体验清程极智翟季冬: token也有“质地问题”