阿里云百炼平台近期迎来重大更新,正式推出了Qwen2.5-Turbo模型,为所有用户开放调用API接口。这一创新举措不仅将百万tokens的处理费用降至0.3元,还慷慨地赠送每位用户1000万tokens的免费额度。
Qwen2.5-Turbo模型以其卓越的能力脱颖而出,支持处理长达100万的超长上下文,相当于100万英文单词或150万汉字的规模。在多个长文本评测集中,其性能表现甚至超越了GPT-4,展现出强大的竞争力。
该模型的应用场景广泛,包括长篇小说深入理解、大型代码仓库的辅助开发以及多篇学术论文的阅读理解等。用户能够一次性处理10本长篇小说、150小时的演讲稿或3万行代码,极大地提升了工作效率。
具体而言,Qwen2.5-Turbo在超长文本检索任务中表现出色,1M长度的文本检索准确率高达100%。在长文本评测集RULER上,它获得了93.1的高分,再次证明了其超越GPT-4的实力。在LV-eval、LongBench-Chat等更贴近真实场景的长文本任务中,Qwen2.5-Turbo也在多个维度上超越了GPT-4o-mini。
Qwen2.5-Turbo在短文本基准测试中的表现同样亮眼。在MMU、LiveBench等测试中,它显著超越了之前上下文长度为1M tokens的开源模型,展现出全面的优秀性能。
在推理速度方面,Qwen2.5-Turbo也进行了大幅优化。团队通过采用稀疏注意力机制,成功将注意力部分的计算量压缩了约12.5倍。这使得处理1M tokens上下文时的首字返回时间从4.9分钟大幅缩短至68秒,速度提升了4.3倍。
尽管Qwen2.5-Turbo在长文本任务处理方面取得了显著成就,但通义千问团队并未满足于此。他们坦言,长文本任务处理仍面临诸多挑战,并表示将不断探索长序列人类偏好对齐、优化推理效率以及研发更大、更强的长文本模型,以持续提升用户体验。