Tokenization一直是实现真正端到端语言模型的最后一道障碍。我们能摆脱它吗?可能性正在变得无限大。
最近,Mamba作者之一的Albert Gu参与发表了一篇名为《Dynamic Chunking for End-to-End Hierarchical Sequence Modeling》的论文,提出了分层网络H-Net。这种模型用内部的动态分块过程取代了tokenization,能自动发现并操作有意义的数据单元。X平台知名博主Rohan Paul评价道:“这一研究预示着Tokenizers正在退场,智能字节分块(Smart Byte Chunks)开始登场。或许无需Tokenizer训练的时代真的要来了——可能性无限大。”
H-Net是一种端到端的分层网络,通过递归、数据依赖的动态分块(DC)过程压缩原始数据。它在保持与token化流程同等效率的同时,用从数据中学习的、感知内容且依赖上下文的分割方式,替代了手工启发式方法,显著提升了建模能力。
H-Net采用分层架构,工作流程分为三个步骤:
• 精细处理:先用小型编码器网络处理原始数据(如逐个字节或字符);
• 压缩抽象:将数据压缩下采样后,交给主网络(可理解为核心部分)处理;
• 还原输出:最后上采样并通过解码器还原到原始精度。
这种设计形成了天然的认知分层——外层捕捉细粒度模式,内层处理抽象概念。关键在于,主网络包含大部分参数,且能适配任何标准架构,比如Transformer或状态空间模型(SSM)。
H-Net的核心是动态分块(DC)机制,它位于主网络与编码器/解码器网络之间,用于学习数据分割方式,同时使用标准的可微优化方法。DC由两种互补技术组成:
• 路由模块:通过相似度评分预测相邻元素之间的边界;
• 平滑模块:使用路由器的输出插值表示,减弱不确定边界的影响,显著提高学习能力。
结合新的辅助损失函数,并利用现代基于梯度的离散选择学习技术,DC让H-Net能以完全端到端的方式学习如何压缩数据。
为提高端到端优化过程中的稳定性和可扩展性,研究还引入了几种架构和训练技术:一是精心布置投影层和归一化层,平衡交互子网络之间的信号传播;二是根据每层的维度和有效批次大小调整优化参数。
总体而言,H-Net学习了与主干网络联合优化的分割策略,能基于上下文信息动态将输入向量压缩成有意义的数据块。它也是首个真正的端到端、无tokenizer的语言模型——通过动态分块阶段,字节级的H-Net在超过10亿参数规模下,达到了与强大的BPE token化Transformer相当的困惑度和下游性能。
从实际表现看,动态分块模块自然地将数据压缩到与BPE tokenizer相似的分辨率(每块4.5-5字节),且无需任何外部监督或启发式方法,就能定性学习到有意义的边界。
实验中,研究团队在匹配计算资源和数据量的条件下,对不同模型进行了测试,结果显示H-Net优势显著。
在Large(760M参数)和XL(1.3B参数)规模下,所有分层模型(如SpaceByte++、H-Net变体)都优于各向同性模型(如Transformer、MambaByte、LlamaByte);动态分块比BPE tokenizers更强大,且比其他分块策略更有效。其中,H-Net的2-stage变体在两种规模下均持续优于1-stage,体现了更深层次结构的有效性。
在较大规模上,各向同性模型性能远逊于分层模型。MambaByte明显优于LlamaByte;SpaceByte逊色于SpaceByte++,验证了在外部网络中使用Mamba的有效性;SpaceByte++又不及H-Net(space),表明改进信号传播技术的价值;H-Net(space)性能与BPE Transformer相当,印证了数据依赖分块策略与分层架构的效果。
在多个下游基准测试中,SpaceByte++、H-Net(space)和H-Net(1-stage)在大规模上与BPE Transformer性能接近,在XL规模上甚至略有超越。其中H-Net(2-stage)在Large规模下平均准确率达55.5,XL规模下达58.2,表现最为突出。
在HellaSwag上的鲁棒性评估显示,所有字节级模型比基于tokenizer的Transformer更能抵抗 adversarial文本输入。H-Net(2-stage)在文本扰动中表现出显著增强的鲁棒性,在所有噪声类型上的平均准确率最高,鲁棒性得分也最高。在Large规模下,其平均准确率达38.0,鲁棒性得分39.0;XL规模下平均准确率40.9,鲁棒性得分42.8。
在中文和代码建模中,H-Net(2-stage)表现优于H-Net(space)和BPE Transformer。在中文上,H-Net(2-stage)的验证BPB(Bits-per-byte)更低,下游任务准确率更高;在代码上,H-Net(2-stage)与H-Net(space)性能接近,且均显著优于Transformer。
对于DNA序列建模,H-Net模型在数据量仅为3.6倍的情况下,就能达到与各向同性模型相似的性能,这一结论适用于两种主网络架构。
H-Net通过动态分块机制,打破了传统tokenization的限制,实现了真正的端到端分层序列建模。它在性能、鲁棒性和数据效率上的优势,尤其在中文、代码、DNA等tokenization效果较弱的领域,让“无Tokenizer时代”的到来充满可能。
Albert Gu还撰写了博客文章,介绍H-Net的幕后故事和更多见解,感兴趣可访问:https://goombalab.github.io/blog/2025/hnet-past/ 。更多细节也可参考原论文(地址:https://arxiv.org/pdf/2507.07955v1 )。
Pixelmator Pro 3.6.18 中文版 for Mac 图像处理软件下载安装指南
屏幕分辨率调整工具 SwitchResX v4.14.1 for Mac 安装下载
0到18岁孩子选鞋避坑攻略,三大核心指标+年龄分段建议,告别扁平足风险
抱冬瓜睡觉走红:真能降温?哪些人适合?
夏季空调使用指南:空调怎么用节能又舒服
美剧《孤鸽镇 Lonesome Dove》迅雷全4集
未在手机官方应用市场登记的Android应用被拦截阻止安装的几个解决方法
Lightroom Classic 2025 直装激活版+绿色便携版(LR/LRC v14.5 图片编辑软件)百度网盘下载
10月新番一览表先行版,《一拳超人》第三季终于来了
AutoCAD如何让图纸文本自动同步更新区域面积
ThinkPad T14 Gen6锐龙版工程师本深度体验报告
谷歌Pmax广告怎么投