无 Tokenizer 时代将至？H-Net 用动态分块挑战 Transformer

7月12日发布在AI

Tokenization一直是实现真正端到端语言模型的最后一道障碍。我们能摆脱它吗？可能性正在变得无限大。

最近，Mamba作者之一的Albert Gu参与发表了一篇名为《Dynamic Chunking for End-to-End Hierarchical Sequence Modeling》的论文，提出了分层网络H-Net。这种模型用内部的动态分块过程取代了tokenization，能自动发现并操作有意义的数据单元。X平台知名博主Rohan Paul评价道：“这一研究预示着Tokenizers正在退场，智能字节分块（Smart Byte Chunks）开始登场。或许无需Tokenizer训练的时代真的要来了——可能性无限大。”

H-Net：无Tokenizer的端到端分层网络

H-Net是一种端到端的分层网络，通过递归、数据依赖的动态分块（DC）过程压缩原始数据。它在保持与token化流程同等效率的同时，用从数据中学习的、感知内容且依赖上下文的分割方式，替代了手工启发式方法，显著提升了建模能力。

分层处理的三步流程

H-Net采用分层架构，工作流程分为三个步骤：

• 精细处理：先用小型编码器网络处理原始数据（如逐个字节或字符）；

• 压缩抽象：将数据压缩下采样后，交给主网络（可理解为核心部分）处理；

• 还原输出：最后上采样并通过解码器还原到原始精度。

这种设计形成了天然的认知分层——外层捕捉细粒度模式，内层处理抽象概念。关键在于，主网络包含大部分参数，且能适配任何标准架构，比如Transformer或状态空间模型（SSM）。

动态分块：H-Net的核心

H-Net的核心是动态分块（DC）机制，它位于主网络与编码器/解码器网络之间，用于学习数据分割方式，同时使用标准的可微优化方法。DC由两种互补技术组成：

• 路由模块：通过相似度评分预测相邻元素之间的边界；

• 平滑模块：使用路由器的输出插值表示，减弱不确定边界的影响，显著提高学习能力。

结合新的辅助损失函数，并利用现代基于梯度的离散选择学习技术，DC让H-Net能以完全端到端的方式学习如何压缩数据。

信号传播优化

为提高端到端优化过程中的稳定性和可扩展性，研究还引入了几种架构和训练技术：一是精心布置投影层和归一化层，平衡交互子网络之间的信号传播；二是根据每层的维度和有效批次大小调整优化参数。

总体而言，H-Net学习了与主干网络联合优化的分割策略，能基于上下文信息动态将输入向量压缩成有意义的数据块。它也是首个真正的端到端、无tokenizer的语言模型——通过动态分块阶段，字节级的H-Net在超过10亿参数规模下，达到了与强大的BPE token化Transformer相当的困惑度和下游性能。

从实际表现看，动态分块模块自然地将数据压缩到与BPE tokenizer相似的分辨率（每块4.5-5字节），且无需任何外部监督或启发式方法，就能定性学习到有意义的边界。

实验结果：H-Net性能全面超越

实验中，研究团队在匹配计算资源和数据量的条件下，对不同模型进行了测试，结果显示H-Net优势显著。

模型规模与性能对比

在Large（760M参数）和XL（1.3B参数）规模下，所有分层模型（如SpaceByte++、H-Net变体）都优于各向同性模型（如Transformer、MambaByte、LlamaByte）；动态分块比BPE tokenizers更强大，且比其他分块策略更有效。其中，H-Net的2-stage变体在两种规模下均持续优于1-stage，体现了更深层次结构的有效性。

在较大规模上，各向同性模型性能远逊于分层模型。MambaByte明显优于LlamaByte；SpaceByte逊色于SpaceByte++，验证了在外部网络中使用Mamba的有效性；SpaceByte++又不及H-Net（space），表明改进信号传播技术的价值；H-Net（space）性能与BPE Transformer相当，印证了数据依赖分块策略与分层架构的效果。

下游任务零样本表现

在多个下游基准测试中，SpaceByte++、H-Net（space）和H-Net（1-stage）在大规模上与BPE Transformer性能接近，在XL规模上甚至略有超越。其中H-Net（2-stage）在Large规模下平均准确率达55.5，XL规模下达58.2，表现最为突出。

鲁棒性测试

在HellaSwag上的鲁棒性评估显示，所有字节级模型比基于tokenizer的Transformer更能抵抗 adversarial文本输入。H-Net（2-stage）在文本扰动中表现出显著增强的鲁棒性，在所有噪声类型上的平均准确率最高，鲁棒性得分也最高。在Large规模下，其平均准确率达38.0，鲁棒性得分39.0；XL规模下平均准确率40.9，鲁棒性得分42.8。

跨语言与多模态优势

在中文和代码建模中，H-Net（2-stage）表现优于H-Net（space）和BPE Transformer。在中文上，H-Net（2-stage）的验证BPB（Bits-per-byte）更低，下游任务准确率更高；在代码上，H-Net（2-stage）与H-Net（space）性能接近，且均显著优于Transformer。

对于DNA序列建模，H-Net模型在数据量仅为3.6倍的情况下，就能达到与各向同性模型相似的性能，这一结论适用于两种主网络架构。

H-Net通过动态分块机制，打破了传统tokenization的限制，实现了真正的端到端分层序列建模。它在性能、鲁棒性和数据效率上的优势，尤其在中文、代码、DNA等tokenization效果较弱的领域，让“无Tokenizer时代”的到来充满可能。

Albert Gu还撰写了博客文章，介绍H-Net的幕后故事和更多见解，感兴趣可访问：https://goombalab.github.io/blog/2025/hnet-past/ 。更多细节也可参考原论文（地址：https://arxiv.org/pdf/2507.07955v1 ）。