研究

Research

W1-4B-dLLM-Base:强大的语言模型不必是自回归的

W1-4B-dLLM-Base — Powerful language modeling does not have to be autoregressive.

我们开源的首个扩散语言基座。48 层扩散 Transformer、完全双向注意力、从预训练开始就以扩散为第一性原理 —— 展示了稳定的训练动力学、真实的并行生成、潜空间思考与自我修正的清晰迹象。

Why mask diffusion does not work

为什么掩码扩散不奏效:双向注意力与并行生成,为什么在实践中难以兑现。

掩码扩散(mask diffusion)允诺了扩散语言模型相对自回归的两大优势 —— 并行生成与双向注意力。我们系统性地剖析了这两个允诺在训练与推理中遇到的本质困境,并给出针对性的训练与推理改进方案。