Unigram Language Model (ULM)
发表于|更新于|大模型LLM
|总字数:0|阅读时长:1分钟|浏览量:
文章作者: Wang Tao
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 TeachCraft Blog!
相关推荐
2026-02-20
分词算法BPE
Byte Pair Encoding (BPE) 概念及其原理 简介Byte Pair Encoding (BPE) 是 NLP 中最重要的编码方式之一,它的有效性已被 GPT-2、RoBERTa、XLM、FlauBERT 等强大的语言模型所证实。 初识 BPEBPE 是一种简单的数据压缩算法,它在 1994 年发表的文章”A New Algorithm for Data Compression”中被首次提出。 核心思想 BPE 每一步都将最常见的一对相邻数据单位替换为该数据中没有出现过的一个新单位,反复迭代直到满足停止条件。 压缩示例假设我们有需要编码(压缩)的数据 aaabdaaabac。 相邻字节对 aa 最常出现,用新字节 Z 替换 结果:ZabdZabac,其中 Z = aa 下一个常见字节对是 ab,用 Y 替换 结果:ZYdZYac,其中 Z = aa,Y = ab 继续递归编码 ZY 为 X 最终结果:XdXac,其中 X = ZY,Y = ab,Z = aa 无法进一步压缩,因为没有重复出现的字节对 解码:反向执行以上过程即可还...
2026-02-20
WordPiece 分词算法原理
WordPiece 分词算法 Google BERT 的核心分词技术 简介WordPiece 是 Google 在 2016 年为了解决神经机器翻译问题提出的分词算法,后来因为成为了 BERT 的默认分词方案而彻底走红。自此之后,很多基于 BERT 的 Transformer 模型都复用了这种方法,比如 DistilBERT、MobileBERT、Funnel Transformers 和 MPNET。 初识 WordPiece如果说 BPE 是单纯的统计学家(看数量),那么 WordPiece 就像是一个概率学家(看概率)。 核心思想 WordPiece 的核心目标:最大化训练数据的似然概率 与 BPE 的贪心合并策略不同,WordPiece 采用概率模型来选择如何合并子词。 WordPiece vs BPE:核心区别 维度 BPE WordPiece 合并逻辑 统计最频繁的字节对 最大化训练数据似然概率 选择标准 频率最高 最大化似然增量(PMI) 子词标记 词首加 Ġ (GPT 风格) 非词首加 ## 分词策略 贪心匹配 最长匹配 应用模...
评论
公告
欢迎来到我的博客!这里记录了我的技术学习笔记和项目经验。欢迎一起交流学习!✨
