31 May

关于NBCE方法的一些补充说明和分析

By 苏剑林 | 2023-05-31 | 44346位读者 |

上周在《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》中，我们介绍了一种基于朴素贝叶斯来扩展LLM的Context长度的方案NBCE（Naive Bayes-based Context Extension）。由于它有着即插即用、模型无关、不用微调等优点，也获得了一些读者的认可，总的来说目前大家反馈的测试效果还算可以。

当然，部分读者在使用的时候也提出了一些问题。本文就结合读者的疑问和笔者的后续思考，对NBCE方法做一些补充说明和分析。

方法回顾 #

假设$T$为要生成的token序列，$S_1,S_2,\cdots,S_n$是给定的若干个Context，我们需要根据$S_1,S_2,\cdots,S_n$生成$T$，那么就需要估计$p(T|S_1, S_2,\cdots,S_n)$。根据朴素贝叶斯思想，我们得到
\begin{equation}\log p(T|S_1, S_2,\cdots,S_n) = \color{red}{(\beta + 1)\overline{\log p(T|S)}} - \color{green}{\beta\log p(T)} + \color{skyblue}{\text{常数}}\label{eq:nbce-2}\end{equation}
其中$\beta = n - 1$，$\overline{\log p(T|S)} = \frac{1}{n}\sum\limits_{k=1}^n \log p(T|S_k)$，细节请参考上一篇文章。NBCE做了两点改动：1、将$\beta$作为超参数来调；2、将$\overline{\log p(T|S)}$换成一般的Pooling方法$\mathcal{P}$。结果变为
\begin{equation}\log p(T|S_1, S_2,\cdots,S_n) = \color{red}{(\beta + 1)\mathcal{P}[\log p(T|S)]} - \color{green}{\beta\log p(T)} + \color{skyblue}{\text{常数}}\label{eq:nbce-3}\end{equation}
最后，NBCE选取的Pooling方案为“取最小熵者”：
\begin{equation}\begin{aligned}
&\mathcal{P}[\log p(T|S)] = \log p(T|S_{\color{red}{k}}) \\[5pt]
&\color{red}{k} = \mathop{\text{argmin}} \big\{H_1,H_2,\cdots,H_n\big\} \\[5pt]
&H_i = -\sum_T p(T|S_i)\log p(T|S_i)
\end{aligned}\label{eq:min-h}\end{equation}

截断预测 #

式$\eqref{eq:nbce-2}$是标准的朴素贝叶斯结果，但笔者按照它实现时，发现随着$n$的增大，式$\eqref{eq:nbce-2}$的效果慢慢变差直至完全乱码，所以反复调整后，最终选取“取最小熵者”作为NBCE的Pooling方案。但后来仔细一想，式$\eqref{eq:nbce-2}$的这个表现是不正常的，因为朴素贝叶斯的唯一假设是Context之间相互独立，而我所测试的Context是随机找的若干篇新闻，一定程度上满足这个假设的，所以式$\eqref{eq:nbce-2}$再怎么差也不至于完全乱码才对。

百思不得其解之际，微信上@孔某人提醒：语言模型的训练标签都是One-Hot，所以预测结果除了头部（概率最高的部分）外其实都是不可信的。这个提示可谓是一针见血，让答案瞬间水落石出了：由于式$\eqref{eq:nbce-2}$包含了$-\beta\log p(T)$这一项，它会放大尾部的预测结果，如果尾部的预测结果不可靠，那么这个放大作用甚至会完全打乱头部的准确结果。为什么它不会影响“取最小熵者”呢？因为最小熵的结果头部概率往往更大，尾部概率更小，所以即便$-\beta\log p(T)$这一项放大了尾部，也依然无法胜过头部；而对于式$\eqref{eq:nbce-2}$来说，它是所有预测结果的平均，则会弱化头部，以至于加上$-\beta\log p(T)$后尾部胜过了头部。

有了这个线索，解决方法也就很明显了，给每个预测结果都加上Top-P或者Top-K截断就行，在Github的代码中，笔者选的是Top-P截断。

无穷处理 #

然而，事情还没完，经过截断后，$\log p(T|S_k)$和$\log p(T)$的尾部都变成了$-\infty$，这时候式$\eqref{eq:nbce-2}$或式$\eqref{eq:nbce-3}$都有可能出现$(-\infty)-(-\infty)$的无意义运算。总的来说，有下面几种情况：
\begin{array}{c|cc|c}
\hline
& \log p(T|S_k) & \log p(T) & \log p(T|S_k) - \log p(T) \\
\hline
\text{情况一} & > -\infty & > -\infty & > -\infty\\
\text{情况二} & > -\infty & = -\infty & = +\infty \\
\text{情况三} & = -\infty & > -\infty & = -\infty \\
\text{情况四} & = -\infty & = -\infty & \text{NaN}\\
\hline
\end{array}
其中，“情况一”和“情况三”能正常运算，“情况二”虽然也能正常运算，但其结果正无穷是不合理的，“情况四”则是非良定的无意义运算，也就是说，我们需要想办法修正“情况二”和“情况四”，这两种情况正好对应$\log p(T)=-\infty$，所以我们将式$\eqref{eq:nbce-3}$改为：
\begin{equation}\log p(T|S_1, S_2,\cdots,S_n) =\left\{
\begin{aligned}
&\color{red}{\mathcal{P}[\log p(T|S)]}, \quad \text{如果}\color{green}{\log p(T) = -\infty} \\[5pt]
&\color{red}{(\beta + 1)\mathcal{P}[\log p(T|S)]} - \color{green}{\beta\log p(T)}, \quad \text{其他}\\
\end{aligned}\right\} + \color{skyblue}{\text{常数}}\label{eq:nbce-4}\end{equation}
经过上述处理后，标准的朴素贝叶斯式$\eqref{eq:nbce-2}$也能输出正常结果了（虽然最终效果还是不如取最小熵，但至少不会乱码了），并且修改后的代码对Pooling方式和$\beta$都更加鲁棒。

转移概率 #

当用于回答一些观点型问题或者偏向自由创作的问题时，NBCE可能会出现在Context中反复跳转的问题。具体来说，就是模型并没有自信地注意到某个Context中，所以$H_1,H_2,\cdots,H_n$之间相差不大，于是式$\eqref{eq:min-h}$中的$\mathop{\text{argmin}}$结果不稳定，每步生成都选取到了不同的Context上，导致生成结果语义上的不连续甚至完全和Context不相关，加剧LLM的“幻觉”现象。

为了缓解这个问题，我们可以模仿转移概率的概念，适当给上一步所选的Context加权，让模型“非必要不跳转”，具体做法是引入参数$\eta > 0$，将式$\eqref{eq:min-h}$改为
\begin{equation}\color{red}{k} = \mathop{\text{argmin}} \big\{H_1,\cdots,H_{k'-1},H_{k'}\color{red}{-\eta},H_{k'+1},\cdots,H_n\big\}\end{equation}
其中$k'$是上一步生成时选取的Context编号。这样一来，只有$H_k < H_{k'} - \eta$时才会发生Context跳转，降低了跳转概率。

以上提到的修改都已经同步到Github中：

Github: https://github.com/bojone/NBCE

适用场景 #

由于朴素贝叶斯所做的独立假设，不少读者可能会怀疑：当Context之间有明显的语义重叠时，NBCE的效果会不会明显下降？或者说，NBCE的适用场景是什么？

事实上，受限于独立假设的是标准的朴素贝叶斯，也就是式$\eqref{eq:nbce-2}$，一般化后的式$\eqref{eq:nbce-3}$和式$\eqref{eq:min-h}$已经基本上不受限于独立假设了。事实上，“取最小熵者”版本的NBCE实质就是用LLM的熵作为相似度对Context进行检索，每步生成都会更新检索结果。所以，NBCE的适用场景是：假设要预测的答案可以分为若干个片段，每个片段只依赖于一个Context。

基于这个结论，当我们只有一段长文本作为Context（比如一篇小说）时，我们可以通过有重叠的滑窗自动将长Context划分为多个短Context，而不一定需要人工分割为相对独立的片段，因为刚才的结论告诉我们，NBCE的适用场景跟Context的重叠性无关。至于为什么重叠地滑窗，则只是为了能尽可能依赖单个Context就能输出完整的结果。

以下两种场景用NBCE效果大概率是不会好的：

1、有序的Context：这是指当生成结果强烈依赖于Context的输入顺序（或者更复杂的嵌套结构）时，NBCE通常效果不好，因为NBCE保留了朴素贝叶斯的无序性，这种场景的典型例子是给小说写摘要（小说被切割为多个Context），一个治标不治本的方案是人工给每段Context加上可以识别顺序的标记，如“第xx章”；
2、耦合的Context：这是指必须要结合两个或更多Context构建输出时，NBCE效果不好，因为NBCE每次只选了一个Context，@孔某人给出了一个典型例子“已知$x > 1$，且$x < 0$，求$x$解集”，假设两个条件被分为两个Context，那么必须结合两个Context才能输出正确答案“空集”，只看单个Context无法确定是空集。

如果NBCE还要继续做下去的话，大体上也是围绕以上两个场景进行改进。

文章小结 #

本文介绍了Context长度扩展方案NBCE的一些后续更新及分析，并进一步讨论了NBCE的适用场景。

转载到请包括本文地址：https://kexue.fm/archives/9632

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (May. 31, 2023). 《关于NBCE方法的一些补充说明和分析》[Blog post]. Retrieved from https://kexue.fm/archives/9632

@online{kexuefm-9632,
        title={关于NBCE方法的一些补充说明和分析},
        author={苏剑林},
        year={2023},
        month={May},
        url={\url{https://kexue.fm/archives/9632}},
}

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯 10 评论

< NBCE：使用朴素贝叶斯扩展LLM的Context处理长度 | Naive Bayes is all you need ? >

你也许还对下面的内容感兴趣

发表你的看法

jiayi

May 31st, 2023

感谢苏神的分享，我有两个问题想请教。

1. 这篇文章提到了由于尾部不可信导致的在$p(T)$部分产生的干扰，那么这种不可信有没有可能类似地干扰求均值的部分，即$\overline{\log p(T|S)}$？个人认为这种尾部的不确定性或许会在这个均值当中更加突出，因为头部只是对部分的context是头部。

2. NBCE的思路是所有的$S_i$都是独立的，但是实际中可能会有一个综合的prompt$\hat{S}$，比如说输入了十个文段，然后加一个prompt让模型选出最符合我要求的一段。那么苏神有没有考虑对这种情况拓展NBCE？个人直观的思考是这时候的$\hat{S}$会跟$S_i$之间存在依赖关系，比如不可能给十段简历让模型给我生成一段菜谱。不过相较于苏神提到的耦合的情况，这个应该算是一种可以处理的特例。

回复评论

苏剑林发表于 May 31st, 2023

1、这个可能性是有的，所以我对$\log p(T|S_i)$和$\log p(T)$都做了截断，只不过相对来说，$\log p(T)$的负面影响应该更大；

2、朴素贝叶斯是假设所有$S_i$相互独立，但是最终的NBCE应该已经弱化了这个假设。你说的prompt，我是将它放在$T$里边的，即$T$实际上包含了prompt和要生成的结果。

这一点看代码 https://github.com/bojone/NBCE/blob/main/test.py 或者上一篇博客的示意图都很清楚。

回复评论

jiayi 发表于 June 1st, 2023

好的好的，感谢苏神

回复评论

Chatty Fish

May 31st, 2023

感谢苏老师的分享。如果输入内容虽然是嵌套结构，但是我们能确定输出内容也是嵌套结构结构，并且与输入内容一一对应，比如代码翻译任务。S1 { S2 { S3 } } } => T1 { T2 { T3 } }, 能不能先将输入转换为 S1 { d1 } , S2 { d2 }, S3 { d3 } , 并且d1,d2,d3可以表示成能够容忍的偏差，在这些条件下，应用NBCE解决Content过长的问题。

回复评论

苏剑林发表于 May 31st, 2023

看上去无法解决问题，看不出如何能保证模型生成对应的嵌套结构。

事实上序结构应该是除无序外最简单的结构了，序结构都解决不了的话，我对更复杂的嵌套结构不抱希望。

回复评论

关于NBCE方法的一些补充说明和分析 R11; AI 資訊

June 4th, 2023

[...]Read More [...]

回复评论

解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & unlimiformer & PCW & NBCE | 呱唧呱唧网

June 13th, 2023

[...]苏剑林. (May. 31, 2023). 《关于NBCE方法的一些补充说明和分析》[Blog post]. Retrieved from https://spaces.ac.cn/archives/9632[...]

回复评论

解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & unlimiformer & PCW & NBCE R11; AI 資訊

June 14th, 2023

[...]苏剑林. (May. 31, 2023). 《关于NBCE方法的一些补充说明和分析》[Blog post]. Retrieved from https://spaces.ac.cn/archives/9632[...]

回复评论

March 25th, 2024

请教一下,"NBCE的适用场景是：假设要预测的答案可以分为若干个片段，每个片段只依赖于一个Context。"
那么NBCE相比"直接对每个短Context+问题(如果没有答案则返回无)分别输入llm" 这个方式来说,岂不是一样了?仅仅是帮我选择了一个Top1最佳答案?

回复评论

苏剑林发表于 March 27th, 2024

假设同时问多个问题的情况下，如果你是指“‘单个context + 多个问题’这样逐一让模型回答，最后再让模型整合”的pipline做法，我只能说理论上也可以，但pipline的形式可能不大优雅，并且少了一个context之间相互比较，可能效果没那么好（比如有些问题模型可能根据不正确的context强行回答）。

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

关于NBCE方法的一些补充说明和分析

方法回顾 #

截断预测 #

无穷处理 #

转移概率 #

适用场景 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接