DC娱乐网

辅导男朋友转算法岗第38天|上下文窗口分割

这一类方法通过将上下文分割成段,并用滑动窗口的方法来处理长上下文。今天主要讨论了以下三种技术: [桃子R]PCW(并行上下文窗口):将长上下文分割成段,使用滑动窗口处理,但这种方法可能导致解码注意力分散。 [桃子R]NBCE(朴素贝叶斯上下文扩展):基于贝叶斯公式,通过独立假设处理长上下文,但可能在比较长的文本中输出不准确。 [桃子R]Streaming-LLM(流式语言模型):通过保留注意力汇聚和最近的token处理长文本,但计算复杂度较高。