篇篇精彩。特别是第一篇，他构建了一个以小搏大的模型。1.56B的模型效果好于 mistral 7B。

1、

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs

[('Runlong Zhou'), ('Simon S. Du'), ('Beibin Li')]

随着语言模型（LMs）在各个领域的能力展示，它们在需要多轮交互的任务中的应用变得越来越流行。这些任务通常具有复杂的动态性，因此在有限的离线数据集上的监督微调（SFT）并不能带来良好的性能。然而，只有少数工作尝试直接在交互式决策环境中训练LMs。我们的目标是创建一种有效的方法，使用在线强化学习（RL）在这些环境中微调LMs。我们提出了Reflect-RL，这是一个双人系统，使用SFT和在线RL来微调LM，其中一个冻结的反射模型（玩家）协助策略模型（玩家）。为了为热身SFT阶段生成数据，我们使用负例生成来增强反射模型的错误纠正能力。此外，我们设计了单提示动作枚举，并应用了课程学习，以允许策略模型更高效地学习。从经验上，我们验证了Reflect-RL在没有反射的SFT和在线RL中表现更好。测试结果表明，使用Reflect-RL微调的GPT-2 XL 1.56B的性能超过了更大的开源LMs，如7B的Mistral。这项工作所涉及的基准、数据集和代码是公开可用的：https://github.com/zhourunlong/Reflect-RL。

2、

GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis

[('Yueqi Xie'), ('Minghong Fang'), ('Renjie Pi'), ('Neil Gong')]

大型语言模型（LLMs）面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而，这些策略通常需要广泛且资源密集型的数据收集和训练过程。在这项研究中，我们提出了GradSafe，它通过仔细检查LLMs中关键安全参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察：LLM的损失梯度对于与合规响应配对的越狱提示在某些关键安全参数上显示出类似的模式。相比之下，安全提示导致不同的梯度模式。基于这一观察，GradSafe分析了提示（与合规响应配对）的梯度，以准确检测越狱提示。我们展示了GradSafe在不进行进一步训练的情况下应用于Llama-2时，其在检测越狱提示方面的表现超过了经过大量数据集微调的Llama Guard。这种优越的性能在零样本和适应场景中都是一致的，正如我们在ToxicChat和XSTest上的评估所证明的。源代码可在https://github.com/xyq7/GradSafe上获得。

3、

Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction

[('Yiren Jian'), ('Tingkai Liu'), ('Yunzhe Tao'), ('Chunhui Zhang'), ('Soroush Vosoughi'), ('Hongxia Yang')]

在本文中，我们介绍了EVL_Gen，这是一个为高计算需求的视觉条件语言生成模型预训练而设计的简化框架，利用冻结的预训练大型语言模型（LLMs）。视觉-语言预训练（VLP）的传统方法通常涉及一个两阶段的优化过程：一个初始的资源密集型阶段，专门用于通用视觉-语言表示学习，重点是提取和整合相关的视觉特征。随后是一个强调视觉和语言模态之间端到端对齐的后续阶段。我们的新颖一阶段、单损失框架通过在训练期间逐步合并相似的视觉标记来绕过计算密集型的第一阶段训练，同时避免BLIP-2类型模型单阶段训练引起的模型崩溃。逐步合并过程有效地浓缩了视觉信息，同时保持了语义丰富性，从而实现了快速收敛，而不损害性能。我们的实验结果表明，我们的方法加速了视觉-语言模型的训练，加速了5倍，而对整体性能没有明显影响。此外，我们展示了我们的模型如何仅使用1/10的数据就显著缩小了与当前视觉-语言模型的性能差距。最后，我们展示了我们的图像-文本模型如何通过新颖的软注意力时间标记上下文化模块无缝适应视频条件语言生成任务。代码可在\url{https://github.com/yiren-jian/EVLGen}上获得。

4、

A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus

[('Eduard Poesina'), ('Cornelia Caragea'), ('Radu Tudor Ionescu')]

自然语言推理（NLI）是识别句子对之间蕴含关系的任务，作为自然语言理解的代理，这是一个积极研究的领域。尽管这项任务在构建对话代理和改进文本分类、机器翻译以及其他自然语言处理任务中具有相关性，据我们所知，目前还没有公开可用的罗马尼亚语NLI语料库。为此，我们介绍了第一个罗马尼亚语NLI语料库（RoNLI），包含58K训练句子对，这些是通过远程监督获得的，以及6K验证和测试句子对，这些是手动标注了正确标签的。我们使用基于远程学习的多种机器学习方法进行实验，从基于词嵌入的浅层模型到基于变换器的神经网络，以建立一组有竞争力的基线。此外，我们通过采用基于数据制图的新课程学习策略来改进最佳模型。我们的语料库和代码可以在https://github.com/Eduard6421/RONLI上获得，以重现基线。

5、

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation

[('Dayou Du'), ('Yijia Zhang'), ('Shijie Cao'), ('Jiaqi Guo'), ('Ting Cao'), ('Xiaowen Chu'), ('Ningyi Xu')]

大型语言模型（LLMs）的扩展在自然语言处理领域取得了令人印象深刻的进步，但同时也带来了显著的部署挑战。权重量化已成为广泛接受的解决方案，以减少内存和计算需求。本文介绍了BitDistiller，这是一个框架，它将量化感知训练（QAT）与知识蒸馏（KD）相结合，以在超低精度（低于4位）下提高LLMs的性能。具体来说，BitDistiller首先采用定制的不对称量化和裁剪技术，最大限度地保持量化权重的保真度，然后提出一种新颖的基于置信度的Kullback-Leibler散度（CAKLD）目标，以自我蒸馏的方式使用，以实现更快的收敛和更优越的模型性能。实证评估表明，BitDistiller在3位和2位配置上显著超过了现有方法，在通用语言理解和复杂推理基准测试上都有出色的表现。值得注意的是，BitDistiller被证明更具成本效益，需要更少的数据和训练资源。代码可在https://github.com/DD-DuDa/BitDistiller上获得。

6、

Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances

[('Hanlei Zhang'), ('Hua Xu'), ('Fei Long'), ('Xin Wang'), ('Kai Gao')]

发现多模态话语的语义对于理解人类语言和增强人机交互至关重要。现有的方法在利用非语言信息来辨识无监督场景中的复杂语义方面存在限制。本文介绍了一种新颖的无监督多模态聚类方法（UMC），为该领域做出了开创性的贡献。UMC引入了一种独特的方法来构建多模态数据的增强视图，然后使用这些视图进行预训练，以建立后续聚类的初始化良好表示。提出了一种创新策略，通过每个样本最近邻的密度动态选择高质量样本作为表示学习的指导。此外，它能够自动确定每个聚类中top-K参数的最佳值，以优化样本选择。最后，使用高质量和低质量样本来学习有助于有效聚类的表示。我们在基准多模态意图和对话行为数据集上构建了基线。UMC在聚类指标上比最先进的方法取得了2-6%的显著提高，标志着在这一领域的首次成功尝试。完整的代码和数据可在https://github.com/thuiar/UMC上获得。

ACL2024 paper with code1：以小搏大1.56B的模型效果好于 mistral 7B