【AI视野·今日NLP 自然语言处理论文速览第六十六期】Tue, 31 Oct 2023

本文介绍: AI视野·今日CS.NLP 自然语言处理论文速览Tue, 31 Oct 2023 (showing first 100 of 141 entries)Totally 100 papers👉上期速览✈更多精彩请移步主页Daily Computation and Language PapersThe Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics Authors Ch

在这里插入图片描述

The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics
Authors Christoph Leiter, Juri Opitz, Daniel Deutsch, Yang Gao, Rotem Dror, Steffen Eger
随着参数和预训练数据数量的增加，生成式大型语言模型法学硕士已经显示出用最少或没有任务相关示例来解决任务的卓越能力。值得注意的是，法学硕士已成功用作文本生成任务中的评估指标。在此背景下，我们引入了 Eval4NLP 2023 共享任务，要求参与者探索机器翻译 MT 和摘要评估的提示和分数提取。具体来说，我们提出了一种新颖的竞赛设置，其中我们选择允许的法学硕士列表并不允许进行微调，以确保重点放在提示上。我们概述了参与者的方法，并在涵盖 MT 和摘要数据集的三个语言对的新参考免费测试集上对其进行评估。值得注意的是，尽管任务有限制，但性能最佳的系统所取得的结果与最近使用更大模型（包括 GEMBA 和 Comet Kiwi XXL）开发的无参考指标相当甚至超过。

LILO: Learning Interpretable Libraries by Compressing and Documenting Code
Authors Gabriel Grand, Lionel Wong, Matthew Bowers, Theo X. Olausson, Muxin Liu, Joshua B. Tenenbaum, Jacob Andreas
虽然大型语言模型法学硕士现在擅长代码生成，但软件开发的一个关键方面是将代码重构为可重用和可读程序库的艺术。在本文中，我们介绍了 LILO，这是一种神经符号框架，它可以迭代地合成、压缩和记录代码，以构建针对特定问题领域的库。 LILO 将 LLM 引导的程序合成与 Stitch 的自动重构方面的最新算法进步相结合，这是一个符号压缩系统，可以有效地识别大型代码语料库中的最佳 lambda 抽象。为了使这些抽象可解释，我们引入了一个自动文档 AutoDoc 过程，该过程根据上下文使用示例推断自然语言名称和文档字符串。除了提高人类可读性之外，我们发现 AutoDoc 通过帮助 LILO 的合成器解释和部署学习的抽象来提高性能。我们在字符串编辑、场景推理和图形合成的三个归纳程序综合基准上评估 LILO。

What’s “up” with vision-language models? Investigating their struggle with spatial reasoning
Authors Amita Kamath, Jack Hessel, Kai Wei Chang
最近的视觉语言 VL 模型很强大，但它们能否可靠地区分左右？我们策划了三个新的语料库来量化模型对此类基本空间关系的理解。这些测试比 VQAv2 等现有数据集更精确地隔离空间推理，例如，我们的 What sUp 基准测试包含仅改变对象空间关系的照片集，保持其身份固定（参见图 1）模型不仅必须理解狗的常见情况一张桌子，而且，同一张桌子上有同一条狗。我们评估了 18 个 VL 模型，发现所有模型都表现不佳，例如，在 VQAv2 上进行微调的 BLIP，其在 VQAv2 上接近人类同等水平，在我们的基准上达到 56 的准确度，而人类的准确度为 99。我们通过研究这种令人惊讶的行为的原因得出结论，发现 1 像 LAION 2B 这样的流行视觉语言预训练语料库几乎不包含用于学习空间关系的可靠数据，2 基本的建模干预措施（例如包含实例的加权介词或对我们的语料库进行微调）是不够的解决我们的基准带来的挑战。

Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation
Authors Qintong Li, Leyang Cui, Lingpeng Kong, Wei Bi
人类广泛参与需要创造力的开放式自然语言生成任务 NLG 的评估，因为自动指标通常与人类判断表现出较弱的相关性。大型语言模型法学硕士最近已成为人类评估的可扩展且具有成本效益的替代方案。然而，人类和法学硕士都有局限性，即固有的主观性和不可靠的判断，特别是对于需要针对不同任务要求量身定制的适应性指标的开放式任务。为了探索人类和基于 LLM 的评估者之间的协同作用，并解决开放式 NLG 任务中现有评估标准不一致的挑战，我们提出了一个协作评估管道 CoEval，包括设计任务特定标准清单和详细评估文本，其中法学硕士产生最初的想法，然后人类进行审查。我们进行了一系列实验来研究 CoEval 中法学硕士和人类之间的相互影响。结果表明，通过利用 LLM，CoEval 可以有效评估冗长的文本，从而节省大量时间并减少人工评估异常值。

Generating Medical Instructions with Conditional Transformer
Authors Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Warren Del Pinto, Goran Nenadic
获得现实世界的医疗指导对于医学研究和医疗保健质量的提高至关重要。然而，由于所表达信息的敏感性，获得真实的医疗指示往往受到限制。此外，手动标记这些用于训练和微调自然语言处理 NLP 模型的指令可能非常繁琐且昂贵。我们引入了一种新颖的特定于任务的模型架构，标签到文本转换器 textbf LT3，专门用于根据提供的标签（例如药物及其属性的词汇列表）生成合成医疗指令。 LT3 基于从 MIMIC III 数据库中提取的大量医疗指令进行训练，使模型能够生成有价值的合成医疗指令。我们通过将 LT3 与最先进的预训练语言模型 PLM T5 进行对比来评估 LT3 的性能，分析生成文本的质量和多样性。我们部署生成的合成数据来训练 SpacyNER 模型，以在 n2c2 2018 数据集上执行命名实体识别 NER 任务。实验表明，在合成数据上训练的模型在药物、频率、途径、强度和形式的标签识别方面可以达到 96 98 F1 分数。

Combining Language Models For Specialized Domains: A Colorful Approach
Authors Daniel Eitan, Menachem Pirchi, Neta Glazer, Shai Meital, Gil Ayach, Aviv Shamsian, Aviv Navon, Gil Hetz, Joseph Keshet
通用语言模型 LM 在处理特定领域的术语和术语时会遇到困难，这些术语和术语经常用于医学或工业环境等专业领域。此外，他们经常发现解释将通用语言与专业术语混合在一起的混合语音具有挑战性。这对在这些特定领域内运行的自动语音识别系统提出了挑战。在这项工作中，我们介绍了一种将特定领域或辅助 LM 集成到通用 LM 中的新颖方法。该策略涉及对每个单词进行标记或着色，以指示其与一般或特定领域的语言模型的关联。我们开发了一种优化算法，增强了波束搜索算法，以有效处理涉及彩色词的推理。我们的评估表明，这种方法在将术语整合到语言任务中非常有效。

Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding
Authors Bram M.A. van Dijk, Tom Kouwenhoven, Marco R. Spruit, Max J. van Duijn
目前的大型语言模型法学硕士在生成语法正确、流畅的文本方面的能力是无与伦比的。法学硕士正在迅速出现，关于法学硕士能力的争论已经开始，但反思却滞后了。因此，在这篇立场文件中，我们首先聚焦于争论，并批判性地评估在对法学硕士能力的批评中反复出现的三点：法学硕士只鹦鹉学舌地模仿训练数据中的统计模式；法学硕士掌握形式语言能力，而不是功能性语言能力；以及法学硕士掌握的语言能力。法学硕士的学习无法指导人类语言的学习。根据经验和理论论证，我们表明这些观点需要更多的细微差别。其次，我们概述了法学硕士的真实理解和意向性问题的务实视角。理解和意向性属于不可观察的心理状态，我们将其归因于其他人类，因为它们具有实用价值，它们使我们能够从复杂的基础机制中抽象出来并有效地预测行为。

Interpretable-by-Design Text Classification with Iteratively Generated Concept Bottleneck
Authors Josh Magnus Ludan, Qing Lyu, Yue Yang, Liam Dugan, Mark Yatskar, Chris Callison Burch
深度神经网络在文本分类任务中表现出色，但由于缺乏可解释性，它们在高风险领域的应用受到阻碍。为了解决这个问题，我们提出了文本瓶颈模型 TBM，这是一种本质上可解释的文本分类框架，可提供全局和局部解释。 TBM 不是直接预测输出标签，而是预测一组稀疏显着概念的分类值，并在这些概念值上使用线性层来生成最终预测。这些概念可以由大型语言模型法学硕士自动发现和测量，无需人工管理。在 12 个不同的数据集上，使用 GPT 4 进行概念生成和测量，我们表明 TBM 可以与已建立的黑盒基线（例如 GPT 4 Fewshot 和微调的 DeBERTa）的性能相媲美，但无法与微调的 GPT 3.5 相比。

Explaining Tree Model Decisions in Natural Language for Network Intrusion Detection
Authors Noah Ziems, Gang Liu, John Flanagan, Meng Jiang
利用机器学习的网络入侵检测 NID 系统在用于检测恶意网络流量时已被证明具有强大的性能。决策树尤其在性能和简单性之间提供了强有力的平衡，但要求 NID 系统的用户具备机器学习的背景知识才能解释。

Dynamics of Instruction Tuning: Each Ability of Large Language Models Has Its Own Growth Pace
Authors Chiyu Song, Zhanchao Zhou, Jianhao Yan, Yuejiao Fei, Zhenzhong Lan, Yue Zhang
指令调优是一种新兴的方法，可以激发大型语言模型法学硕士的一般智能。然而，指令数据的创建在很大程度上仍然是启发式的，导致现有数据集的质量和分布存在显着差异。从这些数据集中得出的实验结论也不一致，一些研究强调扩展指令数量的重要性，而另一些研究则认为有限数量的样本就足够了。为了更好地理解数据构建准则，我们将关注点从整体模型性能深化到各个底层能力的增长，例如创意写作、代码生成和逻辑推理。我们系统地研究了数据量、参数大小和数据构建方法对各种能力发展的影响，使用数百个模型检查点 7b 到 33b，在超过 40k 的人类精选指令数据的新集合上进行完全指令调整。该数据集经过严格的质量控制，并分为十种不同的法学硕士能力。我们的研究揭示了三个主要发现：尽管数据量和参数规模直接影响模型的整体性能，但有些能力对其增长的反应更灵敏，并且可以使用有限的数据进行有效的训练，而有些能力对这些变化具有很强的抵抗力。 ii 人工整理的数据在效率上远远优于 GPT 4 的合成数据，并且可以随着数据量的增加不断增强模型性能，但这是合成数据无法实现的。 iii 指令数据带来强大的交叉能力泛化，域外数据的评估结果反映了前两个观察结果。

KeyGen2Vec: Learning Document Embedding via Multi-label Keyword Generation in Question-Answering
Authors Iftitahu Ni mah, Samaneh Khoshrou, Vlado Menkovski, Mykola Pechenizkiy
将文档表示为高维嵌入空间，同时保留文档源之间的结构相似性，一直是许多文本表示学习工作的最终目标。然而，当前的嵌入模型主要依赖于标签监督的可用性来提高嵌入结果的表达能力。

LLMaAA: Making Large Language Models as Active Annotators
Authors Ruoyu Zhang, Yanzeng Li, Yongliang Ma, Ming Zhou, Lei Zou
自然语言处理 NLP 中流行的监督学习方法非常需要数据，需要大量高质量的注释数据。实际上，获取此类数据是一项成本高昂的工作。最近，大型语言模型 LLM 的优异的少数镜头性能推动了数据集生成的发展，其中训练数据仅由 LLM 合成。然而，这种方法通常存在质量低下的问题，并且需要更多数量级的标记数据才能获得令人满意的性能。为了充分发挥 LLM 的潜力并利用大量未标记数据，我们提出了 LLMaAA，它将 LLM 作为注释器，并将其放入主动学习循环中，以确定有效注释的内容。为了使用伪标签进行鲁棒学习，我们优化了注释和训练过程 1 我们从一个小型演示池中抽取了 k 个 NN 示例，就像上下文示例一样，2 我们采用示例重新加权技术来为训练样本分配可学习的权重。与之前的方法相比，LLMaAA 兼具高效性和可靠性。我们对命名实体识别和关系提取这两个经典的 NLP 任务进行了实验和分析。

Improving Input-label Mapping with Demonstration Replay for In-context Learning
Authors Zhuocheng Gong, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Rui Yan
在上下文学习中，ICL 是大型自回归语言模型的一项新兴功能，其中一些输入标签演示被附加到输入中，以增强模型对下游 NLP 任务的理解，而无需直接调整模型参数。 ICL 的有效性可以归因于大型语言模型法学硕士强大的语言建模能力，这使他们能够基于上下文演示来学习输入和标签之间的映射。尽管取得了有希望的结果，但 ICL 中语言建模的因果性质限制了注意力只能向后，即令牌仅关注其先前的令牌，无法捕获完整的输入标签信息并限制模型的性能。在本文中，我们提出了一种新颖的 ICL 方法，称为带有滑动因果注意力的重复演示（RdSca）。具体来说，我们复制后面的演示并将它们连接到前面，使模型即使在因果限制下也可以观察后面的信息。此外，我们引入了滑动因果注意力，它可以定制因果注意力以避免信息泄漏。实验结果表明，我们的方法显着改善了 ICL 演示中的输入标签映射。

CreoleVal: Multilingual Multitask Benchmarks for Creoles
Authors Heather Lent, Kushal Tatariya, Raj Dabre, Yiyi Chen, Marcell Fekete, Esther Ploeger, Li Zhou, Hans Erik Heje, Diptesh Kanojia, Paul Belony, Marcel Bollmann, Lo c Grobol, Miryam de Lhoneux, Daniel Hershcovich, Michel DeGraff, Anders S gaard, Johannes Bjerva
克里奥尔语代表了一个未被充分开发和边缘化的语言群体，可用于 NLP 研究的资源很少。虽然克里奥尔语和其他资源丰富的语言之间的谱系联系意味着迁移学习的巨大潜力，但由于缺乏注释数据，这种潜力受到了阻碍。在这项工作中，我们提出了 CreoleVal，这是一个跨越 8 个不同 NLP 任务的基准数据集集合，涵盖多达 28 种克里奥尔语语言，它是用于克里奥尔语机器理解、关系分类和机器翻译的全新开发数据集的集合，此外还有一些现有基准的实用门户。对于每个基准，我们在零样本设置中进行基线实验，以进一步确定克里奥尔语迁移学习的功能和局限性。最终，CreoleVal 的目标是增强 NLP 和计算语言学中克里奥尔语的研究。

InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models
Authors Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu
生成语言模型通常通过预测下一个标记（即给定先前标记的子词词短语）在大型文本语料库上进行预训练。最近的工作证明了大型生成语言模型在下游任务上的令人印象深刻的性能。然而，现有的生成语言模型通常忽略了训练过程中文本语料库的固有挑战，即频繁标记和不频繁标记之间的不平衡。它可以导致语言模型以常见且易于学习的标记为主，从而忽略不常见且难以学习的标记。为了缓解这个问题，我们提出了信息熵损失 InfoEntropy Loss 函数。在训练过程中，它可以根据词汇表上相应预测概率分布的信息熵，动态评估待学习标记的学习难度。然后它自适应地缩放训练损失，试图引导模型更多地关注难以学习的标记。在 Pile 数据集上，我们以 436M、1.1B 和 6.7B 参数的不同规模训练生成语言模型。

Constituency Parsing using LLMs
Authors Xuefeng Bai, Jialong Wu, Yulong Chen, Zhongqing Wang, Yue Zhang
选区解析是一项基本但尚未解决的自然语言处理任务。在本文中，我们探讨了最近大型语言模型法学硕士的潜力，这些模型在解决这一任务的各个领域和任务中表现出了卓越的性能。我们采用三种线性化策略将输出树转换为符号序列，以便LLM可以通过生成线性化树来解决选区解析。我们使用各种 LLM（包括 ChatGPT、GPT 4、OPT、LLaMA 和 Alpaca）进行实验，将它们的性能与最先进的选区解析器进行比较。我们的实验包括零样本、少量样本和完整的训练学习设置，并且我们在一个域内测试数据集和五个域外测试数据集上评估模型。

Mean BERTs make erratic language teachers: the effectiveness of latent bootstrapping in low-resource settings
Authors David Samuel
本文探讨了潜在引导（一种替代的自我监督技术）在预训练语言模型中的使用。与对离散子词使用自我监督的典型做法不同，潜在引导利用上下文嵌入来获得更丰富的监督信号。我们进行实验来评估这种方法对于从有限资源中获取语言知识的有效性。

A Lightweight Method to Generate Unanswerable Questions in English
Authors Vagrant Gautam, Miaoran Zhang, Dietrich Klakow
如果无法用可用信息回答问题，则用于问答 QA 的强大系统应该知道不要回答。构建执行此操作的 QA 模型的一种方法是使用由无法回答的问题组成的额外训练数据，这些数据是通过使用注释器或通过用于生成无法回答的问题的自动化方法创建的。为了表明现有自动化方法的模型复杂性是不合理的，我们研究了一种更简单的数据增强方法，用于用英语生成无法回答的问题，对可回答的问题执行反义词和实体交换。与现有技术相比，使用我们的免训练和轻量级策略生成的数据在 BERT Large 的 SQuAD 2.0 数据上产生了更好的模型 1.6 F1 点，并且具有更高的人类判断相关性和可读性。我们使用不同数量的生成数据，以及使用 BERT large 的 TydiQA MinSpan 数据 9.3 F1 点，量化了我们的方法与跨多个编码器模型不进行增强相比的原始好处。

Japanese SimCSE Technical Report
Authors Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
我们报告了日语 SimCSE 的开发，即使用 SimCSE 微调的日语句子嵌入模型。由于日语句子嵌入模型缺乏可用作句子嵌入研究基线，因此我们对日语句子嵌入进行了广泛的实验，涉及 24 个预训练的日语或多语言模型、5 个监督数据集和 4 个无监督数据集。

Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs
Authors Huawen Feng, Yan Fan, Xiong Liu, Ting En Lin, Zekun Yao, Yuchuan Wu, Fei Huang, Yongbin Li, Qianli Ma
尽管大型语言模型法学硕士最近在文本摘要方面取得了进展，但他们经常生成与原始文章实际上不一致的摘要，这被称为文本生成中的幻觉。与以前的小模型（例如 BART、T5）不同，当前的法学硕士犯的愚蠢错误较少，但犯的错误更加复杂，例如强加因果关系、添加虚假细节和过度概括等。这些幻觉很难通过传统方法检测到，这对提高文本摘要事实一致性的挑战。在本文中，我们提出了一种对抗性解耦方法来解开法学硕士 DECENT 的理解和修饰能力。此外，我们采用基于探测的参数有效技术来弥补LLM训练过程中真假敏感性的不足。这样，法学硕士就不会再对修饰和理解感到困惑，从而能够更准确地执行指令，并增强辨别幻觉的能力。

Test Suites Task: Evaluation of Gender Fairness in MT with MuST-SHE and INES
Authors Beatrice Savoldi, Marco Gaido, Matteo Negri, Luisa Bentivogli
作为 WMT 2023 测试套件共享任务的一部分，我们在本文中总结了两个测试套件 MuST SHE WMT23 和 INES 的评估结果。通过关注 en de 和 de en 语言对，我们依靠这些新创建的测试套件来调查系统翻译女性和男性性别并生成性别包容性翻译的能力。此外，我们讨论与我们的测试套件相关的指标，并通过人工评估来验证它们。我们的结果表明，系统在正确地将女性和男性性别形式转化为自然性别现象方面取得了合理且可比较的性能。

Skywork: A More Open Bilingual Foundation Model
Authors Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei L , Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
在这份技术报告中，我们介绍了 Skywork 13B，这是一系列大型语言模型 LLM，在包含超过 3.2 万亿个来自英语和中文文本的标记的语料库上进行训练。这种双语基础模型是迄今为止培训最广泛、公开发表的同等规模的法学硕士。我们引入了使用分段语料库的两阶段训练方法，分别针对通用训练和特定领域的增强训练。我们表明，我们的模型不仅在流行的基准测试中表现出色，而且在不同领域的中文建模中也取得了最先进的表现。此外，我们提出了一种新颖的泄漏检测方法，表明测试数据污染是一个紧迫的问题，值得法学硕士社区进一步调查。为了促进未来的研究，我们发布了 Skywork 13B 以及在训练过程的中间阶段获得的检查点。我们还发布了 SkyPile 语料库的一部分，该语料库包含超过 1500 亿个网络文本标记，这是迄今为止最大的高质量开放中文预训练语料库。

ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense
Authors Kankan Zhou, Eason Lai, Wei Bin Au Yeong, Kyriakos Mouratidis, Jing Jiang
人类拥有超乎常理的强大推理能力。例如，给定一张金鱼躺在空鱼缸旁边的桌子上的非传统图像，人类会毫不费力地确定鱼不在鱼缸内。然而，对于视觉语言模型来说，情况可能有所不同，其推理可能会倾向于鱼在碗里的常见场景，尽管有视觉输入。在本文中，我们引入了一种新颖的探测数据集，名为 ROME 推理，超越常识知识，以评估最先进的预训练视觉语言模型是否具有正确解释反直觉内容的推理能力。 ROME 包含的图像在颜色、形状、材料、大小和位置关系方面违背了常识。对最先进的预训练视觉语言模型的实验表明，大多数模型仍然很大程度上无法解释反直觉的场景。

Fusing Temporal Graphs into Transformers for Time-Sensitive Question Answering
Authors Xin Su, Phillip Howard, Nagib Hakim, Steven Bethard
回答长文档中的时间敏感问题需要对问题和文档中的时间进行时间推理。一个重要的悬而未决的问题是大型语言模型是否可以仅使用提供的文本文档来执行此类推理，或者它们是否可以从使用其他系统提取的附加时间信息中受益。我们通过应用现有的时间信息提取系统来构建问题和文档中的事件、时间以及时间关系的时间图来解决这个研究问题。然后，我们研究将这些图融合到 Transformer 模型中的不同方法。实验结果表明，我们提出的将时间图融合到输入文本中的方法大大增强了 Transformer 模型的时间推理能力，无论是否进行微调。

Learning to love diligent trolls: Accounting for rater effects in the dialogue safety task
Authors Michael John Ilagan
聊天机器人有产生冒犯性言论的风险，必须避免这种情况。部署后，聊天机器人持续改进的一种方法是从实时用户的反馈中获取话语标签对。然而，用户中有一些“巨魔”，他们提供带有错误标签的训练示例。为了消除训练数据的恶意攻击，之前的工作删除了具有高用户聚合交叉验证 CV 错误的训练示例。然而，CV 成本高昂，而且在协同攻击中，CV 可能会被巨魔的数量和一致性所淹没。在目前的工作中，我通过提出一种受自动论文评分 AES 方法启发的解决方案来解决这两个限制，让多个用户对每个话语进行评分，然后执行潜在类别分析 LCA 以推断正确的标签。由于 LCA 不需要 GPU 计算，因此成本低廉。

Overview of the CLAIMSCAN-2023: Uncovering Truth in Social Media through Claim Detection and Identification of Claim Spans
Authors Megha Sundriyal, Md Shad Akhtar, Tanmoy Chakraborty
在线社交媒体平台的快速发展使得内容创作和信息交流显着增加，这是非常有利的。然而，这些平台也成为传播虚假信息、宣传和假新闻的人的避风港。主张对于形成我们对世界的看法至关重要，但可悲的是，它们经常被传播虚假信息的人用来欺骗人们。为了解决这个问题，社交媒体巨头聘请内容审核员来过滤来自现实世界的虚假新闻。然而，庞大的信息量使得有效识别假新闻变得困难。因此，自动识别提出此类主张的社交媒体帖子、检查其真实性并区分可信和虚假的主张变得至关重要。作为回应，我们在 2023 年信息检索评估论坛 FIRE 2023 上提出了 CLAIMSCAN。主要目标集中在两个关键任务上：任务 A，确定社交媒体帖子是否构成主张；任务 B，精确识别帖子中构成主张的单词或短语。任务 A 收到了 40 份注册，表明了人们对这一及时挑战的浓厚兴趣和参与度。

M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
Authors Wai Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu, Kam Fai Wong
管理长序列已经成为大型语言模型法学硕士的一个重要且必要的功能。然而，如何全面、系统地评价LLM的长序列能力仍然是一个悬而未决的问题。原因之一是传统且广泛使用的基准主要由短序列组成。在本文中，我们提出了 M4LE，一种用于长上下文评估的多能力、多范围、多任务、多领域基准。 M4LE 基于多样化的 NLP 任务池，包括 36 个 NLP 数据集、11 个任务类型和 12 个领域。为了缓解自然长序列任务的稀缺性并结合多种能力评估，我们提出了一种自动方法，但人工注释可以忽略不计，将短序列任务转换为统一的长序列场景，其中法学硕士必须在长上下文中识别单个或多个相关跨度基于显式或语义提示。具体来说，该场景包括五种不同类型的能力：1显式单跨度2语义单跨度3显式多跨度4语义多跨度和5全局上下文理解。 M4LE 中生成的样本从 1k 到 8k 输入长度均匀分布。我们对 11 个成熟的法学硕士进行了系统评估，特别是那些针对长序列输入进行优化的法学硕士。我们的结果表明 1 目前的法学硕士很难理解长上下文，特别是当任务需要多跨度注意力时。 2 对于有能力的法学硕士来说，语义检索任务更加困难。 3 通过位置插值对较长文本进行微调的模型与使用神经正切内核 NTK 感知缩放方法而无需微调的模型具有相当的性能。

Building Real-World Meeting Summarization Systems using Large Language Models: A Practical Perspective
Authors Md Tahmid Rahman Laskar, Xue Yong Fu, Cheng Chen, Shashi Bhushan TN
本文研究如何使用大型语言模型法学硕士有效构建适合现实世界使用的会议摘要系统。为此，我们对各种闭源和开源 LLM（即 GPT 4、GPT 3.5、PaLM 2 和 LLaMA 2）进行了广泛的评估和比较。我们的研究结果表明，大多数闭源 LLM 的性能通常更好。然而，即使在零样本场景下，像 LLaMA 2 7B 和 13B 这样的小型开源模型仍然可以实现与大型闭源模型相当的性能。考虑到闭源模型只能通过 API 访问的隐私问题，以及使用闭源模型的微调版本相关的高成本，能够实现有竞争力的性能的开源模型更有利于工业使用。平衡性能与相关成本和隐私问题后，LLaMA 2 7B 模型看起来更适合工业用途。

Adapter Pruning using Tropical Characterization
Authors Rishabh Bhardwaj, Tushar Vaidya, Soujanya Poria
适配器是自然语言处理中广泛流行的参数高效迁移学习方法，它在预先训练的语言模型的各层之间插入可训练的模块。然而，除了一些启发式方法之外，还缺乏分析下游应用所需的适配器参数的最佳数量的研究。在本文中，我们通过研究可训练模块的热带特征，提出了一种适配器修剪方法。我们将其视为一个优化问题，旨在修剪适配器层的参数而不改变底层热带超曲面的方向。

EHRTutor: Enhancing Patient Understanding of Discharge Instructions
Authors Zihao Zhang, Zonghai Yao, Huixue Zhou, Feiyun ouyang, Hong Yu
大型语言模型作为各个领域的教育导师都取得了成功。对患者进行临床就诊教育对于患者出院后遵守治疗计划至关重要。本文介绍了 EHRTutor，这是一种创新的多组件框架，利用大型语言模型 LLM 通过对话式问答进行患者教育。 EHRTutor 首先制定与电子健康记录出院说明相关的问题。然后，它通过对话对患者进行教育，将每个问题作为测试。最后，它在对话结束时生成摘要。使用法学硕士和领域专家的评估结果表明，与基线相比，EHRTutor 明显受到青睐。

LitCab: Lightweight Calibration of Language Models on Outputs of Varied Lengths
Authors Xin Liu, Muhammad Khalifa, Lu Wang
当模型的概率估计与输出正确的实际可能性一致时，就认为模型校准良好。校准语言模型 LM 至关重要，因为它在检测和减轻幻觉（LM 的常见问题）以及构建更值得信赖的模型方面发挥着至关重要的作用。然而，流行的神经模型校准技术不太适合语言模型，因为它们在辨别答案正确性方面缺乏灵活性，而且计算成本很高。例如，温度缩放等后处理方法通常无法对候选代进行重新排序。此外，基于训练的方法需要对整个模型进行微调，但由于现代语言模型的规模不断增大，这是不切实际的。在本文中，我们提出了 LitCab，这是一种轻量级校准机制，由单个线性层组成，采用输入文本表示并操纵 LM 输出 logits。 LitCab 仅通过添加 2 个原始模型参数来改进模型校准。为了进行评估，我们构建了 CatT，这是一个由 7 个文本生成任务组成的基准，涵盖从短语到段落的响应。我们使用 Llama2 7B 测试 LitCab，它通过将平均 ECE 分数降低 20 来改进所有任务的校准。我们进一步对来自 GPT 和 LLaMA 系列的 7 个流行的开源 LM 进行了全面评估，得出以下主要发现 1 同一系列中较大的模型对短代任务的任务表现出更好的校准，但不一定对长代任务。尽管参数少得多，但与 LLaMA、Llama2 和 Vicuna 模型相比，2 GPT 系列模型显示出卓越的校准能力。

Robustifying Language Models with Test-Time Adaptation
Authors Noah Thomas McDermott, Junfeng Yang, Chengzhi Mao
大规模语言模型在许多语言任务上实现了最先进的性能。然而，它们在对抗性语言示例上失败了，这些示例是经过优化以欺骗语言模型但对人类具有相似语义的句子。虽然之前的工作重点是使语言模型在训练时保持鲁棒性，但对于大规模基础模型来说，鲁棒性的再训练通常是不现实的。相反，我们建议使语言模型在测试时保持稳健。通过根据屏蔽词的预测动态调整输入句子，我们证明我们可以逆转许多语言对抗攻击。由于我们的方法不需要任何训练，因此它适用于测试时的新任务，并且可以适应新的对抗性腐败。

Poisoning Retrieval Corpora by Injecting Adversarial Passages
Authors Zexuan Zhong, Ziqing Huang, Alexander Wettig, Danqi Chen
密集检索器在各种信息检索任务中都取得了最先进的性能，但是它们可以在多大程度上安全地部署在现实世界的应用程序中。在这项工作中，我们提出了一种针对密集检索系统的新颖攻击，其中恶意用户生成少量数据通过扰乱离散标记来最大化与一组提供的训练查询的相似性来生成对抗性段落。当这些对抗性段落被插入到大型检索语料库中时，我们表明这种攻击在欺骗这些系统以检索攻击者没有看到的查询方面非常有效。更令人惊讶的是，这些对抗性段落可以直接推广到域外查询和语料库，并且具有很高的成功攻击率，例如，我们发现在自然问题上优化的 50 个生成的段落可以误导财务文档或在线论坛中提出的 94 个问题。我们还对一系列最先进的密集检索器（无监督和监督）进行了基准测试和比较。

Learning to Follow Object-Centric Image Editing Instructions Faithfully
Authors Tuhin Chakrabarty, Kanishk Singh, Arkadiy Saakyan, Smaranda Muresan
自然语言指令是一个强大的界面，用于编辑文本到图像扩散模型的输出。然而，需要解决几个挑战 1 规范不足，需要对指令的隐含含义进行建模 2 需要本地化必须执行编辑的位置，3 忠实性需要保留不受编辑指令影响的图像元素。目前专注于使用自然语言指令进行图像编辑的方法依赖于自动生成的配对数据，正如我们的调查所示，这些数据充满噪音，有时甚至是无意义的，从而加剧了上述问题。基于分割、思维链提示和视觉问答方面的最新进展，我们显着提高了配对数据的质量。此外，我们通过突出显示需要由指令更改的图像部分来增强监督信号。根据改进的数据进行微调的模型能够比最先进的基线更好地执行以对象为中心的细粒度编辑，从而缓解上述问题，如自动和人工评估所示。

Women Wearing Lipstick: Measuring the Bias Between an Object and Its Related Gender
Authors Ahmed Sabir, Llu s Padr
在本文中，我们研究了图像字幕系统中对象对性别偏见的影响。我们的结果表明，只有特定性别的物体才具有强烈的性别偏见，例如女性口红。此外，我们提出了一种基于视觉语义的性别评分，用于测量偏见程度，并可用作任何图像字幕系统的插件。我们的实验证明了性别分数的实用性，因为我们观察到我们的分数可以衡量标题与其相关性别之间的偏见关系，因此，我们的分数可以用作现有 Object Gender Co Occ 方法的附加指标。

Unified Representation for Non-compositional and Compositional Expressions
Authors Ziheng Zeng, Suma Bhat
非组合语言的准确处理依赖于为此类表达式生成良好的表示。在这项工作中，我们通过提出一种语言模型 PIER 来研究语言非组合性的表示，该模型建立在 BART 的基础上，可以为英语潜在惯用表达 PIE 创建语义上有意义且上下文适当的表示。 PIE 的特点是其字面和惯用解释中的非组合性和上下文模糊性。通过对嵌入质量的内在评估以及对 PIE 处理和 NLU 任务的外在评估，我们发现 PIER 生成的表示导致嵌入聚类的同质性得分比 BART 高 33，而 PIE 语义分类和序列准确度分别提高了 3.12 和 3.29。跨度检测与最先进的 IE 表示模型 GIEA 的比较。

Three Dogmas, a Puzzle and its Solution
Authors Elnaserledinellah Mahmood Abdelwahab
现代逻辑，尤其是由弗雷格、罗素和塔斯基提出的，涉及关于一般自然语言，特别是印欧语言的基本假设，这些假设受到语言学家的质疑。基于这些假设，形式语言的设计是为了克服逻辑学家声称的自然语言的缺陷。在本文中，我们表明这些假设与阿拉伯语的基本原则相矛盾。更具体地说，逻辑学家的想法是，在自然语言中，单词指的是对象，ToBe 结构代表身份陈述，不定描述必须用存在量词代替，以形成有意义的句子，符号不能具有独立于解释的含义，所有这些都使用阿拉伯语无可争议的原则进行了证伪。。这里提出的伪造有两个目的。首先，它被用作拒绝采用数理逻辑语义公理作为阿拉伯语法意义模型的方法的事实基础。其次，它展示了一种解决重要计算问题可满足性 SAT 的方法。所描述的方法基于这样的认识：解析阿拉伯语利用语法中存在的意义粒子来有效地识别单词、短语和句子。类似意义的粒子被证明存在于 3CNF 公式中，当在 3SAT 求解器的机器中正确处理时，可以对公式施加结构条件，仅足以保证非指数大小的自由二元决策图 FBDD 的高效生成。

PACuna: Automated Fine-Tuning of Language Models for Particle Accelerators
Authors Antonin Sulc, Raimund Kammering, Annika Eichler, Tim Wilksen
随着最近贡献的激增，探索粒子加速器的前景变得越来越具有挑战性。这些复杂的设备挑战人们的理解，即使是在单独的设施内也是如此。为了解决这个问题，我们引入了 PACuna，这是一种通过公开可用的加速器资源（如会议、预印本和书籍）改进的微调语言模型。我们自动化数据收集和问题生成，以尽量减少专家的参与并使数据公开。 PACuna 展示了解决复杂加速器问题的能力，并得到了专家的验证。

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models
Authors Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning
递归是人类语言的一个突出特征，由于缺乏明确的递归状态跟踪机制，从根本上对自注意力提出了挑战。因此，Transformer 语言模型很难捕捉长尾递归结构，并且表现出样本低效的句法泛化。这项工作引入了下推层，这是一个新的自关注层，它通过堆栈磁带对递归状态进行建模，该堆栈磁带在观察到的前缀的增量解析中跟踪每个标记的估计深度。具有下推层的 Transformer LM 是句法语言模型，它们在预测新标记时自动回归并同步更新此堆栈磁带，进而使用堆栈磁带来软性调节对标记的注意力，例如，学习跳过封闭成分。当在用银选区解析注释的字符串语料库上进行训练时，配备下推层的 Transformer 可以实现更好的语法泛化，样本效率提高 3 5 倍，同时保持类似的困惑度。下推层是标准自注意力的替代品。

Roles of Scaling and Instruction Tuning in Language Perception: Model vs. Human Attention
Authors Changjiang Gao, Shujian Huang, Jixing Li, Jiajun Chen
最近的大型语言模型法学硕士展现出了强大的理解自然语言的能力。由于它们中的大多数共享相同的基本结构，即变压器块，因此它们在训练过程中成功的可能贡献者是缩放和指令调整。然而，这些因素如何影响模型的语言感知尚不清楚。这项工作比较了几个现有的法学硕士 LLaMA、Alpaca 和 Vicuna 不同尺寸 7B、13B、30B、65B 的自注意力，以及眼扫视（人类阅读注意力的一个方面），以评估缩放和指令调整对语言感知的影响。结果表明，缩放增强了人类相似性，并通过减少琐碎模式依赖来提高有效注意力，而指令调整则不然。然而，指令调整显着增强了模型对指令的敏感性。我们还发现，目前的法学硕士在注意力方面始终更接近非母语人士，而不是母语人士，这表明所有模型的语言感知都不是最优的。

A Survey on Recent Named Entity Recognition and Relation Classification Methods with Focus on Few-Shot Learning Approaches
Authors Sakher Alqaaidi, Elika Bozorgi
命名实体识别和关系分类是从非结构化文本中提取信息的关键阶段。一些自然语言处理应用程序利用这两个任务，例如信息检索、知识图构建和完成、问答以及其他特定领域的应用程序，例如生物医学数据挖掘。我们对这两项任务的最新方法进行了调查，重点关注少数镜头学习方法。我们的工作比较了两种范式中遵循的主要方法。

ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic
Authors Mustafa Jarrar, Ahmet Birim, Mohammed Khalilia, Mustafa Erden, Sana Ghanem
本文介绍了 ArBanking77，这是一个用于银行领域意图检测的大型阿拉伯数据集。我们的数据集是从原始英语 Banking77 数据集进行阿拉伯化和本地化的，该数据集包含对 ArBanking77 数据集的 13,083 个查询，其中包含现代标准阿拉伯语 MSA 和巴勒斯坦方言的 31,404 个查询，每个查询都分类为 77 个类别意图之一。此外，我们提出了一个基于 AraBERT 的神经模型，在 ArBanking77 上进行了微调，该模型在 MSA 和巴勒斯坦方言上分别获得了 0.9209 和 0.8995 的 F1 分数。我们进行了广泛的实验，其中模拟了低资源设置，模型在数据子集上进行训练，并通过噪声查询进行增强，以模拟真实 NLP 系统中发现的口语术语、错误和拼写错误，尤其是实时聊天查询。

SALMA: Arabic Sense-Annotated Corpus and WSD Benchmarks
Authors Mustafa Jarrar, Sanad Malaysha, Tymaa Hammouda, Mohammed Khalilia
SALMA 是第一个阿拉伯语语义注释语料库，由 34K 个标记组成，这些标记均经过语义注释。该语料库同时使用两种不同的意义库进行注释：Modern 和 Ghani。 SALMA 的新颖之处在于标记和意义的关联方式。 SALMA 不是将标记仅链接到一种预期含义，而是将标记链接到多种含义，并为每种含义提供分数。开发了一种基于网络的智能注释工具，以支持对给定单词进行多种感官评分。除了意义注释之外，我们还使用六种类型的命名实体对语料库进行注释。我们使用各种指标 Kappa、线性加权 Kappa、二次加权 Kappa、平均平均误差和均方根误差来评估我们的注释质量，这些指标显示出注释者之间的一致性非常高。为了使用我们的 SALMA 语料库建立词义消歧基线，我们使用目标词义验证开发了端到端词义消歧系统。我们使用该系统来评估文献中提供的三种目标感知验证模型。我们的最佳模型使用 Modern 获得了 84.2 的准确率，使用 Ghani 获得了 78.7 的准确率。

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise
Authors Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan
大型语言模型法学硕士在各种 NLP 任务中表现出令人印象深刻的推理和数据增强能力。然而，小模型呢？在这项工作中，我们提出了 TeacherLM 7.1B，能够注释大多数 NLP 样本的相关基础知识、思路和常见错误，这使得注释不仅仅是一个答案，从而让其他模型能够了解原因而不是仅仅什么。 TeacherLM 7.1B 模型在 MMLU 上获得了 52.3 的零样本分数，超过了大多数参数超过 100B 的模型。更引人注目的是它的数据增强能力。基于 TeacherLM 7.1B，我们扩充了 58 个 NLP 数据集，并在多任务设置中教授来自 OPT 和 BLOOM 系列的具有不同参数的各种学生模型。实验结果表明TeacherLM提供的数据增强带来了显着的好处。

Bipartite Graph Pre-training for Unsupervised Extractive Summarization with Graph Convolutional Auto-Encoders
Authors Qianren Mao, Shaobo Zhao, Jiarui Li, Xiaolei Gu, Shizhu He, Bo Li, Jianxin Li
预训练的句子表示对于识别无监督文档提取摘要中的重要句子至关重要。然而，传统的预训练和句子排序的两步范式由于优化目标不同而产生了差距。为了解决这个问题，我们认为，利用专门设计用于优化连贯且独特的句子表示的过程中派生的预训练嵌入有助于对重要句子进行排名。为此，我们提出了一种新颖的图预训练自动编码器，通过句子词二分图显式建模句子内独特特征和句子间衔接特征来获得句子嵌入。然后将这些预先训练的句子表示用于基于图的排名算法中以进行无监督摘要。我们的方法通过提供有价值的句子表示来为无监督摘要框架产生主要性能。

EtiCor: Corpus for Analyzing LLMs for Etiquettes
Authors Ashutosh Dwivedi, Pradhyumna Lavania, Ashutosh Modi
礼仪是人们日常交往的重要组成部分。此外，礼仪是有地区性的，一个地区的礼仪可能与其他地区的礼仪相矛盾。在本文中，我们提出了 EtiCor，一个礼仪语料库，其中包含有关全球五个不同地区的社会规范的文本。该语料库为评估法学硕士对地区特定礼仪的知识和理解提供了一个测试平台。此外，我们提出了礼仪敏感性的任务。我们使用最先进的 LLM Delphi、Falcon40B 和 GPT 3.5 进行实验。

LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection
Authors Ahmad Nasir, Aadish Sharma, Kokil Jaidka
本文比较了用于仇恨语音检测的不同预训练和微调大型语言模型 LLM。我们的研究强调了法学硕士跨领域有效性和过度拟合风险的挑战。通过评估，我们强调需要微调模型，通过更大的标签异质性来把握仇恨言论的细微差别。

End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply Systems
Authors Benjamin Towle, Ke Zhou
回复建议系统是许多即时消息和电子邮件系统的主要组件。然而，生成回复集而不是单个回复的要求使得该任务不太适合开箱即用的检索架构，该架构仅考虑单个消息回复的相似性。因此，这些系统通常依赖额外的后处理模块来使输出多样化。然而，这些方法最终受到初始检索器性能的瓶颈，在实践中，初始检索器很难向下游多样化模块提供足够多样化的选项，导致建议与用户的相关性较低。在本文中，我们考虑了一种新颖的方法，通过自回归文本到文本检索模型从根本上简化了该管道，该模型从通过引导获得的消息数据集、回复集对端到端地学习智能回复任务。实证结果表明，该方法在三个数据集上始终优于一系列最先进的基线，与最佳基线方法相比，相关性提高了 5.1 ± 17.9，多样性提高了 0.5 ± 63.1。

S2F-NER: Exploring Sequence-to-Forest Generation for Complex Entity Recognition
Authors Yongxiu Xu, Heyan Huang, Yue Hu
由于实体复杂，例如嵌套、重叠和不连续实体，命名实体识别 NER 仍然具有挑战性。现有的方法，例如序列到序列的 Seq2Seq 生成和基于跨度的分类，在各种 NER 子任务上表现出了令人印象深刻的性能，但由于暴露偏差问题或计算效率低下，它们很难扩展到具有较长输入文本的数据集。在本文中，我们提出了一种新颖的序列到森林生成范式，S2F NER，它可以通过森林解码器直接提取句子中的实体，该解码器并行而不是顺序解码多个实体。具体来说，我们的模型以自回归方式生成森林中每棵树的每条路径，其中每棵树的最大深度为 3，这是复杂 NER 的最短可行长度，并且远小于 Seq2Seq 的解码长度。基于这种新颖的范式，我们的模型可以优雅地缓解暴露偏差问题并保持 Seq2Seq 的简单性。

Retrofitting Light-weight Language Models for Emotions using Supervised Contrastive Learning
Authors Sapan Shah, Sreedhar Reddy, Pushpak Bhattacharyya
我们提出了一种新颖的改造方法，将情感方面引入预先训练的语言模型 PLM（例如 BERT 和 RoBERTa）中。我们的方法使用对比学习来更新预先训练的网络权重，以便表现出相似情感的文本片段在表示空间中附近编码，而具有不同情感内容的片段则被分开。这样做的同时，它还确保 PLM 中已有的语言知识不会被无意中扰乱。通过我们的方法改进的语言模型，即 BERTEmo 和 RoBERTaEmo，可生成情感感知文本表示，并通过不同的聚类和检索指标进行评估。对于情感分析和讽刺检测的下游任务，它们的 F1 分数和其他现有方法比预训练的同行表现更好，大约提高了 1。

Debiasing Algorithm through Model Adaptation
Authors Tomasz Limisiewicz, David Mare ek, Tom Musil
大型语言模型正在成为各种语言任务的首选解决方案。然而，随着容量的增长，模型很容易依赖于训练数据中存在的偏见和刻板印象所产生的虚假相关性。这项工作提出了一种检测和减轻语言模型中性别偏见的新方法。我们进行因果分析来识别有问题的模型组件，并发现中上前馈层最容易传达偏差。根据分析结果，我们通过将这些层乘以线性投影来调整模型。我们的名义方法 DAMA 显着减少了通过各种指标衡量的偏差，同时保持了模型在下游任务上的性能。

Stacking the Odds: Transformer-Based Ensemble for AI-Generated Text Detection
Authors Duke Nguyen, Khaing Myat Noe Naing, Aditya Joshi
本文报告了我们以 SynthDetectives 团队名义向 ALTA 2023 共享任务提交的内容。我们使用 Transformer 的堆叠集合来执行人工智能生成的文本检测任务。我们的方法在模型选择方面是新颖的，因为我们在集成中使用可访问且轻量级的模型。我们表明，与单独使用模型相比，集成模型可以提高准确性。

Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition
Authors Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
之前的研究已经证实，一个人的人口统计特征和言语风格会影响语音处理模型的表现。但这种偏差从何而来在这项工作中，我们提出了语音嵌入关联测试 SpEAT，这是一种用于检测用于许多语音任务预训练模型的一类模型中的偏差的方法。 SpEAT 的灵感来自自然语言处理中的词嵌入关联测试，该测试量化模型表示不同概念（例如种族或效价、某些事物的愉快或不愉快）的内在偏差，并捕获模型在大规模社交网络上训练的程度。文化数据已经了解了类似人类的偏见。使用 SpEAT，我们测试了 16 个英语语音模型中的六种类型的偏差，其中包括 4 个也接受多语言数据训练的模型，这些模型来自 wav2vec 2.0、HuBERT、WavLM 和 Whisper 模型系列。我们发现，有 14 个或更多的模型揭示了与有能力的人相比于残疾人、与欧洲裔美国人相对于非裔美国人、女性相对于男性、美国口音者相对于非美国口音者以及年轻人相对老年人的正价愉快关联。除了建立包含这些偏差的预训练语音模型之外，我们还表明它们可以对现实世界产生影响。我们将预训练模型中发现的偏差与适应语音情绪识别 SER 任务的下游模型中的偏差进行比较，发现在执行的 69 项 96 项测试中的 66 项中，与 SpEAT 所示的正效价更相关的组也倾向于被下游模型预测为具有更高的化合价。我们的工作提供的证据表明，与基于文本和图像的模型一样，基于预先训练的语音的模型经常学习类似人类的偏见。

Prompt-Engineering and Transformer-based Question Generation and Evaluation
Authors Rubaba Amyeen
问题生成在教育领域有许多应用。问题生成对于学生复习内容和自我测试时很有帮助。此外，问题生成模型可以通过减轻创建评估和其他练习材料的负担来帮助教师。本文旨在找到通过变压器模型和提示工程从文本数据生成问题的最佳方法。在这项研究中，我们在 SQuAD 问答数据集上微调了预训练的 distilBERT 模型来生成问题。除了训练 Transformer 模型之外，还应用即时工程来使用 LLaMA 模型有效地生成问题。将生成的问题与 SQuAD 数据集中的基线问题进行比较，以评估四种不同提示的有效性。所有四个提示的相似度平均超过 60。

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition
Authors Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
学生教师学习或知识蒸馏 KD 先前已被用于解决语音识别 ASR 系统训练的数据稀缺问题。然而，KD 训练的一个限制是学生模型类必须是教师模型类的正确或不正确的子集。如果字符集不相同，它甚至可以防止从声音上相似的语言中进行蒸馏。在这项工作中，通过提出一种利用后验映射方法的多语言学生教师必须学习来解决上述限制。使用预先训练的映射模型将后验从教师语言映射到学生语言 ASR。这些映射的后验被用作 KD 学习的软标签。实验了各种教师集成方案来训练低资源语言的 ASR 模型。

Counterfactually Probing Language Identity in Multilingual Models
Authors Anirudh Srinivasan, Venkata S Govindarajan, Kyle Mahowald
语言模型因果分析技术阐明了法学硕士中语言信息的组织方式。我们使用这样的技术 AlterRep（一种反事实探测方法）来探索多语言模型 mBERT 和 XLM R 的内部结构。我们在二元语言身份任务上训练线性分类器，以对语言 X 和语言 Y 之间的标记进行分类。应用反事实探测过程，我们使用分类器权重将嵌入投影到零空间中，并将生成的嵌入推向方向X 语言或 Y 语言。然后我们评估屏蔽语言建模任务。我们发现，给定 X 语言的模板，向 Y 语言推进会系统地增加 Y 语言单词的概率，高于第三方控制语言。但它并没有专门将模型推向语言 Y 中的翻译等效单词。以与模板相同的方向推向语言 X 的效果最小，但会在一定程度上降低这些模型的性能。总的来说，我们将这些结果作为大规模多语言语言模型丰富结构的进一步证据，其中包括语言特定组件和语言通用组件。

Translating away Translationese without Parallel Data
Authors Rricha Jalota, Koel Dutta Chowdhury, Cristina Espa a Bonet, Josef van Genabith
与同一语言的原始文本相比，翻译文本表现出系统的语言差异，这些差异被称为翻译语。 Translationese 对各种跨语言自然语言处理任务有影响，可能导致有偏差的结果。在本文中，我们探索了一种减少翻译文本中基于风格迁移的翻译语的新方法。由于同一语言中没有并行的人工翻译和原始数据，因此我们使用自我监督的方法，可以从可比而不是并行的单语言原始和翻译数据中学习。然而，即使这种自我监督方法也需要一些并行数据进行验证。我们展示了如何通过将自监督损失与无监督损失相结合来消除对并行验证数据的需求。这种无监督损失利用了风格转移输出上的原始语言模型损失以及输入和风格转移输出之间的语义相似性损失。除了衡量内容保留和目标风格流畅性之外，我们还根据原文与翻译二元分类来评估我们的方法。

All Things Considered: Detecting Partisan Events from News Media with Cross-Article Comparison
Authors Yujian Liu, Xinliang Frederick Zhang, Kaijian Zou, Ruihong Huang, Nick Beauchamp, Lu Wang
公众舆论是由新闻媒体提供的信息塑造的，而这些信息反过来又可能由媒体机构的意识形态偏好塑造。但是，尽管人们通过公开的意识形态语言或话题选择来关注媒体偏见，但媒体塑造舆论的一种更不引人注目的方式是通过战略性地纳入或省略可能支持一方或另一方的党派事件。我们开发了一个基于潜在变量的框架，通过比较同一故事的多篇文章并识别其包含或遗漏揭示意识形态的党派事件来预测新闻文章的意识形态。我们的实验首先验证党派事件选择的存在，然后表明文章对齐和跨文档比较比竞争基线更好地检测党派事件和文章意识形态。我们的研究结果揭示了媒体偏见的高度形式，即使在具有强烈客观性和无党派规范的主流媒体中也存在这种偏见。

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting
Authors Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu, Manling Li, Yangqiu Song, Carl Yang
图像包含丰富的关系知识，可以帮助机器理解世界。现有的视觉知识提取方法通常依赖于预定义的格式（例如子动词 obj 元组）或词汇（例如关系类型），限制了提取知识的表达能力。在这项工作中，我们首次探索开放视觉知识提取的新范式。为了实现这一目标，我们提出了 OpenVik，它由一个开放关系区域检测器和一个视觉知识生成器组成，开放关系区域检测器用于检测可能包含关系知识的区域，视觉知识生成器通过使用检测到的感兴趣区域提示大型多模态模型来生成格式无关的知识。我们还探索了两种数据增强技术，使生成的无格式视觉知识多样化。广泛的知识质量评估凸显了OpenVik提取的开放视觉知识的正确性和唯一性。

Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation
Authors Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu
模型幻觉一直是自然语言生成 NLG 研究的一个重要兴趣点。在这项工作中，我们提出序列水平确定性作为 NLG 中幻觉的共同主题，并探索序列水平确定性与模型响应中幻觉水平之间的相关性。我们将序列水平确定性分为概率确定性和语义确定性两个方面，并通过知识基础对话生成 KGDG 任务的实验揭示，模型响应中较高水平的概率确定性和较高水平的语义确定性与较低水平显着相关。的幻觉。更重要的是，我们提供了理论证明和分析来表明语义确定性是概率确定性的良好估计器，因此有潜力替代黑盒场景中基于概率的确定性估计。基于对确定性和幻觉之间关系的观察，我们进一步提出了基于确定性的响应排名 CRR，这是一种在 NLG 中减轻幻觉的解码时间方法。基于我们对序列水平确定性的分类，我们提出了两种类型的 CRR 方法：概率 CRR P CRR 和语义 CRR S CRR 。 P CRR 使用整个序列的算术平均对数概率对单独采样的模型响应进行排名。 SCRR 从意义空间进行确定性估计，并根据语义确定性水平对多个模型响应候选进行排名，这是通过基于蕴涵的协议分数 AS 估计的。

Are NLP Models Good at Tracing Thoughts: An Overview of Narrative Understanding
Authors Lixing Zhu, Runcong Zhao, Lin Gui, Yulan He
叙事理解涉及捕捉作者的认知过程，提供对他们的知识、意图、信仰和欲望的洞察。尽管大型语言模型法学硕士在生成语法连贯的文本方面表现出色，但他们理解作者思想的能力仍然不确定。这种局限性阻碍了叙事理解的实际应用。在本文中，我们对叙事理解任务进行了全面的调查，彻底检查了它们的关键特征、定义、分类、相关数据集、训练目标、评估指标和局限性。此外，我们还探索了扩展模块化法学硕士能力以解决新颖的叙事理解任务的潜力。

ProMap: Effective Bilingual Lexicon Induction via Language Model Prompting
Authors Abdellah El Mekki, Muhammad Abdul Mageed, ElMoatez Billah Nagoudi, Ismail Berrada, Ahmed Khoumsi
双语词典归纳 BLI（在两种语言之间翻译单词）是一项重要的 NLP 任务。虽然使用静态词嵌入在丰富资源语言中的 BLI 已经取得了显着的进展。通过结合上下文词嵌入的信息可以进一步提高词翻译性能。在本文中，我们介绍了 ProMap，这是一种 BLI 的新颖方法，它利用提示预训练的多语言和多方言语言模型的力量来应对这些挑战。为了克服在这些模型中使用子词标记的问题，ProMap 依赖于带有种子字典的语言模型的有效填充提示，在独立使用时可以实现良好的性能。我们还证明了 ProMap 在对其他 BLI 方法（例如对齐静态词嵌入）的结果进行重新排名方面的有效性。在对丰富资源和低资源语言进行评估时，ProMap 始终达到最先进的结果。此外，即使训练样本少于 10 个，ProMap 也能在少量镜头场景中实现强大的性能，使其成为低资源语言翻译的宝贵工具。总的来说，我们相信我们的方法为一般语言和特别是低资源语言的 BLI 提供了令人兴奋和有前途的方向。

Crossing the Aisle: Unveiling Partisan and Counter-Partisan Events in News Reporting
Authors Kaijian Zou, Xinliang Frederick Zhang, Winston Wu, Nick Beauchamp, Lu Wang
新闻媒体应坚持公正的报道。然而，他们仍然可能通过选择性地包含或省略支持或反对其意识形态立场的事件来影响公众舆论。之前的 NLP 工作仅通过语言风格和词语使用来研究媒体偏见。在本文中，我们研究媒体在多大程度上平衡新闻报道并通过事件的包含或省略来影响消费者。我们首先介绍检测支持或反对作者政治意识形态的党派和反党派事件的任务。为了进行我们的研究，我们对高质量数据集 PAC 进行了注释，其中包含来自意识形态不同媒体机构的 304 篇新闻文章中的 8,511 个反党派事件注释。我们对 PAC 进行基准测试以突出这项任务的挑战。我们的研究结果强调了新闻巧妙地塑造舆论的方式，以及对大型语言模型的需求，以更好地理解更广泛背景下的事件。

TLM: Token-Level Masking for Transformers
Authors Yangjun Wu, Kebin Fang, Dongxiang Zhang, Han Wang, Hao Zhang, Gang Chen
结构化 dropout 方法，例如注意力 dropout 和 DropHead，已被研究用于规范 Transformers 中的多头注意力机制。在本文中，我们提出了一种基于令牌级别而不是结构级别的新正则化方案，以减少过度拟合。具体来说，我们为 Transformer 设计了一种新颖的 Token Level Masking TLM 训练策略，以规范自注意力的连接，该策略由两种有效且易于实现的屏蔽技术组成。基本思想是通过掩蔽来操纵多头注意力中标记之间的连接，其中网络被迫利用部分邻居信息来产生有意义的表示。 TLM 的通用性和有效性通过对 18 个数据集的 4 个多样化 NLP 任务进行的广泛实验进行了彻底评估，包括自然语言理解基准 GLUE、ChineseGLUE、中文语法纠错和数据到文本生成。结果表明，TLM 始终优于注意力丢失和 DropHead，例如，在 GLUE 上，相对于 BERT 较大的 DropHead，TLM 提高了 0.5 个百分点。此外，TLM 可以在数据到文本基准 Rotowire 18.93 BLEU 上建立新记录。

Probing LLMs for Joint Encoding of Linguistic Categories
Authors Giulio Starace, Konstantinos Papakostas, Rochelle Choenni, Apostolos Panagiotopoulos, Matteo Rosati, Alina Leidinger, Ekaterina Shutova
由于在预训练期间获得了通用语言知识，大型语言模型法学硕士在一系列 NLP 任务中表现出了令人印象深刻的表现。 Tenney 等人，2019 年的现有模型可解释性研究表明，LLM 层中出现了语言层次结构，较低层更适合解决句法任务，较高层用于语义处理。然而，对于不同语言现象的编码如何在模型内相互作用以及语言相关类别的处理在多大程度上依赖于相同的共享模型表示，人们知之甚少。在本文中，我们提出了一个用于测试法学硕士语言类别联合编码的框架。着眼于语法，我们发现了在相同相关词性 POS 类和不同 POS 类以及语言层次结构的相关句法依赖关系级别上联合编码的证据。

When Reviewers Lock Horn: Finding Disagreement in Scientific Peer Reviews
Authors Sandeep Kumar, Tirthankar Ghosal, Asif Ekbal
迄今为止，科学出版企业的效率从根本上取决于同行评审过程的强度。期刊编辑或会议主席主要依靠专家审稿人的评估，找出同意点和分歧点，并努力达成共识，就接受或拒绝论文做出公平和知情的决定。然而，随着需要审稿的论文数量不断增加，尤其是在顶级人工智能会议上，编辑主席在许多其他工作中投入了大量、有时甚至是压力很大的努力来缓解审稿人的分歧。在这项工作中，我们引入了一项新任务，即自动识别给定文章的审稿人之间的矛盾。为此，我们引入了 ContraSciView，这是一个全面的评论对矛盾数据集，包含约 8.5k 篇论文，其中约 28k 个评论对，其中包含来自基于 ICLR 和 NeurIPS 会议的开放评论的近 50k 个评论对评论。我们进一步提出了一个基线模型，可以检测评论对中的矛盾陈述。据我们所知，我们首次尝试自动识别同行评审员之间的分歧。

N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics
Authors Sajad Mousavi, Ricardo Luna Guti rrez, Desik Rengarajan, Vineet Gundecha, Ashwin Ramesh Babu, Avisek Naug, Antonio Guillen, Soumyendu Sarkar
我们为大型语言模型法学硕士提出了一种自我纠正机制，以减轻毒性和事实幻觉等问题。该方法涉及通过一组批评家和模型自身的反馈来完善模型输出。我们从人类行为中汲取灵感，探索法学硕士是否可以模仿在人类中观察到的自我纠正过程，这些人类经常进行自我反思并寻求他人的意见以完善他们对复杂主题的理解。我们的方法与模型无关，可以应用于各个领域，通过解决公平性、偏见和稳健性问题来增强可信度。

ASTormer: An AST Structure-aware Transformer Decoder for Text-to-SQL
Authors Ruisheng Cao, Hanchong Zhang, Hongshen Xu, Jieyu Li, Da Ma, Lu Chen, Kai Yu
Text to SQL 旨在根据用户话语和相应的数据库模式生成可执行的 SQL 程序。为了确保输出 SQL 的格式良好，一种突出的方法采用基于语法的循环解码器来生成等效的 SQL 抽象语法树 AST 。然而，之前的方法主要利用RNN系列解码器，其一是耗时且效率低下，二是引入的结构先验很少。在这项工作中，我们提出了一种 AST 结构感知 Transformer 解码器 AStormer 来替代传统的 RNN 单元。结构知识，例如树中的节点类型和位置，通过绝对和相对位置嵌入无缝地合并到解码器中。此外，即使考虑自适应节点选择，所提出的框架也兼容不同的遍历顺序。

EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images
Authors Seongsu Bae, Daeun Kyung, Jaehee Ryu, Eunbyeol Cho, Gyubok Lee, Sunjun Kweon, Jungwoo Oh, Lei Ji, Eric I Chao Chang, Tackeun Kim, Edward Choi
电子健康记录 EHR 包含各种多模式格式的患者病史，通常忽视了当前 EHR 问答 QA 系统中尚未充分探索的跨成像和表格模式联合推理的潜力。在本文中，我们介绍了 EHRXQA，一种新颖的多模态问答数据集，结合了结构化 EHR 和胸部 X 射线图像。为了开发我们的数据集，我们首先构建两个单模态资源 1 MIMIC CXR VQA 数据集，我们新创建的医学视觉问答 VQA 基准，专门设计用于增强 EHR QA 中的成像模式，以及 2 EHRSQL MIMIC IV，它的重新设计版本先前建立的基于表格的 EHR QA 数据集。通过整合这两个单模态资源，我们成功构建了一个多模态 EHR QA 数据集，该数据集需要单模态和跨模态推理。为了解决 EHR 中多模态问题的独特挑战，我们提出了一种基于 NeuralSQL 的策略，配备了外部 VQA API。这一开创性的努力增强了与多模式 EHR 来源的接触，我们相信我们的数据集可以促进现实世界医疗场景（例如临床决策和研究）的进步。

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation
Authors Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty
随着强大的闭源 LLM ChatGPT、GPT 4 的兴起，人们越来越有兴趣将闭源 LLM 的功能提炼为较小的开源 LLM。以前的蒸馏方法通常会提示 ChatGPT 生成一组指令和答案，供学生模型学习。然而，这种标准的蒸馏方法忽略了学生模型的优点和条件。受现代教学原则的启发，我们设计了个性化的蒸馏过程，其中学生首先尝试解决任务，然后教师为学生提供适应性改进以提高。个性化蒸馏不是向学生提供老师的先验知识，而是为学生模型提供个性化学习，因为它只从犯错误的示例中学习，并学习改进自己的解决方案。在代码生成方面，个性化蒸馏始终优于标准蒸馏，数据量只有三分之一。

Anaphor Assisted Document-Level Relation Extraction
Authors Chonggang Lu, Richong Zhang, Kai Sun, Jaein Kim, Cunwang Zhang, Yongyi Mao
文档级关系提取 DocRE 涉及识别分布在文档内多个句子中的实体之间的关系。现有方法侧重于构建异构文档图来对实体的内部结构和实体之间的外部交互进行建模。然而，现有方法有两个缺点。一方面，照应词在识别实体之间关系的推理中发挥着重要作用，但被这些方法所忽视。另一方面，这些方法通过利用文档或句子作为中间节点来隐式地实现跨句子实体交互。这种方法很难学习不同句子中实体之间的细粒度交互，从而导致性能不佳。为了解决这些问题，我们提出了一个用于 DocRE 任务的 Anaphor Assisted AA 框架。

MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of Indian Legal Case Judgments
Authors Debtanu Datta, Shubham Soni, Rajdeep Mukherjee, Saptarshi Ghosh
法律案件判决自动摘要是一个重要的实际问题，吸引了许多国家的大量研究工作。在印度司法系统的背景下，还有一个额外的复杂性：印度的法律案件判决大多是用复杂的英语撰写的，但印度很大一部分人口缺乏英语能力。因此，总结印度语言的法律文件对于确保公平诉诸司法至关重要。虽然之前的研究主要集中于用源语言总结法律案例判决，但本研究提出了将英语法律文件跨语言总结为印地语（印度最常用的语言）的开创性努力。我们构建了第一个高质量的法律语料库，其中包含来自印度著名法院的 3,122 个英语案例判决，以及由法律从业者起草的英语和印地语摘要。

Accelerating LLM Inference by Enabling Intermediate Layer Decoding
Authors Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral
大型语言模型法学硕士在各种自然语言任务中取得了显着的性能，然而，它们的大尺寸使其推理缓慢且计算成本昂贵，这对资源有限的现实世界应用程序提出了实际挑战。针对这个问题，我们建议对 LLM 进行指令调整，使中间层解码能够有效地生成文本，但重要的是不影响生成的质量。具体来说，我们使用来自中间层 LITE 的额外显式损失来指导调整 LLM，并表明它使这些层能够获得良好的生成能力，而不影响最终层的生成能力。我们在中间层的令牌级别执行基于动态置信度的早期退出，这提高了推理效率，同时保持了生成质量。我们通过在广泛使用的 Alpaca 数据集上对 LLaMA 2 模型进行指令调整来进行全面的实验，并对四种不同的人类指令测试集 Vicuna、WizardLM、Koala 和 Self Instruct 进行整体评估。我们表明，动态提前退出在保持响应的生成质量的同时，实现了一致且显着的平均成本改进 37.86。我们进一步对几个重要方面的结果进行彻底分析，例如比较输出的语义相似性，并通过比较输出中生成的标记数量来剖析效率的改进。

Identifying Conspiracy Theories News based on Event Relation Graph
Authors Yuanyuan Lei, Ruihong Huang
阴谋论是错误信息的一种，是以非理性或恶意的方式解释事件或情况的叙述。虽然之前的大多数工作都研究了社交媒体短文本中的阴谋论，但对长篇新闻文件中的此类错误信息的关注有限。在本文中，我们的目的是识别新闻文章是否包含阴谋论。我们观察到，阴谋故事可以通过将不相关的事件混合在一起，或者通过呈现事件之间关系的不寻常分布来编造。对故事中的事件进行情境化理解对于发现阴谋论至关重要。因此，我们建议为每篇文章合并一个事件关系图，其中事件是节点，四种常见类型的事件关系（共指关系、时间关系、因果关系和子事件关系）被视为边。然后，我们以两种方式将事件关系图集成到阴谋论识别中：开发事件感知语言模型，进一步通过软标签通过事件和事件关系的知识来增强基本语言模型，设计异构图注意网络来导出基于硬标签的图嵌入。

Discourse Structures Guided Fine-grained Propaganda Identification
Authors Yuanyuan Lei, Ruihong Huang
宣传是一种煽动或误导公众的欺骗性叙述形式，通常带有政治目的。在本文中，我们的目标是在句子级别和符号级别两个细粒度级别上识别政治新闻中的宣传。我们观察到，宣传内容更有可能嵌入在归因因果关系或与附近句子形成对比的句子中，以及在对未来期望的固执己见的评估、猜测和讨论中看到。因此，我们建议结合本地和全球话语结构进行宣传发现，并构建两个教师模型来分别识别邻近句子之间的 PDTB 风格话语关系和新闻文章中句子的常见话语角色。我们进一步设计了两种方法，通过使用教师预测的概率作为附加特征或在知识蒸馏框架中寻求指导，将两种类型的话语结构结合起来进行宣传识别。

Evaluating Cross-Domain Text-to-SQL Models and Benchmarks
Authors Mohammadreza Pourreza, Davood Rafiei
文本到 SQL 基准测试在评估该领域取得的进展和不同模型的排名方面发挥着至关重要的作用。然而，由于各种原因，在基准测试中将模型生成的 SQL 查询与参考 SQL 查询准确匹配失败，例如未指定的自然语言查询、模型生成的查询和参考查询中的固有假设以及某些条件下 SQL 输出的不确定性。。在本文中，我们对几个著名的跨域文本到 SQL 基准进行了广泛的研究，并通过手动评估 SQL 查询并用等效表达式重写它们来重新评估这些基准中的一些性能最佳的模型。我们的评估表明，由于可以从提供的样本中得出多种解释，因此在这些基准上获得完美的性能是不可行的。此外，我们发现模型的真实性能被低估，并且在重新评估后它们的相对性能发生了变化。最值得注意的是，我们的评估揭示了一个令人惊讶的发现，在我们的人类评估中，最近基于 GPT4 的模型超越了 Spider 基准中的黄金标准参考查询。

PeTailor: Improving Large Language Model by Tailored Chunk Scorer in Biomedical Triple Extraction
Authors Mingchen Li, M.Chen, Huixue Zhou, Rui Zhang
由于专家标记的标准数据集的可用性有限，从非结构化数据中自动提取生物医学实体及其相互作用仍然是一项具有挑战性的任务。在本文中，我们介绍了 PETAI LOR，一种基于检索的语言框架，并通过定制的块评分器进行了增强。与之前的检索增强语言模型 LM 通过计算输入句子和候选文档集之间的相似度来检索相关文档不同，PETAILOR 将句子分割成块，并从我们预先计算的基于块的关系键值存储器中检索相关块。此外，为了理解 LM 的具体要求，PETAI LOR 针对 LM 调整了定制的块评分器。我们还介绍了 GM CIHT，这是一个专家注释的生物医学三元组提取数据集，具有更多关系类型。该数据集以非药物治疗和一般生物医学领域为中心。此外，我们还研究了在一般领域训练的三重提取模型在应用于生物医学领域时的功效。

Do Not Harm Protected Groups in Debiasing Language Representation Models
Authors Chloe Qinyu Zhu, Rickard Stureborg, Brandon Fain
语言表示模型使用现实世界数据训练的 LRM 可能会捕获并加剧不良偏见，并导致对不同人口群体的人们的不公平待遇。人们已经研究了几种对 LRM 进行干预的技术，以消除词嵌入等基准评估中的偏差。然而，去偏干预的负面影响通常不会在下游任务中显现出来。我们提出了 xGAP DEBIAS，这是一组评估去偏公平性的评估。在这项工作中，我们研究了现实世界文本分类任务的四种去偏差技术，并表明减少偏差是以降低所有人口群体的性能为代价的，包括去偏差技术旨在保护的群体。

T5 meets Tybalt: Author Attribution in Early Modern English Drama Using Large Language Models
Authors Rebecca M. M. Hicke, David Mimno
大型语言模型在许多 NLP 领域都显示出了突破性的潜力。在这里，我们考虑它们在文体测量中的用途，特别是在早期现代英语戏剧中的作者身份识别。我们发现既有希望又有令人担忧的结果，法学硕士能够准确预测令人惊讶的短段落的作者，但也容易自信地将文本错误地归因于特定作者。经过微调的 t5 大型模型在归因小段落方面优于所有测试的基线，包括逻辑回归、具有线性内核的 SVM 和余弦增量。

Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement
Authors Rosamond Thalken, Edward H. Stiglitz, David Mimno, Matthew Wilkens
生成语言模型 LM 越来越多地用于文档类预测任务，并有望在成本和效率方面取得巨大改进。现有的研究经常检查简单的分类任务，但人们对语言模型对复杂或专门任务进行分类的能力知之甚少。我们认为根据法理学哲学对法律推理进行分类是一项高度复杂的任务，即使对人类来说也是一项挑战。使用由领域专家团队注释的美国最高法院历史意见的新颖数据集，我们系统地测试了各种 LM 的性能。我们发现，当给出指令时，即提示等于通过我们的密码本向人类注释者呈现的指令时，生成模型表现不佳。我们最有力的结果来自于带注释的数据集上的微调模型，性能最好的模型是域内模型 LEGAL BERT。我们应用这个微调模型的预测来研究法理学的历史趋势，这一练习既与突出的定性历史记录相一致，又指出了这些记录中可能改进的领域。

Expanding the Set of Pragmatic Considerations in Conversational AI
Authors S.M. Seals, Valerie L. Shalin
尽管性能有了显着提高，但当前的对话式人工智能系统往往无法满足用户的期望。我们讨论当前对话式人工智能系统的几个实用局限性。我们用语法上适当但存在明显的语用缺陷的例子来说明语用限制。我们将我们的投诉标记为图灵测试触发 TTT，因为它们表明当前的对话式人工智能系统与人类行为相比存在哪些不足。

SDOH-NLI: a Dataset for Inferring Social Determinants of Health from Clinical Notes
Authors Adam D. Lelkes, Eric Loreaux, Tal Schuster, Ming Jun Chen, Alvin Rajkomar
健康的社会和行为决定因素 SDOH 在塑造健康结果方面发挥着重要作用，从临床记录中提取这些决定因素是帮助医疗保健提供者系统地识别提供适当护理和解决差异的机会的第一步。由于缺乏高质量的公开标记数据，使用 NLP 方法完成这项任务的进展受到阻碍，这主要是由于使用真实患者信息的隐私和监管限制。本文介绍了一个新的数据集 SDOH NLI，该数据集基于我们公开发布的公开注释。我们将 SDOH 提取制定为自然语言推理 NLI 任务，并提供从人类评分者获得的二进制文本蕴含标签，用于一组社会历史片段作为前提和 SDOH 因素作为假设的叉积。我们的数据集与标准 NLI 基准的不同之处在于我们的前提和假设是独立获得的。

Teacher Perception of Automatically Extracted Grammar Concepts for L2 Language Learning
Authors Aditi Chaudhary, Arun Sampath, Ashwin Sheshadri, Antonios Anastasopoulos, Graham Neubig
语言教学的挑战之一是如何以有意义的方式最好地组织有关语法、语义或音系的规则。这不仅需要内容创作者具备教学技能，还需要对语言有深刻的理解。虽然开发此类课程的综合材料有英语和一些广泛使用的语言版本，但对于许多其他语言，教师需要根据学生的需求手动创建它们。这是具有挑战性的，因为它要求这些专家易于接近并且拥有必要的资源，并且描述一种语言的所有复杂性非常耗时并且容易遗漏。在这项工作中，我们的目标是通过自动发现和可视化语法描述来促进这一过程。我们从自然文本语料库中提取描述，回答有关词序、一致性、格标记或构词法和词汇语义学习的形态句法学习的问题。我们应用这种方法来教授两种印度语言：卡纳达语和马拉地语，与英语不同，这两种语言没有发达的第二语言学习资源。

Matching of Descriptive Labels to Glossary Descriptions
Authors Toshihiro Takahashi, Takaaki Tateishi, Michiaki Tatsubori
语义文本相似性在软件工程任务中发挥着重要作用，在这些任务中，工程师需要澄清描述性标签的语义，例如业务术语、表列名称，这些标签通常由太短或太通用的单词组成，并出现在 IT 系统中。我们将此类问题表述为将描述性标签与术语表描述相匹配的任务。然后，我们提出一个框架来利用现有的语义文本相似度测量 STS，并使用语义标签丰富和基于集合的集体上下文化来增强它，其中前者是一种检索与给定标签相关的句子的方法，后者是一种计算之间的相似度的方法。两个上下文，每个上下文都源自一组文本，例如同一个表中的列名称。我们对来自公开数据源的两个数据集进行了实验。

SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation
Authors Adri n Bazaga, Pietro Li , Gos Micklem
近年来，人们对文本到 SQL 翻译的兴趣日益浓厚，即将自然语言问题转换为可执行 SQL 查询的任务。这项技术非常重要，因为它具有使数据库数据提取民主化的潜力。然而，它的一些关键障碍包括领域泛化，即适应以前未见过的数据库的能力，以及自然语言问题与相应 SQL 查询的一致性。为了克服这些挑战，我们引入了 SQLformer，这是一种新颖的 Transformer 架构，专门用于执行文本到 SQL 的翻译任务。我们的模型以自回归方式将 SQL 查询预测为抽象语法树 AST，在编码器和解码器层中纳入结构归纳偏差。这种由数据库表和列选择引导的偏差有助于解码器生成以广度优先搜索规范顺序表示为图形的 SQL 查询 AST。全面的实验说明了 SQLformer 在具有挑战性的文本到 SQL Spider 基准测试中的最先进的性能。

Can LLMs Grade Short-answer Reading Comprehension Questions : Foundational Literacy Assessment in LMICs
Authors Owen Henkel, Libby Hills, Bill Roberts, Joshua McGrane
本文提出了使用生成式大语言模型（即 GPT 4）来可靠评估简答阅读理解问题的新证据。具体来说，我们探讨了生成法学硕士的各种配置如何能够评估新数据集的学生反应，该数据集来自对加纳 150 多名学生进行的一系列阅读评估。由于该数据集是新颖的，因此未用于 GPT 的训练运行，因此它提供了测试领域转移和评估生成式 LLM 的普遍性的机会，这些生成式 LLM 主要是根据来自高收入北美国家的数据进行设计和训练的。我们发现，GPT 4 在评估新数据集 Quadratic Weighted Kappa 0.923、F1 0.88 时，以最少的提示工程表现得非常好，大大优于基于迁移学习的方法，甚至超过了专家人类评估者 Quadratic Weighted Kappa 0.915、F1 0.87。据我们所知，我们的工作是第一个使用真实学生数据对生成式法学硕士在简答阅读理解问题上的表现进行实证评估的工作，并表明生成式法学硕士有可能可靠地评估基础读写能力。目前，由于大规模进行读写能力和算术能力的评估的成本和操作复杂性，在许多低收入和中等收入国家中很少进行评估。自动化阅读评估评分过程可以实现更广泛的使用，进而改善有关课程、学校管理和课堂教学实践的决策。

In-Context Ability Transfer for Question Decomposition in Complex QA
Authors Venktesh V, Sourangshu Bhattacharya, Avishek Anand
回答复杂问题是一项具有挑战性的任务，需要进行问题分解和多步骤推理才能得出解决方案。虽然现有的监督和无监督方法专门针对特定任务并涉及培训，但最近提出的基于提示的方法提供了通用的解决方案来解决各种复杂的问答 QA 任务。然而，现有的对复杂 QA 任务有效的基于提示的方法涉及专家以基本原理形式进行的昂贵的手工注释，并且不能推广到较新的复杂 QA 场景和任务。我们建议，icat 上下文能力转移可以在 LLM 中引入推理能力，而无需对上下文样本进行任何 LLM 微调或手动注释。我们通过从相关任务的可用数据源中仔细选择，将复杂问题分解为更简单问题或生成逐步原理的能力转移给法学硕士。我们还提出了一种自动的不确定性感知样本选择方法，用于从传输数据源中选择样本。最后，我们对各种复杂的 QA 任务进行了大规模实验，包括数值推理、组合复杂 QA 和需要分解推理的异构复杂 QA。

Apollo: Zero-shot MultiModal Reasoning with Multiple Experts
Authors Daniela Ben David, Tzuf Paz Argaman, Reut Tsarfaty
我们提出了一个模块化框架，利用不同模式和领域的不同基础模型的专业知识，以便执行单一、复杂、多模式任务，而不依赖于即时工程或其他定制的多模式训练。我们的方法可以实现分散的命令执行，并允许每个模型都可以从其他模型的专业知识中做出贡献并从中受益。我们的方法可以扩展到各种基础模型，包括音频和视觉，不仅仅是语言模型，因为它不依赖于提示。我们在两项任务上展示了我们的方法。在众所周知的风格化图像字幕任务中，我们的实验表明，我们的方法优于半监督的最先进模型，同时是零样本并避免了昂贵的培训、数据收集和即时工程。我们在一项新颖的任务（音频感知图像字幕）上进一步演示了这种方法，其中给出图像和音频，任务是生成在所提供的音频上下文中描述图像的文本。

A Multilingual Virtual Guide for Self-Attachment Technique
Authors Alicia Jiayun Law, Ruoyu Hu, Lisa Alazraki, Anandha Gopalan, Neophytos Polydorou, Abbas Edalat
在这项工作中，我们提出了一个计算框架，该框架利用现有的语言外数据来创建一个会话代理，用于用普通话提供自我依恋技术 SAT。我们的框架不需要大规模的人工翻译，但它实现了可比的性能，同时还保持了安全性和可靠性。我们提出了两种不同的方法，通过同理心重写来增加可用的响应数据。我们通过非临床人体试验 N 42 对照之前的纯英语 SAT 聊天机器人评估我们的聊天机器人，每次试验持续五天，并定量表明我们能够达到与英语 SAT 聊天机器人相当的性能水平。

Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
Authors Luyang Fang, Gyeong Geon Lee, Xiaoming Zhai
如果学生的反应在评分类别之间不平衡，基于机器学习的自动评分可能会具有挑战性，因为它会在机器训练过程中引入不确定性。为了应对这一挑战，我们引入了一种利用 GPT 4 的新型文本数据增强框架，GPT 4 是一种生成式大型语言模型，专门针对自动评分中的不平衡数据集而定制。我们的实验数据集包括学生对两个科学项目的书面回答。我们为 GPT 4 精心设计了提示，以生成类似于学生书面答案的回答，特别是针对少数评分班级，以增强数据。然后，我们根据增强数据集和原始数据集对 DistillBERT 进行微调，以实现自动评分。使用准确度、精确度、召回率和 F1 指标评估模型性能。我们的研究结果表明，合并 GPT 4 增强数据显着提高了模型性能，特别是在精度、召回率和 F1 分数方面。有趣的是，改进的程度取决于特定的数据集和所使用的增强数据的比例。值得注意的是，我们发现需要不同数量的增强数据 5 40 才能获得自动评分的稳定改进。我们还将使用 GPT 4 增强数据训练的模型与使用其他学生书面回答训练的模型的准确性进行了比较。结果表明，GPT 4 增强评分模型优于或匹配使用学生编写的增强数据训练的模型。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。