【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024

本文介绍: AI视野·今日CS.NLP 自然语言处理论文速览Thu, 11 Jan 2024Totally 36 papers👉上期速览✈更多精彩请移步主页Daily Computation and Language PapersLeveraging Print Debugging to Improve Code Generation in Large Language Models Authors Xueyu Hu, Kun Kuang, Jiankai Sun, Hongxia Yang,

在这里插入图片描述

Leveraging Print Debugging to Improve Code Generation in Large Language Models
Authors Xueyu Hu, Kun Kuang, Jiankai Sun, Hongxia Yang, Fei Wu
大型语言模型法学硕士在代码生成任务方面取得了重大进展，但它们在处理复杂数据结构和算法的编程问题方面的表现仍然不够理想。为了解决这个问题，我们提出了一种上下文学习方法，指导法学硕士使用打印调试方法进行调试，其中包括插入打印语句来跟踪和分析日志以修复错误。我们收集 Leetcode 问题数据集并使用 Leetcode 在线评审系统评估我们的方法。

I am a Strange Dataset: Metalinguistic Tests for Language Models
Authors Tristan Thrush, Jared Moore, Miguel Monares, Christopher Potts, Douwe Kiela
涉及元语言自引用的陈述本文有六个部分。在许多领域都很普遍。大型语言模型法学硕士可以处理这种语言吗？在本文中，我们提出了“我是一个奇怪的数据集”，这是一个解决这个问题的新数据集。有两个子任务生成和验证。在生成过程中，模型会继续这样的语句 The penultimate word in thisentence is where a true continuation is 。在验证中，模型会判断语句的真实性，例如这句话中的倒数第二个词是句子。错误的。我们还提供了最少不同的元语言非自参考示例，通过探索模型是否可以处理元语言语言来补充主数据集。该数据集由专家手工制作，并由非专家注释者验证。我们通过 API 测试了各种开源 LLM 7B 至 70B 参数以及闭源 LLM。尽管我们发现模型规模有了一些稳定的改进，但所有模型在两个子任务上，甚至在非自指元语言控制数据上的表现都接近机会。 GPT 4 是唯一一个始终显着优于随机性的模型，但它仍然只在 60 范围内，而我们未经训练的人类注释者得分在 89 到 93 范围内。

INACIA: Integrating Large Language Models in Brazilian Audit Courts: Opportunities and Challenges
Authors Jayr Pereira, Andre Assumpcao, Julio Trecenti, Luiz Airosa, Caio Lente, Jhonatan Cl to, Guilherme Dobins, Rodrigo Nogueira, Luis Mitchell, Roberto Lotufo
本文介绍了 INACIA Instru o Assistida com Intelig ncia Artificial，这是一个突破性的系统，旨在将大型语言模型 LLM 集成到巴西联邦审计法院 TCU 的操作框架中。该系统自动执行案例分析的各个阶段，包括基本信息提取、可受理性审查、Mora 和 Fumus boni iuris 分析以及建议生成。通过一系列实验，我们展示了 INACIA 在从案件文件中提取相关信息、评估其法律合理性以及生成司法建议方面的潜力。利用验证数据集和法学硕士，我们的评估方法提出了一种评估系统性能的创新方法，与人类判断高度相关。结果突显了 INACIA 在处理复杂法律任务方面的熟练程度，表明其适合提高法律体系内的效率和司法公平。

AUTOACT: Automatic Agent Learning from Scratch via Self-Planning
Authors Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen
语言智能体在各种复杂任务上取得了相当可观的表现。尽管在这一领域不断进行探索，现有的语言代理系统仍然与成本高昂、不可重复的数据依赖作斗争，并面临着强制单一模型实现多种功能的挑战。为此，我们引入了 AutoAct，一种自动代理学习框架，它不依赖于来自闭源模型（例如 GPT 4）的大规模注释数据和合成轨迹。鉴于工具库的数据有限，AutoAct 首先自动合成规划轨迹，无需人类或强大的闭源模型的任何帮助。然后，AutoAct利用分工策略，根据目标任务信息和合成轨迹自动区分，产生子代理组来完成任务。我们对不同的法学硕士进行了全面的实验，这表明与各种强大的基线相比，AutoAct 产生了更好或并行的性能。我们甚至注意到，当使用 Llama 2 13b 模型时，AutoAct 可以获得与 GPT 3.5 Turbo 代理相当的性能。

CASA: Causality-driven Argument Sufficiency Assessment
Authors Xiao Liu, Yansong Feng, Kai Wei Chang
论证充分性评估任务旨在确定给定论证的前提是否支持其结论。为了解决这个任务，现有的工作通常会根据人类注释的数据来训练分类器。然而，对数据进行注释是费力的，并且由于主观标准，注释常常不一致。受因果文献中充分性概率 PS 定义的启发，我们提出了 CASA，一种零样本因果关系驱动的论证充分性评估框架。 PS 衡量当前提事件和结论事件都不存在时，引入前提事件导致结论的可能性有多大。为了估计这个概率，我们建议使用大型语言模型LLM来生成与前提和结论不一致的上下文，并通过注入前提事件来修改它们。对两个逻辑谬误检测数据集的实验表明，CASA 可以准确识别不充分的论点。我们进一步在写作辅助应用程序中部署 CASA，发现 CASA 生成的建议增强了学生书面论证的充分性。

Pre-trained Large Language Models for Financial Sentiment Analysis
Authors Wei Luo, Dihong Gong
金融情感分析是指将金融文本内容分类为情感类别，例如：积极、消极和中性。在本文中，我们关注财经新闻标题的分类，由于缺乏大量的训练样本，这是一项具有挑战性的任务。为了克服这个困难，我们建议采用预训练的大型语言模型 LLM 1、2、3 来解决这个问题。从大量文本语料库中训练出来的法学硕士在文本理解方面具有优势，可以有效地适应特定领域的任务，同时需要很少量的训练样本。特别是，我们使用监督微调 SFT 技术来调整开源 Llama2 7B 模型 2023 4 。

A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer
Authors Yong Ma, Senlin Luo, Yu Ming Shang, Zhengjun Li, Yong Liu
语言器用于将标签词映射到类标签，是提示调整的重要组成部分。在本文中，我们提出了一种构建言语器的新方法。虽然现有的言语构建方法主要依赖于基于类名来增强和细化同义词或相关词的集合，但这种范式存在视角狭窄和缺乏抽象的问题，导致标签词空间的覆盖范围有限和偏差较大。为了解决这个问题，我们提出了一种结合场景特定概念的标签词构建过程。具体来说，我们从任务特定场景中提取丰富的概念作为标签词候选，然后开发一个新颖的级联校准模块，将候选者细化为每个类别的一组标签词。我们通过对五个广泛使用的零镜头文本分类数据集进行大量实验来评估我们提出的方法的有效性。

Monte Carlo Tree Search for Recipe Generation using GPT-2
Authors Karan Taneja, Richard Segal, Richard Goodwin
自动食品食谱生成方法为厨师提供了一个创造性的工具来探索和创造新的、有趣的烹饪美食。鉴于大型语言模型法学硕士最近取得的成功，他们有潜力创造出新的食谱，可以满足个人喜好、饮食限制，并适应冰箱里的食物。现有的使用法学硕士生成菜谱的研究表明，法学硕士可以进行微调以生成听起来逼真的菜谱。然而，经过仔细检查，这些生成的食谱通常无法满足基本要求，例如将鸡肉作为鸡肉菜肴的成分。在本文中，我们提出了 RecipeMC，这是一种使用 GPT 2 的文本生成方法，该方法依赖于蒙特卡罗树搜索 MCTS。 RecipeMC 允许我们定义奖励函数，对文本生成施加软约束，从而提高生成菜谱的可信度。

Divide and Conquer for Large Language Models Reasoning
Authors Zijie Meng, Yan Zhang, Zhaopeng Feng, Yang Feng, Gaoang Wang, Joey Tianyi Zhou, Jian Wu, Zuozhu Liu
随着思想链 CoT 及其衍生方法的出现，大型语言模型 LLM 在各种推理基准测试中表现出了令人印象深刻的性能，特别是在涉及多选题 MCQ 的任务中。然而，目前的工作都统一处理数据，没有考虑解决问题的难度，这意味着过分关注简单问题，而对复杂问题的关注不足。为了应对这一挑战，我们受到人类使用启发式策略对任务进行分类并单独处理的启发，建议将分而治之应用于法学硕士的推理。首先，我们根据统计置信度得分将问题划分为不同的子集 mathcal CS ，然后修复几乎已解决的集合并通过精心设计的方法克服要求细致的过程问题，包括基于先验知识的推理 PKR 和基于过滤器选择的推理 FCR ，以及它们的集成变体。我们的实验表明，这种提出的策略显着提高了涉及算术、常识和逻辑任务的九个数据集的模型推理能力。例如，与基线相比，我们在 AQuA 的 8.72、ARC Challenge 的 15.07 和 RiddleSense 的 7.71 的低置信度子集上取得了显着的改进。此外，通过对基本原理长度和选项数量的广泛分析，我们验证了 PKR 中较长的推理路径可以防止模型引用推断有害的捷径，并且还发现删除 FCR 中不相关的选择将大大避免模型混乱。

Can ChatGPT Rival Neural Machine Translation? A Comparative Study
Authors Zhaokun Jiang, Ziyin Zhang
受人们对利用大型语言模型进行翻译的兴趣日益浓厚的启发，本文评估了以 ChatGPT 为代表的大型语言模型 LLM 与主流神经机器翻译 NMT 引擎在将中国外交文本翻译成英语方面的能力。具体来说，我们检查了 ChatGPT 和 NMT 引擎的翻译质量，通过四个自动指标和基于错误类型和六个分析规则的人工评估来衡量。我们的研究结果表明，在不同的提示和 NMT 系统下，自动化指标会为 ChatGPT 产生相似的结果，而当提供有关翻译任务的示例或上下文信息时，人类注释者往往会为 ChatGPT 分配明显更高的分数。自动指标和人类评估维度之间的成对相关性产生的结果较弱且不显着，这表明两种翻译质量评估方法之间存在差异。

BELHD: Improving Biomedical Entity Linking with Homonoym Disambiguation
Authors Samuele Garda, Ulf Leser
链接 BEL 的生物医学实体的任务是为知识库 KB 提及实体奠定基础。完成该任务的一种流行方法是基于名称的方法，即通过密集检索或自回归建模来识别知识库中给定提及的最合适名称的方法。然而，由于这些方法直接返回知识库名称，因此它们无法处理同音异义词，即不同的知识库实体共享完全相同的名称。这会显着影响它们的性能，特别是对于同音异义词占大量实体提及的知识库，例如UMLS 和 NCBI 基因。因此，我们提出了 BELHD 生物医学实体链接与同音词歧义消除，这是一种应对这一挑战的基于名称的新方法。具体来说，BELHD 基于 BioSyn Sung 等人的 2020 模型，引入了两个关键的扩展。首先，它对知识库进行预处理，其中使用自动选择的消歧字符串扩展同音异义词，从而强制执行唯一的链接决策。其次，我们引入候选共享，这是一种选择候选进行对比学习的新颖策略，可以增强整体训练信号。对 10 个语料库和 5 种实体类型进行的实验表明，BELHD 在最先进的方法的基础上进行了改进，在 10 个语料库中的 6 个中取得了最佳结果，平均提高了 4.55pp 召回率 1。此外，知识库预处理与核心预测模型正交因此也可以改进其他方法，我们以 GenBioEL Yuan et al, 2022 为例，这是一种基于生成名称的 BEL 方法。

Aligning Translation-Specific Understanding to General Understanding in Large Language Models
Authors Yichong Huang, Xiaocheng Feng, Baohang Li, Chengpeng Fu, Wenshuai Huo, Ting Liu, Bing Qin
尽管大型语言模型法学硕士已经表现出了令人惊讶的语言理解和生成能力，但他们尚未在机器翻译领域获得革命性的进步。绩效有限的一个潜在原因是法学硕士内部对翻译的具体理解和一般理解之间的不一致。为了使翻译的具体理解与一般理解保持一致，我们提出了一种新颖的翻译过程 xIoD 难词的跨语言解释，明确地将对出现不一致理解的内容的一般理解纳入指导翻译。具体来说，xIoD 对难以翻译的单词进行跨语言解释，并通过生成的解释来增强翻译。此外，我们重新构建了 QE 的外部工具，以应对 xIoD 在检测困难单词和生成有用解释方面的挑战。我们在自行构建的基准 ChallengeMT 上进行了实验，其中包括多个 SOTA 翻译系统始终表现不佳的情况。

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
Authors Yuu Jinnai, Ukyo Honda, Tetsuro Morimura, Peinan Zhang
文本生成系统中最重要的挑战之一是产生不仅正确而且多样化的输出。最近，最小贝叶斯风险 MBR 解码因在解码算法中生成最高质量的句子而受到重视。然而，现有的用于生成不同输出的算法主要基于波束搜索或随机采样，因此它们的输出质量受到这些底层方法的限制。在本文中，我们研究了一种替代方法，通过对 MBR 解码强制执行多样性目标来开发多样性促进解码算法。我们提出了 MBR 的两种变体，即 Diverse MBR DMBR 和 k medoids MBR KMBR ，方法来生成一组高质量和多样性的句子。我们使用编码器解码器模型和带提示的大型语言模型在各种定向文本生成任务上评估 DMBR 和 KMBR。

Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
Authors Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
大型语言模型法学硕士是强大的对话代理，但将它们专门用于实现特定功能可能具有挑战性。指令调优，即根据人类生成的指令和样本响应调整模型 Ouyang et al., 2022，已被证明是一种有效的方法，但需要大量数据样本，而这些数据样本可能无法获得或生成成本高昂。此外，当目标是让法学硕士遵循对话中的特定工作流程而不是单一指令时，这种成本就会增加。受到强化学习中的自我游戏技术和使用法学硕士来模拟人类代理的启发，我们提出了一种通过法学硕士参与各种角色对话来收集数据的更有效方法。这种方法通过法学硕士的自言自语生成训练数据，可以对其进行细化并用于监督微调。我们引入了一种自动化方法来衡量对话的部分成功。该指标用于过滤生成的对话数据，这些数据在 LLM 中反馈用于训练。根据我们对对话质量的自动和人工评估，我们证明此类自言自语数据可以改善结果。

Whose wife is it anyway? Assessing bias against same-gender relationships in machine translation
Authors Ian Stewart, Rada Mihalcea
机器翻译经常受到数据和算法偏差的影响，可能导致系统输出出现不可接受的错误。虽然已经对性别规范的偏见进行了调查，但人们对机器翻译系统是否编码了有关社会关系的偏见知之甚少，例如社交关系。比如律师亲吻了她的妻子之类的句子。我们使用从几种名词性别语言（例如，“”）中生成的模板句子来调查机器翻译系统中对相同性别关系的偏见程度。西班牙语。我们发现，三种流行的机器翻译服务始终无法准确翻译有关同性名词之间关系的句子。错误率根据上下文的不同而有很大差异，例如提及女性代表性较高的职业的同性别句子的翻译准确性较低。

Can AI Write Classical Chinese Poetry like Humans? An Empirical Study Inspired by Turing Test
Authors Zekun Deng, Hao Yang, Jun Wang
一些人认为，人类的本质，例如创造力和情感，永远无法被机器模仿。本文通过研究人工智能能否像人类一样创作诗歌这一重要问题，对这一信念提出了质疑。为了回答这个问题，我们提出了 ProFTAP，这是一种受图灵测试启发的新颖评估框架，用于评估人工智能的诗歌写作能力。我们将其应用到当前的大型语言模型法学硕士上，发现最近的法学硕士确实具备写出与人类几乎没有区别的中国古典诗歌的能力。

The Impact of Reasoning Step Length on Large Language Models
Authors Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
Chain of Thought CoT对于提高大型语言模型LLM的推理能力具有重要意义。然而，CoT 的有效性与提示中推理步骤的长度之间的相关性仍然很大程度上未知。为了阐明这一点，我们进行了几次实证实验来探索其中的关系。具体来说，我们设计了扩展和压缩 CoT 演示中的基本原理推理步骤的实验，同时保持所有其他因素不变。我们有以下主要发现。首先，结果表明，即使没有在提示中添加新信息，延长提示中的推理步骤也可以显着增强法学硕士跨多个数据集的推理能力。或者，即使在保留关键信息的情况下缩短推理步骤，也会显着降低模型的推理能力。这一发现强调了 CoT 提示中步骤数量的重要性，并为在复杂问题解决场景中更好地利用法学硕士的潜力提供了实用指导。其次，我们还研究了 CoT 的性能与演示中使用的基本原理之间的关系。令人惊讶的是，结果表明，即使是不正确的理由，如果保持必要的推理长度，也能产生有利的结果。

ANGO: A Next-Level Evaluation Benchmark For Generation-Oriented Language Models In Chinese Domain
Authors Bingchao Wang
近年来，出现了各种Large Language Models LLM评估数据集，但大多存在排名扭曲、模型能力分析困难等问题。针对这些问题，本文介绍了中国多项选择题评估基准 ANGO。 ANGO首次提出textit Keypoint分类标准，ANGO中每个问题可以对应多个关键点，有效增强评估结果的可解释性。基于真人的表现，我们建立了可量化的问题难度标准，将ANGO问题分为9个难度级别，为模型训练提供更精准的指导。为了最大限度地减少数据泄露的影响并充分利用 ANGO 的创新功能，我们设计了独家采样策略和支持快速测试集迭代的新评估框架。

Multi-User Chat Assistant (MUCA): a Framework Using LLMs to Facilitate Group Conversations
Authors Manqing Mao, Paishun Ting, Yijian Xiang, Mingyang Xu, Julia Chen, Jianzhe Lin
大型语言模型法学硕士的最新进展为聊天机器人的开发提供了新的途径，而大多数现有研究主要集中在单用户聊天机器人上，这些聊天机器人专注于在用户输入后决定回答什么。在本文中，我们发现多用户聊天机器人具有更复杂的 3W 设计维度：说什么、何时响应以及回答谁。此外，我们还提出了多用户聊天助手 MUCA，这是一个基于 LLM 的聊天机器人框架，专门为小组讨论而设计。 MUCA由三个主要模块组成：子主题生成器、对话分析器和话语策略仲裁器。这些模块共同确定合适的响应内容、时间和合适的接收者。为了使 MUCA 的优化过程更容易，我们进一步提出了一种基于 LLM 的多用户模拟器 MUS，它可以模仿真实的用户行为。这使得能够更快地模拟聊天机器人和模拟用户之间的对话，从而使聊天机器人框架的早期开发更加高效。

Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing
Authors Zi Yang, Nan Hua
随着法学硕士已经能够处理更复杂类型的输入，研究人员最近研究了如何高效且经济地处理可能任意长的序列。一种有效的方法是使用 FIFO 内存来存储过去块中关注子层的键和值，以允许后续查询参与。然而，这种方法需要大内存和/或考虑特定的 LM 架构。此外，由于先前上下文中的键值与当前查询之间的因果关系，该方法无法扩展到双向注意力，例如在编码器解码器或仅 PrefixLM 解码器架构中。在本文中，我们提出使用驱逐策略（例如LRA和LFA）来减少内存大小并适应各种架构，并且我们还提出了Attendre层，这是一种通过检索键值内存K V内存来等待出席的机制逐出查询内存 Q 内存中的查询。

Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection
Authors Koji Inoue, Bing er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
展示了实时连续轮流预测系统。该系统基于语音活动投影VAP模型，直接将对话立体声音频映射到未来的语音活动。 VAP 模型包括对比预测编码 CPC 和自注意力变压器，然后是交叉注意力变压器。

An Analysis of User Behaviours for Objectively Evaluating Spoken Dialogue Systems
Authors Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze
建立语音对话系统的评估方案很重要，但也可能具有挑战性。虽然主观评价通常用于用户实验，但客观评价对于研究比较和可重复性是必要的。为了解决这个问题，我们提出了一个根据用户行为间接但客观地评估系统的框架。为此，我们在本文中研究了社交对话任务专注倾听、工作面试和初次见面对话中用户行为与主观评价分数之间的关系。结果表明，在以用户话语为主的对话任务中，例如专心倾听和工作面试，话语数量和单词数量等指标在评估中发挥着重要作用。观察不流利程度还可以表明正式任务（例如工作面试）的有效性。另一方面，在交互性较高的对话任务中，例如第一次见面对话，与轮流相关的行为（例如平均切换停顿长度）变得更加重要。

User Embedding Model for Personalized Language Prompting
Authors Sumanth Doddapaneni, Krishna Sayana, Ambarish Jash, Sukhdeep Sodhi, Dima Kuzmin
对长期历史进行建模在增强推荐系统方面发挥着关键作用，可以捕获用户不断变化的偏好，从而产生更精确和个性化的推荐。在这项研究中，我们解决了对长期用户历史进行建模以实现自然语言偏好理解的挑战。具体来说，我们引入了一个新的用户嵌入模块 UEM，它通过压缩并将其表示为嵌入来有效地处理自由格式文本中的用户历史记录，以将它们用作 LM 的软提示。我们的实验证明，与传统的基于文本的提示方法相比，这种方法在处理更长的历史方面具有卓越的能力，从而在预测性能方面产生了显着的改进。

Are Language Models More Like Libraries or Like Librarians? Bibliotechnism, the Novel Reference Problem, and the Attitudes of LLMs
Authors Harvey Lederman, Kyle Mahowald
法学硕士是像复印机或印刷机那样的文化技术吗？它们传输信息但不能创造新内容。这个想法（我们称之为“图书馆技术主义”）面临的一个挑战是，法学硕士通常确实会生成完全新颖的文本。我们首先捍卫图书馆技术主义以应对这一挑战，展示小说文本如何仅在派生意义上才有意义，因此生成文本的内容在重要意义上取决于原始人类文本的内容。我们继续对文献技术提出了一个不同的、新颖的挑战，源于法学硕士生成新颖参考文献的例子，使用新颖的名称来引用新颖的实体。如果法学硕士不是文化技术而是拥有有限形式的机构信念、愿望和意图，那么这些例子就可以顺利地解释。根据心灵哲学中的解释主义，一个系统具有信念、欲望和意图，当且仅当它的行为可以通过它具有这些状态的假设得到很好的解释时。

Entity Recognition from Colloquial Text
Authors Tamara Babaian, Jennifer Xu
从社交媒体帖子和非正式沟通等非正式文本中提取感兴趣的概念和实体是许多领域（包括医疗保健、客户关系管理等）决策支持系统的一项重要功能。尽管最近在训练用于各种自然语言处理任务的大型语言模型方面取得了进展，但开发的模型和技术主要集中在正式文本上，而在口语数据上表现不佳，口语数据的特点是存在许多独特的挑战。在我们的研究中，我们专注于医疗保健领域，通过设计和评估几种基于 BERT 的模型微调的训练策略来研究口语文本的症状识别问题。这些策略的特点是基础模型、训练语料库的选择以及训练数据中术语扰动的应用。使用这些策略训练的最佳性能模型大大优于最先进的专门症状识别器。通过一系列实验，我们发现了与我们设计的训练策略相关的特定模型行为模式。

Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need
Authors Abderrahman Skiredj, Ismail Berrada
阿拉伯语文本的自动变音符号涉及向文本添加变音符号。这项任务提出了重大挑战，对计算处理和理解具有显着影响。在本文中，我们介绍了用于阿拉伯语变音符号的 PTCAD Pre FineTuned 标记分类，这是一种用于阿拉伯语文本变音符号任务的新颖的两阶段方法。 PTCAD 包括预微调阶段和微调阶段，将阿拉伯文本变音符视为预训练模型的标记分类任务。

MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer
Authors Haotian Ye, Yihong Liu, Chunlan Ma, Hinrich Sch tze
基于 Transformer 的预训练语言模型 PLM 在各种自然语言处理 NLP 任务中取得了显着的性能。然而，预训练此类模型可能会占用大量资源，而这些资源几乎仅适用于高资源语言。相反，静态词嵌入在计算资源和所需数据量方面更容易训练。在本文中，我们介绍了用于跨语言零样本迁移的使用静态词嵌入的 MoSECroT 模型拼接，这是一项新颖且具有挑战性的任务，尤其与可使用静态词嵌入的低资源语言相关。为了解决这一任务，我们提出了第一个框架，该框架利用相对表示来为源语言 PLM 的嵌入和目标语言的静态词嵌入构建公共空间。这样，我们可以在源语言训练数据上训练 PLM，并通过简单地交换嵌入层来执行到目标语言的零样本迁移。然而，通过对两个分类数据集的广泛实验，我们表明，尽管我们提出的框架在解决 MoSECroT 问题时与弱基线具有竞争力，但与一些强基线相比，它无法实现有竞争力的结果。

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
Authors Kevin Cai, Chonghua Liu, David M. Chan
互联网内容丰富，其中以英语发布的内容多达 60 条，这与全球人口形成鲜明对比，全球人口中只有 18.8 人以英语为母语，只有 5.1 人将英语视为自己的母语，这导致了在线信息获取的差异。不幸的是，由于管道的原因，用翻译后的替代方案替换视频音轨的视频配音自动化过程仍然是一项复杂且具有挑战性的任务，需要精确的计时、面部运动同步和韵律匹配。虽然端到端配音提供了一种解决方案，但数据稀缺仍然阻碍着端到端和基于管道的方法的进展。在这项工作中，我们介绍了 Anim 400K，这是一个包含超过 425K 对齐的日语和英语动画视频片段的综合数据集，支持各种视频相关任务，包括自动配音、同声翻译、引导视频摘要和流派主题风格分类。

Language-based Valence and Arousal Expressions between the United States and China: a Cross-Cultural Examination
Authors Young Min Cho, Dandan Pang, Stuti Thapa, Garrick Sherman, Lyle Ungar, Louis Tay, Sharath Chandra Guntuku
尽管人们已经利用社交媒体对个人的情感表达进行了广泛的研究，但研究主要集中在西方背景下。文化之间存在着巨大的差异，这导致了他们的情感表达。本文研究了美国 Twitter X 和中国新浪微博帖子在情感效价和唤醒度两个主要维度上的差异。我们研究了美国和中国个体中唤醒和效价之间所谓“V”形的函数关系的差异，并探讨了相关的内容差异。此外，我们将两个平台中的单词用法和主题相关联，以解释它们的差异。我们观察到，与微博用户相比，推特用户的消极情绪和积极情绪之间的情绪强度变化不太明显，并且随着情绪的升高，唤醒程度也急剧上升。从语言特征来看，推特上的情感表达与个人生活和感受相关，而微博上的此类讨论则涉及社会政治话题。这些结果表明，受内容差异影响，社交媒体上情感表达的效价和唤醒之间的 V 形关系存在东西方差异。

Do Vision and Language Encoders Represent the World Similarly?
Authors Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Mohamed El Amine Seddik, Karttikeya Mangalam, Noel E. O Connor
对齐的文本图像编码器（例如 CLIP）已成为视觉语言任务的事实上的模型。此外，特定于模态的编码器在各自的领域中取得了令人印象深刻的性能。这就提出了一个核心问题：单模态视觉和语言编码器之间是否存在对齐，因为它们从根本上代表相同的物理世界。使用中心核对齐 CKA 分析图像字幕基准上的视觉和语言模型的潜在空间结构，我们发现表示未对齐和对齐编码器的空间在语义上是相似的。在像 CLIP 这样的对齐编码器中缺乏统计相似性的情况下，我们表明在没有任何训练的情况下存在未对齐编码器的可能匹配。我们将其视为利用图之间语义相似性的种子图匹配问题，并提出了两种方法：快速二次分配问题优化和基于新颖的局部 CKA 度量的匹配检索。

Yes, this is what I was looking for! Towards Multi-modal Medical Consultation Concern Summary Generation
Authors Abhisek Tiwari, Shreyangshu Bera, Sriparna Saha, Pushpak Bhattacharyya, Samrat Ghosh
在过去的几年中，互联网在医疗保健相关任务中的使用突飞猛进，这对有效管理和处理信息以确保其有效利用提出了挑战。在情绪动荡和心理挑战的时刻，我们经常转向互联网作为我们最初的支持来源，由于相关的社会耻辱，我们选择互联网而不是与他人讨论我们的感受。在本文中，我们提出了多模态医疗问题摘要 MMCS 生成的新任务，它提供了患者在咨询期间提出的主要问题的简短而准确的摘要。非语言线索，例如患者的手势和面部表情，有助于准确识别患者的担忧。医生还会考虑患者的个人信息，例如年龄和性别，以便适当地描述医疗状况。受患者个人背景和视觉手势的潜在功效的启发，我们提出了一种基于变压器的多任务、多模式意图识别和医疗问题摘要生成 IR MMCSG 系统。此外，我们提出了一个多任务框架，用于医患咨询的意图识别和医疗问题摘要生成。我们构建了第一个多模态医疗问题摘要生成 MM MediConSummation 语料库，其中包括用医疗问题摘要、意图、患者个人信息、医生的建议和关键词注释的患者医生咨询。

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters
Authors Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya, Yusuke Ijima
零样本文本转语音 TTS 方法基于使用自监督学习 SSL 语音表示从参考语音中提取的说话人嵌入，可以非常准确地再现说话人特征。然而，当参考语音包含噪声时，这种方法会导致语音合成质量下降。在本文中，我们提出了一种噪声鲁棒的零样本 TTS 方法。我们将适配器合并到 SSL 模型中，并使用噪声参考语音对 TTS 模型进行微调。此外，为了进一步提高性能，我们采用了语音增强SE前端。通过这些改进，我们提出的基于 SSL 的零样本 TTS 实现了带有噪声参考语音的高质量语音合成。

Hierarchical Classification of Transversal Skills in Job Ads Based on Sentence Embeddings
Authors Florin Leon, Marius Gavrilescu, Sabina Adriana Floria, Alina Adriana Minea
本文提出了一个分类框架，旨在识别职位广告要求和横向技能组合之间的相关性，重点是使用深度学习模型预测个人职位描述的必要技能。该方法涉及使用 ESCO 欧洲技能、能力和职业分类法进行数据收集、预处理和标记。分层分类和多标签策略用于技能识别，而增强技术则解决数据不平衡问题，增强模型的稳健性。使用英语特定句子嵌入模型和多语言句子嵌入模型获得的结果之间的比较显示出接近的准确性。实验案例研究详细介绍了神经网络配置、超参数和交叉验证结果，强调了分层方法的有效性以及多语言模型对多样化欧洲就业市场的适用性。

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector
Authors Marta R. Costa juss , Mariano Coria Meglioli, Pierre Andrews, David Dale, Prangthip Hansanti, Elahe Kalbassi, Alex Mourachko, Christophe Ropers, Carleigh Wood
基于语音模态音频的自然语言处理毒性检测的研究相当有限，特别是对于英语以外的语言。为了解决这些限制并为真正基于多语言音频的毒性检测奠定基础，我们推出了 MuTox，这是第一个带有毒性标签的基于高度多语言音频的数据集。该数据集包含英语和西班牙语的 20,000 个音频话语，以及其他 19 种语言的 4,000 个音频话语。为了证明该数据集的质量，我们训练了基于 MuTox 音频的毒性分类器，该分类器可以跨多种语言进行零次毒性检测。该分类器的性能比现有的基于文本的可训练分类器高出 1 AUC 以上，同时将语言覆盖范围扩大了十倍以上。与覆盖相似数量语言的基于单词列表的分类器相比，MuTox 将精确度和召回率提高了约 2.5 倍。

Learning Audio Concepts from Counterfactual Natural Language
Authors Ali Vosoughi, Luca Bondi, Ho Hsiang Wu, Chenliang Xu
传统的音频分类依赖于预定义的类，缺乏从自由格式文本中学习的能力。最近的方法解锁了从用自然语言描述音频的原始音频文本对中学习联合音频文本嵌入。尽管最近取得了进展，但很少有人探索系统方法来训练模型来识别替代场景中的声音事件和来源，例如在类似情况下区分户外活动中的烟花和枪声。本研究介绍了音频领域的因果推理和反事实分析。我们使用反事实实例并将它们包含在我们的模型中的不同方面。我们的模型考虑了来自人类注释参考文本的声学特征和声源信息。为了验证我们模型的有效性，我们利用多个音频字幕数据集进行了预训练。然后，我们评估几个常见的下游任务，证明所提出的方法作为利用音频领域反事实信息的首批作品之一的优点。

Translate-Distill: Learning Cross-Language Dense Retrieval by Translation and Distillation
Authors Eugene Yang, Dawn Lawrie, James Mayfield, Douglas W. Oard, Scott Miller
先前关于英语单语检索的工作表明，使用查询文档对的大量相关性判断来训练的交叉编码器可以用作教师来训练更高效但同样有效的双编码器学生模型。应用类似的知识蒸馏方法来训练跨语言信息检索 CLIR 的高效双编码器模型（其中查询和文档使用不同的语言）具有挑战性，因为当查询和文档语言不同时缺乏足够大的训练集合。因此，CLIR 的最新技术依赖于从大型英语 MS MARCO 训练集中翻译查询、文档或两者，这种方法称为 Translate Train。本文提出了一种替代方案 Translate Distill，其中使用来自单语言交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。这种更丰富的设计空间使教师模型能够在优化的设置中执行推理，同时直接针对 CLIR 训练学生模型。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。