作者: Nigel Fernandez, Alexander Scarlatos, Simon Woodhead, Andrew Lan
机构: 马萨诸塞大学阿默斯特分校 Eedi
择要: 高质量的滋扰项对付多项选择题(MCQs)的评估和传授教化代价至关主要,手工创建能够预测真实学生知识毛病或误解的滋扰项是困难的。同时,纵然借助大型措辞模型(LLMs)的帮助,自动滋扰项天生在数学等学科仍旧具有寻衅性。不仅要识别可信的滋扰项,还要理解其背后的缺点。在本文中,我们先容了一种名为DiVERT(Distractor Generation with Variational Errors Represented as Text)的新颖变分方法,该方法学习了数学MCQs中滋扰项背后缺点的可阐明表示。通过对一个真实数学MCQ数据集的实验,该数据集包含1,434道题目,被数十万逻辑学生利用,我们展示了DiVERT的表现优于利用GPT-4o的最前辈方法不才游滋扰项天生方面。我们还与数学教诲事情者进行了人工评估,创造DiVERT天生的缺点标签与人工编写的标签质量相称。

论文链接: https://arxiv.org/pdf/2406.19356
cs.CL: IndoToxic2024:一个为印尼语供应人口统计丰富的仇恨辞吐和有害类型数据集原标题: IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language
作者: Lucky Susanto, Musa Izzanardi Wijanarko, Prasetia Anugrah Pratama, Traci Hong, Ika Idris, Alham Fikri Aji, Derry Wijaya
机构: 莫纳什大学 独立研究者 波士顿大学 MBZUAI
择要: 仇恨辞吐对社会和谐构成重大威胁。在过去两年中,印度尼西亚在线仇恨辞吐比例增加了十倍,凸显了对有效检测机制的急迫需求。然而,由于印尼文本的标记数据有限,进展受到了阻碍。对付少数群体,如什叶派、LGBTQ 和其他少数民族,情形乃至更糟,由于仇恨辞吐每每被少报导,并且检测工具对其理解不敷。此外,当前数据集中缺少对主不雅观性的考虑,加剧了这一问题。为理解决这个问题,我们引入了IndoToxic2024,一个全面的印尼仇恨辞吐和有害性分类数据集。该数据集由19位不同背景的个人标注了43,692条条款,重点关注印尼针对弱势群体的文本,特殊是在该国最激烈的政治事宜——总统选举期间。我们为七个二元分类任务建立了基线,利用一个针对仇恨辞吐分类进行微调的BERT模型(IndoBERTweet),取得了0.78的宏F1分数。此外,我们展示了如何通过整合人口统计信息可以增强大措辞模型gpt-3.5-turbo的零样本性能。然而,我们也警告说,过分强调人口统计信息可能会由于数据碎片化而对微调模型的性能产生负面影响。
论文链接: https://arxiv.org/pdf/2406.19349
cs.CL: 跨措辞情绪剖析模型竞技场:大措辞模型时期的比较研究原标题: The Model Arena for Cross-lingual Sentiment Analysis: A Comparative Study in the Era of Large Language Models
作者: Xiliang Zhu, Shayna Gardiner, Tere Roldán, David Rossouw
机构: Dialpad Inc. AI@Meta
择要: 情绪剖析在自然措辞处理(NLP)中扮演着至关主要的角色。诸如XLM-R和mT5等多措辞预演习模型的进展促进了跨措辞情绪剖析领域日益增长的兴趣。最近涌现的大措辞模型(LLM)显著推动了通用NLP任务的发展,然而,这些LLM在跨措辞情绪剖析中的能力尚未得到充分研究。本研究进行了实证剖析,比较了公开的小型多措辞措辞模型(SMLM)如XLM-R在英语为中央的LLM(如Llama-3)之间在英语、西班牙语、法语和中文情绪剖析背景下的跨措辞转移能力。我们的研究结果显示,在公开模型中,SMLM相对付LLM表现出更精良的零样本跨措辞性能。然而,在少样本跨措辞设置中,公开LLM展现出更强的适应潜力。此外,我们不雅观察到专有的GPT-3.5和GPT-4在零样本跨措辞能力上处于领先地位,但在少样本情形下被公开模型超越。
论文链接: https://arxiv.org/pdf/2406.19358
cs.CL: 模型编辑中的基本问题:在大措辞模型中,理性信念修订该当如何事情?原标题: Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs?
作者: Peter Hase, Thomas Hofweber, Xiang Zhou, Elias Stengel-Eskin, Mohit Bansal
机构: 北卡罗来纳大学教堂山分校 哲学系 打算机科学系
择要: 模型编辑问题涉及措辞模型如何随韶光学习关于天下的新知识。虽然对模型编辑的实证研究引起了广泛关注,但模型编辑的观点根本仍旧不足稳定 - 或许并不令人意外,由于模型编辑实质上是信念改动,这是哲学中一个历经数十年仍未找到简洁办理方案的问题。然而,模型编辑须要一个办理方案,由于我们须要能够掌握措辞模型中的知识。考虑到这一目标,本文批评了模型编辑问题的标准表述,并提出了一个模型编辑研究的形式化测试基准。我们首先描述了模型编辑中的12个开放性问题,基于对定义问题、开拓基准测试以及假设大措辞模型首先具有可编辑信念的寻衅。个中许多寻衅非常难以办理,例如确定编辑的深远后果,标记事实之间的概率蕴涵关系,以及更新智能体仿照器的信念。接下来,我们先容了一个基于Wikidata的半合成数据集,用于模型编辑,我们可以通过空想化的贝叶斯智能体给出的标签来评估编辑。这使我们能够准确地说出措辞模型中的信念改动如何未达到空想认识标准。我们鼓励进一步研究探索可以将这样一个黄金标准与之比较的设置。我们的代码可以在以下网址公开获取:this https URL
论文链接: https://arxiv.org/pdf/2406.19354
Github: https://github.com/peterbhase/LLM-belief-revision
cs.CL: Suri:用于长文本天生的多约束指令跟随原标题: Suri: Multi-constraint Instruction Following for Long-form Text Generation
作者: Chau Minh Pham, Simeng Sun, Mohit Iyyer
机构: 马萨诸塞大学阿默斯特分校
择要: 现有关于遵照指令的研究紧张集中在具有大略指令和短回答的任务上。在这项事情中,我们磋商了用于天生长文本的多约束指令遵照。我们创建了Suri数据集,个中包含20,000个人类撰写的长文本,配对LLM天生的包含多个繁芜约束的反向翻译指令。由于网络人类对长文本的偏好判断存在障碍性寻衅,因此在我们的情境中,诸如DPO之类的偏好调度算法是不可行的;因此,我们提出了基于ORPO算法的Instructional ORPO(I-ORPO)对齐方法。I-ORPO不是从不受欢迎的回答中得到负面反馈,而是从LLM天生的合成破坏指令中得到负面反馈。利用Suri,我们在Mistral-7b-Instruct-v0.2上实行了监督和I-ORPO微调。结果模型Suri-SFT和Suri-I-ORPO天生的文本长度显著较长(约5,000个标记),而质量没有显著低落。我们的人类评估显示,虽然SFT和I-ORPO模型都知足大多数约束,但Suri-I-ORPO天生常日更受欢迎,由于它们对约束的连贯和信息化整合。我们在此https URL上发布了我们的代码。
论文链接: https://arxiv.org/pdf/2406.19371
Github: https://github.com/chtmp223/suri
cs.CL: AutoPureData:用于 LLM 微调的 Web 数据自动过滤原标题: AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning
作者: Praneeth Vadlapati
机构: Pro-GenAI
择要: 对最新和可靠的大措辞模型(LLMs)的需求持续存在。常日,LLMs会在固天命据集上进行演习,然后支配。然而,演习数据不断过期。利用网络数据自动演习人工智能涉及数据质量和安全方面的主要问题,由于存在偏见、垃圾信息和其他不屈安或不须要的文本。纯净的数据对付天生可靠的模型至关主要。在不纯净的数据上演习模型可能导致不良结果。本研究提出了一个别系,该系统通过现有可信的人工智能模型的帮助网络网络数据并自动过滤掉不须要的文本。在实验中,网络了一小部分网络数据并进行了过滤,展示了该系统在净化数据方面的有效性。
论文链接: https://arxiv.org/pdf/2406.19271
Github: https://github.com/Pro-GenAI/AutoPureData
cs.CL: 知识因果推理的奥德赛:从根本基准到前沿推理原标题: The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning
作者: Shaobo Cui, Zhijing Jin, Bernhard Schölkopf, Boi Faltings
机构: EPFL 瑞士 MPI 德国 ETH 苏黎世
择要: 理解知识因果关系是人类聪慧的独特标志。它帮助人们更好地理解现实天下的原则,并有利于与因果关系干系的决策过程。例如,在判断被告的行为是否导致原告的丢失以确定法律任务时,知识因果关系至关主要。只管其主要性,对这一主题的系统探索明显不敷。我们的综合调查通过关注知识因果关系中的分类法、基准、获取方法、定性推理和定量丈量,综合了来自200多篇代表性文章的见地,弥合了这一差距。我们的事情旨在供应系统概述,更新学者最新进展,为初学者供应实用指南,并突出这一主要领域中有前景的未来研究方向。
论文链接: https://arxiv.org/pdf/2406.19307
cs.CL: LiveBench:一个具有寻衅性且无污染的大措辞模型基准测试原标题: LiveBench: A Challenging, Contamination-Free LLM Benchmark
作者: Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum
机构: Abacus.AI NYU Nvidia UMD USC
择要: 测试集污染是一个众所周知的问题,即基准测试数据终极涌如今更新模型的演习集中,这对公正的大措辞模型评估构成了障碍,并且可能很快使基准测试过期。为了减轻这一问题,许多最近的基准测试从人类或大措辞模型评委那里众包获取新的提示和评估;然而,这些方法可能引入显著的偏见,并且在评分困难问题时会涌现问题。在这项事情中,我们先容了一个新的大措辞模型基准测试,旨在对抗测试集污染以及大措辞模型评判和人类众包的毛病。我们发布了 LiveBench,这是第一个基准测试,它(1)包含来自最新信息源的常常更新的问题,(2)根据客不雅观的真值自动评分答案,(3)包含各种具有寻衅性的任务,涵盖数学、编码、推理、措辞、遵照指令和数据剖析。为了实现这一目标,LiveBench 包含基于最近发布的数学竞赛、arXiv 论文、***文章和数据集的问题,并且包含了来自先前基准测试(如 Big-Bench Hard、AMPS 和 IFEval)的更难、无污染版本的任务。我们评估了许多有名的闭源模型,以及从 0.5B 到 110B 不等的数十个开源模型。LiveBench 很困难,顶尖模型的准确率低于 65%。我们发布所有问题、代码和模型答案。问题将每月添加和更新,我们将随韶光发布新任务和更难的任务版本,以便 LiveBench 可以区分大措辞模型在未来改进时的能力。我们欢迎社区参与和互助,以扩展基准测试任务和模型。
论文链接: https://arxiv.org/pdf/2406.19314
Github: https://github.com/livebench/livebench
cs.CL: VERISCORE:评估长文本天生中可验证声明的事实性原标题: VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation
作者: Yixiao Song, Yekyung Kim, Mohit Iyyer
机构: 曼宁信息与打算机科学学院 马萨诸塞大学阿默斯特分校 措辞学系
择要: 现有用于评估长篇文本事实性的度量标准,如FACTSCORE(Min等,2023年)和SAFE(Wei等,2024年),将输入文本分解为“原子声明”,并针对类似维基百科的知识库验证每个声明。这些度量标准不适用于大多数天生任务,由于它们假设每个声明都是可验证的(即可以合理地证明为真或为假)。我们通过VERISCORE办理了这个问题,这是一个用于包含可验证和不可验证内容的多样长篇天生任务的度量标准。VERISCORE可以有效地利用闭合或经由微调的开放权重措辞模型实现,人类评估证明,与竞争方法比较,VERISCORE提取的声明在八个不同的长篇任务中更合理。我们利用VERISCORE评估了来自16种不同模型的多个长篇任务天生结果,创造虽然GPT-4o是整体表现最佳的模型,但Mixtral-8x22等开放权重模型正在缩小差距。我们表明,一个措辞模型在一个任务(例如传记天生)上的VERISCORE不一定与其在另一个任务(例如长篇问答)上的VERISCORE干系,突显了跨任务扩展事实性评估的必要性,这些任务具有不同的事实密度。
论文链接: https://arxiv.org/pdf/2406.19276
cs.CL: 随处可读:具有布局感知的 GUI 屏幕阅读与 Tree-of-Lens 根本定位原标题: Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
作者: Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
机构: 加州大学圣克鲁斯分校 eBay公司 Cybever
择要: 图形用户界面(GUI)是我们与数字设备互动的核心。最近,人们开始努力构建各种GUI理解任务的模型。然而,这些努力在很大程度上忽略了一个主要的GUI干系任务:根据用户指定的点进行屏幕阅读,我们将其称为屏幕点读(SPR)任务。这个任务紧张由僵化的可访问屏幕阅读工具处理,急需由多模态大措辞模型(MLLMs)的进展驱动的新模型。在本文中,我们提出了一种名为Tree-of-Lens(ToL)智能体,利用一种新颖的ToL接地机制来办理SPR任务。基于输入点坐标和相应的GUI截图,我们的ToL智能体构建了一个分层布局树。基于这棵树,我们的ToL智能体不仅理解了指定区域的内容,还表达了元素之间的布局和空间关系。这种布局信息对付准确阐明屏幕上的信息至关主要,使我们的ToL智能体与其他屏幕阅读工具有所差异。我们还在新提出的SPR基准上对ToL智能体进行了全面评估,该基准包括来自移动设备、Web和操作系统的GUI。末了,我们在移动GUI导航任务上测试了ToL智能体,展示了其在识别实行轨迹路径上的缺点操作中的实用性。代码和数据:this http URL
论文链接: https://arxiv.org/pdf/2406.19263
Github: http://screen-point-and-read.github.io
cs.CL: AutoRAG-HP:用于检索增强天生的自动在线超参数调度原标题: AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation
作者: Jia Fu, Xiaoting Qin, Fangkai Yang, Lu Wang, Jue Zhang, Qingwei Lin, Yubo Chen, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
机构: 中国科学院自动化研究所 中国科学院大学 微软
择要: 最近大措辞模型的进展已经改变了机器学习/人工智能的发展,须要重新评估用于检索增强天生(RAG)系统的AutoML原则。为理解决RAG中的超参数优化和在线适应的寻衅,我们提出了AutoRAG-HP框架,将超参数调度构建为在线多臂赌钱机(MAB)问题,并引入了一种新颖的两级层次MAB(Hier-MAB)方法,用于高效探索大搜索空间。我们在调度超参数方面进行了大量实验,例如前k个检索文档、提示压缩比和嵌入方法,利用ALCE-ASQA和自然问题数据集。我们的评估结果表明,联合优化这三个超参数可以实现在具有显著梯度的搜索空间中Recall@5约为0.8,仅须要Grid Search方法所需的LLM API调用量的约20%。此外,所提出的Hier-MAB方法在更具寻衅性的优化场景中优于其他基线方法。代码将在此https网址上供应。
论文链接: https://arxiv.org/pdf/2406.19251
其他链接: https://aka.ms/autorag
cs.CL: FlowVQA:将多模态逻辑映射到视觉问答中的流程图原标题: FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts
作者: Shubhankar Singh, Purvi Chaurasia, Yerram Varun, Pranshu Pandya, Vatsal Gupta, Vivek Gupta, Dan Roth
机构: Mercer Mettl IGDTUW新德里 Google Research 印度古瓦哈蒂理工学院 宾夕法尼亚大学
择要: 现有的视觉问答基准在视觉定位和繁芜性方面存在不敷,特殊是在评估空间推理能力方面。我们引入了FlowVQA,这是一个旨在评估视觉问答多模态措辞模型在利用流程图作为视觉背景进行推理能力的新基准。FlowVQA包括来自三个不同内容来源的2,272张精心天生和人工验证的流程图像,以及22,413个多样化的问题-答案对,用于测试一系列推理任务,包括信息定位、决策制订和逻辑推理。我们对一套开源和专有多模态措辞模型进行了彻底的基准评估,利用各种策略,然后对方向偏差进行了剖析。结果强调了该基准作为推进多模态建榜样畴的主要工具的潜力,为增强模型在视觉和逻辑推理任务中的性能供应了一个专注且具有寻衅性的环境。
论文链接: https://arxiv.org/pdf/2406.19237
cs.CL: RuBLiMP: 俄语措辞最小比拟基准原标题: RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs
作者: Ekaterina Taktasheva, Maxim Bazhukov, Kirill Koncha, Alena Fenogenova, Ekaterina Artemova
机构: 爱丁堡大学 哈尔科夫国立经济大学 根特大学 格罗宁根大学 托洛卡人工智能 奥斯陆大学
择要: 最小比拟对是评估措辞模型语法知识的一种成熟方法。然而,现有的最小比拟对资源涵盖的措辞数量有限,缺少措辞特定语法征象的多样性。本文先容了俄语措辞最小比拟对基准(RuBLiMP),个中包括45k对在语法上有差异并且隔离了形态、句法或语义征象的句子。与现有的措辞最小比拟对基准比较,RuBLiMP是通过对来自开放文本语料库的自动注释句子运用措辞扰动并精心策划测试数据而创建的。我们描述了数据网络协议,并呈现了在各种场景下评估25个措辞模型的结果。我们创造,广泛利用的俄语措辞模型对形态和同等性比拟敏感,但在须要理解构造关系、否定、及物性和时态的征象上掉队于人类。RuBLiMP、代码库和其他材料均可公开获取。
论文链接: https://arxiv.org/pdf/2406.19232
cs.CL: 揭示大措辞模型中的细粒度代价不雅观和不雅观点原标题: Revealing Fine-Grained Values and Opinions in Large Language Models
作者: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
机构: 哥本哈根大学 先锋人工智能中央
择要: 在大措辞模型(LLMs)中揭示潜在的代价不雅观和不雅观点可以帮助识别偏见并减轻潜在的危害。最近,这一方法是通过向LLMs提出调查问题,并量化它们对道德和政治不雅观点的态度来实现的。然而,LLMs天生的态度可能会因提示办法不同而有很大差异,并且可以有许多办法来支持或反对某个态度。在这项事情中,我们提出通过剖析一个包含156k个LLM对6个LLMs天生的62个政治罗盘测试(PCT)命题的420个提示变体的大型和稳健数据集来办理这个问题。我们对它们天生的态度进行粗粒度剖析,并对这些态度的纯文原来由进行细粒度剖析。对付细粒度剖析,我们提出识别相应中的修辞手腕:在不同提示中反复涌现且同等的语义相似短语,揭示给定LLM方向于天生的文本模式。我们创造,将人口统计特色添加到提示中显著影响PCT的结果,反响了偏见,以及在引发封闭形式与开放领域回合时测试结果之间的差异。此外,通过修辞手腕在纯文原来由中的模式显示,纵然在不同的态度下,模型和提示中也会反复天生类似的情由。
论文链接: https://arxiv.org/pdf/2406.19238
cs.CL: 工具失落败:检测有故障工具中的静默缺点原标题: Tools Fail: Detecting Silent Errors in Faulty Tools
作者: Jimin Sun, So Yeon Min, Yingshan Chang, Yonatan Bisk
机构: 卡内基梅隆大学 CohereAI
择要: 工具已经成为大措辞模型的紧张支柱,使它们能够检索不在它们权重中的知识,在网络上实行任务,乃至掌握机器人。然而,大多数关于工具利用的本体论和调查都假定大措辞模型的核心寻衅是选择工具。相反,我们引入了一个更广泛的工具框架,辅导我们探索模型检测“静默”工具缺点的能力,并反思如何方案。这更直接地与将模型作为工具的日益普遍的用法相同等。我们供应了一种初始的失落败规复方法,这种方法在受控打算器设置和详细代理方案上都取得了有希望的结果。
论文链接: https://arxiv.org/pdf/2406.19228
cs.CL: T-FREE: 通过稀疏表示实现无需分词的大措辞模型天生,以实现内存高效嵌入原标题: T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
作者: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
机构: 阿勒夫阿尔法 @ IPAI 德国达姆斯塔特理工大学 海森人工智能中央 德国人工智能中央
择要: 分词器对付在大措辞模型中编码信息至关主要,但它们的发展最近涌现结束,并且存在固有弱点。紧张限定包括打算开销大、词汇利用效率低以及嵌入层和头层过大。此外,它们的性能倾向于参考语料库,导致对少数措辞的效果不佳。 为理解决这些问题,我们提出了T-FREE,它通过字符三元组上的稀疏激活模式直接嵌入单词,并且不须要参考语料库。T-FREE固有地利用形态相似性,并许可对嵌入层进行强大的压缩。在我们详尽的实验评估中,我们在这些层面上实现了竞争性的下贱性能,参数减少超过85%。此外,T-FREE在跨措辞迁移学习方面显示出显著改进。
论文链接: https://arxiv.org/pdf/2406.19223
cs.CL: 利用大措辞模型增强的智能体仿照教室教诲原标题: Simulating Classroom Education with LLM-Empowered Agents
作者: Zheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li
机构: 清华大学 教诲学院
择要: 大措辞模型(LLMs)已被运用于各种智能教诲任务中,以帮忙传授教化。虽然初步的探索集中在针对特定教诲任务的独立LLM增强代理,但LLMs在多智能体协作框架中仿照具有真实用户参与的教室的潜力尚未被探索。在这项事情中,我们提出了SimClass,一个涉及用户参与的多智能体教室仿照框架。我们确定了代表性的教室角色,并引入了一种新颖的教室掌握机制,用于自动教室传授教化,并在两门真实课程中进行了用户实验。利用教诲剖析中的弗兰德斯互动剖析系统和社区探究理论框架,我们证明LLMs能够有效地仿照传统教室互动模式,同时增强用户体验。我们还不雅观察到SimClass中智能体之间涌现的群体行为,这些智能体互助创建生动的教室互动,以改进用户学习过程。我们希望这项事情首创了LLM增强的多智能体系统在虚拟教室传授教化中的运用。
论文链接: https://arxiv.org/pdf/2406.19226
cs.CL: SeaKR:自我意识知识检索,用于自适应检索增强天生原标题: SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation
作者: Zijun Yao, Weijian Qi, Liangming Pan, Shulin Cao, Linmei Hu, Weichuan Liu, Lei Hou, Juanzi Li
机构: 清华大学 北京理工大学 西门子科技 加州大学圣巴巴拉分校
择要: 这篇论文先容了自我意识知识检索(SeaKR),这是一种新颖的自适应RAG模型,从LLMs的内部状态中提取自我意识不愿定性。SeaKR在LLMs天生时呈现高自我意识不愿定性时激活检索。为了有效整合检索到的知识片段,SeaKR基于LLM的自我意识不愿定性对它们进行重新排序,以保留最大程度减少其不愿定性的片段。为了促进办理须要多次检索的繁芜任务,SeaKR利用它们的自我意识不愿定性来在不同的推理策略之间进行选择。我们在繁芜和大略的问答数据集上进行的实验表明,SeaKR优于现有的自适应RAG方法。我们在此https网址上发布了我们的代码。
论文链接: https://arxiv.org/pdf/2406.19215
Github: https://github.com/THU-KEG/SeaKR
cs.CL: 注释缺点和命名实体识别:基于OntoNotes 5.0的研究原标题: Annotation Errors and NER: A Study with OntoNotes 5.0
作者: Gabriel Bernier-Colborne, Sowmya Vajjala
机构: 加拿大国家研究委员会
择要: 命名实体识别(NER)是自然措辞处理中一个经由深入研究的问题。然而,与开拓新的NER模型比较,对研究NER数据集的关注要少得多。在这篇论文中,我们采取了三种大略的技能来检测OntoNotes 5.0语料库中英文NER的注释缺点,这是目前最大的英文NER语料库。我们的技能纠正了演习/开拓/测试数据中约10%的句子。在实体提及方面,我们纠正了数据集中约8%的提及的跨度和/或类型,同时进行了一些添加/删除/拆分/合并操作。考虑到OntoNotes的规模,这些变更数量相称大。我们利用了三个NER库来演习、评估和比较利用原始和重新注释数据集演习的模型,结果显示整体F分数均匀提高了1.23%,对付某些实体类型,提高幅度超过了10%。虽然我们的注释缺点检测方法并不是穷尽全力的,而且须要一定的手动注释事情,但它们在很大程度上与措辞无关,可以用于其他NER数据集和其他序列标注任务。
论文链接: https://arxiv.org/pdf/2406.19172
cs.CL: 将西席与学生偏好对齐,以天生定制的演习数据原标题: Aligning Teacher with Student Preferences for Tailored Training Data Generation
作者: Yantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li
机构: 清华大学 北京人工智能研究院
择要: 大措辞模型(LLMs)已经显示出在各种任务中作为副驾驶具有主要潜力。在处理隐私敏感数据或延迟敏感任务时,将LLMs本地支配在边缘设备上是必要的。这类设备的打算约束使得直接支配强大的大规模LLMs变得不切实际,因此须要从大规模模型到轻量级模型的知识蒸馏。已经有很多事情致力于从LLMs中获取多样性和高质量的演习样本,但很少关注根据学生偏好调度西席辅导内容,类似于传授教化中的“相应式传授教化”。因此,我们提出了ARTE,即Aligning TeacheR with StudenT PreferencEs,这是一个框架,用于将西席模型与学生偏好对齐,以天生针对知识蒸馏的定制演习样本。详细而言,我们从西席模型中获取草案问题和事理,然后利用学生在高下文学习中的表现作为代理,网络学生对这些问题和事理的偏好,末了将西席模型与学生偏好对齐。末了,我们利用对齐后的西席模型重复第一步,为目标任务上的学生模型获取定制演习样本。对学术基准进行的大量实验表明,ARTE相对付从强大LLMs蒸馏出的现有辅导调度数据集具有优胜性。此外,我们还深入研究了ARTE的泛化能力,包括对推理能力进行微调的学生模型以及对齐后的西席模型在跨任务和学生间天生定制演习数据的泛化能力。总之,我们的贡献在于提出了一个新颖的定制演习样本天生框架,在实验中展示了其有效性,并调查了ARTE中学生模型和对齐西席模型的泛化能力。
论文链接: https://arxiv.org/pdf/2406.19227
cs.CL: CHEW:维基百科中变革事宜的数据集原标题: CHEW: A Dataset of CHanging Events in Wikipedia
作者: Hsuvas Borkakoty, Luis Espinosa-Anke
机构: 卡迪夫大学 英国 AMPLYFI 英国
择要: 我们先容了CHEW,这是一个包含自然文本表达的维基百科变革事宜的新数据集。我们利用CHEW来探究LLMs对维基百科实体和事宜的韶光线理解,在天生和分类实验中。我们的结果表明,只管LLMs有韶光信息可用,但在构建准确的韶光线方面仍存在困难。我们进一步展示了利用CHEW衍生的嵌入来识别含义转变的有用性。
论文链接: https://arxiv.org/pdf/2406.19116
cs.CL: 能力的错觉:评估阐明对用户对视觉问答系统心智模型的影响原标题: The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems
作者: Judith Sieker, Simeon Junker, Ronja Utescher, Nazia Attari, Heiko Wersing, Hendrik Buschmeier, Sina Zarrieß
机构: 比勒费尔德大学 本田欧洲研究所
择要: 我们研究用户如何看待当AI系统碰着无法完美实行的任务时的局限性,以及在答案阁下供应阐明是否有助于用户构建系统能力和局限性的恰当心智模型。我们进行了一个视觉问答和解释任务,通过操纵视觉输入来掌握AI系统的局限性:在推理过程中,系统会处理全彩色或灰度图像。我们的目标是确定参与者是否能感知系统的局限性。我们假设阐明会使有限的AI能力对用户更加透明。然而,我们的结果显示阐明并没有这种效果。与让用户更准确评估AI系统的局限性相反,阐明常日会增加用户对系统能力的感知 - 无论其实际表现如何。
论文链接: https://arxiv.org/pdf/2406.19170
cs.CL: 多模态人工智能中的公正性和偏见:一项调查原标题: Fairness and Bias in Multimodal AI: A Survey
作者: Tosin Adewumi, Lama Alkhaled, Namrata Gurung, Goya van Boven, Irene Pagliai
择要: 在人工智能(AI)系统中办理公正性和偏见的主要性不言而喻。近年来,主流媒体充斥着关于许多这些系统中的刻板印象和偏见的事宜***。在这项调查中,我们补充了对大型多模态模型(LMMs)中公正性和偏见的研究相对付大型措辞模型(LLMs)的最低研究量的空缺,供应了50个数据集和模型的示例以及影响它们的寻衅;我们确定了一个新的量化偏见的种别(preuse),除了文献中已知的两种:内在和外在;我们批驳性地谈论了研究职员办理这些寻衅的各种方法。我们的方法涉及在谷歌学术上进行两个略有不同的搜索查询,结果显示术语“大型多模态模型中的公正性和偏见”和“大型措辞模型中的公正性和偏见”分别有33,400和538,000个链接。我们相信这项事情有助于补充这一空缺,并为研究职员和其他利益干系者供应洞察力,以办理多模态AI中公正性和偏见寻衅的办法。
论文链接: https://arxiv.org/pdf/2406.19097
cs.CL: 标题:利用大措辞模型从表格中进行通用信息提取以获取ESG关键绩效指标原标题: Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs
作者: Lokesh Mishra, Sohayl Dhibi, Yusik Kim, Cesar Berrospi Ramis, Shubham Gupta, Michele Dolfi, Peter Staar
机构: IBM瑞士苏黎世研究所 IBM法国巴黎-萨克莱研究所
择要: 环境、社会和管理(ESG)关键绩效指标评估组织在诸如景象变革、温室气体排放、水花费、废物管理、人权、多样性和政策等问题上的表现。ESG报告通过表格传达这些有代价的定量信息。不幸的是,由于表格构造和内容的高度变革,提取这些信息是困难的。我们提出了Statements,这是一种用于提取定量事实和干系信息的新领域不可知数据构造。我们提出将表格翻译为语句作为一项新的监督深度学习通用信息提取任务。我们引入了SemTabNet - 一个包含超过10万个带注释表格的数据集。通过研究基于T5的语句提取模型系列,我们的最佳模型天生的语句与基准(21%)比较,与地面原形82%相似。我们通过将我们的模型运用于ESG报告中的超过2700个表格,展示了语句的上风。语句的同质性特质许可对大量ESG报告中创造的广泛信息进行探索性数据剖析。
论文链接: https://arxiv.org/pdf/2406.19102
cs.CL: AMBROSIA:将模糊问题解析为数据库查询的基准测试原标题: AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries
作者: Irina Saparina, Mirella Lapata
机构: 爱丁堡大学 认知措辞与打算研究所 Informatics学院
择要: 实际语义解析器该当能够理解用户话语并将其映射到可实行程序,纵然这些话语存在歧义。我们引入了一个新的基准测试,AMBROSIA,希望能够促进文本到SQL解析器的发展,使其能够识别和解释模糊要求。我们的数据集包含展示三种不同类型歧义(范围歧义、附着歧义和模糊性)的问题,它们的阐明以及相应的SQL查询。在每种情形下,纵然供应了数据库高下文,歧义仍旧存在。这是通过一种新颖的方法实现的,该方法涉及从头开始天生数据库。我们在AMBROSIA上对各种LLM进行基准测试,揭示纵然是最前辈的模型也很难识别和解释问题中的歧义。
论文链接: https://arxiv.org/pdf/2406.19073
cs.CL: EmPO: 通过偏好优化实现基于理论驱动的数据集构建,用于天生共情回应原标题: EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization
作者: Ondrej Sotolar
机构: 马萨里克大学Faculty of Informatics 捷克布尔诺
择要: 共情式相应天生是对话代理中的一个空想方面,对付促进人与机器之间 engaging 和情绪智能的多轮对话至关主要。利用大措辞模型来完成这一任务已经显示出有希望的结果,然而在确保相应的共情质量和模型的泛化性能保持的寻衅仍旧存在。在本文中,我们提出了一种新颖的方法,我们构建了基于理论驱动的偏好数据集,并利用它们来将LLMs与偏好优化算法对齐,以办理这些寻衅。为了衡量共情式相应天生,我们利用 EmpatheticDialogues 数据集,评估共情性的 diff-EPITOME 和 BERTscore 指标,并在 MMLU 基准上评估泛化性能。我们将所有数据集、源代码和模型公开供应。
论文链接: https://arxiv.org/pdf/2406.19071
Github: https://github.com/ondrejsotolar/empo
cs.CL: STBench:评估大措辞模型在时空剖析中的能力原标题: STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis
作者: Wenbin Li, Di Yao, Ruibo Zhao, Wenjie Chen, Zijie Xu, Chengxue Luo, Chang Gong, Quanliang Jing, Haining Tan, Jingping Bi
机构: 中国科学院打算技能研究所 中国科学院大学
择要: 大措辞模型(LLMs)的快速发展有望改革时空数据挖掘方法论。然而,目前用于评估LLMs时空理解能力的研究有些受限且存在偏见。这些研究要么未能整合最新的措辞模型,要么只专注于评估影象的时空知识。为补充这一空缺,本文将LLMs对时空数据的能力分解为四个不同维度:知识理解、时空推理、准确打算和下贱运用。我们为每个种别策划了几个自然措辞问答任务,并构建了基准数据集,即STBench,包含13个不同任务和超过60,000个问答对。此外,我们评估了13个LLMs的能力,如GPT-4o、Gemma和Mistral。实验结果显示,现有的LLMs在知识理解和时空推理任务上表现出色,并有潜力通过高下文学习、思维链提示和微调在其他任务上进一步提升。STBench的代码和数据集已发布在此https网址上。
论文链接: https://arxiv.org/pdf/2406.19065
Github: https://github.com/LwbXc/STBench
cs.CL: 通过可靠性感知对齐改进从弱到强的泛化原标题: Improving Weak-to-Strong Generalization with Reliability-Aware Alignment
作者: Yue Guo, Yi Yang
机构: 喷鼻香港科技大学
择要: 大措辞模型(LLMs)目前正在快速发展,并在许多自然措辞任务上超越人类能力。然而,将这些超人类LLMs与人类知识对齐仍旧具有寻衅性,由于来自人类注释者的监督旗子暗记可能是缺点的。这个问题被称为“超对齐”问题,须要增强从弱到强的泛化能力,即强大的LLM必须从由较弱来源供应的不完美监督中进行泛化。为理解决这个问题,我们提出了一种方法,通过涉及弱监督旗子暗记的可靠性来改进从弱到强的泛化能力。在我们的方法中,我们向弱监督者查询多个答案,估计答案的可靠性,并通过过滤不愿定数据或重新加权可靠数据来增强对齐过程。对四个数据集的实验表明,我们的方法有效地识别了弱标签的质量,并显著增强了从弱到强的泛化能力。我们的事情提出了有效的技能,用于缺点鲁棒的模型对齐,减少了从喧华监督中的缺点传播,并增强了LLMs的准确性和可靠性。代码可在此网址公开获取。
论文链接: https://arxiv.org/pdf/2406.19032
Github: http://github.com/Irenehere/ReliableAlignment https://github.com/irenehere/reliablealignment
cs.CL: 捕捉思想,而非仅仅是笔墨:利用个性指示数据增强角色扮演措辞模型原标题: Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data
作者: Yiting Ran, Xintao Wang, Rui Xu, Xinfeng Yuan, Jiaqing Liang, Yanghua Xiao, Deqing Yang
机构: 复旦大学
择要: 角色扮演智能体(RPA)已成为大措辞模型(LLMs)的热门运用领域,吸引了工业界和学术界的极大兴趣。虽然现有的RPA很好地描述了角色的知识和语气,但它们在捕捉角色思维方面面临寻衅,特殊是对付小型角色扮演措辞模型(RPLMs)。在本文中,我们提出通过个性指示性数据来增强RPLMs。详细来说,我们利用生理量表中的问题,提炼前辈的RPA以天生能把握角色思维的对话。实验结果验证,利用我们数据集演习的RPLMs在一样平常和与个性干系的评估中展现出前辈的角色扮演能力。代码和数据可在\href{this https URL}{this URL}获取。
论文链接: https://arxiv.org/pdf/2406.18921
Github: https://github.com/alienet1109/RolePersonality
cs.CL: UniGen:利用大措辞模型天生文本数据集的统一框架原标题: UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models
作者: Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun
机构: 华中科技大学 安徽大学 马里兰大学帕克分校 微软研究 威斯康星大学麦迪逊分校 利哈伊大学
择要: 大措辞模型(LLMs)如GPT-4和Llama3通过实现高质量的合成数据天生和减少对昂贵的人工天生数据集的依赖,显著影响了各个领域。只管如此,在现有天生框架中仍存在泛化、可控性、多样性和真实性方面的寻衅。为理解决这些寻衅,本文提出了UniGen,这是一个全面的LLM驱动框架,旨在天生多样化、准确且高度可控的数据集。UniGen具有适应性,支持所有类型的文本数据集,并通过创新机制增强天生过程。为了增加数据多样性,UniGen包括一个属性勾引天生模块和一个群体检讨功能。为了确保准确性,它采取基于代码的数学评估进行标签验证,同时采取检索增强天生技能进行事实验证。该框架还许可用户指定约束条件,以便根据特定哀求定制数据天生过程。大量实验证明了UniGen天生的数据质量优胜,UniGen内的每个模块在这一改进中发挥了关键浸染。此外,UniGen运用于两个实际场景:LLM基准测试和数据增强。结果表明,UniGen有效支持动态和不断发展的基准测试,并且数据增强提高了LLM在各个领域的能力,包括面向智能体的能力和推理技能。
论文链接: https://arxiv.org/pdf/2406.18966
cs.CL: 选择性视觉是视觉推理的寻衅:视觉论证理解的基准测试原标题: Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding
作者: Jiwan Chung, Sungjae Lee, Minseo Kim, Seungju Han, Ashkan Yousefpour, Jack Hessel, Youngjae Yu
机构: 延世大学 首尔国立大学 Allen人工智能研究所 Samaya人工智能
择要: 视觉论点常日用于广告或社会奇迹中,依赖图像来说服不雅观众做或相信某事。理解这些论点须要有选择性的视觉:图像中只有特定的视觉刺激与论点干系,而干系性只能在更广泛的论证构造的背景下理解。虽然人类不雅观众很随意马虎欣赏视觉论点,但我们要问:当今的人工智能是否能够做到类似的理解呢? 我们网络并发布了VisArgs,这是一个带有注释的语料库,旨在明确揭示视觉论点背后(常日是隐含的)的构造。VisArgs包括1,611张图像,配有三种类型的文本注释:5,112个视觉条件(带有区域注释),5,574个知识条件,以及将它们与更广泛论证连接起来的推理树。我们提出了三项关于VisArgs的任务,以探究机器对视觉论点理解的能力:条件的定位,条件的识别,以及结论的推导。实验证明:1)机器无法完备识别干系的视觉线索。表现最好的模型GPT-4-O仅达到78.5%的准确率,而人类达到了98.0%。所有模型的表现都有所低落,当将比较集从图像外的工具变动为图像内的无关工具时,准确率均匀低落了19.5%。此外,2)这种限定是影响它们在理解视觉论点方面表现的最大成分。大多数模型在给定干系的视觉条件作为额外输入时,比较其他输入,对付推导视觉论点的结论时表现得最好。
论文链接: https://arxiv.org/pdf/2406.18925
cs.CL: TrustUQA:一个信赖框架,用于统一构造化数据问答原标题: TrustUQA: A Trustful Framework for Unified Structured Data Question Answering
作者: Wen Zhang, Long Jin, Yushan Zhu, Jiaoyan Chen, Zhiwei Huang, Junjie Wang, Yin Hua, Lei Liang, Huajun Chen
机构: 浙江大学 英国曼彻斯特大学 蚂蚁集团
择要: 自然措辞问答(QA)在构造化数据源(如表格和知识图谱)上已经得到广泛研究,例如利用大措辞模型(LLMs)。紧张办理方案包括将问题转化为形式化查询和基于检索的答案天生。然而,目前前者的方法常常存在泛化能力较弱的问题,无法同时处理多个来源,而后者在可信度上存在局限。在本文中,我们提出了UnifiedTQA,一个可信的QA框架,可以统一支持多种类型的构造化数据。为此,它采取了一种LLM友好且统一的知识表示方法,称为Condition Graph(CG),并利用了基于LLM和演示的两级方法进行CG查询。为了增强性能,它还配备了动态演示检索。我们利用涵盖3种构造化数据类型的5个基准测试对UnifiedTQA进行了评估。它赛过了2种现有的统一构造化数据QA方法,并与针对特天命据类型的基准方法比较,在个中的2个上达到了最前辈水平。此外,我们展示了我们的方法在更一样平常的QA任务、稠浊构造化数据上的QA以及跨构造化数据的QA方面的潜力。
论文链接: https://arxiv.org/pdf/2406.18916
cs.CL: 成分条件化言语风格字幕原标题: Factor-Conditioned Speaking-Style Captioning
作者: Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura
机构: NTT公司 日本
择要: 这篇论文提出了一种新颖的措辞风格字幕天生方法,能够在准确预测措辞风格信息的同时天生多样化的描述。传统的学习标准直策应用包含措辞风格成分术语和句法词汇的原始字幕,这扰乱了学习措辞风格信息的过程。为理解决这个问题,我们引入了成分条件字幕天生(FCC),首先输出代表措辞风格成分(如性别、腔调等)的短语,然后天生一个字幕以确保模型明确学习措辞风格成分。我们还提出了贪婪-采样(GtS)解码,首先确定性地预测措辞风格成分以担保语义准确性,然后基于成分条件采样天生字幕以确保多样性。实验证明,FCC优于基于原始字幕的演习,并且通过GtS天生更多样化的字幕同时保持风格预测性能。
论文链接: https://arxiv.org/pdf/2406.18910
cs.CL: Historia Magistra Vitae: 利用神经嵌入进行罗马文学的动态主题建模原标题: Historia Magistra Vitae: Dynamic Topic Modeling of Roman Literature using Neural Embeddings
作者: Michael Ginn, Mans Hulden
机构: 科罗拉多大学
择要: 动态主题模型被提出作为历史剖析工具,但传统方法的实用性有限,难以配置、阐明和评估。在这项事情中,我们考试测验了一种最近的动态主题建模方法,利用BERT嵌入。我们比较了利用传统统计模型(LDA和NMF)和基于BERT的模型构建的主题模型,在全体罗马文学幸存语料库上建模主题。我们创造,虽然定量指标更青睐统计模型,但定性评估创造神经模型供应了更好的见地。此外,神经主题模型对超参数配置不太敏感,因此可能使动态主题建模对历史研究职员更具可行性。
论文链接: https://arxiv.org/pdf/2406.18907
cs.CL: Sonnet or Not, Bot? 大模型和数据集的诗歌评估原标题: Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets
作者: Melanie Walsh, Anna Preus, Maria Antoniak
机构: 华盛顿大学 人工智能艾伦研究所
择要: 大措辞模型(LLMs)现在可以天生和识别各种风格和流派的文本,包括高度专业化、创意性强的流派,比如诗歌。但是LLMs对诗歌究竟理解多少?它们能理解诗歌的哪些方面?我们开拓了一个任务,评估LLMs对诗歌的一个特定方面——诗歌形式的识别能力,涵盖英语措辞中20多种形式和形式元素。诗歌形式涵盖了许多不同的诗歌特色,包括押韵方案、格律和单词或行的重复。我们利用这个任务来反思LLMs当前的诗歌能力,以及为诗歌和其他创意任务创建自然措辞处理基准的寻衅和陷阱。特殊是,我们利用这个任务来审查和反思盛行的预演习数据集中包含的诗歌。我们的研究结果对付对模型评估感兴趣的自然措辞处理研究职员、数字人文和文化剖析学者以及文化遗产专业人士具有主要意义。
论文链接: https://arxiv.org/pdf/2406.18906
cs.CL: 我们能教会措辞模型来注释濒危措辞吗?原标题: Can we teach language models to gloss endangered languages?
作者: Michael Ginn, Mans Hulden, Alexis Palmer
机构: 科罗拉多大学
择要: 逐字逐句文本(IGT)是措辞文档项目中常见的格式,个中每个语素都标有描述性注释。自动创建逐字逐句文本可以减少注释者的事情量,并保持注释语料库的同等性,因此具有吸引力。先前的研究已做生意量了许多统计和神包办法,用于自动产生IGT。 由于大措辞模型(LLMs)在跨多措辞任务中展现出了令人期待的成果,乃至对付罕有的濒危措辞也是如此,自然而然地会想知道它们是否可以用于天生IGT的任务。我们磋商了LLMs是否能够通过高下文学习在逐字逐句标注任务上发挥浸染,而无需任何传统的演习。我们提出了选择示例以供应高下文的新方法,不雅观察到有针对性的选择可以显著提高性能。我们创造,基于LLM的方法击败了标准的Transformer基线,只管根本不须要任何演习。这些方法仍旧不及该任务的最前辈监督系统,但对付NLP社区之外的研究职员来说非常实用,利用起来须要很少的事情量。
论文链接: https://arxiv.org/pdf/2406.18895
cs.CL: 措辞模型自我对弈在非零和博弈中的有效性原标题: Efficacy of Language Model Self-Play in Non-Zero-Sum Games
作者: Austen Liao, Nicholas Tomlin, Dan Klein
机构: 加州大学伯克利分校
择要: 像AlphaGo这样的游戏智能体通过自我对弈实现了超越人类的表现,在竞技游戏中,这理论上能够担保产生最佳策略。然而,大多数措辞任务是部分或完备互助的,因此一个悬而未决的问题是,像自我对弈这样的技能是否能有效地用于改进措辞模型。我们在一个被称为《百万大奖》(DoND)的会谈游戏设置中从履历上对这个问题进行了研究。在DoND中,关键在于可以修正目标,以产生一个完备互助的游戏,一个严格竞争的游戏,或者介于两者之间的任何情形。我们针对这些目标在DoND中通过多轮经由筛选的行为克隆对措辞模型进行自我对弈的微调。与预期相反,我们创造措辞模型的自我对弈在与人类的互助和竞争中都导致了显著的性能提升,这表明自我对弈和干系技能具有潜力,只管缺少理论担保。
论文链接: https://arxiv.org/pdf/2406.18872
cs.CL: SSP:自监督提示,利用大措辞模型进行跨措辞转移到低资源措辞原标题: SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models
作者: Vipul Rathore, Aniruddha Deb, Ankish Chandresh, Parag Singla, Mausam
机构: 印度理工学院 新德里 印度
择要: 最近,非常大的措辞模型(LLMs)仅通过高下文学习(ICL)在几个英语自然措辞处理任务上表现出色,但它们在其他措辞中的效用仍未被充分探索。我们调查它们在低资源措辞(LRLs)中自然措辞处理任务的有效性,特殊是在零标记跨措辞转移(0-CLT)设置中,目标措辞没有标记的演习数据可用的情形下——然而,利用一个或多个干系的中等资源措辞(MRLs)的演习数据,以及目标措辞的可用未标记测试数据。我们引入了自监督提示(SSP),这是一种针对0-CLT设置的新型ICL方法。
SSP基于这样一个关键不雅观察:如果高下文示例来自目标措辞,LLMs会输出更准确的标签(纵然它们的标签略有喧华)。为了实现这一点,由于0-CLT中目标措辞的演习数据不可用,SSP分为两个阶段。在第一阶段,利用源MRL演习数据,目标措辞的测试数据被喧华地标记。在第二阶段,这些喧华的测试数据点被用作ICL中的示例,以进一步改进标记。此外,我们的SSP实现利用一种基于整数线性方案(ILP)的示例选择方法,平衡相似性、预测置信度(如果可用)和标签覆盖。对三个任务和十一个LRLs(来自三个地区)的实验表明,在0-CLT设置中,SSP明显优于现有的SOTA微调和基于提示的基线方法。
论文链接: https://arxiv.org/pdf/2406.18880
cs.CL: ChatGPT 自我纠正在放射学报告简化中的双重人类评估原标题: Two-Pronged Human Evaluation of ChatGPT Self-Correction in Radiology Report Simplification
作者: Ziyu Yang, Santhosh Cherian, Slobodan Vucetic
机构: 康奈尔大学 医院
择要: 放射学报告是针对年夜夫之间互换的高度技能性文件。越来越多的人对与患者分享这些报告产生了兴趣,这就须要为他们供应原始报告的患者友好简化版本。本研究磋商了大措辞模型在自动天生这些简化版本方面的适用性。我们研究了在这一领域中链式思维和自我纠正提示机制的实用性。我们还提出了一种新的评估协议,该协议涉及放射科年夜夫和普通人,个中放射科年夜夫验证简化版本的事实精确性,普通人评估简化版本的大略性和理解性。我们的实验结果表明,自我纠正提示在天生高质量简化版本方面的有效性。我们的研究结果阐明了放射科年夜夫和普通人在文本简化方面的偏好,为未来在这一领域的研究供应了信息。
论文链接: https://arxiv.org/pdf/2406.18859
Github: https://github.com/ziyu-yang/human-evaluation
cs.CL: FFN:一个细粒度的中英文金融领域平行语料库原标题: FFN: a Fine-grained Chinese-English Financial Domain Parallel Corpus
作者: Yuxin Fu, Shijing Si, Leyi Mai, Xi-ang Li
机构: 上外洋国语大学 经济与金融学院 教诲学院
择要: 大措辞模型(LLMs)在机器翻译领域取得了惊人的进展,只管它们在金融领域的有效性仍旧未被充分探索。为了磋商这个问题,我们构建了一个名为FFN的细粒度中英文金融***平行语料库。我们从CNN、FOX和中国日报等主流媒体网站获取了2014年1月1日至2023年12月31日期间的金融***文章。该数据集包括1,013篇正文和809个标题,所有内容均经由人工校正。我们利用BLEU、TER和chrF分数作为评估指标,衡量了两个LLMs(ChatGPT和ERNIE-bot)的翻译质量。为了进行比较,我们还基于我们的数据集演习了一个基于OpenNMT模型。我们详细先容了LLMs的问题,并供应深入剖析,旨在引发对这一尚未被充分开拓的领域进行进一步研究和解决方案。我们的研究强调了在金融翻译领域优化LLMs以确保准确性和质量的必要性。
论文链接: https://arxiv.org/pdf/2406.18856
cs.CL: 学习检索增强个性化对话天生原标题: Learning Retrieval Augmentation for Personalized Dialogue Generation
作者: Qiushi Huang, Shuai Fu, Xubo Liu, Wenwu Wang, Tom Ko, Yu Zhang, Lilian Tang
机构: 萨里大学 南方科技大学 字节跳动AI实验室
择要: 个性化对话天生,着重于通过利用人物资料和对话高下文天生高度定制的回答,在会话式人工智能运用中引起了广泛关注。然而,人物资料,在当前个性化对话数据集中普遍存在的设置,常日只由四到五句话组成,可能无法供应关于智能体的人物全面描述,这给天生真正个性化对话带来了寻衅。为理解决这个问题,我们提出了\textbf{L}earning Retrieval \textbf{A}ugmentation for \textbf{P}ersonalized \textbf{D}ial\textbf{O}gue \textbf{G}eneration(\textbf{LAPDOG}),该方法研究了利用外部知识进行人物对话天生的潜力。详细而言,所提出的LAPDOG模型包括一个故事检索器和一个对话天生器。故事检索器利用给定的人物资料作为查询,从故事文档中检索干系信息,这些信息作为补充高下文来增强人物资料。对话天生器利用对话历史和增强的人物资料来天生个性化回答。为了优化,我们采取了一个联合演习框架,共同学习故事检索器和对话天生器,个中故事检索器被优化以达到期望的终极指标(例如BLEU),以检索内容供对话天生器天生个性化回答。在利用ROCStory作为补充数据源的CONVAI2数据集上进行的实验表明,所提出的LAPDOG方法明显优于基线方法,表明了所提出方法的有效性。LAPDOG模型代码已公开可用供进一步探索。此 https URL
论文链接: https://arxiv.org/pdf/2406.18847
Github: https://github.com/hqsiswiliam/LAPDOG
cs.CL: OutlierTune:大措辞模型的高效通道量化原标题: OutlierTune: Efficient Channel-Wise Quantization for Large Language Models
作者: Jinguang Wang, Yuexi Yin, Haifeng Sun, Qi Qi, Jingyu Wang, Zirui Zhuang, Tingting Yang, Jianxin Liao
机构: 北京邮电大学 彭成实验室
择要: 对大措辞模型(LLMs)的激活进行量化一贯是一个主要寻衅,这是由于存在构造化非常值。大多数现有方法侧重于对激活进行每个标记或每个张量的量化,这使得很难同时实现准确性和硬件效率。为理解决这个问题,我们提出了OutlierTune,这是一种针对LLMs激活的高效的每通道后演习量化(PTQ)方法。OutlierTune包括两个组件:去量化和对称化的预实行。去量化的预实行通过激活缩放因子更新模型权重,避免了由每通道激活量化带来的内部缩放和昂贵的额外打算开销。对称化通过确保不同激活通道之间平衡的数值范围进一步减少了由权重更新引起的量化差异。OutlierTune易于实现且硬件高效,在推断期间险些不会引入额外的打算开销。大量实验证明,所提出的框架在多个不同任务上优于现有方法。展示出更好的泛化性,该框架改进了指令调度LLMs(如OPT-IML)的Int6量化,使其达到与半精度(FP16)相同的水平。此外,我们已经证明,所提出的框架比FP16实现快1.48倍,同时减少了约2倍的内存利用量。
论文链接: https://arxiv.org/pdf/2406.18832
cs.CL: 驯服数据和Transformer进行音频天生原标题: Taming Data and Transformers for Audio Generation
作者: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Sergey Tulyakov, Vicente Ordonez
机构: 莱斯大学 Snap 公司
择要: 天生环境声音和效果是一个具有寻衅性的问题,这是由于数据稀缺和常日不敷的字幕质量,这使得难以为这一任务利用大规模天生模型。在这项事情中,我们通过引入两个新模型来办理这个问题。首先,我们提出了AutoCap,一个高质量且高效的自动音频字幕模型。我们展示通过利用音频模态可用的元数据,我们可以显著提高字幕的质量。AutoCap 达到了83.2的CIDEr分数,比现有最佳字幕模型提高了3.2%,而推理速率快了四倍。然后我们利用AutoCap为现有数据集中的片段添加字幕,得到了761,000个带有高质量字幕的音频片段,形成了目前最大的可用音频文本数据集。其次,我们提出了GenAu,一个可扩展的基于Transformer的音频天生架构,我们将其扩展到了1.25B参数,并利用我们的新数据集进行演习。与最前辈的音频天生器比较,GenAu在FAD分数上得到了15.7%的显著改进,在IS长进步了22.7%,在CLAP分数长进步了13.5%,表明天生的音频质量较之前的作品有了显著提高。这表明数据的质量常日和数量一样主要。此外,由于AutoCap是完备自动的,新的音频样本可以添加到演习数据集中,从而解锁了用于音频合成的更大天生模型的演习。
论文链接: https://arxiv.org/pdf/2406.19388
cs.CL: LLM的显著鲁棒性:推理阶段?原标题: The Remarkable Robustness of LLMs: Stages of Inference?
作者: Vedang Lad, Wes Gurnee, Max Tegmark
机构: 麻省理工学院 IAIFI
择要: 我们通过删除和交流相邻层来展示和研究大措辞模型的显著鲁棒性。我们创造,在没有微调的情形下,删除和交流干预可以保留原始模型预测准确度的72-95\%,而具有更多层的模型表现出更强的鲁棒性。基于逐层干预和进一步实验的结果,我们假设存在跨八个不同模型的四个通用推理阶段:去标记化、特色工程、预测集成和残差锐化。第一阶段整合了局部信息,将原始标记表示提升为更高等别的高下文表示。接下来是对任务和实体特定特色的迭代细化。然后,模型的后半部分开始进入一个相变阶段,个中由于专门的模型组件,隐蔽表示更加与词汇空间对齐。末了,末了一层通过肃清添加噪音的过期特色来锐化接下来的标记分布。
论文链接: https://arxiv.org/pdf/2406.19384
Github: https://github.com/vdlad/remarkable-robustness-of-llms
cs.CL: 利用大措辞模型天生的先验知识来启动匪贼问题原标题: Jump Starting Bandits with LLM-Generated Prior Knowledge
作者: Parand A. Alamdari, Yanshuai Cao, Kevin H. Wilson
机构: 多伦多大学 矢量研究所 Borealis AI
择要: 我们提出了大措辞模型(LLMs)与高下文多臂老虎机框架集成的好处的大量证据。高下文老虎机在推举系统中被广泛利用,根据用户特定的高下文天生个性化建议。我们展示了LLMs在丰富人类知识和偏好的大量语料库上进行预演习,可以仿照人类行为得足够好,以启动高下文多臂老虎机,从而减少在线学习遗憾。我们提出了一个初始化算法,通过提示LLMs天生一个用于老虎机的近似人类偏好的预演习数据集。这显著减少了演习这种模型的在线学习遗憾和数据网络本钱。我们的方法通过两组不同老虎机设置的实验证明:一组利用LLMs作为神谕,另一组利用来自共同调查实验的数据的真实天下实验。
论文链接: https://arxiv.org/pdf/2406.19317
cs.CL: 用于文本分类的脉冲卷积神经网络原标题: Spiking Convolutional Neural Networks for Text Classification
作者: Changze Lv, Jianhan Xu, Xiaoqing Zheng
机构: 复旦大学 Shanghai Key Laboratory of Intelligent Information Processing
择要: 脉冲神经网络(SNNs)供应了一种有希望的路子,可以以更节能的办法实现深度神经网络(DNNs),由于它们的神经元被稀疏激活,并且推断是事宜驱动的。然而,很少有研究表明SNN在措辞任务中的有效性,部分缘故原由因此脉冲形式表示单词并通过SNN处理可变长度文本并非易事。这项事情提出了一种“转换 + 微调”两步方法,用于演习SNN进行文本分类,并提出了一种大略但有效的方法,将预演习的词嵌入编码为脉冲列。我们履历证明,在利用替代梯度进行微调后,转换后的SNN在多个英文和中文数据集上实现了与其DNN对应物相称的结果,且能耗大大降落。我们还展示了这种SNN比DNN更具抗滋扰攻击的鲁棒性。
论文链接: https://arxiv.org/pdf/2406.19230
cs.CL: HuatuoGPT-Vision,致力于将医学视觉知识大规模注入多模态大措辞模型原标题: HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
作者: Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
机构: 深圳大数据研究院 喷鼻香港中文大学深圳分校 国家康健数据研究院
择要: 多模大措辞模型(MLLMs)如GPT-4V等的快速发展已经带来了重大进展。然而,由于医疗视觉文本数据的数量和质量受限于数据隐私和高昂的标注本钱,这些模型在医疗多模能力方面仍旧面临寻衅。虽然一些首创性方法利用PubMed的大规模去标识化医学图像文本对来办理这些限定,但由于固有的数据噪音,它们仍旧存在不敷。为理解决这个问题,我们从PubMed中精髓精辟了医学图像文本对,并利用MLLMs(GPT-4V)以“非盲目”的办法对数据进行去噪和重构,从而创建了包含130万个医学VQA样本的PubMedVision数据集。我们的验证表明:(1)PubMedVision可以显著增强当前MLLMs的医学多模能力,在包括MMMU康健与医学赛道在内的基准测试中显示出显著改进;(2)医学专家的手动检讨和履历结果验证了我们数据集相对付其他数据构建方法的卓越数据质量。利用PubMedVision,我们演习了一个34B医学MLLM HuatuoGPT-Vision,在开源MLLMs中在医学多模场景中表现出卓越性能。
论文链接: https://arxiv.org/pdf/2406.19280
cs.CL: 从人工针到真实草垛:通过在合成数据上微调来提高大措辞模型的检索能力原标题: From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data
作者: Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos
机构: 威斯康星大学麦迪逊分校
择要: 最近的研究表明,大措辞模型(LLMs)在处理长文本输入时,准确检索信息并保持推理能力方面存在困难。为理解决这些限定,我们提出了一种微调方法,利用精心设计的合成数据集,包括数字键-值检索任务。我们在诸如GPT-3.5 Turbo和Mistral 7B之类的模型上进行的实验表明,在这个数据集上微调LLMs显著改进了LLMs在更长高下文环境中的信息检索和推理能力。我们对微调模型进行了剖析,解释了从合成到真实任务评估的技能转移(例如,GPT-3.5 Turbo在20个文档MDQA的第10位置上的10.5\%改进)。我们还创造,微调的LLMs在通用基准测试中的表现险些保持不变,而在其他基线长高下文增强数据上微调的LLMs可能会引发幻觉(例如,在TriviaQA上,Mistral 7B在我们的合成数据上微调不会导致性能低落,而在其他基线数据上可能导致低落范围从2.33\%到6.19\%不等)。我们的研究突出了在合成数据上微调以提高LLMs在更长高下文任务中性能的潜力。
论文链接: https://arxiv.org/pdf/2406.19292
cs.CL: 办理措辞模型打算最优缩放的差异原标题: Resolving Discrepancies in Compute-Optimal Scaling of Language Models
作者: Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon
机构: 空字符串
择要: Kaplan等人和Hoffmann等人为最佳模型大小与打算预算的关系开拓了有影响力的缩放定律,但这些定律得出了截然不同的预测。我们通过在两个数据集(OpenWebText2和RefinedWeb)上重现Kaplan的缩放定律,并确定了导致差异的三个成分:末了一层的打算本钱、预热持续韶光和规模干系的优化器调度。在纠正这些成分后,我们与Hoffmann等人(即“Chinchilla”)的缩放定律取得了极好的同等性。与Hoffmann等人的假设相反,我们创造精心设计的学习率衰减对付他们缩放定律的有效性并非必要。作为次要结果,我们推导出了最佳学习率和批量大小的缩放定律,创造在较低批量大小时调度AdamW的\beta_2参数是必要的。
论文链接: https://arxiv.org/pdf/2406.19146
Github: https://github.com/formll/resolving-scaling-law-discrepencies
cs.CL: 通过构造化时空对齐增强***措辞表示原标题: Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment
作者: Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-Seng Chua, Shuicheng Yan
机构: 清华大学 新加坡国立大学
择要: 在预演习大规模***措辞模型(VLMs)方面已经展现出在各种下贱***措辞任务中具有显著潜力,但现有的VLMs仍旧可能受到某些常见限定的影响,例如,粗粒度跨模态对齐,韶光动态的欠建模,***措辞视图的分离。在这项事情中,我们旨在利用一种细粒度构造化时空对齐学习方法(即Finsta)来增强VLMs。首先,我们利用细粒度场景图(SG)构造来表示输入文本和***,这两者进一步统一为一个整体SG(HSG)以桥接两种模态。然后,构建一个基于SG的框架,个中文本SG(TSG)由图Transformer编码,而***动态SG(DSG)和HSG则采取一种新颖的循环图Transformer进行空间和韶光特色传播建模。进一步设计了一种空间-韶光高斯差分图Transformer,以加强工具在空间和韶光维度上的变革感知。接下来,基于TSG和DSG的细粒度构造特色,我们分别实行以工具为中央的空间对齐和以谓词为中央的韶光对齐,增强***措辞在空间性和韶光性上的根本。我们将我们的方法设计为一种即插即用的系统,可以集成到现有演习良好的VLMs中,以进一步增强表示,而无需从头开始演习或依赖下贱运用中的SG注释。在标准和长***场景中的12个数据集上进行了6个代表性的VL建模任务,Finsta持续改进现有的13个表现强劲的VLMs,并在微调和零样本设置中显著刷新了当前最前辈的终极任务性能。
论文链接: https://arxiv.org/pdf/2406.19255
cs.CL: 通过前端适应网络增强 ASR 对数据包丢失的鲁棒性原标题: Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network
作者: Yehoshua Dissen, Shiry Yonash, Israel Cohen, Joseph Keshet
机构: 以色列理工学院(Technion – Israel Institute of Technology)
择要: 在自动语音识别(ASR)领域,喧华环境下的稳健性仍旧是一个主要寻衅。最近的ASR模型,比如Whisper,显示出了潜力,但它们在喧华条件下的有效性可以进一步提高。本研究专注于从数据包丢失中规复,以改进ASR模型的词缺点率(WER)。我们提出利用一个前端适应网络连接到一个冻结的ASR模型。适应网络经由演习,通过最小化ASR模型的标准以及一个增强丢失函数来修正受损输入频谱。我们的实验表明,基于Whisper标准演习的适应网络,在数据包丢失场景中显著降落了跨领域和跨措辞的词缺点率。这种改进在最小影响Whisper模型根本性能的情形下实现,突显了我们方法在增强ASR模型在具有寻衅性的声学环境中的实用性和潜力。
论文链接: https://arxiv.org/pdf/2406.18928
cs.CL: 运用大措辞模型对非正式对话的N-best ASR假设进行重新评分:领域适应和高下文通报的影响原标题: Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over
作者: Atsunori Ogawa, Naoyuki Kamo, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Takatomo Kano, Naohiro Tawara, Marc Delcroix
机构: NTT Corporation, Japan
择要: 大措辞模型(LLMs)已成功运用于重新评分自动语音识别(ASR)假设。然而,它们重新评分非正式对话的ASR假设的能力尚未得到充分探索。在这项研究中,我们通过在CHiME-7远场ASR(DASR)任务上利用Llama2实行N-best ASR假设重新评分来揭示这一点。Llama2是最具代表性的LLMs之一,而CHiME-7 DASR任务供应了多个参与者之间的非正式对话数据集。我们研究了LLM的领域适应效果以及在实行N-best重新评分时高下文通报的影响。实验结果表明,纵然没有领域适应,Llama2也优于标准尺寸的经由领域适应的Transformer-LM,特殊是在利用长高下文时。领域适应缩短了利用Llama2须要的高下文长度以实现最佳性能,即减少了Llama2的打算本钱。
论文链接: https://arxiv.org/pdf/2406.18972
cs.CL: 针对无限字母表的寄存器自动机和转换器的单次利用限定原标题: The single-use restriction for register automata and transducers over infinite alphabets
作者: Rafał Stefański
机构: 空字符串
择要: 这篇论文研究了对无限字母表上的寄存器自动机和转换器的单次利用限定。该限定哀求对寄存器的读取访问应具有毁坏其内容的副浸染。这种约束导致了措辞和转换的强大种别。对付自动机模型,我们展示了单向寄存器自动机、双向寄存器自动机和轨道有限幂等具有相同的表达能力。对付转换器模型,我们展示了单次利用的Mealy机和单次利用的双向转换用具有Krohn-Rhodes分解定理的版本。此外,单次利用的Mealy机等效于一种称为本地代数半群转换的代数模型。此外,我们展示了单次利用的双向转换器等效于无限字母表上的单次利用流式字符串转换器(SSTs)和具有原子的正则列表函数。 与之前的事情arXiv:1907.10504比较,这篇论文供应了关于单次利用限定的连贯阐述。我们引入了单次利用函数的抽象观点,并用它们来定义所有谈论的单次利用模型。我们还先容并研究了本地半群转换和本地有理半群转换的代数模型。
论文链接: https://arxiv.org/pdf/2406.18934
其他链接: https://arxiv.org/abs/1907.10504
cs.CL: RoboUniView:具有统一视图表示的视觉-措辞模型,用于机器人操作原标题: RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton
作者: Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma
机构: 美团 北京 中国 深圳
择要: 利用视觉-措辞模型(VLMs)进行机器人操作代表了一种新颖的范式,旨在增强模型对新工具和指令的泛化能力。然而,由于摄像头规格和安装位置的变革,现有方法在不同机器人平台上表现出显著的性能差异。为理解决这一寻衅,我们在本文中提出了RoboUniView,这是一种创新方法,将视觉特色提取与动作学习分离。我们首先通过在易于获取的数据上进行预演习,从多角度视图中学习统一的视图表示,然后从这个统一的视图表示中导出动作来掌握机器人操作。这种统一的视图表示更准确地反响了物理天下,并不受机器人平台摄像头参数的限定。由于这种方法论,我们在具有寻衅性的CALVIN基准测试中取得了最前辈的性能,将D \to D设置中的成功率从88.7%提高到96.2%,将ABC \to D设置中的成功率从82.4%提高到94.2%。此外,我们的模型表现出出色的适应性和灵巧性:在看不见的摄像头参数下保持高性能,可以利用具有不同摄像头参数的多个数据集,并能够跨数据集进行联合跨任务学习。供应了代码以供重新实现。此处为链接:https://...
论文链接: https://arxiv.org/pdf/2406.18977
Github: https://github.com/liufanfanlff/RoboUniview
cs.CL: DeSTA:通过描述性语音文本对齐增强措辞模型原标题: DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment
作者: Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, He Huang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee
机构: 国立***大学 NVIDIA
择要: 最近的语音措辞模型(SLMs)常日整合了预演习的语音模型,以扩展大措辞模型(LLMs)的能力。在本文中,我们提出了一种描述性语音-文本对齐方法,利用语音字幕来弥合语音和文本模态之间的差距,使SLMs能够阐明和天生全面的自然措辞描述,从而促进理解语音中的措辞和非措辞特色的能力。通过提出的方法增强,我们的模型在Dynamic-SUPERB基准测试中表现出优胜性能,特殊是在泛化到未见任务方面。此外,我们创造,对齐模型展现出了零样本指令遵照能力,无需显式语音指令调度。这些创造突显了通过整合丰富的描述性语音字幕来重塑指令遵照SLMs的潜力。
论文链接: https://arxiv.org/pdf/2406.18871