关注即可获取arXiv每日论文自动推送;
如果您有任何问题或建议,请公众号留言。
[如果您觉得本公众号对你有帮助,就是我们最大的荣幸]
今日 cs.AI方向共计19篇文章。Artificial Intelligence(15篇)[1]:Auto-Model: Utilizing Research Papers and HPO Techniques to Deal with the CASH problem
标题:自动建模:利用研究论文和HPO技术处理现金问题
作者:Chunnan Wang, Hongzhi Wang, Tianyu Mu, Jianzhong Li, Hong Gao
备注:12 pages, 3 figures
链接:https://arxiv.org/abs/1910.10902
摘要:在许多领域中,为了解决同一类问题,人们提出了大量具有完全不同超参数的算法。正确选择算法和超参数设置可以大大提高系统的整体性能,但由于缺乏知识,用户往往无法做到这一点。如何帮助用户快速有效地为给定的任务实例选择合适的算法和超参数设置是当前一个重要的研究课题,即现金问题。本文设计了自动建模方法,充分利用了相关研究文献中的已知信息,引入了超参数优化技术,有效地解决了现金问题。自动建模极大地降低了算法实现成本和超参数配置空间,从而能够高效、简便地处理现金问题。为了说明Auto模型的优点,我们将其与经典的Auto-Weka方法进行了比较。实验结果表明,该方法能在较短的时间内取得较好的效果。[2]:How robots in a large group make decisions as a whole? From biological inspiration to the design of distributed algorithms
标题:一大群机器人如何作为一个整体做出决策?从生物灵感到分布式算法设计
作者:Gabriele Valentini
备注:journal article
链接:https://arxiv.org/abs/1910.11262
摘要:大自然为我们提供了大量的例子,说明在没有中央政府协调的情况下,有多少个人能够做出决定。群居的昆虫、鸟类、鱼类和许多其他生物集体,都依靠简单的相互作用机制来实现。它们各自从环境中收集信息;大得多的图片中的一小部分,然后在集体成员之间本地共享,并一起处理,以输出共同商定的选择。在整个进化过程中,自然发现了集体决策问题的解决方案,这些问题对工程师们来说是耐人寻味的,因为它们对故障或丢失的个体的鲁棒性、面对动态环境的灵活性以及它们与大量成员的规模的能力。在过去的几十年里,生物学家积累了大量的实验证据,工程师们从这些例子和其他例子中获得灵感,设计出分布式算法,在保持与自然算法相同特性的同时,以预测数学模型的形式保证算法的性能。本文回顾了导致集体决策的基本过程。我们讨论了生物系统中集体决策的例子,并展示了如何设计类似的过程来设计人工决策。在此过程中,我们回顾了一个设计分布式决策算法的框架,该框架是模块化的,可以以不同的方式实例化和扩展,并由一套预测数学模型支持。[3]:Simple Strategies in Multi-Objective MDPs (Technical Report)
标题:多目标MDPs中的简单策略(技术报告)
作者:Florent Delgrange, Joost-Pieter Katoen, Tim Quatmann, Mickael Randour
链接:https://arxiv.org/abs/1910.11024
摘要:我们考虑在马尔可夫决策过程(MDPs)中同时验证多个期望报酬目标。这使得能够通过获得帕累托前沿在多个目标之间进行权衡分析。我们专注于易于使用和实施的战略。也就是说,策略是纯粹的(没有随机化)和有界的记忆。我们证明,即使对于两个目标,用纯平稳策略来检验一个点是否可达到是NP完全的,并且我们提供了MILP编码来解决相应的问题。有界存储情形可以通过乘积构造化为平稳情形。使用\Storm和Gurobi的实验结果表明了我们算法的可行性。[4]:Taxonomy of Real Faults in Deep Learning Systems
标题:深度学习系统中真实故障的分类
作者:Gunel Jahangirova, Nargiz Humbatova, Gabriele Bavota, Vincenzo Riccio, Andrea Stocco, Paolo Tonella
链接:https://arxiv.org/abs/1910.11015
摘要:深部神经网络在安全关键领域的应用日益广泛,使得对此类系统中发生的故障进行分析具有非常重要的意义。本文介绍了深度学习(DL)系统中的一个大型故障分类法。我们手动分析了从GitHub提交和使用最流行的DL框架(TensorFlow、Keras和PyTorch)的项目问题以及相关堆栈溢出帖子中收集的1059个人工制品。对20名研究人员和实践者进行的结构化访谈,描述了他们在经历中遇到的问题,丰富了我们的分类法,并发现了其他两个来源没有出现的各种额外错误。我们的最终分类法通过一项涉及21名开发人员的调查得到了验证,证实了几乎所有的故障类别(13/15)都至少有50%的调查参与者经历过。[5]:Learning Hierarchical Control for Robust In-Hand Manipulation
标题:鲁棒手操作的学习递阶控制
作者:Tingguang Li, Krishnan Srinivasan, Max Qing-Hu Meng, Wenzhen Yuan, Jeannette Bohg
链接:https://arxiv.org/abs/1910.10985
摘要:机器人手操作一直是一个长期的挑战,由于复杂的建模手和物体的接触和协调手指运动复杂的操作序列。为了应对这些挑战,之前的大部分工作要么集中在基于模型的低级控制器上,要么集中在无模型的深度强化学习上,每个控制器都有自己的局限性。我们提出了一种层次化的方法,该方法依赖于传统的基于模型的控制器(低层)和学习的策略(中层)。低级控制器可以可靠地执行不同的操作原语(reposing、sliding、flipping)。中级策略协调这些原语。我们用一只控制细长物体三自由度的三指手对我们的模拟方法进行了广泛的评估。我们证明,我们的方法可以在工作空间中几乎所有可能的姿势之间移动对象,同时保持对象被牢牢抓住。我们还证明了我们的方法对目标模型的不精确性和观测噪声具有鲁棒性。最后,我们将展示我们的方法如何推广到其他形状的对象。[6]:Multi-channel Speech Separation Using Deep Embedding Model with Multilayer Bootstrap Networks
标题:基于多层Bootstrap网络深度嵌入模型的多通道语音分离
作者:Ziye Yang, Xiao-Lei Zhang
链接:https://arxiv.org/abs/1910.10912
摘要:Recently, deep clustering (DPCL) based speaker-independent speech separation has drawn much attention, since it needs little speaker prior information. However, it still has much room of improvement, particularly in reverberant environments. If the training and test environments mismatch which is a common case, the embedding vectors produced by DPCL may contain much noise and many small variations. To deal with the problem, we propose a variant of DPCL, named DPCL++, by applying a recent unsupervised deep learning method---multilayer bootstrap networks(MBN)---to further reduce the noise and small variations of the embedding vectors in an unsupervised way in the test stage, which fascinates k-means to produce a good result. MBN builds a gradually narrowed network from bottom-up via a stack of k-centroids clustering ensembles, where the k-centroids clusterings are trained independently by random sampling and one-nearest-neighbor optimization. To further improve the robustness of DPCL++ in reverberant environments, we take spatial features as part of its input. Experimental results demonstrate the effectiveness of the proposed method.[7]:UniGrasp: Learning a Unified Model to Grasp with N-Fingered Robotic Hands
标题:unigrass:用n指机械手学习统一的抓取模型
作者:Lin Shao, Fabio Ferreira, Mikael Jorda, Varun Nambiar, Jianlan Luo, Eugen Solowjow, Juan Aparicio Ojea, Oussama Khatib, Jeannette Bohg
链接:https://arxiv.org/abs/1910.10900
摘要:为了获得一个成功的抓取,包括几何和运动学在内的抓取器属性对目标物体的几何起着同样重要的作用。以往的大部分工作都集中在发展抓取方法上,这些方法概括了新的物体几何,但特定于某个机器人手。提出了一种有效的数据驱动抓取综合方法unigrass,该方法以物体几何特征和抓取器属性为输入。unigrass基于一种新的深度神经网络结构,它从对象的输入点云中选择接触点集。该模型是在一个大数据集上进行训练,产生的接触点是在力封闭和机器人手可以到达的。通过使用接触点作为输出,我们可以在一组不同的n指机器人手之间进行转换。我们的模型在模拟的前10个预测中产生了超过90%的有效接触点,并且在各种已知的两指和三指夹持器的实际实验中获得了超过90%的成功抓持。该模型在一种新型的二指和五指拟人机器人手的实际抓取实验中,成功率分别达到93%和83%。[8]:Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
标题:元世界:多任务元强化学习的基准与评价
作者:Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
备注:CoRL 2019. Videos are here:this http URLand open-sourced codes are available at:this https URL
链接:https://arxiv.org/abs/1910.10897
摘要:元强化学习算法通过利用以前的经验来学习如何学习,可以使机器人更快地获得新技能。然而,目前关于元强化学习的研究大多集中在任务分布非常窄的情况下。例如,一个常用的元强化学习基准使用不同的运行速度模拟机器人作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时,它们不可能更快速地获得全新的任务。因此,如果这些方法的目的是更快地获得全新的行为,那么我们必须在足够宽的任务分布上对它们进行评估,以便能够对新行为进行泛化。本文提出了一个开放源代码的元强化学习和多任务学习模拟基准,由50个不同的机器人操作任务组成。我们的目标是使开发算法成为可能,这些算法可以推广到加速获取全新的、延迟的任务。我们评估了6种最新的元强化学习和多任务学习算法。令人惊讶的是,虽然每一个任务及其变化(例如,不同的目标位置)都可以被合理地成功地学习,但这些算法却难以同时学习多个任务,即使只有10个不同的训练任务。我们的分析和开放源代码环境为多任务学习和元学习的未来研究铺平了道路,这些方法可以实现有意义的泛化,从而充分挖掘这些方法的潜力。[9]:Preventing Adversarial Use of Datasets through Fair Core-Set Construction
标题:通过公平核心集构造防止数据集的对抗性使用
作者:Benjamin Spector, Ravi Kumar, Andrew Tomkins
备注:6 pages, 2 figures, NeurIPS 2019 Privacy In Machine Learning Workshop (PriML 2019)
链接:https://arxiv.org/abs/1910.10871
摘要:我们建议通过只发布策略性选择的包含实例子集的数据的“核心集”来改进数据集的隐私属性。核心集允许在主要任务上有很强的性能,但强制在不需要的任务上有很差的性能。我们给出了线性模型和神经网络的方法,并证明了它们对数据的有效性。[10]:Attention-based Curiosity-driven Exploration in Deep Reinforcement Learning
标题:基于注意的好奇心驱动的深度强化学习探索
作者:Patrik Reizinger, Márton Szemenyei
备注:Submitted to ICASSP2020, 5 pages, 8 figures, 2 tables
链接:https://arxiv.org/abs/1910.10840
摘要:强化学习能够通过与环境的交互来训练代理。然而,在现实世界的大多数场景中,外部反馈是稀疏的或不充分的,因此需要内在的奖励公式来成功地训练代理。这项工作调查并扩展了好奇心驱动的探索范式。首先,采用概率方法来挖掘注意机制的优点,并成功地应用于其他领域的深度学习。结合它们,我们提出了一些新的方法,如AttA2C,Actor-Critic框架的扩展。其次,扩展了另一种基于好奇心的方法ICM。该模型利用注意力来强调ICM中动态模型的特征,并对损失函数进行了修正,得到了一种新的好奇心公式,称之为理性好奇心。相应的实现可以在这个https URL中找到。[11]:Partially Detected Intelligent Traffic Signal Control: Environmental Adaptation
标题:部分检测的智能交通信号控制:环境适应
作者:Rusheng Zhang, Romain Leteurtre, Benjamin Striner, Ammar Alanazi, Abdullah Alghafis, Ozan K. Tonguz
备注:Accepted by ICMLA 2019
链接:https://arxiv.org/abs/1910.10808
摘要:部分检测的智能交通信号控制(PD-ITSC)系统可以基于有限的检测信息优化交通信号,是未来缓解交通拥挤的一种经济有效的解决方案。在这篇文章中,我们着重讨论PD-ITSC中的一个特殊问题—适应不断变化的环境。为此,我们研究了不同的强化学习算法,包括Q-学习,近端策略优化(PPO),优势演员评论家(A2C),演员评论家与克罗内克因子信任区域(ACKTR)。我们的研究结果表明,RL算法可以在部分车辆检测的情况下找到最优策略,但是基于策略的算法比基于价值的算法更能适应不断变化的环境。我们利用这些发现得出结论,不同模型对PD-ITSC系统的价值。[12]:High-Confidence Policy Optimization: Reshaping Ambiguity Sets in Robust MDPs
标题:高置信度策略优化:重构鲁棒MDP中的模糊集
作者:Bahram Behzadian, Reazul Hasan Russel, Marek Petrik
链接:https://arxiv.org/abs/1910.10786
摘要:在强化学习中,鲁棒MDP是一个很有前途的计算鲁棒策略的框架。模糊集代表了转换概率中的似是而非的错误,它决定了稳健性和平均用例性能之间的权衡。不幸的是,使用$l_1$norm定义模糊集的标准实践导致了松散和不切实际的保证。本文提出了一种新的模糊集形状优化方法。我们推导了加权$l_1$和加权$l_infty$模糊集的新的高置信度抽样界,并描述了如何从粗值函数估计中计算接近最优的权重。在不同基准集上的实验结果表明,优化后的模糊集提供了更严格的鲁棒性保证。[13]:Diversifying Database Activity Monitoring with Bandits
标题:利用Bandits实现数据库活动监视的多样化
作者:Hagit Grushka-Cohen, Ofer Biller, Oded Sofer, Lior Rokach, Bracha Shapira
链接:https://arxiv.org/abs/1910.10777
摘要:数据库活动监视(DAM)系统是组织用来保护组织数据、知识和知识产权的常用系统。为了保护组织,数据库DAM系统有两个主要角色,监视(记录活动)和异常活动警报。由于高速流和运行成本,此类系统仅限于检查活动的样本。当前的解决方案使用由专家手工编制的策略来决定要监视和记录哪些事务。这限制了所收集数据的多样性。Bandit算法以奖励函数作为优化的基础,同时在推荐集上加入多样性,在提高多样性的推荐系统中得到了越来越多的关注。
本文将数据采样问题重新定义为多臂Bandit(MAB)问题的一个特例,提出了一种专家知识与随机搜索相结合的新算法。我们使用模拟数据集分析了多样性对覆盖率和下游事件检测任务的影响。在这样做时,我们发现,增加多样性的采样使用基于BIDIT的方法很好地为这个任务和最大化人口覆盖率,而不降低质量方面发出警报事件。[14]:End-to-End Multi-Task Denoising for the Joint Optimization of Perceptual Speech Metrics
标题:联合优化感知语音度量的端到端多任务去噪
作者:Jaeyoung Kim, Mostafa El-Khamy, Jungwon Lee
备注:5 pages, submitted to ICASSP 2020. arXiv admin note: substantial text overlap witharXiv:1901.09146
链接:https://arxiv.org/abs/1910.10707
摘要:虽然基于深度神经网络的监督学习最近已经在语音增强方面取得了实质性的改进,但是现有的方案有两个关键问题:频谱或度量失配。频谱失配是短时傅立叶变换(STFT)后的任何频谱修正,通常在短时傅立叶变换(ISTFT)后都不能完全恢复的问题。度量失配是传统的均方误差(MSE)损失函数通常是次优的,以最大化感知语音测量,例如信号失真比(SDR)、语音质量的感知评价(PESQ)和短时目标可懂度(STOI)。本文提出了一种新的端到端去噪框架。首先,对ISTFT后的时域信号进行网络优化,以避免频谱失配。其次,提出了基于SDR、PESQ和STOI的三种损耗函数,以最小化度量失配。实验结果表明,所提出的去噪方案显著提高了现有方法的SDR、PESQ和STOI性能。[15]:Deep learning enabled laser speckle wavemeter with a high dynamic range
标题:具有深度学习功能的高动态范围激光散斑波谱仪
作者:Roopam K. Gupta, Graham D. Bruce, Simon J. Powis, Kishan Dholakia
链接:https://arxiv.org/abs/1910.10702
摘要:最近研究表明,当激光被无序介质散射时产生的散斑图能提供令人惊讶的精确或宽带波长测量。本文表明,深度学习是利用散斑波谱仪分析波长变化的理想方法,因为它能够识别趋势并克服复杂数据集中的低信噪比。这种组合能够在一个步骤中在高分辨率和宽工作范围内进行波长测量,这在以前的方法中是不可能的。在488nm到976nm的工作范围内,我们展示了阿托米尺度的波长分辨率。这个动态范围超出了最先进水平的六个数量级。NLP方向重复(4篇)[1]:Predicting In-game Actions From the Language of NBA Players
标题:从NBA球员的语言预测比赛中的动作
作者:Nadav Oved, Amir Feder, Roi Reichart
链接:https://arxiv.org/abs/1910.11292
摘要:体育竞赛在计算机和社会科学领域有着广泛的研究,目的是了解运动员在不确定性下的行为。虽然基于过去的表现,在玩家指标预测方面有大量的计算工作,但很少有人尝试将游戏外信号合并。具体来说,之前还不清楚从球员面试中收集到的语言信号是否可以添加绩效指标中没有的信息。为了弥补这一差距,我们定义了文本分类任务来预测NBA球员在比赛前的语言选择与策略选择、球员行为和风险相关的比赛中动作偏离均值的情况。我们收集了一组来自NBA关键球员赛前采访的成绩单和他们在比赛中的表现指标,共有5226个采访指标对。我们根据开放式访谈中语言信号越来越复杂的方面,设计了运动员动作预测的神经模型。我们的模型可以根据文本信号单独进行预测,也可以结合来自过去性能指标的信号进行预测。我们的基于文本的模型优于仅基于性能度量的强基线,证明了语言使用对于动作预测的重要性。此外,采用文本输入和过去性能指标的模型产生了最佳结果。最后,由于众所周知,神经网络很难解释,我们提出了一种方法来进一步深入了解我们的模型所学到的知识。特别是,我们提出了一个基于LDA的分析,在这里我们根据相关主题解释模型预测。我们发现,我们表现最好的文本模型与直观地与每个预测任务相关联的主题最为相关,并且更好的模型与信息量更大的主题产生更高的相关性。[2]:Diversifying Topic-Coherent Response Generation for Natural Multi-turn Conversations
标题:自然多回合会话中话题连贯反应生成的多样化
作者:Fei Hu, Wei Liu, Ajmal Saeed Mian, Li Li
链接:https://arxiv.org/abs/1910.11161
摘要:虽然单回合对话的反应生成(RG)多样化已经得到了很好的发展,但是对于自然的多回合对话的反应生成的研究较少。此外,过去的工作侧重于使答复多样化,而不考虑主题与上下文的一致性,从而产生不具启发性的答复。在本文中,我们提出了主题相关的层级递归编码器-解码器模型(THRED),以在不偏离多回合对话的上下文主题的情况下,使生成的响应多样化。总的来说,我们建立了一个序列到序列网络(Seq2Seq)来模拟多回合对话。然后利用隐变量递阶递归编解码模型(VHRED)来学习对话的全局上下文分布。此外,我们还构造了一个密集的主题矩阵,该矩阵表示会话语料库的词级关联。话题矩阵用于学习上下文话语的局部话题分布。通过整合全球语境分布和本地话题分布,THRED可以产生多样化和话题连贯的回答。此外,我们还提出了一个显式度量(\emph{TopicDiv})来度量post和生成的响应之间的主题差异,并且我们还提出了一个结合了多样化度量(\emph{Distinct})和\emph{TopicDiv}的总体度量。在两个真实语料库上,我们分别用Seq2Seq、HRED和VHRED三个基线对模型进行了评价,并证明了模型在多样化和话题连贯性方面的突出表现。[3]:Enforcing Reasoning in Visual Commonsense Reasoning
标题:视觉常识推理中的强化推理
作者:Hammad A. Ayyubi, Md. Mehrab Tanjim, David J. Kriegman
链接:https://arxiv.org/abs/1910.11124
摘要:视觉常识推理的任务是极具挑战性的,因为模型不仅要能够回答给定图像的问题,还要能够学会推理。这项任务中引入的基线非常有限,因为两个网络分别训练用于预测答案和基本原理。训练应答预测网络以问题和图像为输入,基本原理预测网络以问题、图像和正确答案为输入。由于理论基础是以正确答案为条件的,所以它是基于这样一个假设:我们可以解决视觉问答任务而不会出现任何错误——这是一个过于雄心勃勃的假设。此外,这种方法使答案和理论基础预测成为两个完全独立的VQA任务,使得认知任务变得毫无意义。在本文中,我们试图通过提出一个端到端的可培训模型来解决这些问题,该模型同时考虑了答案和原因。具体来说,我们首先预测问题的答案,然后使用选择的答案来预测基本原理。然而,这样一个模型的微小设计变得不可微,这使得训练变得困难。我们提出了四种方法来解决这个问题:softmax,gumbel-softmax,基于强化学习的抽样和直接交叉熵对所有答案和原理。我们通过实验证明,我们的模型与当前的最新技术相比具有竞争力。最后,我们对提出的方法进行了分析,并讨论了进一步工作的途径。[4]:Relation Module for Non-answerable Prediction on Question Answering
标题:问答不可回答预测的关系模型
作者:Kevin Huang, Yun Tang, Jing Huang, Xiaodong He, Bowen Zhou
链接:https://arxiv.org/abs/1910.10843
摘要:近年来,随着具有挑战性的阅读理解数据集的增加,机器阅读理解(MRC)受到了广泛的关注。在这篇文章中,我们的目标是提高MRC模型的能力,以确定一个问题是否有一个给定的背景下的答案(例如,最近提出的SQuAD 2.0任务)。我们的解决方案是一个适用于任何MRC模型的关系模块。关系模块由语义提取和关系信息两部分组成。我们首先使用多头自关注池从问题和上下文中提取高级语义作为对象。这些语义对象随后被传递到关系网络,该网络为句子中的每个对象对生成关系分数。这些分数用来确定一个问题是否是不可回答的。我们使用BiDAF和BERT模型作为基线阅读器,在SQuAD 2.0数据集上测试关系模块。在BiDAF阅读器的基础上,我们得到了F1的1.8%的增益,在BERT基模型的基础上,我们得到了1.0%的增益。这些结果显示了我们的关系模块在MRC上的有效性。中文来自机器翻译,仅供参考。
扫描二维码
获取更多精彩
arXiv Daily

欢迎关注、转发、点击在看