让机器像人一样流畅写作的AI技术探索-程序员充电站

让机器像人一样流畅写作的AI技术探索

人工智能是否可以帮助有抱负的作者撰写小说？或者指导人们提高写作质量？机器能学会如何讲笑话吗？受这些问题启发，计算机科学家Jiao Sun在作为南加州大学博士候选人期间，一直在探索AI生成文本的潜力。在去年春天于某中心的Alexa AI完成为期四个月的实习后，她现在正以2022-23学年度某中心机器学习研究员的新身份开始她的旅程，并希望继续开发能够增强人类与AI之间互动的文本生成模型。

虽然Sun对自然语言生成的潜力充满热情，但她同样认为，开发能够提升人类对机器生成内容控制能力的工具至关重要。对于文本生成模型近年来的流行度激增，她也持谨慎乐观态度。“看到近年来文本生成领域出现越来越多优秀的模型，我感到非常兴奋，”她说，“这有助于激发文本生成领域的更多创新，但也可能使一些研究、甚至整个研究方向过时。就我个人而言，我的研究理念是致力于那些与模型选择无关且本身具有创造性的研究。”

她的研究目标之一是提高生成内容的质量、公平性和可靠性，以实现她所说的“可信文本生成”。例如，她和同事最近调查了人类和机器撰写的贺卡信息中存在的性别刻板印象。这项研究获得了2022年CHI人机交互国际会议的最佳论文荣誉提名，并促成了一种旨在对抗这些偏见的写作辅助工具的开发。

“这非常重要，因为我们可以看到机器有潜力生成很酷的内容，但我们不希望它们自由地创造任何东西，”Sun说，“我们希望确保机器生成的内容是公平的、基于知识的，并且我们希望人类能够控制其输出。”

保护作者隐私

Sun的研究员项目仍处于早期阶段，但她希望在项目期间探索的一个研究领域是利用AI确保作者隐私，她将其视为可信文本生成的另一个方面。她指出，自然语言处理技术可用于根据作者的写作风格推断文章和文档的作者身份，尤其是当该作者在网上发表多篇文章时。但是，如果出于某种原因，作者希望保持匿名呢？

“我们正在思考如何以保持文本语义的方式重写内容，同时保护作者身份不被泄露，”Sun说。其理念是开发能够重新表述内容的AI模型，以移除可能暴露作者身份的风格特征。

在该项目中，Sun的导师是某中心Alexa AI的应用科学家Qian Hu，她们定期联系讨论研究进展。“这不仅对我的职业生涯有帮助，仅仅与另一位聪明人建立这种联系，就能帮助我将研究方向引向正轨，”她说。

理解幽默的挑战

在去年春天于某中心实习期间，Sun参与了被2022年自然语言处理经验方法会议（EMNLP）收录的两篇论文工作。这两篇论文都探索了向机器解释幽默这一具有挑战性的任务。Sun指出，我们常常想当然地认为理解简单的双关语需要具备相关知识。但想象一下，必须向非母语人士或小孩解释一个文字游戏。

“为了让机器理解笑话，它们需要从庞大的知识库中学习，”她说。

Sun和她的合著者首先开发了一个名为“ExPUNations”的双关语关键词和解释数据集。她在现有的双关语数据集上工作，要求标注者评估给定文本是否旨在成为一个笑话、他们认为有多好笑，以及好笑之处在哪里。以这个笑话为例：“寿司对蜜蜂说了什么？‘Wasabi（芥末）。’”

“如果我作为标注者，我会说这很有趣，因为‘wasabi’听起来像‘What‘s up, bee?（蜜蜂，你好吗？）’。这就是它的笑点所在，”Sun说。标注者还被要求选择双关语的关键词。在这个例子中，关键词是“寿司”、“蜜蜂”和“wasabi”。

“我们不仅收集了双关语本身的解释，还收集了人类进行推理所需的基本事实，”Sun说。其结果是得到了一个增强的数据集，可用于训练模型来解释双关语，并基于关键词生成新的双关语。

Sun作为实习生开发的第二项工作旨在基于给定的语境生成双关语。她和合著者解释道，之前的双关语生成研究通常选择一个给定的双关词作为起点来生成合适的笑话。而在她的研究中，起点是语境，即笑话发生的给定场景。最初的目标是识别适合该语境的双关词，然后生成与该场景相适应的双关语。

“在我们有了那个双关词之后，我们将语境和双关词结合起来，生成一个真正有趣的双关语，”Sun说。

人工评估显示，该系统检索到的双关词中，有69%可用于生成与语境相关的双关语。对于合理的语境和双关词组合，该系统能够成功生成双关语的比例达到31%。

Sun认为，这类研究可以增强人们在与AI互动时的参与感。“想象一下，如果你正在与Alexa交谈，它能理解语境并告诉你一个适合该语境的笑话，那不是很酷吗？”她设想道。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

让机器像人一样流畅写作的AI技术探索