Bootstrap

用ChatGPT进行酒店评论情感分析

现在,许多开发人员已经使用并测试过这款聊天机器人来尝试开发他们的代码和AI想法。当然,这款聊天机器人的使用严格取决于你的背景。例如,如果你是一名Web开发人员,你会要求ChatGPT使用HTML构建一个网站。如果您是一名测试人员,您可以请求ChatGPT帮助您查找特定系统中的错误。

就我个人来说,我是一名研究人员。特别是,我所做的工作是用人工智能建立一些替代模型。比如说,你想对“A”进行研究,但要实现“A”任务你需要大量的资金、人力和计算时间。这种替代模型背后的想法就是,借助人工智能的数据驱动方法来取代传统的实现方案。

现在,让我们暂时彻底改变这一话题。

假设我是一名企业家,我在美国各地拥有很多酒店。如果对某家酒店进行了一定的评论,我想知道该评论对该酒店来说是好还是坏。我该怎么做?我有三个选择:

  1. 我雇佣一个每天阅读数百万条评论并对其进行分类的人,那么我可能会被捕,因为这显然是对人权的侵犯。

  2. 我雇佣一个每天阅读数百条评论并对其进行分类的人。几个月后,我能够用这些信息构建一个数据集。然后,我从这个数据集中训练出一个机器学习模型。

  3. 我会自动生成好的和坏的评论。然后,由我自己从中构建了一个数据集,最后我从该数据集中训练出一个机器学习模型。

闲言少叙,让我们跳过第一个选择方案。

第二个选项是在ChatGPT诞生之前要做的事情。显然,你不能提前知道评论是好是坏;所以,如果你想使用此信息建立一个数据集,那么你需要雇佣人员,等到数据集准备好才能行动。

如今,我们有了ChatGPT,就可以简单地要求它来为我们生成好的和坏的评论!这将需要几分钟(而不是几个月)的时间,它将允许我们构建机器学习算法来自动分类我们的客户评论!

恭喜你,这是你的第一个代理模型。

请记住,我们不会训练ChatGPT或进行任何微调。对于这样的任务,此模型是例外的,在这种情况下不需要进行微调。现在,ChatGPT模型的训练当然不是开源的(就像模型本身一样)。我们所知道的只是​​OpenAI官方博客​​中的简短描述。他们解释说,该模型是由人工智能训练师和强化学习监督算法训练的。

仅OpenAI的ChatGPT不是开源的这一事实就引发了一些非常棘手和有趣的伦理问题。这样一个强大的模型应该是开源的——这样每个人(包括坏人)都可以使用它,还是应该不是开源的?所以,没有人可以真正信任它?

现在,让我概括一下上面的总体步骤:
在这里插入图片描述

你从上图中看到的小脑壳就是代理模型。正如我们稍后将看到的,这将是一个随机的森林。但我曾经说过本文是一篇实战性的文章,所以让我们深入研究吧!

一、生成数据集

第一步是使用OpenAI公司的Python API生成模拟。

为此,需要考虑的几件事有:

1.OpenAI库是天才为非天才用户创造的。因此,如果要安装它,只需执行以下操作:

pip install --upgrade openai

2.当然,如果你想发送大量请求,你必须为优质服务提供支付。假设我们不想这样做,我们只需要等待大约30分钟就可以获得虚拟评论信息的数据集。同样,如果我们手动执行此操作,那么这与等待数月的时间(和成本)相比微不足道。此外,您还必须登录OpenAI官方网站并获得OpenAI库对应的密钥。

3.我们将自动输入这是一个好的评价还是一个差的评价,以相同的句子开头:“This hotel was terrible.”表示差评,“This hotel was great.”表示好评。总之,ChatGPT将为我们完成审查工作。当然,除了前四个单词(无论如何我们都不会在评论中包含),其余的评论都会有所不同。

让我举一个差评的例子:

import openai
import time
openai.api_key = "your_key"

completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
print(completion.choices[0]['text'])

接下来,我再举一个好评的例子:

completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
print(completion.choices[0]['text'])

现在,我们给出生成整个数据集所需的代码。

good_reviews = 
;