为了用户更好的应用GPT-4,最近OpenAI官方亲自下手,推出了《GPT最佳实践》,主要包括六个方面17个优化策略。并且官方鼓励大家进行实验,找到合适自己的方法,我这里对该文档做了翻译并且将所有案例跑了一遍,基本都没有问题,通过案例的学习,大家一定能进一步提升基于上下文向ChatGPT问问题的能力。
一、提供清晰的指示
如果描述的不够清楚,GPT 可能无法读懂您的想法。如果你希望得到简洁的回答,就要求GPT给出简洁的回答。如果你希望它给出更专业的回答,那就要求它以专家的身分来回答。如果你想输出指定的格式,那就指定格式,或者给出示例给他看。你给出的要求越明确,它就越有可能给出符合你预期的答案。
1、在您的问题中包含详细信息以获得更相关的答案
为了获得高度相关的回复,请确保请求提供任何重要的细节或上下文。否则,您将让模型去猜测您的意思。
示例1:
Worse:如何在Excel中添加数字?
Better:如何在Excel中累加一行美元金额?我希望自动为整个工作表的行累加,并将所有总和显示在右侧的名为“Total”的列中。
示例2:
Worse:编写计算斐波那契数列的代码。
Better:编写一个高效计算斐波那契数列的TypeScript函数。在代码中添加详细注释,解释每个部分的作用以及为什么采用这种写法。
示例3:
Worse:总结会议记录。
Better:用一段话概括会议记录。然后,以Markdown列表的形式列出发言者及其关键观点。最后,列出发言者建议的下一步或行动事项(如果有的话)。
2、要求模型采用指定角色
即在对话中,让模型采用一个特定的人物角色来回答问题。系统消息可以用来指定模型在回复中使用的人物角色,系统消息是指ChatGPT模型生成的额外信息,用于指导模型的回复。系统消息可以包含一些指令、提示或者特定的上下文信息,以影响模型生成的回答。通过系统消息,我们可以告诉模型采用特定的角色、语气或行为方式来回答问题,以达到更具针对性的对话效果。
示例:
(1)设置系统消息
当我请求帮助来撰写某些内容时,你会回复一个包含至少一个笑话或者玩味评论的文档,每个段落都会有。
(2)用户输入
写一封感谢信给我的钢螺栓供应商,感谢他们按时并在短时间内交付货物。这使得我们能够交付一份重要的订单。
(3)ChatGPT回复
亲爱的钢螺栓供应商,
我以最快速的速度写下这封信,因为我们知道你们对速度的尊重 - 你们交货的速度比螺栓旋得还快,这真是难以置信的表现。我们的感激之情,就像你们的螺栓一样,稳固且持久。
我们想向你们表达我们深深的感激之情,你们的优质服务让我们都感到有些"螺栓紧绷"。有时候,一家公司的成功取决于它如何应对压力,像螺栓在面临扭矩时的表现一样。我们感到非常幸运,能够找到一家像你们这样能够迅速响应并交付货物的供应商。
你们的快速交货能力,就像螺栓那样,旋进了我们公司的成功之中。我们在很短的时间内完成了一个重要的订单,这对我们来说就像成功地将一个钢螺栓旋入正确的位置。没错,这样的比喻也许有些"紧绷",但是这真的是我们现在的感受。
我们的团队就像一台精密的机器,但这台机器的每一个部分都需要适当的螺栓来固定。你们的快速和准时交货,就像螺栓的紧固作用一样,让我们的机器运转得更加流畅。你们真的是我们的"螺栓使者",将我们紧急需要的螺栓快速、准确地送到了我们手中。
最后,我想说的是,你们真的让我们的螺栓期望提高了一个档次。你们不仅以超乎我们期望的速度完成了交货,而且交付的产品质量也非常高。这真是一个“螺栓惊喜”!我们希望这种紧密的合作关系能持续下去,就像我们的螺栓一样,坚固不移。
你们真正将“紧固”提升到了一个全新的层次,我们在此表示衷心的感谢。请继续保持这种"螺栓快速"的服务,我们期待着在未来的项目中再次与你们合作。
谨此致谢,
[你的名字]
[你的公司名字]
3、使用分隔符清楚地指示输入的不同部分
使用三重引号、XML标签、章节标题等分隔符可以帮助标示文本的不同部分,以便进行不同的处理。对于简单的任务,使用定界符可能不会对输出质量产生影响。然而,任务越复杂,消除任务细节的歧义就越重要。
示例:
(1)设置系统消息
您将获得论文摘要和建议的标题。论文标题应该让读者对论文的主题有一个很好的了解,但也应该引人注目。如果标题不符合这些标准,建议 5 个备选方案。
(2)用户输入
论文摘要: 数据中台的核心思想是将企业内外部的各类数据整合到一个集中的平台中,通过数据整合和标准化,消除数据孤岛,实现数据的高质量和一致性。同时,数据中台通过服务化的方式,将数据资源以API的形式向各个部门提供,使得数据能够被快速、灵活地应用于业务场景中。这种集中管理和服务化的数据架构,使得企业能够更好地实现数据的价值最大化
标题:数据中台
(3)ChatGPT回复
建议的标题:
数据中台:实现企业数据整合与服务化
数据中台:解决数据孤岛的关键架构
数据中台:构建高质量一致性数据平台
数据中台:推动企业数据驱动决策的支撑系统
数据中台:数据资源价值最大化的关键路径
4、指定完成任务所需的步骤
有些任务最好指定为一系列步骤。明确地写出步骤可以使模型更容易遵循它们。
示例:
(1)设置系统消息
使用以下分步说明响应用户输入。
第 1 步 - 用户将用三重引号为您提供文本。在一个句子中总结这段文字,并加上一个前缀“摘要:”
第 2 步 - 将第 1 步中的摘要翻译成西班牙语,并加上前缀“翻译:”
(2)用户输入
““”我的儿子今年高考,作为父亲的每天忐忑不安,祈祷儿子考试发挥正常"""
(3)ChatGPT回复
摘要: 作为父亲,我对儿子的高考感到忐忑不安,每天都在祈祷他能正常发挥。
翻译: Como padre, me siento ansioso por el examen de ingreso a la universidad de mi hijo, y todos los días rezo para que pueda desempeñarse de manera normal.
5、提供示例
通用指导适用所有任务,但有时候提供具体的示例可能更为简单,比如你希望模型复制一种文学的风格,这种风格往往难以明确描述,这就需要示例。
示例:
(1)设置系统消息
用一致的风格回答
(2)用户输入
教我耐心
(3)ChatGPT回复
开辟最深山谷的河流从温和的泉水流出;最伟大的交响乐源于一个音符;最复杂的挂毯始于一根单独的线。
(4)用户输入
教我海洋
(5)ChatGPT回复
海洋是一个巨大的咸水体,覆盖了地球表面的 70% 以上。它是无数海洋生物的家园,从小型浮游生物到大型鲸鱼,在调节地球气候方面发挥着至关重要的作用。海洋的力量在其波浪、潮汐和洋流中显而易见,既令人敬畏又危险。它的深处在很大程度上仍未被探索,蕴藏着继续吸引和着迷我们的谜团。海洋提醒人们注意大自然令人难以置信的多样性和力量,以及我们保护和维护它的责任。
6、指定所需的输出长度
您可以要求模型生成指定目标长度的输出。目标输出长度可以根据词数、句子数、段落数、项目符号等进行指定。然而,请注意,仅仅指示模型生成特定数量的词可能无法高精度实现。模型在生成特定数量的段落或项目符号方面更可靠。
示例:
(1)用户输入
用25个词总结三重引号内的文本:
"""阿波罗计划,又称阿波罗计划,是美国国家航空航天局(NASA)实施的第三次美国载人航天计划,在1968年至1972年间成功地准备并使第一批人类登上月球 . 它最初是在 1960 年德怀特·D·艾森豪威尔总统执政期间被设想为三人航天器,以跟随单人水星计划,该计划将第一批美国人送入太空。阿波罗后来致力于约翰·肯尼迪总统的国家目标 1961 年 5 月 25 日在国会发表的讲话中提出“让一个人登上月球并安全返回地球”的 1960 年代。这是美国第三次飞行的载人航天计划,之前是双子座计划 1961 扩展太空飞行能力以支持阿波罗计划。
肯尼迪的目标在阿波罗 11 号任务中实现,当时宇航员尼尔·阿姆斯特朗和巴兹·奥尔德林于 1969 年 7 月 20 日登陆他们的阿波罗登月舱 (LM),并在月球表面行走,而迈克尔·柯林斯则留在指挥和服务舱的月球轨道上 (CSM),三人于 7 月 24 日安全降落在太平洋的地球上。随后的五次阿波罗任务也将宇航员送上了月球,最后一次是 1972 年 12 月的阿波罗 17 号。在这六次太空飞行中,十二人走在月球上 月亮。"""
(2)ChatGPT回复
阿波罗计划是美国NASA的第三次载人航天计划,成功使人类登上月球。从1968年到1972年,共有六次太空飞行,十二人走在月球上。
二、提供参考文本
GPT 可以自信地编造假答案,尤其是当被问及深奥的话题或引用和 URL 时。就像一张笔记可以帮助学生在考试中取得更好的成绩一样,为 GPT 提供参考文本可以帮助以更少的捏造来回答。
1、指示模型使用参考文本回答
如果我们可以为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来撰写其答案。
示例:
(1)设置系统消息
使用由三重引号分隔的文章来回答问题。如果在文章中找不到答案,写“我找不到答案”
(2)用户输入
“”“阿波罗计划,又称阿波罗计划,是美国国家航空航天局(NASA)实施的第三次美国载人航天计划,在1968年至1972年间成功地准备并使第一批人类登上月球 . 它最初是在 1960 年德怀特·D·艾森豪威尔总统执政期间被设想为三人航天器,以跟随单人水星计划,该计划将第一批美国人送入太空。阿波罗后来致力于约翰·肯尼迪总统的国家目标 1961 年 5 月 25 日在国会发表的讲话中提出“让一个人登上月球并安全返回地球”的 1960 年代。这是美国第三次飞行的载人航天计划,之前是双子座计划 1961 扩展太空飞行能力以支持阿波罗计划“”“ 问题:阿波罗计划是第几次美国载人航天计划?
(3)ChatGPT回复
阿波罗计划是美国的第三次载人航天计划。
2、指示模型使用参考文本中的引用来回答
如果输入已补充相关知识,则可以直接要求模型通过引用所提供文档中的段落来为其答案添加引文。请注意,输出中的引用可以通过提供的文档中的字符串匹配以编程方式进行验证。
示例:
(1)设置系统信息
您将获得一份由三重引号和一个问题分隔的文件。您的任务是仅使用提供的文件回答问题,并引用用于回答问题的文件中的段落。如果文档不包含回答此问题所需的信息,则只需写上:“信息不足”。如果提供了问题的答案,则必须用引文进行注释。使用以下格式引用相关段落 ({"citation": …})。
(2)用户输入
"""蒸汽机是一种以蒸汽为工作流体进行机械工作的热力发动机。蒸汽机利用蒸汽压力产生的力推动活塞在气缸内来回运动。这种推力可以转化为, 连杆和曲柄,转化为做功的旋转力。术语“蒸汽机”通常仅适用于刚刚描述的往复式发动机,而不适用于蒸汽轮机。蒸汽机是外燃机,其中工作流体与工作流体分离 燃烧产物。用于分析此过程的理想热力循环称为朗肯循环。在一般用法中,术语蒸汽机可以指完整的蒸汽设备(包括锅炉等),例如铁路蒸汽机车和便携式发动机,或 可单独指活塞或涡轮机,如梁式发动机和固定式蒸汽机。
尽管蒸汽驱动装置早在公元一世纪的风动泵就为人所知,在 16 世纪还有一些其他用途的记录,但在 1606 年,Jerónimo de Ayanz y Beaumont 为他发明的第一台用于矿井排水的蒸汽动力水泵申请了专利 . Thomas Savery 被认为是第一个商用蒸汽动力设备的发明者,这是一种使用蒸汽压力直接作用于水的蒸汽泵。托马斯·纽科门 (Thomas Newcomen) 于 1712 年开发了第一台商业上成功的发动机,它可以将持续的动力传输给机器。詹姆斯瓦特在 1764 年做出了重大改进,将废蒸汽转移到单独的容器中进行冷凝,大大提高了每单位燃料消耗所获得的功量。到 19 世纪,固定式蒸汽机为工业革命的工厂提供动力。蒸汽机取代了明轮船上的船帆,蒸汽机车在铁路上运行。
直到 20 世纪初,往复式活塞式蒸汽机一直是主要的动力来源,当时电动机和内燃机设计的进步导致蒸汽机在商业用途中逐渐被取代。由于成本更低、运行速度更快和效率更高,汽轮机在发电领域取代了往复式发动机。
摘自https://en.wikipedia.org/wiki/Steam_engine"""
问题:第一台商业上成功的蒸汽机是什么?
(3)ChatGPT回复
托马斯·纽科门 (Thomas Newcomen) 于 1712 年开发了第一台商业上成功的发动机,它可以将持续的动力传输给机器。{"citation": "Thomas Newcomen 于 1712 年开发出第一台商业上成功的发动机,它可以将持续的动力传输给机器。"}
三、将复杂任务拆分为更简单的子任务
1、使用意图分类来识别与用户查询最相关的指令
对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。这个过程也可以递归地应用于将任务分解为一系列阶段。这种方法的优点是每个查询将仅包含执行任务下一阶段所需的指令,与使用单个查询执行整个任务相比,这可以降低错误率。这也可以降低成本,因为更大的提示运行成本更高。
示例:
(1)设置系统信息
您将收到客户服务查询。将每个查询分为主要类别和次要类别。以 json 格式提供带有键的输出:主要类别和次要类别。
主要类别:计费、技术支持、账户管理或一般查询。
计费-次要类别:
退订或升级
添加支付方式
收费说明
对收费提出异议
技术支持-次要类别:
故障排除
设备兼容性
软件更新
账户管理-次要类别:
重设密码
更新个人信息
关闭账户
账户安全
一般查询-次要类别:
产品信息
价钱
反馈
与人交谈
您将收到需要技术支持故障排除的客户服务查询。通过以下方式帮助用户:
请他们检查是否连接了进出路由器的所有电缆。请注意,电缆随时间松动是很常见的。
如果所有电缆都已连接但问题仍然存在,请询问他们使用的是哪种路由器型号
现在您将建议他们如何重新启动他们的设备:
-- 如果型号是 MTD-327J,建议他们按下红色按钮并保持 5 秒钟,然后等待 5 分
钟,然后再测试连接。
-- 如果型号是 MTD-327S,建议他们拔下并重新插入,然后等待 5 分钟,然后再
测试连接。
如果客户的问题在重启设备并等待 5 分钟后仍然存在,请通过输出 {"IT support
requested"} 将他们连接到 IT 支持。
如果用户开始询问与此主题无关的问题,请确认他们是否愿意结束当前有关故障排除的
聊天,并根据以下方案对他们的请求进行分类:
(2)用户输入
我需要互联网恢复工作。
(3)ChatGPT回复:
{"主要类别": "技术支持", "次要类别": "故障排除"}
(4)用户输入
如何进行故障排除
(5)ChatGPT回复:
当您遇到互联网连接问题时,可以按照以下故障排除步骤进行操作:
检查连接电缆:确保所有连接进出路由器的电缆都正确连接。请检查电缆是否插紧,没有损坏,并且没有松动。电缆随着时间的推移可能会松动。
路由器型号:请告诉我您使用的是哪种路由器型号,以便我能够提供更具体的建议和指导。
......
2、对于需要很长对话的对话应用,总结或过滤之前的对话
由于 GPT 具有固定的上下文长度,因此整个对话都包含在上下文窗口中的用户和助手之间的对话不能无限期地继续。这个问题有多种解决方法,其中之一是总结对话中的先前回合。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,该查询总结了部分对话,并且先前对话的摘要可以作为系统消息的一部分包含在内。或者,可以在整个对话过程中在后台异步总结先前的对话。
另一种解决方案是动态选择与当前查询最相关的对话的先前部分
3、分段总结长文档并递归构建完整摘要
为了总结一本非常长的文档,比如一本书,我们可以使用一系列查询来总结文档的每个部分。可以将部分摘要串联起来,并生成摘要的摘要。这个过程可以递归进行,直到整个文档被总结。如果在理解后面的部分时需要使用前面部分的信息,那么一个有用的技巧是在总结某一点的内容时,包括前面文本的运行摘要。OpenAI以前在使用GPT-3的变体进行研究时已经研究了这种用于总结书籍的方法的有效性。
四、给 GPT 时间“思考”
1、在匆忙下结论之前指示模型制定出自己的解决方案
有时,当我们明确指示模型给出具体的推理过程而不是直接给结果,往往比模型直接给出结果能得到更好的结果。例如,假设我们想要一个模型来评估学生对数学问题的解决能力。解决这个问题的最明显方法是简单地询问模型学生的答案是否正确。
示例1:
(1)设置系统信息
判断学生的答案是否正确
(2)用户输入
问题陈述:我正在建造一个太阳能装置,我需要帮助来计算财务。
土地成本 100 美元/平方英尺
我可以以 250 美元/平方英尺的价格购买太阳能电池板
我协商了一份维护合同,每年将花费我 10 万美元,外加每平方英尺 10 美元
运营第一年的总成本与平方英尺数的关系是多少?
学生的解答:令 x 为以平方英尺为单位的安装尺寸。
1.土地成本:100x
2.太阳能电池板成本:250x
3.维护费用:100,000+100x
总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
(3)ChatGPT回复
学生的答案是正确的
但是这位同学的解法其实是不正确的!我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。
示例2:
(1)设置系统信息
首先想出你自己解决问题的方法。然后将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在您自己完成问题之前,不要判断学生的解决方案是否正确。
(2)用户输入
问题陈述:我正在建造一个太阳能装置,我需要帮助来计算财务。
土地成本 100 美元/平方英尺
我可以以 250 美元/平方英尺的价格购买太阳能电池板
我协商了一份维护合同,每年将花费我 10 万美元,外加每平方英尺 10 美元
运营第一年的总成本与平方英尺数的关系是多少?
学生的解答:令 x 为以平方英尺为单位的安装尺寸。
1.土地成本:100x
2.太阳能电池板成本:250x
3.维护费用:100,000+100x
总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
(3)ChatGPT回复
设 x 是以平方英尺为单位的安装尺寸。
1.土地成本:100x
2.太阳能电池板成本:250x
3.维护费用:100,000+10x
总成本:100x + 250x + 100,000 + 10x = 360x + 100,000
学生的答案是错误的。他们在维护成本计算中犯了一个错误,使用 100x 而不是 10x。第一年运营的正确总成本是 360x + 100,000。
2、使用内心独白或一系列查询来隐藏模型的推理过程
前面的策略表明,模型在回答特定问题之前详细推理问题有时很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导应用程序中,我们可能希望鼓励学生自己找出答案,但模型对学生解决方案的推理过程可能会向学生揭示答案。
内心独白是一种可以用来缓解这种情况的策略。内心独白的想法是指示模型将本应对用户隐藏的输出部分放入结构化格式中,以便于解析它们。然后在将输出呈现给用户之前,对输出进行解析并仅使部分输出可见。
示例1:
(1)设置系统信息
按照以下步骤回答用户查询。
第 1 步 - 首先找出您自己的问题解决方案。不要依赖学生的解决方案,因为它可能不正确。将您为此步骤所做的所有工作用三重引号 (""") 括起来。
第 2 步 - 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。将您为此步骤所做的所有工作用三重引号 (""") 括起来。
第 3 步 - 如果学生犯了错误,请确定您可以在不给出答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三重引号 (""") 括起来。
第 4 步 - 如果学生犯了错误,请向学生提供上一步的提示(三引号外)。不要写“第 4 步 - ...”,而写“提示:”。
(2)用户输入
问题陈述:一个盒子里有 4 个红球和 6 个蓝球。从盒子中取出两个球,不放回原处。抽取的球一个是红色另一个是蓝色的概率是多少?
学生解:(4/10)*(6/9) = 24/90 = 4/15
(3)ChatGPT回复
第 1 步 - 首先找出您自己的问题解决方案。不要依赖学生的解决方案,因为它可能不正确。将您为此步骤所做的所有工作用三重引号 (""") 括起来。
"""盒子里总共有10个球,4个红球和6个蓝球。取出一个红球和一个蓝球,不放回,有两种可能的顺序:先红后蓝,或者先蓝后红。
如果我们先取红球(4个中的1个),然后取蓝球(6个中的1个),那么这种情况下的概率为 (4/10) * (6/9)。
如果我们先取蓝球(6个中的1个),然后取红球(4个中的1个),那么这种情况下的概率为 (6/10) * (4/9)。
这两种情况都可能发生,所以我们需要将两种情况的概率相加,即:(4/10) * (6/9) + (6/10) * (4/9) = 24/90 + 24/90 = 48/90 = 8/15"""
第 2 步 - 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。将您为此步骤所做的所有工作用三重引号 (""") 括起来。
"""学生的解决方案中,他只计算了一种情况(先取红球再取蓝球)的概率,没有计算另一种可能的情况(先取蓝球再取红球)的概率,然后将这两种情况的概率相加。因此,学生的解决方案是不正确的。"""
第 3 步 - 如果学生犯了错误,请确定您可以在不给出答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三重引号 (""") 括起来。
"""在给出提示时,我可以提示学生考虑两种抽取球的顺序(即先抽红球再抽蓝球,和先抽蓝球再抽红球)。然后将这两种情况的概率相加。"""
第 4 步 - 如果学生犯了错误,请向学生提供上一步的提示(三引号外)。不要写“第 4 步 - ...”,而写“提示:”。
提示:在这个问题中,你考虑了从盒子中先抽出红球再抽出蓝球的情况,但还有另外一种情况可能发生,那就是先抽出蓝球再抽出红球。你需要计算这两种情况的概率,然后将它们相加。
3、询问模型是否遗漏了之前传递的任何内容
假设我们正在使用一个模型来列出与特定问题相关的来源的摘录。在列出每个摘录后,模型需要确定是否应该开始编写另一个摘录或是否应该停止。如果源文档很大,模型通常会过早停止并且无法列出所有相关摘录。在这种情况下,通常可以通过使用后续查询提示模型来查找它在先前传递中遗漏的任何摘录来获得更好的性能。
示例1:
(1)设置系统信息
您将获得一份由三重引号分隔的文件。你的任务是选择与以下问题相关的摘录:“人工智能历史上发生了哪些重大的范式转变。”
确保摘录包含解释它们所需的所有相关上下文——换句话说,不要提取缺少重要上下文的小片段。以 JSON 格式提供输出,如下所示:
[{“摘录”:“...”},
...
{“摘录”:“...”}]
(2)用户输入
"""
人工智能(AI) 是智能——感知、综合和推断信息——由机器展示,而不是人类或其他动物展示的智能。完成此操作的示例任务包括语音识别、计算机视觉、(自然)语言之间的翻译以及其他输入映射。
人工智能应用包括高级网络搜索引擎(例如谷歌搜索)、推荐系统(YouTube、亚马逊和 Netflix 使用)、理解人类语音(例如 Siri 和 Alexa)、自动驾驶汽车(例如 Waymo)、生成或 创意工具(ChatGPT 和 AI 艺术)、自动决策以及在战略游戏系统(例如国际象棋和围棋)中的最高水平竞争。[1]
随着机器的能力越来越强,被认为需要“智能”的任务通常从 AI 的定义中删除,这种现象被称为 AI 效应。[2] 例如,光学字符识别经常被排除在被认为是人工智能的事物之外,成为一种常规技术。[3]
人工智能作为一门学科成立于 1956 年,在此后的几年里,它经历了数次乐观浪潮,[4][5] 随后是失望和资金流失(被称为“AI 寒冬”),[6 ][7] 随后是新方法、成功和新的资金。[5][8]人工智能研究尝试并放弃了许多不同的方法,包括模拟大脑、模拟人类问题解决、形式逻辑、大型知识数据库和模仿动物行为。在 21 世纪的头几十年,高度数学和统计的机器学习在该领域占据主导地位,而且这种技术已被证明非常成功,有助于解决整个工业界和学术界的许多具有挑战性的问题。[8][9]
人工智能研究的各个子领域都以特定目标和特定工具的使用为中心。人工智能研究的传统目标包括推理、知识表示、规划、学习、自然语言处理、感知以及移动和操纵物体的能力。[a] 通用智能(解决任意问题的能力)是该领域的长期研究目标之一 - 长期目标。[10] 为了解决这些问题,人工智能研究人员采用并整合了广泛的问题解决技术,包括搜索和数学优化、形式逻辑、人工神经网络以及基于统计学、概率论和经济学的方法。人工智能还借鉴了计算机科学、心理学、语言学、哲学和许多其他领域。
该领域建立在这样的假设之上,即人类智能“可以被如此精确地描述,以至于可以制造一台机器来模拟它”。[b]这引发了关于思维的哲学争论以及创造具有类人能力的人造生物的伦理后果 智力; 自古以来,神话、小说和哲学就曾探讨过这些问题。[12] 此后,计算机科学家和哲学家提出,如果人工智能的理性能力没有被引导到有益的目标,人工智能可能会成为人类生存的风险。[c]人工智能一词也因过度夸大人工智能的真正技术能力而受到批评。[13][14] ][15]“”“
(3)ChatGPT回复
[
{"摘录":"人工智能(AI) 是智能——感知、综合和推断信息——由机器展示,而不是人类或其他动物展示的智能。完成此操作的示例任务包括语音识别、计算机视觉、(自然)语言之间的翻译以及其他输入映射。"},
{"摘录":"人工智能作为一门学科成立于 1956 年,在此后的几年里,它经历了数次乐观浪潮,[4][5] 随后是失望和资金流失(被称为“AI 寒冬”),[6 ][7] 随后是新方法、成功和新的资金。[5][8]人工智能研究尝试并放弃了许多不同的方法,包括模拟大脑、模拟人类问题解决、形式逻辑、大型知识数据库和模仿动物行为。在 21 世纪的头几十年,高度数学和统计的机器学习在该领域占据主导地位,而且这种技术已被证明非常成功,有助于解决整个工业界和学术界的许多具有挑战性的问题。"},
{"摘录":"人工智能研究的各个子领域都以特定目标和特定工具的使用为中心。人工智能研究的传统目标包括推理、知识表示、规划、学习、自然语言处理、感知以及移动和操纵物体的能力。[a] 通用智能(解决任意问题的能力)是该领域的长期研究目标之一 - 长期目标。[10] 为了解决这些问题,人工智能研究人员采用并整合了广泛的问题解决技术,包括搜索和数学优化、形式逻辑、人工神经网络以及基于统计学、概率论和经济学的方法。人工智能还借鉴了计算机科学、心理学、语言学、哲学和许多其他领域。"},
{"摘录":"该领域建立在这样的假设之上,即人类智能“可以被如此精确地描述,以至于可以制造一台机器来模拟它”。[b]这引发了关于思维的哲学争论以及创造具有类人能力的人造生物的伦理后果 智力; 自古以来,神话、小说和哲学就曾探讨过这
些问题。"}
]
(4)用户输入
有更多相关的摘录吗?注意不要重复摘录。还要确保摘录包含解释它们所需的所有相关上下文——换句话说,不要提取缺少重要上下文的小片段。
(5)ChatGPT回复
抱歉,由于输入的文件只有这些信息,我无法提供更多相关的摘录。我已经提供了所有关于人工智能历史中的重大范式转变的信息,包括AI作为学科的创立,AI研究的不同阶段,如“AI寒冬”和21世纪初的机器学习的崛起,以及人工智能研究的目标和采用的方法。如果有更多的文本内容,我将能够提供更多相关的摘录。
五、使用外部工具
1、使用基于嵌入的搜索来实现高效的知识检索
如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,将有关电影的高质量信息(例如演员、导演等)添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索,以便在运行时将相关信息动态添加到模型输入中。
文本嵌入是一个向量,可以衡量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串靠得更近。这一事实以及快速向量搜索算法的存在意味着嵌入可用于实现高效的知识检索。特别是,一个文本语料库可以被分割成块,每个块都可以被嵌入和存储。然后可以嵌入给定的查询并执行向量搜索以从语料库中找到与查询最相关的嵌入文本块(即在嵌入空间中最接近)。
比如ChatGLM+LangChain就是一种开源的领域大模型解决方案,具体可以参考相关资料。
2、使用代码执行来执行更准确的计算或调用外部 API
不能依赖 GPT 自行准确地执行算术或长计算。在需要的情况下,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定的格式中,例如三重 backtics。生成输出后,可以提取并运行代码。最后,如果有必要,可以将代码执行引擎(即 Python 解释器)的输出作为输入提供给下一个查询的模型。
示例:
(1)设置系统信息
您可以通过将 Python 代码括在三重反引号中来编写和执行 Python 代码,例如代码在这里。使用它来执行计算。
(2)用户输入
找出以下多项式的所有实值根:3x**5 - 5x4 - 3*x3 - 7*x - 10。
(3)ChatGPT回复
为了找出多项式的所有实根,我们可以使用 Python 的 numpy 库中的 roots 函数。这个函数将计算出一个多项式的所有根(包括实根和复根)。为了只获取实根,我们可以过滤出那些虚部为零的根。
以下是对应的 Python 代码:
运行这段代码将会给出多项式 3x5 - 5x4 - 3x**3 - 7x - 10 的所有实根。
六、系统地测试变化
有时很难判断更改(例如,新指令或新设计)是否会使您的系统变得更好或更糟。查看几个示例可能会暗示哪个更好,但是样本量较小时,很难区分真正的改进还是随机的运气。也许这种变化有助于某些输入的性能,但会损害其他输入的性能。
评估程序(或“evals”)对于优化系统设计很有用。好的评价是:
代表现实世界的使用(或至少是多样化的)
包含许多测试用例以获得更大的统计能力(有关指南,请参见下表)
易于自动化或重复
1、参考黄金标准答案评估模型输出
假设已知问题的正确答案应该参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含了多少所需事实。
示例1:
(1)设置系统信息
您将获得由三重引号分隔的文本,这些文本应该是问题的答案。检查答案中是否直接包含以下信息:
尼尔阿姆斯特朗是第一个在月球上行走的人。
尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。
对于这些点中的每一个,执行以下步骤:
1 - 重申这一点。
2 - 引用最接近这一点的答案。
3 - 考虑阅读引文但不了解主题的人是否可以直接推断出这一点。在下定决心之前解释为什么或为什么不。
4 - 如果对 3 的回答是“是”,则写“是”,否则写“否”。
最后,提供有多少个“是”答案的计数。将此计数提供为 {"count":}。
(2)用户输入
"""尼尔阿姆斯特朗因成为第一个踏上月球的人类而闻名。这一历史性事件发生在 1969 年 7 月 21 日,阿波罗 11 号任务期间。"""
(3)ChatGPT回复
1 - 尼尔阿姆斯特朗是第一个在月球上行走的人。答案中的引文:"尼尔阿姆斯特朗因成为第一个踏上月球的人类而闻名。"考虑引文,尽管它没有直接说阿姆斯特朗是第一个在月球上行走的人,但它明确说阿姆斯特朗是第一个踏上月球的人,这也暗示了他是第一个在月球上行走的人。所以,一个人可以从这个引文中直接推断出阿姆斯特朗是第一个在月球上行走的人。答案:是
2 - 尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。答案中的引文:"这一历史性事件发生在 1969 年 7 月 21 日,阿波罗 11 号任务期间。"考虑引文,它明确地提到了这一历史性事件(即阿姆斯特朗踏上月球)发生在 1969 年 7 月 21 日。因此,一个人可以从这个引文中直接推断出尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。答案:是
{"count": 2}
这种基于模型的评估有很多可能的变体。考虑以下变体,它跟踪候选答案和黄金标准答案之间的重叠类型,并跟踪候选答案是否与黄金标准答案的任何部分相矛盾。
示例2:
(1)设置系统信息
使用以下步骤响应用户输入。在继续之前完全重述每个步骤。即“第 1 步:原因……”。
第 1 步:逐步推理提交的答案中的信息与专家答案相比是否是:不相交、相等、子集、超集或重叠(即一些交集但不是子集/超集)。
第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。
第 3 步:输出结构如下的 JSON 对象:{"type_of_overlap": "disjoint" or "equal" or "subset" or "superset" or "overlapping", "contradiction": true or false}
(2)用户输入
问题:“”“Neil Armstrong 最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”””
提交的答案:“”“他不是在月球上行走吗?”“”
专家解答:“”“尼尔阿姆斯特朗最著名的是第一个登上月球的人。这一历史性事件发生在 1969 年 7 月 21 日。”“”
(3)ChatGPT回复
第 1 步:逐步推理提交的答案中的信息与专家答案相比是什么关系?
提交的答案"他不是在月球上行走吗?"只包含了专家答案的一部分信息,也就是尼尔·阿姆斯特朗在月球上行走的事实。但是,它没有提供具体的日期,也没有明确表述尼尔·阿姆斯特朗是第一个登上月球的人。所以,提交的答案是专家答案的子集。
第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾?
提交的答案没有与专家答案产生任何矛盾,它只是没有提供所有的信息。
第 3 步:输出结构如下的 JSON 对象:
{"type_of_overlap": "subset", "contradiction": false}
如果英文不错的小伙伴,可以去读英文原版。我感觉这份教程质量还是蛮高的。
网址:
https://platform.openai.com/docs/guides/gpt-best-practices/six-strategies-for-getting-better-results