开放生成式人工智能
生成式人工智能具有巨大的潜力,可以彻底改变商业模式、创造新机遇并提高员工的工作效率。据麦肯锡称,超过四分之一的公司领导者表示,生成式人工智能是董事会层面的议程项目,而 79% 的受访者已经使用过生成式人工智能。
这些技术已经影响到了软件行业——IDC 发现,40% 的 IT 高管认为生成式 AI“将使我们能够创建更具创新性的软件”,而 GBK Collective 估计,78% 的公司预计将在未来三到五年内使用 AI 进行软件开发。根据游戏开发者大会的研究,大约一半的视频游戏公司已经在其工作流程中使用了生成式 AI。
所有这些信号都表明,生成式人工智能的使用正在增长。然而,拥有适当技能来自己组装生成式人工智能应用程序的开发人员数量有限。对于想要构建和运营自己的生成式人工智能服务而不是使用提供商服务的企业来说,集成对于更有效地利用公司数据至关重要。
对于许多公司来说,生成式人工智能与大型语言模型 (LLM) 和ChatGPT等服务密不可分。这些工具接受文本输入,将其转换为服务可以理解的语义查询,然后根据其训练数据提供响应。对于简单的查询,ChatGPT响应就足够了。但对于企业来说,这种级别的一般知识还不够。
为了解决这个问题,需要使用像检索增强生成 (RAG) 这样的技术。RAG 涵盖了公司如何获取数据、使其可供查询,然后将该信息传递给 LLM 以供纳入。这些数据可以以多种格式存在,从公司知识库或产品目录到PDF或其他文档中的文本。必须收集数据并将其转换为向量,将数据编码为保留语义信息和关系的数值。
此过程涉及一个称为分块的过程 - 将文本拆分成离散单元,然后可以用向量表示。这里有几种可行的方法,从查看单个单词到句子或段落。您使用的数据块越小,占用的容量和成本就越大;相反,每个块越大,您最终得到的数据就越不准确。数据分块仍然是一个非常新的领域,最佳实践仍在开发中,因此您可能需要尝试您的方法才能获得最佳结果。
标签: