InfoQ：2023年大语言模型综合评测报告

2023-8-22 12:34| 发布者: 刘火云 7 0

摘要: 2022 年年末以来，人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以 ChatGPT 引领的大模型产品发展日新月异，有预测数据显示，到 2030 年，AIGC 的市场规模或将超过万亿人民币。2023 年国内主要厂商 ...

2022 年年末以来，人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以 ChatGPT 引领的大模型产品发展日新月异，有预测数据显示，到 2030 年，AIGC 的市场规模或将超过万亿人民币。2023 年国内主要厂商也相继推出自研的大语言模型产品，另外国内也推出了大量的大语言模型应用，逐步构建起基于中文语言特色的大语言模型生态。

InfoQ 研究中心本次针对大语言模型产品的研发要素、大语言模型产品的核心特征进行研究，并选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度，拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私 12 个细分维度，分别对 ChatGPT、Claude、Sage、天工 3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B 进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，提高了问题的权重和比例；同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等题目。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。