在 AI 技术日新月异的今天,各类语言模型如繁星般闪耀,其中通义千问作为阿里云的重要成果,备受关注。今天,就让我们一同深入测评通义千问,揭开它神秘的面纱,看看它究竟能为我们带来怎样的惊喜与价值。
关于通义千问的简介和使用指南,大家可以翻看笔者的往期文章
本期内容将从10个模块设计一些具体任务,模拟实际使用场景对通义千问进行深度测评。
![图片[1]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_0.png)
模块1:文本生成能力
任务 1.1:自然语言理解
![图片[2]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_1.png)
任务 1.2:上下文连贯性
![图片[3]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_2.png)
任务 1.3:创造性写作
![图片[4]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_3.png)
自然语言理解能力尚可,上下文不具有连贯性,创造性写作套路化,评分:7.5/10。
模块2:知识问答
任务 2.1:事实准确性
![图片[5]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_4.png)
任务 2.2:多领域知识
![图片[6]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_5.png)
事实准确性可以,多领域知识是掌握的,评分:8/10。
模块3:逻辑推理
任务 3.1:逻辑推理能力
![图片[7]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_6.png)
任务 3.2:数学问题
![图片[8]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_7.png)
逻辑推理能力还不错,数学问题解决能力就不行了,评分:6/10。
模块4:情感分析
任务 4.1:情感识别
![图片[9]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_8.png)
任务 4.2:情感生成
![图片[10]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_9.png)
情感识别能力尚可,情感生成能力也还行。评分:8/10。
模块5:多语言支持
任务 5.1:多语言理解
![图片[11]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_10.png)
任务 5.2:多语言生成
![图片[12]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_11.png)
多语言理解能力尚可,多语言生成能力也还行,评分:7.8/10。
模块6:对话管理
任务 6.1:多轮对话
![图片[13]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_12.png)
任务 6.2:对话引导
![图片[14]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_13.png)
![图片[15]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_14.png)
多轮对话能保持一致性,对话引导能走向特定的主题。评分:8.5/10。
模块7:安全性与伦理
任务 7.1:有害内容过滤
![图片[16]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_15.png)
任务 7.2:偏见检测
![图片[17]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_16.png)
有害内容过滤,能避免生成有害或不适当的内容。偏见检测还不错。评分:8.5/10。
模块8:性能与效率
任务 8.1:响应速度任务 8.2:资源消耗
响应速度较快,资源消耗不多,评分:8.5/10。
相对主观,不太客观,笔者暂时没有找到合适的方法去测试AI工具的性能和效率。目前的测试标准只是依据响应时间和电脑运行快慢,如果各位读者有合适的测试方法可以在评论区留言讨论。
模块9:用户交互
任务 9.1:用户友好性
![图片[18]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_17.png)
任务 9.2:错误处理
![图片[19]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_18.png)
用户页面还算简洁,错误处理合格,评分:8/10。
模块10:个性化和适应性
任务 10.1:个性化响应
![图片[20]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_19.png)
任务 10.2:适应性
![图片[21]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_20.png)
个性化响应正常,非常适应用户需求。评分:8.5/10。
最终得分,79.3/100
![图片[22]-通义千问测评:探索 AI 的无限可能与边界-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1733677848533_21.png)
基础功能合格。
逻辑推理中数学计算有问题。
安全性和伦理这方面表现不错。目前只有通义千问和deepseek在性别偏见检测中暂无问题。
个性化和适应性也挺不错。
以上测评是笔者个人观点,仅作参考。各位读者觉得通义千问可以拿到多少分呢?欢迎投票。







