mp.weixin.qq.com/s?__biz=Mzg5ODUxMzg0Ng==&mid=2247496086&idx=1&sn=d16f87dd3fb563e3d7182941b21d4105&chksm=c063df4ff7145659e2b8918542389d7c0979ef85b2fede2776e49f96cc955867db241260913b&scene=178&cur_album_id=1630058428553347073
1 Users
1 Comments
9 Highlights
0 Notes
Tags
Top Highlights
来自普渡大学的研究人员用 517 个 Stack Overflow 问题测试了 ChatGPT,然后评估了人工智能到底是不是一个很好的答案来源
人工智能在某些方面沿袭了人类某些低质量回答(并不是指某乎那些编得鬼都不信的答案)的特点——(从语法上)看起来回答得很全面、滴水不漏,然而并不遵从事实
作者首先收集了 517 个 Stack Overflow(SO)问题,这些问题既包括了热门主题,也包含了许多并非热门的内容(用户关注度排名在所有问题里面排后10%)
本文的第一和第二作者用选择的 517 个问题去向 ChatGPT 提问,然后对其答案进行评估
这里作者引入了一项技术——open coding,这是定性分析技术里面的一种特定的方法
作者从正确性、一致性、全面性和简洁性(Correctness、Consistency、Comprehensiveness、Conciseness)四个方面对ChatGPT的答案进行评估
作者还用了一个(可能我们平时没怎么听过的)工具 Linguistic Inquiry and Word Count (LIWC,注意这个工具名字里面就是有个and)来研究生成的答案的语言学特点
如果一个问题非常热门或者已经讨论了很久,意味着有更多的高质量答案,ChatGPT 就不太容易出错;而如果问题类型是那种比较难回答的(比如 how-to 类型的问题例如“如何越狱我的iPhone”),AI 生成的答案通常会非常啰嗦而不得要领
然而作者指出,ChatGPT 比较好的一点是较少在一些事实性判断上出错,而在一些概念性的问题上则更容易“捣糨糊”
Toughts & Comments
Rui Zhang
本文评估了ChatGPT是否能够提供准确可靠的回答。作者首先收集了517个Stack Overflow的问题,然后向ChatGPT提问,接下来从正确性、一致性、全面性和简洁性四个方面对这些答案进行评估。评估结果发现:对于难以回答的问题,AI生成的答案通常会非常啰嗦且不得要领。尽管答案不一定正确,但是文本表达能力一流,而且情感态度正面,往往更容易说服别人。
Glasp is a social web highlighter that people can highlight and organize quotes and thoughts from the web, and access other like-minded people’s learning.