大语言模型测评(2025-01-28)

缘由

由于本月同时订阅了 ChatGPT Plus 以及 Claude Professional,最近 DeepSeek 发布了 R1 模型,故记录。本篇仅代表个人使用体验。

数学知识

询问关于数学知识,ChatGPT o1/o1-mini 和 DeepSeek R1 相近,ChatGPT o1相较于 o1-mini 和 DeepSeek r1 在通用知识的广度上占优。

代码生成

在代码生成领域,分为竞赛级代码生成用途和日常用途区别。对于高难度竞赛级代码生成用途,ChatGPT o1/o1-mini 占优,对于日常用途 Claude 的代码一致性更强。Claude 以其超长的 Context Window 在处理大型项目中占优。Claude Pro can ingest 200K+ tokens(about 500 pages of text or more). 在使用体验上,Claude 对于大量文本的信息提取整合能力优于其他竞品,其 Projects 功能有效提取上传的文件中的信息,而 ChatGPT 的 Projects 功能当对话长度增加时常常无法参考上传的文件中的信息。另外,使用 Claude Projects 时尽量使用文本信息而非 PDF 等文件,避免 OCR 识别错误。似乎在 Projects 中上传的文件是使用 OCR 识别,而在对话框上传的文件是使用模型的视觉能力。

代码修复

在需要复杂逻辑推理的代码修复领域,ChatGPT o1/o1-mini 展现出相同的顶尖水平,DeepSeek R1 与 ChatGPT 4o 和 Claude 相近,弱于 ChatGPT o1/o1-mini。