大语言模型测评（2025-01-28）

发表于 2025-01-28 分类于测评

缘由

由于本月同时订阅了 ChatGPT Plus 以及 Claude Professional，最近 DeepSeek 发布了 R1 模型，故记录。本篇仅代表个人使用体验。

数学知识

询问关于数学知识，ChatGPT o1/o1-mini 和 DeepSeek R1 相近，ChatGPT o1相较于 o1-mini 和 DeepSeek r1 在通用知识的广度上占优。

代码生成

在代码生成领域，分为竞赛级代码生成用途和日常用途区别。对于高难度竞赛级代码生成用途，ChatGPT o1/o1-mini 占优，对于日常用途 Claude 的代码一致性更强。Claude 以其超长的 Context Window 在处理大型项目中占优。Claude Pro can ingest 200K+ tokens（about 500 pages of text or more）. 在使用体验上，Claude 对于大量文本的信息提取整合能力优于其他竞品，其 Projects 功能有效提取上传的文件中的信息，而 ChatGPT 的 Projects 功能当对话长度增加时常常无法参考上传的文件中的信息。另外，使用 Claude Projects 时尽量使用文本信息而非 PDF 等文件，避免 OCR 识别错误。似乎在 Projects 中上传的文件是使用 OCR 识别，而在对话框上传的文件是使用模型的视觉能力。

代码修复

在需要复杂逻辑推理的代码修复领域，ChatGPT o1/o1-mini 展现出相同的顶尖水平，DeepSeek R1 与 ChatGPT 4o 和 Claude 相近，弱于 ChatGPT o1/o1-mini。