
DeepSeek 解了 RL 的谜题,推进大模型业态进入了新范式,吹起的新风暴,广泛拂动了整个行业。
随着人工智能技术的迅猛发展,各类大模型在不同领域被广泛应用,为法律垂类大模型的进一步发展带来了契机。法律领域有着极高的专业性和精确性要求,通用大模型在应用过程中,容易出现偏差,无法满足法律工作的实际需求。因此,建设法律大模型必须遵循 “专业化、精细化” 原则,借助专业语料进行针对性优化。
为进一步探究法律垂类大模型的能力边界与迭代方向,中国司法大数据研究院、天同律师事务所、数智枫桥研究院拟联合组织一次测评,以DeepSeek 、通义千问、文心一言作为研究对象,旨在通过客观、全面、科学的测评手段,深入对比这两个Ai开源领先的大模型,在法律专业方面的能力表现,为法律行业的数字化转型与发展提供有力的方向指引。
本文将向大家汇报本次测评的方案纲要,亦意在邀请广大法律实务界同仁参与评审(报名方式见“02 专家评审招募”),为大模型在法律领域的水平、潜力、提升方向等关键问题,提供更加全面、多元的审视。
测评方案
-
测评目的: 本次测评旨在对比 不同大模型,在是否叠加知识库的不同状态下,在法律领域的应用效果。 -
对比模型:
DeepSeek ,杭州深度求索人工智能基础技术研究有限公司推出的一系列人工智能产品及相关技术的统称,采用混合专家模型等先进技术,在自然语言处理、图像与视频分析、语音交互、编程辅助等多个领域均有出色表现,本次测评采用DeepSeek-R1-671B版本;
通义千问,阿里云研发的先进人工智能语言模型,凭借强大的自然语言处理能力、广泛的知识覆盖面以及持续的学习进化能力,在教育、咨询、内容创作、多语言翻译等多个领域展现出巨大潜力和价值,本次测评采用qwen-max-latest(闭源,api接口)及qwen2.5-72B-Instruct两个版本;
文心一言,百度打造的人工智能大语言模型,基于飞桨深度学习平台和文心知识增强大模型,具备跨模态、跨语言的深度语义理解与生成能力,可应用于文学创作、商业文案创作、数理逻辑推算、数据分析、代码生成等诸多场景,本次测评采用文心4.0版本。 -
测评内容: 涵盖法条背诵、纠纷焦点识别等八类客观问题和法律问答、诉讼请求生成等四类主观问题,总计600个问题,覆盖民商事、刑事、行政、执行、国家赔偿和法律伦理六大领域,全方位、多角度地评估模型在记忆、理解、生成和逻辑推理能力上的表现。 评分标准:根据不同题型,分为客观题及主观题两大类。
其中,客观题将由机器判分,部分题型将请专家评审将参与答案审定;
主观题将全部请专家评审投票计分,机器随机为每位评委抽取 10 至 20 道问答,由专家评审对每道问题的不同回答进行投票。
专家评审招募
为了确保人工测评的公正性和权威性,现向行业招募专家评审。
评审团将由法律实务专家、法学研究人士组成,计划。招募100名(待定),按民商事、刑事、行政、国家赔偿、执行五个类别(以下简称“测评类别”)。
① 法律实务专家
就至少一个测评类别,有丰富的实务经验;从事律师、企业法务、司法裁判等法律相关职业。
② 法律研究人士
具备深厚的法学专业知识背景,精通至少一个测评类别相关理论及实践,在法学研究或法律实务方面有丰富的理论功底及实务经验。
招募工作自2025年2月25日至2025年3月3日(周一)上午10:00。

您的评审意见,将成为测评结果的主要组成部分。
实际完成评审工作的小伙伴,我们衷心地感谢并邀请您在最终发布的测评报告中署名。
期待您加入推动法律与科技的融合发展,为法治社会建设、法律实务智能化贡献力量!
工作安排
1. 招募阶段(2月25日至3月3日)
根据报名者类型、专业背景等条件,对评审进行筛选和分类;将入围结果通知评委。
2. 问答收集阶段(2月25日至3月2日)
评委招募期间,测评团队将同步开启测试,记录模型的回答结果,并整理成可供评审的格式。
3. 答案评审阶段(3月5日至3月13日,陆续安排)
○ 客观类:评审团(部分)补充客观题标准答案。
○ 主观类:评审团将对问题开展匿名投票,投票数为随机抽取的10~20组问答。
测评团队将视具体的问题情况,联络部分评审,进一步征求意见或召开评审会议,讨论评审结果,分析两大模型在不同维度上的表现差异,形成初步的测评结论。
4. 发布阶段
再次提醒,招募工作自2025年2月25日至2025年3月3日(周一)上午10:00。请有意者于招募时间内,点击文末“阅读原文”或扫描下方二维码进行报名:


