JAVA和Nginx 教程大全

网站首页 > 精选教程 正文

说说代码的克隆检测(代码智能之克隆检测)

wys521 2024-11-04 15:36:28 精选教程 20 ℃ 0 评论

文/ 阿里云 - 秦奇

本文章为系列文章,主要介绍代码智能(Code Intelligence)领域涉及的众多有趣的任务(Task),具体会从这些任务的简介、历史和现状等维度展开介绍,希望让大家对于代码智能有一个深切的认识。

本文的主角是 代码克隆检测的技术,即判断两段代码是否相似,也就是 判断是不是“抄”来的。这里不禁有人要问了,程序员的事那能叫抄吗?那是学习、借鉴。对于代码克隆(俗称 Ctrl C,Crtl V)的合理性我们后续再讨论,让我们先聚焦于这个课题本身,即如何判断两份代码的相似性。


克隆检测(Clone Detection)

克隆检测也叫 重复代码、相似代码,这个命题很容易理解,就是看两份代码是不是一样。对于程序员来说这件事情很容易,是不是拷贝来的,看一遍就知道了。但是机器不同,我们需要告诉机器去怎么做。最早的代码克隆检测始于1990年代,至此已有20多年的研究历史,也产生了很多优秀的算法和研究,可以说已经发展成为了一个非常成熟的课题。

代码克隆的一般分类

代码克隆的分类是为了针对不同的克隆方式从而针对性的进行检测方案的设计。目前通用的代码克隆的分类有四种,其检测的难度也是随之逐步递进:

  1. 除了空格、注释之外,两份代码完全相同。也就是拷贝过来就删了空格注释,其他都没变
  2. 除了变量名、类型名和函数名等之外全部相同的代码。这个相比于第一条进步了一下,知道换一下变量名什么的,至少不是一打眼就能看出来了
  3. 有部分语句的增删、转换,比如新增一句无关紧要的代码,或者换一下if的顺序,以及 if 换成switch啥的,但还是大体相同
  4. 同一个功能,不同的写法。严格意义可能不能叫克隆了,代码重构?

听着好像也没啥体感,还是直接上代码吧。 举个例子,最近的业务需要实现一个 生成1到n连续数组的方法,这个难住我了。不过不用急,打开万能的百度(谷歌)啥都能找到。这不,程序员最爱的网站 stackoverflow还真有类似的问题,随便找一个答案直接拷贝过来,空格删掉,即:

但想一想,这个代码网上一搜一大把,得改点东西才行,于是,成了这个样子:

const array = [];
for (var i = 1; i <= 10; i++) {
   array.push(i);
}

三思之后,觉得还不行,改个变量啥的还是可以一眼看出来,容我再改改:

Array.from(Array(10)).map((item, index) => index + 1)

不禁抚须一笑,妙哉妙哉。。。过了几日,好像还可以再优化一下,于是有了:

Array.from(Array(10).keys()).map(item => item + 1)
// 进一步
[...Array(10).keys()].map(item => item + 1)
// 再进一步
const [, ...result] = Array(11).keys();

代码克隆的检测方法

回到克隆检测,针对四种方式也有不同的检测方法,大致可以分为以下几类。

  • 基于 文本相似性的检测方法:此方法是最常见,也最容易执行的检测方式,仅适用于文本差异很小的代码克隆,即上述第1、2种克隆方式,相对检测精确度会比较高。一旦文本差异过大,效果会急剧下降
  • **基于符号(Token)的检测方法:**此方法是利用了解析器将源代码分成符号序列, 然后这些符号序列会被组织成符号的语句, 最后将这些符号组成的语句进行比较。此方法可以很容易检测出 增删语句的行为,但是对于调换顺序不太敏感。
  • **基于语法的检测方法:**此方法会将两份代码同时转为 抽象语法树(AST),进而通过树匹配等算法进行子树的比较,如果相同则认为是 代码克隆。此方法同样对于代码顺序不敏感,也无法识别出标识符或文本的不同,但是可以检测出任何其他细微的修改。
  • **基于语义的检测方法: **基于语义的方法最常用的则是基于图技术的检测方法。此方法先根据代码生成数据流图和控制流图,可同时反映出数据和逻辑的变化,进而将问题转化为 检测相似图的问题。此方法依赖于图的生成,如果不同语言或程序生成的图不相同,往往会导致错误的结果。

综上可以看到,使用一种方法很难准确识别出是否存在代码克隆的问题,往往同时结合多种检测方式,综合来看才可以得到相对准确的结果。?

同时也有很多热门的克隆检测工具和网站,顺手推荐一波:

  • NICad,支持检测类型1、2以及3的大部分的克隆方式,宣称支持任何语言,官方提供了C,Java,C#,Python,PHP,Ruby,ATL和WSDL等的检测插件
  • CCCD,使用concolic分析来检测代码克隆,是基于软件的功能,因此对于类型3、4具备良好的效果

?

抄袭 Or 学习

提到代码克隆,这个问题就无法回避。所以代码克隆到底算是抄袭还是借鉴呢?先看看两者的定义:

  • 抄袭(英語:plagiarism),亦稱作剽窃,根據教育部國語辭典定義,為抄錄他人作品以為己作,对于原著未经或基本未经修改的抄录,这是一种侵权行为。 ----维基百科
  • 借鉴:把别的人或事当镜子,对照自己,吸取经验或教训,以便取长补短。 ---百度百科

从两个定义可以看出,一个是剽窃,据为己有,另一个是取长补短。回到代码上,严格的抄袭很难界定,比如之前的谷歌甲骨文代码侵权一案历经10年,最终结果不论如何,至少说明代码抄袭这件事情在法律上很难去认定。再回到上面提到的例子,业务中遇到不会写、不了解的问题,第一反应大家都是去谷歌查一查是否有类似的实现,然后借鉴过来。我觉得这个操作本身没有问题,只不过区别在于 是否知其然并知其所以然。如果能够了解其原理,并学习致用,甚至能够想出更好的写法,那么也就无所谓“抄袭”,都变成了“自己”的代码。?

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表