英文原文:Your code is far more chaff than wheat
新的研究发现,一个程序的核心功能仅在于一小部分封装的代码。
如果你是一个软件开发人员,有人问你,你写的代码中有多少是真正在实现实际功能的,有多少是填充物、无价值的或者只是因为实际运行编程语言所需要的? 95%? 75%? 50%?都不是!新的研究发现,只有大约5% 的代码是真正在提供核心功能。
研究人员认为,就像自然语言一样,一些——甚至可能是绝大多数——写下的代码其实对于功能是不起作用的。《stalks of wheat》一文的作者认为,只有一部分代码代表了功能的语义核心,我们称之为精华,而其他的则是糟粕。
该作者表示,一个功能的核心可以被封装于一个小型的关键字集合中,这被称为“minimum distinguishing subset” (“最小的区别化子集”)或 MINSET。我们可以通过将方法分解为词素(即,通过空格或标点符号分隔代码),丢弃那些对函数行为不重要的内容,同时把剩下的映射到关键字中。然后将那些关键字导入到 MINSET。
为了检验此理论,即 MINSET 中的代码只占全部代码的一小部分,研究人员下载了 1000 个来自 Apache、Eclipse、GitHub 和 SourceForge 最受欢迎的 Java 项目。在合计超过 10 亿行的 Java 代码中,先剔除简单的方法( tokens 低于 50)。就只剩下不到 190 万的不同方法,然后从中随机抽取 10,000 条,确定它们的 MINSET。研究中使用的代码和数据可从 Bitbucket 下载。
以下为研究发现的主要结果:
不过有几处关键的地方需要指出来。首先,MINSET 本身是不可执行的:它只是表征了核心功能的代码的最小集合。剩下 95% 中的一些代码(前面称之为糟粕)也不是无用的,因为还需要它们来运行程序。其次,尽管这项研究仅着眼于 Java 代码,不过由于语言的相似性,作者表示这些发现应该也适用于其他语言,特别是C语言和C++。
关于此项工作的意义?研究人员指出了 MINSETs 的潜在应用:
-
译文链接:http://www.codeceo.com/article/your-code-is-far-more-chaff-than-wheat.html
翻译作者:码农网 – 小峰