决定论文生死的查重平台们原来是这么判断重复的

发布日期:2021-07-21 22:50   来源:未知   阅读:

  www.cfxo.com.cn自驾游青岛怎么把“方向”?青岛“五一”自驾游攻!2019 年的翟天临论文造假事件,让高校纷纷开始重视论文重复率。时至今日,他的微博底下依然绕不过这个话题。

  目前大多数高校的官方查重平台是中国知网。矛盾的是,知网并不开放个人检测名额,许多学校也不会提供一到两次的免费查重机会。因此不少同学都得在定稿前,凭借自己找的渠道,进行轮番几次的查重和修改。

  挂着 知网官方 旗号的渠道,要么买到的是假货,要么可能是通过非法手段弄来的免费名额。据《新京报》报道,有些在校学生知网账号被盗后,发现自己的免费查重机会已被不明论文占用。

  不明的第三方渠道,还会有转卖论文的风险。澎湃号 真数 曾在文章中披露,一位同学怀疑自己的论文被查重网站出售,被他人买去作为本科论文提交,以致自己的论文在学校倒查毕业论文质量时,被发现查重率高达 90%。

  哪怕这些坑都避开了,准毕业生们还会遇到一大天问:为什么每个平台的查重结果都不一样?下图所示,六家查重平台对翟天临硕士论文的查重结果,最大差距可以达到 62 个百分点。

  在知乎 PaperYY 查重软件靠谱吗? 这个问题下,133 名网友分享了自己的论文在中国知网和 PaperYY 的查重结果。可以看出,知网查出来的重复比重,大多情况下确实偏低。

  网友勿忘写道,她舍友的论文,在 PaperYY 查出来的复制比重是 4%,结果知网查出 60%。对比两份查重报告后,这位同学得出了一个结论:知网比 PaperYY 多了一个 大学生论文联合对比库 ,而舍友恰巧采用了一个学姐论文的结构,内容也有复制,因此知网计算出的复制比重才会如此之高。

  论文比对库的范围是影响因素之一。比如,PaperPass 免费版的重复比例经常偏高,学术不端网认为,这是因为 PaperPass 主要依赖网络资源库,在网络上任何一句话都可能找到相似的句子, 最简单的就像百度搜索一样,每搜索一句话都会有一系列相关的内容出现 。

  而知网则会更注重和学术论文的比对。下图中,以知网包含的对比库类型作为参照,可以看出,会被采纳为官方查重的三家平台,比 Paper 系 会更接近知网的配置。

  每个平台的查重规则也不一样,但 由于没有官方声明,所有的算法模型都是网传 ,坚果云官方号在知乎问题 万方论文查重怎么样 和知网对比 下写道。

  坚果云进一步解释道:知网的查重算法有两个要点,首先,引用的文献得占到段落的 5% 及以上;满足这个条件后,如果一个句子里出现了连续 13 个字的重复,那么这句话就会被标红,即判定为抄袭。万方的判定标准则相对简单,如果一个句子中连续 10 个字与库中文章重复,这个句子就会标红。

  此外,知乎论文类大 V 吴志根在自己的专栏《论文查重降重攻略:学术论文重复问题剖析》还补充了一点。基于他的观察,知网还采用了 语义模糊算法 ,即比起逐字逐句,这套算法更关注句子的中心意思和关键词。换句话说,同一段文字,如果只是换一套表述方式,那也是会被知网判定为重复的。

  这些额外的查重规则,可能正是知网会显得更 智能 的原因。准毕业生们只能通过其他平台的反馈,摸索着,一次又一次修正,去不断地预测和逼近知网的结果。