第一次沒重復的內(nèi)容,為什么第二次檢測又重復了?
經(jīng)常有同學在檢測論文時會碰到一些問題,提交論文檢測之后進行修改,好不容易完成修改,以為重復率會下降,結(jié)果再次檢測時發(fā)現(xiàn)第一次沒有重復的內(nèi)容在第二次檢測時卻重復了,很多同學都感到疑惑,為什么改完之后又會新增這么多重復內(nèi)容呢?實際上出現(xiàn)這種情況的主要原因是論文查重系統(tǒng)本身或者比對數(shù)據(jù)源的問題。
1、論文查重系統(tǒng)都有固定的檢測閾值
簡單來說閾值就是如果論文查重系統(tǒng)設(shè)置1千字,如果有100字與他人的內(nèi)容相似,那么不會被判定為抄襲,這100個字的內(nèi)容也不會被標紅,因為這個閾值為10%。但如果超過100字重復,那這這些內(nèi)容就會被判定為抄襲。不過每個系統(tǒng)的閾值都不同,因此我們需要按照報告來進行修改后,再進行第二次檢測,新增了重復內(nèi)容,這個也就沒那么難理解了。
2、任何查重系統(tǒng)都有抓取瓶頸
目前論文查重系統(tǒng)都是會抓取互聯(lián)網(wǎng)內(nèi)容的,我們只有上傳論文到查重系統(tǒng),系統(tǒng)就會自動爬取互聯(lián)網(wǎng)資源進行比對,但是該過程對于爬取的蜘蛛是有局限性的,因為一次不能爬取互聯(lián)網(wǎng)上的全部內(nèi)容。就好比我們可以一口吃一個包子,但是一口吃好幾個包子嘴是無法放下的,因為我們的嘴巴是有局限性的,同樣作為論文查重使用的蜘蛛,在爬取時也是有局限性的,所以第一次沒爬取到的內(nèi)容,可能在第二次就爬取到了。
3、互聯(lián)網(wǎng)數(shù)據(jù)更新較快
每天數(shù)據(jù)庫都在實時更新,并且更新速度以每秒在進行的。如果論文查重系統(tǒng)抓取到互聯(lián)網(wǎng)上的內(nèi)容,改完后再次進行檢測時,中間會有一段時間的時差,可能第一次沒有檢測到的內(nèi)容,在第二次檢測時又重新爬取到了內(nèi)容,就會出現(xiàn)這種情況了。
以上情況我們就能清楚的知道,大家遇到這類情況的時候不要急著抱怨,檢測出來的重復內(nèi)容都要進行修改,有的同學越檢測重復內(nèi)容越多,可能是因為沒有使用與學校要求一致的系統(tǒng)進行查重,所以就造成重復率怎么也降不下來,這種情況既浪費了我們的精力,又浪費了時間來修改。
2019-08-29 | 作者:paperfree