第一次沒(méi)重復(fù)的內(nèi)容,為什么第二次檢測(cè)又重復(fù)了?
經(jīng)常有同學(xué)在檢測(cè)論文時(shí)會(huì)碰到一些問(wèn)題,提交論文檢測(cè)之后進(jìn)行修改,好不容易完成修改,以為重復(fù)率會(huì)下降,結(jié)果再次檢測(cè)時(shí)發(fā)現(xiàn)第一次沒(méi)有重復(fù)的內(nèi)容在第二次檢測(cè)時(shí)卻重復(fù)了,很多同學(xué)都感到疑惑,為什么改完之后又會(huì)新增這么多重復(fù)內(nèi)容呢?實(shí)際上出現(xiàn)這種情況的主要原因是論文查重系統(tǒng)本身或者比對(duì)數(shù)據(jù)源的問(wèn)題。
1、論文查重系統(tǒng)都有固定的檢測(cè)閾值
簡(jiǎn)單來(lái)說(shuō)閾值就是如果論文查重系統(tǒng)設(shè)置1千字,如果有100字與他人的內(nèi)容相似,那么不會(huì)被判定為抄襲,這100個(gè)字的內(nèi)容也不會(huì)被標(biāo)紅,因?yàn)檫@個(gè)閾值為10%。但如果超過(guò)100字重復(fù),那這這些內(nèi)容就會(huì)被判定為抄襲。不過(guò)每個(gè)系統(tǒng)的閾值都不同,因此我們需要按照?qǐng)?bào)告來(lái)進(jìn)行修改后,再進(jìn)行第二次檢測(cè),新增了重復(fù)內(nèi)容,這個(gè)也就沒(méi)那么難理解了。
2、任何查重系統(tǒng)都有抓取瓶頸
目前論文查重系統(tǒng)都是會(huì)抓取互聯(lián)網(wǎng)內(nèi)容的,我們只有上傳論文到查重系統(tǒng),系統(tǒng)就會(huì)自動(dòng)爬取互聯(lián)網(wǎng)資源進(jìn)行比對(duì),但是該過(guò)程對(duì)于爬取的蜘蛛是有局限性的,因?yàn)橐淮尾荒芘廊』ヂ?lián)網(wǎng)上的全部?jī)?nèi)容。就好比我們可以一口吃一個(gè)包子,但是一口吃好幾個(gè)包子嘴是無(wú)法放下的,因?yàn)槲覀兊淖彀褪怯芯窒扌缘?,同樣作為論文查重使用的蜘蛛,在爬取時(shí)也是有局限性的,所以第一次沒(méi)爬取到的內(nèi)容,可能在第二次就爬取到了。
3、互聯(lián)網(wǎng)數(shù)據(jù)更新較快
每天數(shù)據(jù)庫(kù)都在實(shí)時(shí)更新,并且更新速度以每秒在進(jìn)行的。如果論文查重系統(tǒng)抓取到互聯(lián)網(wǎng)上的內(nèi)容,改完后再次進(jìn)行檢測(cè)時(shí),中間會(huì)有一段時(shí)間的時(shí)差,可能第一次沒(méi)有檢測(cè)到的內(nèi)容,在第二次檢測(cè)時(shí)又重新爬取到了內(nèi)容,就會(huì)出現(xiàn)這種情況了。
以上情況我們就能清楚的知道,大家遇到這類情況的時(shí)候不要急著抱怨,檢測(cè)出來(lái)的重復(fù)內(nèi)容都要進(jìn)行修改,有的同學(xué)越檢測(cè)重復(fù)內(nèi)容越多,可能是因?yàn)闆](méi)有使用與學(xué)校要求一致的系統(tǒng)進(jìn)行查重,所以就造成重復(fù)率怎么也降不下來(lái),這種情況既浪費(fèi)了我們的精力,又浪費(fèi)了時(shí)間來(lái)修改。
2019-08-29 | 作者:paperfree