功能介紹
rostcm主要包括三個部分:全網檢索、本地文獻庫對比和少量文獻對比。 軟件欄目有聊天分析、全網分析、網站分析、瀏覽分析、微博分析和期刊分析。 通過這套系統,我們能夠判斷論文是否是抄襲的。在分析論文是否抄襲部分,還可以進行功能性分析(字頻分析、英文詞頻分析、中文詞頻分析、社會網絡和語義網絡分析、情感分析、流量分析、TF/IDF批量詞頻分析、相似分析),從而讓剽竊的論文無處藏身。
基本原理:
反剽竊軟件自動將文檔切割為多個50到200字(可自定義)的小文本,通過混合引擎將其與188億個網頁和490萬篇文獻進行模糊匹配,標示出每個文本塊與文獻庫中的某些文獻的最大相似度。由此軟件統計出相似度≥95%(基本原封不動抄襲)與相似度≥80%(略作修改后抄襲)的字數所占總字數比例。我們把這個比例作為剽竊(相似)程度衡量指標。 系統需要XP系統,word2003環境。 優點 覆蓋面廣,通過混合引擎覆蓋約188億個網頁和490萬篇論文。系統采用自研的ROST WebSpider和ROST SEAT算法實現了對互聯網和部分期刊網的廣度覆蓋。 模糊檢測,柔性匹配,為防止抄襲者替換部分字符,刪除部分標點符號,系統通過相似度來進行判定。系統采用自研的ROST Similar算法實現高速相似性檢測和度量。系統采用自研的QingQing算法提取信息指紋,在P3、512MBPC上,分詞速度為13MB/S,已在互聯網提供評測版供業內評測。 本軟件檢測結果只能作為一個參考,可以使用表格右鍵導出詳細檢查結果發送給被檢查本人,本軟件不對是否剽竊做結論,只是告訴你與現存文獻相似度高于80%的文字比例所占文章總數比例是多少。高于80%相似度的文字才是需要關注的。低于此值可以完全無視。 規范引文及參考文獻去除,降低誤判可能性。 自定義分塊檢測機制,將文章的每一文本塊與其他文檔的相似度都精確的表示出來了,每一文本塊約為50字至200字不等(可自定義),以紅色表示極度相似(相似度大于80%),一目了然,清晰醒目。當設為50個字一塊時,可以在較低信息粒度上查找出可能抄襲或相似的文獻。 相似文檔模塊跟蹤技術,可以通過簡單操作直接定位相似文檔中哪些內容被抄襲或者拷貝,直觀明了。 結果分析功能,自動分析文檔相似結果,給出評價意見。 多種文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文檔。 專有數據文件保存,不用反復檢測,浪費時間。 缺點 本反剽竊系統不能覆蓋世界上所有中英文文獻,關于覆蓋率與查全率的相關性問題,正在研究中。 檢測時間略長,本軟件每檢測200字需要7秒鐘,一篇8000字的文檔至少耗費約5分鐘,需要一點點耐心。 本軟件檢測結果存在一個小的誤差,用更小的文檔塊進行檢測,可以減少誤差,但需要的時間會相應增加,經過我們在多家編輯部的試用情況,塊數大小定為200字較為合適,此時誤差率也是可以接受的,文檔相似率一般是比實際的要低。