摘要
隨著大語(yǔ)言模型(Large Language Model, LLM)在生成任務(wù)領(lǐng)域取得突破性進(jìn)展,人工智能生成文本(Artificial Intelligence Generated Text ,AIGT)呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。盡管 LLM 的卓越性能吸引了學(xué)術(shù)界廣泛關(guān)注,但其潛在的濫用風(fēng)險(xiǎn)也引發(fā)了社會(huì)各界的深切憂慮。特別是,LLM 已被不當(dāng)利用于生成虛假新聞、偽造學(xué)術(shù)論文和虛假專利申請(qǐng)文件等違規(guī)行為。因此,識(shí)別和檢測(cè)人工智能生成的內(nèi)容已成為當(dāng)前亟待解決的關(guān)鍵科學(xué)問(wèn)題。然而,現(xiàn)有的 AI 文本檢測(cè)研究的重點(diǎn)主要集中在一般文本或者特定文本,專門針對(duì) AI 生成專利文本的檢測(cè)仍有待完善。目前,不僅專門用于專利文本生成檢測(cè)的標(biāo)準(zhǔn)化數(shù)據(jù)集缺乏,而且面向?qū)@谋镜?AI 生成檢測(cè)方法。這一研究現(xiàn)狀嚴(yán)重制約了相關(guān)領(lǐng)域的深入發(fā)展。本文的主要貢獻(xiàn)點(diǎn)包括以下三個(gè)方面:(1) 數(shù)據(jù)集構(gòu)建:考慮目前的研究沒(méi)有針對(duì)專利文本這一類型的文本,本文提出了一種利用大模型自動(dòng)生成專利摘要的數(shù)據(jù)集構(gòu)建方法。具體而言,本文先 是 通 過(guò) 爬 蟲 獲 取 已 授 權(quán) 的 專 利 摘 要 以 及 其 對(duì) 應(yīng) 的 權(quán) 利 要 求 書 , 并 利 用ChatGPT 3.5 Turbo 模型,將權(quán)利要求書生成一組中文和英文的專利摘要文本。由此構(gòu)建了一個(gè)可用于專利文本生成檢測(cè)的公開可用的數(shù)據(jù)集 PAD。所構(gòu)建的數(shù)據(jù)集涉及四個(gè)領(lǐng)域的專利:人工智能、生物醫(yī)藥、電氣工程、機(jī)械制造,并且本文通過(guò) ROUGE、BERTScore、MoverScore 來(lái)評(píng)估數(shù)據(jù)集 PAD 的質(zhì)量。(2) 文本特性探索分析:本文在構(gòu)建的 PAD 數(shù)據(jù)集上進(jìn)行了詞匯特征分析、詞性特征分析、依存關(guān)系分析、情感極性分析、語(yǔ)言困惑度分析等探索性的實(shí)驗(yàn),以此來(lái)探索 AI 生成的專利文本與人類編寫的專利文本之間的差異。(3) 檢測(cè)方法設(shè)計(jì):基于上述探索分析結(jié)果,本文結(jié)合寬度學(xué)習(xí)系統(tǒng),引入殘差注意力機(jī)制和專利文本自適應(yīng)權(quán)重,設(shè)計(jì)了一種面向?qū)@I(lǐng)域的 AI 生成文本檢測(cè)方法 PAA-BLS。在 PAD 數(shù)據(jù)集上,本文將 PAA-BLS 與現(xiàn)有的檢測(cè)方法進(jìn)行了實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文提出的方法可以有效平衡模型復(fù)雜度和檢測(cè)性能。綜上所述,本文提出了一種構(gòu)建 AI 生成專利文本檢測(cè)數(shù)據(jù)集的方法,并構(gòu)建了一個(gè)名為 PAD 的用于 AI 生成專利文本檢測(cè)的數(shù)據(jù)集,結(jié)合探索分析結(jié)果構(gòu)建了一種面向?qū)@谋镜臋z測(cè)方法。本文的研究為人工智能生成專利文本的檢測(cè)提供了創(chuàng)新性方法和數(shù)據(jù)支持,增強(qiáng)了知識(shí)產(chǎn)權(quán)保護(hù)的技術(shù)手段,對(duì)提升專利審查的準(zhǔn)確性和效率具有重要的應(yīng)用意義。
AbstractAs
large language models (LLMs) achieve breakthrough progress in generativetasks, Artificial Intelligence Generated Text (AIGT) has experienced exponentialgrowth. Although the exceptional performance of LLMs has garnered widespreadacademic attention, their potential misuse has also raised deep concerns across varioussectors. Specifically, LLMs have been improperly used to generate fake news,counterfeit academic papers, and false patent application documents, among otherviolations. Consequently, identifying and detecting AI-generated content has become acritical scientific issue that urgently needs addressing. However, existing AI textdetection research mainly focuses on general or specific texts, and the detection of AI-generated patent texts remains underdeveloped. Currently, there is a lack ofstandardized datasets specifically for patent texts generation detection, as well as AIgeneration detection methods tailored for patent texts. This research status severelyrestricts the in-depth development of related fields.The main contributions of this paper include the following three aspects:(1) Dataset Construction: Considering that current research does not target patenttexts, this paper proposes a method for constructing datasets that automatically generatepatent abstracts using large models. Specifically, the paper first employs web crawlersto obtain granted patent abstracts and their corresponding claims, and then uses theChatGPT 3.5 Turbo model to generate a set of Chinese and English patent abstract textsfrom the claims. Thus, an openly available dataset, PAD, is constructed for patent textsgeneration detection. The constructed dataset covers patents in four fields: artificialintelligence, biomedicine, electrical engineering, and mechanical manufacturing, andthe paper evaluates the quality of the PAD dataset using ROUGE, BERTScore, andMoverScore.
目錄
摘要
Abstract
1 緒論
2 相關(guān)技術(shù)及理論
3 專利文本AI生成檢測(cè)數(shù)據(jù)集的構(gòu)建
4 AI生成與人類撰寫專利文本差異性探索
5 面向?qū)@I(lǐng)域的機(jī)器生成文本檢測(cè)方法的研究
6 總結(jié)與展望
參考文獻(xiàn)
1 緒論
1.1 研究背景與意義自然語(yǔ)言生成(Natural Language Generation, NLG)是指通過(guò)非語(yǔ)言輸入自動(dòng)生成自然語(yǔ)言文本的過(guò)程,該任務(wù)自出現(xiàn)以來(lái)一直是人工智能領(lǐng)域長(zhǎng)期研究的課題之一,與自然語(yǔ)言理解等技術(shù)高度相關(guān)[1]。文本自動(dòng)生成的實(shí)現(xiàn)標(biāo)志著人工智能逐漸走向成熟。文本生成模型(Text generation model, TGM)生成的語(yǔ)意連貫且語(yǔ)法正確的文本,對(duì)于機(jī)器翻譯、文本摘要、對(duì)話系統(tǒng)和圖像描述等應(yīng)用場(chǎng)景起著至關(guān)重要的作用[2–4]。隨 著 人 工 智 能 技 術(shù) 的 迅 猛 發(fā) 展 , 深 度 學(xué) 習(xí) 在 自 然 語(yǔ) 言 處 理 (NaturalLanguage Processing, NLP)領(lǐng)域取得了顯著的成果。特別是在文本生成任務(wù)中,基于深度學(xué)習(xí)的生成模型(如 GPT 系列、BERT、T5 等)展現(xiàn)出了強(qiáng)大的語(yǔ)言理解與生成能力。而隨著大語(yǔ)言模型(Large Languag Model,LLM)的爆火,人工智能生成文本(Artificial Intelligence-Generated Text ,AIGT)技術(shù)不僅廣泛應(yīng)用于機(jī)器翻譯、自動(dòng)摘要、文本分類等傳統(tǒng)任務(wù),還在專利文本生成、法律文書撰寫等高專業(yè)化領(lǐng)域中展現(xiàn)出重要價(jià)值。然而,LLM 強(qiáng)大的生成能力也帶來(lái)了新的挑戰(zhàn),使得區(qū)分其生成的文本與人類撰寫的文本變得愈發(fā)困難。事物的發(fā)展向來(lái)具有雙重性,大模型技術(shù)的崛起無(wú)疑為智能化發(fā)展注入了強(qiáng)大動(dòng)力,推動(dòng)技術(shù)邁向新的高度。然而,其濫用所引發(fā)的一系列問(wèn)題也不容小覷,這些問(wèn)題集中體現(xiàn)在以下兩個(gè)維度:一方面,LLM 本身存在一些固有缺陷,例如大模型的幻覺(jué)問(wèn)題、容易包含過(guò)時(shí)信息,并對(duì)輸入提示表現(xiàn)出高度敏感性。這些問(wèn)題可能導(dǎo)致錯(cuò)誤信息的傳播、削弱技術(shù)專業(yè)性,甚至助長(zhǎng)抄襲等不良行為。另一方面,LLM 的強(qiáng)大功能也可能被濫用于不良目的,例如傳播虛假信息、實(shí)施網(wǎng)絡(luò)欺詐、生成社交媒體垃圾內(nèi)容。在學(xué)術(shù)領(lǐng)域,LLM 的濫用容易引發(fā)不誠(chéng)信行為,例如被學(xué)生利用來(lái)杜撰學(xué)術(shù)論文等。而專利文本作為知識(shí)產(chǎn)權(quán)保護(hù)的重要載體,具有高度的專業(yè)性、技術(shù)性和法律性。近年來(lái),AI 生成技術(shù)在專利撰寫中應(yīng)用越來(lái)越廣泛,它雖然能夠被用于輔助用戶撰寫專利申請(qǐng)文件,提高專利撰寫效率,但是也會(huì)帶來(lái)不少影響[5],

AA-BLS 整體框架圖
具體如下:(1). 專利信息披露問(wèn)題的加劇:AI 撰寫的專利可能會(huì)導(dǎo)致準(zhǔn)確性和實(shí)用性下降,尤其是對(duì)技術(shù)信息的披露質(zhì)量產(chǎn)生負(fù)面影響。AI 工具雖然能夠生成符合法律要求的專利文本,但可能包含不正確或誤導(dǎo)性的信息。(2). “預(yù)言性”專利的風(fēng)險(xiǎn):從專利申請(qǐng)的角度來(lái)看,AI 生成的內(nèi)容有可能讓專利申請(qǐng)所基于的是那些并未真正付諸實(shí)踐的“預(yù)言性”披露內(nèi)容,這樣的專利雖然在法律上被認(rèn)為是具有可操作性的,但對(duì)于后續(xù)真實(shí)的發(fā)明者將構(gòu)成障礙,影響他們的專利申請(qǐng)。(3). 審查和標(biāo)準(zhǔn)提升的必要性:現(xiàn)有的審查機(jī)制和專利披露標(biāo)準(zhǔn)可能需要調(diào)整,以適應(yīng)創(chuàng)新生態(tài)系統(tǒng)的變化。具體建議包括要求發(fā)明者至少實(shí)施部分發(fā)明,強(qiáng)化披露的審查力度,提升專利審查員的培訓(xùn),以及引入更多科學(xué)專業(yè)人士參與審查過(guò)程。(4). 政策需再評(píng)估:對(duì)現(xiàn)有的法律標(biāo)準(zhǔn)需要進(jìn)行再評(píng)估,來(lái)提高專利申請(qǐng)的透明度,并考慮利用 AI 工具來(lái)識(shí)別和提高信息披露質(zhì)量。除此之外,生成技術(shù)的濫用可能導(dǎo)致偽造專利文本、侵權(quán)行為或低質(zhì)量文本的大量出現(xiàn),進(jìn)而對(duì)專利審查流程和知識(shí)產(chǎn)權(quán)保護(hù)體系造成潛在威脅。因此,如何準(zhǔn)確檢測(cè)由深度學(xué)習(xí)模型生成的專利文本,成為了一個(gè)亟待解決的重要問(wèn)題。針對(duì) AI 生成文本檢測(cè)的研究主要集中在通用領(lǐng)域或者例如學(xué)術(shù)論文等的特定類型文本,然而專利本具有獨(dú)特的語(yǔ)言風(fēng)格、專業(yè)術(shù)語(yǔ)體系以及規(guī)范化的結(jié)構(gòu)特征,這使得現(xiàn)有的通用檢測(cè)方法在專利文本領(lǐng)域中可能面臨適用性局限。因此,面向?qū)@谋镜纳蓹z測(cè)方法研究,需要結(jié)合專利文本特性來(lái)構(gòu)建針對(duì)性的檢測(cè)方法,以提升檢測(cè)的準(zhǔn)確性和魯棒性。本研究聚焦于人工智能生成文本(AIGT)的檢測(cè)方法,特別針對(duì)專利文本這一特定應(yīng)用場(chǎng)景開展研究。鑒于 AI 生成的專利文本通常呈現(xiàn)出復(fù)雜的多句式結(jié)構(gòu),其檢測(cè)的核心任務(wù)在于準(zhǔn)確判定文本的來(lái)源屬性——即區(qū)分其是源自人類創(chuàng)作或機(jī)器生成。從方法論角度而言,該任務(wù)可以被形式化為文本分類問(wèn)題,通過(guò)系統(tǒng)提取和分析專利文本的特征表征,實(shí)現(xiàn)對(duì)文本來(lái)源的精確分類。AI 生成文本檢測(cè)技術(shù)的研究,不僅可以減少專利信息披露問(wèn)題,還可以提升專利審查員的審查效率,降低“預(yù)言性”專利出現(xiàn)的風(fēng)險(xiǎn)。此外,該領(lǐng)域的研究也為 NLP 和 AIGT 技術(shù)的發(fā)展注入了新的動(dòng)力,推動(dòng) AIGT 檢測(cè)技術(shù)的規(guī)范化應(yīng)用與持續(xù)創(chuàng)新。

PAA-BLS 在 PAD 數(shù)據(jù)集上與其他方法對(duì)比的指標(biāo)結(jié)果
1.2 國(guó)內(nèi)外研究現(xiàn)狀及面臨的挑戰(zhàn)
隨著人工智能生成內(nèi)容(Artificial Intelligence-Generated Content , AIGC)技術(shù)的迅猛發(fā)展,尤其是自然語(yǔ)言生成技術(shù)在各領(lǐng)域的廣泛應(yīng)用,我們正面臨網(wǎng)絡(luò)信息爆炸和文本形態(tài)多樣化的雙重挑戰(zhàn)。在此背景下,網(wǎng)絡(luò)空間中內(nèi)容的真實(shí)性愈發(fā)難以甄別,使得 AI 生成文本的有效檢測(cè)成為一項(xiàng)迫切需求。針對(duì) AI 生成內(nèi)容的獨(dú)特特征和多樣化的生成方法,學(xué)術(shù)界已開展了系統(tǒng)性研究,主要形成了兩大技術(shù)路線:傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)模型。這些研究為解決文本真?zhèn)巫R(shí)別問(wèn)題提供了重要的理論和實(shí)踐基礎(chǔ)。
1.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)通過(guò)結(jié)合人類的視覺(jué)解讀能力、常識(shí)知識(shí)以及計(jì)算機(jī)的高速統(tǒng)計(jì)運(yùn)算,可以構(gòu)建一個(gè)用于識(shí)別機(jī)器生成文本的系統(tǒng)。2017 年,Tien 等人嘗試通過(guò)計(jì)算文本距離進(jìn)行文本分類,以區(qū)分真實(shí)文本與機(jī)器生成文本[7]。然而,該方法在實(shí)際應(yīng)用中面臨顯著限制,特別是在識(shí)別大規(guī)模真實(shí)文檔中散布的 AI 生成片段時(shí)表現(xiàn)欠佳。為應(yīng)對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)開發(fā)了基于語(yǔ)法結(jié)構(gòu)相似性(GrammaticalStructure Similarity, GSS)的檢測(cè)框架,該框架通過(guò)解析樹技術(shù)分析句法特征,摒棄了對(duì)具體詞匯的依賴,實(shí)現(xiàn)了句間結(jié)構(gòu)相似度的量化評(píng)估。盡管 GSS 方法在句子層面的檢測(cè)任務(wù)中展現(xiàn)出獨(dú)特優(yōu)勢(shì),但在面對(duì)新型生成技術(shù)(如基于馬爾可夫鏈或 RNN 的模型)以及樣本稀缺等場(chǎng)景時(shí),其實(shí)用性仍顯不足。2019 年,Ippolito 等人研究了人類和自動(dòng)檢測(cè)器在識(shí)別 AI 生成文本方面的能力差異[8]。實(shí)驗(yàn)結(jié)果表明,盡管文本長(zhǎng)度的增加能提升人類專家和自動(dòng)檢測(cè)系統(tǒng)的識(shí)別準(zhǔn)確率,但在多句段落的情況下,AI 生成內(nèi)容仍有超過(guò) 30%的概率能夠規(guī)避資深評(píng)估人員的判斷。這一發(fā)現(xiàn)凸顯了將人類認(rèn)知經(jīng)驗(yàn)與 AI 檢測(cè)系統(tǒng)相結(jié)合的必要性,以評(píng)估生成系統(tǒng)輸出的自然度。不少研究團(tuán)隊(duì)通過(guò)對(duì)文本特征的可視化分析(如語(yǔ)境不協(xié)調(diào)性和詞匯使用異常等),致力于開發(fā)輔助工具,增強(qiáng)人類對(duì) AI 生成內(nèi)容的識(shí)別能力。例如,在 2020 年,Gehrmann 等人開發(fā)了一種名為 GLTR(Giant Language Model Test Room)的工具,該工具通過(guò)計(jì)算文本序列的概率直方圖,使機(jī)器生成文本的特征更易被檢測(cè)[9]。研究表明,借助GLTR,未經(jīng)專業(yè)訓(xùn)練的人類能夠顯著提高對(duì)生成文本的檢測(cè)準(zhǔn)確率,從原本的54%提升至 72%[9]。然而,研究發(fā)現(xiàn),盡管初步識(shí)別和標(biāo)記機(jī)器生成內(nèi)容相對(duì)容易實(shí)現(xiàn),但要準(zhǔn)確判定文本的真實(shí)來(lái)源和生成屬性仍面臨重大挑戰(zhàn)。這一現(xiàn)象不僅突顯了檢測(cè)技術(shù)的局限性,也凸顯了在打擊虛假信息傳播過(guò)程中,人類專家判斷與自動(dòng)化系統(tǒng)協(xié)同配合的關(guān)鍵作用。2020 年,另一種名為 RoFT 的工具被提出用于評(píng)估人類對(duì) AI 生成文本的檢測(cè)能力,其方法是要求人類在閱讀文本時(shí)標(biāo)記從真實(shí)文本到生成文本的句子邊界[10]。研究發(fā)現(xiàn),無(wú)論檢測(cè)器模型的復(fù)雜程度如何,該工具在使用較大 GPT-2模型生成的示例進(jìn)行訓(xùn)練時(shí)表現(xiàn)良好,并且能夠很好地適應(yīng)較小 GPT-2 模型生成的文本[11]。然而,當(dāng)訓(xùn)練數(shù)據(jù)來(lái)自較小 GPT-2 模型時(shí),其對(duì)較大 GPT-2 模型生成內(nèi)容的分類性能會(huì)顯著下降。這表明訓(xùn)練數(shù)據(jù)的規(guī)模和模型容量對(duì)檢測(cè)性能有重要影響。盡管如此,RoFT 工具也存在局限性。由于展示給人類的文本可能包含大量人類生成的句子,其結(jié)果未必能真實(shí)反映 TGM 模型自然生成文本的特性。這一問(wèn)題表明,在利用人類標(biāo)注生成文本時(shí),需更加謹(jǐn)慎地設(shè)計(jì)實(shí)驗(yàn)以確保結(jié)果的科學(xué)性和可靠性。2019 年,Irene 等人提出了一種簡(jiǎn)單的對(duì)比模型,該模型基于邏輯回歸算法,將文檔表示為 TF-IDF 向量,用于區(qū)分網(wǎng)頁(yè)文章和生成文本[12]。2020 年,Tay 等人則研究了不同的建模選擇(如解碼方法、TGM 模型大小、提示長(zhǎng)度等)對(duì)生成文本中可檢測(cè)特征的影響程度[13]。此外,Allen 等人通過(guò)量化學(xué)術(shù)文章中的關(guān)鍵詞提出了一種檢測(cè)生成文本的方法[14]。Arase 和 Zhou 使用 N-gram 特征量化連續(xù)詞與非連續(xù)詞的流暢性,進(jìn)一步評(píng)估生成文本的特性[15]。Renata 等人從寫作風(fēng)格的角度出發(fā),采用動(dòng)態(tài)差異性的方法來(lái)衡量論文寫作風(fēng)格之間的距離,以此發(fā)現(xiàn)生成文本[16]。Nguyen-Son 等人則提出了一種基于 Zipfian 分布的統(tǒng)計(jì)分析方法來(lái)檢測(cè)生成文本。他們指出,人類書寫文本中的詞頻分布通常符合 Zipf 定律,即最常用單詞的頻率約為第二常用單詞的兩倍,幾乎是第三常用單詞的三倍,依此類推。然而,研究發(fā)現(xiàn),計(jì)算機(jī)生成的文本往往不符合這一分布規(guī)律[17]。盡管上述方法在檢測(cè)生成文本方面取得了一定成效,但它們大多基于統(tǒng)計(jì)分析技術(shù),存在以下顯著局限性:(1). 對(duì)單詞順序不敏感,忽略文本語(yǔ)義結(jié)構(gòu):這些方法主要關(guān)注詞匯或詞頻特征,而不處理文本的深層含義,導(dǎo)致對(duì)語(yǔ)義信息的捕捉能力不足。(2). 數(shù)據(jù)集規(guī)模限制:有限的訓(xùn)練樣本難以支持系統(tǒng)準(zhǔn)確識(shí)別來(lái)自大規(guī)模語(yǔ)料庫(kù)的低頻文檔,特別是在獲取真實(shí)文本數(shù)據(jù)集面臨挑戰(zhàn)的情況下,檢測(cè)效果更顯不足。隨著生成文本與人類創(chuàng)作在語(yǔ)言特征上的差異逐漸縮小,傳統(tǒng)機(jī)器學(xué)習(xí)方法在深層語(yǔ)義特征提取方面表現(xiàn)出明顯局限性,難以適應(yīng)日益復(fù)雜的檢測(cè)需求。這一現(xiàn)狀凸顯了未來(lái)研究方向:需要構(gòu)建融合語(yǔ)義分析與深度學(xué)習(xí)技術(shù)的混合架構(gòu),以增強(qiáng)系統(tǒng)對(duì) AI 生成文本的識(shí)別能力。1.2.2 基于深度學(xué)習(xí)的檢測(cè)技術(shù)深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展推動(dòng)了文本檢測(cè)領(lǐng)域的重大突破。傳統(tǒng)檢測(cè)范式由于局限于單一特征維度,在識(shí)別不同來(lái)源文本的微觀差異時(shí)存在明顯瓶頸。針對(duì)這一技術(shù)難點(diǎn),研究者創(chuàng)新性地引入了基于 Complex Network (CN)的檢測(cè)框架。該方法通過(guò)構(gòu)建單詞鄰接模型來(lái)提取網(wǎng)絡(luò)拓?fù)涮卣鳎瑸榫_刻畫文本的獨(dú)特語(yǔ)言模式提供了新的分析維度,顯著提升了檢測(cè)的精確度和魯棒性。有趣的是,不同語(yǔ)言的特殊特性也可以通過(guò)復(fù)雜網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行分類[18]。在 2015 年,Diego 提出了一種創(chuàng)新的復(fù)雜網(wǎng)絡(luò)檢測(cè)方法。該方法不關(guān)注文本的語(yǔ)義相似性,而是重點(diǎn)分析文本的結(jié)構(gòu)和組織模式,尤其是其連接方式。通過(guò)結(jié)合單詞鄰接模型提取的網(wǎng)絡(luò)特征與機(jī)器學(xué)習(xí)技術(shù),有效識(shí)別出自動(dòng)生成的論文。這也從側(cè)面驗(yàn)證了機(jī)器生成文本在組織結(jié)構(gòu)上存在一些隱藏模式,這些模式與真實(shí)文本的結(jié)構(gòu)模式存在顯著差異[19]。該方法的檢測(cè)準(zhǔn)確性仍遜于傳統(tǒng)基于文本內(nèi)容的技術(shù)。在未來(lái),優(yōu)化分類器參數(shù)或?qū)?fù)雜網(wǎng)絡(luò)方法與統(tǒng)計(jì)分析更緊密結(jié)合,可能進(jìn)一步增強(qiáng)自動(dòng)生成文本的檢測(cè)能力。此外,需要注意的是,目前的檢測(cè)方法仍無(wú)法完全保證檢測(cè)結(jié)果的準(zhǔn)確性,這表明在生成文本檢測(cè)領(lǐng)域仍有較大的改進(jìn)空間。為了提升檢測(cè)精度,研究人員提出了一些針對(duì)特定文本生成技術(shù)的檢測(cè)方法,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、馬爾科夫模型以及概率上下文無(wú)關(guān)文法(Probability Context-free Grammar, PCFG)[7,20,21]。研究發(fā)現(xiàn),自動(dòng)生成的文本往往形成緊密的分組,與真實(shí)文本在分布上存在明顯的差異理序列數(shù)據(jù)方面的優(yōu)勢(shì),提出了一種專門針對(duì) RNN 生成文本的檢測(cè)模型[22]。盡管這些自動(dòng)檢測(cè)模型在性能上顯著優(yōu)于人工評(píng)分,但它們?cè)趹?yīng)對(duì)其他生成技術(shù)生成的文本時(shí),泛化能力仍顯不足。這表明,進(jìn)一步提升檢測(cè)模型的通用性和適應(yīng)性仍是未來(lái)研究的重要方向。通過(guò)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào),可以有效檢測(cè)由自身或類似模型生成的文本。預(yù)訓(xùn)練語(yǔ)言模型在促進(jìn)文本自動(dòng)生成和檢測(cè)技術(shù)發(fā)展方面發(fā)揮了重要作用。研究表明,語(yǔ)言模型的預(yù)訓(xùn)練在改進(jìn)許多自然語(yǔ)言處理任務(wù)上具有顯著效果[23]。在 2019年5月,華盛頓大學(xué)和艾倫人工智能研究所的研究人員提出了一種名為Grover的可控文本生成模型[24]。Grover能夠根據(jù)文章標(biāo)題高效生成完整的新聞報(bào)道,包括正文、標(biāo)題、新聞源、發(fā)布日期和作者名單,其生成內(nèi)容的可信度甚至超過(guò)人類撰寫的新聞。在此之前,OpenAI推出的GPT-1和GPT-2模型,以及Google的BERT模型,都展現(xiàn)了強(qiáng)大的文本生成能力[10,23,24]。在 2019年, Zellers等人基于Grover模型設(shè)計(jì)了一種基于線性分類器的檢測(cè)器[24]。在虛假新聞檢測(cè)任務(wù)中,使用Grover模型的準(zhǔn)確率高達(dá)92%,顯著優(yōu)于此前最高73%的檢測(cè)準(zhǔn)確率[10,23,24]。此外,在 2019 年,Irene 等人對(duì) RoBERTa 語(yǔ)言模型(包含 3.56 億個(gè)參數(shù))進(jìn)行了微調(diào),成功構(gòu)建出能夠識(shí)別由 GPT-2 最大模型(15 億個(gè)參數(shù))生成網(wǎng)頁(yè)的檢測(cè)器,其準(zhǔn)確率達(dá)到了 95%[12]。他們還提出了一種基于 TGM 計(jì)算總 log 概率的方法,并通過(guò)設(shè)定概率閾值來(lái)進(jìn)行預(yù)測(cè)[12]。Liu, Xiaoming 等人在 2022 年提出 了 一種基 于 連貫性 的 對(duì)比學(xué) 習(xí) 模型(CoCo),用于檢測(cè) AI 生成的文本[25]。該模型通過(guò)實(shí)體一致性和句子間交互來(lái)建模文本的連貫性。在準(zhǔn)確率和 F1 得分方面,CoCo 模型的表現(xiàn)不僅優(yōu)于 GPT-2、RoBERTa 和 XLNet 等類似模型,還超越了 GROVER 和 FAST 模型。Eric Mitchell 等人在 2023 年提出了一種名為 DetectGPT 的工具,用于檢測(cè)由 LLM 生成的文本[26]。與現(xiàn)有的零樣本方法相比,DetectGPT 在檢測(cè)機(jī)器生成文本方面更為有效。研究表明,DetectGPT 在檢測(cè)由擁有 200 億參數(shù)的 GPT-NeoX 生成的虛假新聞文章時(shí)表現(xiàn)顯著提升,其 AUROC 達(dá)到 0.95,而最強(qiáng)零樣本基線的 AUROC 僅為 0.81。此外,作者還發(fā)現(xiàn),DetectGPT 無(wú)需訓(xùn)練單獨(dú)的分類器或收集真實(shí)語(yǔ)料庫(kù)與生成語(yǔ)料庫(kù)的數(shù)據(jù)集,這使其成為一種更高效且實(shí)用。
1.2.3 專利文本 AI 生成檢測(cè)面臨的挑戰(zhàn)當(dāng)前,盡管 AI 生成文本檢測(cè)技術(shù)取得了突破性進(jìn)展,但仍然面臨諸多挑戰(zhàn):(1) 當(dāng)前的研究主要聚焦于通用文本,而專利文本這一垂直領(lǐng)域尚屬空白,數(shù)據(jù)集的缺失值得深入探索。從傳統(tǒng)意義上看,專利文本與通用文本在格式和內(nèi)容上具有顯著差異。專利文本通常具有嚴(yán)格的結(jié)構(gòu)化要求,包括技術(shù)背景、發(fā)明內(nèi)容、實(shí)施方式等部分,其語(yǔ)言風(fēng)格更趨向于嚴(yán)謹(jǐn)、專業(yè)和規(guī)范化,與通用文本的表達(dá)方式存在明顯的語(yǔ)言差異。此外,專利文本的語(yǔ)言特點(diǎn)還體現(xiàn)在其高度技術(shù)性和法律性上,這使得生成文本的檢測(cè)任務(wù)更加復(fù)雜。一方面,專利文本需要精準(zhǔn)描述技術(shù)細(xì)節(jié),生成的文本必須具備高度的邏輯性和一致性;另一方面,專利文本中常包含大量特定領(lǐng)域的術(shù)語(yǔ)和句法結(jié)構(gòu),這與通用文本的語(yǔ)義和語(yǔ)法特征大相徑庭。因此,如何針對(duì)專利文本的特性構(gòu)建專屬數(shù)據(jù)集,并在此基礎(chǔ)上開發(fā)適配的生成與檢測(cè)方法,是一個(gè)值得深入研究的課題。除此之外,現(xiàn)有針對(duì)通用文本的檢測(cè)方法可能難以直接應(yīng)用于專利文本領(lǐng)域,亟需開發(fā)能夠捕捉專利文本特有特征的檢測(cè)模型。(2) 如何構(gòu)建針對(duì) AI 生成專利文本檢測(cè)的方法是一個(gè)亟需解決的問(wèn)題。當(dāng)前的檢測(cè)方法多依賴于特定生成技術(shù),僅能識(shí)別由特定技術(shù)生成的文本,導(dǎo)致檢測(cè)準(zhǔn)確性無(wú)法得到保障。盡管通過(guò)微調(diào)預(yù)訓(xùn)練的語(yǔ)言模型方法可以顯著提升檢測(cè)精度,但其泛化能力有限,僅對(duì)自身或類似模型生成的文本有效。如何進(jìn)一步提升檢測(cè)模型的泛化能力,使其能夠應(yīng)對(duì)多樣化的生成文本,是當(dāng)前研究的關(guān)鍵難點(diǎn)之一。
(3) 在專利審查的過(guò)程中,往往需要對(duì)海量的專利文本進(jìn)行 AI 生成檢測(cè),因此如何實(shí)現(xiàn)資源少、檢測(cè)耗時(shí)短的檢測(cè)方法,具有重要的應(yīng)用意義。目前,現(xiàn)有方法大部分是基于深度學(xué)習(xí)的檢測(cè)方法,但是這類方法通常伴隨著高昂的計(jì)算成本和資源需求。這些方法往往使用擁有龐大的參數(shù)量的模型,對(duì)硬件配置要求較高,同時(shí)在推理階段耗時(shí)較長(zhǎng),難以滿足實(shí)際應(yīng)用中對(duì)高效性和低資源占用的需求。當(dāng)它面臨海量的專利文本時(shí),一種快速的、輕量化的檢測(cè)器顯得尤為重要。綜上所述,現(xiàn)有的研究只涉及到通用文本或其他特定類型文本,并沒(méi)有針對(duì)專利文本領(lǐng)域進(jìn)行相關(guān)研究。其次,現(xiàn)有的生成檢測(cè)方法,只能發(fā)現(xiàn)文本的高頻出現(xiàn)的重要特征。隨著生成文本質(zhì)量不斷提高,這些特征無(wú)法區(qū)分生成文本與真實(shí)文本之間的細(xì)微差別,影響了檢測(cè)模型的準(zhǔn)確性,生成文本的更具有代表性的相關(guān)性特征變得特別重要。除此之外,基于深度學(xué)習(xí)的檢測(cè)方法雖然達(dá)到了較高的準(zhǔn)確度,但所需資源、計(jì)算推理成本高,并且只能檢測(cè)從自身或類似模型生成的文本。因此,為了彌補(bǔ)這一研究領(lǐng)域的空白,構(gòu)建一個(gè)能夠針對(duì)專利文本領(lǐng)域挖掘生成文本相關(guān)性特征,同時(shí)具備資源消耗低和檢測(cè)效率高等特點(diǎn)的 AI 生成文本檢測(cè)方法,已成為當(dāng)前亟需解決的任務(wù)。1.3 研究?jī)?nèi)容本文通過(guò)對(duì)相關(guān)工作的研究與分析,發(fā)現(xiàn)現(xiàn)有生成文本檢測(cè)方法研究主要集中在通用文本領(lǐng)域,并沒(méi)有涉及到專利文本這一垂直領(lǐng)域,并且主流的方法是基于深度學(xué)習(xí)的方法所需要的硬件資源較高。針對(duì)上述問(wèn)題,本文的目標(biāo)是利用所需資源低的寬度學(xué)習(xí)方法,引入改進(jìn)的寬度學(xué)習(xí)系統(tǒng)方法來(lái)提高模型檢測(cè)性能。通過(guò)梳理和分析生成文本檢測(cè)技術(shù)的研究現(xiàn)狀,針對(duì)當(dāng)前生成文本檢測(cè)工作中存在的問(wèn)題,本文的貢獻(xiàn)點(diǎn)包括以下三個(gè)方面:(1) 針對(duì)專利文本生成檢測(cè)研究領(lǐng)域,提出了一個(gè)面向?qū)@?AI 生成文本檢測(cè)數(shù)據(jù)集自動(dòng)構(gòu)建方法,并構(gòu)建了一個(gè)用于專利文本生成檢測(cè)的數(shù)據(jù)集—PAD,包含四個(gè)領(lǐng)域:人工智能、生物醫(yī)藥、電氣工程、機(jī)械制造。本文在ROUGE、BERTScore、MoverScore、Perplexity 指 標(biāo) 上 與 M4、MGTBench、CHEAT 等公開數(shù)據(jù)集進(jìn)行對(duì)比,以評(píng)估本文數(shù)據(jù)集的構(gòu)建質(zhì)量。(2) 對(duì) AI 生成的專利文本進(jìn)行探索性實(shí)驗(yàn),從文本自身特性探究人類撰寫的專利文本和 AI 生成的專利文本之間的差異性。包括 AI 生成的專利文本與人類撰寫的專利文本之間的詞匯差異、詞性差異、依存關(guān)系差異、情感極性分布差異、語(yǔ)言模型困惑度差異。(3) 基于上述探索分析結(jié)果,結(jié)合寬度學(xué)習(xí)系統(tǒng),引入殘差注意力機(jī)制和專利文本自適應(yīng)權(quán)重,本文構(gòu)建了一種面向?qū)@I(lǐng)域的 AI 生成文本檢測(cè)方法。在本文構(gòu)建的 PAD 數(shù)據(jù)集上,與現(xiàn)有其他方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明,該方法可以有效平衡模型復(fù)雜度和檢測(cè)性能。本文針對(duì)專利文本 AI 生成檢測(cè)任務(wù)的解決方案的整體流程如圖 1-1 所示:首先構(gòu)建面向?qū)@谋?AI 生成檢測(cè)的數(shù)據(jù)集,并且對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估,這一部分對(duì)應(yīng)論文的第三章內(nèi)容;接著探究 AI 生成的專利文本和人類撰寫的專利之間的差異性,包括詞匯特征分析、詞性特征分析、依存關(guān)系分析、情感極性分析、語(yǔ)言困惑度分析等實(shí)驗(yàn)分析,本部分對(duì)應(yīng)論文的第四章內(nèi)容;最后,本文結(jié)合第四章的差異性探索結(jié)果,基于寬度學(xué)習(xí)系統(tǒng),提出了一種面向?qū)@I(lǐng)域的 AI 生成專利文本檢測(cè)的方法,本部分對(duì)應(yīng)論文的第五章內(nèi)容。
總結(jié)與展望近年來(lái),隨著生成式技術(shù)的不斷突破,LLM 迅速發(fā)展,并以其強(qiáng)大的性能逐步滲透到日常生活的各個(gè)方面,在許多專業(yè)工作流程中發(fā)揮了重要作用。例如,這些模型在廣告標(biāo)語(yǔ)生成、新聞撰寫、故事創(chuàng)作和代碼生成等任務(wù)中表現(xiàn)出色,顯著推動(dòng)了相關(guān)領(lǐng)域的進(jìn)步。同時(shí),其影響力已擴(kuò)展至教育、法律、生物學(xué)和醫(yī)學(xué)等多個(gè)行業(yè)和學(xué)科,對(duì)這些領(lǐng)域的發(fā)展產(chǎn)生了深刻的推動(dòng)作用。因此,如何實(shí)現(xiàn)對(duì) AI 生成文本的自動(dòng)化、精準(zhǔn)檢測(cè),不僅具有重要的研究?jī)r(jià)值,也已成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一。本文通過(guò)對(duì) AI 生成文本檢測(cè)問(wèn)題的相關(guān)研究進(jìn)行梳理與復(fù)現(xiàn),對(duì)現(xiàn)有的檢測(cè)方法進(jìn)行了系統(tǒng)分析,發(fā)現(xiàn)已有的工作在針對(duì)專利文本生成檢測(cè)領(lǐng)域空缺,更沒(méi)有研究工作針對(duì)專利文本生成檢測(cè)構(gòu)建相應(yīng)的檢測(cè)器。另外,如何提高生成文本檢測(cè)模型的泛化能力,針對(duì)專利文本特點(diǎn)構(gòu)建檢測(cè)器也是研究過(guò)程中所面臨的重要問(wèn)題之一。針對(duì)上述問(wèn)題,本文構(gòu)建了一種基于寬度學(xué)習(xí)的 AI 生成文本檢測(cè)方法,所做的主要研究工作如下:(1). 通過(guò)對(duì)研究背景和國(guó)內(nèi)外研究現(xiàn)狀的全面分析,明確了專利文本生成檢測(cè)研究的必要性和緊迫性。相關(guān)文獻(xiàn)綜述表明,雖然通用領(lǐng)域的文本生成檢測(cè)已有一定研究基礎(chǔ),但專利文本這一特殊領(lǐng)域的檢測(cè)研究仍存在明顯不足。(2). 針對(duì)專利文本生成檢測(cè)研究領(lǐng)域,構(gòu)建了一個(gè)用于專利文本生成檢測(cè)的數(shù)據(jù)集,包含四個(gè)不同的技術(shù)領(lǐng)域:人工智能、生物醫(yī)藥、電氣工程、機(jī)械制造,并通過(guò)嚴(yán)格的質(zhì)量評(píng)估確保了數(shù)據(jù)集的可靠性和代表性,為后續(xù)研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。(3). 針對(duì)構(gòu)建的數(shù)據(jù)集,通過(guò)一系列實(shí)驗(yàn)探索了 AI 生成專利文本與人類撰寫專利文本之間的差異特征。研究從詞性分布、情感極性表達(dá)以及句法依存關(guān)系等多個(gè)維度進(jìn)行了深入分析,發(fā)現(xiàn)了兩類文本在語(yǔ)言結(jié)構(gòu)和表達(dá)模式上的顯著差異,為檢測(cè)方法的設(shè)計(jì)提供了理論依據(jù)。(4). 基于寬度學(xué)習(xí)的方法,引入特征殘差注意力機(jī)制,提出了一種輕量化的專利文本生成檢測(cè)方法。該方法具有參數(shù)量少、訓(xùn)練速度快、資源需求低等優(yōu)勢(shì),同時(shí)保持了較高的檢測(cè)準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)深度學(xué)習(xí)方法相比,本文提出的方法在保持檢測(cè)性能的同時(shí),顯著降低了計(jì)算復(fù)雜度和資源消耗,更適合實(shí)際應(yīng)用場(chǎng)景。盡管本研究在專利文本生成檢測(cè)方面取得了一定成果,但仍存在一些局限性,未來(lái)研究可從以下幾個(gè)方向繼續(xù)深入:(1) 數(shù)據(jù)集擴(kuò)展與多樣化:進(jìn)一步擴(kuò)大數(shù)據(jù)集規(guī)模,增加不同語(yǔ)言、不同技術(shù)領(lǐng)域、不同生成模型來(lái)生成專利文本樣本,提高數(shù)據(jù)集的多樣性和代表性。同時(shí),針對(duì)不同生成模型的輸出特征,構(gòu)建更加細(xì)粒度的數(shù)據(jù)集,以提升檢測(cè)模型的泛化能力[52,53]。(2) 特征工程優(yōu)化:在現(xiàn)有文本特征分析的基礎(chǔ)上,探索更多專利文本特有的語(yǔ)言學(xué)特征和結(jié)構(gòu)特征,如專利權(quán)利要求的格式特征、技術(shù)術(shù)語(yǔ)使用模式等,以進(jìn)一步提高檢測(cè)的精確度[54]。(3) 模型輕量化與效率提升:繼續(xù)優(yōu)化基于寬度學(xué)習(xí)的檢測(cè)模型,探索更高效的特征提取和表示方法,進(jìn)一步降低模型復(fù)雜度,提高檢測(cè)效率,使其能夠更好地適應(yīng)大規(guī)模專利文本檢測(cè)的實(shí)際需求[29]。(4) 可解釋性研究:加強(qiáng)檢測(cè)模型的可解釋性研究,使模型能夠明確指出哪些文本特征導(dǎo)致了檢測(cè)結(jié)果,提高檢測(cè)結(jié)果的可信度和可理解性,為專利審查人員提供更有價(jià)值的參考信息[55]。(5) 對(duì)抗性研究:研究針對(duì)檢測(cè)模型的對(duì)抗性攻擊方法,提高檢測(cè)模型的魯棒性,應(yīng)對(duì)不斷演進(jìn)的 AI 生成技術(shù)帶來(lái)的挑戰(zhàn)。(6) 多模態(tài)檢測(cè):將檢測(cè)范圍從純文本擴(kuò)展到包含圖表、公式等多模態(tài)內(nèi)容的專利文檔,構(gòu)建更加全面的專利生成內(nèi)容檢測(cè)體系。本研究為專利文本生成檢測(cè)領(lǐng)域提供了新的方法和思路,未來(lái)研究將繼續(xù)深化和拓展相關(guān)工作,以應(yīng)對(duì) AI 技術(shù)發(fā)展帶來(lái)的新挑戰(zhàn),保障知識(shí)產(chǎn)權(quán)體系的健康發(fā)展。
參考文獻(xiàn)[1] Otter D W, Medina J R, Kalita J K. A survey of the usages of deep learning fornatural language processing[J]. IEEE transactions on neural networks and learningsystems, 2020, 32(2): 604-624.[2] Grechishnikova D. Transformer neural network for protein-specific de novo druggeneration as a machine translation problem[J]. Scientific reports, 2021, 11(1): 321.[3] Abualigah L, Bashabsheh M Q, Alabool H, et al. Text summarization: a briefreview[J]. Recent Advances in NLP: the case of Arabic language, 2020: 1-15.[4] Ham D, Lee J G, Jang Y, et al. End-to-end neural pipeline for goal-oriented dialoguesystems using GPT-2[C]//Proceedings of the 58th annual meeting of the association forcomputational linguistics. 2020: 583-592.[5] Ouellette L L, Fang V, Ouellette N T. How will AI affect patent disclosures?[J].nature biotechnology, 2025, 43(1): 26-28.[6] Fagni T, Falchi F, Gambini M, et al. TweepFake: About detecting deepfaketweets[J]. PLOS ONE, 2021, 16(5): 1-16.[7] Tien N M, Labbé C. Curious cases of automatically generated text and detectingprobabilistic context free grammar sentences with grammatical structuresimilarity[C]//Proceedings of the Fifth Workshop on Bibliometric-enhancedInformation Retrieval (BIR) co-located with the 39th European Conference onInformation Retrieval (ECIR 2017). 2017.[8] Ippolito D, Duckworth D, Callison-Burch C, et al. Automatic Detection ofGenerated Text is Easiest when Humans are Fooled[C]//JURAFSKY D, CHAI J,SCHLUTER N, et al. Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics. Online: Association for Computational Linguistics, 2020:1808-1822.[9] Gehrmann S, Strobelt H, Rush A M. GLTR: Statistical Detection and Visualizationof Generated Text[C]//Proceedings of the 57th Annual Meeting of the Association forComputational Linguistics: System Demonstrations. 2019: 111-116.[10] Dugan L, Ippolito D, Kirubarajan A, et al. RoFT: A Tool for Evaluating HumanDetection of Machine-Generated Text[J]. EMNLP 2020, 2020: 189.[11] Radford A, Narasimhan K, Salimans T, et al. Improving language understandingby generative pre-training[EB/OL]. OpenAI blog, 2018.[12] Solaiman I, Brundage M, Clark J, et al. Release strategies and the social impactsof language models[EB/OL]. arXiv preprint arXiv:1908.09203, 2019.[13] Tay Y, Bahri D, Zheng C, et al. Reverse Engineering Configurations of Neural TextGeneration Models[C]//Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics. 2020: 275-279.[14] Lavoie A, Krishnamoorthy M. Algorithmic detection of computer generatedtext[EB/OL]. arXiv preprint arXiv:1008.0706, 2010.[15] Arase Y, Zhou M. Machine translation detection from monolingual web-text[C]//Proceedings of the 51st Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers). 2013: 1597-1607.[16] Avros R, Volkovich Z. Detection of computer-generated papers using one-classSVM and cluster approaches[C]//Machine Learning and Data Mining in PatternRecognition: 14th International Conference, MLDM 2018, New York, NY, USA, July15-19, 2018, Proceedings, Part II 14. Springer, 2018: 42-55.[17] Nguyen-Son H Q, Echizen I. Detecting computer-generated text using fluency andnoise features[C]//International Conference of the Pacific Association forComputational Linguistics. Springer, 2017: 288-300.[18] Amancio D R, Nunes M G, Oliveira Jr O N, et al. Extractive summarization usingcomplex networks and syntactic dependency[J]. Physica A: Statistical Mechanics andits Applications, 2012, 391(4): 1855-1864.[19] Amancio D R. Comparing the topological properties of real and artificiallygenerated scientific manuscripts[J]. Scientometrics, 2015, 105: 1763-1779.[20] Klahold A, Fathi M, Klahold A, et al. Automatic text generation[J]. Computer aidedwriting, 2020: 131-154.[21] Soremekun E, Pavese E, Havrikov N, et al. Probabilistic grammar-based testgeneration[C]//Software Engineering 2021. 2021: 97-98.
相關(guān)文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.