摘要
隨著大語言模型(Large Language Model, LLM)在生成任務領域取得突破性進展,人工智能生成文本(Artificial Intelligence Generated Text ,AIGT)呈現出指數級增長。盡管 LLM 的卓越性能吸引了學術界廣泛關注,但其潛在的濫用風險也引發了社會各界的深切憂慮。特別是,LLM 已被不當利用于生成虛假新聞、偽造學術論文和虛假專利申請文件等違規行為。因此,識別和檢測人工智能生成的內容已成為當前亟待解決的關鍵科學問題。然而,現有的 AI 文本檢測研究的重點主要集中在一般文本或者特定文本,專門針對 AI 生成專利文本的檢測仍有待完善。目前,不僅專門用于專利文本生成檢測的標準化數據集缺乏,而且面向專利文本的 AI 生成檢測方法。這一研究現狀嚴重制約了相關領域的深入發展。本文的主要貢獻點包括以下三個方面:(1) 數據集構建:考慮目前的研究沒有針對專利文本這一類型的文本,本文提出了一種利用大模型自動生成專利摘要的數據集構建方法。具體而言,本文先 是 通 過 爬 蟲 獲 取 已 授 權 的 專 利 摘 要 以 及 其 對 應 的 權 利 要 求 書 , 并 利 用ChatGPT 3.5 Turbo 模型,將權利要求書生成一組中文和英文的專利摘要文本。由此構建了一個可用于專利文本生成檢測的公開可用的數據集 PAD。所構建的數據集涉及四個領域的專利:人工智能、生物醫藥、電氣工程、機械制造,并且本文通過 ROUGE、BERTScore、MoverScore 來評估數據集 PAD 的質量。(2) 文本特性探索分析:本文在構建的 PAD 數據集上進行了詞匯特征分析、詞性特征分析、依存關系分析、情感極性分析、語言困惑度分析等探索性的實驗,以此來探索 AI 生成的專利文本與人類編寫的專利文本之間的差異。(3) 檢測方法設計:基于上述探索分析結果,本文結合寬度學習系統,引入殘差注意力機制和專利文本自適應權重,設計了一種面向專利領域的 AI 生成文本檢測方法 PAA-BLS。在 PAD 數據集上,本文將 PAA-BLS 與現有的檢測方法進行了實驗對比,實驗結果表明,本文提出的方法可以有效平衡模型復雜度和檢測性能。綜上所述,本文提出了一種構建 AI 生成專利文本檢測數據集的方法,并構建了一個名為 PAD 的用于 AI 生成專利文本檢測的數據集,結合探索分析結果構建了一種面向專利文本的檢測方法。本文的研究為人工智能生成專利文本的檢測提供了創新性方法和數據支持,增強了知識產權保護的技術手段,對提升專利審查的準確性和效率具有重要的應用意義。
AbstractAs
large language models (LLMs) achieve breakthrough progress in generativetasks, Artificial Intelligence Generated Text (AIGT) has experienced exponentialgrowth. Although the exceptional performance of LLMs has garnered widespreadacademic attention, their potential misuse has also raised deep concerns across varioussectors. Specifically, LLMs have been improperly used to generate fake news,counterfeit academic papers, and false patent application documents, among otherviolations. Consequently, identifying and detecting AI-generated content has become acritical scientific issue that urgently needs addressing. However, existing AI textdetection research mainly focuses on general or specific texts, and the detection of AI-generated patent texts remains underdeveloped. Currently, there is a lack ofstandardized datasets specifically for patent texts generation detection, as well as AIgeneration detection methods tailored for patent texts. This research status severelyrestricts the in-depth development of related fields.The main contributions of this paper include the following three aspects:(1) Dataset Construction: Considering that current research does not target patenttexts, this paper proposes a method for constructing datasets that automatically generatepatent abstracts using large models. Specifically, the paper first employs web crawlersto obtain granted patent abstracts and their corresponding claims, and then uses theChatGPT 3.5 Turbo model to generate a set of Chinese and English patent abstract textsfrom the claims. Thus, an openly available dataset, PAD, is constructed for patent textsgeneration detection. The constructed dataset covers patents in four fields: artificialintelligence, biomedicine, electrical engineering, and mechanical manufacturing, andthe paper evaluates the quality of the PAD dataset using ROUGE, BERTScore, andMoverScore.
目錄
摘要
Abstract
1 緒論
2 相關技術及理論
3 專利文本AI生成檢測數據集的構建
4 AI生成與人類撰寫專利文本差異性探索
5 面向專利領域的機器生成文本檢測方法的研究
6 總結與展望
參考文獻
1 緒論
1.1 研究背景與意義自然語言生成(Natural Language Generation, NLG)是指通過非語言輸入自動生成自然語言文本的過程,該任務自出現以來一直是人工智能領域長期研究的課題之一,與自然語言理解等技術高度相關[1]。文本自動生成的實現標志著人工智能逐漸走向成熟。文本生成模型(Text generation model, TGM)生成的語意連貫且語法正確的文本,對于機器翻譯、文本摘要、對話系統和圖像描述等應用場景起著至關重要的作用[2–4]。隨 著 人 工 智 能 技 術 的 迅 猛 發 展 , 深 度 學 習 在 自 然 語 言 處 理 (NaturalLanguage Processing, NLP)領域取得了顯著的成果。特別是在文本生成任務中,基于深度學習的生成模型(如 GPT 系列、BERT、T5 等)展現出了強大的語言理解與生成能力。而隨著大語言模型(Large Languag Model,LLM)的爆火,人工智能生成文本(Artificial Intelligence-Generated Text ,AIGT)技術不僅廣泛應用于機器翻譯、自動摘要、文本分類等傳統任務,還在專利文本生成、法律文書撰寫等高專業化領域中展現出重要價值。然而,LLM 強大的生成能力也帶來了新的挑戰,使得區分其生成的文本與人類撰寫的文本變得愈發困難。事物的發展向來具有雙重性,大模型技術的崛起無疑為智能化發展注入了強大動力,推動技術邁向新的高度。然而,其濫用所引發的一系列問題也不容小覷,這些問題集中體現在以下兩個維度:一方面,LLM 本身存在一些固有缺陷,例如大模型的幻覺問題、容易包含過時信息,并對輸入提示表現出高度敏感性。這些問題可能導致錯誤信息的傳播、削弱技術專業性,甚至助長抄襲等不良行為。另一方面,LLM 的強大功能也可能被濫用于不良目的,例如傳播虛假信息、實施網絡欺詐、生成社交媒體垃圾內容。在學術領域,LLM 的濫用容易引發不誠信行為,例如被學生利用來杜撰學術論文等。而專利文本作為知識產權保護的重要載體,具有高度的專業性、技術性和法律性。近年來,AI 生成技術在專利撰寫中應用越來越廣泛,它雖然能夠被用于輔助用戶撰寫專利申請文件,提高專利撰寫效率,但是也會帶來不少影響[5],

AA-BLS 整體框架圖
具體如下:(1). 專利信息披露問題的加劇:AI 撰寫的專利可能會導致準確性和實用性下降,尤其是對技術信息的披露質量產生負面影響。AI 工具雖然能夠生成符合法律要求的專利文本,但可能包含不正確或誤導性的信息。(2). “預言性”專利的風險:從專利申請的角度來看,AI 生成的內容有可能讓專利申請所基于的是那些并未真正付諸實踐的“預言性”披露內容,這樣的專利雖然在法律上被認為是具有可操作性的,但對于后續真實的發明者將構成障礙,影響他們的專利申請。(3). 審查和標準提升的必要性:現有的審查機制和專利披露標準可能需要調整,以適應創新生態系統的變化。具體建議包括要求發明者至少實施部分發明,強化披露的審查力度,提升專利審查員的培訓,以及引入更多科學專業人士參與審查過程。(4). 政策需再評估:對現有的法律標準需要進行再評估,來提高專利申請的透明度,并考慮利用 AI 工具來識別和提高信息披露質量。除此之外,生成技術的濫用可能導致偽造專利文本、侵權行為或低質量文本的大量出現,進而對專利審查流程和知識產權保護體系造成潛在威脅。因此,如何準確檢測由深度學習模型生成的專利文本,成為了一個亟待解決的重要問題。針對 AI 生成文本檢測的研究主要集中在通用領域或者例如學術論文等的特定類型文本,然而專利本具有獨特的語言風格、專業術語體系以及規范化的結構特征,這使得現有的通用檢測方法在專利文本領域中可能面臨適用性局限。因此,面向專利文本的生成檢測方法研究,需要結合專利文本特性來構建針對性的檢測方法,以提升檢測的準確性和魯棒性。本研究聚焦于人工智能生成文本(AIGT)的檢測方法,特別針對專利文本這一特定應用場景開展研究。鑒于 AI 生成的專利文本通常呈現出復雜的多句式結構,其檢測的核心任務在于準確判定文本的來源屬性——即區分其是源自人類創作或機器生成。從方法論角度而言,該任務可以被形式化為文本分類問題,通過系統提取和分析專利文本的特征表征,實現對文本來源的精確分類。AI 生成文本檢測技術的研究,不僅可以減少專利信息披露問題,還可以提升專利審查員的審查效率,降低“預言性”專利出現的風險。此外,該領域的研究也為 NLP 和 AIGT 技術的發展注入了新的動力,推動 AIGT 檢測技術的規范化應用與持續創新。

PAA-BLS 在 PAD 數據集上與其他方法對比的指標結果
1.2 國內外研究現狀及面臨的挑戰
隨著人工智能生成內容(Artificial Intelligence-Generated Content , AIGC)技術的迅猛發展,尤其是自然語言生成技術在各領域的廣泛應用,我們正面臨網絡信息爆炸和文本形態多樣化的雙重挑戰。在此背景下,網絡空間中內容的真實性愈發難以甄別,使得 AI 生成文本的有效檢測成為一項迫切需求。針對 AI 生成內容的獨特特征和多樣化的生成方法,學術界已開展了系統性研究,主要形成了兩大技術路線:傳統機器學習方法和深度學習模型。這些研究為解決文本真偽識別問題提供了重要的理論和實踐基礎。
1.2.1 基于傳統機器學習的檢測技術通過結合人類的視覺解讀能力、常識知識以及計算機的高速統計運算,可以構建一個用于識別機器生成文本的系統。2017 年,Tien 等人嘗試通過計算文本距離進行文本分類,以區分真實文本與機器生成文本[7]。然而,該方法在實際應用中面臨顯著限制,特別是在識別大規模真實文檔中散布的 AI 生成片段時表現欠佳。為應對這一挑戰,研究團隊開發了基于語法結構相似性(GrammaticalStructure Similarity, GSS)的檢測框架,該框架通過解析樹技術分析句法特征,摒棄了對具體詞匯的依賴,實現了句間結構相似度的量化評估。盡管 GSS 方法在句子層面的檢測任務中展現出獨特優勢,但在面對新型生成技術(如基于馬爾可夫鏈或 RNN 的模型)以及樣本稀缺等場景時,其實用性仍顯不足。2019 年,Ippolito 等人研究了人類和自動檢測器在識別 AI 生成文本方面的能力差異[8]。實驗結果表明,盡管文本長度的增加能提升人類專家和自動檢測系統的識別準確率,但在多句段落的情況下,AI 生成內容仍有超過 30%的概率能夠規避資深評估人員的判斷。這一發現凸顯了將人類認知經驗與 AI 檢測系統相結合的必要性,以評估生成系統輸出的自然度。不少研究團隊通過對文本特征的可視化分析(如語境不協調性和詞匯使用異常等),致力于開發輔助工具,增強人類對 AI 生成內容的識別能力。例如,在 2020 年,Gehrmann 等人開發了一種名為 GLTR(Giant Language Model Test Room)的工具,該工具通過計算文本序列的概率直方圖,使機器生成文本的特征更易被檢測[9]。研究表明,借助GLTR,未經專業訓練的人類能夠顯著提高對生成文本的檢測準確率,從原本的54%提升至 72%[9]。然而,研究發現,盡管初步識別和標記機器生成內容相對容易實現,但要準確判定文本的真實來源和生成屬性仍面臨重大挑戰。這一現象不僅突顯了檢測技術的局限性,也凸顯了在打擊虛假信息傳播過程中,人類專家判斷與自動化系統協同配合的關鍵作用。2020 年,另一種名為 RoFT 的工具被提出用于評估人類對 AI 生成文本的檢測能力,其方法是要求人類在閱讀文本時標記從真實文本到生成文本的句子邊界[10]。研究發現,無論檢測器模型的復雜程度如何,該工具在使用較大 GPT-2模型生成的示例進行訓練時表現良好,并且能夠很好地適應較小 GPT-2 模型生成的文本[11]。然而,當訓練數據來自較小 GPT-2 模型時,其對較大 GPT-2 模型生成內容的分類性能會顯著下降。這表明訓練數據的規模和模型容量對檢測性能有重要影響。盡管如此,RoFT 工具也存在局限性。由于展示給人類的文本可能包含大量人類生成的句子,其結果未必能真實反映 TGM 模型自然生成文本的特性。這一問題表明,在利用人類標注生成文本時,需更加謹慎地設計實驗以確保結果的科學性和可靠性。2019 年,Irene 等人提出了一種簡單的對比模型,該模型基于邏輯回歸算法,將文檔表示為 TF-IDF 向量,用于區分網頁文章和生成文本[12]。2020 年,Tay 等人則研究了不同的建模選擇(如解碼方法、TGM 模型大小、提示長度等)對生成文本中可檢測特征的影響程度[13]。此外,Allen 等人通過量化學術文章中的關鍵詞提出了一種檢測生成文本的方法[14]。Arase 和 Zhou 使用 N-gram 特征量化連續詞與非連續詞的流暢性,進一步評估生成文本的特性[15]。Renata 等人從寫作風格的角度出發,采用動態差異性的方法來衡量論文寫作風格之間的距離,以此發現生成文本[16]。Nguyen-Son 等人則提出了一種基于 Zipfian 分布的統計分析方法來檢測生成文本。他們指出,人類書寫文本中的詞頻分布通常符合 Zipf 定律,即最常用單詞的頻率約為第二常用單詞的兩倍,幾乎是第三常用單詞的三倍,依此類推。然而,研究發現,計算機生成的文本往往不符合這一分布規律[17]。盡管上述方法在檢測生成文本方面取得了一定成效,但它們大多基于統計分析技術,存在以下顯著局限性:(1). 對單詞順序不敏感,忽略文本語義結構:這些方法主要關注詞匯或詞頻特征,而不處理文本的深層含義,導致對語義信息的捕捉能力不足。(2). 數據集規模限制:有限的訓練樣本難以支持系統準確識別來自大規模語料庫的低頻文檔,特別是在獲取真實文本數據集面臨挑戰的情況下,檢測效果更顯不足。隨著生成文本與人類創作在語言特征上的差異逐漸縮小,傳統機器學習方法在深層語義特征提取方面表現出明顯局限性,難以適應日益復雜的檢測需求。這一現狀凸顯了未來研究方向:需要構建融合語義分析與深度學習技術的混合架構,以增強系統對 AI 生成文本的識別能力。1.2.2 基于深度學習的檢測技術深度學習技術的蓬勃發展推動了文本檢測領域的重大突破。傳統檢測范式由于局限于單一特征維度,在識別不同來源文本的微觀差異時存在明顯瓶頸。針對這一技術難點,研究者創新性地引入了基于 Complex Network (CN)的檢測框架。該方法通過構建單詞鄰接模型來提取網絡拓撲特征,為精確刻畫文本的獨特語言模式提供了新的分析維度,顯著提升了檢測的精確度和魯棒性。有趣的是,不同語言的特殊特性也可以通過復雜網絡的拓撲結構進行分類[18]。在 2015 年,Diego 提出了一種創新的復雜網絡檢測方法。該方法不關注文本的語義相似性,而是重點分析文本的結構和組織模式,尤其是其連接方式。通過結合單詞鄰接模型提取的網絡特征與機器學習技術,有效識別出自動生成的論文。這也從側面驗證了機器生成文本在組織結構上存在一些隱藏模式,這些模式與真實文本的結構模式存在顯著差異[19]。該方法的檢測準確性仍遜于傳統基于文本內容的技術。在未來,優化分類器參數或將復雜網絡方法與統計分析更緊密結合,可能進一步增強自動生成文本的檢測能力。此外,需要注意的是,目前的檢測方法仍無法完全保證檢測結果的準確性,這表明在生成文本檢測領域仍有較大的改進空間。為了提升檢測精度,研究人員提出了一些針對特定文本生成技術的檢測方法,例如循環神經網絡(Recurrent Neural Network, RNN)、馬爾科夫模型以及概率上下文無關文法(Probability Context-free Grammar, PCFG)[7,20,21]。研究發現,自動生成的文本往往形成緊密的分組,與真實文本在分布上存在明顯的差異理序列數據方面的優勢,提出了一種專門針對 RNN 生成文本的檢測模型[22]。盡管這些自動檢測模型在性能上顯著優于人工評分,但它們在應對其他生成技術生成的文本時,泛化能力仍顯不足。這表明,進一步提升檢測模型的通用性和適應性仍是未來研究的重要方向。通過對預訓練語言模型進行微調,可以有效檢測由自身或類似模型生成的文本。預訓練語言模型在促進文本自動生成和檢測技術發展方面發揮了重要作用。研究表明,語言模型的預訓練在改進許多自然語言處理任務上具有顯著效果[23]。在 2019年5月,華盛頓大學和艾倫人工智能研究所的研究人員提出了一種名為Grover的可控文本生成模型[24]。Grover能夠根據文章標題高效生成完整的新聞報道,包括正文、標題、新聞源、發布日期和作者名單,其生成內容的可信度甚至超過人類撰寫的新聞。在此之前,OpenAI推出的GPT-1和GPT-2模型,以及Google的BERT模型,都展現了強大的文本生成能力[10,23,24]。在 2019年, Zellers等人基于Grover模型設計了一種基于線性分類器的檢測器[24]。在虛假新聞檢測任務中,使用Grover模型的準確率高達92%,顯著優于此前最高73%的檢測準確率[10,23,24]。此外,在 2019 年,Irene 等人對 RoBERTa 語言模型(包含 3.56 億個參數)進行了微調,成功構建出能夠識別由 GPT-2 最大模型(15 億個參數)生成網頁的檢測器,其準確率達到了 95%[12]。他們還提出了一種基于 TGM 計算總 log 概率的方法,并通過設定概率閾值來進行預測[12]。Liu, Xiaoming 等人在 2022 年提出 了 一種基 于 連貫性 的 對比學 習 模型(CoCo),用于檢測 AI 生成的文本[25]。該模型通過實體一致性和句子間交互來建模文本的連貫性。在準確率和 F1 得分方面,CoCo 模型的表現不僅優于 GPT-2、RoBERTa 和 XLNet 等類似模型,還超越了 GROVER 和 FAST 模型。Eric Mitchell 等人在 2023 年提出了一種名為 DetectGPT 的工具,用于檢測由 LLM 生成的文本[26]。與現有的零樣本方法相比,DetectGPT 在檢測機器生成文本方面更為有效。研究表明,DetectGPT 在檢測由擁有 200 億參數的 GPT-NeoX 生成的虛假新聞文章時表現顯著提升,其 AUROC 達到 0.95,而最強零樣本基線的 AUROC 僅為 0.81。此外,作者還發現,DetectGPT 無需訓練單獨的分類器或收集真實語料庫與生成語料庫的數據集,這使其成為一種更高效且實用。
1.2.3 專利文本 AI 生成檢測面臨的挑戰當前,盡管 AI 生成文本檢測技術取得了突破性進展,但仍然面臨諸多挑戰:(1) 當前的研究主要聚焦于通用文本,而專利文本這一垂直領域尚屬空白,數據集的缺失值得深入探索。從傳統意義上看,專利文本與通用文本在格式和內容上具有顯著差異。專利文本通常具有嚴格的結構化要求,包括技術背景、發明內容、實施方式等部分,其語言風格更趨向于嚴謹、專業和規范化,與通用文本的表達方式存在明顯的語言差異。此外,專利文本的語言特點還體現在其高度技術性和法律性上,這使得生成文本的檢測任務更加復雜。一方面,專利文本需要精準描述技術細節,生成的文本必須具備高度的邏輯性和一致性;另一方面,專利文本中常包含大量特定領域的術語和句法結構,這與通用文本的語義和語法特征大相徑庭。因此,如何針對專利文本的特性構建專屬數據集,并在此基礎上開發適配的生成與檢測方法,是一個值得深入研究的課題。除此之外,現有針對通用文本的檢測方法可能難以直接應用于專利文本領域,亟需開發能夠捕捉專利文本特有特征的檢測模型。(2) 如何構建針對 AI 生成專利文本檢測的方法是一個亟需解決的問題。當前的檢測方法多依賴于特定生成技術,僅能識別由特定技術生成的文本,導致檢測準確性無法得到保障。盡管通過微調預訓練的語言模型方法可以顯著提升檢測精度,但其泛化能力有限,僅對自身或類似模型生成的文本有效。如何進一步提升檢測模型的泛化能力,使其能夠應對多樣化的生成文本,是當前研究的關鍵難點之一。
(3) 在專利審查的過程中,往往需要對海量的專利文本進行 AI 生成檢測,因此如何實現資源少、檢測耗時短的檢測方法,具有重要的應用意義。目前,現有方法大部分是基于深度學習的檢測方法,但是這類方法通常伴隨著高昂的計算成本和資源需求。這些方法往往使用擁有龐大的參數量的模型,對硬件配置要求較高,同時在推理階段耗時較長,難以滿足實際應用中對高效性和低資源占用的需求。當它面臨海量的專利文本時,一種快速的、輕量化的檢測器顯得尤為重要。綜上所述,現有的研究只涉及到通用文本或其他特定類型文本,并沒有針對專利文本領域進行相關研究。其次,現有的生成檢測方法,只能發現文本的高頻出現的重要特征。隨著生成文本質量不斷提高,這些特征無法區分生成文本與真實文本之間的細微差別,影響了檢測模型的準確性,生成文本的更具有代表性的相關性特征變得特別重要。除此之外,基于深度學習的檢測方法雖然達到了較高的準確度,但所需資源、計算推理成本高,并且只能檢測從自身或類似模型生成的文本。因此,為了彌補這一研究領域的空白,構建一個能夠針對專利文本領域挖掘生成文本相關性特征,同時具備資源消耗低和檢測效率高等特點的 AI 生成文本檢測方法,已成為當前亟需解決的任務。1.3 研究內容本文通過對相關工作的研究與分析,發現現有生成文本檢測方法研究主要集中在通用文本領域,并沒有涉及到專利文本這一垂直領域,并且主流的方法是基于深度學習的方法所需要的硬件資源較高。針對上述問題,本文的目標是利用所需資源低的寬度學習方法,引入改進的寬度學習系統方法來提高模型檢測性能。通過梳理和分析生成文本檢測技術的研究現狀,針對當前生成文本檢測工作中存在的問題,本文的貢獻點包括以下三個方面:(1) 針對專利文本生成檢測研究領域,提出了一個面向專利的 AI 生成文本檢測數據集自動構建方法,并構建了一個用于專利文本生成檢測的數據集—PAD,包含四個領域:人工智能、生物醫藥、電氣工程、機械制造。本文在ROUGE、BERTScore、MoverScore、Perplexity 指 標 上 與 M4、MGTBench、CHEAT 等公開數據集進行對比,以評估本文數據集的構建質量。(2) 對 AI 生成的專利文本進行探索性實驗,從文本自身特性探究人類撰寫的專利文本和 AI 生成的專利文本之間的差異性。包括 AI 生成的專利文本與人類撰寫的專利文本之間的詞匯差異、詞性差異、依存關系差異、情感極性分布差異、語言模型困惑度差異。(3) 基于上述探索分析結果,結合寬度學習系統,引入殘差注意力機制和專利文本自適應權重,本文構建了一種面向專利領域的 AI 生成文本檢測方法。在本文構建的 PAD 數據集上,與現有其他方法進行實驗對比,結果表明,該方法可以有效平衡模型復雜度和檢測性能。本文針對專利文本 AI 生成檢測任務的解決方案的整體流程如圖 1-1 所示:首先構建面向專利文本 AI 生成檢測的數據集,并且對構建的數據集進行質量評估,這一部分對應論文的第三章內容;接著探究 AI 生成的專利文本和人類撰寫的專利之間的差異性,包括詞匯特征分析、詞性特征分析、依存關系分析、情感極性分析、語言困惑度分析等實驗分析,本部分對應論文的第四章內容;最后,本文結合第四章的差異性探索結果,基于寬度學習系統,提出了一種面向專利領域的 AI 生成專利文本檢測的方法,本部分對應論文的第五章內容。
總結與展望近年來,隨著生成式技術的不斷突破,LLM 迅速發展,并以其強大的性能逐步滲透到日常生活的各個方面,在許多專業工作流程中發揮了重要作用。例如,這些模型在廣告標語生成、新聞撰寫、故事創作和代碼生成等任務中表現出色,顯著推動了相關領域的進步。同時,其影響力已擴展至教育、法律、生物學和醫學等多個行業和學科,對這些領域的發展產生了深刻的推動作用。因此,如何實現對 AI 生成文本的自動化、精準檢測,不僅具有重要的研究價值,也已成為自然語言處理領域的研究熱點之一。本文通過對 AI 生成文本檢測問題的相關研究進行梳理與復現,對現有的檢測方法進行了系統分析,發現已有的工作在針對專利文本生成檢測領域空缺,更沒有研究工作針對專利文本生成檢測構建相應的檢測器。另外,如何提高生成文本檢測模型的泛化能力,針對專利文本特點構建檢測器也是研究過程中所面臨的重要問題之一。針對上述問題,本文構建了一種基于寬度學習的 AI 生成文本檢測方法,所做的主要研究工作如下:(1). 通過對研究背景和國內外研究現狀的全面分析,明確了專利文本生成檢測研究的必要性和緊迫性。相關文獻綜述表明,雖然通用領域的文本生成檢測已有一定研究基礎,但專利文本這一特殊領域的檢測研究仍存在明顯不足。(2). 針對專利文本生成檢測研究領域,構建了一個用于專利文本生成檢測的數據集,包含四個不同的技術領域:人工智能、生物醫藥、電氣工程、機械制造,并通過嚴格的質量評估確保了數據集的可靠性和代表性,為后續研究提供了堅實的數據基礎。(3). 針對構建的數據集,通過一系列實驗探索了 AI 生成專利文本與人類撰寫專利文本之間的差異特征。研究從詞性分布、情感極性表達以及句法依存關系等多個維度進行了深入分析,發現了兩類文本在語言結構和表達模式上的顯著差異,為檢測方法的設計提供了理論依據。(4). 基于寬度學習的方法,引入特征殘差注意力機制,提出了一種輕量化的專利文本生成檢測方法。該方法具有參數量少、訓練速度快、資源需求低等優勢,同時保持了較高的檢測準確率。實驗結果表明,與傳統深度學習方法相比,本文提出的方法在保持檢測性能的同時,顯著降低了計算復雜度和資源消耗,更適合實際應用場景。盡管本研究在專利文本生成檢測方面取得了一定成果,但仍存在一些局限性,未來研究可從以下幾個方向繼續深入:(1) 數據集擴展與多樣化:進一步擴大數據集規模,增加不同語言、不同技術領域、不同生成模型來生成專利文本樣本,提高數據集的多樣性和代表性。同時,針對不同生成模型的輸出特征,構建更加細粒度的數據集,以提升檢測模型的泛化能力[52,53]。(2) 特征工程優化:在現有文本特征分析的基礎上,探索更多專利文本特有的語言學特征和結構特征,如專利權利要求的格式特征、技術術語使用模式等,以進一步提高檢測的精確度[54]。(3) 模型輕量化與效率提升:繼續優化基于寬度學習的檢測模型,探索更高效的特征提取和表示方法,進一步降低模型復雜度,提高檢測效率,使其能夠更好地適應大規模專利文本檢測的實際需求[29]。(4) 可解釋性研究:加強檢測模型的可解釋性研究,使模型能夠明確指出哪些文本特征導致了檢測結果,提高檢測結果的可信度和可理解性,為專利審查人員提供更有價值的參考信息[55]。(5) 對抗性研究:研究針對檢測模型的對抗性攻擊方法,提高檢測模型的魯棒性,應對不斷演進的 AI 生成技術帶來的挑戰。(6) 多模態檢測:將檢測范圍從純文本擴展到包含圖表、公式等多模態內容的專利文檔,構建更加全面的專利生成內容檢測體系。本研究為專利文本生成檢測領域提供了新的方法和思路,未來研究將繼續深化和拓展相關工作,以應對 AI 技術發展帶來的新挑戰,保障知識產權體系的健康發展。
參考文獻[1] Otter D W, Medina J R, Kalita J K. A survey of the usages of deep learning fornatural language processing[J]. IEEE transactions on neural networks and learningsystems, 2020, 32(2): 604-624.[2] Grechishnikova D. Transformer neural network for protein-specific de novo druggeneration as a machine translation problem[J]. Scientific reports, 2021, 11(1): 321.[3] Abualigah L, Bashabsheh M Q, Alabool H, et al. Text summarization: a briefreview[J]. Recent Advances in NLP: the case of Arabic language, 2020: 1-15.[4] Ham D, Lee J G, Jang Y, et al. End-to-end neural pipeline for goal-oriented dialoguesystems using GPT-2[C]//Proceedings of the 58th annual meeting of the association forcomputational linguistics. 2020: 583-592.[5] Ouellette L L, Fang V, Ouellette N T. How will AI affect patent disclosures?[J].nature biotechnology, 2025, 43(1): 26-28.[6] Fagni T, Falchi F, Gambini M, et al. TweepFake: About detecting deepfaketweets[J]. PLOS ONE, 2021, 16(5): 1-16.[7] Tien N M, Labbé C. Curious cases of automatically generated text and detectingprobabilistic context free grammar sentences with grammatical structuresimilarity[C]//Proceedings of the Fifth Workshop on Bibliometric-enhancedInformation Retrieval (BIR) co-located with the 39th European Conference onInformation Retrieval (ECIR 2017). 2017.[8] Ippolito D, Duckworth D, Callison-Burch C, et al. Automatic Detection ofGenerated Text is Easiest when Humans are Fooled[C]//JURAFSKY D, CHAI J,SCHLUTER N, et al. Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics. Online: Association for Computational Linguistics, 2020:1808-1822.[9] Gehrmann S, Strobelt H, Rush A M. GLTR: Statistical Detection and Visualizationof Generated Text[C]//Proceedings of the 57th Annual Meeting of the Association forComputational Linguistics: System Demonstrations. 2019: 111-116.[10] Dugan L, Ippolito D, Kirubarajan A, et al. RoFT: A Tool for Evaluating HumanDetection of Machine-Generated Text[J]. EMNLP 2020, 2020: 189.[11] Radford A, Narasimhan K, Salimans T, et al. Improving language understandingby generative pre-training[EB/OL]. OpenAI blog, 2018.[12] Solaiman I, Brundage M, Clark J, et al. Release strategies and the social impactsof language models[EB/OL]. arXiv preprint arXiv:1908.09203, 2019.[13] Tay Y, Bahri D, Zheng C, et al. Reverse Engineering Configurations of Neural TextGeneration Models[C]//Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics. 2020: 275-279.[14] Lavoie A, Krishnamoorthy M. Algorithmic detection of computer generatedtext[EB/OL]. arXiv preprint arXiv:1008.0706, 2010.[15] Arase Y, Zhou M. Machine translation detection from monolingual web-text[C]//Proceedings of the 51st Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers). 2013: 1597-1607.[16] Avros R, Volkovich Z. Detection of computer-generated papers using one-classSVM and cluster approaches[C]//Machine Learning and Data Mining in PatternRecognition: 14th International Conference, MLDM 2018, New York, NY, USA, July15-19, 2018, Proceedings, Part II 14. Springer, 2018: 42-55.[17] Nguyen-Son H Q, Echizen I. Detecting computer-generated text using fluency andnoise features[C]//International Conference of the Pacific Association forComputational Linguistics. Springer, 2017: 288-300.[18] Amancio D R, Nunes M G, Oliveira Jr O N, et al. Extractive summarization usingcomplex networks and syntactic dependency[J]. Physica A: Statistical Mechanics andits Applications, 2012, 391(4): 1855-1864.[19] Amancio D R. Comparing the topological properties of real and artificiallygenerated scientific manuscripts[J]. Scientometrics, 2015, 105: 1763-1779.[20] Klahold A, Fathi M, Klahold A, et al. Automatic text generation[J]. Computer aidedwriting, 2020: 131-154.[21] Soremekun E, Pavese E, Havrikov N, et al. Probabilistic grammar-based testgeneration[C]//Software Engineering 2021. 2021: 97-98.
相關文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.