国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

ACM SIGIR 2025 | SAFT:融合結(jié)構(gòu)感知的Transformer,精準(zhǔn)識(shí)別文本交互中的虛實(shí)

0
分享至

文本交互網(wǎng)絡(luò)(Textual Interaction Networks, TIN)上的文本交互分類(Textual Interaction Classification, TIC)——用文本描述(如電子商務(wù)評論、社交媒體帖子)對用戶項(xiàng)目交互行為建模的數(shù)據(jù)結(jié)構(gòu)——對于垃圾郵件檢測和欺詐識(shí)別等任務(wù)至關(guān)重要。而現(xiàn)有的TIC方法要么無法捕獲上下文文本語義(依賴于TF-IDF等上下文無關(guān)嵌入),要么忽略TIN的二分結(jié)構(gòu)和節(jié)點(diǎn)異構(gòu)性,從而降低性能。

為了解決這個(gè)問題,本文提出了SAFT(Structure Aware Transformer),該框架集成了語言和圖形模塊,融合了文本和結(jié)構(gòu)語義,使用線圖注意力( Line Graph Attention, LGA)/門控注意力單元(Gated Attention Units, GAU)作為交互級信號(hào),采用預(yù)訓(xùn)練語言模型(Pretrained Language Models, PLM)作為令牌級信號(hào),通過代理令牌(Proxy Token)耦合,并將TIN的局部/全局拓?fù)渚幋a為結(jié)構(gòu)嵌入,設(shè)計(jì)高效的圖采樣,為文本交互分類任務(wù)提供了強(qiáng)大而靈活的解決方案。


論文標(biāo)題: SAFT: Structure-aware Transformers for Textual Interaction 論文鏈接: https://arxiv.org/abs/2504.04861
一、背景與面臨的挑戰(zhàn)

在電子商務(wù)、社交媒體和金融領(lǐng)域,用戶與物品之間的交互無處不在,這些交互通常伴隨著文本描述(如商品評論、帖子、交易備注),共同構(gòu)成了一個(gè)龐大的文本交互網(wǎng)絡(luò)(TINs)。精準(zhǔn)地對這些交互進(jìn)行分類,對于識(shí)別垃圾評論、金融欺詐、檢測網(wǎng)絡(luò)水軍等任務(wù)至關(guān)重要。然而,現(xiàn)有的解決方案普遍以下問題:

  • 傳統(tǒng)的上下文文本語義(Contextual Text Semantics)依賴于淺層的、與上下文無關(guān)的嵌入(例如Word2Vec),無法捕捉文本中豐富和動(dòng)態(tài)的語境信息,使得文本語義理解不足。

  • TIN的二分結(jié)構(gòu)(用戶和物品分離)和節(jié)點(diǎn)異構(gòu)性被大多數(shù)為同質(zhì)網(wǎng)絡(luò)量身定制的圖模型忽略。而目前許多方法未能充分利用TINs中用戶和物品之間的二部圖結(jié)構(gòu)和異構(gòu)特性,導(dǎo)致模型性能受限。

  • 現(xiàn)有方法無法實(shí)現(xiàn)文本和結(jié)構(gòu)的統(tǒng)一融合,即無法以上下文化、統(tǒng)一的方式將文本語義(微觀、令牌級)和結(jié)構(gòu)信息(宏觀、交互級)整合到TIC中,很難同時(shí)捕捉到文本內(nèi)容和結(jié)構(gòu)模式。

如下圖所示的場景中(圖 1),左側(cè)的“網(wǎng)絡(luò)水軍”(Review Bomber)通過同一用戶賬戶發(fā)布大量負(fù)面評論,這些評論在網(wǎng)絡(luò)結(jié)構(gòu)上緊密相連(局部結(jié)構(gòu));右側(cè)的“異常交易”則可能表現(xiàn)為連接兩個(gè)本無交集的社群,在網(wǎng)絡(luò)中扮演了不尋常的“橋梁”角色(全局結(jié)構(gòu))。但現(xiàn)有方法在分析時(shí)往往無法兼顧文本的深層語義與網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),導(dǎo)致這類關(guān)鍵模式被忽略。


圖 1 TIN中的局部和全局結(jié)構(gòu)模式 二、方法

為了解決以上的挑戰(zhàn),本文提出了SAFT (Structure-Aware TransFormer) 框架(圖 2),其核心是通過基于Transformer的架構(gòu)統(tǒng)一文本和結(jié)構(gòu)學(xué)習(xí),讓信息在文本的微觀世界(詞語之間)和網(wǎng)絡(luò)的宏觀世界(交互之間)自由流動(dòng)與融合。SAFT 框架主要通過以下幾個(gè)創(chuàng)新模塊實(shí)現(xiàn)突破:


圖 2 SAFT的總體框

1. 文本與結(jié)構(gòu)的深度融合:語言模型與圖模型的協(xié)同

SAFT 的核心是一個(gè)多層 Transformer 結(jié)構(gòu)。與傳統(tǒng)應(yīng)用不同,它的輸入不僅包含交互的文本內(nèi)容,還為用戶、物品以及網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)模式創(chuàng)建了專門的“身份令牌”(Tokens)。這使得強(qiáng)大的預(yù)訓(xùn)練語言模型(PLMs)在處理文本時(shí),能“感知”到這條交互是由“誰”發(fā)出、指向“哪個(gè)”物品,以及它在整個(gè)網(wǎng)絡(luò)中所處的位置。

2. 宏觀與微觀的橋梁:代理令牌(Proxy Token)

為了讓文本語義和結(jié)構(gòu)信息高效互動(dòng),我們引入了一個(gè)“代理令牌”。在模型內(nèi)部,它像一個(gè)信息中樞:對內(nèi),它聚合來自所有文本詞語的語義;對外,它接收并整合來自用戶、物品和結(jié)構(gòu)層面的宏觀信號(hào)。這個(gè)設(shè)計(jì)有力地促進(jìn)了跨層次信息的深度耦合。

3. 洞悉網(wǎng)絡(luò)拓?fù)洌簞?chuàng)新的結(jié)構(gòu)化編碼

為了讓模型理解交互在網(wǎng)絡(luò)中的“位置感”,我們設(shè)計(jì)了兩種高效且有理論依據(jù)的結(jié)構(gòu)嵌入方法:

  • 距離嵌入 (Distance Embedding):基于“電阻距離”(Resistance Distance),它能精確刻畫交互之間的局部連接緊密程度,有效識(shí)別像“網(wǎng)絡(luò)水軍”這樣的聚集性模式。

  • 中心性嵌入 (Centrality Embedding):基于“生成樹中心性”(Spanning Centrality),它衡量一個(gè)交互在維持整個(gè)網(wǎng)絡(luò)連通性中的重要程度,對于發(fā)現(xiàn)像“異常交易”這樣的關(guān)鍵“橋梁”節(jié)點(diǎn)至關(guān)重要。

4. 高效的信息傳遞:LGA / GAU 機(jī)制

為了在龐大的交互網(wǎng)絡(luò)中實(shí)現(xiàn)高效的信息聚合,我們沒有采用計(jì)算成本高昂的全局注意力,而是設(shè)計(jì)了基于線路圖注意力(LGA)和門控注意力單元(GAU)的輕量級消息傳遞方案。這使得模型訓(xùn)練不僅效果好,而且速度快,能夠擴(kuò)展到大規(guī)模網(wǎng)絡(luò)中。

三、實(shí)驗(yàn)驗(yàn)證

我們在來自 Amazon、Goodreads 和 Google 的8個(gè)真實(shí)大型數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),并將 SAFT 與17個(gè)當(dāng)前主流的基準(zhǔn)方法進(jìn)行了全面對比。

實(shí)驗(yàn)結(jié)果表明,SAFT在所有數(shù)據(jù)集上始終表現(xiàn)最佳,性能全面超越了所有基準(zhǔn)模型(圖 3,圖 4)。 例如,在 Amazon-Apps 數(shù)據(jù)集上,SAFT (LGA) 的 Micro-F1 分?jǐn)?shù)達(dá)到了 61.06;在 Google-Hawaii 數(shù)據(jù)集上,SAFT (GAU) 的 Macro-F1 分?jǐn)?shù)達(dá)到了 57.72,充分展示了其在融合語義與結(jié)構(gòu)信息方面的卓越能力。


圖 3 TIC在小數(shù)據(jù)集上的性能。最佳結(jié)果以粗體顯示,而最佳基線則以下劃線顯示


圖 4 TIC在中型/大型數(shù)據(jù)集上的性能。最佳結(jié)果以粗體顯示,而最佳基線則以下劃線顯示。OOT(超時(shí))表示該方法無法在1天內(nèi)報(bào)告結(jié)果。

此外,我們的消融實(shí)驗(yàn)進(jìn)一步證實(shí)了模型各個(gè)創(chuàng)新模塊(如消息傳遞機(jī)制、距離嵌入、中心性嵌入)的必要性和有效性,移除任何一個(gè)關(guān)鍵組件都會(huì)導(dǎo)致模型性能顯著下降(圖 5)。


圖 5 SAFT消融實(shí)驗(yàn) 四、總結(jié)

SAFT通過集成PLM(用于文本語義)和基于圖的模塊(LGA/GAU、結(jié)構(gòu)嵌入)來統(tǒng)一文本和結(jié)構(gòu)學(xué)習(xí),從而解決了TIC的局限性。代理令牌橋接微觀(令牌級)和宏觀(交互級)信號(hào),而高效的采樣和結(jié)構(gòu)編碼使大型TIN具有可擴(kuò)展性。它不僅能深入理解交互的文本語義,還能敏銳地捕捉其在復(fù)雜網(wǎng)絡(luò)中的局部和全局結(jié)構(gòu)角色。大量的實(shí)驗(yàn)證明,SAFT在文本交互分類任務(wù)上的表現(xiàn)優(yōu)于現(xiàn)有 SOTA (State-of-the-Art) 方法,顯著提升了性能基準(zhǔn)。

未來的工作將沿著以下幾個(gè)有前景的方向展開:

  • 擴(kuò)展至動(dòng)態(tài)網(wǎng)絡(luò) (Extending to Dynamic Networks): 現(xiàn)實(shí)世界的交互網(wǎng)絡(luò)是持續(xù)演變的。未來的研究將致力于把SAFT框架從處理靜態(tài)圖快照擴(kuò)展到動(dòng)態(tài)TINs ,使其能夠增量、高效地處理新加入的用戶、物品和交互流,以捕捉時(shí)序動(dòng)態(tài)信息。

  • 融合多模態(tài)信息 (Multi-modal Extensions): 許多交互不僅包含文本,還包含圖像、視頻等信息。因此,另一個(gè)重要方向是為SAFT開發(fā)多模態(tài)擴(kuò)展能力,通過融合視覺、音頻等多源信息,構(gòu)建更全面的交互表示。

  • 探索自監(jiān)督預(yù)訓(xùn)練 (Self-supervised Pre-training): 為了減少對大量標(biāo)注數(shù)據(jù)的依賴 ,未來的工作將探索為SAFT設(shè)計(jì)自監(jiān)督預(yù)訓(xùn)練范式。通過在海量無標(biāo)簽的TINs數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,模型可以學(xué)習(xí)到語言和圖結(jié)構(gòu)之間更通用的知識(shí),從而在下游任務(wù)中實(shí)現(xiàn)更高的樣本效率和泛化性能。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

中國經(jīng)濟(jì)網(wǎng)
2026-03-12 22:30:03
全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國至今忌憚

全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國至今忌憚

通文知史
2026-03-12 18:30:51
梅奔不演了 F1中國站沖刺排位賽毫無懸念

梅奔不演了 F1中國站沖刺排位賽毫無懸念

五星體育
2026-03-13 16:39:38
WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級

WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級

林子說事
2026-03-13 12:13:15
意足壇俱樂部老板財(cái)富榜:科莫老板哈托諾家族385億歐居首

意足壇俱樂部老板財(cái)富榜:科莫老板哈托諾家族385億歐居首

懂球帝
2026-03-13 10:43:17
2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測!奪冠幾乎不可能了?

2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測!奪冠幾乎不可能了?

體壇八點(diǎn)半的那些事兒
2026-03-13 18:50:31
83分之夜卻拒絕刷分!阿德巴約最后時(shí)刻大喊“別犯規(guī)”引熱議

83分之夜卻拒絕刷分!阿德巴約最后時(shí)刻大喊“別犯規(guī)”引熱議

大眼瞄世界
2026-03-13 10:04:29
一場生日,戳穿37歲奚夢瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

一場生日,戳穿37歲奚夢瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

洲洲影視娛評
2026-03-12 18:19:35
美伊沖突升級致臺(tái)灣能源告急,臺(tái)當(dāng)局向大陸求援,國臺(tái)辦明確答復(fù)

美伊沖突升級致臺(tái)灣能源告急,臺(tái)當(dāng)局向大陸求援,國臺(tái)辦明確答復(fù)

風(fēng)眼軍情
2026-03-11 20:33:18
韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

嘯鷹評
2026-03-11 18:26:58
美國為何對伊朗開戰(zhàn),是否被以色列拖下水?特朗普因小失大

美國為何對伊朗開戰(zhàn),是否被以色列拖下水?特朗普因小失大

青松解局
2026-03-13 20:04:33
超45萬手買單封板!600691,強(qiáng)勢2連漲停!

超45萬手買單封板!600691,強(qiáng)勢2連漲停!

證券時(shí)報(bào)e公司
2026-03-13 10:02:08
為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價(jià)?

為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價(jià)?

羅氏八卦
2026-03-13 18:35:03
大S中學(xué)顏值曝光,五官普通、目測體重120斤,小玥兒長得和媽媽一個(gè)模子

大S中學(xué)顏值曝光,五官普通、目測體重120斤,小玥兒長得和媽媽一個(gè)模子

不八卦掌門人
2026-03-13 11:19:21
五角大樓首席技術(shù)官:有一個(gè)AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

五角大樓首席技術(shù)官:有一個(gè)AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

可達(dá)鴨面面觀
2026-03-13 18:01:15
今天18點(diǎn),亞洲杯誕生首個(gè)4強(qiáng)!中國女足明天出戰(zhàn),傳來2個(gè)好消息

今天18點(diǎn),亞洲杯誕生首個(gè)4強(qiáng)!中國女足明天出戰(zhàn),傳來2個(gè)好消息

大魚簡科
2026-03-13 12:34:59
苗苗終于曬三胎,母女四個(gè)坐一張椅子,小女兒露臉顏值比哥姐還高

苗苗終于曬三胎,母女四個(gè)坐一張椅子,小女兒露臉顏值比哥姐還高

八怪娛
2026-03-13 19:19:30
烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

項(xiàng)鵬飛
2026-03-13 18:17:39
人大代表:中國芯片不注重長期攻堅(jiān),不注重基礎(chǔ)研究,只想賺快錢

人大代表:中國芯片不注重長期攻堅(jiān),不注重基礎(chǔ)研究,只想賺快錢

Thurman在昆明
2026-03-13 19:43:05
霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢護(hù)航油輪通過

霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢護(hù)航油輪通過

書紀(jì)文譚
2026-03-13 12:56:34
2026-03-13 20:28:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

2月M2同增9% 前兩個(gè)月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

手機(jī)
游戲
本地
公開課
軍事航空

手機(jī)要聞

受內(nèi)存漲價(jià)帶動(dòng) 廢舊手機(jī)回收行業(yè)升溫:部分機(jī)型漲幅達(dá)150%

決非故意!團(tuán)隊(duì)回應(yīng)漫威爭鋒女性皮膚過分性感問題

本地新聞

坐標(biāo)北京,過敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗稱襲擊"林肯"號(hào)航母致其撤走

無障礙瀏覽 進(jìn)入關(guān)懷版