国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

文章推介 | 自然語(yǔ)言處理技術(shù)下的二語(yǔ)寫作語(yǔ)言特征研究:回顧與展望

0
分享至

自然語(yǔ)言處理技術(shù)下的二語(yǔ)寫作語(yǔ)言特征研究:回顧與展望

陳怡

摘要

本文系統(tǒng)梳理過(guò)去二三十年來(lái)國(guó)內(nèi)外運(yùn)用自然語(yǔ)言處理技術(shù)進(jìn)行的二語(yǔ)寫作語(yǔ)言特征研究。文獻(xiàn)回顧顯示,各類自然語(yǔ)言處理工具在學(xué)習(xí)者語(yǔ)料庫(kù)上的應(yīng)用,不僅揭示了任務(wù)、體裁、話題等中介因素下的詞匯復(fù)雜度、句法復(fù)雜度、語(yǔ)篇銜接等多維度語(yǔ)言特征與二語(yǔ)寫作質(zhì)量之間的關(guān)系,也為理解二語(yǔ)習(xí)得和二語(yǔ)寫作能力的發(fā)展提供了有力的實(shí)證支持。文章還概括了最近幾年這一研究領(lǐng)域的新進(jìn)展,包括語(yǔ)言特征指標(biāo)的拓展以及機(jī)器學(xué)習(xí)的深入運(yùn)用。文章最后提出未來(lái)研究需要特別關(guān)注的兩個(gè)重點(diǎn)方向,即理論框架的突破和技術(shù)范式的更新。

關(guān)鍵詞:二語(yǔ)寫作、自然語(yǔ)言處理技術(shù)、語(yǔ)言特征指標(biāo)、機(jī)器學(xué)習(xí)


正文

1. 引言

隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)處理的自動(dòng)化程度不斷提升,極大地推動(dòng)了基于學(xué)習(xí)者語(yǔ)料庫(kù)的二語(yǔ)寫作語(yǔ)言特征的研究。借助各類自然語(yǔ)言處理工具,研究者從各維度考察了二語(yǔ)寫作的語(yǔ)言特征與文本質(zhì)量、寫作能力及其發(fā)展之間的關(guān)系,為二語(yǔ)寫作教學(xué)研究提供了寶貴的數(shù)據(jù)支持。Crossley(2020)對(duì)這一領(lǐng)域的研究現(xiàn)狀進(jìn)行了回顧,但并非完全針對(duì)二語(yǔ),也未提及中國(guó)學(xué)者的貢獻(xiàn),加之最近幾年人工智能飛速發(fā)展,所以有必要再進(jìn)行一個(gè)綜合的回顧。本文旨在系統(tǒng)梳理過(guò)去二三十年來(lái)關(guān)于二語(yǔ)寫作(主要是英語(yǔ)二語(yǔ)寫作)語(yǔ)言特征研究的主要成果,選擇代表性研究進(jìn)行評(píng)述,總結(jié)最近幾年的新發(fā)展,展望未來(lái)研究趨勢(shì),以期進(jìn)一步推動(dòng)數(shù)字人文視域下的二語(yǔ)寫作教學(xué)和研究。

2. 自然語(yǔ)言處理工具與二語(yǔ)寫作語(yǔ)言特征

2.1 應(yīng)用于二語(yǔ)研究的自然語(yǔ)言處理工具

目前應(yīng)用于二語(yǔ)文本的自然語(yǔ)言處理工具大體可分為三類。第一類是較早出現(xiàn)的自動(dòng)化詞性標(biāo)注工具,如 Biber Tagger(Biber 1988)等。第二類是專用文本特征分析工具。繼整合詞匯、句法、語(yǔ)篇指標(biāo)的多維度文本分析器 Coh- Metrix(Graesser et al. 2004)問(wèn)世之后,新一代分化更細(xì)的文本分析器紛紛出現(xiàn)。比如 Lexical Complexity Analyzer(LCA)(Lu 2012)、Tool for the Automatic Analysis of Lexical Sophistication(TAALES)(Kyle & Crossley 2015)和 Tool for the Automatic Analysis of Lexical Diversity(TAALED)(Kyle,Crossley & Jarvis 2021)專門用于分析詞匯復(fù)雜度或復(fù)雜度下的成熟度 / 多樣性,L2 Syntactic Complexity Analyzer(L2SCA)(Lu 2011)和 Tool for the Automatic Analysis of Syntactic Sophistication and Complexity(TAASSC)(Kyle 2016)用于句法復(fù)雜度分析,Tool for the Automatic Analysis of Cohesion(TAACO)

(Crossley,Kyle & McNamara 2016)針對(duì)語(yǔ)篇銜接性進(jìn)行分析。第三類是通用自然語(yǔ)言處理庫(kù),如 Stanford CoreNLP 和 Python 的 NLTK、spaCy、Gensim、 Stanza 等 1。上述各類自然語(yǔ)言處理工具的運(yùn)用,顯著提升了對(duì)學(xué)習(xí)者語(yǔ)料庫(kù)的分析效率,極大地推動(dòng)了二語(yǔ)寫作語(yǔ)言特征的研究。

2.2 文本質(zhì)量評(píng)估視角下的二語(yǔ)寫作語(yǔ)言特征研究

運(yùn)用自然語(yǔ)言處理工具從學(xué)習(xí)者筆語(yǔ)語(yǔ)料庫(kù)中提取特定語(yǔ)言特征指標(biāo),并通過(guò)回歸分析或結(jié)構(gòu)方程模型分析這些指標(biāo)對(duì)文本整體/ 分項(xiàng)得分或評(píng)級(jí)的預(yù)測(cè)力,是二語(yǔ)寫作語(yǔ)言特征研究的核心議題之一。這類研究多以獨(dú)立寫作議論文為主,主要關(guān)注詞匯復(fù)雜度、句法復(fù)雜度、語(yǔ)篇銜接性等特征維度。

2.2.1 詞匯復(fù)雜度

詞 匯 復(fù) 雜 度 包括 詞 匯 密 度(density)、多 樣 性(diversity)和 成 熟 度(sophistication),是文本質(zhì)量評(píng)估的重要維度。研究表明,詞匯復(fù)雜度與 EFL 寫作質(zhì)量呈顯著正相關(guān),更高的文本質(zhì)量意味著更多樣的詞語(yǔ)以及更多以頻率、分布和心理語(yǔ)言學(xué)屬性為標(biāo)識(shí)的高階實(shí)詞的產(chǎn)出(Crossley et al. 2010)。研究發(fā)現(xiàn),指向二語(yǔ)寫作質(zhì)量的詞匯復(fù)雜度還包括多元(n-gram)詞語(yǔ)組,特別是二元和三元詞語(yǔ)組在本族語(yǔ)參照語(yǔ)料庫(kù)中的出現(xiàn)頻率和關(guān)聯(lián)強(qiáng)度(Kim,Crossley & Kyle 2018)。此外,還有研究通過(guò)提取構(gòu)成搭配的二元詞語(yǔ)組(Bestgen & Granger 2014)或具有特定依存關(guān)系但并不一定由相鄰詞構(gòu)成的詞語(yǔ)搭配(Paquot 2018),進(jìn)一步證明了詞語(yǔ)組合復(fù)雜度指標(biāo)對(duì)二語(yǔ)寫作質(zhì)量的貢獻(xiàn)度。

2.2.2 句法復(fù)雜度

句法復(fù)雜度也是評(píng)估二語(yǔ)寫作文本質(zhì)量的一個(gè)關(guān)鍵維度。研究表明,EFL議論文中的產(chǎn)出單位長(zhǎng)度(尤其是子句平均長(zhǎng)度)和復(fù)雜名詞結(jié)構(gòu)指標(biāo)與寫作質(zhì)量密切相關(guān)(Kyle & Crossley 2018),但關(guān)于并列結(jié)構(gòu)和子句指標(biāo)的貢獻(xiàn)度,相關(guān)研究結(jié)果并不一致。另外,微觀層面的句法復(fù)雜度指標(biāo)和宏觀層面的句法復(fù)雜度指標(biāo)孰能更好地預(yù)測(cè)EFL 寫作質(zhì)量(Biber et al. 2020),子句復(fù)雜度與復(fù)雜名詞結(jié)構(gòu)指標(biāo)在二語(yǔ)寫作質(zhì)量評(píng)估上的共現(xiàn)和互動(dòng)關(guān)系如何(Biber,Gray & Staples 2016)等問(wèn)題還需進(jìn)一步研究。

2.2.3 語(yǔ)篇銜接性

有研究顯示,局部銜接性指標(biāo)(如連接詞、相鄰句子之間詞元的重復(fù)或語(yǔ)義復(fù)現(xiàn)等)和整體銜接性指標(biāo)(如詞語(yǔ)形符 / 類符比、代詞 / 名詞比、指示詞出現(xiàn)頻率等)或負(fù)向預(yù)測(cè) EFL 議論文的語(yǔ)篇組織得分,或與語(yǔ)篇組織得分無(wú)關(guān)(Crossley,Kyle & McNamara 2016),但也有研究顯示部分局部銜接性指標(biāo)能正向預(yù)測(cè)語(yǔ)篇組織得分(Abdi Tabari,Johnson & Gao 2024)。對(duì)于中觀銜接性指標(biāo)(如相鄰段落之間詞元的重復(fù)或語(yǔ)義復(fù)現(xiàn)等),雖然相關(guān)研究發(fā)現(xiàn)其與語(yǔ)篇組織得分呈正相關(guān),但究竟是名詞、代詞詞元還是虛詞的重復(fù)使用具有指向作用,還需進(jìn)一步研究??偟膩?lái)說(shuō),語(yǔ)篇銜接性仍是一個(gè)關(guān)注不足的領(lǐng)域。

2.2.4 多層面綜合

上述研究都是考察EFL 議論文某一維度的語(yǔ)言特征與寫作質(zhì)量的關(guān)系,此外還有研究綜合多個(gè)維度的語(yǔ)言特征,考察它們對(duì)寫作質(zhì)量的貢獻(xiàn)度,如將詞匯復(fù)雜度與句法復(fù)雜度相結(jié)合,詞匯復(fù)雜度與語(yǔ)篇銜接性相結(jié)合,詞匯、句法復(fù)雜度與語(yǔ)篇銜接性相結(jié)合,在此不一一贅述。另外,二語(yǔ)產(chǎn)出研究常用的復(fù)雜度 -準(zhǔn)確度 - 流利度(CAF)框架下的準(zhǔn)確度和流利度也常與詞匯、句法復(fù)雜度或語(yǔ)篇銜接性相結(jié)合(Peng et al. 2023)。

由于研究所包含的語(yǔ)言特征維度不同,加之樣本特征、樣本量、處理工具等方面的差異,這類研究得出的結(jié)論有時(shí)差別較大。另外,就某一語(yǔ)言特征與文本質(zhì)量的關(guān)系而言,綜合多個(gè)維度的研究與聚焦單一維度的研究結(jié)果也有很大差異。例如,Peng et al.(同上)的研究顯示,與詞匯使用偏誤和文本長(zhǎng)度相比,詞匯復(fù)雜度對(duì) EFL 寫作整體得分變異的解釋作用很小,這與上文提到的僅關(guān)注詞匯復(fù)雜度的研究結(jié)果迥然不同。這些都值得在今后的研究中予以關(guān)注。

2.2.5 中介因素的影響

二語(yǔ)寫作的質(zhì)量不僅由二語(yǔ)寫作能力決定,還受到諸多中介因素的影響。通過(guò)自然語(yǔ)言處理工具,已有研究探討了在不同中介因素下不同語(yǔ)言特征指標(biāo)對(duì)寫作質(zhì)量預(yù)測(cè)的差異。這些中介因素包括不同的任務(wù)形式(如無(wú)材料獨(dú)立寫作、綜合性寫作)(Guo,Crossley & McNamara 2013;Kyle & Crossley 2016)、寫作體裁(如議論文、記敘文、說(shuō)明文、書信)(Zhang,Lu & Li 2022)、話題或?qū)懽魈崾镜龋╕ang,Lu & Weigle 2015;何蓮珍、孫悠夏 2015)。上述研究表明,不同類型的二語(yǔ)寫作既具有共同的質(zhì)量預(yù)測(cè)指標(biāo)(如文本長(zhǎng)度、句法復(fù)雜度下的復(fù)雜名詞結(jié)構(gòu)),也具有各自獨(dú)特且對(duì)評(píng)分敏感的特征性指標(biāo)。

盡管如此,還有幾個(gè)問(wèn)題需要關(guān)注。第一,研究結(jié)果之間仍存在很多不一致之處。例如,Guo,Crossley & McNamara(2013)發(fā)現(xiàn)詞匯成熟度對(duì)于綜合性寫作和無(wú)材料寫作都是一項(xiàng)重要的質(zhì)量預(yù)測(cè)指標(biāo),而 Kyle & Crossley(2016)的研究卻表明,雖然綜合性寫作能使學(xué)習(xí)者產(chǎn)出更復(fù)雜的詞匯,但包括二元詞語(yǔ)組在內(nèi)的詞匯多樣性和成熟度并不能預(yù)測(cè)這類寫作的質(zhì)量;相反,這兩項(xiàng)指標(biāo)是無(wú)材料寫作質(zhì)量的重要預(yù)測(cè)指標(biāo)。第二,除了 Zhang,Lu & Li(2022),基于體裁因素考察多維度語(yǔ)言特征對(duì)寫作質(zhì)量的預(yù)測(cè)力的研究還不多見(jiàn)。此外,對(duì)議論文與其他體裁的預(yù)測(cè)指標(biāo)進(jìn)行比較的研究也很有限,這限制了相關(guān)結(jié)果的概推性。第三,話題因素如何影響語(yǔ)言特征對(duì)二語(yǔ)寫作質(zhì)量的貢獻(xiàn)度尚待進(jìn)一步探究。

2.3 二語(yǔ)習(xí)得或二語(yǔ)能力發(fā)展視角下的二語(yǔ)寫作語(yǔ)言特征研究

除了文本質(zhì)量評(píng)估的視角,還有研究從二語(yǔ)能力發(fā)展的視角出發(fā),通過(guò)自然語(yǔ)言處理工具動(dòng)態(tài)追蹤二語(yǔ)寫作語(yǔ)言特征指標(biāo)的變化。需要說(shuō)明的是,上文評(píng)述的一些研究結(jié)合了文本質(zhì)量評(píng)估和二語(yǔ)能力發(fā)展這兩種視角(如 Bestgen & Granger 2014;Abdi Tabari,Johnson & Gao 2024)。Yoon & Polio(2017)等研究則專門縱向分析了學(xué)習(xí)者在 EFL 寫作中某一或多個(gè)維度語(yǔ)言特征的動(dòng)態(tài)發(fā)展情況,還考察了體裁、話題或任務(wù)形式等中介因素對(duì)語(yǔ)言特征發(fā)展的影響。這些研究主要有三個(gè)發(fā)現(xiàn)。第一,隨時(shí)間顯著發(fā)展的語(yǔ)言特征指標(biāo)與同質(zhì)量評(píng)分顯著相關(guān)的指標(biāo)有時(shí)并不一致(Crossley & McNamara 2014),因此,有效的發(fā)展性指標(biāo)并不一定能被假定為衡量寫作質(zhì)量的有效指標(biāo)(Lu 2011)。第二,語(yǔ)言特征的發(fā)展并不一定呈線性上升的態(tài)勢(shì)(Bulté & Housen 2014)。第三,體裁、話題或任務(wù)特征等中介因素對(duì)不同維度語(yǔ)言特征發(fā)展的影響不同,對(duì)詞匯和句法復(fù)雜度

指標(biāo)的影響總體較大(Yoon & Polio 2017);即便是在同一維度內(nèi),這些因素對(duì)具體語(yǔ)言特征發(fā)展的影響也不一致,如寫作體裁對(duì)句法復(fù)雜度下從屬或并列子句的發(fā)展就沒(méi)有明顯影響(同上)。需要注意的是,這些動(dòng)態(tài)發(fā)展研究大多以句法復(fù)雜度為焦點(diǎn),對(duì)其他特征維度的關(guān)注度還不夠。另外,一些動(dòng)態(tài)研究采用了類縱向(pseudo-longitudinal)方法,并非對(duì)同一批學(xué)習(xí)者群體展開(kāi)持續(xù)追蹤,而是通過(guò)不同水平組之間的比較來(lái)模擬二語(yǔ)發(fā)展過(guò)程,這在一定程度上可能影響研究結(jié)論的效度,未來(lái)的研究需要更多地進(jìn)行純縱向研究,以增強(qiáng)結(jié)論的解釋力。

此外,還有研究關(guān)注的是語(yǔ)言特征指標(biāo)的變化或差異對(duì)二語(yǔ)習(xí)得理論的意義。例如,Lu & Ai(2015)通過(guò)對(duì)比不同母語(yǔ)背景的 EFL 寫作者在多個(gè)指標(biāo)上的表現(xiàn),驗(yàn)證了語(yǔ)言遷移理論;何蓮珍、姜子蕓(2023)通過(guò)考察考生的工作記憶容量差異與寫作文本特征的關(guān)系,進(jìn)一步加深了對(duì)認(rèn)知負(fù)荷假說(shuō)的理解;王麗萍、吳紅云、Zhang(2020)通過(guò)分析不同任務(wù)復(fù)雜度下的文本語(yǔ)言特征,驗(yàn)證了“競(jìng)爭(zhēng)假說(shuō)”和“認(rèn)知假說(shuō)”;還有研究通過(guò)探討二語(yǔ)發(fā)展過(guò)程中寫作文本流利度與語(yǔ)篇銜接性的多維交互(張超、梁文花 2022)以及句法和詞匯復(fù)雜度的發(fā)展(鄭詠滟、馮予力 2017),證實(shí)了動(dòng)態(tài)系統(tǒng)理論的解釋力。此外,一些研究通過(guò)自然語(yǔ)言處理工具聚焦二語(yǔ)學(xué)習(xí)者對(duì)某一特定目標(biāo)語(yǔ)特征的習(xí)得,如定語(yǔ)從句(Alexopoulou et al. 2015)、次范疇結(jié)構(gòu)(Huang et al. 2021)、程度表達(dá)式(Cong 2024)等。總體而言,這些研究展現(xiàn)了自然語(yǔ)言處理技術(shù)在服務(wù)理論探討和驗(yàn)證方面的重要作用。

3. 二語(yǔ)寫作語(yǔ)言特征研究的新進(jìn)展

3.1 語(yǔ)言特征指標(biāo)的拓展

近幾年來(lái),自然語(yǔ)言處理工具與語(yǔ)言學(xué)理論的深度融合促進(jìn)了二語(yǔ)寫作語(yǔ)言特征指標(biāo)在詞匯、句法和語(yǔ)篇銜接等多個(gè)維度上的創(chuàng)新。例如,在構(gòu)式理論和基于使用的語(yǔ)言習(xí)得理論的基礎(chǔ)上,Kyle & Crossley(2017)提出了以大型本族語(yǔ)語(yǔ)料庫(kù)為參照的主動(dòng)詞詞元出現(xiàn)頻率、動(dòng)詞論元構(gòu)式(VAC)出現(xiàn)頻率、主動(dòng)詞詞元與 VAC 組合的出現(xiàn)頻率、主動(dòng)詞詞元與 VAC 的關(guān)聯(lián)強(qiáng)度這四項(xiàng)句法復(fù)雜度新指標(biāo)。他們發(fā)現(xiàn),基于使用的句法復(fù)雜度指標(biāo)能解釋比傳統(tǒng)指標(biāo)更多的 EFL 作文得分方差。另外,也有研究同樣以基于使用的語(yǔ)言習(xí)得理論為基礎(chǔ),但更關(guān)注句法構(gòu)式復(fù)雜度中的產(chǎn)出多樣性。例如 Hwang & Kim(2023)開(kāi)發(fā)了基于依存句法分析的構(gòu)式多樣性分析器,他們的研究表明構(gòu)式的多樣性和特定構(gòu)式的出現(xiàn)比例也能有效預(yù)測(cè) EFL 寫作文本的質(zhì)量。

除了基于使用的語(yǔ)言習(xí)得理論,以依存語(yǔ)法、分布語(yǔ)義等為代表的,本身就基于計(jì)算或自然語(yǔ)言處理的語(yǔ)言學(xué)理論,也為二語(yǔ)寫作的語(yǔ)言特征分析提供了新視角。以依存語(yǔ)法理論為例,它為評(píng)估二語(yǔ)寫作質(zhì)量和分析寫作能力發(fā)展提供了新的句法復(fù)雜度指標(biāo)。Ouyang & Jiang(2017)通過(guò)對(duì) EFL 寫作文本進(jìn)行依存關(guān)系解析后發(fā)現(xiàn),從初中一年級(jí)到英語(yǔ)專業(yè)研究生九個(gè)不同階段寫作文本依存距離的概率分布較好地反映了學(xué)習(xí)者目標(biāo)語(yǔ)寫作能力的發(fā)展;Ouyang, Jiang & Liu(2022)的研究顯示,相較于傳統(tǒng)的基于句法結(jié)構(gòu)長(zhǎng)度或數(shù)量的復(fù)雜度指標(biāo),平均依存距離能更好地區(qū)分初級(jí)、中級(jí)和高級(jí)階段的 EFL 寫作文本。另一方面,基于依存關(guān)系類符 / 形符比的句法多樣性指標(biāo)也進(jìn)一步拓展了句法復(fù)雜度的內(nèi)涵(Bi & Jiang 2020)。

語(yǔ)境在意義的生成和理解中起關(guān)鍵作用,基于分布語(yǔ)義的詞向量技術(shù)可以更精準(zhǔn)地識(shí)別多義詞在特定語(yǔ)境下的語(yǔ)義,為二語(yǔ)寫作質(zhì)量分析提供具有語(yǔ)義感知的特征指標(biāo)。例如,Lu & Hu(2022)使用 BERT 模型對(duì)參照詞典中多義詞的例句進(jìn)行詞義向量標(biāo)注,通過(guò)詞向量相似性計(jì)算確定 EFL 作文中多義詞的確切語(yǔ)義,進(jìn)而提出了具有語(yǔ)義感知的成熟詞形符根植比、具有語(yǔ)義感知的成熟詞類符根植比、單個(gè)詞語(yǔ)詞義數(shù)量的對(duì)數(shù)均值這三個(gè)詞匯成熟度指標(biāo);與傳統(tǒng)的 TAALES 指標(biāo)相比,前兩個(gè)新指標(biāo)與 EFL 寫作得分的相關(guān)性更強(qiáng)。類似地,Lu & Hu(2024)還提出了 34 個(gè)具有語(yǔ)義感知的語(yǔ)篇銜接詞詞形指標(biāo),如語(yǔ)篇銜接詞詞形的數(shù)量、密度、多樣性等,這些指標(biāo)不僅區(qū)分了某一詞形在上下文中是否真正具有話語(yǔ)銜接功能,還明確了它們?cè)谡Z(yǔ)境中所表達(dá)的特定銜接關(guān)系,如對(duì)比、因果、擴(kuò)展、時(shí)間關(guān)系等。此外,Monteiro et al.(2023)分別利用潛在語(yǔ)義分析

(Latent Semantic Analysis)和 Word2Vec 模型提出了一組基于參照語(yǔ)料庫(kù)中詞向量相似性計(jì)算的情境語(yǔ)義指標(biāo),用以衡量詞語(yǔ)的語(yǔ)義豐富度和獨(dú)特性。他們的研究發(fā)現(xiàn),EFL 高分作文中往往較少使用語(yǔ)義豐富度高的詞語(yǔ),但較多使用語(yǔ)義獨(dú)特性高的詞語(yǔ)。

無(wú)論是上述哪一種新指標(biāo),其背后都反映了基于認(rèn)知的語(yǔ)言習(xí)得理論(Ellis 1999)的核心思想。該理論強(qiáng)調(diào)學(xué)習(xí)者通過(guò)基于經(jīng)驗(yàn)的統(tǒng)計(jì)學(xué)習(xí)機(jī)制,在具體語(yǔ)境中對(duì)語(yǔ)言輸入進(jìn)行信息加工并形成心理表征,從而為包括語(yǔ)言特征分析在內(nèi)的二語(yǔ)研究提供更為堅(jiān)實(shí)的學(xué)理基礎(chǔ),不僅“體現(xiàn)了認(rèn)知心理學(xué)的經(jīng)驗(yàn)主義,即通過(guò)觀察和實(shí)驗(yàn)來(lái)探索關(guān)于世界的真理”,也“融合了認(rèn)知科學(xué)家的理性主義,即通過(guò)構(gòu)建數(shù)學(xué)、邏輯或計(jì)算模擬等形式系統(tǒng)來(lái)形成理論”(同上: 22)。從這個(gè)意義上說(shuō),自然語(yǔ)言處理技術(shù)與語(yǔ)言學(xué)理論完全契合,有力地推動(dòng)了二語(yǔ)寫作語(yǔ)言特征的研究。

3.2 機(jī)器學(xué)習(xí)的深入運(yùn)用

機(jī)器學(xué)習(xí)指一系列基于已知數(shù)據(jù)對(duì)新數(shù)據(jù)進(jìn)行分類的廣泛技術(shù)。近年來(lái),二語(yǔ)寫作特征研究所涉及的機(jī)器學(xué)習(xí)技術(shù)越來(lái)越先進(jìn)和多樣化,而且機(jī)器學(xué)習(xí)也日益走向前臺(tái),研究者們不再滿足于僅僅使用現(xiàn)成的文本分析器,而是直接使用各種機(jī)器學(xué)習(xí)技術(shù)創(chuàng)建語(yǔ)言特征指標(biāo)或識(shí)別關(guān)鍵特征。上文提到的 Lu & Hu(2022,2024)、Monteiro et al.(2023)等研究就是典型的例子。又如,Ma, Wang & He(2024)運(yùn)用決策樹(shù)方法,識(shí)別出了能夠清晰區(qū)分“歐洲語(yǔ)言共同參考框架”下不同等級(jí) EFL 寫作文本的 11 個(gè) Coh-Metrix 指標(biāo),并且找出了每個(gè)決策點(diǎn)上影響分類的指標(biāo)閾值。Latifi & Gierl(2021)使用隨機(jī)森林算法對(duì)大批量作文進(jìn)行自動(dòng)評(píng)分后發(fā)現(xiàn),不同任務(wù)形式寫作文本的語(yǔ)言特征的信息含量是不同的,如何保留自動(dòng)化評(píng)分中的語(yǔ)言特征不僅取決于寫作文本本身,還取決于題目提示等特征。再如,Tang et al.(2024)通過(guò)結(jié)合多種自動(dòng)化文本分析工具得出的語(yǔ)言特征指標(biāo)與各種常見(jiàn)機(jī)器學(xué)習(xí)算法,比較了這些算法在自動(dòng)評(píng)分上與人工評(píng)分基準(zhǔn)的差異。他們的研究不僅評(píng)估了不同算法的性能,還通過(guò)線性和非線性模型,揭示了文本語(yǔ)言特征與整體評(píng)分及各分項(xiàng)評(píng)分之間的關(guān)系,雖然這一研究針對(duì)的是英語(yǔ)母語(yǔ)寫作,但同樣適用于二語(yǔ)寫作。

作為機(jī)器學(xué)習(xí)中日益發(fā)展的一個(gè)分支,包括大語(yǔ)言模型在內(nèi)的神經(jīng)網(wǎng)絡(luò)模型近年來(lái)也被引入二語(yǔ)寫作特征研究中 2。例如,Crossley & Holmes(2023)比較了三種 EFL 寫作語(yǔ)料的自然語(yǔ)言處理方法在預(yù)測(cè)學(xué)習(xí)者詞匯能力方面的表現(xiàn),它們分別是基于 TAALES 傳統(tǒng)語(yǔ)言特征指標(biāo)的線性回歸模型,基于 Word2Vec 的分布語(yǔ)義嵌入模型,以及基于 BERT 的語(yǔ)義嵌入深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型。他們的研究表明,BERT 模型在預(yù)測(cè)學(xué)習(xí)者詞匯能力方面表現(xiàn)最優(yōu)。這些研究凸顯了大語(yǔ)言模型在捕捉詞匯使用語(yǔ)境和語(yǔ)義精度方面的有效性。

比起傳統(tǒng)的自然語(yǔ)言處理工具,基于大語(yǔ)言模型的詞性標(biāo)注和句法解析工具已在二語(yǔ)寫作語(yǔ)言特征的研究中展現(xiàn)出優(yōu)勢(shì),但這些工具的性能還依賴于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量(Kyle & Eguchi 2024)。Kyle & Eguchi(同上)發(fā)現(xiàn),在本族語(yǔ)語(yǔ)料訓(xùn)練的基礎(chǔ)上,經(jīng)少量二語(yǔ)語(yǔ)料訓(xùn)練的詞性標(biāo)注和句法解析模型在二語(yǔ)語(yǔ)料的處理上優(yōu)于僅經(jīng)過(guò)本族語(yǔ)語(yǔ)料訓(xùn)練的模型。另外,通過(guò) BERT、 ChatGPT 等大模型還可直接定制對(duì)包括指向話語(yǔ)功能在內(nèi)的語(yǔ)言特征的自動(dòng)化標(biāo)注(Eguchi & Kyle 2024)。因此,對(duì)大模型工具進(jìn)行經(jīng)過(guò)高質(zhì)量標(biāo)注的目標(biāo)語(yǔ)語(yǔ)料訓(xùn)練或微調(diào),進(jìn)一步提升自然語(yǔ)言處理標(biāo)注的精準(zhǔn)度,可能是今后二語(yǔ)寫作語(yǔ)言特征研究的一個(gè)重要內(nèi)容。此外還有一個(gè)問(wèn)題值得探索。雖然現(xiàn)在大語(yǔ)言模型能較準(zhǔn)確地識(shí)別學(xué)習(xí)者寫作中的錯(cuò)誤(Mizumoto et al. 2024),但如何精準(zhǔn)定義語(yǔ)言準(zhǔn)確度并對(duì)錯(cuò)誤類別分配權(quán)重仍是一個(gè)充滿爭(zhēng)議的問(wèn)題。今后的研究應(yīng)在這方面有所突破,尤其是神經(jīng)網(wǎng)絡(luò)中的“自我注意”機(jī)制可以模擬評(píng)分員根據(jù)錯(cuò)誤的性質(zhì)和上下文來(lái)分配注意力,通過(guò)調(diào)整權(quán)重來(lái)反映這種注意差異。

4. 進(jìn)一步思考與展望

進(jìn)入 21 世紀(jì)以來(lái),二語(yǔ)寫作語(yǔ)言特征的研究呈現(xiàn)出蓬勃的發(fā)展態(tài)勢(shì),學(xué)習(xí)者語(yǔ)料庫(kù)為這些研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),而自然語(yǔ)言處理技術(shù)的進(jìn)步則為研究提供了強(qiáng)有力的技術(shù)支持。相關(guān)研究在深化理解二語(yǔ)寫作能力各分支構(gòu)念、完善評(píng)分量表、推進(jìn)評(píng)分自動(dòng)化、優(yōu)化診斷性評(píng)估、追蹤二語(yǔ)學(xué)習(xí)者寫作能力發(fā)展軌跡,以及深入理解和驗(yàn)證二語(yǔ)習(xí)得理論等方面都提供了很有價(jià)值的信息。結(jié)合上文的梳理,今后研究的一個(gè)方向是,在已有的研究框架下,通過(guò)更大規(guī)模的學(xué)習(xí)者語(yǔ)料、更標(biāo)準(zhǔn)化的語(yǔ)言能力評(píng)估框架以及更精準(zhǔn)的自然語(yǔ)言處理方法進(jìn)行更多的復(fù)制研究,以進(jìn)一步厘清先前研究結(jié)果的不一致之處,或加強(qiáng)先前研究著力不足之處。更為重要的是關(guān)注如下兩點(diǎn)。

第一,理論框架的突破。當(dāng)前二語(yǔ)寫作語(yǔ)言特征研究大多假設(shè):寫作質(zhì)量或能力發(fā)展可以通過(guò)可量化的語(yǔ)言特征的線性組合加以預(yù)測(cè)或解釋。然而,這一假設(shè)在很大程度上簡(jiǎn)化了二語(yǔ)寫作能力這一復(fù)雜構(gòu)念。未來(lái)研究有必要突破這種以單向預(yù)測(cè)或解釋為導(dǎo)向的視角,探討各類語(yǔ)言特征在構(gòu)建二語(yǔ)寫作能力中的互動(dòng)關(guān)系及多元協(xié)同機(jī)制。正如 Ortega(2015:91)所言,“我們需要更有力的、包含更多變量并具有非線性特征的思維方式”,“必須在研究設(shè)計(jì)和統(tǒng)計(jì)分析方案的制定中,充分體現(xiàn)這些變量,并捕捉它們之間復(fù)雜的交互作用”。此外,在 CAF 框架尤其是在復(fù)雜性維度上,我們亟須將語(yǔ)言形式特征與其所服務(wù)的語(yǔ)義建構(gòu)和交際功能相連接。形式上的“更復(fù)雜”并不必然指向更高的二語(yǔ)能力(Yasuda 2024),準(zhǔn)確性、流利度和復(fù)雜性等局部波動(dòng)也不能充分反映任務(wù)型二語(yǔ)習(xí)得的本質(zhì)(Lambert & Kormos 2014)。因此,應(yīng)重視研究不同能力階段的二語(yǔ)學(xué)習(xí)者在具體的寫作情境中,如何通過(guò)特定的語(yǔ)言資源完成任務(wù)且達(dá)到交際適切性(communicative adequacy),并追蹤其語(yǔ)言特征指標(biāo)如何隨交際需求和語(yǔ)境適應(yīng)能力的提高而演化。這種以意義和功能為驅(qū)動(dòng)的視角,有望更全面地揭示文本語(yǔ)言特征與二語(yǔ)寫作能力構(gòu)念之間的動(dòng)態(tài)關(guān)系。

第二,技術(shù)范式的更新。機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)為二語(yǔ)寫作語(yǔ)言特征研究提供了前所未有的建模能力。這些神經(jīng)網(wǎng)絡(luò)模型在捕捉語(yǔ)言使用的上下文敏感性、語(yǔ)義深度和結(jié)構(gòu)復(fù)雜性方面具有顯著優(yōu)勢(shì)。然而,其“黑箱”特性也引發(fā)了學(xué)界對(duì)可解釋性的擔(dān)憂。因此,將反映形式、意義、功能的語(yǔ)言特征指標(biāo)與神經(jīng)網(wǎng)絡(luò)模型相結(jié)合有望逐漸成為研究前沿。這一范式不僅可以拓展二語(yǔ)寫作語(yǔ)言特征的研究范圍,而且借助可解釋人工智能(explainable AI),研究者得以追蹤模型決策路徑,從而將數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè) / 解釋與理論驅(qū)動(dòng)的預(yù)測(cè) / 解釋有效結(jié)合,“助力二語(yǔ)研究者構(gòu)建涉及意義、意圖、推理和語(yǔ)用等維度的二語(yǔ)知識(shí)與發(fā)展模型”(Crossley & Holmes 2023:22),拓展可與基于特定任務(wù)的分析性評(píng)分量表實(shí)現(xiàn)多維互通的二語(yǔ)寫作語(yǔ)言特征指標(biāo)體系。盡管這種結(jié)合可能頗具挑戰(zhàn),但神經(jīng)網(wǎng)絡(luò)模型的潛力不容忽視,期待大語(yǔ)言模型的應(yīng)用給二語(yǔ)寫作語(yǔ)言特征研究帶來(lái)新的突破。

免責(zé)聲明:原文載于《外語(yǔ)教學(xué)與研究》,2025(4),版權(quán)歸作者所有,如有侵權(quán),請(qǐng)及時(shí)聯(lián)系刪章。

轉(zhuǎn)載自外語(yǔ)教學(xué)與研究公眾號(hào)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
胡錫進(jìn):《江南春》等幾幅流向市場(chǎng)的書畫應(yīng)該歸還給龐家

胡錫進(jìn):《江南春》等幾幅流向市場(chǎng)的書畫應(yīng)該歸還給龐家

映射生活的身影
2025-12-24 20:07:27
高瞻遠(yuǎn)“豬”:2025年豬價(jià)震蕩下滑 2026年能否有起色?

高瞻遠(yuǎn)“豬”:2025年豬價(jià)震蕩下滑 2026年能否有起色?

金融界
2025-12-25 08:42:08
心疼闞清子!知情人透露更多,高齡產(chǎn)婦早知道內(nèi)情,但舍不得打掉

心疼闞清子!知情人透露更多,高齡產(chǎn)婦早知道內(nèi)情,但舍不得打掉

八斗小先生
2025-12-24 15:39:53
“重慶姐弟墜亡案”孩子母親:癌癥手術(shù)后,又被好朋友騙走幾十萬(wàn)

“重慶姐弟墜亡案”孩子母親:癌癥手術(shù)后,又被好朋友騙走幾十萬(wàn)

江山揮筆
2025-12-25 21:09:50
美媒評(píng)本世紀(jì)最佳陣:詹科庫(kù)杜鄧肯入選一陣,奧尼爾僅三陣

美媒評(píng)本世紀(jì)最佳陣:詹科庫(kù)杜鄧肯入選一陣,奧尼爾僅三陣

懂球帝
2025-12-25 07:52:31
Lisa又被罵低俗!穿高衩衣、裸露屁股 網(wǎng)友崩潰:帶壞小孩子

Lisa又被罵低俗!穿高衩衣、裸露屁股 網(wǎng)友崩潰:帶壞小孩子

桑葚愛(ài)動(dòng)畫
2025-12-24 16:21:15
有福女子的面相之妙,不在于容貌美丑、身形胖瘦,而在于3處特征

有福女子的面相之妙,不在于容貌美丑、身形胖瘦,而在于3處特征

星宇共鳴
2025-12-19 14:04:47
云南2025年1—11月財(cái)政收支情況公布

云南2025年1—11月財(cái)政收支情況公布

大理融媒
2025-12-25 13:33:38
小心!支付寶好醫(yī)?!巴低怠笨圪M(fèi)8個(gè)月,多人已中招!

小心!支付寶好醫(yī)?!巴低怠笨圪M(fèi)8個(gè)月,多人已中招!

山西經(jīng)濟(jì)日?qǐng)?bào)
2025-12-25 11:04:10
他早已加入美國(guó)!全家移民卻在中國(guó)瘋狂撈金,一年賺走4個(gè)億

他早已加入美國(guó)!全家移民卻在中國(guó)瘋狂撈金,一年賺走4個(gè)億

小樾說(shuō)歷史
2025-12-15 09:21:44
航拍看西延高鐵全線最大跨度橋梁

航拍看西延高鐵全線最大跨度橋梁

新華社
2025-12-25 16:43:48
她曾一年換7任男友,風(fēng)流成性未婚生女,如今43歲無(wú)人敢娶

她曾一年換7任男友,風(fēng)流成性未婚生女,如今43歲無(wú)人敢娶

小熊侃史
2025-12-20 11:01:12
意外收獲!南博事件拔出蘿卜帶出泥!

意外收獲!南博事件拔出蘿卜帶出泥!

大道微言
2025-12-23 19:29:03
《電腦愛(ài)好者》沒(méi)了,一代人自學(xué)電腦的年代結(jié)束了

《電腦愛(ài)好者》沒(méi)了,一代人自學(xué)電腦的年代結(jié)束了

盧松松
2025-12-25 14:20:59
外賣員深夜接到訂單,地址是郊區(qū)公墓,開(kāi)門的竟是失蹤的未婚妻

外賣員深夜接到訂單,地址是郊區(qū)公墓,開(kāi)門的竟是失蹤的未婚妻

罪案洞察者
2025-12-22 11:12:39
臺(tái)灣省媒體人曝朱孝天猛料!他以前就很怪,是F4里可有可無(wú)的存在

臺(tái)灣省媒體人曝朱孝天猛料!他以前就很怪,是F4里可有可無(wú)的存在

小徐講八卦
2025-12-25 12:52:21
狂掃1000噸黃金,美聯(lián)儲(chǔ)慌了,金價(jià)突破4500,中國(guó)底牌要藏不住了

狂掃1000噸黃金,美聯(lián)儲(chǔ)慌了,金價(jià)突破4500,中國(guó)底牌要藏不住了

伴史緣
2025-12-25 11:02:28
又暴雷!48小時(shí)卷走129億,200萬(wàn)會(huì)員血本無(wú)歸,“傳銷巨頭”涼了

又暴雷!48小時(shí)卷走129億,200萬(wàn)會(huì)員血本無(wú)歸,“傳銷巨頭”涼了

墨印齋
2025-11-11 16:31:34
三個(gè)信號(hào)表明,美準(zhǔn)備打大仗,六國(guó)已被鎖定,卻避開(kāi)了中國(guó)這條線

三個(gè)信號(hào)表明,美準(zhǔn)備打大仗,六國(guó)已被鎖定,卻避開(kāi)了中國(guó)這條線

尋墨閣
2025-12-26 01:07:56
葉選寧為何是“紅二代”里的老大哥?鄧樸方的一句評(píng)價(jià),十分經(jīng)典

葉選寧為何是“紅二代”里的老大哥?鄧樸方的一句評(píng)價(jià),十分經(jīng)典

素年文史
2025-12-21 16:04:03
2025-12-26 03:11:00
英語(yǔ)教學(xué) incentive-icons
英語(yǔ)教學(xué)
英語(yǔ)學(xué)習(xí),讀書進(jìn)步!
21332文章數(shù) 100833關(guān)注度
往期回顧 全部

教育要聞

父母口中的"聽(tīng)話",其實(shí)是控制

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來(lái)了,年化超24%的小貸被即刻叫停

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

游戲
藝術(shù)
數(shù)碼
健康
公開(kāi)課

逆水寒頂流主播沉迷倩女!三界的魅力藏不住了

藝術(shù)要聞

你絕對(duì)沒(méi)見(jiàn)過(guò)的美麗風(fēng)景,快來(lái)看看!

數(shù)碼要聞

年終復(fù)盤不用愁,鴻蒙電腦讓高效貫穿每一刻

這些新療法,讓化療不再那么痛苦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版