在6億用戶的真實語境中，看AI如何重構(gòu)輸入法對話搜狗輸入法團隊

2026-03-05 22:07:31　來源: 一點財經(jīng)

河北舉報

分享至

沉寂多年的輸入法賽道，近來被AI一把點燃。

一邊是老牌玩家加速重構(gòu)：年初，長期穩(wěn)居頭部的騰訊搜狗輸入法推出20.0AI大版本，用大模型的生成能力重塑輸入法的底層邏輯；訊飛和百度作為國內(nèi)主流輸入法產(chǎn)品，也在這兩年紛紛引入大模型能力，生怕掉隊。

另一邊是新起之秀動作頻出：剛發(fā)布1.0.0版本的Typeless據(jù)稱“開口即可成文”，這種“僅保留語音交互+生成結(jié)構(gòu)化文本”的模式正在受到行業(yè)追捧，如去年風很大的Whisper Flow和智譜、豆包輸入法，都屬這類玩家。最近，微信輸入法在PC版上線了語音輸入功能，用一個fn鍵系統(tǒng)級觸達桌面端。

各大廠商一擁而上，輸入法被AI的巨浪重新推至臺前，這說明什么信號？回看輸入法的本質(zhì)，答案并不復(fù)雜。穿越多個互聯(lián)網(wǎng)周期，輸入法始終是底層的人機交互橋梁，因其高頻、無感的使用體驗，加上能“連接一切”的入口價值，輸入法的站位在AI時代正在被重新放大。

但做一個AI輸入法并沒有想象中的簡單。在最理想狀態(tài)下，基于大語言模型的輸入法理應(yīng)能理解語言規(guī)律，通過上下文感知推測你想輸入什么，變成“懂你”的表達智能體。誰都想這么干。

在模型的上下文能力未能達到精準個性化表達的當下，行業(yè)普遍面臨一個挑戰(zhàn)：意圖識別和預(yù)測的結(jié)果很難滿足每個個體對“輸出準確”的預(yù)期。如何讓生成式AI的“預(yù)測”，與數(shù)億用戶長期形成、分散多變的“個人習慣” 無縫對齊，很難單憑接入一個更先進的模型來解決，它更考驗團隊基于何種視角和方法訓(xùn)練模型。

這種技術(shù)視角很難憑空產(chǎn)生，它依靠的是長期的用戶沉淀和工程基建。我們看到，盡管輸入法看似簡單、誰都能做，但在過去幾十年里，真正實現(xiàn)規(guī)?；男庐a(chǎn)品其實很難跑出來，其一原因是，這些成熟產(chǎn)品無一不是在長期的詞庫積累和算法優(yōu)化之上認識到用戶需要什么。

這些舊時代的“臟活累活”，反而可能在AI時代成為輸入法更好理解用戶意圖的關(guān)鍵所在，這些經(jīng)驗正在轉(zhuǎn)化為一種新的技術(shù)勢能。

未來的可能性，或許并不取決于“新”與“舊”的標簽，而在于誰能將大模型的技術(shù)張力，真正嵌入到具體的、細微的用戶需求縫隙里。對于搜狗輸入法而言，過去二十年積累的對六億用戶真實交互的理解，成為了AI時代最稀缺的“上下文”資產(chǎn)，這既是讓模型更懂你的基礎(chǔ)，也讓對用戶意圖的精準建模變成了一項極為復(fù)雜的系統(tǒng)工程。

我們很好奇，這場全方位的AI底層重構(gòu)，搜狗輸入法的解法是什么？按照什么方向訓(xùn)練模型來匹配用戶需求？如何在承載數(shù)億用戶既有輸入習慣的同時進行AI化的交互創(chuàng)新？如何解決AI輸入法在不同場景（如弱網(wǎng)場景）下的時延性問題？當AI語音輸入變成技術(shù)競爭主賽道，搜狗輸入法找到的那個翹板是什么？最終，當這場重構(gòu)進行得足夠徹底，它將如何定義未來輸入法的供需關(guān)系？

帶著這些問題，神經(jīng)漫游記采訪到了騰訊搜狗輸入法的產(chǎn)品和技術(shù)團隊，他們分別是來自搜狗輸入法的AI打字產(chǎn)品負責人isla、AI打字算法負責人Kimi和AI語音算法負責人饒老師。以下是采訪的文字對話，為保證對話可讀性，對話經(jīng)編輯整理：

“大模型也許是顛覆輸入法的核心武器”

問：在公眾的固有印象中，輸入法一直被視為一項傳統(tǒng)的互聯(lián)網(wǎng)業(yè)務(wù)。但是最近市場上涌現(xiàn)了很多AI輸入法的創(chuàng)業(yè)項目，大家都在討論輸入法可能成為AI時代核心交互入口。作為在該領(lǐng)域深耕多年的資深從業(yè)者，各位如何看待輸入法突然變得很“性感”這件事？

搜狗輸入法團隊：AI時代的到來對于輸入法這一工具的影響，我們整個團隊感受到的是一種興奮感。過去，我們可能遵循一些既定的框架和路線來解決已知的問題，比如我們知道用戶在什么樣的拼音串下容易犯錯，基于此我們?nèi)パ芯刻囟ǖ募m錯能力。這種研究已知問題的策略優(yōu)化，在一定程度上會限制產(chǎn)品的想象力。

原來的輸入法是什么樣的邏輯？最早期，輸入法是基于固定的鍵碼輸出一定的候選詞。再到后來互聯(lián)網(wǎng)詞庫的出現(xiàn)，2005年人們能第一次打出“李宇春”，這是因為把互聯(lián)網(wǎng)海量數(shù)據(jù)轉(zhuǎn)化成詞庫，我們在這件事上耕耘了很多年，解決了有些詞打不出來的問題。

大模型也許是顛覆輸入法的一個核心武器。從技術(shù)層面來講，大模型的本質(zhì)是根據(jù)上文預(yù)測下一個詞，那么在輸入法的語境下，它也可以通過各種信號感知用戶的意圖，并判斷預(yù)測輸出內(nèi)容。

當大模型時代來臨，輸入法不再僅僅依賴于從詞庫中調(diào)取內(nèi)容或通過網(wǎng)頁搜索來提供回答。這次輸入法升級，思考的核心是必須從以詞庫為核心的邏輯，升級成以詞庫為基礎(chǔ)+以生成為核心的算法邏輯。前期，我們通過更多的詞庫和信息整合來服務(wù)用戶，滿足詞候選的能力，在未來，輸入法競爭的核心在于誰能更懂用戶，更準確地識別用戶語境和意圖，理解用戶的輸入習慣和風格，幫助用戶做一部分的表達，這就類似于為每個用戶做一個他自己的個人表達智能體。隨著交互時間越長，輸入法對用戶的理解就越深，以至于在某些場合，輸入法能夠結(jié)合上下文幫用戶進行表達。當然，這是對輸入法終局的想象。

問：語言構(gòu)成了人的思維方式，或者看待問題的視角。那隨著我不斷輸入，輸入法是不是就會越像我？

搜狗輸入法團隊：理論上這個邏輯是存在的，無非就是能做到多么極致。包括用戶常說的人名、語氣詞、語言風格等，用得越久，輸入法會不斷積累這些表達，可以非常自然快速地幫助用戶完成輸入。這也是我認為長期使用下，個性化體驗?zāi)軌蛑鸩斤@現(xiàn)并真正產(chǎn)生價值的地方。當然，我們想做成這樣，但目前做得還不夠好。

目前我們還是在務(wù)實地解決用戶具體的問題。也就是在大模型能力的加持下，我們可以解決那些過去的難題。比如在過去以詞庫為核心的產(chǎn)品架構(gòu)下，我們提供的詞庫雖然海量，但對部分用戶而言反而構(gòu)成了一種“打擾”，因為詞庫的體量決定了其無法精準匹配每個人的個性化需求，未來我們有機會在這方面做得更好。

問：我感受到兩種思維在并存，一是以用戶為核心的底色，這是穿越任何時代都不變的底層邏輯；二是AI時代的“AI原生”解法，將二者結(jié)合蠻符合大家所說的思路。團隊在推進AI化的過程中，這種思維方式的碰撞是什么樣的？

搜狗輸入法團隊：在技術(shù)和產(chǎn)品團隊的“PK”中，技術(shù)可能會認為，對于一些用戶反饋的問題，可以等厲害的新技術(shù)、新引擎上線后直接解決，這是一種以技術(shù)為核心驅(qū)動的思考方式。但最后發(fā)現(xiàn)，在服務(wù)上線后，原先那些問題好像不是算法可以解決的，而是在技術(shù)框架之外增加一個新的指標體系才能cover住。

在產(chǎn)品看來，在AI重構(gòu)的過程中，需要考慮的是如何在那么多的用戶需求里排出優(yōu)先級。從分人群的需求滿足度上看，此刻我們還沒有做到那么精細化，這不是一個能一舉兼得的東西，需要考慮優(yōu)先級的抉擇，比如這次就針對醫(yī)生和律師人群做了個性化定制。

問：具體到這次AI重構(gòu)打字上，我理解有兩個方向，一類是讓輸入法更理解語境，另一個方向是改善弱網(wǎng)打字體驗?？梢赃@么理解嗎？

搜狗輸入法團隊：這次升級是相對底層且全方位的。關(guān)于弱網(wǎng)打字這個話題，其實大多數(shù)友商都是以云側(cè)為主，那一旦在飛機上這種沒有云覆蓋的情況下，離線端側(cè)的準確率就是一個不可回避的問題。

離線的限制很多，包括內(nèi)存小、沒有特別復(fù)雜的模型支持，對用戶來講，相當于把詞庫裸著放在那兒。那我們?nèi)绾谓鉀Q弱網(wǎng)時延性的問題？能否把端側(cè)打字的體驗提升到——起碼不讓用戶有這么強的感知？

我們在思考整個用戶痛點和需求的視角下，做出了一個端和云聯(lián)合的生成架構(gòu)去針對性地解決這個問題。這次新的離線端側(cè)模型出來后，弱網(wǎng)場景的缺詞率下降了大概30%，首選準確率可以達到5%的提升，在主場景上，可以說端側(cè)和云側(cè)的差距已經(jīng)變得很小了。

AI語音輸入，“聽懂”的前提是“聽準”

問：我關(guān)注到一組相關(guān)數(shù)據(jù)，當前搜狗輸入法語音大概日均有20億次的請求量。基于這樣的用戶需求，之前團隊有過怎樣的洞察？大概是什么時候開始決定投入做AI語音的？

搜狗輸入法團隊：大模型爆發(fā)給這個行業(yè)帶來了很多想象力。而語音識別很大程度上是種模型驅(qū)動能力，它在技術(shù)主賽道上的PK會更加直接，因為語音識別并不只服務(wù)于輸入法場景，還廣泛應(yīng)用于機器人、云廠商等多個領(lǐng)域，幾乎所有相關(guān)玩家都在布局。

整體來看，語音識別大致經(jīng)歷了三個技術(shù)階段：最早是以統(tǒng)計學方法為主的階段，核心模型是混合高斯模型，這一技術(shù)路徑從上世紀80年代中期一直延續(xù)到2007年左右。隨后隨著深度學習興起，語音識別開始進入新一輪演進，國內(nèi)稍晚，大約從2011年開始逐步在各類場景中落地應(yīng)用。

大概在2011年左右，搜狗輸入法就已經(jīng)在手機端推出了語音輸入功能，當時才剛進入移動互聯(lián)網(wǎng)時代，團隊非常早就捕捉到在手機端打字可能不是那么方便的問題，語音輸入會是一個用戶需求點。只不過當時采用的還是傳統(tǒng)語音識別技術(shù)。后來語音識別技術(shù)不斷迭代，到了2013年，搜狗輸入法就在做深度學習了，這是國內(nèi)比較早的一批。再往后演進到transformer模型，我們一直是以最快的速度緊跟最前沿的技術(shù)，把最好的體驗給到用戶。

姚順雨在關(guān)于“AI下半場”的文章中講到他對強化學習的未來展望，將大模型能力融入產(chǎn)品對所有技術(shù)團隊來說都是挑戰(zhàn)。對語音技術(shù)團隊而言，核心命題在于如何利用大模型本身或其訓(xùn)練思路（如強化學習）來提升現(xiàn)有模型能力。

問：在大語言模型深度介入之后，自動語音識別技術(shù)本身會被重塑嗎，還是更多是一種能力層面的增強？它所解決的本質(zhì)問題是什么？只是“聽得更準”，還是正在從“聽見”走向“聽懂”？

搜狗輸入法團隊：整體來看，如果仍然把討論限定在自動語音識別這個層面，大模型的介入更多是一種能力增強，而不是完全意義上的重塑，本質(zhì)上是在推動語音從“聽見”走向“聽懂”。

語音識別一個非常核心的挑戰(zhàn)在于語義層面的模糊性。用戶的發(fā)音可能不標準，或者本身就存在大量同音詞、近音詞的情況，它并不是一一對應(yīng)地記錄，而往往是從多個可能結(jié)果中選擇一個最合適的輸出。最終呈現(xiàn)哪個字、哪種表達，很大程度上依賴于當下的使用場景和語境。大語言模型在上下文理解、語義建模以及預(yù)測、補全和糾錯方面具備更強能力，因此可以讓整體識別結(jié)果在語義層面更加合理，輸出更接近用戶真正想表達的內(nèi)容。

另外，語音輸入在交互層面也存在天然挑戰(zhàn)。它通常只有一次性輸出，不像鍵盤那樣可以給出多個候選供用戶選擇，而是直接將一句話上屏，這對準確率和語義判斷提出了更高要求。基于這些，其實在大模型能力加入后，我們第一要解決的是準確率的問題，讓識別結(jié)果在語義上更順暢、更符合語境，也更貼近用戶原本想說的話。

問：這次重新升級AI語音上，你們覺得還有什么難點嗎？

搜狗輸入法團隊：一個難點在于方向選擇。我們更希望聚焦具體場景，而不是做一個特別泛化、完全開放的語音能力升級，因為不同場景對語音識別的要求其實差異很大。

比如“輕聲”這個非常高頻的使用場景，我們觀察到，用戶更傾向于用非常輕的方式對著手機說話，這背后是非常真實的用戶心理和使用需求，在當前的社會環(huán)境中，很多人會擔心打擾他人，甚至在工位或公共場合大聲說話本身就會帶來壓力，這也是語音輸入被一部分人放棄的重要原因。

那在技術(shù)實現(xiàn)上，語音本質(zhì)是由頻率構(gòu)成的，輕聲并不是沒有信息，而是在基頻和響度都非常低的情況下，仍然存在可識別的頻率變化。這類聲音往往只能在很小范圍內(nèi)傳播，幾米之外幾乎就聽不到，有時連自己都未必聽得清。

模型訓(xùn)練的關(guān)鍵不在規(guī)模

而在于是否緊貼用戶

問：我覺得在輸入法這樣一個垂直領(lǐng)域可能有兩個事情很關(guān)鍵，第一是技術(shù)能做什么，技術(shù)的邊界和想象力；第二是對所謂用戶需求的理解，這也是很重要的。在過去一年，對打字來說，團隊怎么去做這二者的交匯？

搜狗輸入法團隊：相比起語音，打字不在技術(shù)的“主賽道”。我們在生成式探索中并沒有直接依賴一個外部通用的大模型，因為我們對用戶的理解、沉淀的數(shù)據(jù)是無法開放到外部大模型的。我們需要迅速把這些沉淀融入全鏈路的訓(xùn)練體系里，包括基礎(chǔ)的預(yù)訓(xùn)練、后訓(xùn)練、強化學習、SFT（Supervised Fine-Tuning，即大模型的監(jiān)督微調(diào)）等，基于我們的數(shù)據(jù)不斷強化，通過擴展數(shù)據(jù)的知識邊界來提升我們的模型能力。

目前，我們是基于自研模型訓(xùn)練。但往前走，總有一天我們要實現(xiàn)“行業(yè)合流”，把行業(yè)的訓(xùn)練方式融入自身訓(xùn)練體系，否則單靠團隊力量難以對抗整個行業(yè)技術(shù)的發(fā)展。

另外，打字與語音場景存在差異：語音更多是單次輸出并可通過后鏈路輔助表達，而打字的觸點非常多——每次按鍵都有一個反饋，用戶可能在短時間內(nèi)進行各種按鍵操作，他不僅在意“準不準”，還要看“快不快”。對于打字來說，時延性是需要重點考慮的事情。

那在云和端上要做多大模型？會不會造成卡頓？會不會耗電？這都必須去考慮。我們（打字）是在夾縫中不斷尋求自己位置的存在。

我們提到強化學習很重要，那打字的觸點和需求這么多，我們要怎么去建模？這里，reward model（獎勵模型）的設(shè)計非常關(guān)鍵，這不是一個“講規(guī)?！钡倪壿嫞且催@個reward model是不是跟用戶貼得足夠緊密，要確保模型和用戶體驗高度對齊，這樣才能在強化學習模式下輔助我們的模型走得更快。也許一個規(guī)模小、但貼近用戶需求的模型，比規(guī)模大、但遠離用戶的模型更占優(yōu)勢。

問：人們越來越適應(yīng)語音成為一種很主要的交互方式，會給輸入法這個產(chǎn)品帶來什么不一樣的理解嗎？未來鍵盤會消失嗎？

搜狗輸入法團隊：這是一件值得期待的事情，回看小靈通時代，很難想象手機有一天會發(fā)展到完全沒有實體鍵盤的形態(tài)。所以當今天討論是否有一天輸入法可以不再依賴鍵盤，而是以語音交互為主時，確實讓人展開想象空間。

當然存在一些垂直人群，他們主要在用語音，不太需要鍵盤。比如在一些游戲場景中，實際上之前搜狗輸入法推出過一種游戲鍵盤，它就有一個大的語音輸入按鍵，這樣的交互形態(tài)對于特定群體就蠻清晰、干凈的。

但當產(chǎn)品面向所有用戶時，就會發(fā)現(xiàn)不同人群在輸入方式和表達習慣上的差異非常大。有些用戶以語音為主，但也有大量用戶因為工作需要或個人習慣，并不希望語音占據(jù)主導(dǎo)，讓鍵盤消失。

在這種意義上，“鍵盤的消失”或許并不是一個統(tǒng)一答案，而是一種可選的定制模式，對于那種只想用語音的用戶，他可以擁有完全屬于自己的形態(tài)。輸入法的演進一定是順勢而為的，它不會教育用戶應(yīng)該怎么輸入，也不是把某種新潮理念強推給用戶，而是順著真實的使用習慣自然生長。

問：我最近有一次很直接的體驗，前一天晚上用語音輸入法寫提綱，我就嘗試一邊說一邊寫，但真正用下來會發(fā)現(xiàn)，寫到一定程度后還是會講不下去。當我回到打字狀態(tài)時，其實是一個自己跟自己交流的過程，我每打一個字，都會在大腦中形成一次信息輸入和緩存，從而不斷推動思路向前。我感覺打字本身還是有它的魅力的，這是一個更加復(fù)雜的思維過程。

搜狗輸入法團隊：這里面其實存在一個很大的差異：語音更多是一個直接輸出的過程，需要用戶在發(fā)送前再做一定加工；而打字本身包含了一個在腦中加工信息的過程。進一步說，打字和語音本質(zhì)上對應(yīng)了不同的腦與身體的配合模式——語音是腦與嘴的配合，打字是腦與手的配合。

另一方面，打字通常是一個邊想邊修改的過程，輸入法如果能理解用戶的每一次光標移動、退格和修改意圖，就能預(yù)測和優(yōu)化輸出結(jié)果，例如用戶輸入“結(jié)婚”時實際想表達的是“結(jié)果”，在退格的過程中系統(tǒng)就可能預(yù)測到用戶選錯了，這需要基于整體語境去判斷意圖。

問：AI能夠幫忙糾錯和聯(lián)想，有些人覺得AI會過度理解、自作聰明，如果聯(lián)想過于豐富，用戶可能反而難以接受。這個度需要怎么去把握？

搜狗輸入法團隊：從技術(shù)原理上看，打字的拼音輸入和聯(lián)想存在一個很大的區(qū)別，那就是概率。假如打字的首選命中率達到80%左右，那絕大概率展現(xiàn)給用戶的候選對他們來講是合理的；但聯(lián)想天然的技術(shù)瓶頸在于，它遵循的是一個普適的概率邏輯，概率分布呈現(xiàn)為平緩的曲線，它可能出現(xiàn)一萬個候選，每個候選都分了一點點的概率，那在這種情況下，它必定很難滿足所有用戶。而未來的聯(lián)想，一定是把它的基礎(chǔ)條件概率增高，也就是得在更多信息的基礎(chǔ)上了解用戶、場景和上下文。

要想讓聯(lián)想達到輸入效率這條路徑上的質(zhì)變點，那它一定要達到極高的準確率，盡管豐富性也很重要。但如果不準確的話，它就喪失了這個功能的天然定位。其實我們也看到，如果所有的輸入都要靠聯(lián)想預(yù)測幫你完成，那時間效率可能是更慢的。

這背后其實是一個關(guān)于個性化的問題。當我們接觸打字的邏輯時，會發(fā)現(xiàn)至少打字不是一個可以被激進個性化的工具，它不像內(nèi)容推薦：當你在短視頻平臺搜一個美食教程時，你對內(nèi)容推薦是可以沒有預(yù)期的；但打字的時候，你對要打什么字會有非常明確的預(yù)期，那只有在技術(shù)更有把握的情況下，才能做得更準，否則強調(diào)輸出內(nèi)容的豐富性對打字用戶來說是沒有意義的。

在這一點上，產(chǎn)品在大模型時代是比較有預(yù)期的。過去以詞庫為核心構(gòu)建輸入法時，很難做到個性化，因為詞庫本身是統(tǒng)一的公共詞庫。這就意味著，當用戶輸入一個自己從未輸入過的拼音時，大概率看到的是一組高度相似的候選結(jié)果，最多只是疊加一些場景上的不同。我們期待在大模型能力的加持下，輸入法至少能夠在個性化這條路徑上往前走幾步。

誰能用大模型定義泛化的供需關(guān)系

誰就掌握了輸入法的未來

問：當前業(yè)界對于“原生AI”與“產(chǎn)品AI化”存在一些固有印象。一種觀點認為，像OpenAI這樣的原生AI公司終將占據(jù)主導(dǎo)，他們認為一切要圍繞革命性技術(shù)來構(gòu)建，傳統(tǒng)產(chǎn)品缺乏想象力，只能在原有架構(gòu)上疊加AI功能。另一種觀點則認為，擁有成熟產(chǎn)品的公司更具優(yōu)勢，只有回到用戶、回到場景，才能讓AI改造更直接、更高效地觸達用戶。對于輸入法而言，徹底的重構(gòu)還是功能的疊加，是一個重大抉擇。當時內(nèi)部經(jīng)歷了怎樣的討論？

搜狗輸入法團隊：問題的本質(zhì)不在于我們要選擇疊加還是重構(gòu)，這不是站在“工具擁有者”的角度去自我定義，而是回歸用戶需求的本質(zhì)，選擇最契合的解決方案。以此次推出的AI翻譯為例，它直接調(diào)用了公司內(nèi)部成熟的大模型能力，我們可以認為這是一種疊加邏輯。

但落在打字業(yè)務(wù)上，我們?nèi)绾伟炎陨?0年的沉淀和模型能力結(jié)合起來，為用戶提供更好的打字體驗，從這點出發(fā)它必然是用AI重構(gòu)的邏輯，而不是一個AI疊加的邏輯。這是因為，單純搬運或者疊加（模型）是解決不了輸入這件事情的難題的。

反過來說，即便OpenAI擁有領(lǐng)先的技術(shù)，它也未必就能做好一個輸入法。這是因為用戶需求多元，場景也很復(fù)雜，想通過完全AI原生的模式來做輸入法難度非常大。就算我們做了很多AI重構(gòu)，也很難說純AI零基思維出發(fā)能做到這件事。對輸入法來說，積累是非常重要的。

在打字這件事上，從上文預(yù)測下文的這種模式，其實并不是大模型來了之后大家才意識到的。之前國內(nèi)外做神經(jīng)網(wǎng)絡(luò)和語言模型的團隊也一直在推進研發(fā)，但實際上他們都沒有做起來。那為什么沒有做起來呢？我覺得是現(xiàn)在的技術(shù)沒有達到臨界點——足以讓業(yè)務(wù)的沉淀、用戶的需求在強大的技術(shù)能力上“不堪一擊”。

現(xiàn)在受到大模型時代的沖擊，輸入法的框架思考邏輯可能會有一些變化，但也不是說就能夠拋棄原來的詞庫檢索邏輯。除非未來出現(xiàn)這樣的技術(shù)拐點，即一個大模型輸入法可以短時間內(nèi)把我們20年累積的經(jīng)驗像核彈一樣瞬間秒掉，但到那個時代的話，被瞬秒的業(yè)務(wù)應(yīng)該就不只是打字，而應(yīng)該是各行各業(yè)都會被顛覆。

問：目前來看，這一重構(gòu)的工程量和挑戰(zhàn)都極為艱巨，那么團隊現(xiàn)在究竟處于這一進程的哪個階段？

搜狗輸入法團隊：我覺得我們大概還處在長征路上大約剛走到貴州的階段。是否已完成徹底重構(gòu)？其實沒有，我們距離精準建模還有差距。

另一個點在于，這不是一款新產(chǎn)品，用戶存在使用慣性。對于打字這個高頻使用場景，我們無法一夜之間徹底改變——不能自詡提供了更好的模式便強制推行，因為用戶未必買賬。

問：能舉個例子嗎？就是這個技術(shù)能夠做到，但最后考慮用戶可能覺得太超前而克制住的某個功能。

搜狗輸入法團隊：這種情況在打字場景中非常多。比如，輸入法可以按全拼或者混輸去理解，用戶按全拼輸入一個“晚上”的“wan”，系統(tǒng)也可以按混輸識別出“我愛你”。那要不要把“我愛你”提示給用戶？這究竟是驚喜，還是驚嚇？在這里，我們需要考慮用戶預(yù)期是什么？從模型的概率統(tǒng)計上來講，它可能會是怎樣的結(jié)果？

對每個個體來講，他其實一定程度上是在對抗統(tǒng)計學的。就像通用語音識別模型給出的“ta”都是男的“他”，那女的“她”誰來保障？如果把男的“他”做得不可撼動，用戶怎么都改不回來，那這種邏輯的技術(shù)增強對用戶是有損害的。我們對于預(yù)測這種能力，其實在這次AI升級上是非?？酥频摹?/p>

問：你會發(fā)現(xiàn)那些原生AI產(chǎn)品為什么那么大膽，可能也是因為用戶太少了，所以可以用很高的模型配置，反正也花不了多少錢。但對于我們這樣擁有龐大用戶體量的產(chǎn)品來說，面對這么大的難題，我們有什么解法？

搜狗輸入法團隊：確實，因為用戶體量可能相差數(shù)百倍，從AI的角度看，成本同樣會放大到數(shù)百倍。對我們來說，在面對很多看起來很fashion的新技術(shù)方案時，保持克制反而尤為重要，要在工程優(yōu)化的前提下保證我們的成本是可以長期cover住的。那對一個擁有6億用戶的產(chǎn)品來說，上線一項能力，意味著要做好持續(xù)服務(wù)的準備——一年、兩年，甚至十年、二十年，而不是先試一試，不行再撤。這本身也是對用戶的尊重。

對于大模型的到來，團隊也曾有一些發(fā)散性的想象：既然輸入法擁有強大的入口價值，是否可以幫用戶打車、點外賣，甚至把大模型能力在各類場景中全面聯(lián)動？這些想法很有創(chuàng)意，但冷靜下來后，我們給自己制定了兩條核心產(chǎn)品原則，明確至少在當下這個階段，我們應(yīng)該做什么、不做什么。

第一，我們不可以為了做AI而做AI，不要為了展示我有AI能力，就急于包裝和推出一些功能或產(chǎn)品，這是我們堅決避免的。第二，專注于輸入法的本職工作，用戶選擇你的產(chǎn)品，是希望在輸入法范疇內(nèi)獲得價值，而不是在廣泛、無邊界的功能堆砌中尋找體驗。

問：這一次的新版本被我們定義為全面AI化的起點。如果從更長遠的視角來暢想，在未來三到五年內(nèi)，你們認為輸入法的整體形態(tài)可能會發(fā)生哪些關(guān)鍵變化？

搜狗輸入法團隊：當下用戶對輸入法的感知并不是那么強烈，是相對隱形的存在，他可能清楚自己在刷短視頻、點外賣、用某個App，但并不會意識到我正在使用某一個輸入法。但從未來的角度看，輸入法作為一種工具的價值和屬性，會被持續(xù)放大。

比如這次我們面向醫(yī)生、律師等專業(yè)人群，打通專業(yè)數(shù)據(jù)庫所提供的能力，本質(zhì)上是圍繞用戶場景展開的，借助輸入法這個工具拉通各個垂類應(yīng)用，讓用戶在需要某類內(nèi)容時能夠直接完成內(nèi)容級的調(diào)用，而不必頻繁切換應(yīng)用、反復(fù)查找。

類似的探索也在入口層持續(xù)推進，比如我們最近在內(nèi)部進行的一些測試，通過整合公司級內(nèi)網(wǎng)入口，讓用戶可以自定義自己的輸入鍵盤，把常用鏈接和入口統(tǒng)一收斂到輸入法中。這樣一來，無論用戶身處哪個應(yīng)用、什么場景，都可以一鍵調(diào)起所需內(nèi)容。

我們可以預(yù)期，會出現(xiàn)大量面向高度垂直場景的智能體用來解決日常生活的具體問題，但這些智能體無論能力多強，最終都需要一個被用戶高頻觸達、自然調(diào)起的承載入口。如果用戶需要在不同應(yīng)用之間反復(fù)切換，去逐個打開和調(diào)用這些智能體，這個過程本身就會變得非常繁瑣。這也是為什么越來越多公司入局這一賽道。

問：雖然很多人入局搶奪入口，但從歷史發(fā)展來看，入口往往不是搶奪來的，而是自己長出來的，取決于用戶是不是需要你，你們怎么看這個問題？

搜狗輸入法團隊：一直以來，我們不會強調(diào)要去“做一個入口”?；乜椿ヂ?lián)網(wǎng)這么多年，很少有宣稱要做入口的產(chǎn)品最終是做成的，更多的情況是，把產(chǎn)品的能力和體驗做好，用戶愿意留在這里，到一定程度它自然變成一個入口。

最終回到我們?nèi)绾味x輸入法的供需關(guān)系，需求是一個直接的需求，還是一個泛化的需求？未來，輸入法泛化的需求空間是更大的，這是我們的入口邏輯。這個供需的底層邏輯是更好地理解用戶場景和意圖，通過更自由地調(diào)用大模型，我們能先人一步地捕捉并滿足用戶個性化的意圖，強化這一供需關(guān)系。這是未來大模型和輸入法結(jié)合所帶來的機會。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.