国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ChatGPT的背后:信息繭房,內(nèi)容剽竊,貧瘠的中文互聯(lián)網(wǎng)

0
分享至

ChatGPT火爆全網(wǎng)后,一時吹捧者如過江之鯽,引起社會廣泛熱議。許多人稱,它將要取代多少行業(yè),程序員要下崗,也有人思考為什么不是在中國誕生云云。當然,在這其中也有少數(shù)人潑冷水和質(zhì)疑的,比如美國一位語言學家最近就稱ChatGPT的本質(zhì)是剽竊。

我其實也屬于一個質(zhì)疑派。在前文《體驗一把ChatGPT:一本正經(jīng)胡說八道,在中國前途難測》中,我認可了ChatGPT作為一款語言模型的顯著優(yōu)點:它對用戶輸入信息的理解能力和對輸出信息的語言表達能力的確嘆為觀止。但同時,我也通過親自評測指出了ChatGPT的多個問題。比如喜歡一本正經(jīng)地胡說八道。如果說主觀題還可以說東拼西湊問題不大,那么關(guān)于客觀事實的問題,它喜歡東拼西湊反復強答而不是告訴你不知道,那么就屬于嚴重誤導用戶和顯著缺陷了。關(guān)于寫作和編程相關(guān)的能力,經(jīng)測試確實有亮眼的表現(xiàn),但說要替代一大批人恐怕還為時尚早,替代一個行業(yè)更是無從說起。如果說成為這些行業(yè)提高效率的生產(chǎn)力工具,也許才是更合理的評價。

今天我們將要探討另外一個問題,那就是:ChatGPT到底能否替代搜索引擎,以及它如果真的替代了搜索引擎,到底是進步還是退步?

前文發(fā)出后有一些讀者評論說,ChatGPT要使用英語聊天才有好的表現(xiàn),中文聊天出現(xiàn)的種種問題只是因為訓練樣本不足,它還有巨大的進步空間,千萬不能輕率地下結(jié)論。但我們知道,ChatGPT能有大量的英文資料進行訓練,其中一個原因,就是英文互聯(lián)網(wǎng)的信息本來就遠超中文互聯(lián)網(wǎng)。根據(jù)維基百科的信息顯示,截至2020年3月25日,W3Techs 預測前一百萬互聯(lián)網(wǎng)網(wǎng)站使用的語言文字百分比中,英語占比59.3%,而中文不過1.3%。

當然,這個統(tǒng)計可能只建議用來參考。以中國的互聯(lián)網(wǎng)人口和互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)達程度而言,除了英語外,我覺得其他語種的信息量恐怕不太可能超過中文。但另一方面,中文互聯(lián)網(wǎng)網(wǎng)站一年比一年少是一個事實。根據(jù)之前的一些新聞顯示,截至2021年12月,我國網(wǎng)站數(shù)量為418萬個,較2020年12月減少25萬個,同比下降5.5%。當年風光一時的天涯論壇現(xiàn)在已經(jīng)要死不活,貓撲社區(qū)更是已經(jīng)關(guān)門倒閉。就在前些天,知名論壇國學數(shù)典的一位管理人員已經(jīng)正式宣布該論壇“終于結(jié)束”了。

隨著個人網(wǎng)站和論壇的持續(xù)沒落,百度作為中國搜索引擎的龍頭,現(xiàn)在已經(jīng)越來越爬取不到有質(zhì)量的網(wǎng)頁信息。而且,像B站這類可供百度爬取的平臺大部分內(nèi)容還是視頻,知乎已經(jīng)是百度搜索少有的優(yōu)質(zhì)信息來源。微博雖然也是允許百度爬取的大平臺之一,但微博顯然更偏向娛樂,而不是知識社區(qū)。百度自家的百度百科、百度知道、百度貼吧等,曾經(jīng)也是中文互聯(lián)網(wǎng)的標桿產(chǎn)品,現(xiàn)在已經(jīng)被百度運營到半死不活。

中文互聯(lián)網(wǎng)的信息不僅遠遠少于英文互聯(lián)網(wǎng),而且還封閉在無數(shù)封閉的APP和幾個互相封閉對立的大平臺里,比如公眾號、頭條號、抖音號、百家號、網(wǎng)易號等。如果信息少和封閉也就罷了,信息質(zhì)量也是一言難盡。百度、阿里、騰訊、頭條這三大巨頭都直接或者間接屏蔽了各自爬蟲,只有B站、知乎、微博等體量較小平臺允許其它搜索引擎相對自由的爬取,這進一步導致各家的搜索引擎都爬取不到有用的信息。與之相對的,國外的推特、臉書、youtube、reddit等平臺,都是允許谷歌和必應(yīng)等搜索引擎自由爬取的。

中文互聯(lián)網(wǎng)不僅僅封閉和質(zhì)量差,完全開放免費的信息更是少之又少。如果你詢問ChatGPT的回答參考了什么資料,它會這樣告訴你:“我的訓練數(shù)據(jù)來自互聯(lián)網(wǎng)上的大量文本,包括新聞、博客、圖書等。通過處理這些文本,我學會了語言知識和回答問題的能力。因此,我的回答來自于我的訓練數(shù)據(jù),而不是從某個特定的資料庫中獲得的信息!钡绻闩俑鶈柕,一定要它給出參考鏈接,ChatGPT常會返回維基百科的鏈接。

也就是說,英文互聯(lián)網(wǎng)不僅僅相互開放的程度高,還有維基百科這樣完全自由免費的信息平臺。這是導致許多應(yīng)用優(yōu)先誕生在美國的原因之一。如果你看了ChatGPT的相關(guān)評論就應(yīng)該知道,一些業(yè)內(nèi)人士認為ChatGPT的技術(shù)含量不見得特別高,各種跟風產(chǎn)品也很快就如一群嗅覺靈敏前來撲食的餓狗一般不斷冒了出來。它能做到這樣的職能,很大程度上要歸功于它優(yōu)質(zhì)而龐大的訓練樣本。ChatGPT的訓練樣本其實也依靠大量的人工標注,對于中國人而言,廉價的人力資源下人工標注不成問題,但關(guān)鍵是,中文互聯(lián)網(wǎng)上沒有足夠的開放信息資源。

就好之前我在《谷歌地球與文化輸出》和《地圖開發(fā)者:我以為是一個詐騙電話,原來真要我給五萬元》這兩篇文章中,已經(jīng)說明了完全免費開放的OpenStreetMap對于地理應(yīng)用創(chuàng)新的重要性,這讓MapBox這樣的企業(yè)在初創(chuàng)階段就不用面對昂貴的全球地理信息數(shù)據(jù)授權(quán)問題。而對于ChatGPT的創(chuàng)業(yè)團隊而言,因為有維基百科的存在,他們也不用在初創(chuàng)階段就考慮天價資料庫授權(quán)的問題,這就非常有利于小公司的創(chuàng)新。在之前的更多的文章中,我們也說過,國外大學圖書館、博物館網(wǎng)站有大量完全免費開放的信息資源,是促進相關(guān)研究快速發(fā)展的重要基礎(chǔ)。

因此我可以預判,雖然理論上ChatGPT可以通過增加中文樣本的訓練提高中文回答的質(zhì)量,但現(xiàn)實的問題是,它找不到足夠的中文信息開放資源。也注定了國內(nèi)的巨頭只會關(guān)起門來搞各自的ChatGPT山寨版,不可能把內(nèi)容給它做嫁衣。而各個ChatGPT山寨版也不過是關(guān)門自嗨:沒有足夠優(yōu)質(zhì)和豐富訓練樣本,這群撲上去的餓狗只不過是一群賣萌的哈士奇,F(xiàn)在國內(nèi)熱炒ChatGPT,我認為很大一個原因,就是互聯(lián)網(wǎng)產(chǎn)業(yè)面對發(fā)展停滯的困境,他們急需營造下一個風口。只有這樣,才能吸引更多投資,業(yè)內(nèi)的投機者才能以此發(fā)家致富。這和之前瘋狂炒作元宇宙、Web3.0等概念其實沒什么不同。

然而,我們今天的批判不僅僅如此。我要指出的問題,不僅僅在于中國互聯(lián)網(wǎng)的封閉,而在于ChatGPT如果真的替代了搜索引擎,其實更是一場全球互聯(lián)網(wǎng)的災難。

我們應(yīng)該知道,ChatGPT的并沒有真正的原創(chuàng)能力,它給出的回答,是基于大量網(wǎng)絡(luò)資料綜合判斷后,雜糅在一起的重新表達,這導致它的回答其實給不出明確的來源。根據(jù)一些用戶的反饋,即便它給出的引用論文來源,也可能是它瞎編不存在的。實際上,如果ChatGPT完全代替了傳統(tǒng)的搜索引擎,這不是進步,而是退步和災難。因為他把網(wǎng)絡(luò)上無數(shù)人貢獻的信息據(jù)為己有了。傳統(tǒng)的搜索只是個賺廣告費的中間商,你在搜索引擎搜索資料,最終是要跳轉(zhuǎn)到原網(wǎng)站,讓內(nèi)容平臺獲取流量與用戶的同時也能賺到廣告費。而內(nèi)容平臺其實也是一個中間商,它給了作者露臉的機會,可以賺到知名度、粉絲和收益。

我在和ChatGPT聊天的過程中發(fā)現(xiàn),它固然可以說是無所不知,但它卻不會告訴你它是如何實現(xiàn)無所不知的,你再也看不到來源鏈接了,只是感嘆它的神奇。長此以往,恐怕我們也懶得去搜索引擎對比信息和訪問真正的內(nèi)容平臺了。

最近不少程序員都在說,ChatGPT真的很便捷。它能自動寫代碼,能夠自動查問題和解決問題。可它的這一切,很大程度上是因為參考了StackOverflow等程序員社區(qū)的網(wǎng)絡(luò)資料而已。如果大家都沉迷于此,不再去訪問StackOverflow給平臺帶去收入,不給熱心的答主點贊互動,那么誰還愿意去程序員社區(qū)排疑解難呢?誰還愿意寫技術(shù)博客呢?這不過就成了一場竭澤而漁的大剽竊罷了。如果他不解決這個生態(tài)問題,那么ChatGPT必然不會有好下場。據(jù)稱ChatGPT火爆后,StackOverflow正被程序員拋棄,訪問量一個月驟降了3200W,這不是殺雞取卵又是什么呢?美國語言學家諾姆·喬姆斯基也認為,ChatGPT是一個高科技剽竊系統(tǒng),它從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并依照規(guī)則將數(shù)據(jù)串連在一起,形成像人寫的文章和內(nèi)容。也就是說,它沒有真正的原創(chuàng)能力,而只是靠剽竊給論文系統(tǒng)灌水。如果灌水的人可以靠此拼論文數(shù)量上位,這不就是劣幣驅(qū)逐良幣,最后你一搜索論文庫大部分都是垃圾了嗎?

當然,我們也不用過度擔心這些危害。因為說ChatGPT完全替代搜索引擎還為時尚早。微軟和ChatGPT的合作,也是將ChatGPT作為必應(yīng)搜索引擎和Office辦公產(chǎn)品的一種補充而不是替代。在我看來,ChatGPT作為搜索引擎的補充是進步的,也是必然的,因為我們確實會常用提問的方式在搜索引擎中搜索答案,Siri等手機智能助手也為我們的日常生活提供了不少方便。

ChatGPT要替代搜索引擎其實還有一個致命的缺點,那就是它對時事新聞的反應(yīng)能力幾乎沒有。如果你讓ChatGPT告訴你最近的新聞,它會這樣回答你:“很抱歉,作為一個預訓練模型,我并不知道當前具體的新聞情況。建議您查閱現(xiàn)實世界的新聞來源,如新聞網(wǎng)站或電視新聞頻道等。”

如果你再具體詢問一些這兩年發(fā)生的事情,就知道它確實不知道,而且還會明確告訴你,它的知識截止在2021年。這大概是因為ChatGPT作為一個預訓練模型,需要龐大的訓練數(shù)據(jù)和大量的人工標注,這導致它的訓練成本異常高昂且非常耗時。

據(jù)網(wǎng)絡(luò)資料顯示,ChatGPT的模型經(jīng)歷三次迭代,參數(shù)量從1.17 億增至1750 億,預訓練數(shù)據(jù)量從5GB 增至45TB,其中光GPT-3訓練單次成本已達460 萬美元,而現(xiàn)在它已經(jīng)迭代到了GPT-4,恐怕單次訓練成本就將超過千萬美元。訓練ChatGPT需要使用大量算力資源。據(jù)微軟官網(wǎng)信息顯示,微軟Azure為OpenAI開發(fā)的超級計算機是一個單一系統(tǒng),具有超過28.5萬個CPU核心、1萬個GPU和400 GB/s的GPU服務(wù)器網(wǎng)絡(luò)傳輸帶寬。據(jù)英偉達信息顯示,使用單個Tesla架構(gòu)的V100 GPU對1746億參數(shù)的GPT-3模型進行一次訓練,需要用288年時間。因此,即便1萬個最先進的GPU以及之前的GPT-3模型不分晝夜地全速訓練,其單次訓練也需要十多天才能完成。目前ChatGPT的知識已經(jīng)落后了現(xiàn)實一年以上,這對于替代搜索引擎而言,可以說是一個致命的缺陷,但如果只是作為搜索引擎的補充的話,那么問題就小了很多。

不過問題還沒有結(jié)束。我們在前文末尾已經(jīng)說過另外一個問題:人們真的愿意使用搜索引擎嗎?當新鮮勁過后,人們還會熱衷于和ChatGPT聊天嗎?曾幾何時,我們在網(wǎng)絡(luò)上更多是用電腦查找資料,需要自己去主動搜索信息,然后一個一個比對不同人、不同平臺的說法。搜索引擎避免我們?nèi)ゾW(wǎng)站單獨查找信息是個巨大的進步,也因此,在一段時期內(nèi),搜索引擎扮演著流量分配者的角色。谷歌這一角色扮演的較好,因為它相對公正,在利益和體驗之間取得了較好的平衡。總是充斥著大量低質(zhì)廣告的百度則受到了強烈抨擊。

但到了移動互聯(lián)網(wǎng)下的APP時代,推薦引擎已經(jīng)主導了流量分配,許多人其實已經(jīng)放棄了通用搜索引擎,最多也就通過APP的內(nèi)部搜索搜一下而已。依靠不停刷新手機APP從熱榜、推薦、關(guān)注列表中獲取文字信息,從不停上上翻刷小視頻,這種躺在床上就把自己喜歡的美味喂到嘴邊的方式固然很符合喜歡懶惰這一人性,但也導致了越來越嚴重的信息繭房,越來越明顯的群體對立和兩級分化。因此,便捷固然能帶來好處,但也會讓我們失去很多。比如推薦系統(tǒng)帶來的信息繭房,比如短視頻看多了就不喜歡看長視頻,更難以沉下心去閱讀厚重的書籍。

古人云,兼聽則明,偏信則暗,但兼聽不同的說法其實是一個繁瑣的過程,經(jīng)常看對立的觀點,更容易讓人上火和厭煩。ChatGPT一問就有答案固然是好,但這種完全拋棄搜索列表對比的方式,不是一種更嚴重的信息繭房嗎?搜索引擎為我們提供更多信息參考來源是好事,但替我們省略搜集整理這一過程直接有問必答其實是一件壞事。這也是一些人很快意識到,ChatGPT如果流行后可以用于輿論戰(zhàn)和控制意識形態(tài)的原因。這絕對不是危言聳聽,而是思想懶惰后的必然。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
97年我跑長途捎了一位尼姑,尼姑下車時送我三句話,三年后全應(yīng)驗

97年我跑長途捎了一位尼姑,尼姑下車時送我三句話,三年后全應(yīng)驗

千秋文化
2026-04-29 19:09:51
No!東契奇次輪報銷!湖人徹底天塌了

No!東契奇次輪報銷!湖人徹底天塌了

籃球?qū)崙?zhàn)寶典
2026-04-29 18:51:29
13-11進4強!名將創(chuàng)3紀錄沖大滿貫,巫師7-9,蘿卜重蹈火箭覆轍?

13-11進4強!名將創(chuàng)3紀錄沖大滿貫,巫師7-9,蘿卜重蹈火箭覆轍?

劉姚堯的文字城堡
2026-04-29 20:53:58
性愛后愧疚感:6個被忽視的心理觸發(fā)點

性愛后愧疚感:6個被忽視的心理觸發(fā)點

心事寄山海
2026-04-29 00:44:32
蔣萬安發(fā)出強硬警告,"中國臺灣省"走向國際,10國選擇明智應(yīng)對

蔣萬安發(fā)出強硬警告,"中國臺灣。⒆呦驀H,10國選擇明智應(yīng)對

混沌錄
2026-04-29 20:17:16
無緣半決賽!趙心童:打破克魯斯堡魔咒確實挺難 世錦賽要求更高

無緣半決賽!趙心童:打破克魯斯堡魔咒確實挺難 世錦賽要求更高

硯底沉香
2026-04-30 02:14:02
解放軍兩支艦隊同時行動,信息量很大!

解放軍兩支艦隊同時行動,信息量很大!

補壹刀
2026-04-29 10:33:01
萬科暗倉分贓錄:揭王石和郁亮是如何玩弄百億掏空術(shù)的

萬科暗倉分贓錄:揭王石和郁亮是如何玩弄百億掏空術(shù)的

六子吃涼粉
2026-04-29 11:28:00
江蘇一社區(qū)慰問的“困難老人”住大房子、家里擺五糧液引質(zhì)疑,社區(qū)回應(yīng):確實不困難,是為給高齡老人過生日

江蘇一社區(qū)慰問的“困難老人”住大房子、家里擺五糧液引質(zhì)疑,社區(qū)回應(yīng):確實不困難,是為給高齡老人過生日

大象新聞
2026-04-29 14:48:05
10-13,趙心童出局原因曝光!10-6,吳宜澤或再創(chuàng)歷史,晉級在望

10-13,趙心童出局原因曝光!10-6,吳宜澤或再創(chuàng)歷史,晉級在望

大秦壁虎白話體育
2026-04-30 00:46:01
湖南某醫(yī)院職工舉報院長兒子“吃空餉”涉百萬獎金,醫(yī)院紀委查實“重復拿錢”2萬元并退款,否認“吃空餉”,舉報人要求提級調(diào)查

湖南某醫(yī)院職工舉報院長兒子“吃空餉”涉百萬獎金,醫(yī)院紀委查實“重復拿錢”2萬元并退款,否認“吃空餉”,舉報人要求提級調(diào)查

大風新聞
2026-04-29 20:46:09
阿聯(lián)酋退出歐佩克,伊朗封鎖海峽竹籃打水一場空

阿聯(lián)酋退出歐佩克,伊朗封鎖海峽竹籃打水一場空

名人茍或
2026-04-29 13:08:16
“老俞絕不虧待自己” 東方甄選主播集體離職后,俞敏洪獲價值5000萬港元獎勵,粉絲心寒掀退費潮

“老俞絕不虧待自己” 東方甄選主播集體離職后,俞敏洪獲價值5000萬港元獎勵,粉絲心寒掀退費潮

新浪財經(jīng)
2026-04-29 17:07:23
中央安全生產(chǎn)考核巡查組在江蘇發(fā)現(xiàn):多領(lǐng)域存在突出安全隱患問題

中央安全生產(chǎn)考核巡查組在江蘇發(fā)現(xiàn):多領(lǐng)域存在突出安全隱患問題

上游新聞
2026-04-29 10:49:54
女子婚戀網(wǎng)站結(jié)識“未婚”高管后發(fā)現(xiàn)被騙,找人多次向?qū)Ψ桨l(fā)短信被行拘5日 雙方互訴均被判侵權(quán)

女子婚戀網(wǎng)站結(jié)識“未婚”高管后發(fā)現(xiàn)被騙,找人多次向?qū)Ψ桨l(fā)短信被行拘5日 雙方互訴均被判侵權(quán)

紅星新聞
2026-04-29 17:58:24
歐冠-馬競0-1阿森納:巴黎、拜仁對攻,馬競、阿森納死守?|前瞻

歐冠-馬競0-1阿森納:巴黎、拜仁對攻,馬競、阿森納死守?|前瞻

體育世界
2026-04-29 20:14:28
章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

小椰的奶奶
2026-04-30 00:22:01
辛杰不再擔任深鐵集團董事長

辛杰不再擔任深鐵集團董事長

界面新聞
2026-04-29 21:23:05
高校丨“大儒”楊念群被舉報與十數(shù)名女子發(fā)生不正當關(guān)系,自稱“學術(shù)布拉德皮特”(簡明版)

高校丨“大儒”楊念群被舉報與十數(shù)名女子發(fā)生不正當關(guān)系,自稱“學術(shù)布拉德皮特”(簡明版)

忘憂雜話店
2026-04-29 15:25:20
世錦賽戰(zhàn)報:趙心童憾負出局!吳宜澤強勢反撲五連鞭

世錦賽戰(zhàn)報:趙心童憾負出局!吳宜澤強勢反撲五連鞭

求球不落諦
2026-04-29 23:56:28
2026-04-30 03:15:00
地圖書
地圖書
人文地理知識圖譜
155文章數(shù) 738關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

伊朗提出先解除封鎖 特朗普回應(yīng)

頭條要聞

伊朗提出先解除封鎖 特朗普回應(yīng)

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時

財經(jīng)要聞

蘇州,率先進入牛市

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

家居
親子
教育
數(shù)碼
旅游

家居要聞

寂然無界 簡潔風格

親子要聞

近年來屢上“黑榜”,十月結(jié)晶再因嬰幼兒背帶pH值不合格被通報

教育要聞

高考地理中的藝術(shù)治療

數(shù)碼要聞

極米RS30系列投影儀發(fā)布,8822-13499元

旅游要聞

48家公園推出110項假日特色活動

無障礙瀏覽 進入關(guān)懷版