国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

夸克“兇猛”:一場手機鏡頭背后的狂野冒險

0
分享至

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

夸克“兇猛”:一場手機鏡頭背后的狂野冒險

文 | 史中

李逍遙出生的村子叫什么你知道嗎?

我知道,叫盛漁村,地處杭州余杭縣,位置偏僻,但風(fēng)景秀麗。。。

我為啥記得這么清楚呢?

因為10歲那年我第一次玩《仙劍奇?zhèn)b傳》的時候,劇情剛剛展開,看著熱情的村民,聽著溫情的 BGM,我突然有奇怪的想法:為啥我李逍遙不能一輩子慫在家鄉(xiāng)耍木劍采野果,非得去外面被妖怪毒打呢?

但是轉(zhuǎn)念一想,不遇到妖怪,也不會遇到趙靈兒。

想到這里,DNA 動了,明知山有虎偏向釜山行,我就這樣走出了新手村。

好吧,咱們未必玩過一樣的游戲,但咱們都過著同樣操蛋的人生。你我都有(不得不)從新手村出發(fā)的那一天,面對天書一樣的試卷時,面對老板“今晚就要”的死線時,都會幻想:如果天上能掉下來一把神刀,一刀999級,該有多好。。。

今天,中哥就給你講一個“神刀”的故事。

(一)“戰(zhàn)五渣”和掃描王

“放假前剛發(fā)的卷子,我家小孩就找不到了!我還得在家長群里求著同學(xué)媽媽把試卷拍給我,打印出來讓孩子做。但人家孩子已經(jīng)寫了答案,我只能用紙條擋住答案去復(fù)印。。。”

這是一個兩年前發(fā)在媽媽幫論壇上的帖子。

如此不能打的劇情,卻引來了不合時宜的共鳴,上百個家長回復(fù)說:。∥乙詾橹挥形壹液⒆邮沁@樣。。。

看來,身邊潛伏的渣渣不止一個啊。

吃瓜群眾中潛伏著一個人,戴著眼鏡,自己就接近學(xué)生模樣,按道理都不應(yīng)該知道這世界上有媽媽幫這樣“戾氣深重”的網(wǎng)站。

這個人就是尹毅彬。

尹毅彬

尹毅彬是夸克App的產(chǎn)品經(jīng)理,之所以要逛家長論壇,是因為他負(fù)責(zé)的正是當(dāng)時大火的“學(xué)習(xí)版塊”。

他同時也是個暖男。“怎么能讓媽媽們受這樣的苦呢?”于是趕緊把這個發(fā)現(xiàn)講給伙伴。

一個月后,夸克App里添加了一個小功能——試卷去手寫——拿一張卷子來,能自動把里面的手寫字去掉;不僅如此,還能把卷子角度自動轉(zhuǎn)正,把紙變白,把字變清晰,打印出來比原版的還原版,隔壁學(xué)霸都饞哭了。。。

就是這個效果???

別看就是這么一個不起眼的功能,受歡迎程度卻難以言表,后臺調(diào)用量像火箭直入云霄。

以防有的淺友不熟悉夸克,這里中哥強勢插入一下,多介紹幾句背景姿勢:

很多人覺得夸克是個搜索 App,但是在年輕用戶心里,搜索只是夸克“功能大餐”中的一道菜,他們還能用夸克看小說、看電影、拍圖識萬物、文檔翻譯、簡歷生成、自拍證件照、PDF轉(zhuǎn)Word、截長圖、轉(zhuǎn)gif、掛號買藥、學(xué)菜譜查快遞。。。

我覺得,夸克的夢想是成為大家手機里的 “瑞士軍刀” ——沒車沒房沒女票這種大事解決不了,但遇到蹩腳的小困難,掏出來一準(zhǔn)兒能搞定。

給你們看一下夸克工具的列表???

為了達成這個目標(biāo),不只是尹毅彬,夸克團隊每個人都患上了“需求搜集癖”。。。

他們就像八爪魚:產(chǎn)品經(jīng)理做調(diào)研,技術(shù)老師傅看數(shù)據(jù),運營小姐姐接客訴,反正有各種渠道和用戶溝通。用戶想要啥,分分鐘就能傳遞到夸克團隊,沒準(zhǔn)新功能幾個星期就做出來了,有一種“被寵溺”的感覺。

講真,在今天的世界,能夠和用戶混成這種好兄弟(好姐妹)的互聯(lián)網(wǎng)產(chǎn)品都已經(jīng)不多了呀。

不過這也好理解,因為夸克團隊和他們的用戶一樣年輕,幾乎一水的90后。其中最小的一位生于澳門回歸的1999年。畢竟中國人不騙中國人,年輕人不坑年輕人嘛。

好,認(rèn)識了這群頭發(fā)尚且濃密的年輕人,我們回到主線劇情。

搞出“試卷去手寫”,無數(shù)小朋友可以罵罵咧咧開開心心去寫作業(yè)了,但這只是故事的《序章》。

夸克這群年輕人像胡八一那樣提鼻子一聞,忽然感覺自己站在一座“尚未完全被開發(fā)”的寶藏大門前,這座寶藏就叫——掃描。

之所以說尚未完全開發(fā),是因為掃描這座寶藏早已被人發(fā)現(xiàn),市面上也早有一些掃描產(chǎn)品。

只是夸克這群人覺得前人挖掘得不細(xì)心,或者說勘探技術(shù)不到位,就拿“試卷去手寫”這樣的具體任務(wù)來說,在他們之前就沒人做得這么精細(xì)嘛。。。

于是,一場內(nèi)部討論展開:如果做一個市面上最好的把“紙質(zhì)文件”掃描成“數(shù)字文檔”的掃描工具,誰贊成?誰反對?

團隊那位99年的同學(xué)趕緊舉手:

我上大學(xué)那時候,哦,也就是去年,就特別想要一個這樣的工具。因為老師講課的PPT翻得太快,我只能用相機一張張拍下來,再用 iPhone 的備忘錄功能整理起來。雖然四舍五入能用,但是像我這么社恐的人,坐在教室最邊上,拍出來的照片都是梯形。。。

話音未落,另一個同學(xué)插話:

我表哥在投資公司工作,我記得他吐槽,說每天都得把各種紙質(zhì)文件、單據(jù)神馬的掃描歸檔,掃描儀難用的一比。

恰在此時,探馬回報,在北京、廣州、秦皇島等等城市的用戶調(diào)研里,很多夸克的主力用戶——老師和學(xué)生——也都吐了這個槽:學(xué)知識最好是舉一反三,得把錯題抄下來反復(fù)練嘛。但除非愛好書法,誰能耐下心來手抄那么多錯題呢?

而且,人類都已經(jīng)進入賽博朋克紀(jì)元了,把這么多時間用來物理抄題,也太 old school 了吧?能有個順手且強大的手機掃描工具多好。

正所謂,工欲善其事必先利其器。你讓哈利波特去削伏地魔,不得先給他個掃帚么?你讓小智干翻全世界的寶可夢,不得先給他個精靈球嗎?你讓你家小孩考清華,不得先給他個“掃描王”么?

夸克掃描王產(chǎn)品負(fù)責(zé)人夏雅瞳小姐姐一拍桌子:決定了!咱們就幫大伙兒把“掃描王”做得更好用!

小智,你捫心自問,如果把精靈球改成三室一廳總統(tǒng)套房,皮卡丘能不愿意進來么?

(二)高清無碼大圖,get?

說到掃描,咱們小時候見的掃描都是那樣的:把紙質(zhì)文件按在一個掃描儀上,然后“呲——”,電腦上就顯示出了一模一樣的圖片。

那個操作叫“光學(xué)掃描”,實際上,那已經(jīng)是老黃歷了。

聽中哥給你科普,現(xiàn)在的掃描比女生化妝還厲害:

第一步、 拍圖片

用手機給文件拍一張素顏照,App會自動幫你裁剪,擺正角度,去掉無用信息,相當(dāng)于打了個遮瑕粉底,然后把圖片上傳云端。

第二步、修圖片

云端算力充沛,AI 能識別出文件上的瑕疵(例如紙上的臟點、水印、手寫痕跡),把它們都去掉;再識別出有用的文字,把它們加深,變得更清晰。相當(dāng)于眼線紅唇化個全妝。

第三步、導(dǎo)圖片

云端把這張圖片傳回給手機里的 App,App 幫你導(dǎo)出定妝照,也就是掃描結(jié)果的圖片。

完美結(jié)束,撒花出街。

這樣三步下來,比光學(xué)掃描的“素面朝天”那簡直高到不知哪里去了。

不過,欲戴王冠必承其重,這個“美顏之旅”比大多數(shù)人想得難多了。

怎么個難法呢?咱們先請上夸克團隊的第一位現(xiàn)身說法的選手,他就是王淮。王淮在夸克App的研發(fā)團隊,負(fù)責(zé)我們剛才說的“第一步”。

王淮

王淮是個“強迫癥”,一幅畫掛歪1度都能看出來那種。但做 App 客戶端恰恰需要這種細(xì)致的精神。

剛接到任務(wù),一個不是問題的問題就擋在面前——該用什么拍照方式?

你肯定沒有注意過,攝像頭獲取圖片其實是有兩種方式的:

一種是速度快但畫質(zhì)感人的——就是進入攝像模式,從流動的畫面里截取一幀湊合能看的。 一種是畫質(zhì)好但速度感人的——就是進入拍照模式,老老實實對焦,調(diào)整光圈快門,拍一張照。

王淮玩得比較遛的是第一種“視頻截圖”。因為他們之前做的“萬物識別”功能,就在用這種方式。

為啥呢?因為那些圖片是用來做“分類”的——比如你拍了一只狗,即便是模糊的狗,相比于貓,AI 也會覺得它也更像狗——所以不用清楚,拍得快才是王道。

可是掃描就不同了,它的終極目標(biāo)不是分類,而是清晰呈現(xiàn)這張照片里的每一個細(xì)節(jié)。

沒辦法,王淮只能老老實實選擇“拍照模式”?蛇@樣一來,體驗就不太流暢,他又和一群強迫癥事們做了10086個優(yōu)化。

接下來可以拍照了吧!王淮把自己手機翻過來一看,臥槽?!怎么這么多攝像頭?

第二個問題又迎面撲來——該用哪個攝像頭?

廢什么話?隨便選一個不就行了嗎?

“不行。我們試了一下,長焦鏡頭一般光圈大,拍出來的照片景深小,這樣用戶如果拍攝角度傾斜,就會造成一半清晰,一半虛焦。。。廣角鏡頭一般光圈小,能拍清楚。但如果鏡頭視野太寬,紙張占畫面的比例又比較小,有效像素不夠多。。!

王淮解釋。

就像這樣???

他們最后寫了一套規(guī)則,讓夸克 App 在手機里現(xiàn)場“唐伯虎點秋香”,找出最適合做掃描的那顆攝像頭。

可實戰(zhàn)中到底能不能選準(zhǔn)秋香,王淮心里有點嘀咕。。。他又請測試團隊的同學(xué)真的用不同型號手機拍了幾千張照片,把每一個機型都調(diào)優(yōu)了一遍才罷休。

這下可以拍照了吧?還不行。。。

夸克的用戶數(shù)以億計,你永遠(yuǎn)想象不到大家在拍照片的時候是在九天攬月還是在五洋捉鱉。

比如有的人手抖,拍出的照片就是帕金森模仿秀;有的人心不在焉,拍出的照片就是斜到懷疑人生;有的人是暗夜騎士,拍東西祖?zhèn)鞑婚_燈。

于是第三個問題來了——怎么保證拍照清晰?

王淮他們在拍照界面加了提醒——探測到畫面光線不足,就提示開燈;還加了網(wǎng)格線——眼殘的可以參考網(wǎng)格拍得橫平豎直;還做了一個實時對焦模塊——哪怕用戶冷不丁地按下拍照,也能保證盡量清晰。

看到這兒,有老哥可能會問:這都是什么雞毛蒜皮的小事。

其實我是故意選擇這些瑣碎細(xì)節(jié)講給你聽的。因為你懂的,面對這些細(xì)節(jié)都能如此“強迫癥”的人,是很難在圖像裁剪、圖像壓縮、圖片上傳鏈路這類更嚴(yán)肅的事情上偷工減料的。

“咻——”,隨著圖片傳上云端,沉甸甸的接力棒也交到了第二位選手,云端算法工程師黃銳華手上。

黃銳華

黃銳華是個技術(shù)控老司機。他的駕駛風(fēng)格是:“我前面不能有車”。

凡是遇到什么技術(shù)困難,他不睡覺也得把全世界的解法都找來,然后不允許任何一個解法比自己更好。。。

開發(fā)過程中,看著手機端傳上來的圖片,黃銳華皺皺眉頭:喂,這圖片怎么有好多都是“S身材”。?

你想想看,一張紙,如果能夠平平展展讓你拍照,那是燒高香的情況。大多數(shù)情況,咱們打開書拍某一頁,書頁肯定是彎折的,而且越靠近書脊,彎折程度越大,就像霍金的黑洞。。。

黃銳華當(dāng)時就暴躁了,一張紙這么“性感”,很影響掃描效果的好不好?!

接下來的問題就是——怎么把S形書頁給拉直?

其實方法就是借助人工智能,讓 AI 對著彎折的書頁“YY”它平展的時候應(yīng)該是什么樣。 可問題是,要想讓人工智能學(xué)會這個技能,先得給它學(xué)習(xí)資料——同一張紙彎折時和平展時的“對比數(shù)據(jù)”。這個數(shù)據(jù)還不能只有一兩組,得成千上萬組才行。

黃銳華給我解釋。

雖然但是,從哪去找這么多書頁彎折的數(shù)據(jù)呢?這數(shù)據(jù)又不是可樂,街邊隨便找家店就有賣。。。而且也來不及自己一張張拍啊,等你拍完,等著掃描書頁的大學(xué)生都該領(lǐng)退休金了。。。

一個平時喜歡玩游戲的同學(xué)若有所思:誒,3A游戲大作不都會用到物理引擎么?

一語點醒夢中人,黃銳華組織大家搞了好幾本書的3D模型,然后用游戲物理引擎對它進行各種“蹂躪”,這不一下子就有了豐富的訓(xùn)練數(shù)據(jù)嗎?

這么一搞,效果拔群。

看著 AI 書頁拉直的效果越來越棒,黃銳華仰天長嘯:果然,不會3D建模的AI工程師不是好司機!

搞完這些,已經(jīng)是2021年春天。

丑媳婦總得見公婆,“夸克掃描王”終于發(fā)布了。

春江水暖鴨先知,夸克新功能鐵桿粉絲先知——說時遲那時快,在夸克的粉絲群里,已經(jīng)有眼尖的人發(fā)現(xiàn)了掃描王。

夸克團隊搬好小板凳排排坐,等著夸獎砸來,不過,夸獎沒等來,卻等來了板兒磚。

“欸我這個掃描出來怎么是花的啊?”有粉絲問。

黃銳華一看粉絲發(fā)來的“證據(jù)”,居然是對著電腦屏幕拍的,上面都是摩爾紋。。。

“欸我這個卷子怎么掃描之后還能看出背面的字。俊

黃銳華一問,才知道這哥們的卷子太薄,簡直是蕾絲半透款,背面的字毫無壓力地透了過來。。。

“欸我這掃描出來怎么還帶手指頭。俊

黃銳華一看,原來這哥們是拿手舉著一本書掃描的,手指頭也拍進去了,AI 以為是書上的插圖呢,給強勢保留了。。。

“這好辦,你告訴他們拍照的時候別用手扶著不就行了?”我提議。

“用戶用手扶,一定有他不得不扶的道理。我們既然要做全世界最好的掃描工具,就不可能讓用戶來適應(yīng)我們!秉S銳華一臉慷慨。

本著“做最牛X的掃描工具”的原則,老師傅們繼續(xù)返工:優(yōu)化了人工智能算法,讓它更好地識別出背面透字;還教會了 AI 識別邊緣亂入的手指頭,自動擦除;還研究了去摩爾紋的濾鏡。

注意,剛才提到的各種濾鏡是一層層“疊buff”的。

比如,上一層去摩爾紋的輸出結(jié)果是下一層去邊緣手指的輸入資料;去手指的輸出結(jié)果又是下一層去背面透字的輸入資料。

這很像雜技演員踩著高蹺,頭上頂著水缸,手里扔著12個雞蛋,腰上還轉(zhuǎn)著5個呼啦圈——但凡中間任何一個環(huán)節(jié)出問題,整個雜技都會垮掉。

做掃描難,就難在了這兒。

耿直的夸克用戶是一面明鏡,不滿意會吐槽,滿意會真夸。經(jīng)過了幾次改進,夸克粉絲群里逆風(fēng)翻盤,變成夸夸群。

尹毅彬現(xiàn)在還記得,有一個用戶專門跑來說:“我從來沒用過這么好的掃描產(chǎn)品,掃出來真白,就跟新買的書一樣!”

不過彼時沾沾自喜的掃描王團隊,就像剛出長安的唐長老,還不知道有一群妖怪正圍著餐巾等著他們呢。

那天,運營小姐姐找到尹毅彬,跟他提到了一個用戶投訴。

那個用戶留言說:“用夸克掃描出來的文件,我沒法用!”

“掃得這么白,怎么沒法用?”尹毅彬一邊嘀咕,一邊決定跟那個投訴用戶直接打個電話。

他恍然大悟,原來這個用戶在掃描一份鑒定報告,在報告的下面,專門鋪了簽發(fā)機構(gòu)的防偽水印。可是在AI看來,水印這種臟東西不是要去掉的么?一秒鐘擦得干干凈凈,對用戶說:快夸我!

用戶說:我謝謝你!

無獨有偶,另一個用戶反饋也前后腳進來:他想掃描一個發(fā)票,用于報銷?墒强淇藪呙柰鯍叱鰜淼陌l(fā)票過于白嫩,而且經(jīng)過“清晰度補足”的濾鏡,紅章就會變得暗淡,打眼看上去就像是街角買的假票。。。那哥們都不敢提交報銷了。。。

原來,“一白遮百丑”也不總是真理。

一個巨大的哲學(xué)問題擺在夸克掃描王團隊面前:當(dāng)“真”和“美”坐在蹺蹺板的兩端,到底要怎么選?

就和生活一樣,沒有人永遠(yuǎn)需要真實,也沒人永遠(yuǎn)需要漂亮。所以我們的結(jié)論是,你要去 了解 用戶在掃描那一刻的真實意圖,才能更準(zhǔn)確地服務(wù)他。

尹毅彬解釋。

于是,在隨后的升級里,夸克掃描王加入了一道“自動識別邏輯”:判斷這是個單據(jù),就以“真實呈現(xiàn)”為主;判斷這是個文件,就以“黑白分明”為主。

這個思考影響深遠(yuǎn)。

從這件事以后,夸克團隊就像搞了個高音喇叭放在耳邊,時刻在喊:“你們確定真的了解用戶想干嘛嗎?R U F**KING SURE?!”

“警鐘長鳴”之下,他們有了驚奇的發(fā)現(xiàn)——當(dāng)用戶掃描的時候,有時并不想“掃描”。

(三)當(dāng)你掃描的時候,你在“掃描”什么?

“在我們的一生中,遇到愛,遇到性,都不稀罕,稀罕的是遇到了解!边@是廖一梅在話劇《柔軟》里寫下的臺詞。

這句話恰好完美隱喻了互聯(lián)網(wǎng)產(chǎn)品的難處。

在真實世界里,哪怕你和最要好的朋友對面長談,都無法完全理解Ta的意圖;更別提在賽博世界里,提供服務(wù)的系統(tǒng)和用戶相隔萬里,只能通過用戶令人費解的行為碎片來“猜”。

我問你,當(dāng)一個用戶掃描了電腦屏幕上的一串快遞單號,Ta 想干嘛?

我再問你,當(dāng)一個用戶沒有調(diào)用攝像頭,而是去相冊里調(diào)取了一張寫著名言警句的圖片進入掃描王,Ta 想干嘛?

有沒有一種可能,此時他們并不是想“掃描”,而是想把照片里的文字提取出來,復(fù)制到別的地方用?

有可能是,也可能不是。。。

2021年夏天,夸克這群年輕人就帶著這種狐疑上線了“文字提取”功能。

這個操作效果炸裂。

從激增的后臺調(diào)用量看,用戶仿佛在說:這么牛X的功能,搞么子現(xiàn)在才上?

為啥大家對文字提取這么情有獨鐘?我還真琢磨了一下。

看看我們自己的大腦就知道了,人類的右腦負(fù)責(zé)形象思維,左腦負(fù)責(zé)邏輯思維。長期的進化讓大腦產(chǎn)生了這樣的左右分工,那必然是因為這樣比“左右腦一團漿糊”更好。

好處是啥呢?省能量。

語言文字屬于邏輯思維——可以用“抽象的信息”反應(yīng)“具象的世界”——而抽象的信息真的很省地方。

你看,說“蘋果”兩個字只需要半秒,把這兩個字寫出來也只需要兩秒,可畫出一個蘋果恐怕需要一分鐘。遇到手笨的,畫一個蘋果恨不得消耗兩個蘋果的卡路里。。。

所以,“文字提取”功能的本質(zhì)是把一張“圖像”里的“邏輯信息”(而非視覺信息)提取出來,復(fù)制、粘貼、修改、搜索隨你大小便——大大降低信息處理的成本。

在原有的視覺工具旁邊直接加了一個邏輯工具,沖鋒槍+迫擊炮,買一送一,肯定受歡迎嘛!

(我替你們體驗了一下文字提取,原諒我此時身處賓館,能找到的紙不多。。。)

嘗到“提取”功能的甜頭之后,夸克這群“摸金校尉”如同找到了掃描領(lǐng)域的新一道暗門,向幽深的秘境又挺進一層。。。

尹毅彬回憶,那天產(chǎn)品團隊在整理用戶反饋時,又發(fā)現(xiàn)一個奇怪的案例。

這個用戶反饋了一張手寫的購物單,上面寫著:菠菜XX元,買了XX斤;白菜XX元,買了XX斤,諸如此類。

用戶的訴求是:我拍了這個購物單,你們能不能給我轉(zhuǎn)成 Excel 表格?

原來,他是一個飯店的采購員,每天進貨,月底盤點,得把30天的數(shù)據(jù)金額加總。過去手寫數(shù)字加總,得鼓搗半小時,還不一定算對。如果能有工具把手賬變成 Excel,那妥妥從石器時代直接進入工業(yè)革命啊!

尹毅彬一看,有道理!他去找技術(shù)老師傅,有點心虛地問:手寫字,能提取出來么?

黃銳華呵了一下:可以試試。

其實,這個技術(shù)黃銳華團隊并沒那么陌生。在兩年前夸克的“學(xué)習(xí)”模塊里,就實現(xiàn)了一個小功能:把學(xué)生手寫的答案轉(zhuǎn)換為印刷體。

但注意,這兩者的難度是不同的。

一個學(xué)生寫題,他的目的是讓判卷的老師看懂,潦草程度是有下限的。

比如這樣:

一個人寫采購單,就是為了記賬給自己看,那潦草程度是沒有下限的呀!

比如這樣:

簡而言之,之前給搜題做的那套手寫識別技術(shù)根本拿不出手,必須加大數(shù)據(jù)劑量,重新訓(xùn)練。

不過,這次黃銳華遇到了強勁對手。越深入訓(xùn)練,技術(shù)團隊就越抓狂——仿佛自己身處一個深不見底的巨坑里。。。

手寫體的難度不只在于潦草,更在于你要理解手寫信息的復(fù)雜含義。 比如訪客登記的時候,上面那個人在性別那欄填了“男”,你填表的時候,就在下面打兩個點,表示“同上”。人類很容易理解的事情,人工智能就想不通。 再比如我們寫好了一段話,突然想在兩句之間新插入一句,就會打一個插入符號,然后把新的字寫在縫隙里。這種意思AI就很難理解。

黃銳華解釋。

地獄級的情況還在后面——手寫字和印刷字同時出現(xiàn)在一張紙上。。。

舉幾個栗子:

比如,我在一個填空題上寫了“一”,但在人工智能看來,這個“一”是一橫,下面的橫杠也是一橫,這不就是“二”么?

再比如,我在方格本里寫了“女人”,人工智能肯定會質(zhì)問你,這TM不是“囡囚”是什么?

亂世須用重典,難題得上狠活。為了解決這個問題,老師傅一股腦派了三個 AI 出戰(zhàn):

首先,訓(xùn)練一個AI,它不負(fù)責(zé)識別文字,只用來分辨哪一筆是手寫的,哪一筆是印刷的。 然后,是正常的 AI 文字識別。由于剛才已經(jīng)盡可能把兩種筆畫分開,此時識別準(zhǔn)確率會大大提高。 最后,再派一個 AI 結(jié)合上下文讀一讀通不通順。比如,“美好的一天“明顯就比“美好的二天”更通順;“她是個女人”,就比“她是個囡囚”更對嘛。。。

總之,兩個月后,黃銳華在會上蛋定地展示手寫文字提取 Demo 的時候,尹毅彬嚇得一蹦:老哥,你還真弄出來了呀!

有了“印刷體”+“手寫體”這兩個文字提取,夸克掃描王才多少配得上“王”的稱號。

想想看,無論是在書上看到語句,還是在街上看到標(biāo)語,還是在插圖里看到內(nèi)嵌的文字,你都可以在朋友的注視下,從容地掏出手機,一秒鐘把文字復(fù)制出來,“咻——”地發(fā)給他,優(yōu)雅蛋定不臟手。

這感覺很酷。裝X利器不一定是一個好的生產(chǎn)力工具,但一個好的生產(chǎn)力工具,一定是個裝X利器。

手寫文字識別準(zhǔn)確率到了99%,手寫識別率到了90%,掃描王團隊以為事情已經(jīng)做到八九不離十。然鵝,他們又錯了。。。用戶就像一盒巧克力糖,你永遠(yuǎn)不知道下一個是神馬口味。

他們總能掃描“奇怪的東西”。。。

(四)去冒險吧!

你看這個:

一個公式,你猜夸克掃描王會掃出神馬效果?

有了剛才的鋪墊,你可能也成了半個專家:首先,夸克至少可以把公式當(dāng)成一個圖片來掃描(就像我現(xiàn)在把這個公式截圖插入文章一樣);但是,它有一個更優(yōu)雅的選擇——把公式像文字那樣“提取”出來。

沒錯,這里遇到了一個比“文字提取”棘手一百倍的問題:“格式提取”。

而且,“公式”最多只是所有煩人格式里的一種。咱們隨便看一張海報,上面有圖片和文字混合排版,有各種字體,還有彎成蝦一樣的變形設(shè)計——這一切都是格式!

格式是魔鬼,反正我還記得大學(xué)時代被格式支配的恐懼。那時候?qū)懻撐模笆仔锌s進”這么一個小問題,經(jīng)常是刪一格太左,加一格太右,純純能把人逼瘋。

夸克這群人需要“降魔”。為了把一個圖片上的格式完整“扒”下來,老師傅們專門去找其他文檔團隊取經(jīng),把一整套文字格式處理邏輯嵌入掃描王。

事情還沒完,如果你把文字和圖像混合在一起排版,噩夢直接翻十倍。

咱們還以掃描那張海報為例,靈魂拷問一個接一個:

難題一:哪里是圖案,哪里是文字?

海報的排版是放飛自我的。各種顏色的裝飾、斑點還有文字、字母、數(shù)字都摻雜在一起。

很多時候就連視力1.5的人都得仔細(xì)分辨哪個是“逗號”哪個是“底色里的裝飾黑點”。

難題二:到底是海報斜,還是圖案偏?

人眼有誤差,很難把海報拍得周正,總會有多多少少的偏角。這個時候系統(tǒng)理應(yīng)把海報轉(zhuǎn)正。

可問題來了,假如海報上有一個藝術(shù)字,字體就是斜體的。那么,怎么判斷是“因為海報 斜了這個字才斜了” 還是 “海報沒那么斜這個字本來就是斜的” ?!

難題三:到底是圖案還是瑕疵?

有些海報很大,展開之后會有折痕。那請問,如何判斷一條線是海報上的圖案設(shè)計,應(yīng)該保留,還是無用的折痕,需要抹除?

難題四:背景如何補足?

海報掃描出來是帶有格式的,這也就意味著你可以修改海報上的字。

可海報不再是 PS 文件,所有圖層都已經(jīng)融成一體。如果你刪掉了一個字,它下面就會露出一片恐怖的空白啊!應(yīng)該用什么顏色、圖案來填充呢?

這里面隨便一個問題都是業(yè)界難題,但黃銳華挽起袖子,勞資不上秋名山,你們真當(dāng)我是賣豆腐的!

比如“折痕”和“圖案”,從三米開外可能看起來一樣,但是如果放大端詳,一定能找出二者區(qū)別。算法需要做的改進就是“精細(xì)”。但做這么精細(xì)的微操,就代表云端 AI 要計算更多的數(shù)據(jù),耗費更多的計算力。

比如“背景補足”,其實現(xiàn)在最先進的AI算法是可以根據(jù)周圍的信息把中間的空白補充得以假亂真的。問題還在于“數(shù)據(jù)量”和“計算力”,只有在云端猛堆機器,才能把這個活兒干漂亮。

AI 的殿堂歡迎技術(shù)流,但更歡迎人民幣玩家。

黃銳華告訴我,為了挑戰(zhàn)極限,他們已經(jīng)卷瘋了,2022年整個夸克云端的AI計算力已經(jīng)升級成最新一代的 GPU,上面跑的算法基本每個月都有升級更新。

此時此刻,雖然海報的掃描效果還沒達到他心中的完美境界,但相比世界范圍內(nèi)的同類產(chǎn)品,他還是可以拍胸脯的。

我?guī)湍阍嚵艘幌???

我們的用戶對排版接受很高的。從會員付費情況就能知道,大家愿意為好的效果買單。

黃銳華不客氣。

說回我們的故事。從2022年開始,夸克掃描王突然進入了一個有趣的螺旋:能掃描的東西越奇怪,就有越多人用;越多人用,這群人就會去掃描更奇怪的東西。

正所謂,浪大了不知道催上來什么海鮮。

最近,通過各種渠道,老師傅開始看到有人拍歌單,有人拍樂譜,有人拍少數(shù)民族的文字,還有人拍一堆源代碼。

?雖然他們沒說,但用戶肯定不會做無意義的動作。

黃銳華說。

于是,掃描王團隊開始思考一些瘋狂的事情。比如,能不能內(nèi)嵌一個音樂播放引擎,讓掃描王看到五線譜就直接把音樂播放出來?比如,能不能加入一個模擬器,把看到的代碼直接運行出來?

你看,從提取文字,到提取格式,現(xiàn)在到了“提取一切”。掃描這個坑比馬里亞納海溝還深。。。

當(dāng)然,這些只是一小部分例子,各種有趣的功能每天都在討論中,受限于各種因素最終未必都做出來。但老師傅敢討論這些東西,前提是掃描的核心技術(shù)已經(jīng)到了足夠“支撐花活兒”的地步。

“就拿代碼來說,它對格式極其敏感。同樣一個位置,放兩個空格和三個空格,意義就不相同了。如果掃描不對,肯定執(zhí)行不對!”黃銳華解釋。

聊到這里,我頗有一點感慨。

用戶在拍這些奇怪的東西時,肯定沒想這么多。但實際上,遠(yuǎn)在千里之外,他們所有靠譜不靠譜的嘗試都沒有被責(zé)怪,更沒有被忽視,而是被思考,被念念不忘,被必有回響。

如果說存在“互聯(lián)網(wǎng)精神”的話,恐怕這就是互聯(lián)網(wǎng)精神的重要部分。

我在2020年曾經(jīng)和夸克的小伙伴們聊過一次(參考 ),那個時候,我感覺夸克的用戶中學(xué)生比例極高——就是那些整日做題、搜題,純純的人生新手。

但如今看夸克掃描王的用戶,已經(jīng)大有不同。

他們之中可能有公司的人事經(jīng)理,需要經(jīng)常整理人員信息,備份合同;可能有工程師,需要掃描圖紙增改設(shè)計;可能有“包租婆”,需要掃描一份舊的租房合同,修改一下信息重新打印。

這張圖里有房屋租賃交割單、企業(yè)詢證函和材料計劃表。

這些用戶顯然已經(jīng)走出了人生的新手村,正在各自的戰(zhàn)場跟怪獸搏斗。

在我看來這是一個有愛的變化。

我試著想象這件事是怎么發(fā)生的:也許是在學(xué)生時代就用夸克的人長大了,他們進入了五花八門的工作崗位,仍然習(xí)慣依靠夸克解決問題;也許是一些“老人”被年輕人安利“夸克yyds”,然后入坑。也有可能是兩種情況兼而有之。

但這一切之所以發(fā)生,恐怕是因為在一段不短的日子里,夸克沒讓他們失望。

大多數(shù)時候,“維護信任”比“建立信任”更難。因為你要在漫長的歲月里時時審視自己——不僅審視自己的善,更要審視自己可能的惡。

(五)兄弟,信我!

在夸克日常收到的反饋里,有律師說他用夸克掃描裁判文書,也有公司財務(wù)說她會掃描經(jīng)營數(shù)據(jù)。

看到這,你也許會有點隱隱的不舒服。

沒錯,大膽說出來——這些數(shù)據(jù)涉及隱私,用夸克掃描王時,數(shù)據(jù)經(jīng)過云端會不會有問題?

這件事兒引發(fā)的大討論,居然沒有首先發(fā)生在夸克的用戶群里,而是在夸克團隊內(nèi)部。

為了使后面的討論基于事實,這里必須得強調(diào),夸克團隊的任何人都不能查看用戶上傳的圖片,也不能以任何形式泄漏用戶上傳的數(shù)據(jù),約束他們的不只有自我道德,更有法律條文。

但你吃了幾碗粉,不是你說了算。世界的運行,也不能靠賭咒發(fā)誓。

比如,有很多公司,在規(guī)章制度里就寫明,禁止內(nèi)部數(shù)據(jù)上傳互聯(lián)網(wǎng),不管會不會引發(fā)問題,反正不允許上傳;還有很多特殊的工作環(huán)境,本身就帶有信號屏蔽,這種情況下,就算讓你用都沒辦法用。

意識到這些問題以后,夸克這群人決定緊急上線一個“補丁”——離線掃描

你還記得一開始我們說的掃描三步走嗎?1、本地裁剪;2、云端處理;3、發(fā)回本地導(dǎo)出文件。

所謂離線掃描,就是把第2步本該在云端完成的一切(去瑕疵、去手寫、文字提取、格式提取等等)統(tǒng)統(tǒng)都塞在手機里完成。數(shù)據(jù)從頭到尾都不出手機,自然不會有隱私泄露的問題。

這種“不出手機”是可驗證的——你可以關(guān)掉網(wǎng)絡(luò),拔掉手機卡,進入信號屏蔽室,whatever,只要手機有電,夸克掃描王就能工作。

可是,這個目標(biāo)會引發(fā)一個巨大的技術(shù)問題:

算法團隊剛剛使出吃奶的勁兒,把云端的計算力飆到最高,把算法卷到最新,才把掃描效果做到極致,F(xiàn)在你端著手機告訴他,忘掉你們那可愛性感一望無際的小云朵吧,這個小盒才是算法的家啊。。。

然而,暴躁老師傅黃銳華沒有掀桌子。相反,他非常支持。

他支持到了從本就人手不富裕的團隊里分出一個小分隊,專門做“離線算法”的程度。

把算法塞進手機,難度堪比把大象裝冰箱,嚴(yán)格來說比把大象裝冰箱更難,因為云端算法比手機里的算法大100倍。而世界上沒有任何一個東西壓縮100倍之后還能保持原有的功能——這意味著大多數(shù)算法必須重寫。

老師傅沒日沒夜地飆車,終于,2020年8月“離線掃描”重磅上線,用1%的模型大小,實現(xiàn)了云端90%的水平。

從一個角度看,離線掃描的水平非常驚艷,但從另一個角度看,它卻是一個“性價比非常差”的功能。

比如,它上線之后,被調(diào)用的數(shù)量并不多——因為絕大多數(shù)情況下用戶掃描的都不是敏感信息,不會開啟離線模式。

比如,派一個專門的團隊來持續(xù)維護離線算法非常不經(jīng)濟——相當(dāng)于一輛車同時有兩部引擎運轉(zhuǎn),開銷巨大。

而且,還有一個非常難受的問題:在大多數(shù)用戶的注意力沒有放在隱私風(fēng)險的時候,主動推出離線掃描,反而讓他們覺得怪異,有引火上身的風(fēng)險。就像我忽然對你說:你猜我的褲子拉鏈有沒有拉上?哈哈,拉上啦!

但尹毅彬說,他們不這樣看問題。

“一個功能好不好,不能純粹用數(shù)據(jù)來衡量。說得不客氣一些,數(shù)據(jù)是會騙人的,有時你必須更相信自己的腦袋。”他說。

“但成本上總會有壓力吧?”我問。

“當(dāng)然有壓力。壓力歸壓力,正確的事歸正確的事!彼f,“況且,正確的事情早晚會帶來數(shù)據(jù)的回報!不用擔(dān)心,長期來看我們并不虧!

講真,每個年輕人長大的過程中,生活都會或早或晚給他上一堂必修課,那就是:當(dāng)越來越多人依賴你的時候,你身上就憑空出現(xiàn)了一種叫做責(zé)任的東西。而責(zé)任就是責(zé)任,它不會因為你不想負(fù)責(zé)任而變成別人的責(zé)任。

這是一個既簡單又難的道理。簡單到人人都能理解,卻難到極少有人能夠做到。

話說回來,性價比很高的事情,總共就那么三五件,智商正常的人都在做。真正把人和人、產(chǎn)品和產(chǎn)品區(qū)別開的,不就是誰做了更多性價比不那么高,但正確的事情么?

倒不能說夸克已經(jīng)是楷模,我的意思是他們努力的方向還挺性感的。

(六)我們各自還有一生的奇跡

王淮是一個對未來充滿想象的人。他具體在做的事情雖然只是一個夸克客戶端,但他卻相信,手機背后這幾顆小小的攝像頭里有關(guān)于未來的隱喻。

我們基于攝像頭做了很多不同的事情,但這背后有一條主線任務(wù)—— “理解世界” 。 比如我們最早做的萬物識別,是理解鏡頭里的物品;現(xiàn)在我們做的掃描王,是理解一個平面上的信息。 如果向未來看,我們可以讓鏡頭對準(zhǔn)一切,比如你的視野里是街景,屏幕上就會把這個建筑的名字標(biāo)注出來;比如你的視野里是一本書,就會把作者年代書評等等信息顯示出來,英文書也可以實時翻譯成中文。 在我的個人觀點里,基于相機的工具的終極形態(tài),應(yīng)該是一個AR(增強現(xiàn)實)助手。

他說。

我在網(wǎng)上找到了一些AR未來應(yīng)用的片段 ???

我回味了一下他的描述,腦海里突然出現(xiàn)了一個奇怪的場景:

我是一個上班第一天的戰(zhàn)五渣,緊張到臉盲,連隔壁同事叫什么都忘了,這個時候,打開AR眼鏡上的掃描王,對方的名片,還有我們認(rèn)識的時間地點,曾經(jīng)交談過的內(nèi)容,都出現(xiàn)在眼球幾厘米開外的小屏幕上,簡直是社恐救星。

就在我盯著屏幕認(rèn)真研究對面這個人是誰的時候,驚奇地發(fā)現(xiàn)他也在斜眼看自己的屏幕,奮力找出我是誰。。。

這個場景等同于:一個游戲新手,正瑟瑟發(fā)抖站在曠野上,突然從天上掉下來一把滿級神刀,拿起來剛想大殺四方,發(fā)現(xiàn)身邊所有的對手也都瞬間添置了一模一樣的刀。。。

如今每個人都能坐在鐵鳥的肚子里飛到全世界任何一個地方,每個人能用帶芯片的板磚跟天邊的朋友通話,你并不會驚奇。因為當(dāng)每個人都有神刀的時候,每個人就都沒有了神刀。

科技讓我們平等地進步,平等到?jīng)]人大驚小怪。

如果真有什么是神奇的,在我看來,是夸克團隊和他們的用戶,這兩群年輕人一直在隔空“陪伴”。

當(dāng)年輕人上路,口袋里揣著一個精靈球,雖然牛鬼蛇神在前路夾道歡迎,但他們無比確信,在云端有一群和自己一樣逗比又好奇又不愿輕易認(rèn)輸?shù)膹娖劝Y、老司機、好哥們,在沒日沒夜地絞盡腦汁幫自己改進精靈球,心里也許會稍稍安慰。

相信老哥我,以我三十多年對這個操蛋的世界的理解,哪怕是這種稍稍的安慰,都是人生中不可多得的珍貴情感。

能帶著情誼和一群朋友一起變大,變老,從戰(zhàn)五渣變成“老戰(zhàn)五渣”,反復(fù)吐槽那些只有你們之間才懂的爛梗,恐怕無需遠(yuǎn)求,人間至味是此清歡。

雖然你我終將老去,但總有人正年輕。

有一件事我們無比確信:在世界的角落里,永遠(yuǎn)有18歲的少年,他們在新手村口最后回望,然后扶一扶劍柄,決絕地走向荒野。

也許這時,BGM還會響起那首老歌:你要去哪里,我去哪里,我也不在意。以后我們各自還有一生的奇跡。

干翻寶可夢

先有精靈球

再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機會相遇,會是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小伙騎車撞特斯拉后賠償1.5萬修車費,4S店發(fā)票咋只開了9000元?多方回應(yīng)

小伙騎車撞特斯拉后賠償1.5萬修車費,4S店發(fā)票咋只開了9000元?多方回應(yīng)

大風(fēng)新聞
2026-01-22 12:09:03
最低-14℃!江蘇下一輪降雪又在路上了

最低-14℃!江蘇下一輪降雪又在路上了

魯中晨報
2026-01-22 08:59:40
嘲笑川普的人該補歷史課:美國購買格陵蘭是150年的國家戰(zhàn)略

嘲笑川普的人該補歷史課:美國購買格陵蘭是150年的國家戰(zhàn)略

斌聞天下
2026-01-22 06:20:03
永遠(yuǎn)不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

永遠(yuǎn)不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

深度報
2026-01-21 21:25:16
湖北省農(nóng)業(yè)事業(yè)中心副主任姜衛(wèi)東接受審查調(diào)查

湖北省農(nóng)業(yè)事業(yè)中心副主任姜衛(wèi)東接受審查調(diào)查

界面新聞
2026-01-22 17:14:47
車市內(nèi)卷嚴(yán)重怎么辦?遇事不決,學(xué)豐田!

車市內(nèi)卷嚴(yán)重怎么辦?遇事不決,學(xué)豐田!

電動邦
2026-01-22 14:32:58
當(dāng)江青還不叫江青時,她是這樣的

當(dāng)江青還不叫江青時,她是這樣的

深度報
2026-01-21 22:36:36
歐洲資金開始大規(guī)模撤離

歐洲資金開始大規(guī)模撤離

販財局
2026-01-21 22:18:11
炸裂!中糧集團春招公告,學(xué)歷從大專起步,外語水平居然不設(shè)限…

炸裂!中糧集團春招公告,學(xué)歷從大專起步,外語水平居然不設(shè)限…

火山詩話
2026-01-22 10:40:46
歐洲打死也不會想到,這場戰(zhàn)爭徹底打掉了歐洲五十年的國運

歐洲打死也不會想到,這場戰(zhàn)爭徹底打掉了歐洲五十年的國運

揭秘歷史的真相
2026-01-19 21:05:12
暴雷!廣東知名董事長跳樓,公司停業(yè)破產(chǎn)清算,近百家門店全關(guān)閉

暴雷!廣東知名董事長跳樓,公司停業(yè)破產(chǎn)清算,近百家門店全關(guān)閉

南宗歷史
2026-01-22 14:32:06
人民日報,救西貝一命!

人民日報,救西貝一命!

鈞言堂
2026-01-22 09:38:41
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
葉某斌供述:一天騙五六個人應(yīng)該差不多

葉某斌供述:一天騙五六個人應(yīng)該差不多

大風(fēng)新聞
2026-01-22 14:34:05
性蕭條是怎么造成的?以前穿小吊帶的女性大把,MV全是比基尼小姐姐

性蕭條是怎么造成的?以前穿小吊帶的女性大把,MV全是比基尼小姐姐

六子吃涼粉
2026-01-22 09:12:09
突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

裕豐娛間說
2026-01-22 08:56:07
馬克龍犯了什么。

馬克龍犯了什么病?

新民周刊
2026-01-22 09:08:59
美媒昭告全球: 中國不償還100年前的債務(wù),美國將不承認(rèn)欠中國的

美媒昭告全球: 中國不償還100年前的債務(wù),美國將不承認(rèn)欠中國的

墨印齋
2026-01-22 06:05:46
900萬粉絲網(wǎng)紅到株洲一村莊辦殺豬宴,稱村民收場地費還分肉,村干部:他們未報備且破壞村里聲譽,已報警

900萬粉絲網(wǎng)紅到株洲一村莊辦殺豬宴,稱村民收場地費還分肉,村干部:他們未報備且破壞村里聲譽,已報警

極目新聞
2026-01-22 13:53:44
首進澳網(wǎng)32強!王欣瑜2-1爆冷險勝前法網(wǎng)冠軍 將戰(zhàn)13號種子

首進澳網(wǎng)32強!王欣瑜2-1爆冷險勝前法網(wǎng)冠軍 將戰(zhàn)13號種子

醉臥浮生
2026-01-22 13:21:34
2026-01-22 17:28:49
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
284文章數(shù) 22967關(guān)注度
往期回顧 全部

游戲要聞

Xbox《發(fā)條革命》野心超大!30%內(nèi)容一周目玩不到

頭條要聞

浙江有人領(lǐng)走88888888馬年紀(jì)念鈔 銀行員工:隨機分配

頭條要聞

浙江有人領(lǐng)走88888888馬年紀(jì)念鈔 銀行員工:隨機分配

體育要聞

跑個步而已,他們在燃什么?

娛樂要聞

鐘麗緹土耳其高空落淚 與張倫碩擁吻

財經(jīng)要聞

申通快遞創(chuàng)始人被前夫索要股份

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

汽車要聞

配備多塊娛樂屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

本地
手機
健康
數(shù)碼
公開課

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點贊

手機要聞

iPhone存儲空間被誰偷走?系統(tǒng)數(shù)據(jù)異常堆積與應(yīng)用體積暴增是主因

打工人年終總結(jié)!健康通關(guān)=贏麻了

數(shù)碼要聞

國補疊加限時直降,這篇華為平板上車攻略不容錯過

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版