第12章 荔枝糖12(第3/4頁)

“……”成帥怔了兩秒,立即跟唐念道歉:“對不起,是我腦子不清醒,我給師妹道歉。”

唐念沒出聲,也沒接受他的道歉。

成帥臉色青一塊白一塊的,被女生拒絕已經很丟人了,PUA還被小老板聽見,他真的想死的心都有了。

他張了張口,想給自己辯解幾句,心裏又實在有些怕他,只沒敢多話。

陳知禮瞥他一眼,離開前“好心”警醒:“再有下次,你自己打包走人,我這裏不歡迎夾帶私欲的人,懂吧?”

“懂懂懂。”

成帥點頭,戰戰兢兢地離開。

寂靜的走廊剩下兩人,沉默的氣氛有點令人發黃。

是他把她叫過來的,唐念還以為他會主動開口說點什麽,哪知陳知禮壓根沒搭理她,轉身就走,留唐念局促地站在原地。

她站著思考了半分鐘,最後還是硬著頭皮跟了過去。

辦公室的門沒關。

唐念敲了敲門,杵在門口罰站。

陳知禮的目光在她身上停了片刻,不帶什麽情緒:“進來。”

唐念挪了個位置繼續罰站。

陳知禮擡了擡下巴,對著桌對面的電腦說:“查收一下郵件,有服務器密碼,去把數據分類統計一下。”

這是要讓她幹活?

好的。

有事做總比尷尬站著要好。

唐念麻利地走到電腦後,登上自己的郵箱,最新一條未讀郵件來自chenzl@anju.edu.cn

任務是要她給一堆中醫藥材分類。

唐念根據提示登進服務器,數據是從74萬篇中醫古籍中采集出來的6.5萬種藥材,裏面有很多別名、錯名、重復等幹擾項,需要先刪除重復、冗余或噪聲數據,再人工標注並對數據進行歸類。

唐念以前做過機器學習方面的比賽,懂得歸類問題的基本步驟,一般先是建立詞匯表,獲取每個詞的embedding,然後使用CNN進行特征提取,最後挑選算法做二分類。

唐念憑借多年工作形成的肌肉記憶,搭建了個算法框架,把6.5萬條數據灌進去,結果出來後拿著對照組驗證準確度。

陳知禮從辦公桌前走出,走到她身後,只掃一眼得出結論:“過擬合了,重測。”

“……”

唐念只好刪掉記錄,又重新跑了一遍,陳知禮看一眼,仍不滿意:“我說的重測是讓你換一種算法,不是讓你拿著3000萬美金的GPU在這磨時間,消耗性能,OK?”

“……”

那你一開始說清楚啊!

“還有,你樣本選的有問題,SMOTE得到的增強樣本有誤差,可能已經偏離了原來的語義,大概是文本embedding後距離向量處於高維空間,需要映射到低維再處理。”

唐念沒聽懂,一臉茫然地看著他。

“看我幹什麽,數據增強不會做就去查資料,瞪著一雙大眼只會喘氣嗎?”

他的火氣太明顯,唐念懂了,他根本就不是讓她來幹活的,尋個理由拿她撒氣罷了,所以無論她做什麽都不可能令他滿意。

“你說話就說話,大聲吼什麽,我怕狗叫!”

她最近根本沒得罪他,上課不遲到,文獻也好好翻譯完了,都不知道他在這發的什麽神經。

當然,犯病是不需要理由的。

陳知禮目光忽然移過來,唐念也看著他,四目相對,誰也不服誰。

唐念是娃娃臉的長相,眼睛圓,皮膚奶白,鼻頭微翹,齊劉海蓋住細長的眉,五官精致得像漫畫裏走出的少女。

此刻她正直勾勾瞪著他,有點奶兇奶兇的。

陳知禮冷淡地回視一眼,眼神嘲諷:“這不是挺會懟嘛。”

“……”

“跟我就能伶牙俐齒,怎麽被別人欺負的時候嘴皮子就沒這麽溜,只會點頭哈腰說對不起了。”

“你跟他道的什麽歉,難道就聽不出來他是在故意找你麻煩?”

“你脾氣越好他就越是得寸進尺,這個道理都不懂?”

雖然他這話說的很不中聽,但似乎是在為她謀不平,唐念還真不需要:“不用你管。”

她坐回電腦前繼續工作,把幾個算法梳理一遍,調參重跑,想早點幹完,早點離開是非之地。

“沒人想管你。”

陳知禮也沒心情和她吵,接了個電話。

隨後,把門闔上,下樓去了。

是韓琦教授團隊打來的電話。

這次合作他們負責數據的采集和入庫,以建立大型中醫漢語語料庫。這些數據不僅來源傳統中醫知識,還可能來自網頁數據、小說數據、各大醫院問診、手寫醫囑等,數據的整理和收集就變得非常繁瑣且復雜。

韓琦教授團隊畢竟只精通中醫,不懂技術,所以陳知禮這邊會給予技術支持。

“陳老師有時間嗎?”

“你說。”

“我們目前已經把45家中醫院校還有400多家中醫機構的診斷記錄收集起來,目前有個問題是這類資料大多是手寫,字跡潦草,我們很難用掃描識別的方式轉化為電子版,人工辨別的話則成本太高,您這邊有沒有好的辦法?”