当前任成了科研大佬后 第16节(2 / 4)
“……”成帅怔了两秒,立即跟唐念道歉:“对不起,是我脑子不清醒,我给师妹道歉。”
唐念没出声,也没接受他的道歉。
成帅脸色青一块白一块的,被女生拒绝已经很丢人了,pua还被小老板听见,他真的想死的心都有了。
他张了张口,想给自己辩解几句,心里又实在有些怕他,只没敢多话。
陈知礼瞥他一眼,离开前“好心”警醒:“再有下次,你自己打包走人,我这里不欢迎夹带私欲的人,懂吧?”
“懂懂懂。”
成帅点头,战战兢兢地离开。
寂静的走廊剩下两人,沉默的气氛有点令人发黄。
是他把她叫过来的,唐念还以为他会主动开口说点什么,哪知陈知礼压根没搭理她,转身就走,留唐念局促地站在原地。
她站着思考了半分钟,最后还是硬着头皮跟了过去。
办公室的门没关。
唐念敲了敲门,杵在门口罚站。
陈知礼的目光在她身上停了片刻,不带什么情绪:“进来。”
唐念挪了个位置继续罚站。
陈知礼抬了抬下巴,对着桌对面的电脑说:“查收一下邮件,有服务器密码,去把数据分类统计一下。”
这是要让她干活?
好的。
有事做总比尴尬站着要好。
唐念麻利地走到电脑后,登上自己的邮箱,最新一条未读邮件来自<a href="mailto:<a href="mailto:chenzl@anju.edu.cn">chenzl@anju.edu.cn">chenzl@anju.edu.cn">henzl@anju.edu.cn</a>">c<a href="mailto:henzl@anju.edu.cn">henzl@anju.edu.cn">henzl@anju.edu.cn">enzl@anju.edu.cn</a></a>
任务是要她给一堆中医药材分类。
唐念根据提示登进服务器,数据是从74万篇中医古籍中采集出来的6.5万种药材,里面有很多别名、错名、重复等干扰项,需要先删除重复、冗余或噪声数据,再人工标注并对数据进行归类。
唐念以前做过机器学习方面的比赛,懂得归类问题的基本步骤,一般先是建立词汇表,获取每个词的embedding,然后使用cnn进行特征提取,最后挑选算法做二分类。
唐念凭借多年工作形成的肌肉记忆,搭建了个算法框架,把6.5万条数据灌进去,结果出来后拿着对照组验证准确度。
陈知礼从办公桌前走出,走到她身后,只扫一眼得出结论:“过拟合了,重测。”
“……”
唐念只好删掉记录,又重新跑了一遍,陈知礼看一眼,仍不满意:“我说的重测是让你换一种算法,不是让你拿着3000万美金的gpu在这磨时间,消耗性能,ok?”
“……”
那你一开始说清楚啊!
“还有,你样本选的有问题,smote得到的增强样本有误差,可能已经偏离了原来的语义,大概是文本embedding后距离向量处于高维空间,需要映射到低维再处理。”
唐念没听懂,一脸茫然地看着他。 ↑返回顶部↑
唐念没出声,也没接受他的道歉。
成帅脸色青一块白一块的,被女生拒绝已经很丢人了,pua还被小老板听见,他真的想死的心都有了。
他张了张口,想给自己辩解几句,心里又实在有些怕他,只没敢多话。
陈知礼瞥他一眼,离开前“好心”警醒:“再有下次,你自己打包走人,我这里不欢迎夹带私欲的人,懂吧?”
“懂懂懂。”
成帅点头,战战兢兢地离开。
寂静的走廊剩下两人,沉默的气氛有点令人发黄。
是他把她叫过来的,唐念还以为他会主动开口说点什么,哪知陈知礼压根没搭理她,转身就走,留唐念局促地站在原地。
她站着思考了半分钟,最后还是硬着头皮跟了过去。
办公室的门没关。
唐念敲了敲门,杵在门口罚站。
陈知礼的目光在她身上停了片刻,不带什么情绪:“进来。”
唐念挪了个位置继续罚站。
陈知礼抬了抬下巴,对着桌对面的电脑说:“查收一下邮件,有服务器密码,去把数据分类统计一下。”
这是要让她干活?
好的。
有事做总比尴尬站着要好。
唐念麻利地走到电脑后,登上自己的邮箱,最新一条未读邮件来自<a href="mailto:<a href="mailto:chenzl@anju.edu.cn">chenzl@anju.edu.cn">chenzl@anju.edu.cn">henzl@anju.edu.cn</a>">c<a href="mailto:henzl@anju.edu.cn">henzl@anju.edu.cn">henzl@anju.edu.cn">enzl@anju.edu.cn</a></a>
任务是要她给一堆中医药材分类。
唐念根据提示登进服务器,数据是从74万篇中医古籍中采集出来的6.5万种药材,里面有很多别名、错名、重复等干扰项,需要先删除重复、冗余或噪声数据,再人工标注并对数据进行归类。
唐念以前做过机器学习方面的比赛,懂得归类问题的基本步骤,一般先是建立词汇表,获取每个词的embedding,然后使用cnn进行特征提取,最后挑选算法做二分类。
唐念凭借多年工作形成的肌肉记忆,搭建了个算法框架,把6.5万条数据灌进去,结果出来后拿着对照组验证准确度。
陈知礼从办公桌前走出,走到她身后,只扫一眼得出结论:“过拟合了,重测。”
“……”
唐念只好删掉记录,又重新跑了一遍,陈知礼看一眼,仍不满意:“我说的重测是让你换一种算法,不是让你拿着3000万美金的gpu在这磨时间,消耗性能,ok?”
“……”
那你一开始说清楚啊!
“还有,你样本选的有问题,smote得到的增强样本有误差,可能已经偏离了原来的语义,大概是文本embedding后距离向量处于高维空间,需要映射到低维再处理。”
唐念没听懂,一脸茫然地看着他。 ↑返回顶部↑