小紅書(shū)/華為/海外lab,堅(jiān)持實(shí)習(xí)教會(huì)我什么?
收藏已取消
收藏成功
已添加至{{ selectCollectNames.join(',') }}
{{!collectStatus ? '收藏' : '已收藏'}}
指南者留學(xué) Journey
2022年12月04日
閱讀量:1964
<p style="text-align: justify;"><img style="width: 808px; height: 61px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/sucai/content/1669967937792/1669967937792.png" width="808" height="61" /></p>
<p style="text-align: center;">個(gè)人實(shí)習(xí)背景:本科一段華為,碩士?jī)啥?,一段海外諾亞方舟lab,一段小紅書(shū)。<br /><img style="width: 808px; height: 606px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_php5BwXoc.jpg" width="808" height="606" /><img src="https://info.compassedu.hk/info_imgUrl_php3N0Cm5.jpg" width="808" height="1077" /></p>
<p style="text-align: center;"><img style="width: 808px; height: 582px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpeAWrZR.jpg" width="808" height="582" /><span class="h6">(小紅書(shū))</span></p>
<p style="text-align: center;"><img style="width: 808px; height: 539px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpv6v3vh.jpg" width="808" height="539" /><span class="h6">(諾亞)</span></p>
<p style="text-align: center;"><img style="width: 808px; height: 606px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpFaMhzo.jpg" width="808" height="606" /><span class="h6">(華為)</span></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">都去實(shí)習(xí)!</span></strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">早點(diǎn)去實(shí)習(xí)!不是慫恿大家都去卷,拋開(kāi)實(shí)習(xí)中可能會(huì)碰到的方方面面的困難,但不可否認(rèn),實(shí)習(xí)確實(shí)可以<strong>縮小自己在校園階段的認(rèn)知和市場(chǎng)真正需求之間的gap</strong>,同時(shí)也是在實(shí)踐中找到真正的興趣點(diǎn)和方向的最快途徑,因?yàn)樵谟袘?yīng)屆生身份期間,我們的試錯(cuò)成本相對(duì)比較低,雖然上班了也可以試錯(cuò),但代價(jià)可能就是被開(kāi)除了。我也是在實(shí)習(xí)中不斷試錯(cuò)和摸索,逐漸在<strong>系統(tǒng),研究和業(yè)務(wù)三大板塊</strong>中橫向比較自己到底更適合哪種工作內(nèi)容和作息。</p>
<p style="text-align: justify;"><br />同時(shí),實(shí)習(xí)也是培養(yǎng)自己向上社交的地方,跟上一個(gè)好mentor,是很可能會(huì)起飛的,比如我就有朋友在微軟和百度跟leader出了1作頂會(huì),直接被強(qiáng)推去直博了;亦或是有一個(gè)氛圍很好的團(tuán)隊(duì),我開(kāi)始健身就是因?yàn)閳F(tuán)隊(duì)主任經(jīng)常喊實(shí)習(xí)生去樓下健身房鍛煉,周三下班打籃球,一塊食堂吃飯和傍晚園區(qū)跑步,這對(duì)后期逐漸養(yǎng)成鍛煉習(xí)慣有很大幫助,作為團(tuán)隊(duì)老大,leader一直通過(guò)實(shí)際行動(dòng)在帶動(dòng)大家,不管是在工作和強(qiáng)身健體上,都是有正向作用的。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">系統(tǒng),研究,業(yè)務(wù)崗實(shí)習(xí)體驗(yàn)</span></strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">1:<strong>系統(tǒng):三者中對(duì)基本功和底層理解要求最高的</strong>,一般來(lái)說(shuō)寫(xiě)架構(gòu)或者系統(tǒng),得精通C++,golang,CUDA等相對(duì)門(mén)檻較高的編程語(yǔ)言,走system track是三者里最容易轉(zhuǎn)CTO的,也就是all in 技術(shù);缺點(diǎn)也是同樣,<strong>門(mén)檻高,難度較大</strong>,適合編程能力和智商較高的同學(xué);</p>
<p style="text-align: justify;"><br />2:<strong>研究:三者中相對(duì)比較work life balance</strong> ,一般來(lái)說(shuō)就是讀最新論文,找問(wèn)題,提出idea,做實(shí)驗(yàn)驗(yàn)證idea,投論文或者相關(guān)國(guó)際評(píng)測(cè)比賽(俗稱刷榜),個(gè)人覺(jué)得研究崗優(yōu)勢(shì)就是不會(huì)太忙,時(shí)間相對(duì)自由;缺點(diǎn)是一般<strong>門(mén)檻較高,校招研究工程師基本是phd了</strong>,然后目前也只有大公司會(huì)有l(wèi)ab,但也在做產(chǎn)研結(jié)合了,還是會(huì)為了技術(shù)落地的;</p>
<p style="text-align: justify;"><br />3:<strong>業(yè)務(wù):三者中相對(duì)賺錢(qián)最快的崗位</strong>,比如推薦/廣告算法這種,阿里廣告一年收入將近3000億,其實(shí)主要靠的就是算法和工程這塊帶來(lái)的變現(xiàn),因此這也是大部分同學(xué)比較適合的方向;缺點(diǎn)就是<strong>加班多,比較累,校招核心業(yè)務(wù)組難度較大</strong>(內(nèi)卷),對(duì)候選人的綜合能力要求比較高;</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">實(shí)習(xí)的收獲</span></strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>01 數(shù)據(jù)決定天花板</strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">技術(shù)崗或多或少都要和各種數(shù)據(jù)打交道,所以我們要深入理解數(shù)據(jù),直觀感受線上線下指標(biāo)波動(dòng)。</p>
<p style="text-align: justify;"><br />在學(xué)校,基本所有深度學(xué)習(xí)項(xiàng)目是離線進(jìn)行的,也就是說(shuō)一般會(huì)在1-多個(gè)bench-mark(公開(kāi)權(quán)威數(shù)據(jù)集上做各種實(shí)驗(yàn)),但是這些數(shù)據(jù)集往往都是清洗好的,做個(gè)數(shù)據(jù)管道就可以喂到模型里,但實(shí)踐生產(chǎn)中,<strong>數(shù)據(jù)要復(fù)雜的多</strong>,比如很多數(shù)據(jù)是雜亂缺失的,數(shù)據(jù)分布極為不均衡(有些類別有幾w個(gè)樣本,有的只有幾十條),以及<strong>很多數(shù)據(jù)標(biāo)簽不完備,甚至沒(méi)有標(biāo)注</strong>,因此為了提高數(shù)據(jù)集質(zhì)量,我們需要先單獨(dú)通過(guò)一些半監(jiān)督/自監(jiān)督模型去預(yù)測(cè)原始數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽,再撰寫(xiě)標(biāo)注文檔,送標(biāo)進(jìn)行人工復(fù)核(對(duì)接標(biāo)注團(tuán)隊(duì),進(jìn)行人工復(fù)核)。</p>
<p style="text-align: justify;"><br /><strong>02 學(xué)會(huì)多指標(biāo)協(xié)同評(píng)估結(jié)果</strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">緊接著,算法團(tuán)隊(duì)拿到這些標(biāo)注好的數(shù)據(jù),這時(shí)候,一般需要結(jié)合業(yè)務(wù)場(chǎng)景去進(jìn)行模型選型,甚至還需要去調(diào)研一些最新開(kāi)源的論文中的模型并嘗試復(fù)現(xiàn)和根據(jù)輸入做適應(yīng)性改進(jìn)。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">當(dāng)一些指標(biāo)穩(wěn)定后(比如召回,map,AUC,F1等),將模型送給數(shù)據(jù)分析/產(chǎn)品交付團(tuán)隊(duì)進(jìn)行<strong>線上全量數(shù)據(jù)測(cè)試</strong>,理想的話,就可以算作驗(yàn)收和上線了,但是大概率會(huì)有一些問(wèn)題反饋或者被打回來(lái)進(jìn)行修改,比如線上線下數(shù)據(jù)/特征分布不一致導(dǎo)致需要重新構(gòu)造數(shù)據(jù)集的正負(fù)樣本/分析特征分布來(lái)<strong>改進(jìn)模型構(gòu)造策略</strong>,同時(shí),除觀測(cè)一些動(dòng)態(tài)指標(biāo)外,我們?nèi)匀恍枰紤]<strong>上線后性能開(kāi)銷等</strong>,有時(shí)甚至需要損失一定精度去保模型可以部署在端側(cè)(移動(dòng)端,云端等),熟悉NLP的同學(xué)知道,很多時(shí)候直接上預(yù)訓(xùn)練模型是很難直接上線的(Bert,T5等,模型參數(shù)量有的達(dá)到幾十個(gè)G),因此<strong>評(píng)價(jià)一個(gè)算法或者技術(shù)方案好壞其實(shí)是多維度的</strong>,并不僅僅依賴于幾個(gè)數(shù)學(xué)指標(biāo)!</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">因此整個(gè)流程走下來(lái),是一環(huán)扣一環(huán)的,除了要深刻理解數(shù)據(jù)外,<strong>有較好的論文檢索和快速的代碼復(fù)現(xiàn)能力</strong>也是很重要,因?yàn)樵谄髽I(yè)是要講究效率的,沒(méi)有太多時(shí)間放松下來(lái),當(dāng)然作為實(shí)習(xí)生一開(kāi)始往往都有些不太適應(yīng),這時(shí)候需要及時(shí)和mentor反饋和尋求組里幫助,該說(shuō)就要說(shuō)!最后,如何和不同團(tuán)隊(duì)進(jìn)行有效溝通和對(duì)接也是項(xiàng)目拉通/對(duì)齊與否的關(guān)鍵,作為實(shí)習(xí)生,主管也讓我們?nèi)虆⑴c到他們的OKR中,學(xué)習(xí)和鍛煉項(xiàng)目拆解/業(yè)務(wù)理解能力。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>03 鍛煉實(shí)際場(chǎng)景問(wèn)題分析與思考</strong><br /><br /></p>
<p style="text-align: justify;">為了解決實(shí)際業(yè)務(wù)問(wèn)題,我們需要分析問(wèn)題,但具體怎么分析比較寬泛,比如不妨我們一塊來(lái)思考一個(gè)問(wèn)題,<strong>老板讓團(tuán)隊(duì)在一個(gè)月內(nèi)從0-1搭建一個(gè)面向美妝場(chǎng)景的垂類搜索框架,怎么去構(gòu)思?</strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>數(shù)據(jù):</strong></p>
<ul>
<li style="text-align: justify;">目前有大規(guī)模數(shù)據(jù)么?有合作方提供還是需要去購(gòu)買(mǎi)(taobao/shopee/shein)?</li>
<li style="text-align: justify;">獲取數(shù)據(jù)后,需要做EDA,數(shù)據(jù)質(zhì)量如何(缺失,長(zhǎng)尾現(xiàn)象)?</li>
<li style="text-align: justify;">有沒(méi)有小樣本甚至零樣本情況?標(biāo)注情況(如果標(biāo)注不準(zhǔn),需要更新送標(biāo)文件)?</li>
<li style="text-align: justify;">美妝類商品樣本的語(yǔ)義空間是什么,是集中的還是零散的?</li>
<li style="text-align: justify;">有多少數(shù)據(jù)可以進(jìn)一步挖掘,有多大難度(是否需要先做聚類,是否需要構(gòu)造正負(fù)樣本集)?</li>
<li style="text-align: justify;">品牌別名出現(xiàn)概率大么?需要做相關(guān)數(shù)據(jù)挖掘么?</li>
<li style="text-align: justify;">是否公司已有相關(guān)詞庫(kù),如果沒(méi)有需要盡快構(gòu)建,構(gòu)建過(guò)程中的新詞挖掘怎么做?是否有必要進(jìn)行領(lǐng)域預(yù)訓(xùn)練增強(qiáng)模型感知特定領(lǐng)域詞匯能力?</li>
<li style="text-align: justify;">除了文本,是否需要跨膜態(tài)數(shù)據(jù)?(圖像,短視頻等)</li>
</ul>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>應(yīng)用場(chǎng)景:</strong></p>
<ul>
<li style="text-align: justify;">性能要求和硬件要求?(移動(dòng)端還是網(wǎng)頁(yè)端?遲延要求多少毫秒?),由于性能原因,語(yǔ)言模型、大型詞典可能不會(huì)被使用。</li>
<li style="text-align: justify;">類別的名詞性質(zhì)是什么,是否需要足夠的名詞信息來(lái)支持?</li>
<li style="text-align: justify;">建索引這塊數(shù)據(jù)庫(kù)選?。?lt;/li>
<li style="text-align: justify;">美妝商品類目體系如何建立或者快速匹配已有商品庫(kù)?</li>
<li style="text-align: justify;">Badcase多不多?是否需要直接上規(guī)則約束?上多少比例規(guī)則?</li>
<li style="text-align: justify;">需要的泛化能力是什么?例如如是粵語(yǔ)/俚語(yǔ),那么泛化能力需要更強(qiáng),泛化能力則需要來(lái)自于遷移能力好的模型,無(wú)論</li>
<li style="text-align: justify;">分類模型還是搜索的語(yǔ)義匹配模型,如何選取適配的模型?</li>
<li style="text-align: justify;">是否需要多模態(tài)模型?多模態(tài)預(yù)訓(xùn)練這塊團(tuán)隊(duì)有人擅長(zhǎng)么?</li>
<li style="text-align: justify;">維護(hù)的詞匯表需要的更新頻率呢?定期更新的頻率會(huì)更高,而更新頻率較高的部分,用文本分類會(huì)受到限制。</li>
</ul>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">實(shí)質(zhì)上,這是實(shí)際業(yè)務(wù)場(chǎng)景中需要考慮的方方面面的縮影,同時(shí),我們更要從工程師角度去看待不同模塊之間的耦合,努力做到滿足業(yè)務(wù)/用戶需求的同時(shí),比如可以繼續(xù)追求算法/硬件之間的協(xié)同優(yōu)化,減少企業(yè)性能開(kāi)銷。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">什么樣的項(xiàng)目更吸引面試官?</span></strong></p>
<p style="text-align: justify;"> </p>
<ul>
<li style="text-align: justify;"><strong>只要是流程完整,有自己理解和思考的經(jīng)歷都屬于項(xiàng)目經(jīng)歷。</strong></li>
</ul>
<p style="text-align: justify;"><br />很多人局限于必須要頂會(huì),但是頂會(huì)不是一般同學(xué)可以發(fā)的,同時(shí)不對(duì)口的paper在面試官看來(lái)一樣可能沒(méi)啥吸引力,因此不論有無(wú)好paper,真正掌握實(shí)操經(jīng)驗(yàn)才是最重要的。</p>
<p style="text-align: justify;"><br />要明白算法重要的不是你使用了什么技術(shù),而是<strong>使用它的動(dòng)機(jī)和理論依據(jù)</strong>,比方說(shuō),很多項(xiàng)目,用的都不是單一的技術(shù),模型;有些場(chǎng)景,用規(guī)則反而比深度學(xué)習(xí)模型效果更好;有些場(chǎng)景,樹(shù)模型效果特好,優(yōu)于神經(jīng)網(wǎng)絡(luò);有些場(chǎng)景,需要模型具備很好的泛化能力等。</p>
<p style="text-align: justify;"> </p>
<ul>
<li style="text-align: justify;"><strong>要想順利通過(guò)面試,就要站在面試官的角度去想問(wèn)題。</strong></li>
</ul>
<p style="text-align: justify;"><br />這兩年隨著崗位飽和或者企業(yè)降本增效,公司作為招聘方,更關(guān)注項(xiàng)目落地的可行性,不喜歡假大空選手。因?yàn)檎腥诉M(jìn)來(lái)是要把項(xiàng)目推進(jìn)起來(lái)并最終落地產(chǎn)生收益,請(qǐng)放下一些學(xué)生思維,比如我拿了xxx獎(jiǎng)學(xué)金,我GPA一直第一,誠(chéng)然確實(shí)優(yōu)秀,不過(guò)這在企業(yè)看來(lái),并不能<strong>體現(xiàn)你能產(chǎn)生商業(yè)價(jià)值或者有靈敏的思維和潛力</strong>,所以公司可能會(huì)去要一個(gè)績(jī)點(diǎn)不高但是動(dòng)手能力很強(qiáng)的同學(xué),這是現(xiàn)狀,也很正常。</p>
<p style="text-align: justify;"><br />最后,實(shí)習(xí)不就是為了見(jiàn)識(shí)不同類型的企業(yè)和文化嗎?也能讓你了解到自己想要什么和將來(lái)的方向,過(guò)程中難免有不開(kāi)心,委屈,不理解或者疲憊,<strong>不要內(nèi)耗就好,當(dāng)作成長(zhǎng),其實(shí)是件好事</strong>,當(dāng)然如果很不幸,部門(mén)存在pua或者實(shí)習(xí)內(nèi)容太水,比如純打雜學(xué)不到新東西等,也不要勉強(qiáng)自己,直接提離職就好。</p>
<p style="text-align: justify;"><img style="width: 808px; height: 188px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/sucai/content/1669967949311/1669967949311.png" width="808" height="188" /></p>