《科創(chuàng)板日報》8月25日訊(記者 黃心怡)近年來,由深度學(xué)習(xí)帶來的人工智能商業(yè)化應(yīng)用落地,極大地推動了AI基礎(chǔ)數(shù)據(jù)服務(wù)的需求。根據(jù)咨詢機構(gòu)IDC的數(shù)據(jù),預(yù)計2025年,AI基礎(chǔ)數(shù)據(jù)服務(wù)總市場規(guī)模將突破120億元。
(相關(guān)資料圖)
日前,位于??谑行阌^(qū)的百度智能云(??冢┤斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地正式啟動運營。數(shù)百名大學(xué)生入駐基地,成為新興的人工智能AI訓(xùn)練師。
《科創(chuàng)板日報》記者實地走訪了基地,并親自上手體驗了一把數(shù)據(jù)標(biāo)注。在當(dāng)前的AI大模型時代,數(shù)據(jù)標(biāo)注的質(zhì)量會影響大模型的“智商”。這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),必須經(jīng)過清洗與標(biāo)注處理,才能變成機器可理解、可學(xué)習(xí)的數(shù)據(jù)。
海口市秀英區(qū)委常委、常務(wù)副區(qū)長石晟屹在采訪中表示,該基地在未來三到五年,新增就業(yè)有望突破5000人規(guī)模。“這些年??谑幸恢痹谔剿鳎鳛楹D献再Q(mào)港的省會城市核心區(qū),需要千億級園區(qū)、百億級產(chǎn)業(yè)、十億級的項目。而數(shù)字經(jīng)濟是我們找到的鑰匙,人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地的落地只是開始,后續(xù)將在??诮ǜ笠?guī)模數(shù)字產(chǎn)業(yè)園區(qū)?!?
▍AI數(shù)據(jù)標(biāo)注師對能力要求高!本科學(xué)歷100%
走進位于??跀?shù)據(jù)標(biāo)注基地,記者看到一群大模型標(biāo)注師正在借助數(shù)據(jù)標(biāo)注平臺對大模型生成的內(nèi)容數(shù)據(jù)進行打分、排序。
百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負(fù)責(zé)人胡馳介紹,由于大模型對同一個問題每次都生成不一樣的答案,導(dǎo)致回答的穩(wěn)定性會存疑。“有時答得很好,有時則答非所問。數(shù)據(jù)標(biāo)注師的作用就像是大模型的專業(yè)輔導(dǎo)老師,讓模型的回答更有質(zhì)量。通過不斷地人工標(biāo)注,讓大模型的表現(xiàn)與人類的價值觀、思維方式不斷地對齊,最終能像人一樣,解決很多實際的問題。”
記者在現(xiàn)場體驗了一把數(shù)據(jù)標(biāo)注師的工作。對于每個問題,大模型生成5個不同的回答,然后數(shù)據(jù)標(biāo)注師根據(jù)一套完整的評分規(guī)則,來給回答進行打分。滿分為5分,如果分值低于3分,就需要在回答中劃詞指出,哪些句子存在答非所問、事實性錯誤等情況。
從記者的實操來看,大模型的數(shù)據(jù)標(biāo)注具有一定的門檻。不僅需要判斷回答有沒有跑題、有沒有事實性錯誤,還需要判斷是否存在邏輯性問題、語義重復(fù)問題等等。涉及代碼、法律、醫(yī)療等專業(yè)領(lǐng)域的對話,數(shù)據(jù)標(biāo)注師則必須具備行業(yè)知識。
胡馳表示,相比傳統(tǒng)模型,大模型數(shù)據(jù)標(biāo)注需要一套全新的標(biāo)注組織形式,對標(biāo)注人員提出了更高的要求。這是由于傳統(tǒng)的模型標(biāo)注在規(guī)則上偏客觀,而大模型的回答偏主觀,要求標(biāo)注師具備一定理解力、邏輯思維、總結(jié)能力。
《科創(chuàng)板日報》記者在現(xiàn)場獲悉,??跇?biāo)注基地的數(shù)百名數(shù)據(jù)標(biāo)注師,學(xué)歷本科率達(dá)到100%,招聘專業(yè)包括新聞系、中文系等。傳統(tǒng)模型標(biāo)注人員學(xué)歷則普遍在中專及以上。在入職的前兩個月,數(shù)據(jù)標(biāo)注師需要進行集體培訓(xùn)和考核,通過考核后才能正式上崗,薪酬結(jié)算方式是計件制、多勞多得。
在完成數(shù)據(jù)標(biāo)注后,百度會對大模型重新訓(xùn)練,并對更新后的大模型能力進行評估,對不足的地方再進行人工標(biāo)注,通過這樣的閉環(huán)把整體模型質(zhì)量不斷提升和迭代。
2020年2月,人社部《關(guān)于擬發(fā)布新職業(yè)信息公示的通告》中 “人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄。2022年全國約需要200萬AI訓(xùn)練師。
記者了解到,海口標(biāo)注基地在未來三到五年,新增就業(yè)有望突破5000人規(guī)模。目前百度已經(jīng)在全國與各地政府合作,共建了十多個數(shù)據(jù)標(biāo)注基地,累計為當(dāng)?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。
▍劍指百億產(chǎn)值!??趯⒔ㄔO(shè)更大規(guī)模數(shù)字產(chǎn)業(yè)園區(qū)
這次啟動運營的??跀?shù)據(jù)標(biāo)注基地,坐落于秀英區(qū)濱海大道。??谑行阌^(qū)委常委、常務(wù)副區(qū)長石晟屹在接受《科創(chuàng)板日報》記者采訪時表示,去年??诘乃膫€區(qū)里面,秀英區(qū)是數(shù)字經(jīng)濟唯一實現(xiàn)正增長的。
“如果要在海南自貿(mào)港核心區(qū)建設(shè)中走在前列的話,秀英區(qū)必須探索一些新的思路。從去年的數(shù)據(jù)來看,全球數(shù)字經(jīng)濟在經(jīng)濟總量的占比接近40%,中國數(shù)字經(jīng)濟在GDP的占比超過了55%。未來已來,特別是AI產(chǎn)業(yè)的發(fā)展堪稱日新月異。這是我們找到的鑰匙,秀英要大力發(fā)展數(shù)字經(jīng)濟。”
石晟屹透露,目前秀英區(qū)將從兩方面入手。一是產(chǎn)業(yè)數(shù)字化?!靶阌^(qū)從省級重點園區(qū)、市級園區(qū)到區(qū)里自有的園區(qū)有將近十來個,已經(jīng)孵化了一大批生物醫(yī)藥類和工程機械制造類的企業(yè),未來會為秀英區(qū)傳統(tǒng)產(chǎn)業(yè)的升級改造提供支持?!?/p>
其次是數(shù)字產(chǎn)業(yè)化。石晟屹表示,數(shù)據(jù)標(biāo)注基地的落地只是開始,后續(xù)將圍繞1平臺——海口數(shù)字科技創(chuàng)新平臺,3基地——百度智能云(海口)人工智能數(shù)據(jù)標(biāo)注基地、百度智算基地、百度元宇宙產(chǎn)業(yè)基地,5中心——飛槳產(chǎn)業(yè)賦能中心、城市數(shù)字化運營中心、數(shù)字化展示體驗中心、交付服務(wù)中心、數(shù)字化培訓(xùn)賦能中心,來開展建設(shè)。
在此基礎(chǔ)上,??谶€將推動AI數(shù)字港在西海岸的核心區(qū)域的落地。“我們希望引進更多的類似于百度這樣的數(shù)字企業(yè),形成更大規(guī)模的數(shù)字產(chǎn)業(yè)園區(qū)。我們的計劃是100畝地、100億產(chǎn)值,近10億稅收,在三到五年大概達(dá)到這樣的程度。五年后能實現(xiàn)500億的產(chǎn)值。” 石晟屹說。
廣告
X 關(guān)閉
廣告
X 關(guān)閉