日韩欧美福利视频_99久久免费精品国产72精品九九_国产中文字幕一区二区三区_亚洲国产一区二区精品视频

中國金屬材料流通協(xié)會,歡迎您!

English服務(wù)熱線:010-59231580

搜索

中國信通院李蓀等:從“經(jīng)驗驅(qū)動”向“標(biāo)準(zhǔn)驅(qū)動”,推動人工智能高質(zhì)量數(shù)據(jù)集建設(shè)

  隨著大模型技術(shù)的迅猛發(fā)展,數(shù)據(jù)集作為人工智能核心三要素之一,在算法趨同、算力普惠的競爭環(huán)境中正在構(gòu)建難以復(fù)制的差異化壁壘。高質(zhì)量數(shù)據(jù)集的建設(shè)是提升AI模型性能的關(guān)鍵,也是推動“人工智能+”行動落地的保障,標(biāo)志著人工智能發(fā)展正在進入“數(shù)據(jù)驅(qū)動”新階段。


一、高質(zhì)量數(shù)據(jù)集成為人工智能應(yīng)用升級的核心要素

1. “人工智能+數(shù)據(jù)要素”協(xié)同推動高質(zhì)量數(shù)據(jù)集建設(shè)

  2025年2月,高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動會在京召開,27個國家部委代表參加,會議落實“人工智能+”行動,推動高質(zhì)量數(shù)據(jù)集建設(shè),高效賦能行業(yè)發(fā)展。北京、遼寧、河北、貴州等地積極推動人工智能高質(zhì)量數(shù)據(jù)集建設(shè),開放重點行業(yè)領(lǐng)域數(shù)據(jù)集,打造“AI數(shù)據(jù)工廠”,為高質(zhì)量數(shù)據(jù)集的建設(shè)和應(yīng)用提供了有力的政策保障。


2. 大模型技術(shù)突破性進展重構(gòu)了數(shù)據(jù)工程范式

  DeepSeek通過自動化推理和數(shù)據(jù)生成技術(shù),實現(xiàn)數(shù)據(jù)標(biāo)注方式的智能化升級;采用數(shù)據(jù)蒸餾技術(shù)提煉低質(zhì)數(shù)據(jù)有效信息,結(jié)合自動化篩選與人類專家反饋機制,形成“機器預(yù)處理+人工校準(zhǔn)”的雙層質(zhì)檢流程;運用強化學(xué)習(xí)框架,聚焦推理能力培養(yǎng),構(gòu)建了包含60萬條推理型樣本與20萬條非推理型樣本的訓(xùn)練集,優(yōu)化模型架構(gòu)。


3. 數(shù)據(jù)已成為人工智能行業(yè)應(yīng)用落地的核心護城河

  在算法趨同、算力普惠的背景下,高質(zhì)量、高價值密度的數(shù)據(jù)資源構(gòu)建起企業(yè)差異化競爭力。垂直領(lǐng)域的數(shù)據(jù)壁壘通過業(yè)務(wù)場景閉環(huán)持續(xù)積累,形成模型性能的代際優(yōu)勢。“數(shù)據(jù)-算法-應(yīng)用”相互強化的生態(tài)閉環(huán)的形成,將確立難以復(fù)制的戰(zhàn)略壁壘。


二、高質(zhì)量數(shù)據(jù)集建設(shè)“三大難點”

  當(dāng)前,高質(zhì)量數(shù)據(jù)集建設(shè)正處于探索階段,主要面臨目標(biāo)定位模糊化、實施路徑碎片化與技術(shù)底座薄弱化三重挑戰(zhàn)。


1. 目標(biāo)定位模糊化

  數(shù)據(jù)集建設(shè)常陷入“為數(shù)據(jù)而數(shù)據(jù)”的誤區(qū),智能場景需求與數(shù)據(jù)集建設(shè)目標(biāo)脫節(jié),企業(yè)未將數(shù)據(jù)工程目標(biāo)與核心業(yè)務(wù)指標(biāo)深度綁定,導(dǎo)致數(shù)據(jù)價值難以轉(zhuǎn)化為模型性能提升。


2. 實施路徑碎片化

  從數(shù)據(jù)采集到模型訓(xùn)練的全鏈路缺乏系統(tǒng)性規(guī)劃和設(shè)計,無法形成體系化數(shù)據(jù)集構(gòu)建和維護機制,造成多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)難統(tǒng)一、跨部門跨層級難協(xié)作,致使清洗、標(biāo)注等數(shù)據(jù)處理成本激增。


3. 技術(shù)底座薄弱化

  現(xiàn)有數(shù)據(jù)處理技術(shù)難以應(yīng)對復(fù)雜人工智能場景需求,多模態(tài)數(shù)據(jù)處理能力不足,制約模型迭代與應(yīng)用規(guī)模化。同時,缺乏適配行業(yè)特性的工具鏈,自動化程度低,人力依賴嚴(yán)重,工程落地效率受阻,行業(yè)特性適配工具鏈缺失。


三、搭建人工智能數(shù)據(jù)工程能力“五大核心要素”

1. 組織管理

  全方位解決人工智能數(shù)據(jù)工程項目管理效率、團隊協(xié)同能力以及技術(shù)應(yīng)用標(biāo)準(zhǔn)化等問題。


  一是項目管理。旨在通過科學(xué)規(guī)劃、精細(xì)執(zhí)行與靈活調(diào)整,確保高質(zhì)量數(shù)據(jù)集項目按時交付,成本可控。


  二是組織建設(shè)。旨在設(shè)計并實施一個高效、協(xié)同的組織結(jié)構(gòu),確保從數(shù)據(jù)采集到模型應(yīng)用的有效管理和支持。


  三是人才管理。旨在建設(shè)一支跨學(xué)科、跨專業(yè)、跨領(lǐng)域的交叉復(fù)合型的大模型數(shù)據(jù)工程人才團隊。


  四是標(biāo)準(zhǔn)應(yīng)用。旨在圍繞大模型數(shù)據(jù)技術(shù)、平臺、應(yīng)用、管理、安全等方面,制定數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)和操作規(guī)范。


2. 開發(fā)維護

  人工智能數(shù)據(jù)集構(gòu)建包括數(shù)據(jù)設(shè)計、數(shù)據(jù)采集匯聚、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)檢等共性關(guān)鍵技術(shù)和環(huán)節(jié)。


  一是共性人工智能數(shù)據(jù)工程技術(shù)工具,構(gòu)建標(biāo)準(zhǔn)化底層能力。數(shù)據(jù)設(shè)計規(guī)劃階段,依據(jù)需求形成數(shù)據(jù)集設(shè)計方案和知識索引體系,梳理內(nèi)外部數(shù)據(jù)資源,形成模型數(shù)據(jù)資源地圖;數(shù)據(jù)采集匯聚階段,構(gòu)建多源異構(gòu)數(shù)據(jù)連接器,通過元數(shù)據(jù)管理實現(xiàn)數(shù)據(jù)血緣追蹤。預(yù)處理與標(biāo)注階段,研發(fā)自動化工具鏈,例如基于規(guī)則引擎的異常值清洗模塊、弱監(jiān)督標(biāo)注工具;質(zhì)量評估階段,建立“模型-數(shù)據(jù)”質(zhì)量反饋評估能力,聯(lián)動修復(fù)工具實現(xiàn)閉環(huán)優(yōu)化。


  二是定制人工智能數(shù)據(jù)工程技術(shù)方案,面向應(yīng)用的深度適配。預(yù)訓(xùn)練階段通過定向采集領(lǐng)域知識,結(jié)合數(shù)據(jù)增強技術(shù)擴充樣本多樣性,消除訓(xùn)練數(shù)據(jù)性別、地域等潛在偏見。指令微調(diào)階段開發(fā)任務(wù)導(dǎo)向的數(shù)據(jù)構(gòu)造工具,例如將用戶問答數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化思維鏈數(shù)據(jù)集。反饋對齊階段需搭建人類反饋閉環(huán)系統(tǒng),設(shè)計多維度評價指標(biāo),利用偏好學(xué)習(xí)模型對齊人工評價與模型輸出。此外,還需針對行業(yè)特性定制方案,確保數(shù)據(jù)工程與業(yè)務(wù)目標(biāo)深度耦合。


3. 質(zhì)量控制

  數(shù)據(jù)質(zhì)量直接決定大模型決策性能,需從評估準(zhǔn)則、技術(shù)工具與流程管控三方面系統(tǒng)性突破。


  一是評估準(zhǔn)則層面,需建立多維度的量化標(biāo)準(zhǔn)。除傳統(tǒng)數(shù)據(jù)質(zhì)量指標(biāo)外,需引入以模型訓(xùn)練為目標(biāo)的質(zhì)量評估。中國信通院建立“可信AI”人工智能數(shù)據(jù)集質(zhì)量評估體系(ADAQ),依據(jù)行業(yè)標(biāo)準(zhǔn)《面向人工智能的數(shù)據(jù)集質(zhì)量通用評估方法 總體要求》,涵蓋數(shù)據(jù)集完整性、規(guī)范性、準(zhǔn)確性、及時性、一致性等12個一級指標(biāo)和36個二級指標(biāo)。


  二是技術(shù)工具層面,需融合自動化與智能化手段。ADAQ體系自建人工智能數(shù)據(jù)集質(zhì)量評估工具平臺,按照“規(guī)則檢測+人工抽樣+模型效果”實現(xiàn)數(shù)據(jù)集質(zhì)量評估項目執(zhí)行。


  三是全流程監(jiān)控層面,需貫穿數(shù)據(jù)生命周期。從采集階段元數(shù)據(jù)追蹤,到預(yù)處理環(huán)節(jié)異常值實時清洗,再到模型訓(xùn)練質(zhì)量反饋閉環(huán)。ADAQ體系與“方升”大模型基準(zhǔn)測試體系形成協(xié)同,通過對比模型輸出與訓(xùn)練數(shù)據(jù)集,反向定位低質(zhì)數(shù)據(jù)區(qū)間并提出優(yōu)化機制。


4. 資源運營

  構(gòu)建“資源管理、開放共享、流通交易”三位一體機制,破解數(shù)據(jù)資源“存不好、管不住、用不活”的難題。


  一是資源管理層面,需建立覆蓋數(shù)據(jù)全生命周期的管理框架。以“資源目錄”為索引,構(gòu)建高質(zhì)量數(shù)據(jù)集分類分級體系。采用模型專家和業(yè)務(wù)專家聯(lián)合的數(shù)據(jù)治理機制,按照模型需求梳理專業(yè)數(shù)據(jù)加工和標(biāo)注策略。


  二是開放共享層面,需考慮數(shù)據(jù)集和模型應(yīng)用場景雙重要素。完整呈現(xiàn)采集來源、環(huán)境參數(shù)、結(jié)構(gòu)規(guī)模、質(zhì)量指標(biāo)、隱私策略。明確開放時限、應(yīng)用范圍限制及版權(quán)協(xié)議,平衡開放力度與風(fēng)險管控。制定開放許可協(xié)議,規(guī)范數(shù)據(jù)供需方權(quán)責(zé)與使用方式。


  三是流通交易層面,符合現(xiàn)有交易流通機制,鼓勵模型數(shù)據(jù)生態(tài)合作。明晰權(quán)屬,構(gòu)建登記追溯體系,統(tǒng)一交易標(biāo)準(zhǔn)與合同范本,保障交易合規(guī)透明。鼓勵數(shù)據(jù)方和模型方合作共建,形成資源融合推動產(chǎn)品和應(yīng)用創(chuàng)新,建立共享聯(lián)盟與合作框架,形成協(xié)同共進的流通生態(tài)。


5. 合規(guī)可信

  數(shù)據(jù)合規(guī)可信是大模型可信的基石,需從數(shù)據(jù)合規(guī)與數(shù)據(jù)可信雙向發(fā)力,確保數(shù)據(jù)應(yīng)用合法合規(guī)、版權(quán)清晰、質(zhì)量可靠、效果可溯。


  一是數(shù)據(jù)合規(guī)以安全性、法律遵循和版權(quán)規(guī)范為核心,覆蓋多重維度。數(shù)據(jù)需嚴(yán)格符合《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國個人信息保護法》《生成式人工智能服務(wù)管理暫行辦法》等相關(guān)法律法規(guī)。明確數(shù)據(jù)采集、生成、加工過程中的版權(quán)歸屬,避免權(quán)屬糾紛,規(guī)范數(shù)據(jù)使用與分發(fā)的版權(quán)授權(quán),確保數(shù)據(jù)來源合法,使用范圍符合授權(quán)約定。


  二是數(shù)據(jù)可信圍繞來源、治理、結(jié)果、效果構(gòu)建質(zhì)量閉環(huán)。來源可信強調(diào)真實性、準(zhǔn)確性、合法性,驗證數(shù)據(jù)采集過程的客觀性。治理過程可信要求方案與流程透明可解釋,治理規(guī)則清晰留痕,操作過程可追溯。結(jié)果可信要求數(shù)據(jù)分布合理,降低偏見樣本率、毒化樣本率,提升邊緣案例覆蓋度與標(biāo)注準(zhǔn)確性,避免因數(shù)據(jù)偏倚導(dǎo)致模型決策偏差。效果可通過模型訓(xùn)練效果驗證價值,對比治理前后模型的準(zhǔn)確率、泛化能力等表現(xiàn),以效果反推數(shù)據(jù)治理的有效性。


  人工智能邁向“數(shù)據(jù)驅(qū)動”的關(guān)鍵階段,人工智能數(shù)據(jù)工程能力建設(shè)也將從“經(jīng)驗驅(qū)動”向“標(biāo)準(zhǔn)驅(qū)動”的深刻變革。高質(zhì)量數(shù)據(jù)集不僅是模型性能提升的核心載體,更是激活數(shù)據(jù)要素價值、構(gòu)建智能生態(tài)的戰(zhàn)略基石。



作者簡介

李蓀,中國信息通信研究院人工智能研究所平臺與工程化部副主任,高級工程師。長期從事人工智能技術(shù)和產(chǎn)業(yè)相關(guān)研究,主要研究方向為人工智能數(shù)據(jù)、大模型、語音等方向,參與多項人工智能標(biāo)準(zhǔn)制定工作和多篇人工智能相關(guān)研究報告編制工作。


樊威,中國信息通信研究院人工智能研究所高級工程師。長期從事人工智能技術(shù)和產(chǎn)業(yè)相關(guān)研究,主要研究方向為人工智能高質(zhì)量數(shù)據(jù)集以及數(shù)據(jù)標(biāo)注相關(guān)政策、標(biāo)準(zhǔn)、產(chǎn)業(yè)研究,聚焦人工智能數(shù)據(jù)治理等領(lǐng)域方向,開展多項部委政策文件起草支撐工作,完成多項人工智能領(lǐng)域報告撰寫。


曹峰,中國信息通信研究院人工智能研究所平臺與工程化部主任,高級工程師。中國通信標(biāo)準(zhǔn)化協(xié)會TC1WG1(互聯(lián)網(wǎng)應(yīng)用總體及人工智能工作組)組長,人工智能關(guān)鍵技術(shù)和應(yīng)用評測工業(yè)和信息化部重點實驗室副主任。目前主要牽頭可信AI人工智能評測標(biāo)準(zhǔn)體系和能力建設(shè),牽頭工程化能力等相關(guān)評估規(guī)范制定與評測等。



返回列表

日韩欧美福利视频_99久久免费精品国产72精品九九_国产中文字幕一区二区三区_亚洲国产一区二区精品视频
亚洲在线观看| 精品不卡在线| 韩国av一区二区三区| 香蕉久久夜色| 国产精品日韩精品欧美在线| 国产农村妇女毛片精品久久莱园子 | 在线成人中文字幕| 国产麻豆视频精品| 亚洲国产精品va| 亚洲全部视频| 国产精品成人v| 一区二区欧美日韩| 亚洲欧美电影在线观看| 亚洲在线成人| 亚洲国产一区在线| 欧美激情中文字幕乱码免费| 久久国产福利| 在线免费观看日韩欧美| 欧美三级免费| 黑丝一区二区三区| 久久久久久久激情视频| 亚洲日本一区二区| 欧美日韩国产va另类| 久久精品二区| 午夜精品福利在线| 国产日韩欧美| 欧美日韩在线播| 久久国产精品免费一区| 欧美日韩一区在线播放| 久久一二三区| 久热综合在线亚洲精品| 久久精品最新地址| 久久黄色网页| 美女成人午夜| 久久动漫亚洲| 在线观看91精品国产麻豆| 亚洲一本视频| 一色屋精品视频在线观看网站| 久久九九国产| 国内精品免费在线观看| 欧美承认网站| 欧美人与禽性xxxxx杂性| 久久综合色影院| 娇妻被交换粗又大又硬视频欧美| 中日韩视频在线观看| 欧美日韩精品不卡| 国产揄拍国内精品对白| 亚洲色图自拍| 久久在线91| 嫩模写真一区二区三区三州| 国产日韩欧美三级| 亚洲精品国产视频| 亚洲国产精品一区二区www| 亚洲黄色一区二区三区| 亚洲欧美一区二区在线观看| 欧美亚洲网站| 午夜国产精品视频| 国产日韩欧美不卡| 欧美日韩一区二区在线观看视频| 欧美一区二区三区四区在线观看| 国产一区二区三区在线观看网站| 久久一综合视频| 欧美成人自拍| 亚洲精品日韩在线| 欧美二区在线看| 一本色道久久综合亚洲精品婷婷| 尤物网精品视频| 国产乱肥老妇国产一区二| 日韩视频在线一区| 亚洲欧美日韩在线不卡| 欧美视频一区在线| 久久―日本道色综合久久| 国产精品成人免费精品自在线观看| 久久一二三国产| 久久国产日韩| 性色av一区二区三区在线观看| 亚洲国产日韩一区二区| 狠狠色狠狠色综合系列| 国产精品综合不卡av | 亚洲欧美视频在线| 一区二区三区高清视频在线观看| 国产日韩欧美麻豆| 国产亚洲制服色| 国产精品成人av性教育| 欧美日韩另类综合| 欧美视频二区| 国产精品久久久久久久久久直播 | 亚洲国产精品免费| 亚洲国产高清一区| 一本色道久久99精品综合| 亚洲另类一区二区| 亚洲香蕉伊综合在人在线视看| 亚洲三级网站| 欧美一区二区成人6969| 亚洲欧美日韩国产中文在线| 久久精品五月婷婷| 欧美大片专区| 免费人成网站在线观看欧美高清 | 亚洲综合精品自拍| 久久久久久久久久久久久9999| 久久精彩免费视频| 欧美日本中文字幕| 欧美色图五月天| 激情自拍一区| 亚洲少妇最新在线视频| 亚洲精品一区二| 欧美日韩中文在线观看| 国产日韩欧美视频| 一区在线播放视频| 亚洲欧美在线aaa| 久久精品国产在热久久| 欧美视频在线观看免费| 国产伦精品一区二区三区高清| 亚洲精品日韩在线| 欧美一区1区三区3区公司| 欧美日韩国产综合视频在线| 国产精品乱码一区二区三区| 鲁大师成人一区二区三区| 国产精品久久久久久久一区探花| 国产精品视频一区二区高潮| 一本色道久久综合亚洲精品小说| 亚洲欧美三级伦理| 国产精品久久久久国产a级| 国产日韩一区二区三区在线播放| 99这里只有精品| 久久婷婷成人综合色| 国产有码在线一区二区视频| 999在线观看精品免费不卡网站| 欧美 日韩 国产在线| 国产精品自拍在线| 亚洲女人天堂av| 欧美激情精品久久久久久蜜臀| 亚洲国产小视频在线观看| 午夜免费电影一区在线观看| 国产精品乱人伦一区二区| 亚洲激情视频网站| 久久久久国色av免费观看性色| 欧美日韩三级电影在线| 亚洲高清久久网| 久久久久久久久久久成人| 国产精品久久久一区麻豆最新章节| 99精品欧美一区| 久久久久久91香蕉国产| 国产精品色网| 中日韩视频在线观看| 久久亚洲一区二区| 亚洲电影专区| 狼狼综合久久久久综合网| 亚洲精品乱码久久久久久日本蜜臀| 久久久久成人精品| 亚洲精品日韩欧美| 欧美国产精品中文字幕| 亚洲视频免费在线| 欧美日韩在线播放| 欧美在线日韩精品| 国产性色一区二区| 欧美韩日高清| 99国产精品自拍| 国模私拍一区二区三区| 久久国产欧美精品| 亚洲乱码国产乱码精品精| 欧美激情黄色片| 午夜欧美大尺度福利影院在线看| 国产精品免费看| 嫩草国产精品入口| 亚洲精品久久| 欧美日韩一区二区视频在线观看 | 欧美激情五月| a4yy欧美一区二区三区| 免费中文日韩| 99国产精品私拍| 激情文学一区| 久久精品视频在线| 日韩午夜免费视频| 欧美精品激情blacked18| 亚洲午夜高清视频| 欧美午夜国产| 蜜臀久久久99精品久久久久久| 亚洲一区二区在线视频| 国产视频欧美视频| 欧美日韩123| 亚洲欧美激情精品一区二区| 韩国一区二区三区在线观看| 久热爱精品视频线路一| 亚洲免费在线观看视频| 国产日韩精品久久| 欧美巨乳在线观看| 欧美一级一区| 亚洲美女在线视频| 国产精品尤物| 欧美成人午夜| 亚洲一区欧美| 亚洲另类自拍| 欧美乱大交xxxxx| 男人插女人欧美| 欧美一区二区三区免费看| 一区二区三区免费看| 韩国欧美一区| 国产一区日韩一区| 欧美日韩国产片|