a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

您當(dāng)前的位置是:  首頁 > 資訊 > IT與互聯(lián)網(wǎng) >

ChatGPT熱潮下的冷思考——AI數(shù)據(jù)集發(fā)展現(xiàn)狀、挑戰(zhàn)及建議

2023-04-04 11:57:22   作者:   來源:天翼智庫   評論:0  點(diǎn)擊:


  2023年3月14日,OpenAI發(fā)布了多模態(tài)大模型的最新版本GPT-4,通過采用更大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,其推理能力超過了ChatGPT,已成為目前最成功、最受歡迎的大模型。

  但GPT-4仍有很多限制,如對數(shù)據(jù)集的篩選、清洗等不充分,導(dǎo)致輸出內(nèi)容出現(xiàn)社會偏見、幻覺和對抗性提示等。同時(shí)據(jù)Appen(全球最大的AI數(shù)據(jù)服務(wù)公司)調(diào)查發(fā)現(xiàn),41%的AI領(lǐng)域從業(yè)者認(rèn)為數(shù)據(jù)管理將是AI發(fā)展面臨的最大障礙。DeepMind團(tuán)隊(duì)也指出,在對訓(xùn)練數(shù)據(jù)集進(jìn)行擴(kuò)展時(shí),需要重點(diǎn)關(guān)注數(shù)據(jù)集的質(zhì)量管理,尤其是其中的倫理和隱私等問題。

  AI領(lǐng)域典型大模型(ChatGPT)的數(shù)據(jù)集簡介

  ChatGPT的出現(xiàn),打破了人們對AI技術(shù)復(fù)雜、使用門檻高的固有思維。雖然谷歌提出了比ChatGPT高10倍參數(shù)量的大模型(如Switch Transformer),且ChatGPT的核心算法采用谷歌提出的Transformer架構(gòu),但是谷歌卻敗給了OpenAI。我們分析數(shù)據(jù)規(guī)模、數(shù)據(jù)處理方式、用戶數(shù)據(jù)-模型飛輪是ChatGPT成功的關(guān)鍵。

  1. 龐大的數(shù)據(jù)集規(guī);A(chǔ)

  ChatGPT訓(xùn)練的數(shù)據(jù)集主要包括網(wǎng)站、書籍、社交媒體平臺等,80%以上的數(shù)據(jù)集來自GPT3使用的數(shù)據(jù)集。這些數(shù)據(jù)集包含大量的文本數(shù)據(jù),用于自然語言處理等領(lǐng)域的研究和應(yīng)用。

  二、高效的數(shù)據(jù)處理方式

  鄭緯民院士認(rèn)為,ChatGPT在基礎(chǔ)技術(shù)方面并未有大的突破,主要是在數(shù)據(jù)清洗、人工標(biāo)注反饋和整體系統(tǒng)工程化方面取得了進(jìn)展,從而使其整體效果相比之前的系統(tǒng)取得了較大飛躍。OpenAI團(tuán)隊(duì)也表示他們采用了多項(xiàng)措施確保數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性,尤其數(shù)據(jù)篩選、數(shù)據(jù)收集、工程化(千億級token編碼、人工標(biāo)注)等起了關(guān)鍵作用。

  3. 爆發(fā)式的用戶數(shù)據(jù)促進(jìn)產(chǎn)品質(zhì)量與用戶規(guī)模形成飛輪效應(yīng)

  ChatGPT的服務(wù)開放給公眾,同時(shí)可收集海量、多樣化的數(shù)據(jù),搶得數(shù)據(jù)獲取先機(jī)。幾億用戶為ChatGPT貢獻(xiàn)數(shù)據(jù),進(jìn)一步訓(xùn)練和微調(diào)使得ChatGPT更符合用戶需求,吸引更多用戶為其免費(fèi)提供數(shù)據(jù)。由此模型的數(shù)據(jù)飛輪快速轉(zhuǎn)動起來,用戶數(shù)據(jù)質(zhì)量越高,迭代模型效果越好。

  由ChatGPT的分析可知,數(shù)據(jù)集將是決定模型好壞的關(guān)鍵。據(jù)DeepMind 研究團(tuán)隊(duì)預(yù)測大模型所需數(shù)據(jù)集規(guī)模隨參數(shù)量的增加而增加。然而隨著數(shù)據(jù)集規(guī)模增加,相應(yīng)數(shù)據(jù)質(zhì)量將越難控制。數(shù)據(jù)集的管理將是大模型發(fā)展面臨的一大困境。

  AI數(shù)據(jù)集的整體現(xiàn)狀

  隨著大模型的持續(xù)火熱,大規(guī)模、多樣化數(shù)據(jù)集因模型的高參數(shù)、通用化需求也受到關(guān)注。我們將從數(shù)據(jù)集的布局、特點(diǎn)來分析目前數(shù)據(jù)集的發(fā)展現(xiàn)狀。

  一、 AI數(shù)據(jù)集的來源及分布

  從數(shù)據(jù)集來源看,AI數(shù)據(jù)集主要來自美國且以英語語言為主,包括微軟、斯坦福、谷歌等機(jī)構(gòu)提供的數(shù)據(jù)集以及互聯(lián)網(wǎng)爬蟲數(shù)據(jù)集,見表1。AI數(shù)據(jù)集根據(jù)數(shù)據(jù)類型可分為文本、圖像、音頻、視頻等,不同的AI任務(wù)根據(jù)其任務(wù)特點(diǎn)選擇不同類型的數(shù)據(jù)集,如語言模型任務(wù)選WikiText-2文本類數(shù)據(jù)集,人臉識別選VGGface2圖像類數(shù)據(jù)集等。

  表1 AI數(shù)據(jù)集簡介

  備注:mC4是 C4(Colossal Clean Crawled Corpus)的一個(gè)變體:Common Crawl的網(wǎng)絡(luò)爬蟲語料庫的一個(gè)大型、干凈的版本。

  從數(shù)據(jù)集分布看,全球數(shù)據(jù)集使用不平等情況凸顯,據(jù)加利福尼亞大學(xué)和Google研究機(jī)構(gòu)發(fā)現(xiàn),機(jī)器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集50%由12家Top機(jī)構(gòu)提供(如圖1左),其中10家為美國機(jī)構(gòu),僅2家機(jī)構(gòu)來自德國和中國。據(jù)圖1(右)發(fā)現(xiàn),數(shù)據(jù)集與數(shù)據(jù)機(jī)構(gòu)的基尼系數(shù)有升高的趨勢,即數(shù)據(jù)集被少數(shù)Top機(jī)構(gòu)或特定數(shù)據(jù)庫掌控的集中有所增加。

  2. AI數(shù)據(jù)集的特點(diǎn)

  目前AI數(shù)據(jù)集的發(fā)展已呈現(xiàn)大規(guī)模、多樣化、實(shí)時(shí)性等特點(diǎn)。

  一是數(shù)據(jù)集規(guī)模因大模型等場景需求爆發(fā)式增長,例如華為盤古系列大模型訓(xùn)練數(shù)據(jù)集為40TB,GPT-3.5大模型的數(shù)據(jù)集為超萬億單詞的人類語言數(shù)據(jù)集(約45TB);

  二是多種應(yīng)用需求導(dǎo)致數(shù)據(jù)類型呈現(xiàn)多樣化,例如因機(jī)器翻譯、文本分類需求出現(xiàn)了OpenWebText2等文本類數(shù)據(jù)集,因人臉識別、圖像生成需求出現(xiàn)了以ImageNet為代表的圖像類數(shù)據(jù)集;

  三是高質(zhì)量數(shù)據(jù)集實(shí)時(shí)性需求迫切,隨著AR、自動駕駛等場景的出現(xiàn),社交媒體、交通數(shù)據(jù)集的采集和處理需要更加及時(shí)的反饋,以實(shí)現(xiàn)實(shí)時(shí)分析和決策。

  面臨的挑戰(zhàn)

  由于AI數(shù)據(jù)集大部分來源于互聯(lián)網(wǎng)公共數(shù)據(jù)集,包含用戶或企業(yè)的大量隱私、敏感信息,導(dǎo)致其在數(shù)據(jù)監(jiān)管、數(shù)據(jù)清洗、數(shù)據(jù)存量方面還存在很多挑戰(zhàn)。

  1. 數(shù)據(jù)來源的多樣性、復(fù)雜性不斷加深,加大數(shù)據(jù)安全風(fēng)險(xiǎn)

  OpenAI表示,其數(shù)據(jù)集是“互聯(lián)網(wǎng)規(guī)模的”,訓(xùn)練數(shù)據(jù)來自“各種被許可、被創(chuàng)建和公開可用的數(shù)據(jù)源,其中可能包括公開可用的個(gè)人信息”。面對數(shù)量龐大、種類多樣的數(shù)據(jù)集調(diào)取與收集,若監(jiān)管不當(dāng)極易產(chǎn)生數(shù)據(jù)竊取、隱私泄露、數(shù)據(jù)濫用等風(fēng)險(xiǎn),損害公民的合法利益,甚至威脅國家安全。

  2. 內(nèi)容涉及道德及倫理問題,引發(fā)社會偏見

  規(guī)模龐大的互聯(lián)網(wǎng)數(shù)據(jù)尤其容易帶有偏見及負(fù)面詞匯,即使進(jìn)行過人工標(biāo)注,數(shù)據(jù)集也會出現(xiàn)錯誤或道德問題。如微軟與bing團(tuán)隊(duì)研發(fā)的對話式理解AI機(jī)器人Tay,因?yàn)閿?shù)據(jù)集清洗、標(biāo)注不充分,導(dǎo)致出現(xiàn)種族歧視等言論,被迫下架。

  3. AI領(lǐng)域需求的高質(zhì)量數(shù)據(jù)集存量將耗盡

  訓(xùn)練數(shù)據(jù)集需求增速有高于數(shù)據(jù)存量增速的趨勢,據(jù)Epoch AI研究團(tuán)隊(duì)預(yù)測2022年至2100年間數(shù)據(jù)總量(包括可用的圖像和語言)以及未來大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增長趨勢,給出一個(gè)結(jié)論:到2026 年高質(zhì)量的語言數(shù)據(jù)存量將耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

  關(guān)于AI數(shù)據(jù)集未來發(fā)展的建議

  針對當(dāng)前AI數(shù)據(jù)集存在的問題,建議從加強(qiáng)數(shù)據(jù)監(jiān)管、提升數(shù)據(jù)質(zhì)量、提高數(shù)據(jù)存量三方面入手,進(jìn)一步應(yīng)對AI發(fā)展可能面臨的數(shù)據(jù)集困境。

  1. 加快推進(jìn)AI背景下我國數(shù)據(jù)安全監(jiān)管

  完善面向ChatGPT等新場景的數(shù)據(jù)安全保護(hù)。建議政府與商業(yè)運(yùn)營主體應(yīng)采取合作監(jiān)管的模式,建立統(tǒng)一的數(shù)據(jù)監(jiān)管系統(tǒng),并針對不同類型的數(shù)據(jù)采取相應(yīng)的監(jiān)管機(jī)制,對于開放數(shù)據(jù)應(yīng)加強(qiáng)分級分類明確數(shù)據(jù)開放程度,對于共享數(shù)據(jù)應(yīng)采取強(qiáng)制許可措施防止企業(yè)壟斷,對于專有數(shù)據(jù)應(yīng)采用區(qū)塊鏈、隱私計(jì)算等技術(shù)保護(hù)其數(shù)據(jù)隱私。

  2. 加大對數(shù)據(jù)質(zhì)量評估的關(guān)注

  提升獲取高質(zhì)量數(shù)據(jù)集的比例。制定數(shù)據(jù)集評估標(biāo)準(zhǔn)(包括是否刪除重復(fù)數(shù)據(jù)、排除敏感信息、刪除隱私信息、刪除異常符號等),確保獲取數(shù)據(jù)集符合任務(wù)需求,從而提高整體數(shù)據(jù)集的質(zhì)量。

  3. 利用AIGC技術(shù)構(gòu)建新的數(shù)據(jù)集

  防患未來數(shù)據(jù)存量耗盡的危機(jī)。AI生成信息將是未來的趨勢,據(jù)Gartner預(yù)測,到2025年,大型企業(yè)機(jī)構(gòu)對外營銷信息中的合成信息比例將從2022年的不到2%上升到30%。建議充分利用AIGC技術(shù),根據(jù)模型的需求生成內(nèi)容,轉(zhuǎn)化為新的數(shù)據(jù)集,為AI模型的訓(xùn)練提供新的燃料。

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會員企業(yè)

深圳市| 襄垣县| 宝清县| 湘潭市| 修文县| 银川市| 顺义区| 乐安县| 巨野县| 英吉沙县| 武夷山市| 江孜县| 尚志市| 新绛县| 武强县| 镶黄旗| 平乡县| 雅江县| 阜平县| 杨浦区| 客服| 靖远县| 邮箱| 鹰潭市| 南城县| 东台市| 东安县| 罗城| 乳源| 尼勒克县| 城市| 封丘县| 龙川县| 休宁县| 密云县| 合江县| 工布江达县| 平武县| 富蕴县| 板桥市| 鄂尔多斯市|