日韩欧美国产精品免费一二-日韩欧美国产精品亚洲二区-日韩欧美国产精品专区-日韩欧美国产另-日韩欧美国产免费看-日韩欧美国产免费看清风阁

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)?!中科院等:8項(xiàng)測(cè)試第一,遠(yuǎn)超知乎豆瓣小紅書

freeflydom
2024年4月29日 17:51 本文熱度 2134

離大譜了,弱智吧登上正經(jīng)AI論文,還成了最好的中文訓(xùn)練數(shù)據(jù)??

具體來說,使用弱智吧數(shù)據(jù)訓(xùn)練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺(tái),甚至是研究團(tuán)隊(duì)精心挑選的數(shù)據(jù)集。

在問答、頭腦風(fēng)暴、分類、生成、總結(jié)、提取等8項(xiàng)測(cè)試中取得最高分

沒錯(cuò),論文中的Ruozhiba就是指百度貼吧弱智吧,一個(gè)充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū),畫風(fēng)通常是這樣的:

最離譜的是,弱智吧AI代碼能力也超過了使用專業(yè)技術(shù)問答社區(qū)思否數(shù)據(jù)訓(xùn)練的AI,這下吧友自己都鬧不明白了。

其他平臺(tái)圍觀網(wǎng)友也紛紛蚌埠住。

這項(xiàng)研究來自中科院深圳先進(jìn)技術(shù)研究院、中科院自動(dòng)化研究所,滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)。

作者之一也現(xiàn)身評(píng)論區(qū),透露使用弱智吧數(shù)據(jù)訓(xùn)練AI屬于靈機(jī)一動(dòng),以前只用來測(cè)試。

弱智吧數(shù)據(jù)究竟如何達(dá)成這一成就,具體到論文中看。

弱智發(fā)言成指令微調(diào)神器

這項(xiàng)研究起初為解決中文大模型訓(xùn)練中的諸多問題

  • 中文數(shù)據(jù)集很多是從英文翻譯過來的,沒有很好地契合中文的語言習(xí)慣和文化背景

  • 不少數(shù)據(jù)集是用AI生成的,質(zhì)量難以保證,容易出現(xiàn)事實(shí)性錯(cuò)誤

  • 即使是人工標(biāo)注的數(shù)據(jù)集,也存在數(shù)據(jù)量小、覆蓋領(lǐng)域不全面等問題

為了解決這些痛點(diǎn),團(tuán)隊(duì)從中文互聯(lián)網(wǎng)的各種知識(shí)源頭直接收集數(shù)據(jù),比如知乎、豆瓣、百科、小紅書等,經(jīng)過一系列嚴(yán)格的清洗和人工審核,打造成高質(zhì)量、多樣化的中文指令微調(diào)數(shù)據(jù)集COIG-CQIA

除了探索不同數(shù)據(jù)源的作用,團(tuán)隊(duì)還專門從中抽取出一個(gè)精華子集CQIA-Subset

在眾多數(shù)據(jù)來源中,弱智吧成了最特別的一個(gè)。

由500個(gè)點(diǎn)贊最高的帖子標(biāo)題+人工或GPT-4的回復(fù)組成指令微調(diào)數(shù)據(jù)集, 經(jīng)過人工審核后,最終留下了240組指令-回復(fù)數(shù)據(jù)對(duì)。

分別用各種數(shù)據(jù)集訓(xùn)練零一萬物Yi系列開源大模型,在BELLE-Eval測(cè)試集上使用GPT-4評(píng)分得到結(jié)果。

在規(guī)模較小的Yi-6B模型上,純?nèi)踔前砂姹究偡峙琶谌€不算太突出。

看來小模型還沒能領(lǐng)悟弱智的精髓。

到了Yi-34B,弱智吧版本表現(xiàn)就一騎絕塵了。

只有在改寫和數(shù)學(xué)任務(wù)上沒能取得最高分,但成績也比較靠前。

另外,在安全評(píng)估上弱智吧版本也能排上第二。

對(duì)于這類現(xiàn)象,研究人員在分析中也給出簡單猜測(cè):

可能是弱智吧問題增強(qiáng)了AI的邏輯推理能力,從而使指令遵循任務(wù)受益。

當(dāng)然弱智吧并不是這項(xiàng)研究的全部,它的真正貢獻(xiàn)在于為中文大模型開發(fā)提供了一個(gè)高質(zhì)量的指令微調(diào)數(shù)據(jù)集COIG-CQIA。

通過對(duì)各種中文互聯(lián)網(wǎng)數(shù)據(jù)源的探索,這項(xiàng)研究為構(gòu)建中文指令數(shù)據(jù)集提供了很多有益的啟示。比如社交媒體數(shù)據(jù)雖然開放多樣,但也存在不少有害信息風(fēng)險(xiǎn);而百科類數(shù)據(jù)專業(yè)性強(qiáng),但覆蓋面可能不夠廣。

弱智吧上大分

這項(xiàng)研究一發(fā),網(wǎng)友集體笑不活。除了“XSWL、思路開闊了”嬸兒的純圍觀,也有網(wǎng)友認(rèn)真討論起了弱智吧有如此奇效的原因。

大伙兒都比較認(rèn)可的一個(gè)原因是弱智吧題目的“異質(zhì)”。

像腦筋急轉(zhuǎn)彎,增加了指令多樣性,所以提升了模型最終性能:

通用數(shù)據(jù)集多半已經(jīng)在pretrain階段見過了,再訓(xùn)一遍只會(huì)加重overfitting。

另一個(gè)原因是弱智吧數(shù)據(jù)文本質(zhì)量很高,用詞準(zhǔn)確且簡潔

千言萬語匯成一句話:把弱智吧只當(dāng)簡單的段子合集真的是嚴(yán)重低估了它的價(jià)值!

雀食,要不此前弱智吧問題也經(jīng)常被大伙兒用來測(cè)試大模型呢。

事實(shí)上從ChatGPT誕生之初,弱智吧就深度參與了大模型的發(fā)展,可以算是這一波AI浪潮的重要見證者了。

一開始只是網(wǎng)友拿來拷打AI,搞搞節(jié)目效果。

后來大家發(fā)現(xiàn),弱智吧問題中充滿陷阱,剛好可以用來分辨AI能力高低。

還記得23年初那會(huì)兒,各家大模型第一版還不太能很好應(yīng)對(duì)這類問題,如2023年3月的文心一言:

后續(xù)版本也漸入佳境了,如2023年8月的文心一言:

直到今天,弱智吧問題都是每個(gè)新發(fā)布大模型都必須要過的一關(guān),被戲稱為弱智吧Benchmark。

秘塔寫作貓

Inspo


原文鏈接:https://www.51cto.com/article/785470.html



該文章在 2024/4/29 17:55:50 編輯過
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲(chǔ)管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved

主站蜘蛛池模板: 亚洲二区中文字幕 | 亚洲二区在线观看 | 日本在线视频高清不卡 | 97国产| 欧美综合自拍亚洲综合图 | 九九热思思精品视频 | 亚洲精品手机在线 | 视频精品| 日本sm极度另类视频 | 亚洲午夜成人va在线 | 永久在线观看免费视频 | 欧美激情观看一区 | 青青操视频免费观看 | 亚洲无人区码卡二卡三卡四卡 | 中文字幕一区二 | 国产精品自拍一区 | 国产精品欧美亚洲韩国日 | 欧美日韩一道免费中文字幕新视频 | 国产精品精品国 | 亚洲中文字幕乱伦 | 99中文字幕精品国产 | 日产在线| 免费视频精 | 日本性爱欧美精品 | 91精品国产亚一区二区三区 | 97青青青国产在线播放 | 九一视频在线观看 | 18videosex性欧美黑色 | 欧美制服丝袜在线 | 国产亚洲精品自拍 | 最近中文字幕高清mv免费 | 国产免费一级高清淫日本片 | 亚洲色www成 | 区二区在线观看 | 看片不卡顿 | 亚洲高清国产拍 | 欧美黑人又大又粗xxxxx | 亚洲欧美日本a∨在线观看 一区发布 | 豆奶视频官网下载 | 国产亚洲精品片a77777 | 午夜激情视频 |