Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
benchmark 分析 PDF 下載
匿名網(wǎng)友發(fā)布于:2026-01-25 09:58:07
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

benchmark 分析 PDF 下載 圖1

 

資料內(nèi)容:

 

 

 
當(dāng)前數(shù)據(jù)集缺陷
 
當(dāng)前多模態(tài)數(shù)據(jù)集主要分為3類:
1. ??級:以?檔名作為?件夾命名、每??的?件內(nèi)容以圖?形式提供,按?碼排序,問答對以
23
parquet形式提供
2. 塊級:
a. 提供pdf?檔源?件、問答對json(包含問題、答案、引?的塊,塊通過layout劃分并建?索
引)
b. 分別提供圖?、圖表、?本三部分內(nèi)容,三種模態(tài)分屬同?主題的不同內(nèi)容,并?強(qiáng)相關(guān)性
第?類:以圖?形式提供的??級數(shù)據(jù)集,往往內(nèi)容形式豐富,且保留了模態(tài)間的布局關(guān)系,但是主要
?于將多模態(tài)統(tǒng)?到圖?模態(tài)進(jìn)?檢索的rag,并不是真正的多模態(tài)
第?類:以pdf源?件+json形式提供的數(shù)據(jù)集,為了便于通過layout劃分塊并建?順序索引,往往采?結(jié)
構(gòu)?較固定的?檔(wiki、學(xué)術(shù)論?),且json中以list列表依賴的塊,丟失了塊之間的布局、位置關(guān)系
等信息
第三類:將三種模態(tài)分開提供的數(shù)據(jù)集,?模態(tài)數(shù)據(jù)間的布局、語義等關(guān)聯(lián)關(guān)系