Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python，上Python222

人工智能bert模型詳解 PDF 下載

匿名網(wǎng)友發(fā)布于：2026-02-02 09:15:25

(侵權(quán)舉報)

(假如點擊沒反應(yīng)，多刷新兩次就OK！)

人工智能bert模型詳解 PDF 下載圖1

資料內(nèi)容：

Sentence-BERT（SBERT），對預(yù)訓(xùn)練的BERT進行修改：使用孿生(Siamese)和三級(triplet)網(wǎng)絡(luò)結(jié)構(gòu)來獲得語義上有意義的句子embedding，以此獲得定長的sentence embedding，使用余弦相似度或Manhatten/Euclidean距離等進行比較找到語義相似的句子

其中左圖是訓(xùn)練的模型，右圖是訓(xùn)練好模型之后利用句向量計算2個句子之間的相似度。

u，v分別表示輸入的2個句子的向量表示，|u-v|表示取兩個向量的絕對值，(u, v, |u-v|)表示將三個向量在-1維度進行拼接，因此得到的向量的維度為 3*d，d表示隱層維度。

AMBERT(李航)

細粒度token不能像lexical unit表達完整，但是他們更容易學(xué)習(xí)。因為他們會產(chǎn)生更少的token類型，在訓(xùn)練集中更多出現(xiàn)。

粗粒度能像lexical unit完整表達，但它們更難學(xué)習(xí)。因為他們會產(chǎn)生更token類型，在訓(xùn)練集中也會較少出現(xiàn)。

AMBERT簡單的采用兩個encoder,一個encoder以細粒度作為輸入，另一個encoder以粗粒度作為輸入，這兩個encoder在除了embedding部分共享了所有參數(shù)，最后能分別學(xué)到字粒度和詞粒度的上下文表達。

AMBERT有兩個Encoders, 一個用來處理細粒度token序列，另一個用來處理粗粒度token序列。每個encoder有著與BERT一樣的結(jié)構(gòu)。兩個Encoder除了embedding層，其它層參數(shù)共享。細粒度編碼器從細粒度token學(xué)習(xí)到上下文表達向量，同時，粗粒度編碼器從粗粒度token學(xué)習(xí)到上下文表達向量。

ChineseBERT

漢字的最大特性有兩個方面：一是字形，二是拼音。漢字是一種典型的意音文字，從其起源來看，它的字形本身就蘊含了一部分語義。比如，“江河湖泊”都有偏旁三點水，這表明它們都與水有關(guān)。

而從讀音來看，漢字的拼音也能在一定程度上反映一個漢字的語義，起到區(qū)別詞義的作用。比如，“樂”字有兩個讀音，yuè與lè，前者表示“音樂”，是一個名詞；后者表示“高興”，是一個形容詞。而對于一個多音字，單單輸入一個“樂”，模型是無法得知它應(yīng)該是代表“音樂”還是“快樂”，這時候就需要額外的讀音信息進行去偏。

為此，本文提出ChineseBERT，從漢字本身的這兩大特性出發(fā)，將漢字的字形與拼音信息融入到中文語料的預(yù)訓(xùn)練過程。一個漢字的字形向量由多個不同的字體形成，而拼音向量則由對應(yīng)的羅馬化的拼音字符序列得到。二者與字向量一起進行融合，得到最終的融合向量，作為預(yù)訓(xùn)練模型的輸入。模型使用全詞掩碼（Whole Word Masking）和字掩碼（Character Masking）兩種策略訓(xùn)練，使模型更加綜合地建立漢字、字形、讀音與上下文之間的聯(lián)系。

下圖是ChineseBERT的整體模型框架，主要的改進點在底層的融合層（Fusion Layer）融合了除字嵌入（Char Embedding）之外的字形嵌入（Glyph Embedding）和拼音嵌入（Pinyin Embedding），得到融合嵌入（Fusion Embedding），再與位置嵌入相加，就形成模型的輸入。

熱門標簽推薦

小鋒老師，前世界500強央企軟件工程師，12年Java+Pyton老司機，技術(shù)專家，高級講師，每天堅持鍛煉身體，堅持早睡早起，崇尚自由，平時喜歡帶帶Java學(xué)員 (已經(jīng)成功指導(dǎo)2000+學(xué)員高薪就業(yè))，喜歡搞搞產(chǎn)品，附帶搞搞技術(shù)自媒體，喜歡研究主流技術(shù)，熱愛技術(shù)和教育。小鋒網(wǎng)絡(luò)科技光杠司令員。

蘇ICP備20010165號-3 Copyright ?2012-2023 南通小鋒網(wǎng)絡(luò)科技有限公司版權(quán)所有

友情鏈接： Java知識分享網(wǎng)| Java1234課堂

免責(zé)聲明：本站是非盈利教學(xué)演示站點，網(wǎng)站所有資源均轉(zhuǎn)載自第三方站點或者是網(wǎng)友提供，僅供讀者預(yù)覽及學(xué)習(xí)交流使用，下載后請24小時內(nèi)刪除，如果喜歡請購買正版資源!原作者如果認為本站侵犯了您的版權(quán),請發(fā)送郵件到 caofeng2012@126.com 告知管理員,我們24小時內(nèi)會處理!

python222官方公眾號

小鋒老師企業(yè)微信

感谢您访问我们的网站，您可能还对以下资源感兴趣：

高清在线亚洲精品国产二区

日韩一区二区三区在线网站亚洲AV无码成H人动漫无遮挡不卡久久久精品94久久精日本不卡中文字幕免费

熱門帖子推薦

相關(guān)帖子推薦

熱門標簽推薦