資料內容:
數(shù)據(jù)決定人工智能高度。
大模型三要素是數(shù)據(jù)、算力和算法。隨著AI技術快速成熟,各企業(yè)所使用的算力已逐漸趨同;各企業(yè)采用的算法也同樣逐漸收斂,大多依托Transformer模型基礎架構和以Pytorch、TensorFlow等為代表的開發(fā)框架;因此真正體現(xiàn)大模型差異性的要素是數(shù)據(jù),根據(jù)公開數(shù)據(jù)顯示,Meta開發(fā)的LLaMA3擁有700億參數(shù)和15TB訓練數(shù)據(jù),而OpenAl的GPT-3.5擁有1750億參數(shù)和570GB訓練數(shù)據(jù),盡管LLaMA3在參數(shù)規(guī)模上還不到GPT-3.5的一半,但其表現(xiàn)能力在大部分基準上均超過后者。不難看出,除了模型參數(shù)規(guī)模以外,訓練數(shù)據(jù)的體量對提升大模型的效果具有顯著作用。此外數(shù)據(jù)的質量同樣重要,大模型需要規(guī)范性、完整性、時效性的高質量數(shù)據(jù)支撐。對于基礎大模型,其數(shù)據(jù)質量主要基于廠商從公開渠道所獲取數(shù)據(jù)的整體質量。而對于行業(yè)大模型的訓練及細分場景推理應用,模型效果取決于行業(yè)專屬的私域數(shù)據(jù)的質量,其中包含了企業(yè)原有數(shù)據(jù)和行業(yè)知識庫等,如圖2。