<li id="ege2g"><noscript id="ege2g"></noscript></li>
  • <td id="ege2g"></td>
    <menu id="ege2g"><noscript id="ege2g"></noscript></menu>
  • 中關村商情網

    搜索
    中關村商情網 首頁 IT業界 云計算 查看內容

    阿里云推出單機即可訓練百億參數的中文稀疏GPT大模型,登頂 ZeroCLUE零樣本學習榜單

    2022-9-2 11:06| 發布者: admin| 查看: 5907| 評論: 0

    摘要: 作者:同潤、臨在 日前,中文語言理解權威評測基準CLUE公布了零樣本學習ZeroCLUE的最新結果,阿里云位于該榜單榜首。此次刷榜的模型是阿里云機器學習PAI團隊推出的160億參數的稀疏模型 GPT-MoE,這也是業界首個中文 ...

    作者:同潤、臨在

     

    日前,中文語言理解權威評測基準CLUE公布了零樣本學習ZeroCLUE的最新結果,阿里云位于該榜單榜首。此次刷榜的模型是阿里云機器學習PAI團隊推出的160億參數的稀疏模型 GPT-MoE,這也是業界首個中文稀疏GPT大模型在該榜單登頂。

     

     

    在繼去年的Transformer Encoder大模型取得中文小樣本學習、英文預訓練模型知識量度量冠軍后,今年阿里云將大模型技術能力又向前推進了一步;MoE稀疏結構,僅用一臺A100就把160億參數量級的多任務通用GPT模型訓練成熟。這是通往低成本且高性能多任務通用自然語言理解的重要里程碑。

     

    中文GPT大模型落地主要面臨來自兩方面的挑戰:一方面是中文語言建模的困難,中文可以利用復雜多變的自由組合表達多重含義,這使得中文語言模型比英文在表達效率上難度加倍;另一方面隨著模型參數量的不斷增加,需要投入的硬件成本越來越高,訓練成熟時間越來越長。

     

    OpenAI推出的1750億的GPT-3為例,在1024A100GPU上預估需要34天;因此,能否消耗更少的計算資源以高性價比的方式完成訓練和推理是大模型落地亟待解決的難題。

     

    GPT-MoE 模型采用稀疏模型的結構設計,有效緩解了上面提到的兩個困難。在刷榜的過程中,從工程到算法沉淀出4點自研核心技術,有強化型稀疏均衡器,領域話術再適應驅動的中文提示語零樣本學習,中文復雜任務定向優化,以及阿里云自主研發的transformer訓練加速工具Rapidformer,實現了單機A100即可訓練160億參數大模型。

     

    目前,GPT-MoE 模型已在阿里云機器學習PAI EasyNLP項目中開源,和開發者共享中文百億稀疏GPT大模型技術。

     

    開源項目地址:https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer


    鮮花

    握手

    雷人

    路過

    雞蛋

    最新評論

    返回頂部
    在线看精品黄色片
    <li id="ege2g"><noscript id="ege2g"></noscript></li>
  • <td id="ege2g"></td>
    <menu id="ege2g"><noscript id="ege2g"></noscript></menu>