您現(xiàn)在的位置:首頁 > 智譜AI聯(lián)合焱融打造A100+全閃存儲的大規(guī)模AI架構(gòu)
智譜AI聯(lián)合焱融打造A100+全閃存儲的大規(guī)模AI架構(gòu)
在今年的北京冬奧會上我們見證了人工智能技術(shù)的先進(jìn)性,現(xiàn)場應(yīng)用涉及人工智能技術(shù)的方方面面,包含技術(shù)層的計算機視覺、語音識別、自然語言處理、機器學(xué)習(xí)、大數(shù)據(jù)管理、智能云等。為防止疫情傳播,無人化服務(wù)的全場景應(yīng)用也是冬奧會的一大亮點?,F(xiàn)場使用了大量的機器人和虛擬數(shù)字人來避免人員的接觸,極大提升了疫情防控效率??梢钥吹饺斯ぶ悄芗夹g(shù)將實現(xiàn)從感知智能到認(rèn)知智能的新突破,通往通用人工智能越來越成為人工智能領(lǐng)域的專家和學(xué)者探索和研究的方向。
目前,多模態(tài)人工智能作為一種新的人工智能范式,已經(jīng)在試圖“復(fù)制”人類在日常生活中的各類場景,盡可能把人類的感知信息進(jìn)行分析處理,實現(xiàn)更全面綜合的理解,將“數(shù)據(jù)”和“知識”關(guān)聯(lián)并給出相應(yīng)的回應(yīng)。德國漢堡科學(xué)院院士張建偉認(rèn)為人機交互的未來是多模態(tài)共享模式;計算機視覺領(lǐng)域?qū)<屹Z佳亞教授則在多場演講中提出「多模態(tài)是人工智能的未來」。
多模態(tài) AI 場景的數(shù)據(jù)來源維度眾多,數(shù)據(jù)特征復(fù)雜,應(yīng)用廣泛,數(shù)據(jù)量龐大。智譜 AI 作為多模態(tài)技術(shù)的代表,其數(shù)據(jù)規(guī)模通??蛇_(dá)到數(shù)十億乃至百億,涉及到 29 億參數(shù)通用中文預(yù)訓(xùn)練模型、40 億參數(shù)通用文圖預(yù)訓(xùn)練模型、80 億參數(shù)通用圖文預(yù)訓(xùn)練模型、100 億參數(shù)通用英文預(yù)訓(xùn)練模型。這些海量數(shù)據(jù)主要用于支撐 AI 產(chǎn)品的“智力”提升,投入到訓(xùn)練中的數(shù)據(jù)量越大,AI 智能的準(zhǔn)確度就越高。企業(yè)的長期發(fā)展需要穩(wěn)定的數(shù)據(jù)存儲平臺,而存儲的讀寫性能又決定了上層應(yīng)用的性能和用戶體驗。
關(guān)于多模態(tài) AI 場景下的存儲建設(shè)目標(biāo),焱融科技認(rèn)為海量數(shù)據(jù)管理和高性能輸出已成為剛需??偨Y(jié)來說就是以下 3 點:
海量多維度數(shù)據(jù)存儲能力(結(jié)構(gòu)化、非結(jié)構(gòu)化);
百億級數(shù)據(jù)量下的高性能支撐,高性能帶來高效率,促進(jìn)多模態(tài) AI 快速迭代;
支持高速 RDMA 傳輸協(xié)議的 InfiniBand 網(wǎng)絡(luò),實現(xiàn)高 IOPS、低延遲和穩(wěn)定的數(shù)據(jù)訪問性能。
全閃存儲架構(gòu)的選擇
01 為什么選擇全閃存儲架構(gòu)?
在智譜AI 業(yè)務(wù)發(fā)展的需求中,當(dāng)構(gòu)建百億級別的模型時,算力、網(wǎng)絡(luò)、存儲這三要素共同決定了模型最終的成熟度和產(chǎn)品先進(jìn)性。通常情況下,算力依靠堆積 GPU 數(shù)量即可解決,而算力全面發(fā)揮的條件是網(wǎng)絡(luò)和存儲的能力要與算力保持一致,可提供高效的數(shù)據(jù)流轉(zhuǎn)能力和存儲供給能力。
目前 IT 建設(shè)中高性能數(shù)據(jù)中心已經(jīng)實現(xiàn)高速網(wǎng)絡(luò)的全面普及,例如:200Gb InfiniBand 已經(jīng)成為 HPC 計算/存儲的首選網(wǎng)絡(luò)技術(shù),并開始向更先進(jìn)的 400Gb 網(wǎng)絡(luò)技術(shù)迭代,那么存儲系統(tǒng)就成為決定業(yè)務(wù)發(fā)展快慢的關(guān)鍵因素。存儲的選擇需要貼合業(yè)務(wù)要求,此次存儲建設(shè)目標(biāo)不但需要滿足業(yè)務(wù)層百億文件存儲,還需要滿足模型全流程生產(chǎn)要求。即從數(shù)據(jù)分類、模型訓(xùn)練、仿真等環(huán)節(jié)考慮,存儲必須滿足不同類別文件的高性能響應(yīng),其中在訓(xùn)練和仿真環(huán)節(jié)尤其重要,關(guān)乎產(chǎn)品迭代速度以及撲向市場服務(wù)客戶的體驗。
智譜AI 作為 AI 行業(yè)的領(lǐng)先企業(yè),目前已取得多項國際領(lǐng)先的 AI 技術(shù)突破,在超大規(guī)模智能模型訓(xùn)練技術(shù)體系中占據(jù)領(lǐng)先地位,在選型存儲時最為關(guān)注以下幾點:
百億級別數(shù)據(jù)讀寫性能與元數(shù)據(jù)操作性能,在業(yè)務(wù)中,頻繁操作數(shù)據(jù),形成規(guī)模效應(yīng),存儲性能需要保證穩(wěn)定性;
業(yè)務(wù)數(shù)據(jù)包含大量的文本文件、視頻文件、音頻文件等多維度數(shù)據(jù),存儲作為數(shù)據(jù)的載體需要非常高的 IOPS 能力,普通機械硬盤性能不超過 200 IOPS。如果支持百億級數(shù)據(jù)業(yè)務(wù)模型,那么需要大量的磁盤用于存儲,顯然這樣的硬件選型是不合理的。目前業(yè)界主流高性能硬件已經(jīng)普及全閃的 NVMe SSD,單盤 IOPS 即可達(dá)到數(shù)萬。
在模型運算中,不僅僅存儲需要高 IOPS,還要同時兼容高性能網(wǎng)絡(luò),將存儲能力通過網(wǎng)絡(luò)供給到計算層,完成數(shù)據(jù)的流轉(zhuǎn)。
基于以上三點業(yè)務(wù)需求分析,智譜AI 認(rèn)為全閃存儲架構(gòu)是其業(yè)務(wù)的最佳選擇。
02 為什么選擇焱融全閃文件存儲?
焱融科技深入研究智譜AI 的業(yè)務(wù)模型,此次儲解決方案立足多模態(tài) AI 場景,適配百億級數(shù)據(jù)規(guī)模,向計算集群提供高性能低時延的存儲服務(wù)能力。焱融科技使用 YRCloudFile 全閃文件存儲一體機 F8000X 用于海量數(shù)據(jù)存儲,YRCloudFile F8000X 集群中單節(jié)點可提供 200萬 IOPS 和 40GBps 帶寬,支持 RDMA 協(xié)議,實現(xiàn)存儲高性能支撐,使 IaaS 層全面提升性能,為 AI 業(yè)務(wù)夯實基礎(chǔ)能力。

在 AI 全業(yè)務(wù)流程內(nèi),數(shù)據(jù)需要經(jīng)歷的預(yù)處理、訓(xùn)練、仿真等過程,焱融科技全閃文件存儲 F8000X 根據(jù)不同業(yè)務(wù)階段的特點,調(diào)用不同的存儲服務(wù)能力,滿足各個階段業(yè)務(wù)對數(shù)據(jù)服務(wù)能力的要求。在業(yè)務(wù)全過程中,數(shù)據(jù)始終處于 YRCloudFile 的全生命周期管理中,相比傳統(tǒng)存儲的分離架構(gòu),數(shù)據(jù)流轉(zhuǎn)成本大大降低,業(yè)務(wù)連續(xù)性得到保障。
多模態(tài) AI 數(shù)據(jù)來源維度眾多,在性能優(yōu)化層面較難,YRCloudFile 采用分布式并行架構(gòu),采用元數(shù)據(jù)路徑分離技術(shù),讓百億級混合文件(大文件和小文件并存場景)數(shù)據(jù)讀寫和元數(shù)據(jù)查詢性能穩(wěn)定,并且可線性擴展,滿足智譜AI 多個產(chǎn)品項目的業(yè)務(wù)性能需求,快速提升“虛擬數(shù)字人”的迭代能力。
全閃存儲成為未來存儲主流趨勢
隨著數(shù)字經(jīng)濟成為全球經(jīng)濟發(fā)展的主旋律,數(shù)據(jù)要素的重要性將不斷提升,在云、大數(shù)據(jù)、人工智能等新技術(shù)驅(qū)動下,全行業(yè)新應(yīng)用數(shù)據(jù)出現(xiàn)爆發(fā)式增長,為全閃存儲和分布式存儲高速發(fā)展帶來更多機遇。2021 年 Q4,Gartner 在全球存儲市場報告數(shù)據(jù)顯示,全球全閃存儲市場規(guī)模同比增長 13.9%,硬盤驅(qū)動器和混閃存儲下降 14.2%,全閃存儲在全球存儲市場占比首次超過 50%。近期,美國上市全閃存廠商 Pure Storage 發(fā)布的 2022Q2 財報顯示,其全閃陣列系列產(chǎn)品的營收在本季度繼續(xù)保持了強勁的增長,增長率超過 30%,且于上季度已實現(xiàn)了繼上市以來的首次盈利。在一些發(fā)達(dá)國家,全閃存應(yīng)用比例普遍高于 55 %。
那么,在看看國內(nèi)的全閃存儲市場概況, 2022 年 Q1 IDC 中國企業(yè)級存儲市場跟蹤報告中,數(shù)據(jù)顯示全閃存陣列同比增長 27.3%,而傳統(tǒng)機械硬盤 HDD 則出現(xiàn)負(fù)增長,國內(nèi)全閃存勢頭緊追國外。市面上固態(tài)硬盤 SSD 價格幾乎接近于傳統(tǒng)硬盤 HDD 的價格,一套全閃存存儲性能相當(dāng)于數(shù)幾十套傳統(tǒng) HDD 存儲總和。未來可預(yù)見 SSD 勢必將逐步取代最優(yōu)化性能的 HDD,或成為服務(wù)器與存儲系統(tǒng)的主要存儲裝置。

IDC 發(fā)布 2022年 Q1 中國企業(yè)級存儲市場跟蹤報告
市場上主流的全閃存儲產(chǎn)品形態(tài)大多是提供塊存儲服務(wù),而針對需要分布式文件存儲高性能場景的全閃存儲產(chǎn)品卻少有。焱融科技在分布式文件存儲領(lǐng)域擁有先進(jìn)的技術(shù),其核心技術(shù)優(yōu)勢率先支持 400Gbps InfiniBand 網(wǎng)絡(luò),打造 AI 時代 GPU 計算的高性能存儲。焱融全閃文件存儲 F8000X 其性能優(yōu)勢可實現(xiàn)單個存儲節(jié)點達(dá)到 40GB/s 帶寬、200 萬以上 IOPS。由于采用的是分布式存儲架構(gòu),性能可以通過增加節(jié)點的方式實現(xiàn)線性提升,其性能水平比肩國外知名全閃廠商,價格更勝出一籌,這也是焱融科技在眾多國外全閃存儲廠商中脫穎而出的原因。
成員中心
- 北京超核電子科技有限公司
- 東莞法法易新能源科技有限公...
- 河北雄安奧咨達(dá)工程咨詢有限...
- 東莞派歌銳電氣有限公司
- 廈門星創(chuàng)易聯(lián)科技有限公司
- 青島智騰微電子有限公司
- 巨視慧行(武漢)科技有限公司
- 墨翟科技(上海)有限公司
- 深圳市乾思迪電子科技有限公...
- 廣州市杜格科技有限公司
- 西安海格電氣技術(shù)有限公司
- 深圳市三旺通信股份有限公司
- 深圳市百年星科技有限公司
- 禾純展覽(上海)有限公司
- 華為技術(shù)有限公司
- 上海兆越通訊技術(shù)有限公司
- 玖新文化傳媒(上海)有限公...
- 北京銘世博展覽有限公司
- 北京銘世博國際展覽有限公司
- 恒興國際會展(北京)有限公...

