1. 創業頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

開發框架與基礎硬件攜手,AI的社會價值在文化領域深度彰顯

 2023-01-13 13:14  來源:A5專欄  我來投稿 撤稿糾錯

  【推薦】海外獨服/站群服務器/高防

語言是人類進行溝通交流的表達方式,其儲存著豐富的文化信息,傳承著民族血脈,也支撐著文明的發展與演進。然而,一些少數民族語言、方言卻正在無聲無息地消失,與之密切相連的地域文化、歷史文化也正面臨瀕危風險。

“大約平均兩周就會有一種語言消亡“,聯合國教科文組織的這一調查數據讓人觸目驚心,且世界上正在使用的約6,000種語言,至少有43%面臨瀕危[1]。而在中國,也有25種語言使用人口已不足千人[2]。

搶救瀕危少數民族語言對保持漢語的豐富性、多元性,保護文化記憶、文化基因意義重大。因此,中國早在2015年就啟動了語言資源保護工程,借助田野調查,建立起龐大的口語語料庫,保存了原始聲音文件和國際音標標注等豐富素材。

[1] 如欲了解更多詳情請訪問:https://www.un.org/zh/observances/mother-language-day%20

[2]如欲了解更多詳情請訪問:https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm

然而,僅僅依靠這些單語數據,研究者難以獲知其背后所傳達的語義,無法有效開展相關學習與研究,更罔論留存這些少數民族瀕危語言與背后地方文化的生命力。

人工智能技術為復活這些語言,挖掘多元文化價值,傳承璀璨的歷史文化,提供了新思路和新手段。2022年國際母語日也將“利用技術促進多語言學習:挑戰與機遇”作為主題,指出了技術對推進多語言教育以及文化傳承與保護的作用。

百度飛槳深度學習平臺攜手英特爾,基于第三代英特爾® 至強® 可擴展處理器進行深度優化,通過完善的模型壓縮方法和量化加速技術,支持全自動生成大規模“漢語-少數民族語言”雙向詞典,對用技術幫助保護瀕危少數民族語言,推動民族互通互融,做出了積極探索,展現了“科技向善”的現實意義和歷史價值。

采用百度飛槳深度學習平臺,全自動構建大規模雙向詞典

構建雙向詞典項目,采用了規模大、范圍廣、語種多、內容豐富的瀕危語言博物館館藏源語料庫,語料全部來自于田野調查與實地采集。

通過分析,項目研發人員選取了中國少數民族語言中的獨龍、爾蘇、嘉絨、撒拉這四種數據較為豐富的語言作為實驗對象。

為基于百度飛槳實現對齊算法,項目團隊首先開發了民間故事漢語數據集。開發過程中,充分利用飛槳PaddleOCR開發套件識別精度高、推理速度快等特性,對跨度8年的《故事會》雜志掃描樣本進行數據化處理,構建出規模達950萬字的文本數據集,也是全球首個民間故事漢語數據庫,且具有很強的口語化風格,適合與少數民族語言語料進行對齊。

然后,實施低資源詞向量訓練,應對四個少數民族語料句子數量普遍不足五千條的挑戰,以及《故事會》語料小于二十萬條句子的問題,為下游的雙語對齊提供了強有力的支持。

繼之,依據拓撲特征,對兩種語言的詞向量進行旋轉和對齊,實施雙語詞典自動化抽取,最終導出了獨龍、爾蘇、嘉絨、撒拉這四種語言和漢語的雙向詞典。

目前,這四部雙向詞典已在中國社科院民族學和人類學研究所志愿者的協助下,進行了內部評測,僅發現含有少量誤差。這一可喜成果,驗證了基于百度飛槳深度學習平臺,智能生成大規模漢語-少數民族語言詞典的可行性和便捷性,展現了人工智能對于應對語言瀕危日益嚴峻挑戰的高效性和高價值。

英特爾與百度飛槳軟硬協同優化,用智能探索文化保護新路

雙向詞典項目依托飛槳深度學習技術,高效實現了瀕危語言詞典的自動化生成,極大減輕了語保工作者的負擔。而其背后是英特爾所提供的英特爾® 至強® 可擴展平臺具備的強勁算力和多種優化措施,為飛槳平臺高效支撐項目運作提供了基礎能力和量化加速。

業界盡知,人工智能應用不僅需要高算力作為支撐,而且源于大多數深度學習模型使用32位浮點精度(FP32)構建,復雜度高,模型參數量大,限制了其在一些場景和設備進行部署,需要實施軟硬結合優化,才能突破性能瓶頸,高效承載諸如上文雙向詞典生成等多類應用。

針對上述問題,英特爾攜手百度飛槳,基于第三代英特爾® 至強® 可擴展處理器、英特爾® oneAPI工具套件等軟硬件組合,在為飛槳平臺提供充裕算力的同時,也對整個深度學習流程實施全方位優化,幫助加速各類應用開發和量化部署。

第三代英特爾® 至強® 可擴展處理器依托出色的微架構,發揮多核心、多線程和大容量高速緩存等特性,很好地滿足了飛槳平臺對通用算力的苛刻需求,同時加持以其內置的英特爾® AVX-512提供的增強矢量處理能力,提升AI 推理和訓練效率,為圖像分類、自然語言處理、語音識別、語音翻譯等廣泛的應用開發和部署提供穩健基石。而最新一代的第四代英特爾® 至強® 可擴展處理器更內置一系列加速器,包括全新的AI加速器——英特爾®高級矩陣擴展(英特爾®AMX),覆蓋包括訓練和微調在內的更多深度學習使用場景,可以為不斷變化且要求日益增高的應用提供更為可觀的計算性能。

為滿足模型快速“瘦身”之需,百度飛槳打造了PaddleSlim深度學習模型壓縮工具庫,以及為用戶提供靈活的壓縮策略,而英特爾® 至強® 可擴展處理器內置的AI加速技術--英特爾® 深度學習加速(英特爾® DL Boost),可通過矢量神經網絡指令(VNNI)充分提高計算資源和緩存的利用率,減少潛在的帶寬瓶頸,為INT8等低精度計算提供優化支持,顯著加速AI 推理。由此,幫助飛槳PaddleSlim所支持的量化訓練和靜態離線量化方法,更好地適用于計算機視覺(CV)和自然語言處理 (NLP)等模型優化過程,這無疑也為雙向詞典AI方案的開發提供了便利,同時提高了項目運作效率。

同時為激活 VNNI 加速功能,百度飛槳深度學習平臺在量化方案實施中還廣泛使用英特爾® oneAPI 工具套件,如英特爾® oneAPI 深度神經網絡庫 (Intel® oneAPI Deep Neural Network Library,英特爾® oneDNN)。借助其統一、簡化的編程模型,飛槳用戶得以在CPU、GPU和FPGA等不同的架構上方便地調用通用接口來使用平臺內置的AI加速技術,而無需擔心平臺兼容問題。

得益于英特爾® 至強® 可擴展平臺與多項優化工具的支持,百度飛槳深度學習平臺實現了深度優化,并不斷豐富模型資源及應用開發套件,為用戶提供了優異的模型及硬件加速體驗。而雙向詞典項目在推動少數民族語言保護領域展現的神奇魔力,就是其典型案例。

“十四五”規劃把“強化重要文化和自然遺產、非物質文化遺產系統性保護、推動中華優秀傳統文化創造性轉化、創新性發展”,作為提高社會文明程度的重要舉措;今年的工作報告也強調了“傳承中華優秀傳統文化,滿足人民日益增長的精神文化需求”,對鑄就文化新輝煌的重要作用。

英特爾攜手百度飛槳踐行“科技向善”,優化開源平臺,促進瀕危語言保護,不僅延續和發揚了語言背后蘊含的文化、知識遺產及其價值,更探索出智能技術賦能的新路;也是英特爾繼用人工智能助力長城修繕,通過計算、存儲、網絡全棧優化解決方案幫助云岡石窟文物保護等,持續展現創新技術對挖掘與傳承璀璨歷史文化、實現創新創造的新動能的又一成功實踐,有助于在讓歷史智慧照進未來,讓寶貴文化遺產豐富人們精神世界的同時,進一步加速人工智能的拓展應用,助力擁抱數字化浪潮,創造更美好的生活。

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關標簽
ai技術

相關文章

  • 匯聚中國AI頂尖力量 云天勵飛參與華為AI大模型聯合創新

    2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據悉,在昇騰AI大模型的創新研發中,華為聯手26家行業領軍企業,組建了一支協同創新的“AI明星隊”,云天勵飛作為中國人工智能企業的杰出代表,和互聯網大廠、運營商、科研院所等優秀團隊

    標簽:
    ai技術
  • 用友大易:邁入AI招聘2.0時代,讓人力資源回歸本質

    這幾個月來,以ChatGPT為代表的生成式AI展現出的能力令世界驚嘆。自從2016年AlphaGo戰勝李世石掀起了一波AI浪潮后,AI仿佛已經沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現圖像識別、聲音識別、語言處理等特

    標簽:
    ai技術
  • 新發布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯網江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發者大會上,發布了企業級戰略PaaS2.0,希望通過一個平臺+四大開發服務,建立起IoT生態。對于這場發布會,市場的態度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩定

    標簽:
    ai技術
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團曾經的二號人物王慧文對標OpenAI的創業項目光年之外,以20億賣給美團,再度引發市場對大模型的熱議。

    標簽:
    ai技術
  • 拾起王慧文的AI夢,美團沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯網發展而持續創業20年的人物即將告別創業舞臺。但是,一個曾經多次創業,正值壯年的互聯網老將心中的創業熱情是難以熄滅的。

    標簽:
    ai技術
  • Sora是什么?怎么讀?Sora怎么就成了熱點流量風向標?

    Sora是個什么東東?Sora,讀音叫索拉,你也可以叫它索拉。這個Sora是目前可以說世界第一的美國的人工智能AI大模型公司Openai四天前(2024年2月16日)發布的文本生成視頻的大模型,目前未對外開放,還在內測階段。對了,它還有一個同樣非常出名的,2022年11月30日發布的ChatGPT人

    標簽:
    ai技術
  • 大模型時代,現代BI的底層已經被顛覆了?

    文|智能相對論作者|沈浪“Whatgetsmeasured,getsmanaged.”——這是著名管理學大師彼得·德魯克的觀點,意為「只有被量化的,才能被管理?!贡M管備受爭議,但是從某種程度來說,這一觀點基本貫穿了當今企業的數字化轉型進程。企業業務的數字化,本質上就是一個持續量化的過程。以BI(商業

    標簽:
    大模型
  • 如何為您的業務開發和訓練一個AI-BOT

    生成式AI(GenerativeAI)是當今科技領域的前沿技術之一。隨著數據量的不斷增加和計算能力的不斷提升,AI技術在企業和個人生活中的應用越來越廣泛。AI-BOT(以下簡稱BOT)是生成式AI技術的其中一種重要的應用形式,它可以通過學習各類業務數據信息,幫助人們執行一系列任務,從而提高工作效率,

    標簽:
    ai技術
  • OpenAI發布文生視頻大模型Sora

    照這個速度發展下去,通用人工智能應該就是這幾年的事了,人類的未來到底是怎么樣的,誰都無法預測了。

    標簽:
    ai技術

編輯推薦