科大訊飛獲國家科學(xué)技術(shù)進(jìn)步獎一等獎

來(lái)源:投影時(shí)代 更新日期:2024-06-25 作者:pjtime資訊組

    6月24日,2023年度國家科學(xué)技術(shù)獎勵大會(huì )在京召開(kāi),科大訊飛作為第一完成單位的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目獲得國家科學(xué)技術(shù)進(jìn)步獎一等獎。這是深度學(xué)習引發(fā)全球人工智能浪潮以來(lái),過(guò)去十年人工智能領(lǐng)域首個(gè)國家科學(xué)技術(shù)進(jìn)步獎一等獎。這也是科大訊飛繼2002年和2011年分別獲得國家科學(xué)技術(shù)進(jìn)步獎二等獎之后,首次獲得國家科學(xué)技術(shù)進(jìn)步獎一等獎。

    國家科學(xué)技術(shù)進(jìn)步獎創(chuàng )辦于1984年9月,是國務(wù)院設立的國家科學(xué)技術(shù)獎5大獎項(國家最高科學(xué)技術(shù)獎、國家自然科學(xué)獎、國家技術(shù)發(fā)明獎、國家科學(xué)技術(shù)進(jìn)步獎、中華人民共和國國際科學(xué)技術(shù)合作獎)之一。因2021年、2022年國家科技獎暫停的緣故,2023年度國家科技獎積累了大量的優(yōu)秀成果,競爭激烈。

科大訊飛獲國家科學(xué)技術(shù)進(jìn)步獎一等獎

    關(guān)鍵技術(shù)取得四大突破達到國際領(lǐng)先水平

    語(yǔ)音是人類(lèi)最自然便捷的溝通方式,是智能設備人機交互的關(guān)鍵入口,也是諸多敏感信息的重要載體,還是民族團結和國際合作的基礎。多語(yǔ)種智能語(yǔ)音技術(shù)對于支撐人機交互、人類(lèi)語(yǔ)言互通及國家安全等需求具有重大戰略意義,具有十分廣闊的產(chǎn)業(yè)前景,是當前國際科技競爭核心焦點(diǎn)之一。

    持續攻關(guān)多年,科大訊飛攻克了多個(gè)技術(shù)難題,并打破技術(shù)封鎖,提出了四個(gè)方面的技術(shù)創(chuàng )新。

    創(chuàng )新點(diǎn)一,復雜語(yǔ)音信號解耦建模關(guān)鍵技術(shù)突破。

    語(yǔ)音識別研究中最具挑戰的是遠場(chǎng)、噪聲、多人語(yǔ)音混疊等現象導致的“雞尾酒會(huì )”效應典型難題。

    科大訊飛提出了多通道語(yǔ)音信號時(shí)空分離建模方法和多維度語(yǔ)音屬性解耦表征方法,實(shí)現語(yǔ)音信號中內容、噪聲等高度耦合的多維屬性特征解耦,解決了“雞尾酒會(huì )”的難題,使得復雜場(chǎng)景下語(yǔ)音識別準確率得到重大突破。

    在這些技術(shù)的支撐下,科大訊飛連續4屆獲得國際多通道語(yǔ)音分離和識別比賽CHIME冠軍;連續8屆獲得國際語(yǔ)音合成大賽Blizzard Challenge冠軍。2015年,相關(guān)技術(shù)首次在大會(huì )演講場(chǎng)景實(shí)現語(yǔ)音轉寫(xiě)超過(guò)人類(lèi)速記員水平;2019年起連續六年服務(wù)全國兩會(huì );個(gè)性化語(yǔ)音合成首次應用于中央電視臺節目配音(《創(chuàng )新中國》),并在新華社、人民日報、學(xué)習強國等廣泛應用。

    創(chuàng )新點(diǎn)二,多語(yǔ)種共享建模關(guān)鍵技術(shù)突破。

    為了應對多語(yǔ)種技術(shù)“卡脖子”問(wèn)題,必須解決小語(yǔ)種智能語(yǔ)音系統構建所面臨的知識匱乏、訓練數據稀缺等難題。

    科大訊飛設計了全新的多語(yǔ)種通用音素體系和基本語(yǔ)言單元,實(shí)現多語(yǔ)種統一音素韻律體系的構建,又通過(guò)基于元學(xué)習的多語(yǔ)種預訓練和基于語(yǔ)族分組的多語(yǔ)種共享建!ㄋ椎卣f(shuō),就是將不同的小語(yǔ)種進(jìn)行分類(lèi),找到同類(lèi)語(yǔ)種的共同規律,進(jìn)行分析建模和訓練——最終,顯著(zhù)提升了小語(yǔ)種語(yǔ)音系統性能。

    相關(guān)技術(shù)在2021年國際低資源多語(yǔ)種語(yǔ)音識別競賽OpenASR中獲得15個(gè)語(yǔ)種受限賽道和7個(gè)語(yǔ)種非受限賽道的冠軍。2024年,結合語(yǔ)音屬性解耦表征、多語(yǔ)種多任務(wù)共享建模等關(guān)鍵技術(shù)成果發(fā)布星火語(yǔ)音大模型,首批37個(gè)主流語(yǔ)種的語(yǔ)音識別效果超過(guò)OpenAI Whisper V3。

    在奇瑞、一汽等的交互評測中,科大訊飛的技術(shù)效果全面領(lǐng)先國際車(chē)載語(yǔ)音技術(shù)競品賽倫思(原Nuance車(chē)載公司),在華為的評測中也領(lǐng)先谷歌。

    創(chuàng )新點(diǎn)三,語(yǔ)音語(yǔ)義聯(lián)合建模關(guān)鍵技術(shù)突破。

    復雜應用場(chǎng)景下語(yǔ)音交互、語(yǔ)音翻譯面臨著(zhù)深層次語(yǔ)義理解困難、專(zhuān)業(yè)性不足等問(wèn)題。

    科大訊飛提出語(yǔ)音語(yǔ)義互增強的魯棒口語(yǔ)理解技術(shù),有效提升語(yǔ)音交互、語(yǔ)音翻譯等復雜場(chǎng)景的語(yǔ)義理解準確率;提出多源知識增強的可信文本生成技術(shù),提升專(zhuān)有詞匯及領(lǐng)域知識引用的準確率。

    相關(guān)技術(shù)于2018年在業(yè)內首次達到CATTI考試英語(yǔ)二級《口譯實(shí)務(wù)(交替傳譯類(lèi))》合格標準;并在2021-2023年連續三屆獲得國際權威機器口語(yǔ)翻譯評測比賽IWSLT冠軍,覆蓋同傳、離線(xiàn)、方言翻譯等多類(lèi)任務(wù)。

    技術(shù)成果應用在多個(gè)方面:如英語(yǔ)口語(yǔ)評測首次達到人類(lèi)專(zhuān)家水平,是滿(mǎn)足高考應用要求的技術(shù),累計服務(wù)超1.3億考生;智能客服系統規模應用,累計服務(wù)超8億人,多行業(yè)對話(huà)成功率超90%。

    創(chuàng )新點(diǎn)四,國產(chǎn)異構硬件平臺訓練及推理加速關(guān)鍵技術(shù)突破。

    使用國產(chǎn)芯片開(kāi)展智能語(yǔ)音算法模型訓練和推理面臨性能低、適配難等問(wèn)題。

    科大訊飛提出硬件親和的變長(cháng)輸入算子融合和聯(lián)合統一量化感知訓練技術(shù),通過(guò)軟硬件協(xié)同優(yōu)化的動(dòng)態(tài)張量算子自動(dòng)融合方法,實(shí)現對語(yǔ)音等變長(cháng)輸入的訓練性能優(yōu)化達到國際主流芯片同等水平;通過(guò)多硬件聯(lián)合的量化計算模擬,達到模型單次訓練后可在不同硬件平臺上一鍵部署,解決了智能語(yǔ)音技術(shù)硬件平臺的“卡脖子”問(wèn)題。

    目前,已建成5個(gè)國產(chǎn)化集群,語(yǔ)音合成、識別、翻譯、交互等國產(chǎn)化能力日服務(wù)8.73億次。2023年,科大訊飛與華為聯(lián)合攻關(guān)大模型國產(chǎn)化算力底座核心難題,建設首個(gè)萬(wàn)卡全國產(chǎn)算力平臺“飛星一號”,填補了國產(chǎn)超大模型訓練平臺空白。

    基于這些關(guān)鍵技術(shù)的持續攻關(guān)和突破,該項目獲批牽頭建設4個(gè)國家級創(chuàng )新平臺:語(yǔ)音產(chǎn)業(yè)界唯一的國家級研究開(kāi)放平臺語(yǔ)音及語(yǔ)言信息處理國家工程研究中心,智能語(yǔ)音國家新一代人工智能開(kāi)放創(chuàng )新平臺,首批20家標桿全國重點(diǎn)實(shí)驗室之一的認知智能全國重點(diǎn)實(shí)驗室,智能語(yǔ)音領(lǐng)域唯一的國家技術(shù)標準創(chuàng )新基地;并主導編制11項國際和國家標準,獲授權發(fā)明專(zhuān)利257項;近五年累計獲得國際權威評測冠軍20余項,持續保持技術(shù)引領(lǐng)。

    實(shí)現規;a(chǎn)業(yè)立地有效支撐國家戰略

    科大訊飛一直堅持“技術(shù)頂天、應用立地”的戰略,圍繞多語(yǔ)種智能語(yǔ)音技術(shù)構建了自主可控的產(chǎn)業(yè)生態(tài)。

    第一,語(yǔ)音是萬(wàn)物互聯(lián)時(shí)代人機交互的關(guān)鍵入口,項目開(kāi)創(chuàng )引領(lǐng)我國語(yǔ)音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)升級和出海。

    智能手機方面,項目支持各主流手機廠(chǎng)商累計激活設備超10億臺,有效解決華為等廠(chǎng)商出海的多語(yǔ)種“卡脖子”問(wèn)題;智能汽車(chē)方面,車(chē)載智能化產(chǎn)品累計前裝超5300萬(wàn)套,支持奇瑞、一汽、長(cháng)安等車(chē)企超200萬(wàn)套訂單出海;智能軟硬件方面,開(kāi)創(chuàng )智能翻譯機、智能辦公本、智能錄音筆等智能硬件新品類(lèi),連續三年獲得京東&天貓雙平臺銷(xiāo)售冠軍,其中,訊飛翻譯機目前能支持85個(gè)語(yǔ)種的翻譯,覆蓋全球200多個(gè)國家和地區,連續8年獲得京東618、連續7年獲得天貓雙11銷(xiāo)售冠軍;在會(huì )議、辦公等場(chǎng)景,訊飛聽(tīng)見(jiàn)系列產(chǎn)品服務(wù)遍及全球50多個(gè)國家和地區,支持了超過(guò)40萬(wàn)場(chǎng)會(huì )議,觸及超過(guò)4億觀(guān)眾;面向更多用戶(hù),訊飛輸入法月活躍用戶(hù)超1.4億人,日語(yǔ)音交互次數超10億次。

    第二,項目助力民族團結,促進(jìn)全球語(yǔ)言互通和“一帶一路”建設。

    發(fā)布“多語(yǔ)種語(yǔ)音云”平臺,月服務(wù)超過(guò)5.46億人次;每年提供翻譯服務(wù)51.5億次,語(yǔ)音同傳服務(wù)全球50余個(gè)國家超4億觀(guān)眾;多語(yǔ)種技術(shù)有效服務(wù)北京冬奧會(huì )和冬殘奧會(huì )、中國國際進(jìn)口博覽會(huì )、博鰲論壇等國家重大活動(dòng)。

    第三,項目還構建了自主可控的多語(yǔ)種智能語(yǔ)音技術(shù)及全球產(chǎn)業(yè)生態(tài)。

    2017年開(kāi)始承建的智能語(yǔ)音國家新一代人工智能開(kāi)放創(chuàng )新平臺,已聚集平臺開(kāi)發(fā)者數700.7萬(wàn),終端設備數40.5億;構建全球多語(yǔ)種技術(shù)生態(tài),目前平臺聚集海外開(kāi)發(fā)者數超過(guò)40萬(wàn)。

    第四,讓科技更有溫度,項目持續助力公益,關(guān)愛(ài)弱勢群體和特殊人群。

    “聽(tīng)見(jiàn)AI的聲音”公益行動(dòng),為聽(tīng)力障礙人士提供免費的實(shí)時(shí)語(yǔ)音轉文字服務(wù)、捐贈免費時(shí)長(cháng),截至2024年6月,累計捐贈時(shí)長(cháng)超一億分鐘;發(fā)起“三聲有幸”項目,累計服務(wù)1368萬(wàn)人,助力公益團隊創(chuàng )建無(wú)障礙應用超3萬(wàn)個(gè);進(jìn)行推普脫貧攻堅,累計助力超115萬(wàn)少數民族群眾,成為《國家通用語(yǔ)言文字法》施行22年來(lái)首次表彰活動(dòng)中的企業(yè)先進(jìn)集體。

    項目產(chǎn)業(yè)生態(tài)繁榮、成效顯著(zhù)。近三年,多語(yǔ)種智能語(yǔ)音技術(shù)產(chǎn)業(yè)化項目累計實(shí)現直接經(jīng)濟效益521.28億元,并帶動(dòng)由工信部和安徽省政府共建、以科大訊飛為核心的“中國聲谷”產(chǎn)業(yè)集聚發(fā)展,并上升為中部崛起的國家戰略。

    未來(lái):智能語(yǔ)音+認知大模型用人工智能建設美好世界

    十年磨一劍,科大訊飛創(chuàng )業(yè)25年來(lái)第三次獲得國家科技進(jìn)步獎,對于科大訊飛而言,是一個(gè)總結,也是新開(kāi)始!

    通用人工智能時(shí)代,科大訊飛多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)中的創(chuàng )新和大模型技術(shù)相互補充、相互促進(jìn)。

    語(yǔ)音屬性解耦、語(yǔ)音信號時(shí)空分離等技術(shù)突破,可以將語(yǔ)音信號經(jīng)過(guò)編碼后輸入到大語(yǔ)言模型,顯著(zhù)提升語(yǔ)音大模型的效果。2024年1月30日,科大訊飛就基于上述技術(shù)融合路線(xiàn)發(fā)布了星火語(yǔ)音大模型,顯著(zhù)超過(guò)了OpenAI的Whisper v3的語(yǔ)音大模型能力,Whisper v3的24個(gè)主要語(yǔ)種的平均識別率為82%,而星火語(yǔ)音大模型達到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話(huà)聲音復刻能力,使機器具備更加豐富的超擬人情緒感知和表達。

    大模型技術(shù)可以在復雜語(yǔ)義理解、長(cháng)文本建模能力上進(jìn)一步提升語(yǔ)音識別、合成和翻譯的效果,同時(shí)基于其強大的語(yǔ)義理解、知識問(wèn)答、多輪對話(huà)、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語(yǔ)音技術(shù)的使用場(chǎng)景和應用價(jià)值,支撐實(shí)現語(yǔ)音同傳、自動(dòng)客服、輔學(xué)答疑、家庭醫生、虛擬員工、陪伴機器人、服務(wù)機器人等未來(lái)智能產(chǎn)品創(chuàng )新,帶來(lái)巨大產(chǎn)業(yè)機會(huì ),加速通用人工智能時(shí)代的到來(lái)。

    6月27日,訊飛星火V4.0也將正式發(fā)布,底座能力全面對標GPT-4 Turbo,語(yǔ)音大模型也將迎來(lái)全新升級。

    未來(lái),在科大訊飛國際領(lǐng)先的智能語(yǔ)音技術(shù)基礎之上,訊飛星火將進(jìn)一步向著(zhù)“解放生產(chǎn)力、釋放想象力,為每個(gè)企業(yè)和每個(gè)人打造專(zhuān)屬AI助手”的更大愿景,持續攀登、持續進(jìn)步,用人工智能建設美好世界!

廣告聯(lián)系:010-82755684 | 010-82755685 手機版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時(shí)代網(wǎng) 版權所有 關(guān)于投影時(shí)代 | 聯(lián)系我們 | 歡迎來(lái)稿 | 網(wǎng)站地圖
返回首頁(yè) 網(wǎng)友評論 返回頂部 建議反饋
快速評論
驗證碼: 看不清?點(diǎn)一下
發(fā)表評論