近日,云從科技在語(yǔ)音識(shí)別技術(shù)上取得重大突破荤懂,在全球最大的開源語(yǔ)音識(shí)別數(shù)據(jù)集Librispeech上刷新了世界紀(jì)錄茁裙,錯(cuò)詞率(Worderrorrate,WER)降到了2.97%节仿,將Librispeech的WER指標(biāo)提升了25%晤锥,超過阿里、百度罩泰、約翰霍普金斯大學(xué)等企業(yè)及高校鬼浮,大幅刷新原先記錄。
(圖片來(lái)源自網(wǎng)絡(luò)谤蚌,如有侵權(quán),請(qǐng)聯(lián)系刪除衫沽。)
此次突破標(biāo)志著云從科技在今年4月刷新跨鏡追蹤技術(shù)(ReID)三項(xiàng)世界紀(jì)錄后在新領(lǐng)域再次取得重大成果檐鹤,正全力夯實(shí)核心技術(shù)閉環(huán)。
云從科技核心技術(shù)閉環(huán)包括人臉識(shí)別酒吠、智能感知與智能分析三個(gè)階段冈彭。
(圖片來(lái)源自網(wǎng)絡(luò),如有侵權(quán)唇佳,請(qǐng)聯(lián)系刪除骏点。)
此次語(yǔ)音識(shí)別突破屬于智能感知中的一環(huán)。智能感知即視覺杆叛、聽覺谷芬、觸覺等感知能力,能夠讓計(jì)算機(jī)通過各種智能感知能力與外界進(jìn)行交互模聋。
時(shí)隔半年 再次刷新世界紀(jì)錄
今年4月肩民,云從科技跨鏡追蹤技術(shù)(ReID)在Market-1501,DukeMTMC-reID链方,CUHK03三個(gè)數(shù)據(jù)集刷新了世界紀(jì)錄持痰,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達(dá)到96.6%,讓跨鏡追蹤技術(shù)(ReID)技術(shù)在準(zhǔn)確率上首次達(dá)到商用水平祟蚀,人工智能從「刷臉」跨到「識(shí)人」的新紀(jì)元工窍。
語(yǔ)音識(shí)別技術(shù)同樣是智能感知中一個(gè)重要的部分。 通過語(yǔ)音識(shí)別前酿,機(jī)器就可以像人類一樣聽懂說(shuō)話患雏,進(jìn)而能夠理解鹏溯、思考與反饋。
近年來(lái)纵苛,在深度學(xué)習(xí)技術(shù)的幫助下剿涮,語(yǔ)音識(shí)別取得了極大的進(jìn)展,從實(shí)驗(yàn)室開始走向市場(chǎng)攻人,走向?qū)嵱没∈浴;谡Z(yǔ)音識(shí)別技術(shù)的輸入法腋殃、搜索和翻譯等人機(jī)交互場(chǎng)景都有了廣泛的應(yīng)用馁掺。
Librispeech 是當(dāng)前衡量語(yǔ)音識(shí)別技術(shù)的最權(quán)威主流的開源數(shù)據(jù)集。錯(cuò)詞率(Worderrorrate燕党,WER)是衡量語(yǔ)音識(shí)別技術(shù)水平的核心指標(biāo)寻币。
(圖片來(lái)源自網(wǎng)絡(luò),如有侵權(quán)悉宿,請(qǐng)聯(lián)系刪除瓶虽。)
云從科技在Librispeech數(shù)據(jù)集上刷新了業(yè)內(nèi)最好的水平示祭,將錯(cuò)詞率(Worderrorrate尼袁,WER)降到了驚人的2.97%,較之前提升了25%咽蚣,已超越人類專業(yè)速記員水平化焕。
能夠獲得如此大幅度的突破,充分說(shuō)明云從科技語(yǔ)音識(shí)別研究成果的價(jià)值铃剔,該成果必然能夠推動(dòng)語(yǔ)音識(shí)別技術(shù)的大幅進(jìn)步撒桨,也使得語(yǔ)音識(shí)別離更良好的交互體驗(yàn)越來(lái)越近。
云從科技此次推出的語(yǔ)音識(shí)別模型將殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合, 能夠同時(shí)有效的提取空間和時(shí)間上不同粒度的信息键兜,對(duì)比目前業(yè)界使用最為廣泛的LSTM模型元莫,訓(xùn)練速度更快、識(shí)別準(zhǔn)確率更高蝶押。
構(gòu)建核心技術(shù)閉環(huán)實(shí)現(xiàn)人工智能“五步走”戰(zhàn)略
在10月12日的國(guó)家發(fā)改委“人工智能基礎(chǔ)資源公共服務(wù)平臺(tái)”項(xiàng)目發(fā)布會(huì)上踱蠢,云從科技創(chuàng)始人周曦提出了人工智能發(fā)展的五個(gè)階段,核心技術(shù)閉環(huán)是五個(gè)階段的重要基礎(chǔ)棋电。
云從科技在今年先后首發(fā)3D結(jié)構(gòu)光人臉識(shí)別技術(shù)及刷新跨鏡追蹤技術(shù)三項(xiàng)世界紀(jì)錄茎截,并在金融、安防赶盔、機(jī)場(chǎng)等優(yōu)勢(shì)行業(yè)建設(shè)基于智能分析的“行業(yè)大腦”企锌,穩(wěn)步推進(jìn)從核心技術(shù)到智能生態(tài)的五步走戰(zhàn)略榆浓。
(圖片來(lái)源自網(wǎng)絡(luò),如有侵權(quán)其神,請(qǐng)聯(lián)系刪除殴衡。)
目前,云從科技是中國(guó)銀行業(yè)第一大AI供應(yīng)商垄窃。包括農(nóng)行蟀腌、建行、中行吐莲、招行總行等全國(guó)400多家銀行已采用公司產(chǎn)品抠偏,為全國(guó)銀行提供對(duì)比服務(wù)日均2.16億次,同時(shí)為14.7萬(wàn)家社會(huì)網(wǎng)點(diǎn)提供服務(wù)陪瘟。
在安防領(lǐng)域鞋剔,公司產(chǎn)品已在29個(gè)省級(jí)行政區(qū)上線實(shí)戰(zhàn),每天比對(duì)超過10億次阐逗,數(shù)據(jù)匯聚總量超過千億池躁,協(xié)助全國(guó)公安抓獲超過1萬(wàn)名犯罪嫌疑人;
民航領(lǐng)域韵谋,全國(guó)多個(gè)樞紐機(jī)場(chǎng)選擇云從產(chǎn)品褒选,日服務(wù)旅客人數(shù)達(dá)到6千萬(wàn)。
在這些基礎(chǔ)上西设,云從科技正在致力整合算力瓣铣、智力答朋、數(shù)據(jù)等資源及其成果贷揽,打造人工智能平臺(tái),進(jìn)一步促進(jìn)人工智能在金融梦碗、安防禽绪、交通、零售洪规、教育等重要行業(yè)的落地印屁。
Pyramidal-FSMN語(yǔ)音識(shí)別模型原理解析
云從科技提出的新型網(wǎng)絡(luò)結(jié)構(gòu),能更加有效的提取空間和時(shí)間特征的角度斩例,為語(yǔ)音識(shí)別進(jìn)一步發(fā)展提供了一些新的思路:
模型設(shè)計(jì)采用一種殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合的結(jié)構(gòu)雄人;
訓(xùn)練方式使用lattice-free最大互信息(lattice-free maximum mutual information, LF-MMI/Chain)與交叉熵(crossentropy念赶,CE)損失函數(shù)相結(jié)合的多任務(wù)學(xué)習(xí)技術(shù)础钠;
解碼部分采取RNNLM rescoring的方式,利用RNN提取一個(gè)句子中的長(zhǎng)期語(yǔ)義信息叉谜,從而更有效地幫助聲學(xué)模型得到準(zhǔn)確的句子拓酵。
如下圖所示镰饶,作者采用了由6層ResidualCNN和10層Pyramidal-FSMN相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。
(圖片來(lái)源自網(wǎng)絡(luò)乱树,如有侵權(quán)烧骗,請(qǐng)聯(lián)系刪除。)
前端網(wǎng)絡(luò)借鑒了圖像識(shí)別中經(jīng)典的Residual CNN結(jié)構(gòu)吆揖,更有效地提取特征與時(shí)間相互的關(guān)聯(lián)信息铜诽,同時(shí)skipconnection避免了CNN網(wǎng)絡(luò)加深之后梯度消失和梯度爆炸問題。
在金字塔記憶模塊中元糯,淺層的網(wǎng)絡(luò)主要聚焦于音素本身的特征學(xué)習(xí)贺勿,所以只需抽取短時(shí)上下文信息,而深層的網(wǎng)絡(luò)由于已經(jīng)學(xué)習(xí)到了足夠的固定時(shí)間的音素信息旷程,需要學(xué)習(xí)長(zhǎng)時(shí)間包括語(yǔ)義和語(yǔ)法特征甩卷,所以深層抽取長(zhǎng)時(shí)間的上下文信息。利用這樣的金字塔結(jié)構(gòu)起衫,既能減少參數(shù)劝薄,縮小模型結(jié)構(gòu),也能更加精巧的模擬人類處理語(yǔ)音信號(hào)的過程栈妆,提高識(shí)別效果胁编。
在損失函數(shù)部分 ,作者采用了基于LF-MMI的序列性訓(xùn)練方式鳞尔。 同時(shí)為了解決序列性訓(xùn)練容易導(dǎo)致過擬合的問題嬉橙,又引入了傳統(tǒng)的交叉熵?fù)p失函數(shù),在LF-MMI輸出之外加入另一個(gè)輸出層作為一個(gè)正則技術(shù)寥假,通過設(shè)置交叉熵的正則化系數(shù)市框,兩個(gè)目標(biāo)能夠有效地學(xué)習(xí)并且避免過擬合問題。
最后糕韧,作者使用了RNNLM rescoring技術(shù)對(duì)解碼做進(jìn)一步處理枫振。在沒有RNNLM rescoring的情況下,Pyramidal-FSMN已經(jīng)達(dá)到了目前最好的結(jié)果萤彩,rescoring之后又有了更進(jìn)一步的提升粪滤。
聲學(xué)模型和RNNLM的訓(xùn)練數(shù)據(jù)完全基于Librispeech和通用的語(yǔ)言模型數(shù)據(jù)集,并沒有額外引入其他的訓(xùn)練數(shù)據(jù)這樣的“技巧”性策略雀扶。
(圖片來(lái)源自網(wǎng)絡(luò)杖小,如有侵權(quán),請(qǐng)聯(lián)系刪除夏握。)
(圖片來(lái)源自網(wǎng)絡(luò)谤蚌,如有侵權(quán),請(qǐng)聯(lián)系刪除衫沽。)
此次突破標(biāo)志著云從科技在今年4月刷新跨鏡追蹤技術(shù)(ReID)三項(xiàng)世界紀(jì)錄后在新領(lǐng)域再次取得重大成果檐鹤,正全力夯實(shí)核心技術(shù)閉環(huán)。
云從科技核心技術(shù)閉環(huán)包括人臉識(shí)別酒吠、智能感知與智能分析三個(gè)階段冈彭。
(圖片來(lái)源自網(wǎng)絡(luò),如有侵權(quán)唇佳,請(qǐng)聯(lián)系刪除骏点。)
此次語(yǔ)音識(shí)別突破屬于智能感知中的一環(huán)。智能感知即視覺杆叛、聽覺谷芬、觸覺等感知能力,能夠讓計(jì)算機(jī)通過各種智能感知能力與外界進(jìn)行交互模聋。
時(shí)隔半年 再次刷新世界紀(jì)錄
今年4月肩民,云從科技跨鏡追蹤技術(shù)(ReID)在Market-1501,DukeMTMC-reID链方,CUHK03三個(gè)數(shù)據(jù)集刷新了世界紀(jì)錄持痰,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達(dá)到96.6%,讓跨鏡追蹤技術(shù)(ReID)技術(shù)在準(zhǔn)確率上首次達(dá)到商用水平祟蚀,人工智能從「刷臉」跨到「識(shí)人」的新紀(jì)元工窍。
語(yǔ)音識(shí)別技術(shù)同樣是智能感知中一個(gè)重要的部分。 通過語(yǔ)音識(shí)別前酿,機(jī)器就可以像人類一樣聽懂說(shuō)話患雏,進(jìn)而能夠理解鹏溯、思考與反饋。
近年來(lái)纵苛,在深度學(xué)習(xí)技術(shù)的幫助下剿涮,語(yǔ)音識(shí)別取得了極大的進(jìn)展,從實(shí)驗(yàn)室開始走向市場(chǎng)攻人,走向?qū)嵱没∈浴;谡Z(yǔ)音識(shí)別技術(shù)的輸入法腋殃、搜索和翻譯等人機(jī)交互場(chǎng)景都有了廣泛的應(yīng)用馁掺。
Librispeech 是當(dāng)前衡量語(yǔ)音識(shí)別技術(shù)的最權(quán)威主流的開源數(shù)據(jù)集。錯(cuò)詞率(Worderrorrate燕党,WER)是衡量語(yǔ)音識(shí)別技術(shù)水平的核心指標(biāo)寻币。
(圖片來(lái)源自網(wǎng)絡(luò),如有侵權(quán)悉宿,請(qǐng)聯(lián)系刪除瓶虽。)
DS2:百度,ESPnet:約翰霍普金斯大學(xué)涝睁,DFSMN-CE:阿里
在技術(shù)研究的「最后一英里」珍诡,每 0.1 個(gè)百分點(diǎn)的進(jìn)步都異常艱難。云從科技在Librispeech數(shù)據(jù)集上刷新了業(yè)內(nèi)最好的水平示祭,將錯(cuò)詞率(Worderrorrate尼袁,WER)降到了驚人的2.97%,較之前提升了25%咽蚣,已超越人類專業(yè)速記員水平化焕。
能夠獲得如此大幅度的突破,充分說(shuō)明云從科技語(yǔ)音識(shí)別研究成果的價(jià)值铃剔,該成果必然能夠推動(dòng)語(yǔ)音識(shí)別技術(shù)的大幅進(jìn)步撒桨,也使得語(yǔ)音識(shí)別離更良好的交互體驗(yàn)越來(lái)越近。
云從科技此次推出的語(yǔ)音識(shí)別模型將殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合, 能夠同時(shí)有效的提取空間和時(shí)間上不同粒度的信息键兜,對(duì)比目前業(yè)界使用最為廣泛的LSTM模型元莫,訓(xùn)練速度更快、識(shí)別準(zhǔn)確率更高蝶押。
構(gòu)建核心技術(shù)閉環(huán)實(shí)現(xiàn)人工智能“五步走”戰(zhàn)略
在10月12日的國(guó)家發(fā)改委“人工智能基礎(chǔ)資源公共服務(wù)平臺(tái)”項(xiàng)目發(fā)布會(huì)上踱蠢,云從科技創(chuàng)始人周曦提出了人工智能發(fā)展的五個(gè)階段,核心技術(shù)閉環(huán)是五個(gè)階段的重要基礎(chǔ)棋电。
云從科技在今年先后首發(fā)3D結(jié)構(gòu)光人臉識(shí)別技術(shù)及刷新跨鏡追蹤技術(shù)三項(xiàng)世界紀(jì)錄茎截,并在金融、安防赶盔、機(jī)場(chǎng)等優(yōu)勢(shì)行業(yè)建設(shè)基于智能分析的“行業(yè)大腦”企锌,穩(wěn)步推進(jìn)從核心技術(shù)到智能生態(tài)的五步走戰(zhàn)略榆浓。
(圖片來(lái)源自網(wǎng)絡(luò),如有侵權(quán)其神,請(qǐng)聯(lián)系刪除殴衡。)
目前,云從科技是中國(guó)銀行業(yè)第一大AI供應(yīng)商垄窃。包括農(nóng)行蟀腌、建行、中行吐莲、招行總行等全國(guó)400多家銀行已采用公司產(chǎn)品抠偏,為全國(guó)銀行提供對(duì)比服務(wù)日均2.16億次,同時(shí)為14.7萬(wàn)家社會(huì)網(wǎng)點(diǎn)提供服務(wù)陪瘟。
在安防領(lǐng)域鞋剔,公司產(chǎn)品已在29個(gè)省級(jí)行政區(qū)上線實(shí)戰(zhàn),每天比對(duì)超過10億次阐逗,數(shù)據(jù)匯聚總量超過千億池躁,協(xié)助全國(guó)公安抓獲超過1萬(wàn)名犯罪嫌疑人;
民航領(lǐng)域韵谋,全國(guó)多個(gè)樞紐機(jī)場(chǎng)選擇云從產(chǎn)品褒选,日服務(wù)旅客人數(shù)達(dá)到6千萬(wàn)。
在這些基礎(chǔ)上西设,云從科技正在致力整合算力瓣铣、智力答朋、數(shù)據(jù)等資源及其成果贷揽,打造人工智能平臺(tái),進(jìn)一步促進(jìn)人工智能在金融梦碗、安防禽绪、交通、零售洪规、教育等重要行業(yè)的落地印屁。
Pyramidal-FSMN語(yǔ)音識(shí)別模型原理解析
云從科技提出的新型網(wǎng)絡(luò)結(jié)構(gòu),能更加有效的提取空間和時(shí)間特征的角度斩例,為語(yǔ)音識(shí)別進(jìn)一步發(fā)展提供了一些新的思路:
模型設(shè)計(jì)采用一種殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合的結(jié)構(gòu)雄人;
訓(xùn)練方式使用lattice-free最大互信息(lattice-free maximum mutual information, LF-MMI/Chain)與交叉熵(crossentropy念赶,CE)損失函數(shù)相結(jié)合的多任務(wù)學(xué)習(xí)技術(shù)础钠;
解碼部分采取RNNLM rescoring的方式,利用RNN提取一個(gè)句子中的長(zhǎng)期語(yǔ)義信息叉谜,從而更有效地幫助聲學(xué)模型得到準(zhǔn)確的句子拓酵。
如下圖所示镰饶,作者采用了由6層ResidualCNN和10層Pyramidal-FSMN相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。
(圖片來(lái)源自網(wǎng)絡(luò)乱树,如有侵權(quán)烧骗,請(qǐng)聯(lián)系刪除。)
前端網(wǎng)絡(luò)借鑒了圖像識(shí)別中經(jīng)典的Residual CNN結(jié)構(gòu)吆揖,更有效地提取特征與時(shí)間相互的關(guān)聯(lián)信息铜诽,同時(shí)skipconnection避免了CNN網(wǎng)絡(luò)加深之后梯度消失和梯度爆炸問題。
在金字塔記憶模塊中元糯,淺層的網(wǎng)絡(luò)主要聚焦于音素本身的特征學(xué)習(xí)贺勿,所以只需抽取短時(shí)上下文信息,而深層的網(wǎng)絡(luò)由于已經(jīng)學(xué)習(xí)到了足夠的固定時(shí)間的音素信息旷程,需要學(xué)習(xí)長(zhǎng)時(shí)間包括語(yǔ)義和語(yǔ)法特征甩卷,所以深層抽取長(zhǎng)時(shí)間的上下文信息。利用這樣的金字塔結(jié)構(gòu)起衫,既能減少參數(shù)劝薄,縮小模型結(jié)構(gòu),也能更加精巧的模擬人類處理語(yǔ)音信號(hào)的過程栈妆,提高識(shí)別效果胁编。
在損失函數(shù)部分 ,作者采用了基于LF-MMI的序列性訓(xùn)練方式鳞尔。 同時(shí)為了解決序列性訓(xùn)練容易導(dǎo)致過擬合的問題嬉橙,又引入了傳統(tǒng)的交叉熵?fù)p失函數(shù),在LF-MMI輸出之外加入另一個(gè)輸出層作為一個(gè)正則技術(shù)寥假,通過設(shè)置交叉熵的正則化系數(shù)市框,兩個(gè)目標(biāo)能夠有效地學(xué)習(xí)并且避免過擬合問題。
最后糕韧,作者使用了RNNLM rescoring技術(shù)對(duì)解碼做進(jìn)一步處理枫振。在沒有RNNLM rescoring的情況下,Pyramidal-FSMN已經(jīng)達(dá)到了目前最好的結(jié)果萤彩,rescoring之后又有了更進(jìn)一步的提升粪滤。
聲學(xué)模型和RNNLM的訓(xùn)練數(shù)據(jù)完全基于Librispeech和通用的語(yǔ)言模型數(shù)據(jù)集,并沒有額外引入其他的訓(xùn)練數(shù)據(jù)這樣的“技巧”性策略雀扶。
(圖片來(lái)源自網(wǎng)絡(luò)杖小,如有侵權(quán),請(qǐng)聯(lián)系刪除夏握。)
論文@云從科技
相關(guān)介紹:LibriSpeech數(shù)據(jù)集:世界最大的免費(fèi)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)零破,包含文本和語(yǔ)音的有聲讀物數(shù)據(jù)集,由1000小時(shí)的多人朗讀的清晰音頻組成,且包含書籍的章節(jié)結(jié)構(gòu)子钾。