成人H动漫在线看,天美无码成人在线,桃色视频高中生成人,成人免费无码大片a毛视频

壹象網(wǎng)

微信掃一掃

微信小程序
天下好貨一手掌握

掃一掃關(guān)注

掃一掃微信關(guān)注
天下好貨一手掌握

語音識別結(jié)合應(yīng)用場景 唱響未來新篇章

   2017-04-20 1520
核心提示:近二十年來义辕,語音識別技術(shù)取得顯著進步艾烫,開始從實驗室走向市場梢翼。人們預(yù)計饮码,未來10年內(nèi)韵谋,語音識別技術(shù)走進了工業(yè)、家電氏篇、通信振诬、汽
 近二十年來,語音識別技術(shù)取得顯著進步衍菱,開始從實驗室走向市場贷揽。人們預(yù)計,未來10年內(nèi)梦碗,語音識別技術(shù)走進了工業(yè)禽绪、家電、通信洪规、汽車電子印屁、消費電子產(chǎn)品等各個領(lǐng)域。語音識別作為人工智能發(fā)展最早斩例、且率先商業(yè)化的技術(shù)雄人,近幾年來隨著深度學(xué)習(xí)技術(shù)的突破,識別準(zhǔn)確率大幅提升念赶,帶動了一波產(chǎn)業(yè)熱潮础钠。對語音識別未來發(fā)展,各位大咖也有一些精彩論點叉谜。
 

語音識別結(jié)合應(yīng)用場景 唱響未來新篇章
 
  科大訊飛研究院副院長——王士進
 
  王士進表示拓酵,語音識別是人機交互里很重要的模塊镰饶,從PC時代到現(xiàn)在的移動互聯(lián)時代,人機交互由鼠標(biāo)鍵盤走向智能手機乱树、Pad等的多點觸摸烧骗。到了智能硬件時代,交互則更加多元吆揖,不僅有觸摸铜诽,還有基于語音、視覺的交互绳瓣。原本是以機器為中心的人機交互懂棘,逐漸走向以人為中心的自然交互。
 
  他認為嗡深,在將來萬物互聯(lián)的浪潮下先赛,以語音為主,鍵盤起衫、觸摸劝薄、視覺、手勢為輔的交互時代很快會到來栈妆。
 
  提到傳統(tǒng)的語音交互胁编,王士進列舉了幾個缺點:第一,交互距離要近鳞尔;第二嬉橙,發(fā)音必須標(biāo)準(zhǔn);第三寥假,環(huán)境必須安靜市框;第四,人機不能持續(xù)對話糕韧。
 
  科大訊飛在2015年提出AIUI枫振,旨在解決上述問題同時期望在人工智能時代提供一種智能的人機交互界面。AIUI提供遠場喚醒和識別降噪方案萤彩,兼容全國近17種方言粪滤,可以進行全雙工交互和基于業(yè)務(wù)場景的多輪對話,同時結(jié)合訊飛超腦的認知智能使得機器進行更智能的交互雀扶。
 
  AIUI實現(xiàn)了軟硬一體化杖小、云端一體化、技術(shù)服務(wù)一體化夏握,通過三個一體化提供人機智能交互整體解決方案零破,使得用戶可以快速切換到新的業(yè)務(wù)場景。
 
  在提到基于AIUI交互技術(shù)的一些商業(yè)化嘗試時,王士進列舉了幾種:
 
  在交流方面抠孤,科大訊飛在05年推出了聽見智能會議這款產(chǎn)品洋虫。一般來說,會議場景的同傳準(zhǔn)確率為80%左右团弧,而智能會議轉(zhuǎn)寫準(zhǔn)確率則能達到90%以上疲籍,之后乌爪,其在醫(yī)療和司法系統(tǒng)進行了應(yīng)用幔瓮。另外,科大訊飛還推出了便攜翻譯機经褒,易于隨身攜帶谅练,方便遠程實時交流。
 
  在電視方面哈讯,最早的電視是用數(shù)字加上下左右按鍵控制僅有的十幾個臺透劈,而現(xiàn)在的智能電視后臺對接海量資源,通過訊飛智能電視助手可以進行方便的語音交互奇颠,節(jié)省時間败去。
 
  在汽車方面,由于人在駕駛時候手不能離開方向盤烈拒,故把語音引入代替手進行交互會方便許多圆裕。實際上相比其他應(yīng)用場景,語音識別由于汽車場景的噪音更強荆几,面臨更大挑戰(zhàn)吓妆,而科大訊飛也在基于車載的語音識別做了許多優(yōu)化,更在寶馬吨铸、奔馳行拢、通用舉行的全球車載語音識別比賽取得第一名,有效的支撐了車載場景的交互诞吱。
 
  在機器人方面舟奠,機器人與人的語音交互滿足自然交互、個性化服務(wù)以及基于業(yè)務(wù)場景的整合服務(wù)房维,可以方便的任意打斷沼瘫,在理解用戶的需求下進行精準(zhǔn)的內(nèi)容推薦和服務(wù)。
 
  語音識別和自然語言理解都是基于統(tǒng)計和概率體系粮按,所以商業(yè)化過程建議選擇人受到一定限制(如車載)或者很難做百分之百正確(如會議同傳)的場景忽浓,然后隨著技術(shù)的進一步成熟,可以進入到更多的場景已转。
 
  最后矮憔,王士進總結(jié)道,“語音識別和人機交互技術(shù)在進行技術(shù)優(yōu)化的同時更要結(jié)合應(yīng)用場景,最終可使得技術(shù)完善遭绝,產(chǎn)業(yè)更好的發(fā)展紧慧。”
 
  百度語音技術(shù)部聲學(xué)技術(shù)負責(zé)人——李先剛
 
  提到這些年對手機百度語音搜索的不斷優(yōu)化過程,李先剛認為要做好這樣一個產(chǎn)品零硫,先要收集相關(guān)數(shù)據(jù)盯窜,然后將語音識別應(yīng)用推廣到相關(guān)產(chǎn)品線上供用戶使用,用戶使用后反饋回來數(shù)據(jù)形成完整鏈條萄蕾,最終達到非常完美的狀態(tài)领靖。
 
  他把輸入法在語音識別中的作用表述為:輸入法這一場景對語音識別性能提升有非常大的幫助。
 
  而今年以躯,百度在語音技術(shù)方面的進展包括基于GramCTC的端對端語音識別系統(tǒng)以及端對端說話人識別技術(shù)槐秧。
 
  基于CTC的端對端語音識別系統(tǒng)是目前主流的工業(yè)系統(tǒng),在2015年底忧设,百度實現(xiàn)了CTC端對端語音識別系統(tǒng)的上線刁标。而今年,百度進一步提出了GramCTC算法址晕。
 
  主流的說話人識別技術(shù)使用經(jīng)典的DNN-IVECTOR技術(shù)膀懈,其框架基于統(tǒng)計模型,并將DNN引入此框架去學(xué)習(xí)谨垃。
 
  可以看到的是启搂,語音識別已走向大數(shù)據(jù)和端對端的道路苫耸,百度也將把說話人識別技術(shù)向此發(fā)展毯旷,進一步提升相關(guān)性能。
 
  李先剛表示潘懊,人臉識別與說話人識別有技術(shù)共性易核,二者之間的差異僅僅只是人臉識別對象可以是固定尺寸的圖片匈织,而語音的時長會有很多變化。因此牡直,百度說話人識別技術(shù)借鑒了目前人臉識別最好的方法——度量學(xué)習(xí)圣掷,搭建了端對端度量學(xué)習(xí)的說話人識別系統(tǒng)。百度內(nèi)部的實驗顯示甜芭,基于端對端的說話人技術(shù)顯著提升了說話人識別的性能匿贴。
 
  從商業(yè)化的角度分析語音識別,可將其應(yīng)用分為兩個維度霸臂,第一個是近場和遠場耗述,第二個是人配合機器說話和人對人說話的不同說話風(fēng)格。經(jīng)過這樣劃分會發(fā)現(xiàn)很多語音場景其實是處在不同的語音象限里面辈拔,目前業(yè)界所做的近場人對機器說話的識別準(zhǔn)確率可達90%以上妒彭,但另外幾個場景所做不盡人意。
 
  在李先剛看來,隨著語音技術(shù)的推進幕笋,輔之商業(yè)化情景必將推動產(chǎn)品和技術(shù)的發(fā)展钧椿。
 
  搜狗語音交互技術(shù)中心研發(fā)總監(jiān)——陳偉
 
  從2012年到現(xiàn)在,隨著數(shù)據(jù)和算法的提升椿笤,搜狗的語音識別的識別錯誤率是逐年下降的盹屠。陳偉分享了一組數(shù)據(jù):到目前為止,搜狗輸入法每天的語音識別請求量高達2億次鞋诗,每天產(chǎn)生語料達到18萬小時膀捷。
 
  陳偉表示,搜狗在2016年發(fā)布知音引擎师脂,對外輸出完整的語音交互解決方案担孔,也一直在探索語音識別和交互的不同場景和經(jīng)驗江锨。語音識別可以更好提升輸入吃警、記錄、交流的效率啄育,其可分為聽寫和轉(zhuǎn)寫酌心,聽寫更多要求實時性,轉(zhuǎn)寫則面向客服數(shù)據(jù)挑豌,不要求實時安券。另外,語音識別技術(shù)面向不同客戶氓英,除了直接提供給消費者侯勉,還有一些公司、企業(yè)如法院铝阐、醫(yī)院等以睦,語音識別的應(yīng)用場合則更多是在演講、直播昂游、語音分析中滤钠。
 
  語音識別不是一個單獨的技術(shù),其需要同其他技術(shù)進行融合跳窖,比如機器同傳祠裸、語音交互,未來的產(chǎn)品將會是技術(shù)與技術(shù)的組合职靴,產(chǎn)品與產(chǎn)品的組合眶昵。
 
  對如何做出一款好的語音交互產(chǎn)品,陳偉認為首先是要重視場景和知識欲广。只有技術(shù)(ASR拔衙、NLU等)與具體應(yīng)用場景比如車載、智能家具、可穿設(shè)備結(jié)合在一起求馋,才能得到穩(wěn)定的產(chǎn)品捐憔。另外,僅僅有技術(shù)是不夠的迫筑,還需要技術(shù)創(chuàng)新宪赶。在得到良好的使用體驗之后用戶基數(shù)會擴大,帶來更多數(shù)據(jù)脯燃,這些累積的數(shù)據(jù)也是推動技術(shù)提升的關(guān)鍵搂妻。只有有了產(chǎn)品的迭代、有了真實的數(shù)據(jù)才能更好的分析出用戶需求辕棚,更好的推動產(chǎn)品發(fā)展欲主。
 
  他表示,技術(shù)與產(chǎn)品缺一不可逝嚎。
 
  “語音交互以技術(shù)為驅(qū)動扁瓢,加之好的運算力帶來大量數(shù)據(jù),以此進行迭代补君,不斷通過技術(shù)和產(chǎn)品的耦合得到更好的產(chǎn)品引几。”
 
  思必馳CMO——龍夢竹
 
  “目前的語音產(chǎn)品識別率再高,也只是作為一個參考挽铁。”
 
  龍夢竹提到伟桅,在識別率的數(shù)字背后,諸如降噪迟伤、遠場窖升、回聲消除及聲源定位等也需要關(guān)注。
 
  那這幾個詞在整個語音技術(shù)里面有什么作用呢娘型?
 
  其可以影響識別率和準(zhǔn)確性以及是判斷語音交互產(chǎn)品是否實用的重要方向呕瞎。
 
  目前,各個公司做的都是端到端的箭瘫,非配合的私人交互系統(tǒng)劈狼,在這整個系統(tǒng)里基本分為三個層面:從感知、到認知猩吕、到抽象思維的智能艺崔。
 
  首先從感知的方向,要保障機器能夠聽得清脸掘,在克服環(huán)境藕壹、降噪的方面有很大挑戰(zhàn)的。以思必馳為例纷臊,其依靠強大的數(shù)據(jù)庫椿访,已經(jīng)把錯詞率降低到了7.19%乌企,比業(yè)界普遍的10%有了非常大的效率提升。
 
  另外成玫,聽清以后需要讓機器快速反應(yīng)加酵。常常會有客戶好奇“你們的產(chǎn)品是本地還是云端?”實際上哭当,現(xiàn)在業(yè)界包括思必馳所做的都是本地+云端猪腕,一些簡單的喚醒詞、指令可能會放在本地钦勘。思必馳目前的本地識別指令最高支持三千條陋葡,當(dāng)然,最高支持?jǐn)?shù)目和產(chǎn)品的硬件配置彻采、系統(tǒng)是相關(guān)的腐缤。而更多的需要交流的,需要機器思考的部分放到云端肛响。
 
  最后岭粤,機器能夠聽清并且能夠快速反應(yīng)了,反應(yīng)出來的效果如何终惑?這個效果用專業(yè)術(shù)語可以稱為TTS沸根,TTS的優(yōu)劣很大程度會決定產(chǎn)品體驗的優(yōu)劣。許多人理解的TTS可能是明星的合成音诊拦,而這些合成音不能適用于所有場景。
 
  目前業(yè)界提出的97%织娶、98%霹糜、99%的識別率這只是單獨針對語音識別而言,在不同的領(lǐng)域掐赠、場景下淳篡,針對不同業(yè)務(wù)方向的語音識別和語意理解其實是有層次不齊的,這個圖顯示了在家庭和車載環(huán)境下不同的準(zhǔn)確率糯湃。
 
  龍夢竹談到些援,無論在哪個領(lǐng)域做語音交互技術(shù),都必須要滿足幾個要求:
 
  第一要滿足用戶剛需捧擂;
 
  第二不一定是高頻使用准徘,但在某一場景能讓用戶形成依賴性;
 
  第三艾遗,語音技術(shù)背后一定要有第三方的內(nèi)容和服務(wù)作支持洛退,因為它只是一種交互手段;
 
  “我們一再強調(diào)的是杰标,語音只是一個交互的手段兵怯,而不是一種功能彩匕。”現(xiàn)在的語音還沒有達到全國人民普及的程度,但未來一定會實現(xiàn)媒区。而這一手段驼仪,其背后第三方的內(nèi)容和服務(wù)是比語音本身更重要的東西。
 
  最后袜漩,交互體驗一定要好谅畅。
 
舉報收藏 0打賞 0評論 0
免責(zé)聲明
本文為小編互聯(lián)網(wǎng)轉(zhuǎn)載作品,作者: 小編噪服。歡迎轉(zhuǎn)載毡泻,轉(zhuǎn)載請注明原文出處:http://www.yue326.com/news/show-8857.html 。本網(wǎng)站部分內(nèi)容來源于合作媒體粘优、企業(yè)機構(gòu)仇味、網(wǎng)友提供和互聯(lián)網(wǎng)的公開資料等,僅供參考去谈。本網(wǎng)站對站內(nèi)所有資訊的內(nèi)容区为、觀點保持中立,不對內(nèi)容的準(zhǔn)確性费罚、可靠性或完整性提供任何明示或暗示的保證嫂衅。如果有侵權(quán)等問題,請及時聯(lián)系我們滋池,我們將在收到通知后第一時間妥善處理該部分內(nèi)容灌龄。582117289@qq.com。
 
更多>同類防護頭條
  • admin
    加關(guān)注0
  • 沒有留下簽名~~
推薦圖文
推薦防護頭條
點擊排行
信息二維碼

手機掃一掃

快速投稿

你可能不是行業(yè)專家熔淘,但你一定有獨特的觀點和視角,趕緊和業(yè)內(nèi)人士分享吧悄慨!

我要投稿

投稿須知

微信公眾號:壹象網(wǎng)
微博:壹象網(wǎng)

鄂ICP備15023168號公網(wǎng)安備42010302002114號