每逢年末蜕径,各類融資消息多不勝數(shù)两踏,百萬起步,上不封頂兜喻。在這其中梦染,一條并不起眼的數(shù)千萬人民幣的融資消息引人注意。
這幾年硫缓,在市場抄刁、技術(shù)、政策等多重影響下恭隧,曾經(jīng)浮浮沉沉的AI正在各個行業(yè)普及開來祈哆。從應(yīng)用層面來看,AI初創(chuàng)公司大多以人臉識別落地啃极;而SpeakIn(勢必可贏科技)卻另辟蹊徑以聲紋識別為刃攻克各個行業(yè)的城池壁壘帆速,為傳統(tǒng)行業(yè)賦能,并于近期獲得新一輪千萬融資粘榕。
欲用聲紋識別攻破安防圈
SpeakIn 于2015在硅谷創(chuàng)立互愚,聚焦聲紋生物信息ID,商業(yè)化落地主要包含四大塊:1、安防領(lǐng)域千覆;2区膨、民生領(lǐng)域;3姑裂、金融領(lǐng)域馋袜;4、智能硬件炭分。針對這些場景桃焕,目前已推出多套產(chǎn)品及解決方案。
SpeakIn COO易鵬宇坦稱道捧毛,在這其中观堂,公司戰(zhàn)略優(yōu)先級最高的當屬安防領(lǐng)域,落地方式主要有兩種:
-
防止電信詐騙呀忧。如今师痕,各地公安部門都有個人信息采集系統(tǒng),包括人臉而账、指紋胰坟、聲音等信息都有錄入。如果該案件涉及到聲音辨識泞辐,便可通過該系統(tǒng)輕松找到嫌疑人笔横。
-
幫助尋找丟失兒童。如果懷疑某人是被拐賣兒童咐吼,在系統(tǒng)內(nèi)輸入其聲音要茴,只要之前有他們的視頻、聲音搔献,通過對兩者的對比携侮,就可判定是否是被拐賣兒童。易鵬宇解釋說榛瞪,對于公安部門來說姚继,這是一個新的手段,但會受到年齡跨度的阻礙窟诈。
而就此几馁,今年6月,SpeakIn還與公安部門合作建立“智能聲紋系統(tǒng)聯(lián)合實驗室”掏手,共同投入研發(fā)公安業(yè)務(wù)與安防領(lǐng)域的先進產(chǎn)品與系統(tǒng)契畔,用聲紋識別技術(shù)為社會安定和國家安全提供服務(wù)和保障。
聲紋識別的“前世今生”
雷鋒網(wǎng)了解到碌掩,該技術(shù)最早誕生于上世紀四十年代的貝爾實驗室课丢。它是通過對一種或多種語音信號的特征分析來達到對未知聲音辨別的目的蛆存,簡單來說就是辨別某一句話是否是某一個人說的技術(shù)。
它常常應(yīng)用于刑偵破案响禽、罪犯跟蹤徒爹、國防監(jiān)聽、個性化應(yīng)用等等芋类,主要抽取說話人聲音的基音頻譜及包絡(luò)隆嗅、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡等參數(shù)表征侯繁,然后再與模式識別等傳統(tǒng)匹配方法結(jié)合進行聲紋識別胖喳。
易鵬宇告訴雷鋒網(wǎng),一宗案件中贮竟,同時具有指紋丽焊、人臉、聲音的案件少之又少咕别〖冀。互聯(lián)網(wǎng)時代下,很多犯罪行為都是通過微信惰拱、電話等網(wǎng)絡(luò)設(shè)備雌贱,聲音成為最明顯的突破口。
對此搜栽,公安部門也早已意識到爸桨。雷鋒網(wǎng)了解到,多年之前贱供,我國就有設(shè)立聲紋識別中心评梁,一些工作經(jīng)驗豐富的專家用一些很傳統(tǒng)的軟件通過識別聲音頻譜圖,花上五個小時虏淤、甚至十個小時去聽辨一條聲音纹茫。方言口音虏爸、輕重音舶惕、韻律特征、發(fā)音習(xí)慣角雅、語流中的吞音現(xiàn)象饶几、鼻韻味的發(fā)音特征、聲音基頻等等都是在聲紋專家輔助系統(tǒng)之前材光,人力需要判斷的聲紋特征暮态,一個案子可能一周都聽不完,辦案效率非常低下谍椅。
即便如此误堡,這種作業(yè)模式目前還在各個公安部門中廣泛使用古话。
其實,從理論上來說锁施,聲紋就像指紋一樣陪踩,是具有唯一性的生物信息特征,該技術(shù)在美國也一直被廣泛使用悉抵。據(jù)悉肩狂,美國聯(lián)邦調(diào)查局對2000例與聲紋相關(guān)的案件進行統(tǒng)計,利用聲紋作為證據(jù)只有0.31%的錯誤率姥饰。截至目前傻谁,已經(jīng)為美國警方破獲了幾千起案件,為辦案人員提供了有效的線索和證據(jù)列粪。
顯然审磁,相比美國,該技術(shù)在我國的推廣篱竭、使用略為緩慢力图。究其原因,主要因此前國內(nèi)相關(guān)公司技術(shù)上的不成熟讓聲紋識別在公安那里吃了‘閉門羹’厘乱。“聲音是人類最自然的交互方式之一雅跺,但相比于人臉識別技術(shù),聲紋技術(shù)在超大規(guī)模識別能力上前些年一直沒有太大的突破潭女。”易鵬宇說道枕篡。
在他看來,如今是時候全面應(yīng)用了捍秃。
從技術(shù)角度來看生香,目前在十萬的聲紋庫中尋單一聲音,SpeakIn可以做到 Top10(相似值)印洒,命中率可達99%點幾藐病。而據(jù)雷鋒網(wǎng)了解,目前全國最大的聲紋庫大概是五到六萬瞒谱,從這來看赏庙,幫助警方成功破案時一件非常大概率的事情。
聲紋識別如何切入安防行業(yè)
在與公安部門多次交流中萤榔,易鵬宇發(fā)現(xiàn)公安的需求非常明確鸯乃,主要圍繞能“破案”展開,并且是能快速跋涣、方便缨睡、智能地破案。
他介紹說陈辱,公安部門引入聲紋識別技術(shù)之后奖年,把案件聲音錄入系統(tǒng)(智能聲紋鑒定專家輔助系統(tǒng))细诸,隨之與庫中語音相比對,之后該聲音通過機器學(xué)習(xí)拆分成多個音素的頻譜圖陋守,五分鐘后就可以判別聲音歸屬揍堰,并給出很好的排名結(jié)果(TOP值),提升辦案效率嗅义。
而這其中主要得益于兩大“功臣”:
-
聲音采集方面有多信道的麥克風(fēng)屏歹,其中裝載多信道脈沖,八個麥克風(fēng)可以收集來自不同信道的音源之碗,包括微信蝙眶、電話、手機等褪那。易鵬宇透露牵深,在一個設(shè)備上集成這些麥克風(fēng)非常有必要,每個信道來的聲音會有細微的差別喷围,通過該技術(shù)后粉越,無論是移動3G信號,還是移動4G信號码杆,系統(tǒng)都可以精確區(qū)分薄罕。
-
另一塊是軟件系統(tǒng),名為鑒定工作站磁应。有聲音的采集妆崇、輸入、比對部糠、鑒定和結(jié)果的輸入猜休,后面還有一套本地部署的私有云服務(wù)作支撐。
總體而言提甚,最終SpeakIn為公安客戶提供的是一套完整的解決方案及服務(wù)飞灰。
聲紋識別可用性如何?
聲智科技CEO陳孝良博士此前接受雷鋒網(wǎng)專訪時曾表示褪储,現(xiàn)在大部分研究都是有關(guān)動態(tài)聲紋實時檢測卵渴,動態(tài)檢測的方法自然要利用靜態(tài)檢測的各種原理方法,同時也需要增加其他很多算法乱豆, 比如VAD奖恰、降噪吊趾、去混響等宛裕。VAD的目的是檢測是不是人的聲音,降噪和去混響是排除環(huán)境干擾论泛,這不僅對于聲紋檢測很中重要揩尸,對于語音識別更加重要蛹屿。
VAD常用兩個方法,基于能量檢測和LTSD(Long-Term Spectral Divergence)岩榆,當前用的較多是LTSD错负,另外特征提取方面還需要:動態(tài)時間規(guī)整 (DTW)、矢量量化 (VQ)勇边、支持向量機 (SVM)犹撒,模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。
雖然聲紋識別的唯一性很好畴垃,但實際上現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準確分辨栈站,特別是人的聲音還具有易變性,易受身體狀況鲫畸、年齡歇刺、情緒等的影響,主要包括:
1霜宙、外界噪音章慌;
2、多人說話堕武;
3恳繁、身體狀況;
4夫泛、情緒影響蓉肤。
就此,易鵬宇也坦承什箭,聲紋識別技術(shù)的應(yīng)用對于環(huán)境的要求的確比較苛刻棋捷,噪音干擾等問題仍是聲音領(lǐng)域的難點。(因為不僅對聲紋最仑,語音語義識別也面臨著噪聲等問題)
他同時也強調(diào)說藐俺,聲紋識別在智能硬件等領(lǐng)域應(yīng)用充當娛樂功能;用作公安泥彤、金融等領(lǐng)域欲芹,認證手段也并非獨立或者優(yōu)先使用,它與其他生物識別方式是并存的吟吝。不同類型的生物識別各有優(yōu)勢菱父,很多時候都是配合使用,多了一道屏障剑逃,絕非當且僅當浙宜。
值得一提的是,隨著技術(shù)的不斷成熟蛹磺,公安部為采購這些設(shè)備還正式頒布了《安防聲紋識別應(yīng)用系統(tǒng)技術(shù)要求》的行業(yè)標準粟瞬。換言之同仆,聲音也是可以作為證據(jù)進行鑒定的。
“不同于人臉識別的大規(guī)模數(shù)據(jù)庫裙品,聲紋識別的難點在于目前聲紋庫的規(guī)模還有待擴充俗批;另外,在聲音領(lǐng)域還有類似雞尾酒會這樣的技術(shù)難關(guān)需要攻克斩憾,想要做好這件事式亥,必須保持耐心。”易鵬宇說道淳习。
的確芳迅,都是深度學(xué)習(xí)基于數(shù)據(jù)驅(qū)動的模型,與人臉識別一樣馆梦,聲紋識別的訓(xùn)練也需要龐大的數(shù)據(jù)積累及對數(shù)據(jù)的精確標注蕾胶。
而相比人臉識別,聲紋識別難上加難桐继。
聲紋識別訓(xùn)練庫的建立刘耀,至少要保證性別比例分布為50%±5%,包含有不同年齡段蚤弃、不同地域召藻、不同口音、不同職業(yè)偿尘。同時忆某,測試樣本應(yīng)該涵蓋文本內(nèi)容是否相關(guān)、采集設(shè)備阔蛉、傳輸信道弃舒、環(huán)境噪音、錄音回放状原、聲音模仿聋呢、時間跨度、采樣時長颠区、健康狀況和情感因素等影響聲紋識別性能的主要因素削锰。
也就是說,聲紋識別對數(shù)據(jù)的要求其實比語音識別還要高很多毕莱,這條路會很難器贩。但慶幸的是,我國目前也有像SpeakIn這樣的AI初創(chuàng)公司在堅持做拓荒者朋截。用易鵬宇的話說蛹稍,“這不正是創(chuàng)業(yè)者需要做的事嗎?”