百度眾測平臺去年曾發(fā)布了5000萬元的數(shù)據(jù)標注任務背镇,而今年預計將達3億元咬展。面對如此大的市場需求,效率低瞒斩、交付質(zhì)量參差不齊的人工標注方式亟待改善破婆。谷歌此次推出的“流體標注”如何為圖像標注提速?
(圖片來源自網(wǎng)絡胸囱,如有侵權(quán)祷舀,請聯(lián)系刪除。)
數(shù)據(jù)標注——機器感知世界的起點
“數(shù)據(jù)標注是人工智能產(chǎn)業(yè)的基礎(chǔ)烹笔,是機器感知現(xiàn)實世界的起點裳扯。從某種程度上來說,沒有經(jīng)過標注的數(shù)據(jù)就是無用數(shù)據(jù)谤职。”美國加州科技大學校長秦志剛教授在接受科技日報記者采訪時表示饰豺,機器識別事物主要通過物體的一些特征。被識別的物體還需要通過數(shù)據(jù)標注才能讓機器知道這個物體是什么柬帕。
在機器的世界里哟忍,圖像與語音诫瑞、視頻等一樣秃囚,是數(shù)據(jù)的一個種類。近年來喘玄,隨著數(shù)碼產(chǎn)品以及存儲技術(shù)的迅速普及和發(fā)展测佣,人們每天都可通過相機、可視電話蝗悼、監(jiān)控及醫(yī)療設備等制造大量圖像忽件。因此,現(xiàn)階段圖像已然成為標注產(chǎn)業(yè)發(fā)展的重點對象出募。
如果素材是一張人物圖像涌俘,那么需要標注的信息往往是性別、面部朝向蒂扇、人種昔永、有無帽子眼鏡等,也可以人為地將人物和背景的區(qū)域劃分開來喝暂。將成千上萬張經(jīng)過標注的圖片組成的數(shù)據(jù)集“投喂”給機器缺钓,它才能在一張全新的圖像中分辨出人物在哪個區(qū)域、具有怎樣的外貌特征叫胁。對于人來說“小兒科”的思考歷程凰慈,機器卻需要大量的標記數(shù)據(jù)集進行訓練汞幢。
機器學習——緩解人工標注的壓力
提到人工智能產(chǎn)業(yè),人們往往聯(lián)想到繁華的城市和干練的IT精英微谓,但實際上森篷,支撐起人工智能的數(shù)據(jù)標注產(chǎn)業(yè),卻是一個勞動密集型產(chǎn)業(yè)豺型。百度搜索“數(shù)據(jù)標注”疾宏,會出現(xiàn)很多圖片語音視頻數(shù)據(jù)采集、標注公司触创。隨機選擇一個此類詞條點進去坎藐,往往會看到“萬人數(shù)據(jù)標注團隊”等類似宣傳語『甙螅可見人工標注是目前數(shù)據(jù)標注的主要方式岩馍。
“谷歌推出的流體標注模型主要利用人工智能學習的基礎(chǔ),對圖像數(shù)據(jù)進行自動標注抖韩,對于標注不準確或者出現(xiàn)偏差的地方可以通過人工調(diào)整浇沧,從而提高標注效率。”秦志剛指出豹炊,即便該模型可借助機器學習提升標注速度坏扣,但最初還需進行人為地數(shù)據(jù)標注,為其提供初始訓練數(shù)據(jù)集遂报。事實也正是如此则徒,為了標注圖片,谷歌預先以約一千張具有分類標簽和信任分數(shù)的圖片訓練了語意分割模型瞳弱。
但該模型尚不完美冠幕,谷歌稱,物體邊界標記問題纽债、界面操作速度以及類別擴展等仍需進一步研究或完善雇蚁。
人工智能——致力于生活中的簡單應用
雖然還有諸多難題尚待攻克,但以流體標注模型為代表的數(shù)據(jù)標注新方式無疑順應著人工智能的大潮流倚痰。實際上讥高,自人工智能逐漸走熱以來,很多行業(yè)都想搭上這個熱潮系谐。然而巾陕,在灼熱的潮流背后,掩藏著一個根本性的問題:人工智能終將走向何方蔚鸥?
“人工智能的本質(zhì)是機器擁有‘學習’的能力惜论,可想而知,人工智能可以極度縮短人類自身的學習時間,從而將人從大規(guī)模腦力學習活動中解放出來馆类,去專注于更有價值的工作混聊。”秦志剛表示,雖然人們普遍認為人工智能終將到來乾巧,但現(xiàn)階段人工智能產(chǎn)業(yè)仍在云端句喜。目前大多數(shù)人工智能的應用只能生存在高性能處理器的大型廠房中,就如同第一代通用計算機ENIAC一樣“大而笨重”沟于。“眾所周知咳胃,隨后的幾十年內(nèi)計算機飛速發(fā)展到小型的筆記本電腦,功能卻比ENIAC更強大旷太。人工智能也當如此”展懈。
界面簡單、功能友好祟勿、毫無相關(guān)知識基礎(chǔ)的人都能使用并獲得舒適感停柬,這是秦志剛設想的人工智能時代。一枚小小的人工智能芯片耀旅,可以完成學習盯糠、訓練、推理等一系列“思考”過程傅女,而它的終端表現(xiàn)則或許只是人們生活中最為常見的簡單應用洁揽。如下班回家,不需再拿出鑰匙開門原酷,智能門鎖就像一位盡職的管家杉轿,會在第一時間感知你的到來,為你敞開家門学虑。“十年之后段辈,人工智能將會成為主流唆海,潛移默化滲透到生活中的各種角落欲炉。別看是小事情,背后卻是高密集的技術(shù)支撐赞季。”秦志剛表示愧捕。
“愿景十分美好,但如何將人工智能落地和普及推廣申钩?這將是我們下一步亟待攻克的難題次绘。”秦志剛說。