當我們看到一個東西,大腦會迅速判斷是不是見過這個東西或者類似的東西。這個過程有點兒像搜索,我們把看到的東西和記憶中相同或相類的東西進行匹配,從而識別它。機器的圖像識別也是類似的,通過分類并提取重要特征而排除多余的信息來識別圖像。
歸根結底,機器的圖像識別和人類的圖像識別原理相近,過程也大同小異。只是技術的進步讓機器不但能像人類一樣認花認草認物認人,還開始擁有超越人類的識別能力。
圖像識別概述
圖像識別是人工智能的一個重要領域,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術,并對質量不佳的圖像進行一系列的增強與重建技術手段,從而有效改善圖像質量。
今天所指的圖像識別并不僅僅是用人類的肉眼,而是借助計算機技術進行識別。雖然人類的識別能力很強大,但是對于高速發展的社會,人類自身識別能力已經滿足不了我們的需求,于是就產生了基于計算機的圖像識別技術。
這就像人類研究生物細胞,完全靠肉眼觀察細胞是不現實的,這樣自然就產生了顯微鏡等用于精確觀測的儀器。通常一個領域有固有技術無法解決的需求時,就會產生相應的新技術。圖像識別技術也是如此,此技術的產生就是為了讓計算機代替人類去處理大量的物理信息,解決人類無法識別或者識別率特別低的信息。
一般工業使用中,采用工業相機拍攝圖片,然后再利用軟件根據圖片灰階差做進一步識別處理。隨著計算機及信息技術的迅速發展,圖像識別技術的應用逐漸擴大到諸多領域,尤其是在面部及指紋識別、衛星云圖識別及臨床醫療診斷等多個領域日益發揮著重要作用。
通常圖像識別技術主要是指采用計算機按照既定目標對捕獲的系統前端圖片進行處理,在日常生活中圖像識別技術的應用也十分普遍,比如車牌捕捉、商品條碼識別及手寫識別等。隨著該技術的逐漸發展并不斷完善,未來將具有更加廣泛的應用領域。
圖像識別以開放API(Application Programming Interface,應用程序編程接口)的方式提供給用戶,用戶通過實時訪問和調用API獲取推理結果,幫助用戶自動采集關鍵數據,打造智能化業務系統,提升業務效率。
圖像識別原理
圖像識別的發展經歷了三個階段:文字識別、數字圖像處理與識別、物體識別。
· 文字識別的研究是從 1950年開始的,一般是識別字母、數字和符號,從印刷文字識別到手寫文字識別,應用非常廣泛。
· 數字圖像處理和識別的研究開始于1965年。數字圖像與模擬圖像相比具有存儲,傳輸方便可壓縮、傳輸過程中不易失真、處理方便等巨大優勢,這些都為圖像識別技術的發展提供了強大的動力。
· 物體的識別主要指的是對三維世界的客體及環境的感知和認識,屬于高級的計算機視覺范疇。它是以數字圖像處理與識別為基礎的結合人工智能、系統學等學科的研究方向,其研究成果被廣泛應用在各種工業及探測機器人上。
圖像識別原理主要是需處理具有一定復雜性的信息,處理技術并不是隨意出現在計算機中,結合計算機程序對相關內容模擬并予以實現。圖像識別的過程歸納起來主要包括4個步驟:
· 獲取信息:主要是指將聲音和光等信息通過傳感器向電信號轉換,也就是對識別對象的基本信息進行獲取,并將其向計算機可識別的信息轉換。
· 信息預處理:主要是指采用去噪、變換及平滑等操作對圖像進行處理,基于此使圖像的重要特點提高。
· 抽取及選擇特征:主要是指在模式識別中,抽取及選擇圖像特征,概括而言就是識別圖像具有種類多樣的特點,如采用一定方式分離,就要識別圖像的特征,獲取特征也被稱為特征抽取;在特征抽取中所得到的特征也許對此次識別并不都是有用的,這個時候就要提取有用的特征,這就是特征的選擇。特征抽取和選擇在圖像識別過程中是非常關鍵的技術之一,所以對這一步的理解是圖像識別的重點。
· 設計分類器及分類決策:其中設計分類器就是根據訓練對識別規則進行制定,基于此識別規則能夠得到特征的主要種類,進而使圖像識別的不斷提高辨識率,此后再通過識別特殊特征,最終實現對圖像的評價和確認。
在計算機進行的圖像識別中,計算機首先就能夠完成圖像分類并選出重要信息、排除冗余信息,根據這一分類計算機就能夠結合自身記憶存儲結合相關要求進行圖像的識別,這一過程本身與人腦識別圖像并不存在著本質差別。對于圖像識別技術來說,其本身提取出的圖像特征直接關系著圖像識別能否取得較為滿意的結果。
值得注意的是,由于計算機歸根結底不同于人類的大腦,所以計算機提取出的圖像特征存在著不穩定性,這種不穩定性往往會因為計算機提取圖像特征的明顯與普通影響圖像識別的效率與準確性,由此可見圖像特征對于AI中圖像識別技術的重要意義。
圖像識別技術
計算機的圖像識別技術就是模擬人類的圖像識別過程,在圖像識別的過程中進行模式識別是必不可少的。簡單地說,計算機的模式識別就是對數據進行分類,它是一門與數學緊密結合的科學,其中所用的思想大部分是概率與統計。模式識別主要分為三種:統計模式識別、句法模式識別、模糊模式識別。
對于當下AI+時代的圖像識別技術來說,神經網絡的圖像識別與非線性降維的圖像識別是最為常見的兩種圖像識別技術。
基于神經網絡的圖像識別:
神經網絡圖像識別技術是一種比較新型的圖像識別技術,是在傳統的圖像識別方法和基礎上融合神經網絡算法的一種圖像識別方法。這里的神經網絡是指人工神經網絡,也就是說這種神經網絡并不是動物本身所具有的真正的神經網絡,而是人類模仿動物神經網絡后人工生成的。在神經網絡圖像識別技術中,遺傳算法與BP網絡相融合的神經網絡圖像識別模型是非常經典的,在很多領域都有它的應用。
在圖像識別系統中利用神經網絡系統,一般會先提取圖像的特征,再利用圖像所具有的特征映射到神經網絡進行圖像識別分類。以汽車拍照自動識別技術為例,當汽車通過的時候,汽車自身具有的檢測設備會有所感應。此時檢測設備就會啟用圖像采集裝置來獲取汽車正反面的圖像。獲取了圖像后必須將圖像上傳到計算機進行保存以便識別。最后車牌定位模塊就會提取車牌信息,對車牌上的字符進行識別并顯示最終的結果。在對車牌上的字符進行識別的過程中就用到了基于模板匹配算法和基于人工神經網絡算法。
基于非線性降維的圖像識別:
計算機的圖像識別技術是一個異常高維的識別技術。不管圖像本身的分辨率如何,其產生的數據經常是多維性的,這給計算機的識別帶來了非常大的困難。想讓計算機具有高效地識別能力,最直接有效的方法就是降維。降維分為線性降維和非線性降維。例如主成分分析(PCA)和線性奇異分析(LDA)等就是常見的線性降維方法,它們的特點是簡單、易于理解。但是通過線性降維處理的是整體的數據集合,所求的是整個數據集合的最優低維投影。
經過驗證,這種線性的降維策略計算復雜度高而且占用相對較多的時間和空間,因此就產生了基于非線性降維的圖像識別技術,它是一種極其有效的非線性特征提取方法。此技術可以發現圖像的非線性結構而且可以在不破壞其本征結構的基礎上對其進行降維,使計算機的圖像識別在盡量低的維度上進行,這樣就提高了識別速率。例如人臉圖像識別系統所需的維數通常很高,其復雜度之高對計算機來說無疑是巨大的“災難”。由于在高維度空間中人臉圖像的不均勻分布,使得人類可以通過非線性降維技術來得到分布緊湊的人臉圖像,從而提高人臉識別技術的高效性。
在AI領域之中,圖像識別技術占據著極為重要的地位,而隨著計算機技術與信息技術的不斷發展,AI中的圖像識別技術的應用范圍不斷擴展:IBM的Watson醫療診斷、各種指紋識別、及常用的支付寶的面部識別以及百度地圖中全景衛星云圖識別等都屬于這一應用的典型,AI這一技術已經應用于日常生活之中,圖像識別技術將來定會有著較為廣泛的運用。
圖像識別的應用
移動互聯網、智能手機以及社交網絡的發展帶來了海量圖片信息,不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達意的主要媒介。但伴隨著圖片成為互聯網中的主要信息載體,難題隨之出現。
當信息由文字記載時,我們可以通過關鍵詞搜索輕易找到所需內容并進行任意編輯,而當信息是由圖片記載時,我們卻無法對圖片中的內容進行檢索,從而影響了我們從圖片中找到關鍵內容的效率。圖片給我們帶來了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個環境下,計算機的圖像識別技術就顯得尤為重要。
圖像識別初級應用:主要是娛樂化、工具化,在這個階段用戶主要是借助圖像識別技術來滿足某些娛樂化需求。例如,百度魔圖的“大咖配”功能可以幫助用戶找到與其長相最匹配的明星,百度的圖片搜索可以找到相似的圖片;Facebook研發了根據相片進行人臉匹配的DeepFace;雅虎收購的圖像識別公司IQ Engine開發的Glow可以通過圖像識別自動生成照片的標簽以幫助用戶管理手機上的照片;國內專注于圖像識別的創業公司曠視科技成立了VisionHacker游戲工作室,借助圖形識別技術研發移動端的體感游戲。
這個階段還有一個非常重要的細分領域 —— OCR(Optical Character Recognition,光學字符識別),是指光學設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,就是計算機對文字的閱讀。
借助OCR技術將這些文字和信息提取出來。在這方面,國內產品包括百度的涂書筆記和百度翻譯等;而谷歌借助經過DistBelief 訓練的大型分布式神經網絡,對于Google 街景圖庫的上千萬門牌號的識別率超過90%,每天可識別百萬門牌號。
圖像識別初級應用僅作為我們的輔助工具存在,為我們自身的人類視覺提供了強有力的輔助和增強,帶給了我們一種全新的與外部世界進行交互的方式。這些應用雖然看起來很普通,但當圖像識別技術滲透到我們行為習慣的方方面面時,我們就相當于把一部分視力外包給了機器,就像我們已經把部分記憶外包給了搜索引擎一樣。
這將極大改善我們與外部世界的交互方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標信息、大腦將信息進行分析、轉化成機器可以理解的關鍵詞、與機器交互獲得結果。而當圖像識別技術賦予了機器“眼睛”之后,這個過程就可以簡化為:人眼借助機器捕捉目標信息、機器和互聯網直接對信息進行分析并返回結果。圖像識別使攝像頭成為解密信息的鑰匙,我們僅需把攝像頭對準某一未知事物,就能得到預想的答案,攝像頭成為連接人和世界信息的重要入口之一。
圖像識別的高級應用:成為擁有視覺的機器,當機器真正具有了視覺之后,它們完全有可能代替我們去完成這些行動。目前的圖像識別應用就像是盲人的導盲犬,在盲人行動時為其指引方向;而未來的圖像識別技術將會同其他人工智能技術融合在一起成為盲人的全職管家,不需要盲人進行任何行動,而是由這個管家幫助其完成所有事情。
舉個例子,如果圖像識別是一個工具,就如同我們在駕駛汽車時佩戴谷歌眼鏡,它將外部信息進行分析后傳遞給我們,我們再依據這些信息做出行駛決策;而如果將圖像識別利用在機器視覺和人工智能上,這就如同谷歌的無人駕駛汽車,機器不僅可以對外部信息進行獲取和分析,還全權負責所有的行駛活動,讓我們得到完全解放。
圖像識別并非一個新領域,但放眼全局,它仍處于早期階段。就像任何一個典型的成長中少年一樣,在適應現實世界時也存在問題。圖像識別是計算機視覺時代到來的早期征兆,無論它將如何應用或將應用于哪些行業,圖像識別技術永遠不可能孤立發展。只有通過訪問更多圖片,實時數據,花費更多的時間和精力才能使其更加強大;只有認識到這一點,并充分利用這些聯系的企業才可能在未來取得成功。
作為一門科技含量較高的新興技術,AI的圖像識別技術已經與用戶的生活緊密結合在一起,許多科技巨頭也開始了在圖像識別和人工智能領域的布局:
Facebook簽下的人工智能專家Yann LeCun最重大的成就就是在圖像識別領域,其提出的LeNet為代表的卷積神經網絡,在應用到各種不同的圖像識別任務時都取得了不錯效果,被認為是通用圖像識別系統的代表之一;Google 借助模擬神經網絡“DistBelief”通過對數百萬份 YouTube 視頻的學習自行掌握了貓的關鍵特征,這是機器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負責這個項目的Andrew NG已經轉投百度領導百度研究院,其一個重要的研究方向就是人工智能和圖像識別。這也能看出國內科技公司對圖像識別技術以及人工智能技術的重視程度。
為什么有數十億美元投入到這項技術?原因是圖像識別潛力巨大。圖像識別是一個非常抽象的領域。但是,當應用于具體情境時,其改變企業的潛力是無可辯駁的。圖像識別技術,連接著機器和這個一無所知的世界,幫助它越發了解這個世界,并最終代替我們完成更多的任務。
關鍵詞: 圖像識別
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.xnbt.net All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 狠狠色综合网站久久久久久久| 美女免费视频黄的| 三上悠亚国产精品一区| 大陆三级理论电影有哪些| 男生gay私视频洗澡| 国产精品国产三级国产潘金莲| 亚洲欧洲精品成人久久曰影片| 久草福利资源在线观看| 国产白嫩美女在线观看| 日本h片无遮挡在线观看| 丰满毛片| 再深点灬舒服了灬太大| 中国speakingathome宾馆学生| 日本护士69xxxx免费| 久草网在线| 国产色秀视频在线观看| 花传媒季app| 欧美伦理影院| 欧美激情第1页| 精品天海翼一区二区| 色cccwww| 老公去上班的午后时光| 啊灬啊灬别停啊灬用力啊免费| 一本久久精品一区二区| 欧美成人免费在线观看| 日韩视频中文字幕| 日韩毛片视频| 野花日本中文版免费观看| 免费无遮挡肉动漫在线观看| 亚洲精品美女在线观看播放| 老子影院午夜伦不卡| 本子库全彩无遮挡无翼乌触手| 超级色的网站观看在线| 久久综合九色综合欧美狠狠| 亚洲精品中文字幕乱码| 国产成人综合久久亚洲精品| 免费一级在线| 久久综合综合久久| 里番acg里番龙| 久久成人a毛片免费观看网站| 国产精品人成在线播放新网站|