圖像識(shí)別
圖像識(shí)別,是指利用計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對象的技術(shù),是應(yīng)用深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用。 現(xiàn)階段圖像識(shí)別技術(shù)一般分為人臉識(shí)別與商品識(shí)別,人臉識(shí)別主要運(yùn)用在安全檢查、身份核驗(yàn)與移動(dòng)支付中;商品識(shí)別主要運(yùn)用在商品流通過程中,特別是無人貨架、智能零售柜等無人零售領(lǐng)域 。
圖像的傳統(tǒng)識(shí)別流程分為四個(gè)步驟:圖像采集→圖像預(yù)處理→特征提取→圖像識(shí)別。圖像識(shí)別軟件國外代表的有康耐視等,國內(nèi)代表的有圖智能、海深科技等。另外在地理學(xué)中指將遙感圖像進(jìn)行分類的技術(shù)。
基本介紹 編輯本段
如何識(shí)別人臉?識(shí)別人臉的方法有很多,最常用的是圖像識(shí)別。例如,人臉圖像從背景中提取信息,通過將面部與背景進(jìn)行對比來確定是否為同一人。有很多圖像識(shí)別方法是需要在多張圖像中尋找特征點(diǎn)來進(jìn)行識(shí)別,但是因?yàn)閳D像所處的環(huán)境不同,所以其識(shí)別過程也是不一樣的。
一、特征提取
特征提取是指將待識(shí)別人臉圖像進(jìn)行分割,并在分割之后,將其分為幾個(gè)部分。在特征提取過程中,需要考慮目標(biāo)的具體特征,比如是否具有人臉特征、是否具有人臉的紋理特征等。在提取特征的過程中,需要對不同的目標(biāo)設(shè)置不同的閾值,以達(dá)到不同的目的。閾值設(shè)置的越低,對人臉的影響越??;閾值設(shè)置的越高,對人臉的影響越大。當(dāng)目標(biāo)不具有人臉特征時(shí),閾值設(shè)置為低;當(dāng)目標(biāo)具有人臉特征時(shí),閾值設(shè)置為高。人臉特征提取過程中要注意以下幾點(diǎn):提取目標(biāo)的人臉特征,必須考慮目標(biāo)所處環(huán)境變化以及與背景圖像等效的影響;提取人臉的紋理特征不能是孤立的,必須注意對面部進(jìn)行多尺度化處理;提取目標(biāo)特征必須考慮影響閾值設(shè)置的因素;提取目標(biāo)的紋理特征后需要將其與背景圖像進(jìn)行比較;將所有的圖像處理方法結(jié)合起來使用以提高特征識(shí)別效率而非降低識(shí)別結(jié)果;從多尺度化效果上考慮提取特征效果影響閾值設(shè)置等。
1、人臉特征
人臉特征是通過利用不同的算法來提取人臉的圖像特征,在提取人臉特征時(shí),首先要解決的問題是目標(biāo)的輪廓特征以及面部五官特征。目前比較常用的人臉特征有三種,分別是最小二乘(Loss Vector)、 Logistic Synthetic Device以及 Perception Synthetic Device。在這些提取法中, LSD是基于最小二乘模型而設(shè)計(jì)的一個(gè)二分算法,該模型用三種不同大小的均方誤差作為濾波器,再將三種不同大小的均方誤差乘以一個(gè)固定值作為輸出函數(shù),最后用一個(gè)固定值作為該濾波器的初始參數(shù)。LSD自定義參數(shù)有很多,目前常用如 RMSE、 RMSE等函數(shù)。在所有選擇 RMSE作為特征值時(shí),最小二乘(Logistic Synthetic Device)是非常重要的指標(biāo)之一,其數(shù)值越大說明對目標(biāo)越有價(jià)值;反之則可認(rèn)為是一個(gè)負(fù)值,通常由梯度消失、梯度消除、平均曲率等方法構(gòu)成,因此從梯度消失中能夠判斷出這個(gè)人是否具有生物相似性。
2、紋理特征
紋理特征是對人臉圖像的分割,主要包含了兩個(gè)方面的特征:即不同深度下的紋理信息;不同亮度下的紋理信息。通過紋理特征能夠?qū)ΥR(shí)別的目標(biāo)進(jìn)行很好的分割。紋理特征主要包含紋理值、紋理空間等三個(gè)方面。對兩種不同深度下的紋理分量進(jìn)行研究,將兩種不同深度下的紋理分量進(jìn)行了比較,可以發(fā)現(xiàn),紋理參數(shù)對紋理特征的影響是比較大的。對于含有紋理的圖像,需要先對其進(jìn)行預(yù)處理,然后再利用上述三個(gè)參數(shù)對其進(jìn)行分析,這樣才能獲得更加準(zhǔn)確的紋理值。
3、人臉檢測
人臉檢測是在計(jì)算機(jī)視覺中進(jìn)行的一種簡單、快速、高效的特征識(shí)別方式。其檢測方式包括了最大似然理論、最小似然理論等。為了進(jìn)行圖像分類,人們需要對圖像進(jìn)行比較。人們對計(jì)算機(jī)視覺領(lǐng)域研究較多的是應(yīng)用最大似然理論進(jìn)行面部識(shí)別,而對圖像進(jìn)行分類的最重要手段是最小似然理論。
圖像特征提取 編輯本段
首先通過圖像處理軟件對圖像進(jìn)行預(yù)處理,然后利用特征提取算法對圖像進(jìn)行特征提取,出人臉特征點(diǎn),用函數(shù)將圖像分割為若干個(gè)特征部分。圖像分割的目的是使圖像中各部分不相干,并使識(shí)別結(jié)果更加接近于實(shí)際圖像。人臉分割的原理是用圖像分割技術(shù)來提取人臉圖像中各個(gè)部分的特征,然后根據(jù)各特征進(jìn)行計(jì)算,最后將計(jì)算所得的結(jié)果與特征點(diǎn)進(jìn)行比較,將兩個(gè)相似的特征點(diǎn)進(jìn)行比較,從而確定人臉是否為同一人:特征點(diǎn)最少必須與相似特征點(diǎn)相吻合;其次是圖像中不相干部位特征點(diǎn)的提?。蛔詈蟊闶窃谔卣鼽c(diǎn)旁邊一定范圍內(nèi)的點(diǎn)來作為特征信息進(jìn)行提取。這種方法可以達(dá)到快速快捷、結(jié)果準(zhǔn)確的目的,但是它只能在人臉特征點(diǎn)比較密集的情況下才能有效地使用,對于一些較大數(shù)量或者形狀較復(fù)雜的人臉特征點(diǎn)就不能使用此方法來進(jìn)行識(shí)別。而且當(dāng)人臉出現(xiàn)明顯變化時(shí),還會(huì)影響識(shí)別進(jìn)度會(huì)導(dǎo)致識(shí)別結(jié)果有一定損失,這也是采用人臉分析方法來輔助人臉識(shí)別的缺點(diǎn)。
1、人臉識(shí)別方法的分類
人臉識(shí)別方法主要分為以下幾類:第一類是基于規(guī)則和幾何結(jié)構(gòu)的人臉識(shí)別方法,包括人臉檢測算法、人臉特征點(diǎn)檢測算法、臉部識(shí)別數(shù)據(jù)處理算法等。第二類屬于基于特征和時(shí)間序列的人臉模型識(shí)別法,主要包括基于面部圖像的各種特征提取算法、臉部特征提取算法和模型搜索等。第三類屬于視覺和非視覺人臉識(shí)別方法,包括圖像處理方法、計(jì)算機(jī)輔助設(shè)計(jì)和人工智能等。第四類是支持向量機(jī)預(yù)測應(yīng)用軟件。這類方法具有強(qiáng)大的魯棒性,在一定程度上也是對圖像處理和支持向量機(jī)算法進(jìn)行優(yōu)化的一種重要方法。但是它只能對人臉進(jìn)行定性研究,沒有明確的算法,同時(shí)它存在著明顯的局限性,這使得人臉識(shí)別在實(shí)際應(yīng)用中遇到了許多問題。
2、特征提取與分析
由于人臉的形狀復(fù)雜,很多特征點(diǎn)的數(shù)量很多,所以,對于該問題,我們首先要利用數(shù)學(xué)分析中的線性回歸和梯度下降法對其特征進(jìn)行提取和分析。對于這些性質(zhì)不同的特征,使用線性回歸或梯度下降法是不能有效地將其作為識(shí)別人臉的依據(jù)。而且對梯度下降法進(jìn)行分析時(shí),必須將梯度下降函數(shù)設(shè)為閾值,這對梯度值有一定的要求。梯度下降法采用的是梯度圖構(gòu)造法,通過圖可以看出梯度變化對圖像有影響,因此這種梯度法適合對圖像有顯著影響的數(shù)據(jù)。梯度下降法計(jì)算速度比較快,在某些情況下還可以提高識(shí)別率,但梯度下降法需用到大量數(shù)據(jù),而且對某些需要特殊處理后才能得到更好數(shù)據(jù)的情況是無法滿足實(shí)際要求的。因此采用梯度下降法提取人臉特征會(huì)大大降低該方法所需耗費(fèi)的時(shí)間以及計(jì)算復(fù)雜程度。
人臉特征提取 編輯本段
人臉識(shí)別技術(shù)一般需要將人臉圖像轉(zhuǎn)換成特定圖像,通過識(shí)別對圖像中人物臉部的提取來確定人臉。首先,對人臉圖像的處理,對圖像進(jìn)行預(yù)處理,使其含有一些信息。然后,根據(jù)人臉與背景相似程度,利用人臉的不同方向和角度將人臉分割成若干個(gè)區(qū)域,使其具有相似的特征,如直角面點(diǎn),圓弧面點(diǎn)等。最后,將人臉圖像分割后,在適當(dāng)?shù)奈恢门c背景圖像進(jìn)行對比,就可以得到人臉特征了。在實(shí)際應(yīng)用中,這種方法既能將人臉檢測到,又能將其提取出來,且識(shí)別率很高。在圖像提取中,通常通過三種方法進(jìn)行分析:首先,基于背景分析法,在圖像中加入背景信息;其次是基于特征提取法,先將人臉圖像預(yù)處理,將圖像映射到背景圖像中;最后一種方法是利用圖像的不同角度提取人臉特征。
1、背景分析法
背景分析法是將背景看成是人臉圖像的背景,以得到該人臉圖像中的信息,是一種最簡單的方法。該方法不需要進(jìn)行人臉圖像預(yù)處理,只要用灰度圖像中相同色調(diào)的顏色圖像和亮度相同強(qiáng)度的灰度圖像作為背景,就可以得到該人臉的信息。但背景分析方法存在著一定的局限性,它不能很好地保留背景信息,在實(shí)際應(yīng)用中一般用該方法將人臉提取出來。背景分析法對人臉有很強(qiáng)的針對性,所以它是非常實(shí)用的一種方法。其優(yōu)點(diǎn)在于:首先需要提取較多信息,并且需要對背景顏色有較高的要求;其次,由于每個(gè)人臉上最小特征為5×5,因而其背景與該圖像中每個(gè)人臉上最小特征相比具有很高相似性;最后,該方法由于可以與其它特征結(jié)合使用,所以應(yīng)用范圍很廣。
2、特征提取法
特征提取法又稱圖像處理特征提取法,是指在對人臉圖像進(jìn)行預(yù)處理時(shí),首先利用具有相似特征的圖像提取其形狀或顏色、紋理特征,然后再對圖像特征進(jìn)行人工處理(如去除面部皺紋、陰影等),使其具有相似程度。在使用這一方法時(shí),可以通過訓(xùn)練樣本進(jìn)行預(yù)處理,從而將樣本分成兩組,一組樣本采用一元的像素,另一組樣本采用四元的像素,最后將樣本進(jìn)行歸一化處理,得到一個(gè)具有相關(guān)特征的圖像。但該方法不能完全反映出人物面部的真實(shí)面部情況,所以在實(shí)際應(yīng)用中需根據(jù)人臉的面部分布特征來決定其提取方式。該方法主要由三部分組成:首先是對圖像的預(yù)處理;其次是對樣本空間進(jìn)行分割;最后是對特征值進(jìn)行計(jì)算。此外,對于不同顏色、紋理、幾何特征等不同種類特征值,應(yīng)通過對所對應(yīng)對象進(jìn)行識(shí)別選擇其最為合適或最具代表性特征進(jìn)行描述分析以供識(shí)別與檢測人員使用。
智能領(lǐng)域 編輯本段
圖像識(shí)別是人工智能的一個(gè)重要領(lǐng)域。為了編制模擬人類圖像識(shí)別活動(dòng)的計(jì)算機(jī)程序,人們提出了不同的圖像識(shí)別模型。例如模板匹配模型。這種模型認(rèn)為,識(shí)別某個(gè)圖像,必須在過去的經(jīng)驗(yàn)中有這個(gè)圖像的記憶模式,又叫模板。當(dāng)前的刺激如果能與大腦中的模板相匹配,這個(gè)圖像也就被識(shí)別了。例如有一個(gè)字母A,如果在腦中有個(gè)A模板,字母A的大小、方位、形狀都與這個(gè)A模板完全一致,字母A就被識(shí)別了。這個(gè)模型簡單明了,也容易得到實(shí)際應(yīng)用。但這種模型強(qiáng)調(diào)圖像必須與腦中的模板完全符合才能加以識(shí)別,而事實(shí)上人不僅能識(shí)別與腦中的模板完全一致的圖像,也能識(shí)別與模板不完全一致的圖像。例如,人們不僅能識(shí)別某一個(gè)具體的字母A,也能識(shí)別印刷體的、手寫體的、方向不正、大小不同的各種字母A。同時(shí),人能識(shí)別的圖像是大量的,如果所識(shí)別的每一個(gè)圖像在腦中都有一個(gè)相應(yīng)的模板,也是不可能的。
為了解決模板匹配模型存在的問題,格式塔心理學(xué)家又提出了一個(gè)原型匹配模型。這種模型認(rèn)為,在長時(shí)記憶中存儲(chǔ)的并不是所要識(shí)別的無數(shù)個(gè)模板,而是圖像的某些“相似性”。從圖像中抽象出來的“相似性”就可作為原型,拿它來檢驗(yàn)所要識(shí)別的圖像。如果能找到一個(gè)相似的原型,這個(gè)圖像也就被識(shí)別了。這種模型從神經(jīng)上和記憶探尋的過程上來看,都比模板匹配模型更適宜,而且還能說明對一些不規(guī)則的,但某些方面與原型相似的圖像的識(shí)別。但是,這種模型沒有說明人是怎樣對相似的刺激進(jìn)行辨別和加工的,它也難以在計(jì)算機(jī)程序中得到實(shí)現(xiàn)。因此又有人提出了一個(gè)更復(fù)雜的模型,即“泛魔”識(shí)別模型。
一般工業(yè)使用中,采用工業(yè)相機(jī)拍攝圖片,然后利用軟件根據(jù)圖片灰階差做處理后識(shí)別出有用信息,圖像識(shí)別軟件國外代表的有康耐視等,國內(nèi)代表的有圖智能等。
在人工智能中圖像識(shí)別技術(shù)具有智能化、便捷化以及實(shí)用性的優(yōu)勢,為人們的生活與工作帶來極大的便利。
研究現(xiàn)狀 編輯本段
圖像識(shí)別的發(fā)展經(jīng)歷了三個(gè)階段:文字識(shí)別、數(shù)字圖像處理與識(shí)別、物體識(shí)別。文字識(shí)別的研究是從 1950年開始的,一般是識(shí)別字母、數(shù)字和符號(hào),從印刷文字識(shí)別到手寫文字識(shí)別, 應(yīng)用非常廣泛。
數(shù)字圖像處理和識(shí)別的研究開始于1965年。數(shù)字圖像與模擬圖像相比具有存儲(chǔ),傳輸方便可壓縮、傳輸過程中不易失真、處理方便等巨大優(yōu)勢,這些都為圖像識(shí)別技術(shù)的發(fā)展提供了強(qiáng)大的動(dòng)力。物體的識(shí)別主要指的是對三維世界的客體及環(huán)境的感知和認(rèn)識(shí),屬于高級(jí)的計(jì)算機(jī)視覺范疇。它是以數(shù)字圖像處理與識(shí)別為基礎(chǔ)的結(jié)合人工智能、系統(tǒng)學(xué)等學(xué)科的研究方向,其研究成果被廣泛應(yīng)用在各種工業(yè)及探測機(jī)器人上?,F(xiàn)代圖像識(shí)別技術(shù)的一個(gè)不足就是自適應(yīng)性能差,一旦目標(biāo)圖像被較強(qiáng)的噪聲污染或是目標(biāo)圖像有較大殘缺往往就得不出理想的結(jié)果。
圖像識(shí)別問題的數(shù)學(xué)本質(zhì)屬于模式空間到類別空間的映射問題。目前,在圖像識(shí)別的發(fā)展中,主要有三種識(shí)別方法:統(tǒng)計(jì)模式識(shí)別、結(jié)構(gòu)模式識(shí)別、模糊模式識(shí)別。圖像分割是圖像處理中的一項(xiàng)關(guān)鍵技術(shù),自20世紀(jì)70年代,其研究已經(jīng)有幾十年的歷史,一直都受到人們的高度重視,至今借助于各種理論提出了數(shù)以千計(jì)的分割算法,而且這方面的研究仍然在積極地進(jìn)行著。
現(xiàn)有的圖像分割的方法有許多種,有閾值分割方法,邊緣檢測方法,區(qū)域提取方法,結(jié)合特定理論工具的分割方法等。從圖像的類型來分有:灰度圖像分割、彩色圖像分割和紋理圖像分割等。早在1965年就有人提出了檢測邊緣算子,使得邊緣檢測產(chǎn)生了不少經(jīng)典算法。但在近二十年間,隨著基于直方圖和小波變換的圖像分割方法的研究計(jì)算技術(shù)、VLSI技術(shù)的迅速發(fā)展,有關(guān)圖像處理方面的研究取得了很大的進(jìn)展。圖像分割方法結(jié)合了一些特定理論、 方法和工具,如基于數(shù)學(xué)形態(tài)學(xué)的圖像分割、基于小波變換的分割、基于遺傳算法的分割等。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。
如果您認(rèn)為本詞條還有待完善,請 編輯
上一篇 自然語言處理 下一篇 機(jī)器學(xué)習(xí)