編輯時間	歷史版本	內(nèi)容長度	圖片數(shù)	目錄數(shù)	修改原因
2022-10-22 11:29	歷史版本1	19514	3	15	修正錯誤

最新歷史版本 | 下一歷史版本 | 返回詞條

計算機視覺

計算機視覺(Computer Vision)是指研究使機器具有“看”的能力的一門技術(shù)。狹義地講，計算機視覺就是通過分析攝像機獲取的圖像來達到對物體形成表達的科學和技術(shù)。與圖像理解，視頻分析、模式識別有密切的聯(lián)系，但都有所區(qū)別。

計算機視覺

發(fā)展歷程

計算機視覺經(jīng)歷了以下四個主要發(fā)展歷程：

1、馬爾視覺計算理論1982年馬爾視覺計算理論(參見視覺計算理論)的提出，標志著計算機視覺成為了一門獨立的學科。馬爾視覺計算理論包含兩個主要觀點：首先，馬爾認為人類視覺的主要功能是復原三維場景的可見幾何表面，即三維重建問題。其次，馬爾認為這種從二維圖像到三維幾何結(jié)構(gòu)的復原過程是可以通過計算完成的，并提出了從圖像初始略圖(sketch)→物體2.5維描述→物體3維描述一套完整的計算理論和方法。

2、主動視覺，目的視覺針對馬爾理論在具體應(yīng)用中遇到的困難。以Y.Aloimonos,R.Bajcsy等為代表的學者在20世紀80年代末90年代初提出了“目的視覺”、“主動視覺”、“定性視覺”等理論，這些理論的共同特點是認為，馬爾理論從下到上的三維重建過程由于缺乏目的性，缺乏高層知識反饋，從而導致三維重建框架不可行。重建算法不魯棒，他們強調(diào)視覺算法高層知識反饋的必要性和重要性，以及視覺主體與環(huán)境交互的重要性，這些理論盡管從原理上來說更加符合人類視覺過程。但由于“利用什么樣的高層知識”，“如何利用高層知識”，“視覺主體如何與環(huán)境進行有效交互”等這些核心問題目前人們還知之甚少。在近期內(nèi)估計還很難建立有效的計算模型，所以這些理論自從1994年在CV-GIP:Image Understanding上組織關(guān)于主動視覺的大辯論后，至今仍沒有顯著性進展。

3、分層重建理論(stratified reconstruction)以O(shè).Faugeras和R.Hartley等提出的分層重建理論是20世紀90年代計算機視覺領(lǐng)域最活躍的研究內(nèi)容。分層重建的基本思想是指從圖像到三維歐幾里得空間的重建過程中，先從圖像空間得到射影空間下的重建(11個未知數(shù))，然后將射影空間下重建的結(jié)果提升到仿射空間(3未知數(shù))，最后將仿射空間下重建的結(jié)果提升到歐幾里得空間(5個未知數(shù))，這種分層重建方法由于每一步重建過程中涉及的未知變量少。幾何意義明確，所以算法的魯棒性得到了有效提高。

4、基于學習的視覺物體識別是計算機視覺的重要研究內(nèi)容，隨著基于圖像的物體表達(View Based Representation)的提出和機器學習的進展，基于學習的視覺是近年來計算機視覺的研究熱點。所謂基于學習的視覺，就是指利用機器學習的手段來對圖像物體進行識別的方法。包括對物體的識別和分類(object identification and categorization)。

視覺原理

計算機視覺就是用各種成象系統(tǒng)代替視覺器官作為輸入敏感手段，由計算機來代替大腦完成處理和解釋。計算機視覺的最終研究目標就是使計算機能象人那樣通過視覺觀察和理解世界，具有自主適應(yīng)環(huán)境的能力。要經(jīng)過長期的努力才能達到的目標。因此，在實現(xiàn)最終目標以前，人們努力的中期目標是建立一種視覺系統(tǒng)，這個系統(tǒng)能依據(jù)視覺敏感和反饋的某種程度的智能完成一定的任務(wù)。例如，計算機視覺的一個重要應(yīng)用領(lǐng)域就是自主車輛的視覺導航，還沒有條件實現(xiàn)象人那樣能識別和理解任何環(huán)境，完成自主導航的系統(tǒng)。因此，人們努力的研究目標是實現(xiàn)在高速公路上具有道路跟蹤能力，可避免與前方車輛碰撞的視覺輔助駕駛系統(tǒng)。這里要指出的一點是在計算機視覺系統(tǒng)中計算機起代替人腦的作用，但并不意味著計算機必須按人類視覺的方法完成視覺信息的處理。計算機視覺可以而且應(yīng)該根據(jù)計算機系統(tǒng)的特點來進行視覺信息的處理。但是，人類視覺系統(tǒng)是迄今為止，人們所知道的功能最強大和完善的視覺系統(tǒng)。如在以下的章節(jié)中會看到的那樣，對人類視覺處理機制的研究將給計算機視覺的研究提供啟發(fā)和指導。因此，用計算機信息處理的方法研究人類視覺的機理，建立人類視覺的計算理論，也是一個非常重要和信人感興趣的研究領(lǐng)域。這方面的研究被稱為計算視覺（Computational Vision）。計算機視覺可被認為是計算機視覺中的一個研究領(lǐng)域。

發(fā)展現(xiàn)狀

計算機視覺領(lǐng)域的突出特點是其多樣性與不完善性。這一領(lǐng)域的先驅(qū)可追溯到更早的時候，但是直到20世紀70年代后期，當計算機的性能提高到足以處理諸如圖像這樣的大規(guī)模數(shù)據(jù)時，計算機視覺才得到了正式的關(guān)注和發(fā)展。然而這些發(fā)展往往起源于其他不同領(lǐng)域的需要，因而何謂“計算機視覺問題”始終沒有得到正式定義，很自然地，“計算機視覺問題”應(yīng)當被如何解決也沒有成型的公式。

盡管如此，人們已開始掌握部分解決具體計算機視覺任務(wù)的方法，可惜這些方法通常都僅適用于一群狹隘的目標（如：臉孔、指紋、文字等），因而無法被廣泛地應(yīng)用于不同場合。

對這些方法的應(yīng)用通常作為某些解決復雜問題的大規(guī)模系統(tǒng)的一個組成部分（例如醫(yī)學圖像的處理，工業(yè)制造中的質(zhì)量控制與測量）。在計算機視覺的大多數(shù)實際應(yīng)用當中，計算機被預設(shè)為解決特定的任務(wù)，然而基于機器學習的方法正日漸普及，一旦機器學習的研究進一步發(fā)展，未來“泛用型”的電腦視覺應(yīng)用或許可以成真。

人工智能所研究的一個主要問題是：如何讓系統(tǒng)具備“計劃”和“決策能力”？從而使之完成特定的技術(shù)動作（例如：移動一個機器人通過某種特定環(huán)境）。這一問題便與計算機視覺問題息息相關(guān)。在這里，計算機視覺系統(tǒng)作為一個感知器，為決策提供信息。另外一些研究方向包括模式識別和機器學習（這也隸屬于人工智能領(lǐng)域，但與計算機視覺有著重要聯(lián)系），也由此，計算機視覺時常被看作人工智能與計算機科學的一個分支。

物理是與計算機視覺有著重要聯(lián)系的另一領(lǐng)域。

計算機視覺關(guān)注的目標在于充分理解電磁波——主要是可見光與紅外線部分——遇到物體表面被反射所形成的圖像，而這一過程便是基于光學物理和固態(tài)物理，一些尖端的圖像感知系統(tǒng)甚至會應(yīng)用到量子力學理論，來解析影像所表示的真實世界。同時，物理學中的很多測量難題也可以通過計算機視覺得到解決，例如流體運動。也由此，計算機視覺同樣可以被看作是物理學的拓展。

另一個具有重要意義的領(lǐng)域是神經(jīng)生物學，尤其是其中生物視覺系統(tǒng)的部分。

在整個20世紀中，人類對各種動物的眼睛、神經(jīng)元、以及與視覺刺激相關(guān)的腦部組織都進行了廣泛研究，這些研究得出了一些有關(guān)“天然的”視覺系統(tǒng)如何運作的描述（盡管仍略嫌粗略），這也形成了計算機視覺中的一個子領(lǐng)域——人們試圖建立人工系統(tǒng)，使之在不同的復雜程度上模擬生物的視覺運作。同時計算機視覺領(lǐng)域中，一些基于機器學習的方法也有參考部分生物機制。

計算機視覺的另一個相關(guān)領(lǐng)域是信號處理。很多有關(guān)單元變量信號的處理方法，尤其是對時變信號的處理，都可以很自然的被擴展為計算機視覺中對二元變量信號或者多元變量信號的處理方法。但由于圖像數(shù)據(jù)的特有屬性，很多計算機視覺中發(fā)展起來的方法，在單元信號的處理方法中卻找不到對應(yīng)版本。這類方法的一個主要特征，便是他們的非線性以及圖像信息的多維性，以上二點作為計算機視覺的一部分，在信號處理學中形成了一個特殊的研究方向。

除了上面提到的領(lǐng)域，很多研究課題同樣可被當作純粹的數(shù)學問題。例如，計算機視覺中的很多問題，其理論基礎(chǔ)便是統(tǒng)計學，最優(yōu)化理論以及幾何學。

如何使既有方法通過各種軟硬件實現(xiàn)，或說如何對這些方法加以修改，而使之獲得合理的執(zhí)行速度而又不損失足夠精度，是現(xiàn)今電腦視覺領(lǐng)域的主要課題。

應(yīng)用范圍

人類正在進入信息時代，計算機將越來越廣泛地進入幾乎所有領(lǐng)域。一方面是更多未經(jīng)計算機專業(yè)訓練的人也需要應(yīng)用計算機，而另一方面是計算機的功能越來越強，使用方法越來越復雜。這就使人在進行交談和通訊時的靈活性與在使用計算機時所要求的嚴格和死板之間產(chǎn)生了尖銳的矛盾。人可通過視覺和聽覺，語言與外界交換信息，并且可用不同的方式表示相同的含義，而計算機卻要求嚴格按照各種程序語言來編寫程序，只有這樣計算機才能運行。為使更多的人能使用復雜的計算機，必須改變過去的那種讓人來適應(yīng)計算機，來死記硬背計算機的使用規(guī)則的情況。而是反過來讓計算機來適應(yīng)人的習慣和要求，以人所習慣的方式與人進行信息交換，也就是讓計算機具有視覺、聽覺和說話等能力。這時計算機必須具有邏輯推理和決策的能力。具有上述能力的計算機就是智能計算機。

智能計算機不但使計算機更便于為人們所使用，同時如果用這樣的計算機來控制各種自動化裝置特別是智能機器人，就可以使這些自動化系統(tǒng)和智能機器人具有適應(yīng)環(huán)境，和自主作出決策的能力。這就可以在各種場合取代人的繁重工作，或代替人到各種危險和惡劣環(huán)境中完成任務(wù)。

應(yīng)用范圍從任務(wù)，比如工業(yè)機器視覺系統(tǒng)，比方說，檢查瓶子上的生產(chǎn)線加速通過，研究為人工智能和計算機或機器人，可以理解他們周圍的世界。計算機視覺和機器視覺領(lǐng)域有顯著的重疊。計算機視覺涉及的被用于許多領(lǐng)域自動化圖像分析的核心技術(shù)。機器視覺通常指的是結(jié)合自動圖像分析與其他方法和技術(shù)，以提供自動檢測和機器人指導在工業(yè)應(yīng)用中的一個過程。在許多計算機視覺應(yīng)用中，計算機被預編程，以解決特定的任務(wù)，但基于學習的方法現(xiàn)在正變得越來越普遍。計算機視覺應(yīng)用的實例包括用于系統(tǒng)：

（1）控制過程，比如，一個工業(yè)機器人；

（2）導航，例如，通過自主汽車或移動機器人；

（3）檢測的事件，如，對視頻監(jiān)控和人數(shù)統(tǒng)計；

（4）組織信息，例如，對于圖像和圖像序列的索引數(shù)據(jù)庫；

（5）造型對象或環(huán)境，如，醫(yī)學圖像分析系統(tǒng)或地形模型；

（6）相互作用，例如，當輸入到一個裝置，用于計算機人的交互；

（7）自動檢測，例如，在制造業(yè)的應(yīng)用程序。

其中最突出的應(yīng)用領(lǐng)域是醫(yī)療計算機視覺和醫(yī)學圖像處理。這個區(qū)域的特征的信息從圖像數(shù)據(jù)中提取用于使患者的醫(yī)療診斷的目的。通常，圖像數(shù)據(jù)是在形式顯微鏡圖像，X射線圖像，血管造影圖像，超聲圖像和斷層圖像。的信息，可以從這樣的圖像數(shù)據(jù)中提取的一個例子是檢測的腫瘤，動脈粥樣硬化或其他惡性變化。它也可以是器官的尺寸，血流量等。這種應(yīng)用領(lǐng)域還支持通過提供新的信息，醫(yī)學研究的測量例如，對腦的結(jié)構(gòu)，或約醫(yī)學治療的質(zhì)量。計算機視覺在醫(yī)療領(lǐng)域的應(yīng)用還包括增強是由人類的解釋，例如超聲圖像或X射線圖像，以降低噪聲的影響的圖像。

計算機視覺呈現(xiàn)

第二個應(yīng)用程序區(qū)域中的計算機視覺是在工業(yè)，有時也被稱為機器視覺，在那里信息被提取為支撐的制造工序的目的。一個例子是質(zhì)量控制，其中的信息或最終產(chǎn)品被以找到缺陷自動檢測。另一個例子是，被拾取的位置和細節(jié)取向測量由機器人臂。機器視覺也被大量用于農(nóng)業(yè)的過程，從散裝材料，這個過程被稱為去除不想要的東西，食物的光學分揀。

軍事上的應(yīng)用很可能是計算機視覺最大的地區(qū)之一。最明顯的例子是探測敵方士兵或車輛和導彈制導。更先進的系統(tǒng)為導彈制導發(fā)送導彈的區(qū)域，而不是一個特定的目標，并且當導彈到達基于本地獲取的圖像數(shù)據(jù)的區(qū)域的目標做出選擇?，F(xiàn)代軍事概念，如“戰(zhàn)場感知”，意味著各種傳感器，包括圖像傳感器，提供了豐富的有關(guān)作戰(zhàn)的場景，可用于支持戰(zhàn)略決策的信息。在這種情況下，數(shù)據(jù)的自動處理，用于減少復雜性和融合來自多個傳感器的信息，以提高可靠性。

一個較新的應(yīng)用領(lǐng)域是自主車，其中包括潛水，陸上車輛（帶輪子，轎車或卡車的小機器人），高空作業(yè)車和無人機（UAV）。自主化水平，從完全獨立的（無人）的車輛范圍為汽車，其中基于計算機視覺的系統(tǒng)支持驅(qū)動程序或在不同情況下的試驗。完全自主的汽車通常使用計算機視覺進行導航時，即知道它在哪里，或用于生產(chǎn)的環(huán)境（地圖SLAM）和用于檢測障礙物。它也可以被用于檢測特定任務(wù)的特定事件，例如，一個UAV尋找森林火災(zāi)。支承系統(tǒng)的例子是障礙物警報系統(tǒng)中的汽車，以及用于飛行器的自主著陸系統(tǒng)。數(shù)家汽車制造商已經(jīng)證明了系統(tǒng)的汽車自動駕駛，但該技術(shù)還沒有達到一定的水平，就可以投放市場。有軍事自主車型，從先進的導彈，無人機的偵察任務(wù)或?qū)椀闹茖С渥愕睦印?span title="太空探索" data-id="19371248" contenteditable="false" class="bk-color-link" data-type="innerLink" data-href="#" data-wiki-doc-id="862717165361323454" data-source="1" data-content="[{"type":"text","text":"太空探索"}]">太空探索已經(jīng)正在使用計算機視覺，自主車比如，美國宇航局的火星探測漫游者和歐洲航天局的ExoMars火星漫游者。

其他應(yīng)用領(lǐng)域包括：

（1）支持視覺特效制作的電影和廣播，例如，攝像頭跟蹤（運動匹配）。

（2）監(jiān)視。

結(jié)構(gòu)系統(tǒng)

計算機視覺系統(tǒng)的結(jié)構(gòu)形式很大程度上依賴于其具體應(yīng)用方向。有些是獨立工作的，用于解決具體的測量或檢測問題；也有些作為某個大型復雜系統(tǒng)的組成部分出現(xiàn)，比如和機械控制系統(tǒng)，數(shù)據(jù)庫系統(tǒng)，人機接口設(shè)備協(xié)同工作。計算機視覺系統(tǒng)的具體實現(xiàn)方法同時也由其功能決定——是預先固定的抑或是在運行過程中自動學習調(diào)整。盡管如此，有些功能卻幾乎是每個計算機系統(tǒng)都需要具備的。

圖像獲取

一幅數(shù)字圖像是由一個或多個圖像感知器產(chǎn)生，這里的感知器可以是各種光敏攝像機，包括遙感設(shè)備，X射線斷層攝影儀，雷達，超聲波接收器等。取決于不同的感知器，產(chǎn)生的圖片可以是普通的二維圖像，三維圖組或者一個圖像序列。圖片的像素值往往對應(yīng)于光在一個或多個光譜段上的強度（灰度圖或彩色圖），但也可以是相關(guān)的各種物理數(shù)據(jù)，如聲波，電磁波或核磁共振的深度，吸收度或反射度。

預處理

在對圖像實施具體的計算機視覺方法來提取某種特定的信息前，一種或一些預處理往往被采用來使圖像滿足后繼方法的要求。例如：

二次取樣保證圖像坐標的正確；

平滑去噪來濾除感知器引入的設(shè)備噪聲；

提高對比度來保證實現(xiàn)相關(guān)信息可以被檢測到；

調(diào)整尺度空間使圖像結(jié)構(gòu)適合局部應(yīng)用。

特征提取

從圖像中提取各種復雜度的特征。例如：

線，邊緣提?。?/p>

局部化的特征點檢測如邊角檢測，斑點檢測；

更復雜的特征可能與圖像中的紋理形狀或運動有關(guān)。

檢測分割

在圖像處理過程中，有時會需要對圖像進行分割來提取有價值的用于后繼處理的部分，例如

篩選特征點；

分割一或多幅圖片中含有特定目標的部分。

高級處理

到了這一步，數(shù)據(jù)往往具有很小的數(shù)量，例如圖像中經(jīng)先前處理被認為含有目標物體的部分。這時的處理包括：

驗證得到的數(shù)據(jù)是否符合前提要求；

估測特定系數(shù)，比如目標的姿態(tài)，體積；

對目標進行分類。

高級處理有理解圖像內(nèi)容的含義，是計算機視覺中的高階處理，主要是在圖像分割的基礎(chǔ)上再經(jīng)行對分割出的圖像塊進行理解，例如進行識別等操作。

常見問題

幾乎在每個計算機視覺技術(shù)的具體應(yīng)用都要解決一系列相同的問題，這些經(jīng)典的問題包括以下幾點。

識別

一個計算機視覺，圖像處理和機器視覺所共有的經(jīng)典問題便是判定一組圖像數(shù)據(jù)中是否包含某個特定的物體，圖像特征或運動狀態(tài)。這一問題通?？梢酝ㄟ^機器自動解決，但是到目前為止，還沒有某個單一的方法能夠廣泛的對各種情況進行判定：在任意環(huán)境中識別任意物體?，F(xiàn)有技術(shù)能夠也只能夠很好地解決特定目標的識別，比如簡單幾何圖形識別，人臉識別，印刷或手寫文件識別或者車輛識別。而且這些識別需要在特定的環(huán)境中，具有指定的光照，背景和目標姿態(tài)要求。

廣義的識別在不同的場合又演化成了幾個略有差異的概念：

識別（狹義的）：對一個或多個經(jīng)過預先定義或?qū)W習的物體或物類進行辨識，通常在辨識過程中還要提供他們的二維位置或三維姿態(tài)。

鑒別：識別辨認單一物體本身。例如：某一人臉的識別，某一指紋的識別。

監(jiān)測：從圖像中發(fā)現(xiàn)特定的情況內(nèi)容。例如：醫(yī)學中對細胞或組織不正常技能的發(fā)現(xiàn)，交通監(jiān)視儀器對過往車輛的發(fā)現(xiàn)。監(jiān)測往往是通過簡單的圖象處理發(fā)現(xiàn)圖像中的特殊區(qū)域，為后繼更復雜的操作提供起點。

識別的幾個具體應(yīng)用方向：

基于內(nèi)容的圖像提?。涸诰薮蟮膱D像集合中尋找包含指定內(nèi)容的所有圖片。被指定的內(nèi)容可以是多種形式，比如一個紅色的大致是圓形的圖案，或者一輛自行車。在這里對后一種內(nèi)容的尋找顯然要比前一種更復雜，因為前一種描述的是一個低級直觀的視覺特征，而后者則涉及一個抽象概念（也可以說是高級的視覺特征），即‘自行車’，顯然的一點就是自行車的外觀并不是固定的。

姿態(tài)評估：對某一物體相對于攝像機的位置或者方向的評估。例如：對機器臂姿態(tài)和位置的評估。

光學字符識別對圖像中的印刷或手寫文字進行識別鑒別，通常的輸出是將之轉(zhuǎn)化成易于編輯的文檔形式。

運動

基于序列圖像的對物體運動的監(jiān)測包含多種類型，諸如：

自體運動：監(jiān)測攝像機的三維剛性運動。

圖像跟蹤：跟蹤運動的物體。

場景重建

給定一個場景的二或多幅圖像或者一段錄像，場景重建尋求為該場景建立一個計算機模型/三維模型。最簡單的情況便是生成一組三維空間中的點。更復雜的情況下會建立起完整的三維表面模型。

圖像恢復

圖像恢復的目標在于移除圖像中的噪聲，例如儀器噪聲，模糊等。