2.1. Cơ bản về xử lý ảnh
2.1.1 Các giai đoạn của một quá trình xử lý ảnh
Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay một
hệ thống xử lý ảnh trong nghiên cứu, đào tạo, trước hết chúng ta hãy xem xét
các bước cần thiết trong xử lý ảnh.
Hình 2.1. các giai đoạn của một quá trình xử lý ảnh.
Thu nhận ảnh
Ảnh có thể thu nhận qua camera. Thường ảnh thu nhận qua camera là tín
hiệu tương tự [loại camera ống kiểu CCIR], nhưng cũng có thể là tín hiệu số
hoá [loại CCD - Charge Coupled Device]. Ảnh cũng có thể thu nhận từ vệ tinh
qua các bộ cảm ứng hay ảnh, tranh được quét trên scanner. Sau đó được lưu
trữ trong máy tính. Gồm có 2 quá trình:
- Biến đổi năng lượng quang học sang năng lượng điện
- Biến đổi năng lượng điện sang các ma trận.
Xử lí trước
Quá trình xử lí trước thực ra bao gồm nhiều công đoạn nhỏ. Trước hết
là công việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những nguyên
nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay
do nhiễu, ảnh có thể bị suy biến. Do vậy cần phải tăng cường và khôi phục lại
23
ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống
nhất với trạng thái gốc [trạng thái trước khi ảnh bị biến dạng]. Nhằm các mục
đích phục vụ cho các bước tiếp theo.
Những mục đích riêng biệt có thể đặt ra cho quá trình xử lý trước là:
+ Thực hiện điều chỉnh độ chiếu sáng để khắc phục hậu quả của sự
chiếu sáng không đồng đều.
+ Giảm nhỏ thành phần nhiễu.
+ Cải thiện độ tương phản của ảnh màu do khuôn màu không tốt.
+ Hiệu chỉnh độ méo giá trị xám
+ Loại bỏ tính không đồng thể của ảnh gây nên từ tính không đồng bộ
của lớp nhạy quang của hệ thống thu nhận ảnh.
+ Chuẩn hóa độ lớn, dạng và màu.
+ Điều chỉnh bộ lọc để khuyếch đại các tần số với những thông tin
quan trọng được khuyếch đại và nén đi các tần số khác.
Phân đoạn
Là quá trình phân chia các đối tượng cần khảo sát ra khỏi phần nội dung
còn lại của ảnh, phân tách các đối tượng tiếp giáp nhau và phân tách những
đối tượng riêng biệt thành những đối tượng con. Một phương pháp phân đoạn
ảnh là sử dụng một ngưỡng giá trị xám để phân tách ảnh thành đối tượng và
nền [những điểm dưới ngưỡng xám thuộc về nền, ngược lại thuộc về đối
tượng].
Tách ra các đặc tính
24
Dựa trên các thông tin thu nhận được qua quá trình phân đoạn, kết hợp
với các kỹ thuật xử lý để đưa ra các đặc trưng, đối tượng ảnh cũng như các
thông tin cần thiết trong quá trình xử lý. Nhờ các đặc tính có được từ ảnh ta có
thể phân loại các đối tượng khác nhau của ảnh.
Phân loại ảnh
Thực hiện công việc sắp xếp một đối tượng vào một lớp đối tượng cho
trước. Để giải quyết bài toán này thì các đặc tính có ý nghĩa phải được lựa
chọn. Ta tìm thấy các đặc tính có ý nghĩa khi ta phân tích các mẫu được lựa
chọn từ những đối tượng khác nhau.
2.1.2. Mô tả ảnh
Pixel [Picture Element] : phần tử ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ
sáng. Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh.
Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc
thông qua quá trình lấy mẫu [rời rạc hóa về không gian] và lượng hoá thành
phần giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai
điểm kề nhau. Trong quá trình này, người ta sử dụng khái niệm Picture
element mà ta quen gọi hay viết là Pixel - phần tử ảnh. Mỗi Pixel bao gồm
một cặp tọa độ chỉ vị trí [x,y] và một mức xám nhất định. Mật độ Pixel trên
một ảnh số cho ta xác định được độ phân giải của ảnh. Ảnh có độ phân giải
25
càng cao thì càng rõ nét và ngược lại. Ví dụ một ảnh số có độ phân giải là 800
x 600 Pixel nghĩa là có 800 điểm theo chiều ngang và 600 điểm theo chiều
dọc.
Hình 2.2. ví dụ về pixel ảnh
Một số quan hệ cơ bản giữa các pixel
- Gọi f[x,y] là ảnh số, p, q là các điểm ảnh, S là một tập con các điểm ảnh.
a. Quan hệ láng giềng [neighborhood]
Cho điểm ảnh p[x,y]
- Các láng giềng theo hướng đứng, ngang N4[p]: [x+1,y], [x-1,y], [x,y+1],
[x,y-1]
- Các láng giềng theo hướng chéo ND[p]: [x+1,y+1], [x+1,y-1], [x-1,y+1], [x1,y-1]
- Các láng giềng theo 8 hướng N8[p]: N4[p] + ND[p]
26
b. Quan hệ liên thông [Conectivity]
- Quan hệ lien thông giữa 2 pixel là quan trọng bởi vì: nó được sử
dụng để thiết lập các đường biên của đối tượng và các thành phần
của các vùng ảnh.
-
Hai pixel là có quan hệ liên thông với nhau nếu:
+ Chúng là láng giềng của nhau
+ Các giá trị xám của chúng thỏa mãn tiêu chuẩn nhất định về sự
tương đồng.
- Với S p∈ ∀ , thì tập các pixel trong S có liên thông với p thì được
gọi là một thành phần liên thông của S.
- Nếu S chỉ có 1 thành phần liên thông, thì S được gọi là 1 tập liên
thông.
c. Quan hệ lân cận[Adjacency]
Gọi V là tập các giá trị xám dùng để định nghĩa lân cận. Ví dụ V= {1} là
một tập định nghĩa cho lân cận của các pixel có giá trị 1.
- 4-Adjacency: 2 pixel p,q là 4-Adjacency nếu q∈ N4[p]
- 8-Adjacency: 2 pixel p,q là 8-Adjacency nếu q∈ N8[p]
- m-Adjacency: 2 pixel p,q là m-Adjacency nếu:
+ q∈ N4[p] hoặc q∈ ND[p] và N4[p] ∩ ND[p] ∉ V
m-Adjacency là sự cải tiến của 8-Adjacency, nhằm loại bỏ bớt các đường
liên kết kép thường gặp phải khi ta dùng 8-Adjacency.
2 ảnh con S1, S2 được gọi là lân cận nhau nếu: một số pixel trong S1 là
d.
lân cận của một pixel trong S2
Khoảng cách giữa các pixel [Distance Measures]
Cho p[x,y], q[s,t], z[u,v]. D là hàm xác định khoảng cách.
27
+ D[p,q] ≥ 0 [D[p,q]=0 nếu p=q]
+ D[p,q] = D[q,p] và
+ D[p,z] ≤ D[p,q] + D[q,z]
Khoảng cách Euclidean [De Distance]
De[p,q]=
- Các điểm có khoảng cách Euclidean nhỏ hơn hoặc bằng r kể từ [x,y] là nằm
trong đường tròn bán kính r tâm tại [x,y].
2
1
2
1
2
1
0
1
2
1
2
City-Block Distance [D4 Distance]
2
– D4[p,q] = |x-s| + |y-t|
Ví dụ: Tập các pixel với D4 2 ≤ kể từ p[x,y]:
ChessBoard Distance [D4 Distance]
– D8[p,q] = max[|x-s|,|y-t|]
Ví dụ: Tập các pixel với D8 2 ≤ kể từ p[x,y]:
28
2
Rõ ràng là D4, D8 là độc lập với bất cứ các đường [path] tồn tại nối giữa các
điểm. Bởi vì việc tính khoảng cách này ta chỉ quan tâm tới tọa độ của các
điểm [không chú ý đến việc có tồn tại các đường liên thông giữa chúng hay
không].
Mức xám [Gray Level]
Mức xám của điểm ảnh là kết quả sự biến đổi tương ứng một cường độ
sáng của điểm ảnh đó với một giá trị số [kết quả của quá trình lượng hoá].
Cách mã hoá kinh điển thường dùng 16, 32 hay 64 mức. Mã hoá 256 mức là
phổ dụng nhất do lý do kỹ thuật. Vì 28 = 256 [0, 1, ..., 255], nên với 256 mức
mỗi pixel sẽ được mã hoá bởi 8 bit.
Ảnh số
Ảnh số là một tập hợp các điểm ảnh. Khi được số hoá, nó thường được
biểu diễn bởi bảng hai chiều I[n,m]: n dòng và m cột. Ta nói ảnh gồm n x m
pixels. Người ta thường kí hiệu P[x,y] để chỉ một pixel. Tùy theo loại ảnh mà
một pixel có thể lưu trữ trên 1, 4, 8 hay 24 bit.
P[x,y]| x=0..n, y=0..m
Sau đây là ví dụ về một ảnh xám. Bức ảnh được tái hiện bởi 40000 mẫu
sắp xếp trên mảng 2 chiều, 200 cột và 200 dòng. Các mức xám của một Pixel
nằm trong khoảng [0..255]. Với 0 là màu đen, 255 là màu trắng các giá trị
trung gian là màu xám.
29
Hình 2.3. Ví dụ về ảnh xám
Phân loại ảnh
Ảnh số [Image Digital] được thể hiện trên máy tính dưới các dạng khác
nhau tùy theo giá trị mức xám của từng điểm ảnh cũng như sự mã hóa các
điểm ảnh. Dựa vào sự khác nhau đó mà người ta phân ra thành 3 loại ảnh chủ
yếu đó là: ảnh nhị phân, ảnh xám và ảnh màu.
a] Ảnh nhị phân
Ảnh nhị phân chỉ bao gồm hai mức màu phân biệt: màu đen và màu trắng.
Mức xám của tất cả các điểm ảnh chỉ nhận một trong hai giá trị 0 hoặc 1 [0 là
màu đen và 1 là màu trắng]. Với ảnh nhị phân, mỗi Pixel được mã hóa trên
một bit. Sau đây là một ví dụ về ảnh đen trắng với tập hợp 8 x 8 = 64 điểm
30
ảnh.
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
Hình 2.4. Ảnh nhị phân có kích thước 8 x 8.
b] Ảnh đen trắng
Ứng với cấp xám L bằng 2 là ảnh nhị phân. Còn với L lớn hơn 2, ta có ảnh
đen trắng hay còn gọi là ảnh đa cấp xám. Ảnh xám là ảnh mà giá trị xám của
tất cả các điểm ảnh nằm trong khoảng từ [0..255]. Vì 2 8 = 256, nên với 256
mức mỗi Pixel được mã hóa bởi 8 bit [1 byte]. Ví dụ: Ảnh 512 x 512 cần ít
nhất không gian lưu trữ là 512 x 512 Bytes hay 256 Kbytes.
c] Ảnh màu
Thông tin con người thu nhận bằng hình ảnh đều bắt nguồn từ thị giác.
Mắt người có thể phân biệt được rõ nét nhất 3 màu là: Đỏ [Red - R], lục
[Green - G], lam [Blue - B].
31
Ảnh màu nói chung là ảnh tổ hợp từ 3 màu cơ bản: đỏ [R], lục [G], lam [B]
và thường thu nhận trên các giải băng tần khác nhau. Với ảnh màu cách biểu
diễn cũng tương tự như ảnh đen trắng chỉ khác là mỗi Pixel ảnh gồm 3 thành
phần màu P=[red,green,blue]. Mỗi Pixel cần được biểu diễn bằng 3 bytes. Mỗi
màu cũng phân thành L cấp khác nhau [L thường là 256]. Do vậy, để lưu trữ
ảnh màu, người ta có thể lưu trữ từng mặt màu riêng biệt, mỗi màu lưu trữ
như một ảnh đa cấp xám. Do đó không gian nhớ dành cho một ảnh màu lớn
gấp 3 lần một ảnh đa cấp xám cùng kích thước.
2.1.3. Biểu diễn ảnh
Biểu diễn ảnh trong máy tính
Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của
ảnh là pixel. Nhìn chung có thể xem một hàm hai biến chứa các thông tin như
biểu diễn của một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả lôgic hay
định lượng các tính chất của hàm này. Trong biểu diễn ảnh cần chú ý đến tính
trung thực của ảnh hoặc các tiêu chuẩn “thông minh” để đo chất lượng ảnh
hoặc tính hiệu quả của các kỹ thuật xử lý.
Ta cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính.
Nếu lưu trữ trực tiếp ảnh thô theo kiểu bản đồ ảnh, dung lượng sẽ khá lớn, tốn
kém mà nhiều khi không hiệu quả theo quan điểm ứng dụng. Thường người ta
không biểu diễn toàn bộ ảnh thô mà tập trung đặc tả các đặc trưng của ảnh
như: biên ảnh [Boundary] hay các vùng ảnh [Region].. Dưới đây giới thiệu
một số phương pháp biểu diễn. Thường người ta dùng:
- Biểu diễn mã loạt dài [Run - Length Code].
- Biểu diễn mã xích [Chaine Code].
32
- Biểu diễn mã tứ phân [Quad Tree Code].
- Ngoài ra cũng dùng mô hình thống kê .
Các định đạng ảnh
Ảnh thu được sau quá trình số hóa thường được lưu lại phục vụ cho các
quá trình tiếp theo. Trong quá trình phát triển của kỹ thuật xử lý ảnh tồn tại
nhiều định dạng ảnh khác nhau.
-
Ảnh định dạng BITMAP
-
Ảnh định dạng IMG
-
Ảnh định dạng PCX
-
Ảnh định dạng GIF
-
Ảnh định dạng JPEG
Tuy định dạng khác nhau nhưng chúng đều tuân theo một cấu trúc chung
nhất. Nhìn chung một tệp ảnh bất kỳ thường gồm ba phần:
a]
Mào đầu [Header]: Là phần chứa các thông tin về kiểu ảnh,
kích thước, độ phân giải, số bit dùng cho 1 Pixel, cách mã hóa, vị trí bảng
màu…
b]
Dữ liệu nén [Data Compression]: Số liệu ảnh được mã hóa bởi
kiểu mã đã được Header chỉ ra.
c]
Bảng màu [Palette Color]: Bảng màu không nhất thiết phải có
ví dụ khi là ảnh đen trắng. Nếu có bảng màu cho biết số màu dùng trong ảnh
và bảng màu được sử dụng để hiện thị màu của ảnh.
33