So sánh chuẩn nén g711 và pcm năm 2024

Đề số 12: Nén âm thanh tiếng nói thoại theo chuẩn ITU

GVHD: PGS.TS. Nguyễn Thị Hoàng Lan

1

2

Danh sách sinh viên

Khổng Thế Học 20194287 Nguyễn Đình Huy Tân20194368 Đỗ Ngọc Tuân20194398 Nguyễn Tiến Nam20194337

3

Phân công công việc

Khổng Thế Học1.Tìm hiểu chung về tiếng nói thoại, định dạng số, và các chuẩn mã hoá nén ITU-T dùng trong các ứng dụng VoIPNguyễn Đình Huy Tân1.Tổng quan các phương pháp mã hoá tiếng nói thoại Đỗ Ngọc Tuân1.Tìm hiểu sơ đồ mã hoá tiếng nói thoại GSM 06-10Nguyễn Tiến Nam1.Tìm hiểu sơ đồ mã hóa tiếng nói thoại G7262.Cài đặt thực nghiệm mã hoá âm thanh thoại

Giáo viên hướng dẫn : PGS Nguyễn Thị Hoàng Lan Sinh viên thực hiện : Phạm Thành Đạt - 20121503 Đỗ Xuân Cường - 20121358 Nguyễn Trung Dũng - 20121422 Doãn Tuấn Vũ - 20122814 Phạm Minh Tuấn - 20122711

Hà Nội tháng 12/

MỤC LỤC

A- Các phương pháp cơ sở mã hóa âm thanh thoại và ứng dụng trong truyền thông

  1. Tìm hiểu chung về âm thanh thoại

Âm thanh [Sound] là các dao động cơ học của các phần tử, nguyên tử hay các hạt vật chất lan truyền trong không gian, được cảm nhận trực tiếp qua tai người bởi sự va đập vào màng nhĩ và kích thích bộ não. Sóng âm tần được đặc trưng bởi biên độ, tần số [bước sóng] và vận tốc lan truyền. Đối với tai người, âm thanh cảm nhận được bởi sóng có dao động trong dải tần từ 20Hz đến 20kHz. Tín hiệu âm thanh được chia thành 2 loại dựa trên dải tần: - Âm thanh dải tần cơ sở [âm thanh tiếng nói thoại, gọi tắt là âm thanh thoại]: có dải tần từ 300Hz đến 4kHz.

  • Âm thanh dải rộng [tiếng nói trình diễn, hát, âm nhạc...]: có dải tần số từ 100Hz đến 20kHz

Audio là âm thanh được thu nhận, xử lý và tái tạo bởi các thiết bị điện tử, đối tượng truyền thông đa phương tiện. Âm thanh đầu vào của quá trình nén file mp3 là âm thanh dải rộng. Trong báo cáo này chỉ đề cập đến âm thanh tiếng nói thoại. Một số đặc điểm của âm thanh thoại được chỉ ra: - Giới hạn dải phổ tín hiệu, như đã nói ~ 4kHz.

  • Tần số lấy mẫu fs = 8kHz tương đương với chu kỳ Te = 125μs.
  • Lượng tử hóa giá trị với mã hóa 8bit.
  • Tốc độ cần thiết = 8bit x 8kHz = 64Kbit/s
  • Các thành phần chủ yếu của hệ thống mã hóa

Tín hiệu âm thoại tương tự liên tục từ một nguồn cho trước [ speech source] được số hóa qua bộ lọc Filter [ loại bỏ băng tần thừa ở tần số cao],bộ lấy mẫu - sampler [ biến đổi thành tín hiệu rời rạc theo thời gian] và bộ biến đổi tín hiệu tương tự sang dạng số A/D converter và sau đó được mã hóa nén: đó là quá trình mã hóa nguồn. Sau đó, tín hiệu tiếp tục được mã hóa để thêm khả năng chống lỗi và độ ưu tiên để truyền dẫn qua một kênh[ mã hóa kênh – channel encoder]

Sau khi qua một kênh, tại đầu thu, bộ giải mã kênh [ channel decoder] sẽ tách và sửa những lỗi trong quá trình truyền dẫn và được giải nén bởi bộ giải mã nguồn [ source decoder] rồi cho tìn hiệu ra thông qua D/A conventer và Filter. Tín hiệu ra có thể không giống tín hiệu ban đầu hoặc không tùy vào quá trình nén [ không tổn thất hoặc bị tổn thất]

Hình 1. Hệ thống mã hóa tiếng nói

Ứng dụng trong truyền thông:

Tín hiệu số có nhiều ưu điểm hơn so với tín hiệu tương tự trong việc truyền dẫn và xử lí tín hiệu nhất là khả năng chống lỗi đường truyền. Do đó, Hệ thống mã hóa dùng để nén tiếng nói thoại là cần thiết cho các ứng dụng như điện thoại di động và các ứng dụng cho phép truyền dữ liệu tốc độ thấp, hay các ứng dụng truyền thoại qua IP [VoIP], thoại hội nghị... để có thể giảm băng thông sử dụng trên mạng internet

3. Các phương pháp mã hóa tiếng nói Mã hóa tiếng nói gồm 3 phương pháp chính: 3ương pháp mã hóa tín hiệu dạng sóng [waveform] ,

  • Mã hóa dạng sóng là kỹ thuật duy trì hình dạng ban đầu cả các sóng tín hiệu.

Nguyên lý của mã hóa dạng sóng : Tại phía phát sẽ nhận tín hiệu tiếng nói tương tụ liên tục và mã hóa thành tín hiệu số. Tại phía thu, bộ giải mã đảm nhận nhiệm vụ ngược lại để khôi phục tiếng nói, khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục sẽ giống vơi tiếng nói gốc

  • Bao gồm 2 loại chính:

Mã hóa trong miền thời gian : bao gồm các chuẩn từ G đến G.

o Mã hóa điều xung mã Pulse Code Modulation – PCM – lương tử hóa đã được chuẩn hóa với chuẩn G.

  • Mô hình này cố gắng giảm tối đa độ sai lệch với dạng sóng của tín hiệu vào bằng cách tìm kiếm tín hiệu kích thích ký tưởng
  • Thuật toán tìm ra sóng kích thích này quyết định độ phức tạp của bộ mã hóa.

o Các loại mã hóa lai khác nhau theo kỹ thuật phân tích tạo ra tín hiệu kích thích CELP, RPE-LTP, MPE...

Đánh giá chung về 3 phương pháp:

 Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt

ở tốc độ bit dưới 16Kbps. Nhưng tiếng nói nhận được khá giống với tiếng nói ban đầu  Mã hóa Vocoder có thể đạt được tốc độ bit rất thấp nhưng tiếng nói nhận

được là tiếng nói tổng hợp không giống với tiếng nói ban đầu.  Mã hóa lai cải thiện được các nhược điểm của mã hóa sóng và mã hóa

nguồn, nhưng tương đối phức tạp thường được dùng theo chuẩn GSM.

B- Khảo sát một số chuẩn mã hóa nén âm thanh thoại theo chuẩn ITU -

GSM và phân tích các ứng dụng thực tế của chuẩn ITU Asterisk là một nền tảng mở mạnh mẽ cho việc xây dựng các ứng dụng đa phương tiện

  • Viết trên ngôn ngữ C chạy trên hệ điều hành linux
  • Thực hiện tất cả các tính năng của tổng đài PBX và hơn nữa về các dịch vụ gia tăng
  • Hiện nay Asterisk đang trên đà phát triển và được rất nhiều doanh nghiệp triển khai ứng dụng.
  • SIP Asterisk hỗ trợ các codec theo chuẩn ITU: G m-law/a-law, G, G.723, G, G.
  • Trong môi trường thực hành của bộ môn phần mềm ekiga có đỗ trợ các chuẩn GSM 06, MS-GSM G m-law/a-law, G, G.723, G, G, GSM-ARM.

1. Chuẩn G.

G là 1 chuẩn nén –giãn âm thanh của ITU-T thường được sử dụng ở điện thoại .Chuẩn được đưa sử dụng vào năm 1972ên chính thức của chuẩn G là phương pháp điều biến mã xung cho tần số giọng nói “Pulse Code Modulation _PCM” có 2 phiên bản là Uu-law sử dụng cho Bắc Mỹ và Nhật Bản và a-law sử dụng cho các quốc gia còn lại. Chuẩn G được khuyên dùng bởi nhiều công nghệ khác như H ,

  1. G là bộ codec đặc trưng cho mã hóa dạng sóng .G yêu cầu cung cấp bang thông 64kbit/s truyền tín hiệu thoại trong khoảng từ 300-3400Hz và lấy mẫu chúng với tốc độ 8000 mẫu/s .Về sau có phát triển thành 2 phiên bản G.711 và G.711 bổ sung về phương pháp nén dữ liệu để giảm bang thông và tang chất lượng âm thanh.

Ứng dụng thực tế:

  • G là chuẩn ITU-T dùng cho thoại cho các tổng đài , được phát hành chính thức vào năm 1972
  • G trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở bang tần thoại ,tần số lấy mẫu là 8000 mẫu trong 1 s
  • Có 2 thuật chính thức được được định nghĩa trong chuẩn này là , giải thuật μ-law dung cho khu vực Bắc Mỹ, Nhật và giải thuật A-law dùng cho khu vực châu Âu và những nước còn lại
  • 2 giải thuật được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và A- law là 13-bit với mẫu 8-bitư vậy bộ mã hóa G sẽ tạo được luồng dữ liệu bit có tốc độ 64kbit/s với tần số lấy mẫu là 8kHz
  • G thường được sử dụng trong Voice over Internet Protocol [VoIP], còn được gọi là điện thoại Internet.

2. Chuẩn G

G là chuẩn codec âm thanh dải rộng của ITU-T hoạt động ở đa dạng bang thông là 48 , 56 và 64kbit/s được công bố năm 1988 cải tiến sử dụng công nghệ codec băng con ADPCM .Trong bộ mã hóa băng con tín hiệu được chia mỗi băng tần sử dụng 1 bộ lọc và bộ mã hóa băng con sử dụng số liệu thống kê để mã hóa tín hiệu trong mỗi băng tần sử dụng số lượng khác nhau của các bit. Tiêu chuẩn G ITU sử dụng chủ yếu ở hội nghị qua điện thoại , ngoài ra còn được sử dụng trong hệ thống truyền thông không dây , dịch vụ thông tin liên lạc cá nhân

Ứng dụng thực tế:

  • Là chuẩn ITU-T dung cho mã hóa tiếng nói bang tần rộng hoạt động với tốc độ truyền 32-64 kbit/giây .Công nghệ mã hóa dựa trên việc phân chia bang tần ADPCM
  • Chuẩn G và dữ liệu mẫu âm thanh 16kHz, gấp đôi tốc độ xử lý tại các giao tiếp thoại truyền thông, kết quả chất lượng thoại tốt hơn
  • Chuẩn G được các nhà cung cấp VOIP sử dụng.

dạng đều hoạt động ở băng tần thấp và ngày nay người ta phát triển chuẩn G.729 hoạt động ở băng tần rộng.

Ứng dụng thực tế:

  • Là 1 giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm thanh với khung 10 mili giây
  • Đa số dung trong các ứng dụng Voice overIP với yêu cầu bang tần thấpẩn G hoạt động với tốc độ 8kbps[6 vs 11]
  • G, G. Những năm gần đây G được nghiên cứu để mở rộng cho tín hiệu bang tần rộng [G.729]

6. Chuẩn GMS

GSM là hệ thống thông tin di động toàn cầu [global system for mobile communications] là 1 công nghệ dùng cho mạng thông tin di động .Dịch vụ GSM được sử dụng cho hơn 2 tỷ người trên 212 quốc gia và vùng lãnh thổ[ thống kê năm 2012 ].Các mạng thông tin di động GSM cho phép giao tiếp với nhau cho nên nó được sử dụng rộng rãi ở các vùng lãnh thổ GSM là chuẩn phổ biến của điện thoại di động. GSM khác với các chuẩn tiền thân của nó về cả tín hiệu , tốc độ , chất lượng cuộc gọi .Nó được xem như hệ thống điện thoại di động thế hệ thứ 2 .GSM là chuẩn mở được phát triểnận lợi là khả năng triển khai thiết bị từ nhiều người cung cấp .Một số đặc tính của GSM là: -Nói chuyện quốc tế -Chất lượng thoại cao -Tính bảo mật cao -Giá thành rẻ -Tiện lợi -Nhiều dịch vụ mới -tương thích cao Hiện nay có 5 bộ mã hóa của GSM bao gồm : 1 Full-Rate codec 2 Half-Rate codec 3 Enhanced Full-Rate codec 4 Adaptive Multi-Rate codec 5 Adaptive Multi Wideband –Rate codec -Bộ FR codec là bộ mã hóa đầu tiên của GSM .Được sử dung lần đầu vào năm 1989 nó sử dụng 13kbit/s cho mã hóa âm thoại và 9 kbit/s cho mã hóa kênh .FR là bộ codec mặc định cho cung cấp dịch vụ thoại GSM. -Bộ HR codec tiết kiệm dung lượng kênh. hoạt động ở 5/s cho mã hóa thoại và 5/s cho mã hóa kênh chất lượng thoại vấn như chuẩn codec FR.

-Bộ ERF codec được sử dụng đầu tiên ở Mỹ vào năm 1996 sử dụng 12. kbit/s mã hóa âm thoại và 10/s mã hóa kênh -Bộ AMR codec là sự phát triển vượt bậc của GSM đây là bộ mã hóa mặc định cho chế độ 3G. -Bộ AMR-WB codec là bộ mã hóa cuối cùng gần nhất đặc trưng cho

thoại 3G, băng tần rộng giúp cải tiến chất lượng âm thanh thoại

Ứng dụng thực tế:

  • "libgsm" đã được phát triển 1992-1994 của Jutta Degener và Carsten Bormann, sau đó tại Technische Universität Berlin dựa vào chuẩn GSM 06.
  • Các codec libgsm miễn phí có thể mã hóa và giải mã GSM Full Rate âm thanh
  • Ngoài ra còn có một plugin Winamp cho GSM 06,10 dựa trên libgsm
  • Các GSM 06,10 cũng được sử dụng trong phần mềm VoIP, ví dụ như trong Ekiga, QuteCom, Linphone, Asterisk [PBX], Ventrilo và những phần mềm khác.

C- Phân tích một sơ đồ nén tiếng nói thoại theo chuẩn G và nhận xét

ảnh hưởng của chất lượng âm thanh trong dịch vụ VOIP

Tín hiệu đầu vào đưa qua bộ tiền xử lý, bộ này có hai chức năng: lọc thông cao và tính toán tín hiệuín hiệu đầu ra bộ tiền xử lý là tín hiệu đầu vào của các khối tổng hợp tiếp sau đó. Sự tổng hợp dự báo tuyến tính [LP] được thực hiện một lần trong khung 10 ms để tính các hệ số của bộ lọc dự báo tuyến tính [LPC]. Các hệ số này được biến đổi thành các cặp vạch phổ [LSP] và được lượng tử bằng phương pháp lượng tử hóa vectơ dự báo hai bước [VQ] 18 bit. Các tham số kích thích gồm bảng mã cố định và bảng mã thích ứng được xác định qua từng khung con 5ms [tương đương 40 mẫu]. Các hệ số của bộ lọc LP đã được lượng tử và chưa được lượng tử được sử dụng cho phân khung thứ 2, còn tại phân khung thứ nhất các hệ số của bộ lọc LP đã được nội suy sẽ được sử dụng [ trong cả hai trường hợp đã được lượng tủ và chưa]. Độ trễ bước mạch vòng hở sẽ được tính toán một lần trong một khung 10ms dựa trên độ lớn tín hiệu thoại. Tín hiệu ban đầu x[n] được tính bằng các lọc độ dư LP thông qua bộ lọc tổng hợp W[z]/A[z]. Trạng thái ban đầu của bộ lọc này là tín hiệu lỗi hiệu dư LP và tín hiệu kích thích. Sự phân tích bước của mạch vòng đóng sẽ thực hiện sau đó [để tìm độ trễ mã thích ứng và độ khuếch đại] dùng tín hiệu ban đầu x[n] và đặc tuyến xung h[n], bằng cách làm tròn giá trị độ trễ bước của mạch vòng hở. Độ trễ bước được mã hóa bằng mã 8 bit trong phân khung thứ nhất, độ vi sai của độ trễ được mã hóa bằng mã 5 bit trong phân khung thứ 2. Tín hiệu x’[n] là tín hiệu của 2 tín hiệu: tín hiệu ban đầu x[n] và tín hiệu mã thích ứng – là tín hiệu mã cố định. Tín hiệu này được dùng trong việc tìm kiếm tín hiệu kích

thích tối ưu. Giá trị kích thích mã cố định được mã hóa bằng mã đại số 17 bit [ trong đó chỉ số bảng mã cố định được mã hóa băng tự mã C1, C2-12 bit. Dấu bảng mã cố định được mã hóa bằng từ mã S1, S2-3 bit ]. Các bộ khuếch đại bảng mã cố định và bảng mã thích ứng được lượng tử hóa bằng vector 7 bit, trong đó ở bước 1 được mã hóa bằng từ mã GA1, GA2- 3bit. ở bước 2 được mã hóa bằng từ mã GB1, GB2- 4bit. Tại đây, sự dự đoán trung bình động MA [Moving Average] cho bộ khuếch đại mã cố định, cuối cùng, dựa vào các bộ nhớ lọc sẽ xác định tín hiệu kích thích. Phân tích dự đoán tuyến tính: Sử dụng bộ lọc thực hiện 10ms cho mỗi khung.

Sử dụng cửa sổ để phân tích LP: w[n]=

Nguyên lý của bộ giải mã CS-ACELP:

Đầu tiên, các chỉ số của các tham số được trích ra từ luồng bit thu. Các chỉ số này sẽ được giải mã để thu lại các tham số của bộ mã hóa trong 1 khung tiếng nói 10 ms. Các tham số đó là các hệ số LSP, 2 phần độ trễ bước [ độ trễ bước và độ vi sai của độ trễ bước], 2 vecto bảng mã cố định [ chỉ số mã cố định và chỉ số bảng mã cố định ] và tập hợp độ khuếch đại bảng mã cố định và bảng mã thích ứng. Các hệ số LSP được nội suy và được chuyển thành các hệ số bộ lọc LP cho mỗi phân khung, sau đó, cứ mỗi phân khung thự hiện các bước tiếp theo. Giá trị kích thích được khôi phục là tổng của vecto bảng mã cố định và bảng mã thích ứng nhân với các giá trị khuếch đại tương ứng của chúng. Tiếng nói được khôi phục bằng cách lọc giá trị kích thích này thông qua bộ lọc tổng hợp LP. Tín hiệu tiếng nói khôi phục đưa qua bước xử lý trạm, bao gồm bộ lọc thích ứng dựa trên cơ sở các bộ lọc tổng hợp ngắn hạn và dài hạn, sau đó qua bộ lọc thông cao và bộ nâng tín hiệu. Độ trễ: Kích cỡ khung:10ms. Tiêu đề: 5ms.

2. Ảnh hưởng của chất lượng âm thanh trong dịch vụ VoIP: 2 Kịch bản – Thực hiện:

truyền thống. Chuẩn G giải quyết được vấn đề là giảm băng thông xuống mức cho phép mà vẫn đảm bảo chất lượng thoại

Chủ Đề