Phuương pháp đánh giá mos mean opinion score năm 2024

The Mean Opinion Score (MOS) is a measurement of the voice quality of an interaction. The calculation of MOS uses an industry standard measurement methodology to rank audio quality from 1 (unacceptable) to 5 (excellent). You can view the MOS values in the Interactions tools in Genesys Cloud. For more information, see the Filter by interaction details section of Interactions view, Agents Interactions Details view, or the Queues Interactions Detail view.

MOS values and meaning

The following table summarizes the impact to the listener by whole number score.

Rating Label 5 Excellent 4 Good 3 Fair 2 Poor 1 Bad

Note: For a call with 3 legs (station leg, edge-to-edge leg, and PSTN leg), Genesys Cloud uses the lowest MOS for the interaction’s score.

For detailed information on the logic behind the calculations that are used to derive the MOS, see An Analysis of the MOS under Conditions of Delay, Jitter and Packet Loss and an Analysis of the Impact of Introducing Piggybacking and Reed Solomon FEC for VOIP.

Đây là bài cuối cùng trong chuỗi 6 bài về Audio Deep Learning. Trong bài này, chúng ta sẽ tổng hợp lại các kiến trúc mô hình DL để giải quyết bài toán Speech Synthesis.

Speech Synthesis là bài toán sinh ra Speech từ một văn bản cho trước. Một số ứng dụng của nó như: tổng đài trả lời tự động, đọc báo tự động, …

Trước khi các kỹ thuật DL phát triển, đã có một vài phương pháp truyền thống được đưa ra để giải quyết bài toán này. Nổi bật trong số đó là 2 phương pháp Concatenation Synthesis và Parametric Synthesis. Cũng giống như nhiều bài toán khác, các phương pháp này thường mang lại hiệu quả không cao, khó áp dụng được vào thực tế. Với sự bùng nổ của kỷ nguyên AI trong thời đại ngày nay, có khá nhiều kiến trúc mô hình DL được đề xuất cho bài toán này. Chúng ta sẽ lần lượt tìm hiểu về chúng ngay sau đây.

1. Metric đánh giá DL model

Trước khi đi vào tìm hiểu chi tiết từng kiến trúc mô hình DL, chúng ta nên biết qua về Metric dùng để đánh giá các mô hình này. Metric đó có tên là Mean Opinion Score (MOS). Nó xuất phát từ lĩnh vực viễn thông (Telecommunication), có dải giá trị từ 0 đến 5, tương ứng với chất lượng âm thanh tăng dần. Về bản chất, MOS là trung bình ý kiến đánh giá của nhiều người đối với âm thanh đó. Hãy nhớ lại, khi chúng ta thực hiện cuộc gọi audio/video qua ứng dụng Skype hoặc Facebook, sau khi kết thúc cuộc gọi luôn xuất hiện màn hình yêu cầu chúng ta đánh giá chất lượng cuộc gọi đó. Khi thu thập được đủ số lượng ý kiến đánh giá, nhà phát triển sẽ tính toán ra được MOS.

Dưới đây là bảng so sánh MOS của một số kiến trúc mô hình từ trang paperwithcode

Phuương pháp đánh giá mos mean opinion score năm 2024

7. Kết luận

Như vậy là chúng ta đã kết thúc bài thứ 5 tại đây. Qua bài này, chúng ta đã hiểu được phần nào rõ hơn về bài toán ASR, từ kiến trúc cho đến cách làm việc

Trong bài tiếp theo, bài cuối cùng trong chuỗi bài về Audio Deep Learning, chúng ta sẽ tìm hiểu một số thuật toán, kiến trúc mô hình của bài toán tổng hợp tiếng nói - Speech Synthesis hay Text-to-Speech. Mời các bạn đón đọc.

8. Tham khảo

[1] Ketan Doshi, “Audio Deep Learning Made Simple: Automatic Speech Recognition (ASR), How it Works”, Available online: https://towardsdatascience.com/audio-deep-learning-made-simple-automatic-speech-recognition-asr-how-it-works-716cfce4c706 (Accessed on 05 Jun 2021).

[2] Scott Duda, “Urban Environmental Audio Classification Using Mel Spectrograms”, Available online: https://scottmduda.medium.com/urban-environmental-audio-classification-using-mel-spectrograms-706ee6f8dcc1 (Accessed on 05 Jun 2021).

A Mean Opinion Score (MOS) is a numerical measure of the human-judged overall quality of an event or experience. In telecommunications, a Mean Opinion Score is a ranking of the quality of voice and video sessions.

Most often judged on a scale of 1 (bad) to 5 (excellent), Mean Opinion Scores are the average of a number of other human-scored individual parameters. Although originally Mean Opinion Scores were derived from surveys of expert observers, today a MOS is often produced by an Objective Measurement Method approximating a human ranking.


Generically, a Mean Opinion Score can be employed anywhere human subjective experience and opinion is useful. In practice, it is often used to judge digital approximations of world phenomena.

Commonly employed domains where Mean Opinion Score is applied include static image compression (e.g. JPG, GIF), audio codecs (e.g. MP3, Vorbis, AAC, Opus) and video codecs (e.g. H.264, VP8). It is also very commonly employed in streaming sessions where network effects can degrade communications quality.


Mean Opinion Scores, as commonly used today, originated from polls of test subjects listening to audio or observing video. A number of current standards can be traced back to expert listeners and observers in distraction free quiet rooms subjectively logging experience scores. A MOS itself is a metascore, averaged from a number of individual components of session quality.

Nowadays, audio and video communications isn't scored by a panel of individuals, but by a number of algorithms (*Objective Measurement Methods)*that attempt to approximate human experience. ITU-T's P.800.1(link takes you to an external page) discusses objective and subjective scoring of telephone transmission quality, while recommendations such as P.863(link takes you to an external page) and J.247(link takes you to an external page) cover speech and video quality, respectively.

The most commonly used rating scale is the Absolute Category Ranking (ACR) scale, which ranges from 1 to 5. The levels of the Absolute Category Ranking are:

5 Excellent4 Good3 Fair2 Poor1 Bad

Due to the human tendency to avoid perfect ratings (now reflected in the objective approximations), somewhere around 4.3 - 4.5 is considered an excellent quality target. On the low end, call or video quality becomes unacceptable below a MOS of roughly 3.5.


All links in the chain from sender to receiver can cause a drop in mean opinion score. Everything from a human's health to audio and video equipment to computer settings can cause a degradation in communications quality. However, network effects are most readily apparent and measurable on these calls - jitter, latency, and packet loss lend themselves to numerical measurement, and have a direct effect on perceived call quality.


Twilio monitors average call quality over time and other metrics such as packet loss, round trip time, and jitter in the Voice Insights API. Sustained high jitter, packet loss, or round trip time, or a low mean opinion score will raise an event with a warning. Warnings are only cleared when measures improve for a specific amount of time; current event thresholds can be seen here.