Desarrollo de una herramienta para la evaluación objetiva de la calidad de video empleando redes neuronales
Loading...
Date
2024-09-23
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad de Cuenca
Abstract
Video quality assessment is essential for determining the appropriate compression of a video
file or its real-time transmission. The developed tool allows for the selection of quality (Quantization Parameter (QP)), temporal (Frame Per Second (FPS)), and spatial (Bit-rate) scalability parameters, comparing traditional metrics like Peak Signal-to-Noise Ratio (PSNR) and
Structural Similarity Index (SSIM) with the Perceptual Image Patch Similarity (LPIPS) metric,
which uses neural networks (VGG, AlexNet, and SqueezeNet). The experiments included a
two-phase subjective evaluation. In the first phase, participants evaluated videos encoded with
the same scalability parameter, establishing a relationship between visual perception and the
metrics. Results showed that an .excellent”subjective evaluation corresponded to a PSNR of
44.2 dB, an SSIM of 0.99, and an LPIPS of 0.0 with AlexNet, 0.01 with SqueezeNet, and 0.02
with VGG for quality scalability. In the second phase, different participant groups evaluated
the same videos with various scalability parameters, preferring quality scalability at high parameters and spatial scalability at intermediate parameters. Additional experiments validated
the metrics against human perception, applying distortions such as blurring, Poisson noise, and
salt-and-pepper noise. Results indicated that LPIPS is more sensitive to human perception, with
percentage values starting from 73.64 %, compared to SSIM (-24.9 %) and PSNR (-14.17 %).
The main contribution of this work is the development of a tool that facilitates research and
learning in video quality assessment through both objective and subjective approaches.
Resumen
La evaluación de calidad de video es esencial para determinar la compresión adecuada de un
archivo de video o su transmisión en tiempo real. La herramienta desarrollada permite seleccionar parámetros de escalabilidad de calidad (Quantization Parameter (QP)), temporal (Frame
Per Second (FPS)) y espacial (Bit-rate), y comparar métricas tradicionales como Peak Signalto-Noise Ratio (PSNR) y Structural Similarity Index (SSIM) con la métrica Perceptual Image
Patch Similarity (LPIPS), que utiliza redes neuronales (VGG, AlexNet y SqueezeNet). Para
los experimentos, se realizó una evaluación subjetiva en dos fases. En la primera fase, los
participantes evaluaron videos codificados con el mismo parámetro de escalabilidad, estableciendo una relación entre la percepción visual y las métricas. Los resultados mostraron que
una evaluación subjetiva de excelente correspondía a un PSNR de 44.2 dB, un SSIM de 0.99
y un LPIPS de 0.0 con AlexNet, 0.01 con SqueezeNet y 0.02 con VGG para la escalabilidad de
calidad. En la segunda fase, diferentes grupos de participantes evaluaron los mismos videos
con diversos parámetros de escalabilidad, indicando una preferencia por la escalabilidad de
calidad con parámetros altos y por la escalabilidad espacial con parámetros intermedios. Tres
experimentos adicionales validaron las métricas frente a la percepción humana, aplicando distorsiones como difuminado, ruido de Poisson y ruido sal y pimienta. Los resultados mostraron
que LPIPS es más sensible a la percepción humana, con valores porcentuales desde 73.64 %,
comparado con SSIM (-24.9 %) y PSNR (-14.17 %). La principal contribución de este trabajo es
el desarrollo de una herramienta que facilita la investigación y el aprendizaje en la evaluación
de la calidad de video mediante un enfoque tanto objetivo como subjetivo.
Keywords
Electrónica, Redes neuronales, Inteligencia artificial, Percepción visual
Citation
Código de tesis
TET;164
Código de tesis
Grado Académico
Ingeniero en Telecomunicaciones
