La IA en la producción y distribución de contenidos audiovisuales

, noviembre 2023

Introducción

El uso de la IA en los contenidos audiovisuales ya es una realidad. Plataformas como la de Watchity, actualmente, son capaces de ofrecer un servicio end to end de producción, gestión y distribución de contenido audiovisual basado en la nube. La ventaja de tener un servicio integral en la nube es que permite de forma fácil tener el control completo de la gestión y la distribución de todos los contenidos de una empresa o institución de forma fácil y escalable. De esta forma, cualquier empresa de pequeño o gran tamaño fácilmente puede disponer de una plataforma integral de vídeo sin la necesidad de grandes inversiones.

Los recientes avances que se han producido en el campo de la inteligencia artificial (IA) han supuesto un impacto en las nuevas formas de crear y gestionar contenido. La integración de nuevas tecnologías de IA en una plataforma integral en la nube abre la puerta a un gran número de mejoras en la productividad del que usa la plataforma así como en los nuevos servicios que puede ofrecer a su audiencia. En este artículo vamos a repasar algunos de los avances que supone la IA en este contexto.

Tecnologías de IA aplicadas al contenido audiovisual

A continuación vamos a repasar algunas de las tecnologías de inteligencia artificial que pueden ser clave para la gestión y producción de contenido. Las podemos dividir en tres grandes bloques: las que se aplican al contenido visual, las que tienen que ver con el contenido de audio, y otras mejoras generales que se pueden obtener como combinación de ambas.

Aplicación de IA sobre el contenido visual

La aplicación de técnicas de IA sobre el contenido visual permite la detección e identificación de elementos visuales. A continuación, tenemos algunos ejemplos:

Detección facial: permite detectar rostros en transmisiones de vídeo. Puede ser utilizado, por ejemplo, para mejorar el encuadre de la imagen centrándola en el rostro (un error que se produce típicamente cuando el participante no es profesional del medio y/o utiliza una webcam).
Detección de objetos, escenas y actividades: Puede ser utilizado para etiquetar el vídeo para su futura gestión, o para identificar elementos a partir de los cuales enlazar otros contenidos (links, banners, vídeos, etc.), sean o no publicitarios.
Reconocimiento de celebridades o individuos de una base de datos: puede permitir el etiquetado automático, el titulado en pantalla automático, la inserción de contenido de texto, links o vídeos relacionados con la persona, etc.
Reconocimiento visual de texto (OCR): extracción y reconocimiento del texto que aparece en vídeos, como carteles, vallas publicitarias, marcas, títulos, etc.
Análisis de vídeo detallado: análisis del vídeo para detectar fotogramas negros, cambios de plano, títulos de créditos, fotogramas clave, extracción de los mejores thumbnails, etc.

Aplicación de IA sobre el contenido de audio

La aplicación de técnicas de IA sobre el contenido de audio permite muchas resolver un amplio abanico de necesidades gracias al procesado del texto obtenido mediante la transcripción de voz a texto (Automatic Speech Recognition, ASR). A continuación, se mencionan algunos ejemplos:

Conversión de voz a texto: transcribiendo automáticamente las palabras habladas en un vídeo en varios idiomas.
Traducción: traducción de las transcripciones a varios idiomas para una mayor accesibilidad al contenido.
Reconocimiento de oradores: identificación y etiquetado de diferentes oradores, obtención de métricas sobre quién habló y cuánto, etc.
Extracción de palabras clave: extracción e indexación de palabras clave del contenido hablado o visual para mejorar las capacidades de búsqueda y navegación.
Efectos de audio: reconocimiento y etiquetado de sonidos de audio en el contenido, como aplausos, palabras, silencio, etc.

Aplicación de IA sobre el contenido de audiovisual

A un nivel superior, combinando audio y video, la IA puede permitir la extracción de características de alto nivel sobre el contenido:

Análisis de sentimientos: análisis del sentimiento a lo largo de un vídeo como positivo, negativo y neutral.
Detección de emociones: detección y etiquetado de las emociones humanas que surgen en un contenido como tristeza, ira, alegría, etc.
Reconocimiento de marcas: identificación de las marcas que aparecen visualmente o se pronuncian en un vídeo.
Identificación de temas: identificación y etiquetado de diferentes temas que ocurren en el contenido, como arte, ciencia, deportes, etc.

Aplicaciones de la IA en Watchity

Del conjunto de posibles aplicaciones de la IA que se han mencionado en el apartado anterior, en Watchity estamos trabajando en primer lugar en incorporar las mejoras que la IA ha introducido en el campo del ASR (Automatic Speech Recongnition) y sus aplicaciones a la gestión y producción audiovisual.

Actualmente es relativamente fácil obtener una transcripción completa del contenido de, por ejemplo, un webinar o una presentación de producto. Dicha transcripción puede contener las marcas de tiempo asociadas al vídeo. Con esta simple combinación ya podemos disponer de:

Una transcripción completa de lo que se ha hablado en el evento.
Disponer del vídeo del evento bajo demanda con subtítulos.

A partir de la simple transcripción y de los subtítulos se irán añadiendo complejidad con distintos elementos complementarios:

Diarización: por diarización se entiende el proceso de segmentación del texto reconocido en función del hablante. De esta forma la transcripción queda bien estructurada indicando el hablante en cada momento. Se puede usar un código de colores para identificar al hablante y así ayudar a las personas con discapacidad auditiva. Alternativamente, se puede acompañar el texto de trascripción con una etiqueta que indique el nombre del hablante en cada frase.
Traducción: una vez el texto se ha transcrito, también es posible su traducción a casi cualquier idioma mediante modelos de inteligencia artificial, obteniendo así todos los servicios mencionados anteriormente, pero con múltiples idiomas. Siendo especialmente útil el caso de los subtítulos multi-idioma para la difusión internacional de contenido.
Tiempo-real: las características anteriores se pueden implementar en tiempo-real, gracias al uso de servidores en la nube con capacidad de proceso mediante GPUs (Graphic Processing Units). Obviamente, parámetros como el Word Error Rate (WER, tasa de error de por palabra) y la latencia se ven afectados si se transcribe en tiempo-real, pero los resultados pueden ser todavía muy útiles para transmisiones en directo con el añadido de subtítulos multi-idioma en tiempo real.
“Sumarización”: Gracias a las técnicas de IA, es posible efectuar un resumen (summary en inglés) en formato texto de lo que se ha comentado en el webinar. Este resumen se puede estructurar por hablante y, por ejemplo, disponer de un resumen de lo que un hablante en concreto ha comentado en general o incluso qué es lo que ha comentado a propósito de un aspecto concreto.

Gracias a las tecnología de transcripción con sus distintas mejoras, plantearemos los siguientes servicios de soporte para la gestión y producción audiovisual:

Búsqueda inteligente: la transcripción del contenido tiene valores añadidos, como la búsqueda de palabras que, al estar sincronizadas en el tiempo, permite identificar, por ejemplo, todos los segmentos de video que contengan dicha palabra y en qué punto concreto del video se menciona, haciendo de esta forma la gestión del contenido mucho más ágil y efectiva.
Etiquetado automático: las tareas de etiquetado e introducción de metadatos en los sistemas de gestión de contenido son a menudo los más laboriosos y en su defecto incompletos. Un proceso de transcripción automática seguida de extracción automática de palabras clave puede facilitar este proceso para una posterior clasificación del contenido en la base de datos.
Soporte a la edición: si tenemos en cuenta que disponemos de una transcripción diarizada y sincronizada del contenido, fácilmente podemos imaginar un editor de video que consista en la simple selección de frases dentro del texto transcrito. Acelerando el proceso de edición manual gracias al acceso instantáneo del texto de lo que se habla en cada momento.
Resumen automático del vídeo: Una variante mejorada de lo anterior es la extracción de frases relevantes de la transcripción y que automáticamente se seleccionen los cortes asociados y se genere una edición automática del vídeo con el contenido más relevante.
Realización automática: en un entorno de realización de eventos con varios interlocutores y posibles contenidos e interacciones, la detección de palabras clave en tiempo real dan lugar a la posibilidad de automatizar eventos de realización, como el lanzamiento de carátulas, vídeos, encuestas, resultados, etc., simplemente por la activación por voz del presentador.

Conclusión

La Inteligencia Artificial ha irrumpido en nuestra sociedad en múltiples aspectos. En una plataforma de gestión, producción y distribución de contenido audiovisual en la nube como la de Watchity, representa una oportunidad para la mejora de la productividad de sus clientes en la gestión del contenido, en la automatización de la producción y en la distribución de nuevo contenido enriquecido para la audiencia. Son ejemplos de estas mejoras la búsqueda inteligente, la subtitulación automática multi-idioma en tiempo real o el resumen automático de vídeos.

Comparte esta entrada

Vuelve al inicio

Suscríbete a nuestra newsletter

Obtén recursos gratuitos en tu bandeja de entrada.