yt2doc – Para transcribir tus vídeos a documentos Markdown

¿Estás cansado de pasar horas transcribiendo tus vídeos de YouTube a mano? ¿O tal vez estás buscando una forma eficaz de convertir tus podcasts en publicaciones de blog? Bueno, tengo buenas noticias para ti: yt2doc ¡Está aquí para optimizar su flujo de trabajo!

Es una herramienta que puede convertir automáticamente cualquier vídeo o podcast de YouTube en un documento Markdown perfectamente estructurado, con párrafos, capítulos e incluso títulos generados por IA.

Desarrollada por el talentoso Shun Liang, esta herramienta de código abierto es un verdadero asistente virtual para todos los creadores de contenido, periodistas, estudiantes o simplemente curiosos que deseen aprovechar al máximo los recursos de audio y vídeo disponibles en línea. Además, yt2doc está diseñado para funcionar completamente localmente, sin depender de API externas, lo que garantiza la confidencialidad de sus datos.

yt2doc depende del poder de Susurroel modelo de reconocimiento de voz desarrollado por OpenAI. Gracias a él, la herramienta es capaz de transcribir el contenido de audio de tus vídeos o podcasts con notable precisión. pero donde yt2doc Lo que realmente destaca es el posprocesamiento de esta transcripción en bruto.

De hecho, la mayoría de las herramientas de transcripción existentes están orientadas principalmente a generar subtítulos y, a menudo, proporcionan un bloque continuo de texto sin saltos de línea ni segmentación, lo que dificulta la lectura. Whisper, por ejemplo, no genera saltos de línea en sus transcripciones. Sin posprocesamiento, terminarás con un enorme bloque de texto no digerible.

yt2docpor su parte, prioriza la legibilidad. Va más allá al estructurar el contenido de forma inteligente para crear un documento fácil de leer. Para ello utiliza Segmentar cualquier texto (SaT)una biblioteca especializada en segmentación de texto. Gracias a él, tu transcripción se divide automáticamente en frases y párrafos lógicos, lo que hace que la lectura sea mucho más agradable y natural. Además, tiene la opción de personalizar la plantilla SaT utilizada según sus preferencias.

Y si su vídeo aún no tiene capítulos (como suele ser el caso de los podcasts, por ejemplo), yt2doc Puede utilizar un modelo de lenguaje (LLM) para generar automáticamente títulos de capítulos relevantes. ¡Es como tener un editor asistente incorporado! Los modelos livianos que funcionan bien incluyen: gema2:9b, llama3.1:8b y qwen 2.5:7b.

Lo habrás entendido, yt2doc no es una simple herramienta de transcripción, sino una verdadera solución todo en uno para transformar su contenido de audio y video en documentos estructurados y utilizables.

Antes de instalarlo, asegúrese de tener ffmpeg instalado en su sistema. Este es un requisito previo esencial para yt2doc puede funcionar correctamente. ffmpeg se utiliza para procesar transmisiones de audio y video. Si aún no lo has hecho, aquí tienes los comandos para instalarlo:

En MacOS:

brew install ffmpeg

En Debian/Ubuntu:

sudo apt install ffmpeg

Entonces puedes instalar yt2doc. El método recomendado es utilizar pipxuna herramienta útil para instalar aplicaciones Python en entornos aislados:

pipx install yt2doc

Si prefieres usar ultravioletaun administrador de paquetes Python súper rápido, también es posible:

uv tool install yt2doc

Para obtener ayuda para usar la herramienta, puede usar el comando:

yt2doc --help

Ahora que yt2doc está instalado, veamos cómo usarlo. El comando básico para transcribir un vídeo de YouTube es:

yt2doc --video

Por ejemplo, si deseas transcribir una charla TED, puedes utilizar:

yt2doc --video

Por defecto, yt2doc mostrará la transcripción directamente en su terminal. Pero, por supuesto, puedes guardar el resultado en un archivo Markdown para consultarlo más adelante:

yt2doc --video -o ma_transcription.md

¿Qué pasa si quieres transcribir una lista de reproducción completa de YouTube? Ningún problema :

yt2doc --playlist -o dossier_de_sortie

Como dije en mi introducción, una de las características más interesantes de yt2doc es su capacidad para segmentar y capítulos automáticamente videos que aún no están divididos en capítulos. Para esto necesitarásSeruna herramienta que le permite ejecutar modelos de lenguaje localmente. Una vez Ser instalado y configurado, puede utilizar el siguiente comando:

yt2doc --video --segment-unchaptered --llm-model

Por ejemplo, con el modelo gema2:9b :

yt2doc --video --segment-unchaptered --llm-model gemma2:9b

Este comando no sólo transcribirá el vídeo, sino que también lo dividirá en capítulos lógicos con títulos generados por IA. Esto es especialmente útil para vídeos largos o podcasts que no tienen capítulos predefinidos.

yt2doc no se limita a YouTube. También puedes usarlo para transcribir episodios de podcasts en Apple Podcast:

yt2doc --audio --segment-unchaptered --llm-model

Otro aspecto interesante de yt2doc es su flexibilidad en términos de configuración. Por defecto utiliza susurro más rápido como backend de transcripción, pero puedes ajustar varias configuraciones para optimizar el rendimiento dependiendo de tu hardware:

bashyt2doc --video --whisper-model --whisper-device --whisper-compute-type

las opciones para --whisper-model, --whisper-device y --whisper-compute-type se detallan en la documentación de Fast-Whisper.

Si está utilizando una Mac con un chip Apple Silicon, puede aprovechar susurro.cpp para un rendimiento aún mejor, ya que aprovecha la GPU integrada de Apple. el apoyo de susurro.cpp fue implementado en yt2doc :

yt2doc --video --whisper-backend whisper_cpp --whisper-cpp-executable --whisper-cpp-model

Como se mencionó anteriormente, yt2doc utilizar Segmentar cualquier texto (SaT) segmentar la transcripción en oraciones y párrafos. También puedes personalizar el modelo SaT utilizado:

yt2doc --video --sat-model

Se puede acceder a la lista de modelos SaT disponibles aquí.

Lo habrás entendido, yt2doc es una herramienta extremadamente poderosa y flexible que puede adaptarse a una multitud de casos de uso. Pero como cualquier herramienta basada en IA, yt2doc no es perfecto. La calidad de la transcripción siempre dependerá de la calidad del audio de la fuente y, en ocasiones, los títulos generados automáticamente pueden requerir algunos ajustes manuales. Bueno, comparado con el tiempo que ahorras, ¡estos pequeños inconvenientes son muy insignificantes!

¡Muchas gracias a NiKo por la información! Puedes seguirlo en Twitter. @N1K0 para descubrimientos tecnológicos más interesantes.

Fuente

Related posts