Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

segmentación automática de noticias en español #1

Open
alemol opened this issue Sep 5, 2019 · 1 comment
Open

segmentación automática de noticias en español #1

alemol opened this issue Sep 5, 2019 · 1 comment
Labels
question Further information is requested

Comments

@alemol
Copy link

alemol commented Sep 5, 2019

Tengo muchos datos de noticias en español acopladas con su transcripción completa (manualmente generada). Quisiera saber si se puede usar este método para segmentar en audios pequeños y generar data sets para Deep Speech.

Ejemplo de la transcripción:

JOAQUÍN LÓPEZ DÓRIGA, CONDUCTOR: Vamos con toda la información, le decía de este miércoles 13 de febrero. Voy a empezar contigo, Israel Aldave, la Reforma educativa, no hay consenso a la Cámara de diputados para que pase. Te escucho, Israel.

ISRAEL ALDAVE, REPORTERO: Joaquín, el Secretario de Educación, Esteban Moctezuma, afirmó que la Reforma educativa, impulsada por el gobierno del ex presidente Enrique Peña Nieto, no debió concebirse y advierte, ante senadores, que si no se echa atrás, los daños en el sistema educativo, en estudiantes y maestros serían irreparables. Joaquín.

JOAQUÍN LÓPEZ DÓRIGA: Bien, eso dice Esteban Moctezuma.
ITS

Enlace al audio

@carlfm01 carlfm01 added the question Further information is requested label Sep 5, 2019
@carlfm01
Copy link
Owner

carlfm01 commented Sep 5, 2019

Si se puede, la cantidad de sentencias que se pueden obtener correctas depende de la calidad del audio. Esta herramienta es solo una parte, ahora se ocupa segmentar correctamente las oraciones, para eso le recomeindo usar spacy.
https://spacy.io/usage

El script para hacer que las sentencias queden ordenas puede quedar algo así:

https://gist.github.com/carlfm01/5acc0ff57900e151aa3783b5cd550a97

Leo los párrafos de archivos y luego escribo las sentencias.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants