You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Tengo muchos datos de noticias en español acopladas con su transcripción completa (manualmente generada). Quisiera saber si se puede usar este método para segmentar en audios pequeños y generar data sets para Deep Speech.
Ejemplo de la transcripción:
JOAQUÍN LÓPEZ DÓRIGA, CONDUCTOR: Vamos con toda la información, le decía de este miércoles 13 de febrero. Voy a empezar contigo, Israel Aldave, la Reforma educativa, no hay consenso a la Cámara de diputados para que pase. Te escucho, Israel.
ISRAEL ALDAVE, REPORTERO: Joaquín, el Secretario de Educación, Esteban Moctezuma, afirmó que la Reforma educativa, impulsada por el gobierno del ex presidente Enrique Peña Nieto, no debió concebirse y advierte, ante senadores, que si no se echa atrás, los daños en el sistema educativo, en estudiantes y maestros serían irreparables. Joaquín.
JOAQUÍN LÓPEZ DÓRIGA: Bien, eso dice Esteban Moctezuma.
ITS
Si se puede, la cantidad de sentencias que se pueden obtener correctas depende de la calidad del audio. Esta herramienta es solo una parte, ahora se ocupa segmentar correctamente las oraciones, para eso le recomeindo usar spacy. https://spacy.io/usage
El script para hacer que las sentencias queden ordenas puede quedar algo así:
Tengo muchos datos de noticias en español acopladas con su transcripción completa (manualmente generada). Quisiera saber si se puede usar este método para segmentar en audios pequeños y generar data sets para Deep Speech.
Ejemplo de la transcripción:
Enlace al audio
The text was updated successfully, but these errors were encountered: