Audio/Video to Text

PI: Dr. Anat Lerner and Dr. Vered Silber-Varod


Background
Automatic Speech Recognition (ASR) is a technology based on a speech recognition engine, which recognizes the speech sounds of a language and produces a sequence of written words that represent the spoken text. The technology is also known as Speech-to-Text (STT). ASR engines were developed by industrial companies. In recent years, ASR engines are embedded in popular mobile applications and are activated by users in their daily life. However, ASR engines are language-dependent and their performance of highly resourced languages transcription, such as English, is satisfying (above 80% recognition rates). This gap demonstrates that the technology has reached a certain level of maturity. Still, under-resourced languages, such as Hebrew, suffer from lack of resources for improving its ASR engines (Silber-Varod & Geri, 2014; Silber-Varod, Winer, & Geri, 2016).
 
Table 1: An extract of an automatic transcription output (as of 2015) by two ASR engines (ASR1 and ASR2), compared to the exact transcription on the right column.
Transcription type
Transcription
Exact reference transcription
ASR1
אחת הטכנולוגיות של אהבה אין קושי זה אתגר מאוד רציני תוכנות קוראות מסך שולה יזכיר את זה קודם היא תוכנה קוראת מסך למעשה יודעת לספק חיווי קולי עבור כל האלמנטים שבבסיס מבצע טקסט חי כפתורים אין תמונות אייקון רכיב שירו לו טקסט אייביי שבסיסו טקס חלוקת קליפים תוכנה קוראת מסך חלזונות ימיים הכריות ו תוכנה קוראת מסך פועלת באמצעות היא טיפול בפוטותרפיה רב מאוד קשה קיצור המקלדת אי אפשרות ואף מאות אלה יכולים איים איים משתנות איי אם אני ישראלים ישנים
אחת הטכנולוגיות שמהווה קושי ואתגר מאוד רציני זה תוכנות קוראות מסך שאולה הזכירה את זה קודם תוכנה קוראת מסך למעשה יודעת לספק חיווי קולי עבור כל האלמנטים שבבסיסם נמצא טקסט חי כפתורים תמונות כל רכיב שהוא לא טקסט ויש בבסיסו טקסט חי או טקסט חליפי תוכנה קוראת מסך תוכל לזהות ולהקריא אותו תוכנה קוראת מסך פועלת באמצעות תפעול באמצעות הרבה הרבה מאוד מקשי קיצור במקלדת עשרות ואף מאות ואלה יכולים להשתנות עם יישומים שונים
ASR2
אחת הטכנולוגיות שיי מההופעה קושי זה אתגר מאוד רציני איזה תוכנות קוראות מסך של וואלה הזכירה את זה קודם תוכנה קוראת מסך נעשה יודעת לספק גיבוי קולי עבור כל אלמנטים של דבש שם נמצא טקסט חי כפתורים תמונות מכל רחבי ושומרי הטקסט ויש מתשישות טקסט חיות כתחליפי תוכנה קוראת מסך תוכל לזהות אם ולהקריא אותו מסך בוערת ובאמצעות טיפול באמצעות 4 אין הרבה מאוד קשה קיצורי מקלדת בעשרות ואף 100 ואלה יכולים להשתנות אם אני ישומים שונים
 
Cultural heritage such as the NLI’s video and audio collections are analogous to a "locked knowledge dam" (Silber-Varod, Winer, & Geri, 2016), since one does not have access to the content unless listening to it. Synchronized and searchable video/audio will allow access to students, instructors and the public.
 
Limitations
Complete and accurate transcript of all the recordings in the NLI collection can reach very high costs, even if a generic ASR tool will be used, and this is due to fact that automatic transcriptions do not reach high recognition rates (the above ASRs reach about 60% precision in high-quality recordings). Therefore, improving the automatic transcriptions manually is inevitable in the case of the Hebrew language.
 
Project Description:
Building a video/audio platform that will conjoin several tools, which will allow attaching to each audio/video a synchronized and searchable transcription.
 
Figure 1: Illustration of embedded and synchronized video transcript
 
 
 
Expected Outputs:
The project output will be a video platform, which will enable: automatic transcripts, synchronization of the transcripts with the auditory component, searchable transcripts, manually improving the transcripts. Our vision is that the synchronized and searchable audio/video version will be of use for learning and research purposes.
 
References
Silber-Varod, V., Winer, A., & Geri, N. (2016). Opening the Knowledge Dam: Speech Recognition for Video SearchJournal of Computer Information Systems, 57(2)106-111. doi:10.1080/08874417.2016.1183423 
 
Silber-Varod, V., & Geri, N. (2014). Can automatic speech recognition be satisficing for audio/video search? Keyword-focused analysis of Hebrew automatic and manual transcription. Online Journal of Applied Knowledge Management, 2(1), 104-121. Available at: http://www.iiakm.org/ojakm/articles/2014/volume2_1/OJAKM_Volume2_1pp104-121.pdf