A Telegram channel dedicated to speech recognition and text-to-speech technologies, sharing news, tutorials, and resources for developers and enthusiasts.
А, ещё speechnote https://github.com/mkiol/dsnote
Хм... судя по всему вы пытаетесь длинный файл без VAD на вход подать. У большинства моделей ограничение примерно 30 секунд по длине.
Здравствуйте, коллеги! Заинтересовался всё-таки темой дообучения модели asr. Нашел на хабре алгоритм, в котром автор рассказывает как дообучить модель на основе whisper, даже знаю одного знакомого, у…
Из исходников есть только аудиозаписи, хотелось бы конкретно узнать, как их правильно размечать для обучения whisper.
Протестировал https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512 неплохо говорит на русском и метрики неплохие. Иногда проскакивает акцент, но в целом хорошо. Из интересного: в модели под…
| Day | Week | Month | Year | All time | |
|---|---|---|---|---|---|
| Subscribers | — | — | — | — | #325of 1.8K |
| Posts | — | — | #57of 227 | #121of 259 | #206of 279 |
| Citations | — | — | — | — | #179of 427 |