Text To Speech | Архивач — Архив тредов имиджборд

Сортировка:

за


Сохранен 536	Голосовых нейронок тред (TTS, STS, STT) #3 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Text To Speech (TTS) ???? ???? ???? Silero Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский. https://github.com/snakers4/silero-models Есть 2 GUI: Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже). Elevenlabs Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц. Сайт: https://elevenlabs.io/speech-synthesis Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff VITS-Umamusume-voice-synthesizer Только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl Кажется можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Speech To Speech (STS) ???? ???? ???? Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти. Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью. SoftVC VITS Singing Voice Conversion Fork (SVC) Репозиторий: https://github.com/voicepaw/so-vits-svc-fork Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners Готовые модели: https://huggingface.co/models?search=so-vits-svc \| https://civitai.com/models?query=so-vits-svc Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui Не поддерживает AMD GPU на Windows. Retrieval-based-Voice-Conversion-WebUI (RVC) Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main Утилиты для отделения вокала от инструменталки идут в комплекте. Speech To Text (STT) ???? ???? ???? Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper Прочее ????️ Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт: https://github.com/w-okada/voice-changer/blob/master/README_en.md https://themetavoice.xyz/ https://github.com/coqui-ai/TTS Шаблон для переката: https://rentry.org/byv2s Предыдущий тред: >>314948 (OP) Text To Speech voice Голосовые нейронки голос /ai/ - Искусственный интеллект нейросети 2ch.hk	13 февраля 11:37
Сохранен 510	TTS тред #2 - Text To Speech /tts/ — Обсуждаем оффлайновые генераторы речи и делимся результатами, для чего сначала конвертируем аудио в видео. Что есть на сей день: Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS. Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl кажется итт можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. https://github.com/voicepaw/so-vits-svc-fork Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI (по совместительству онлайн генератор речи, так что оффтоп в нашем треде) - https://dmkilab.com/soundworks - Tools \ Video \ Produce still video Text To Speech Голосовые нейронки генератор /ai/ - Искусственный интеллект 2ch.hk	31 декабря 2023
Сохранен 510	TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео пер /tts/ — TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео перед постингом. Советую аудио лучше слушать в наушниках. Есть VITS-Umamusume-voice-synthesizer, она только на японском говорит, но у неё 87 голосов. ХагиФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dcz Text To Speech искуственный интеллект Голосовые нейронки генератор /ai/ - Искусственный интеллект искусственный интеллект 2ch.hk	5 сентября 2023
Активный 63	AudioLDM Тред: Создание аудио по промпту демо - https://huggingface.co/spaces/haoheliu/audioldm-tex — AudioLDM Тред: Создание аудио по промпту демо - https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation установка и запуск локалки - https://github.com/haoheliu/AudioLDM Text To Speech Голосовые нейронки /ai/ - Искусственный интеллект 2ch.hk	30 апреля 11:11