Голосовые нейронки | Архивач — Архив тредов имиджборд

Сортировка:

за


Активный 181	Голосовых нейронок тред (TTS, STS, STT) #6 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Прошлый тред: >>552016 (OP) Вики треда: https://2ch-ai.gitgud.site/wiki/speech/ FAQ Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п. 1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге: https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts Спейс без лимитов для EdgeTTS: https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui Так же можно использовать проприетарный комбайн Soundworks (часть фич платная): https://dmkilab.com/soundworks 2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ Q: Как делать нейрокаверы? 1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR 2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ 3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки. Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это. Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов. Q: Хочу говорить в дискорде/телеге голосом определённого персонажа. Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer: https://github.com/w-okada/voice-changer/blob/master/README_en.md Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла) Q: Как обучить свою RVC-модель? Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM ) Q: Надо распознать текст с аудио/видео файла Используй Whisper от OpenAI: https://github.com/openai/whisper Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win Так же есть платные решения от Сбера/Яндекса/Тинькофф. Коммерческие системы https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP) Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/ Голосовые нейронки /ai/ - Искусственный интеллект 2ch.hk	сегодня 6:34
Активный 517	Голосовых нейронок тред (TTS, STS, STT) #5 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Прошлый тред: >>511205 (OP) Вики треда: https://2ch-ai.gitgud.site/wiki/speech/ FAQ Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п. 1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге: https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts Спейс без лимитов для EdgeTTS: https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui Так же можно использовать проприетарный комбайн Soundworks (часть фич платная): https://dmkilab.com/soundworks 2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ Q: Как делать нейрокаверы? 1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR 2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC 3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки. Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это. Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов. Q: Хочу говорить в дискорде/телеге голосом определённого персонажа. Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer: https://github.com/w-okada/voice-changer/blob/master/README_en.md Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла) Q: Как обучить свою RVC-модель? Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc Q: Надо распознать текст с аудио/видео файла Используй Whisper от OpenAI: https://github.com/openai/whisper Так же есть платные решения от Сбера/Яндекса/Тинькофф. Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/ Голосовые нейронки /ai/ - Искусственный интеллект 2ch.hk	30 апреля 11:11
Сохранен 514	Генерируем свою музыку в app.suno.ai Генерировать можно как просто описывая нужный стиль и суть(на — Генерируем свою музыку в app.suno.ai Генерировать можно как просто описывая нужный стиль и суть(на русском генерирует с переменным успехом), либо через custom - полностью контролируя текст. Как получить от Суно законченную песню с нужной вам структурой: 1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и Голосовые нейронки музыка /b/ - Бред 2ch.hk	9 декабря 2023
Сохранен 520	Генерируем свою музыку в app.suno.ai Генерировать можно как просто описывая нужный стиль и суть(на — Генерируем свою музыку в app.suno.ai Генерировать можно как просто описывая нужный стиль и суть(на русском генерирует с переменным успехом), либо через custom - полностью контролируя текст. Как получить от Суно законченную песню с нужной вам структурой: 1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и Голосовые нейронки музыка /b/ - Бред 2ch.hk	3 декабря 2023
Сохранен 512	Генерируем свою музыку в app.suno.ai Генерировать можно как просто описывая нужный стиль и суть(на — Генерируем свою музыку в app.suno.ai Генерировать можно как просто описывая нужный стиль и суть(на русском генерирует с переменным успехом), либо через custom - полностью контролируя текст. Как получить от Суно законченную песню с нужной вам структурой: 1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве Голосовые нейронки Нейропесни нейросети музыка /b/ - Бред 2ch.hk	1 декабря 2023
Сохранен 530	Конца света из за истинного ИИ тред #2 Есть мнение (и весьма популярное) что сразу же после появлен — Конца света из за истинного ИИ тред #2 Есть мнение (и весьма популярное) что сразу же после появления искуственного интеллекта на уровне человеческого нас ждет глобальный пиздец. Невозможно предсказать поведение кого-то умнее себя. Представь, что ядерное оружие можно скачать на торрентах - какой-нибудь долбоеб гарантированно что-нибудь попробует. А в случае с ии даже человеческое участие не н Голосовые нейронки Нейропесни нейросети музыка /b/ - Бред 2ch.hk	29 ноября 2023
Сохранен 150	Перекат супер мега эпичного и самого музыкального треда на дваче во все времена! Спешите присоединит — Перекат супер мега эпичного и самого музыкального треда на дваче во все времена! Спешите присоединиться к платиновой платине!!!! Нейронка пишет музыку под стиль и слова двущеров https://app.suno.ai/create Голосовые нейронки Нейропесни нейросети музыка /b/ - Бред 2ch.hk	29 ноября 2023
Сохранен 535	Палю годноту для быдла Нейронка пишет музыку под стиль и слова двущеров https://app.suno.ai/create — Палю годноту для быдла Нейронка пишет музыку под стиль и слова двущеров https://app.suno.ai/create Голосовые нейронки Нейропесни нейросети музыка /b/ - Бред 2ch.hk	28 ноября 2023
Сохранен 524	ПКМ? А может, нейросети от Suno тред?! Q: ЧЗХ? A: Нейросеть, которая по короткому текстовому описан — ПКМ? А может, нейросети от Suno тред?! Q: ЧЗХ? A: Нейросеть, которая по короткому текстовому описанию создает песню. Т. е. и музыку, и слова. В заданном стиле. Но можно и на имеющиеся слова - в разделе Create (Custom). Текст можно вбивать кириллицей. Q: Языки песен? A: По умолчанию - английский. Хочешь на русском / немецком / еще каком - допиши в конце промта ...in Russian / German / Huy_poi Голосовые нейронки генератор Нейропесни нейросети музыка /b/ - Бред 2ch.hk	27 ноября 2023
Сохранен 123	Музыкальный AI тред Постим AI кавера и переозвучки, которые вы считаете годными — Музыкальный AI тред Постим AI кавера и переозвучки, которые вы считаете годными Голосовые нейронки искусственный интеллект музыка /b/ - Бред 2ch.hk	23 ноября 2023
Сохранен 92	Почалось? — https://youtu.be/rszvQhmvjMM?si=zo0a_1E2S-mVnxc0 Если кратко, то у тян спиздили голос, засунули в нейронку и раздали всем. Теперь даже конторы, которые с ней работали, используют эту нейронку. И вам её не жалко? Вы этого ждёте? Голосовые нейронки /ai/ - Искусственный интеллект 2ch.hk	14 марта 10:59
Сохранен 526	Голосовых нейронок тред (TTS, STS, STT) #4 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Text To Speech (TTS) ???? ???? ???? Silero Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский. https://github.com/snakers4/silero-models Есть 2 GUI: Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже). Elevenlabs Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц. Сайт: https://elevenlabs.io/speech-synthesis Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff VITS-Umamusume-voice-synthesizer Только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl Кажется можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Speech To Speech (STS) ???? ???? ???? Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти. Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью. SoftVC VITS Singing Voice Conversion Fork (SVC) Репозиторий: https://github.com/voicepaw/so-vits-svc-fork Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners Готовые модели: https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg \| https://voice-models.com https://huggingface.co/models?search=so-vits-svc https://civitai.com/models?query=so-vits-svc https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/svc-models/tree/main ) Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui Не поддерживает AMD GPU на Windows. Retrieval-based-Voice-Conversion-WebUI (RVC) Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Где взять последнюю версию: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases Готовые модели: https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg \| https://voice-models.com https://huggingface.co/juuxn/RVCModels/tree/main https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/rvc-models/tree/main ) Утилиты для отделения вокала от инструменталки идут в комплекте. Speech To Text (STT) ???? ???? ???? Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper Прочее ????️ Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video Загрузить аудиофайл, чтобы поделиться в треде: https://vocaroo.com/upload Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт: https://github.com/w-okada/voice-changer/blob/master/README_en.md https://themetavoice.xyz/ https://github.com/coqui-ai/TTS Шаблон для переката: https://rentry.co/byv2s Предыдущий тред: >>461500 (OP) Голосовые нейронки /ai/ - Искусственный интеллект 2ch.hk	27 марта 18:16
Сохранен 153	ДРАЧЛЕВЕН-ЛАБС Чики-чики, пидорасы. llElevenLabs выкатила нейронку для бесжалостного перевода аудио — ДРАЧЛЕВЕН-ЛАБС Чики-чики, пидорасы. llElevenLabs выкатила нейронку для бесжалостного перевода аудио в видосах. Предлагаю сделать тут уютную комнатку с порно-скримерами-вебмками родной мовой. Суть: 1. Открываешь https://elevenlabs.io/dubbing 2. Регишься или нет (зависит качество видоса и его длинна - без регистрации можно залить 20 мб до минуты - потом открываешь новую инкогнито вкладку и см Голосовые нейронки порно /b/ - Бред 2ch.hk	14 октября 2023
Сохранен 503	Webm llElevenLabs edition https://elevenlabs.io/dubbing — Webm llElevenLabs edition https://elevenlabs.io/dubbing Голосовые нейронки /b/ - Бред 2ch.hk	14 октября 2023
Сохранен 510	Одна из лучших контор по голосовым нейроштукам ElevenLabs выпустила нейродубляж с сохранением голоса — Одна из лучших контор по голосовым нейроштукам ElevenLabs выпустила нейродубляж с сохранением голоса. Тыкать тут, можно кидать прям ссылки на ютуб/твиттер/вимео. Cпешите пока не набежало. https://elevenlabs.io/dubbing ОБЯЗАТЕЛЬНО регистрируйтесь, так качество лучше, удобнее всего с почтой. Когда заканчиваются лимиты - чистите куки и новый аккаунт на другую почту. Голосовые нейронки /b/ - Бред 2ch.hk	13 октября 2023
Сохранен 532	Одна из лучших контор по голосовым нейроштукам ElevenLabs выпустила нейродубляж с сохранением голоса — Одна из лучших контор по голосовым нейроштукам ElevenLabs выпустила нейродубляж с сохранением голоса. Тыкать тут, можно кидать прям ссылки на ютуб/твиттер/вимео. Cпешите пока не набежало. https://elevenlabs.io/dubbing Если закончились бесплатные переводы, просто открывайте страницу в режиме инкогнито Тред намба ту ленивый перекат voice Голосовые нейронки нейросети /b/ - Бред 2ch.hk	12 октября 2023
Активный 532	Чирп №1 /music/ — AI генератор композиций прямо из текстаhttps://app.suno.ai генерация на сайтеhttps://suno.ai/discord генерация на официальном discord-сервереSuno представила свою новую модель текста в песню, Chirp v1. Эта модель способна генерировать музыку, включая вокал, на основе стиля и текста песни. Одним из наиболее значимых улучшений является возможность конвертации различных жанров, таких как рок, поп, K-pop, а также описаний типа “мелодичный” или “быстрый” в музыку. “Текст песни теперь можно разбить на части с помощью команд вроде [verse] и [chorus], что придает сгенерированным песням больше структуры.”Генерировать можно как просто описывая нужный стиль и суть(на русском генерирует с переменным успехом), либо через custom - полностью контролируя текст.Как получить от Суно законченную песню с нужной вам структурой:1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и куплете разные размеры, то Суно будет проще придумать между ними переходы. Между соседними куплетами вставляйте пустую строку, получится пауза.2. Ударения в словах можно выделять большой буквой, вот так: "ПоросЯтам". Когда это не работает, измените само слово: вместо "прямЫ" напишите "примЫ". Иногда помогает разбить слово на две части, вместо "элЕктрогенератор" написать "элЕктро генерАтор".Есть мнение, что расстановка ударений большими буквами работает лучше, если не начинать предложения с больших букв.Ещё есть онла́йн се́рвисы по расстано́вке ударе́ний как в э́том предложе́нии, но хз, наско́лько хорошо́ суно э́то понима́ет.3. В круглых скобках можно добавлять бэк-вокал. Неплохо работают звуки типа (О-о-о, у-у-у-у).4. Размечайте песню тегами. Точно работают: [Verse], [Chorus], [Bridge], [Solo]. Русские тоже работают. К Соло иногда можно добавлять конкретику, например [Piano solo], но это может изменить инструменты всей песни. [Coda] помогает сделать концовку. С переменным успехом у меня работали [Calm] и [Aggressive]. Надо экспериментировать с другими тегами в квадратных скобках.5. Иногда можно кастомизировать жанр, добавляя слова типа Energetic, Rhythmic, Aggressive, Slow, Fast. Обязательно пишите With Female/Male vocals, чтобы избежать инструментала и указать пол певца (тоже не всегда срабатывает). Разработчики не рекомендуют смешивать разные жанры.6. Максимальный размер одной генерации 1:20. Когда вам понравился кусок, выбирайте меню с тремя точками и пункт "Continue fom this clip". В тексте оставьте только те строки, которые не влезли в прошлый фрагмент, и нажимайте Generate. Так можно делать несколько раз, например у вас может быть три-четыре таких последовательных фрагмента. В самом конце в меню выбирайте пункт "Get Whole Song" и песня склеится из всех фрагментов.К сожалению нельзя перегенерировать только кусок песни, поменяв что-то локально в тексте..7. Чтобы вручную нарезать трек из нагенеренного черновика и/или добавить свое видео используйте стороннее ПО или онлайн сервисы, например clipchamp8. Максимум бесплатных кредитов 50 в день, этого хватает на 5 генераций, в каждой генерации дается по два варианта трека. Кредиты не копятся, т.е. если скипнуть несколько дней, больше 50 все равно не будет. Если хочется больше, надо либо оформлять подписку за деньги, либо регать каждый раз новый аккаунт (при регистрации дается полторы сотни, емнип). При подписке также увеличивается количество вариантов трека. Голосовые нейронки /ai/ - Искусственный интеллект музыка 2ch.hk	30 апреля 11:11
Сохранен 536	Голосовых нейронок тред (TTS, STS, STT) #3 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Text To Speech (TTS) ???? ???? ???? Silero Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский. https://github.com/snakers4/silero-models Есть 2 GUI: Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже). Elevenlabs Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц. Сайт: https://elevenlabs.io/speech-synthesis Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff VITS-Umamusume-voice-synthesizer Только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl Кажется можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Speech To Speech (STS) ???? ???? ???? Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти. Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью. SoftVC VITS Singing Voice Conversion Fork (SVC) Репозиторий: https://github.com/voicepaw/so-vits-svc-fork Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners Готовые модели: https://huggingface.co/models?search=so-vits-svc \| https://civitai.com/models?query=so-vits-svc Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui Не поддерживает AMD GPU на Windows. Retrieval-based-Voice-Conversion-WebUI (RVC) Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main Утилиты для отделения вокала от инструменталки идут в комплекте. Speech To Text (STT) ???? ???? ???? Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper Прочее ????️ Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт: https://github.com/w-okada/voice-changer/blob/master/README_en.md https://themetavoice.xyz/ https://github.com/coqui-ai/TTS Шаблон для переката: https://rentry.org/byv2s Предыдущий тред: >>314948 (OP) Text To Speech voice Голосовые нейронки голос /ai/ - Искусственный интеллект нейросети 2ch.hk	13 февраля 11:37
Сохранен 510	TTS тред #2 - Text To Speech /tts/ — Обсуждаем оффлайновые генераторы речи и делимся результатами, для чего сначала конвертируем аудио в видео. Что есть на сей день: Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS. Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl кажется итт можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. https://github.com/voicepaw/so-vits-svc-fork Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI (по совместительству онлайн генератор речи, так что оффтоп в нашем треде) - https://dmkilab.com/soundworks - Tools \ Video \ Produce still video Text To Speech Голосовые нейронки генератор /ai/ - Искусственный интеллект 2ch.hk	31 декабря 2023
Сохранен 510	TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео пер /tts/ — TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео перед постингом. Советую аудио лучше слушать в наушниках. Есть VITS-Umamusume-voice-synthesizer, она только на японском говорит, но у неё 87 голосов. ХагиФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dcz Text To Speech искуственный интеллект Голосовые нейронки генератор /ai/ - Искусственный интеллект искусственный интеллект 2ch.hk	5 сентября 2023
Активный 63	AudioLDM Тред: Создание аудио по промпту демо - https://huggingface.co/spaces/haoheliu/audioldm-tex — AudioLDM Тред: Создание аудио по промпту демо - https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation установка и запуск локалки - https://github.com/haoheliu/AudioLDM Text To Speech Голосовые нейронки /ai/ - Искусственный интеллект 2ch.hk	30 апреля 11:11