24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Сортировка: за
Активный
181
Голосовых нейронок тред (TTS, STS, STT) #6 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Прошлый тред: >>552016 (OP) Вики треда: https://2ch-ai.gitgud.site/wiki/speech/ FAQ Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п. 1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге: https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts Спейс без лимитов для EdgeTTS: https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui Так же можно использовать проприетарный комбайн Soundworks (часть фич платная): https://dmkilab.com/soundworks 2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ Q: Как делать нейрокаверы? 1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR 2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ 3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки. Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это. Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов. Q: Хочу говорить в дискорде/телеге голосом определённого персонажа. Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer: https://github.com/w-okada/voice-changer/blob/master/README_en.md Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла) Q: Как обучить свою RVC-модель? Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM ) Q: Надо распознать текст с аудио/видео файла Используй Whisper от OpenAI: https://github.com/openai/whisper Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win Так же есть платные решения от Сбера/Яндекса/Тинькофф. Коммерческие системы https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP) Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
сегодня 6:34
Активный
517
Голосовых нейронок тред (TTS, STS, STT) #5 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Прошлый тред: >>511205 (OP) Вики треда: https://2ch-ai.gitgud.site/wiki/speech/ FAQ Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п. 1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге: https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts Спейс без лимитов для EdgeTTS: https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui Так же можно использовать проприетарный комбайн Soundworks (часть фич платная): https://dmkilab.com/soundworks 2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ Q: Как делать нейрокаверы? 1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR 2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC 3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки. Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это. Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов. Q: Хочу говорить в дискорде/телеге голосом определённого персонажа. Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer: https://github.com/w-okada/voice-changer/blob/master/README_en.md Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла) Q: Как обучить свою RVC-модель? Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc Q: Надо распознать текст с аудио/видео файла Используй Whisper от OpenAI: https://github.com/openai/whisper Так же есть платные решения от Сбера/Яндекса/Тинькофф. Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
30 апреля 11:11
Сохранен
514
9 декабря 2023
Сохранен
520
3 декабря 2023
Сохранен
512
1 декабря 2023
Сохранен
530
29 ноября 2023
Сохранен
150
29 ноября 2023
Сохранен
535
28 ноября 2023
Сохранен
524
27 ноября 2023
Сохранен
123
23 ноября 2023
Сохранен
92
14 марта 10:59
Сохранен
526
Голосовых нейронок тред (TTS, STS, STT) #4 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Text To Speech (TTS) ???? ???? ???? Silero Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский. https://github.com/snakers4/silero-models Есть 2 GUI: Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже). Elevenlabs Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц. Сайт: https://elevenlabs.io/speech-synthesis Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff VITS-Umamusume-voice-synthesizer Только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl Кажется можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Speech To Speech (STS) ???? ???? ???? Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти. Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью. SoftVC VITS Singing Voice Conversion Fork (SVC) Репозиторий: https://github.com/voicepaw/so-vits-svc-fork Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners Готовые модели: https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg | https://voice-models.com https://huggingface.co/models?search=so-vits-svc https://civitai.com/models?query=so-vits-svc https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/svc-models/tree/main ) Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui Не поддерживает AMD GPU на Windows. Retrieval-based-Voice-Conversion-WebUI (RVC) Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Где взять последнюю версию: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases Готовые модели: https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg | https://voice-models.com https://huggingface.co/juuxn/RVCModels/tree/main https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/rvc-models/tree/main ) Утилиты для отделения вокала от инструменталки идут в комплекте. Speech To Text (STT) ???? ???? ???? Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper Прочее ????️ Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video Загрузить аудиофайл, чтобы поделиться в треде: https://vocaroo.com/upload Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт: https://github.com/w-okada/voice-changer/blob/master/README_en.md https://themetavoice.xyz/ https://github.com/coqui-ai/TTS Шаблон для переката: https://rentry.co/byv2s Предыдущий тред: >>461500 (OP)
27 марта 18:16
Сохранен
153
14 октября 2023
Сохранен
503
14 октября 2023
Сохранен
510
13 октября 2023
Сохранен
532
12 октября 2023
Активный
532
Чирп №1 /music/ — AI генератор композиций прямо из текстаhttps://app.suno.ai генерация на сайтеhttps://suno.ai/discord генерация на официальном discord-сервереSuno представила свою новую модель текста в песню, Chirp v1. Эта модель способна генерировать музыку, включая вокал, на основе стиля и текста песни. Одним из наиболее значимых улучшений является возможность конвертации различных жанров, таких как рок, поп, K-pop, а также описаний типа “мелодичный” или “быстрый” в музыку. “Текст песни теперь можно разбить на части с помощью команд вроде [verse] и [chorus], что придает сгенерированным песням больше структуры.”Генерировать можно как просто описывая нужный стиль и суть(на русском генерирует с переменным успехом), либо через custom - полностью контролируя текст.Как получить от Суно законченную песню с нужной вам структурой:1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и куплете разные размеры, то Суно будет проще придумать между ними переходы. Между соседними куплетами вставляйте пустую строку, получится пауза.2. Ударения в словах можно выделять большой буквой, вот так: "ПоросЯтам". Когда это не работает, измените само слово: вместо "прямЫ" напишите "примЫ". Иногда помогает разбить слово на две части, вместо "элЕктрогенератор" написать "элЕктро генерАтор".Есть мнение, что расстановка ударений большими буквами работает лучше, если не начинать предложения с больших букв.Ещё есть онла́йн се́рвисы по расстано́вке ударе́ний как в э́том предложе́нии, но хз, наско́лько хорошо́ суно э́то понима́ет.3. В круглых скобках можно добавлять бэк-вокал. Неплохо работают звуки типа (О-о-о, у-у-у-у).4. Размечайте песню тегами. Точно работают: [Verse], [Chorus], [Bridge], [Solo]. Русские тоже работают. К Соло иногда можно добавлять конкретику, например [Piano solo], но это может изменить инструменты всей песни. [Coda] помогает сделать концовку. С переменным успехом у меня работали [Calm] и [Aggressive]. Надо экспериментировать с другими тегами в квадратных скобках.5. Иногда можно кастомизировать жанр, добавляя слова типа Energetic, Rhythmic, Aggressive, Slow, Fast. Обязательно пишите With Female/Male vocals, чтобы избежать инструментала и указать пол певца (тоже не всегда срабатывает). Разработчики не рекомендуют смешивать разные жанры.6. Максимальный размер одной генерации 1:20. Когда вам понравился кусок, выбирайте меню с тремя точками и пункт "Continue fom this clip". В тексте оставьте только те строки, которые не влезли в прошлый фрагмент, и нажимайте Generate. Так можно делать несколько раз, например у вас может быть три-четыре таких последовательных фрагмента. В самом конце в меню выбирайте пункт "Get Whole Song" и песня склеится из всех фрагментов.К сожалению нельзя перегенерировать только кусок песни, поменяв что-то локально в тексте..7. Чтобы вручную нарезать трек из нагенеренного черновика и/или добавить свое видео используйте стороннее ПО или онлайн сервисы, например clipchamp8. Максимум бесплатных кредитов 50 в день, этого хватает на 5 генераций, в каждой генерации дается по два варианта трека. Кредиты не копятся, т.е. если скипнуть несколько дней, больше 50 все равно не будет. Если хочется больше, надо либо оформлять подписку за деньги, либо регать каждый раз новый аккаунт (при регистрации дается полторы сотни, емнип). При подписке также увеличивается количество вариантов трека.
30 апреля 11:11
Сохранен
536
Голосовых нейронок тред (TTS, STS, STT) #3 /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Text To Speech (TTS) ???? ???? ???? Silero Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский. https://github.com/snakers4/silero-models Есть 2 GUI: Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже). Elevenlabs Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц. Сайт: https://elevenlabs.io/speech-synthesis Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff VITS-Umamusume-voice-synthesizer Только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl Кажется можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Speech To Speech (STS) ???? ???? ???? Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти. Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью. SoftVC VITS Singing Voice Conversion Fork (SVC) Репозиторий: https://github.com/voicepaw/so-vits-svc-fork Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners Готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui Не поддерживает AMD GPU на Windows. Retrieval-based-Voice-Conversion-WebUI (RVC) Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main Утилиты для отделения вокала от инструменталки идут в комплекте. Speech To Text (STT) ???? ???? ???? Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper Прочее ????️ Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт: https://github.com/w-okada/voice-changer/blob/master/README_en.md https://themetavoice.xyz/ https://github.com/coqui-ai/TTS Шаблон для переката: https://rentry.org/byv2s Предыдущий тред: >>314948 (OP)
13 февраля 11:37
Сохранен
510
TTS тред #2 - Text To Speech /tts/ — Обсуждаем оффлайновые генераторы речи и делимся результатами, для чего сначала конвертируем аудио в видео. Что есть на сей день: Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов. ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing MoeGoe и MoeTTS. Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl кажется итт можно тренировать свои голосовые модели, но это не точно Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8 Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda! Гайд: https://textbin.net/kfylbjdmz9 План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. https://github.com/voicepaw/so-vits-svc-fork Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI (по совместительству онлайн генератор речи, так что оффтоп в нашем треде) - https://dmkilab.com/soundworks - Tools \ Video \ Produce still video
31 декабря 2023
Сохранен
510
5 сентября 2023
Активный
63
30 апреля 11:11

Отзывы и предложения