Голосовых нейронок тред (TTS, STS, STT) #6 /speech/

Аноним 08/03/24 Птн 02:43:18 #1 №664162

Вал не крутись.mp4

aggressive scientist snaps during lunch break.mp4

Я болен тобой.mp4

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >>552016 (OP)

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM )

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP)

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/

Аноним 08/03/24 Птн 06:21:12 #2 №664226

>>664162 (OP)
>Вал не крутись.mp4
Как же ахуенно
МимоКабанчиком тут пробегал в другой Ллама тред

Аноним 08/03/24 Птн 07:15:46 #3 №664236

БАПМ

Аноним 08/03/24 Птн 08:23:35 #4 №664246

Поднебесный - три девицы под окном.mp4

ВОЖДЬ И СКАЗКА С МАТОМ!!!

Аноним 08/03/24 Птн 08:24:40 #5 №664247

Ветер пригожина наполняет Паруса Завоеваний.mp4

Аноним 08/03/24 Птн 08:25:38 #6 №664248

>>664246
кстати оцените ударения. едж ттс делало

Аноним 08/03/24 Птн 10:06:47 #7 №664279

Анонесы, кто-то пытался делать анимешные стоны? Поделитесь опытом

Аноним 08/03/24 Птн 10:15:13 #8 №664283

>>664279
ну сам постони в микро и через рвс

Аноним 08/03/24 Птн 11:03:41 #9 №664309

>>664283
Ну постонал и пропустил. Нейронка отчаянно пытается найти слоги в моих стонах, поэтому получается странно.

Аноним 08/03/24 Птн 14:17:29 #10 №664481

>>664309
скинь

Аноним 08/03/24 Птн 18:17:01 #11 №664790

Э слыште! подайте мне ту нейронку что песни делает с мелодией итд. Вродея понская какая-то, надеюсь без впн работает.

Аноним 08/03/24 Птн 18:26:58 #12 №664805

Нет, без прикола, я правда пару месяцев назад ей делал, было забавно но прямо никак не вспомню а что за калом вообще я пользовался, у вас в шапке под номером 8 из нее говнецо как раз, как эта срань называется, вот хоть убейте не помню, неплохую песенку себе на ней сделал просто и сейчас еще захотелось. Шапку вашу прочитал, более инфомусорной шапки я не видел нигде лол, походу с аудио совсем пиздец, даже хуже чем с картинками.

Аноним 08/03/24 Птн 18:44:12 #13 №664834

>>664805
>>662527 (OP)

Аноним 08/03/24 Птн 20:35:42 #14 №665008

jerma985 corecore 2.mp4

jerma985 corecore 2.mp4.mp4

Warhammer mechanics meme480p.mp4

Warhammer mechanics meme480p.mp4.mp4

>>664162 (OP)

Аноним 08/03/24 Птн 22:17:01 #15 №665131

>>664162 (OP)
есть бесплатный аналог этого

Аноним 08/03/24 Птн 22:17:42 #16 №665133

>>665131
https://zvukogram.com/subs/?ysclid=ltj166ylmx551041336

Аноним 09/03/24 Суб 08:40:23 #17 №665513

https://voca.ro/13x8UArFKWq0

Аноним 09/03/24 Суб 08:45:56 #18 №665515

https://voca.ro/13x8UArFKWq0

Аноним 09/03/24 Суб 08:46:19 #19 №665516

ой. два раза ввел санкции. простите

Аноним 09/03/24 Суб 09:03:43 #20 №665520

анонче. а давайте сделаем няшную бабскую модель и будем в /b/ набегать типа бабы

Аноним 09/03/24 Суб 09:08:01 #21 №665521

https://www.youtube.com/@user-pe4kl6ly8m/videos
предлагаю сделать модель этой бабы

Аноним 09/03/24 Суб 10:50:40 #22 №665552

image

Сап, нейрач.
Нужно менять голос в реалтайме. Напишите, пожалуйста, пошаговый гайд, куда и на что жать новичку? Потому что в шапке пик 2, гайда нет.

Аноним 09/03/24 Суб 10:51:56 #23 №665553

17019563860200.mp4

17018033471800.mp4

Как это сделано? Анон пишет, что в елевенлабс, но в бесплатном акке такое делать нельзя.

Аноним 09/03/24 Суб 11:59:59 #24 №665588

АНОНЫ. СДЕЛАЛ СКРИПТ ДЛЯ ОБУЧЕНИЯ МОДЕЛИ БЕЗ РЕКЛАМЫ!!!!
https://github.com/hinaichigo-fox/rvc_train_for_anon/tree/main
ТОЛЬКО КАГГЛ! НЕ ГУГЛ КОЛЛАБ!

Аноним 09/03/24 Суб 13:00:25 #25 №665621

>>665588
а почему оно не работает? Буквально вчера работало а сегодня нет

Аноним 09/03/24 Суб 16:14:12 #26 №665807

>>665588
НАШЕЛ РАБОЧИЙ СКРИПТ ДЛЯ ГУГЛ КОЛЛАБ!!!!
https://github.com/hinaichigo-fox/rvc_train_for_anon
https://colab.research.google.com/drive/1030ibBABNaNZ3CjIoDXstcCR7VhEnSAA

Аноним 09/03/24 Суб 16:14:51 #27 №665809

>>665807
потом переделаю немного и всю рекламу уберу

Аноним 09/03/24 Суб 17:06:14 #28 №665839

>>665131
>>665133
бамп
нужна озвучка по сабам

Аноним 09/03/24 Суб 19:27:59 #29 №665963

Тред. создал модель бабы. оцените. Ну питч там подвигайте в сторону >3 у меня на 3 нормальный голос вышел. https://disk.yandex.ru/d/FsACTX3EezNDvA

Аноним 09/03/24 Суб 20:19:32 #30 №666035

дождь.webm

Был один такой полурофельный перевод. А как с ним справится нейронка?

Аноним 09/03/24 Суб 20:25:17 #31 №666043

сверхъестественное.webm

Аноним 09/03/24 Суб 20:26:38 #32 №666046

загадка.webm

О чём ещё поют в известных древних хитах? Wait, oh sh~

Аноним 10/03/24 Вск 02:50:55 #33 №666514

image.png

>>664162 (OP)
Voice Changer - ПОМОГИТЕ ПОЖАЛУЙСТА!!!
Сегодня несколько раз идеально модель работала, но чаще всего баговалась на значении "crepe". А она только на нем работает как надо. Просто все жутко лагать начинает, задержка растет и не думает падать.
И вот эта надпись в консоли смущает

Аноним 10/03/24 Вск 09:56:37 #34 №666683

>>666514
Анон, ответь -> >>665552

Аноним 10/03/24 Вск 09:58:51 #35 №666684

>>664162 (OP)
Пользователям TTS. А какое применение вы видите вообще в этом? Мой кейс был такой - выдернул текст из файла субтитров для того чтобы прогнать через ТТС и затем прогнать через РВЦ для дубляжа. Итог такой что все эти ТТС начитывают максимально механически и для +- нормальной озвучки не подходят вообще. Есть какая ТТС которая как то играет голосом немного? И почему при прогоне через РВЦ в готовом оутпуте как будто не применяется файл черт голосовой модели, потому что на выходе звучит так же механически только другим голосом

я так и не понял как субтитры озвучивать

Аноним 10/03/24 Вск 17:20:46 #36 №666945

>>666684
ну у меня после прогона через rvc норм все выходит. мимо еджттсник

Аноним 10/03/24 Вск 22:26:31 #37 №667361

>>666945
>>666945
>еджттсник

и как заставить еджттс читать по таймингам сабов

Аноним 10/03/24 Вск 23:38:15 #38 №667448

image.png

>>667361
>>666945
Двачую этого.
Недавно замутил себе speech2speech на нескольких нейросетках (yt-dlp -> whisperx + выравнивание от туда же -> deepl -> edgetts -> ffmpeg клеим обратно). Осталось лишь выровнять зачитку по временным отметкам старта и финала. У edgetts есть коэффициент ускорения, но как прикинуть длительность итоговой зачитки? Вариант "в лоб" – сгенерировать аудио, взять его длину и поделить, после чего заново сгенерировать.

Возможно, есть более изящные решения в опенсурце? Если у кого-то есть идеи или наработки — заделитель ништяками в тредике.

Аноним 10/03/24 Вск 23:55:40 #39 №667473

>>667448
тменно по временым отметкам>>667448
>edgetts
>>667448
почему не заебашишь студию озвучки
скрипт на автоматическу скачку с пиратбея. RARBG а дальше свой комбайн
и заливаешь автоматом свое говно на рутор
для дорам и всяких сериалов уровня , учитывая скорость
идея вроде хорошая

Аноним 11/03/24 Пнд 00:16:56 #40 №667493

image.png

>>667473
Тогда к этому комбайну нужно подключить расстановку ударений и определение эмоций в речи. Если не путаю, edgetts может не только монотонно зачитывать, но и кричать, шептать, радоваться и все такое. Ещё сетку на различение голосов, хотя бы женский/мужской, выбор соответствующего в edgetts.

Можешь заняться, скиллов никаких не нужно: всё готовое переклеить.

Мои же задачи куда тривиальнее — палить по дискорду ютуб с корешами, кто языка не понимает.

Аноним 11/03/24 Пнд 00:40:58 #41 №667507

>>667493
можно просто готовый файл перегнать через rvc голосом володарского
монотоность в итоге заамаскированна
эстеты оценять
мне осталось как понять edgetts
читать по временым меткам а не сплошняком

Аноним 11/03/24 Пнд 07:03:53 #42 №667642

>>667507
так если по временным меткам так разрезай то емае

Аноним 11/03/24 Пнд 07:52:54 #43 №667657

Вброшу еще раз. У них даже появился гайд под винду, но у меня место на диске кончилось, так что пока не могу проверить
https://github.com/myshell-ai/OpenVoice/
https://github.com/Alienpups/OpenVoice/blob/main/docs/USAGE_WINDOWS.md

Аноним 11/03/24 Пнд 11:24:55 #44 №667767

>>667642
автоматом никак ?
хотя я думаю можно придумать для этого скрипт чтобы нарезать изначальный материал по меткам сабов

Аноним 11/03/24 Пнд 14:13:22 #45 №667903

Что за говняный тред пиздец? никто никому не помогает.

Нахуй вы тогда нужны?

Аноним 11/03/24 Пнд 14:13:55 #46 №667904

>>667903
а че за проблема?

Аноним 11/03/24 Пнд 15:24:41 #47 №667975

>>667904
-> >>665552

Аноним 11/03/24 Пнд 15:44:54 #48 №667996

>>665552
https://github.com/w-okada/voice-changer/blob/master/README_en.md
Вот тут гайду

Аноним 11/03/24 Пнд 16:15:37 #49 №668042

>>667975
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer‐FAQ

Аноним 12/03/24 Втр 02:08:32 #50 №668629

.png

>>667975
Можно через RVC ещё. Только всё равно надо виртуальный микрофон ещё настроить как в той инструкции по Voice Changer:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice-Changer#виртуальные-кабели

Аноним 12/03/24 Втр 02:11:02 #51 №668631

.png

>>668629
Что-то ссылку не выходит нормально вставить. Вот это.

Аноним 12/03/24 Втр 04:05:07 #52 №668726

>>665553
да, для доступа к instant voice cloning нужно купить минимальную подписку (первый месяц стоит 1$)

Аноним 12/03/24 Втр 17:35:29 #53 №669182

image.png

в чем проблема

Аноним 12/03/24 Втр 18:18:15 #54 №669229

>>669182
файла нету какого то

Аноним 12/03/24 Втр 19:30:14 #55 №669277

>>668726
>>668629
>>667996
Спасибо. Скоро буду пробовать. По результатам напишу в тред, поддержите, пожалуйста, ребюята.

Аноним 12/03/24 Втр 20:02:42 #56 №669316

>>669277
удачи!

Аноним 12/03/24 Втр 20:47:23 #57 №669362

>>669182
Как нет файл есть в папке проекта я укпзывыю полный путь тоже самое

Аноним 12/03/24 Втр 21:02:39 #58 №669383

>>669362
а что ты запустить хочешь?

Аноним 12/03/24 Втр 22:00:26 #59 №669457

image.png

>>669383
скрипт не дожелан мне нужно проверить как это работает пока что

Аноним 13/03/24 Срд 07:01:58 #60 №669797

>>669457
путь полностью указывай. а не эти точки

Аноним 13/03/24 Срд 11:39:43 #61 №669904

>>669797
все равно>>669797
кодек 'unicodeescape' не может декодировать байты в позиции 2-3: усеченный \UXXXXXXXX escape

Аноним 13/03/24 Срд 17:04:08 #62 №670200

>>669904
а че ты запустить пытаешься? можешь сюда скинуть?

Аноним 13/03/24 Срд 17:23:52 #63 №670227

>>670200
НЕДОДЕЛАНО НО МНЕ ПОКА НУЖНО ПРОВЕРИТЬ
КАК РАБОТАЕТ>>670200
https://pastebin.com/b1BjZ2Gm

Аноним 13/03/24 Срд 17:27:36 #64 №670237

>>670227
ты сначала пробуй по отдельности. запусти терра ттс добейся его норм работы а потом уже добавляй что то

Аноним 13/03/24 Срд 19:20:44 #65 №670370

Скачивал где то "RVC0813Nvidia"
Где новую скачать таким же архивом, чтоб распаковал и запустилось, без установок питоновских библиотек?

Аноним 13/03/24 Срд 19:40:56 #66 №670388

>>670370
https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main
тут ищи

Аноним 14/03/24 Чтв 12:38:44 #67 №670800

Хочу озвучить персонажа в таверне, что посоветуете?
Озвучка на английском

Аноним 14/03/24 Чтв 23:28:17 #68 №671311

>>664162 (OP)
Анон, а где брать копирайченые модели? Типо всяких асмр ютуберш и японских va?
жесть, тред мертвый

Аноним 15/03/24 Птн 00:57:10 #69 №671356

>>671311
dlsite

Аноним 15/03/24 Птн 12:13:13 #70 №671641

>>671311
в смысле копирайченые?

Аноним 16/03/24 Суб 17:32:13 #71 №672575

Из реального применения вижу запиливание нормального дубляжа для игр, ну и для ютуба если что хочешь сказать чтобы не палить голос. А вы?

Аноним 16/03/24 Суб 18:52:57 #72 №672649

>>672575
ну да. так и есть. еще можно приколы делать типа Путин рекламирует сервер в майне и т.д.

Аноним 17/03/24 Вск 01:20:03 #73 №672978

Вечер в радость, аноны. Может кто знает, какие есть модификации для Whisper или альтернативы?
Запускаю на локальной машине с Whisper GUI от grisk.
Что удобно: можно обрабатывать файлы пачкой, работает просто, закинул, через время готовое забрал.
Что неудобно: нельзя настроить таймкод, нестабильное разделение на спикеров (иногда есть, иногда нет), отсутствует прогресс бар и вообще какое-либо отображение процесса обработки, только файл начат - файл закончен.
От гугления только больше запутался. Гуев много, но все субъективно хуже.
В погромировании не шарю, хочу решение для локального запуска с кнопкой "Сделать заебись". Может, есть какие-то модели чисто под русский язык, или модифицированный для русского Whisper, с возможностью настраивать какие-то параметры типа тех же таймкодов и без особого красноглазия?

Аноним 17/03/24 Вск 03:16:16 #74 №673069

Внимание вопрос:
Как на елевенлабс сделать спич-ту-спич с кастомным голосом?

Аноним 17/03/24 Вск 07:43:04 #75 №673131

>>673069
хз. никогда не заходил на это говно

Аноним 17/03/24 Вск 10:07:57 #76 №673178

17018033471800.mp4

>>673131
Хуясе говно. А может ты говно?

Аноним 17/03/24 Вск 10:13:18 #77 №673189

image

>>672649
>сервер в майне

Аноним 17/03/24 Вск 17:48:08 #78 №673491

>>673189
ну да. что не так

Аноним 19/03/24 Втр 23:26:40 #79 №675592

mashyknya.mp4

mashykneco.mp4

Глубокая очистка звука [mailto:787878] Аноним 20/03/24 Срд 03:45:24 #80 №675757

Доброго времени суток! Меня интересует возможность очистки от нежелательных эффектов бэк-вокала и прочей шумовой составляющей, которая ухудшает качество кавер-версий. В данный момент я использую UVR с такими плагинами: Kim Vocal 2, UVR-DeNoise, UVR DeEcho-DeReverb, а также плагин
MDX-B Karaoke (lead/back vocals) на MVSEP. Итак, вопрос к знатокам: какие существуют более продвинутые методы очистки и изоляции вокала?

Аноним 20/03/24 Срд 06:57:51 #81 №675809

>>675757
а больше и нету. только плагины UVR

Аноним 20/03/24 Срд 20:22:41 #82 №676384

А есть что-то которое музыку превращает в 8-16 бит?

Аноним 20/03/24 Срд 20:56:13 #83 №676414

>>676384
это даже не нейронки. Гугли

Аноним 20/03/24 Срд 21:27:32 #84 №676440

>>675757
https://www.lalal.ai/

очень хороший инструмент

Аноним 24/03/24 Вск 12:48:38 #85 №679714

>>673069
БАМП ВОПРОСУ

Аноним 24/03/24 Вск 13:01:39 #86 №679718

image

>>668629 >>668042 >>667996
Пытаюсь запустить этот ваш VoiceChanger. Сразу вот это.

Два вопроса:
1. На кой хер эта хрень в интернет просится? Я не для того скачал локальную нейросетку с этой пердольной консолью, чтобы она ещё и в интернет лезла.
2. Я даже не вижу, чтобы она просила разрешения в интернет. Я бы в фаерволле увидел. Она через какой-то другой сервис пытается сделать какое-то коннект? Объясните, что там включается у неё?

Аноним 24/03/24 Вск 14:10:43 #87 №679759

>>679718
Веса скачать пытается, судя по всему.
То бишь то, что за смену голоса отвечать и должно.
А ты ей не даешь.

Аноним 24/03/24 Вск 14:12:39 #88 №679760

>>679759
Уже разобрался, спасибо.

Аноним 24/03/24 Вск 15:57:21 #89 №679864

image

Как сделать собственный голос? Хочу сделать голос В. В. Пыни.
Где тут аудиофайл закинуть чтобы работало?
Оно везде какие-то модели просит.

Аноним 24/03/24 Вск 15:57:54 #90 №679867

>>668629 >>668042 >>667996
->
>>679864

Аноним 24/03/24 Вск 16:36:02 #91 №679949

>>679864
нафига вы все в этот реалтайм хотите? качай рвс и делай. Там все лучше и проще.

Аноним 24/03/24 Вск 18:43:40 #92 №680073

>>679864
Нашёл как загрузить модели с сайта. А как сделать свою собственную из аудио?

Аноним 24/03/24 Вск 19:29:38 #93 №680119

pynya1.mp4

Нейросетка фейлит происношение некоторых слогов и букв, преимущественно шипящих и свистящих (Ш, Щ, С, Ж). Как пофиксить?

Аноним 26/03/24 Втр 12:53:03 #94 №682035

>>679714
а также плагин MDX-B Karaoke (lead/back vocals) на выходе звучит так если что пока что за проблема?

Аноним 26/03/24 Втр 13:36:50 #95 №682072

17108489596640.mp4

Аноним 26/03/24 Втр 13:45:06 #96 №682079

>>680119
База на английских фонемах. Походу никак это не пофиксить, пока кто-нибудь новый беслптный инструмент не высрет без этого врожденного дефекта.

Аноним 26/03/24 Втр 13:53:15 #97 №682089

17009386865690.mp4

>>682079
Ну вот доводится слышать качественные фейки без этих проблем. Может, дело в настройке?

Аноним 26/03/24 Втр 13:57:05 #98 №682094

>>682089
Хуй знает. Ещё ни разу не слышал результат работы RVC и его форков без этих артефактов. Если есть возможность в треде или где обязательно надо спросить у людей кто такие фейки делал как добились. Может там вообще какой-то платный сервис на самом деле используется или какая диковиная хуйня не доступная бесплатно.
Я ещё помню был софт по изменению голоса от российских разработчиков (забыл как называется) и его изьяли из открытого доступа из за того что наебщики бабок по телефону моментально его на вооружение взяли.

Аноним 26/03/24 Втр 23:36:11 #99 №682891

Сап, голосовые мои. Скажите что мне из это в шапке может озвучивать текст не просто голосом диктора, а чтоб была опция, где выбрать с какой эмоцией бот будет это говорить - страх, гнев, радость и т.п.
Я видел в онлайн сервисах такой выбор. Уточняю мне надо ТТС именно с разными эмоциями на выбор, RVC я уже оформил пару месяце назад, но потом забил, чтоб потом голосом избранных персонажей говорить.

Аноним 27/03/24 Срд 11:42:39 #100 №683458

>>682891
а с голосом только силеро как то может работать. там с помощью разметки надо это делать

Аноним 27/03/24 Срд 14:08:13 #101 №683630

>>683458
У меня не устанавливается ваше костыльное силеро.

Аноним 27/03/24 Срд 19:01:56 #102 №684084

Кстати, а почему последние два треда (полгода) нет этого супер-пупер Силеро в шапке? Оно ВСЁ?

Аноним 27/03/24 Срд 21:56:47 #103 №684370

>>684084
так нету больше ничего. силеро едге все

Аноним 27/03/24 Срд 23:25:09 #104 №684502

>>684370
А чому так? Технологии древних утеряны спустя полгода?
А любят кричать зато - посмотрите какой у нас открытый исходный код, а сами на хуг фейс выжимают платную машину, чтоб нельзя было скопировать себе и не ждать в очередях.
Я пробовал сегодня ХТТС. Конечно я это программистичкое для линуксоидов устанавливать не буду и чето там в консоли писать, это пиздец кал. Но получалось оно что-то рабочее, реально из 6 секунд похожий голос получался онлайн на хуйгфейсе. Но там очереди долгиеЮ нет фич для поднастройки и копировать себе нельзя, нужна платная машина. Кал.
Остаётся реально чтоли онлайн на сайтах ИИС пользоваться где у ботов разные эмоции на выбор и в РВС преобразовывать? Нет альтернатив?
Это ж блять просто сделать моделей 8 типов людей по возрасту и полу и у каждой по штук 10 эмоций, за неделю можно натренировать. То есть уже сделали, жиды не дают пользоваться бесплатно. Два стула, что либо плати, либо жри кал с отрытым кодом костыльный линуксоидный программистический для бомжей.

Аноним 28/03/24 Чтв 00:44:19 #105 №684697

System in Chains.mp4

Эта софтина Ultimate Vocal Remover из шапки просто золото среди говна! Бесплатная, да и то ещё не для программистов-аутистов.
Я так охуел и не ожидал, что сразу на радостях сделал аи кавер.

Аноним 28/03/24 Чтв 14:33:05 #106 №685491

>>684502
пока альтернатив реально нет( Ждем всем тредом годную альтернативу еджттс и силеро

Аноним 28/03/24 Чтв 14:57:16 #107 №685519

>>684502
> А любят кричать зато - посмотрите какой у нас открытый исходный код
Тот кто в аср/ттс крутится знает, что силеро потом кричит "хули вы пользуетесь нашим открытым кодом, там в 78 строчке лицензимонного соглашения написано что вам нам должны бабок".
Силеро всегда была компанией-пидорасом, на неё лучше не ориентироваться.

Аноним 28/03/24 Чтв 18:01:09 #108 №685821

Блять как же заебало. У меня в RVC ошибка с обучением модели КУДА ран оф мемори и не трейнит, че только не пробовал, и меньше требования ставил и форумы читал, анальники хуебясят на форумах и ютубах и тратят моё время. Как-то сам допёр и обновил models.py и заработало. Почему не могут делать говно чтоб работало искаропки?
Такое чувство будто они разрабатывают это всё, но сами не пользуются совсем. А нах делать тогда, если деньги даже не платят??

Аноним 28/03/24 Чтв 19:04:45 #109 №685878

>>685821
брат. какая карта?

Аноним 28/03/24 Чтв 19:55:43 #110 №685946

>>685878
3060, ну у меня размер пачки больше и не тянет.

Аноним 28/03/24 Чтв 19:59:44 #111 №685948

>>685946
а. тогда хз

Аноним 28/03/24 Чтв 20:08:49 #112 №685950

>>685946
>ну у меня размер пачки больше >>12<< и не тянет
фик. куда цифра проебалась?

Алсо странное - я тренил две модели с 250 эпохами, а потом с 700. Думал что вот щас качество так качество услышу, а стало хуже, больше электронных звуков голоса робота стало. Как же так? Это не повезло просто или слишком много нельзя?

Аноним 29/03/24 Птн 20:24:45 #113 №687390

Слушайте, а можно ли как-то обучить чужую карточку персонажа с вей.гг другой карточкой, которая обучена на кумерскиъ стонах, чтоб первая карточка стонала в характере персонажа, не? Или даже думтаь не стоит? Надо ведь собирать звуки с этим оригинальным персонажем?
И допустим если я соберу звуки и сделаю свою маня карточку только со стонами и ахами этого персонажа, то можно её влить в чужу карточку с этим персонажем или хуйня получится и надо полностью свою со всей базой всего генерить?

Аноним 30/03/24 Суб 02:50:13 #114 №687686

17117389920761.mp4

Аноним 04/04/24 Чтв 05:19:50 #115 №692858

Мне нужно озвучивать огромные объёмы текста на русском. Пока что лучше всех с этим справлялся Evenlabs, но перебанили все аккаунты + бан по ip, а платить разумеется не хочется. А даже если и платить, мне никакой подписки не хватит для моих объёмов. Есть ли альтернативы или обход блокировки? (впн, прокси, тор не канают)

Аноним 05/04/24 Птн 03:13:44 #116 №693750

Сап! Есть аудио, в котором поверх одного голоса говорит второй. Есть нейронки чтобы эти голоса прилично разделить? Или еще не доросли до такого? Пробовал MDX-B Karaoke на mvsep, но хуйня. Или я че не так настроил?

Аноним 05/04/24 Птн 13:51:33 #117 №693979

>>692858
https://huggingface.co/models?pipeline_tag=text-to-speech&sort=trending

Аноним 07/04/24 Вск 05:36:04 #118 №696009

Искал софт для озвучки книжек, перепробовал 100500 моделей. В итоге остановился на Demagog с моделью silero tts. Все остальное оказалось хуйней.

Аноним 12/04/24 Птн 16:19:49 #119 №701669

>>696009
> В итоге остановился на Demagog с моделью silero tts.
Покажи примеры лучшего, что получилось.

Аноним 12/04/24 Птн 21:36:44 #120 №701964

>>701669
https://voca.ro/1mF42vRbMAYg

Аноним 13/04/24 Суб 18:22:48 #121 №702958

image

>>701964
Это же невозможно слушать.
Оно даже не там смысловые ударения ставит. Причём не просто на уровне плохой актёрской игры, а на уровне банальном, натурально проваливает точки и запятые.
И это всего три минуты, из которых я с усилием дослушал две. Как такую белиберду целый час слушать не представляю.
Скажи честно, это ты такой лоускилл, что не смог настроить её нормально, или нейросетка в целом такая отстойная? Не имею цели тебя обидеть, если что.

Аноним 13/04/24 Суб 19:04:52 #122 №703003

16052627578480.png

>>702958
Настроить можно так что от живой речи не отличить.
Но нужно править сам текст вручную и расставлять ударения плюсами. Никто для разового прослушивания - подобной хуйней заниматься не будет. За 3 минуты там пяток неправильных ударений что более чем годно. Конкурирующие нейросетки выдают либо такой же либо худший по сравнению с этим результат, но у этой есть плюс в виде автономной работы без ограничений. Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работает почти все время в ускоренном режиме и сам адаптирует качество до приемлемого. Люди не понимают что мозг очень гибкий инструмент и он может сам адаптироваться, всего день прослушиваний и мозг сам начнет правильно выставлять ударения при прослушивании и ты перестанешь замечать какие либо шероховатости.

Аноним 14/04/24 Вск 00:45:56 #123 №703441

>>703003
> Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работа
Как в таком порядке можно вообще что то услышать, понять и главное прочувствовать из книги? Это художественное произведение, а не состав продукта "говяжьи анусы идентичные натуральным". Тут важны игра образов, слова, атмосфера, почище, чем в кино, собственное осознание. Это не краткий пересказ послушать. Я уже писал про то что и на стандартной скорости этот кал слушать невозможно

Аноним 14/04/24 Вск 00:46:32 #124 №703443

>>703003
Спасибо, не имею желания адаптироваться к хуёвым продуктам; предпочитаю нормальное качество.

Аноним 14/04/24 Вск 09:53:41 #125 №703658

>>703441
>>703443
Дураки вы. Мозг очень быстро адаптируется и сам переключает передачи. День два тренировок и вы будете воспринимать скорость в 240% как 100% даже не понимая на какой скорости вы сейчас смотрите\слушаете. Это те кто никогда ничего не слушал на ускорении думает что там каша получается, но со временем мозг вырабатывает свои режим работы и вы будете понимать и игру слов и интонации и вообще будете смотреть на себя в прошлом как на дурачков что проебали кучу времени. Недавно я попробовал посмотреть Дюну Вильнева на 100% так чуть не сдох от уныния, как я раньше вообще смотрел фильмы на такой скорости не пойму. 200% это минимальная комфортная скорость для потребления контента.

Мозг всегда сам настраивает восприятие течения времени и имеет встроенный эквалайзер. Раньше я думал что аудиофилы прогревают наушники после покупки но потом понял что прогревается именно мозг. Мозг сам меняет восприятие и занимается выравниванием АЧХ. Мозг всегда занимается адаптацией своих функций хотите вы этого или нет.

Аноним 14/04/24 Вск 10:31:51 #126 №703664

>>703658
Ебать шизик тиктокоголовый. Какая каша у тебя в голове боюсь представить. Ни о каком запоминании и восприятии тут естественно не может быть и речи.

Аноним 14/04/24 Вск 11:52:54 #127 №703710

>>703664
Каша у тебя в голове. Но ты этого не поймёшь пока сам не попробуешь.

Аноним 14/04/24 Вск 17:26:10 #128 №704033

Анонче, поделитесь если у кого есть гайд установки coqui-ai/TTS на WSL2. Или для запуска через Docker. Не хочется винду говнять миллиардом библиотек

Аноним 14/04/24 Вск 22:01:32 #129 №704331

Подскажите хорошую speech-to-speech модель для русского женского голоса. Просто хочется потраллировать чуваков в воис чате. Англоязычных моделей полно, но они все шепелявят, когда говоришь на русском. Русские ищу по конкретным персонажам, которые в голову приходят, но обычно оказываются низкокачественные. Мне бы хоть какую-нибудь, лишь бы был женский голос и правдоподобно звучал.

Аноним 14/04/24 Вск 23:44:57 #130 №704430

>>704331
сенко или некоарк

Аноним 15/04/24 Пнд 15:47:20 #131 №704822

image

Почему Voice changer w-okada не работает без подключения к интернету? Нейросетка же загружена локально, модели тоже.

Что я делаю не так?

Аноним 17/04/24 Срд 00:53:51 #132 №706512

>>704822
Че делать если все скачал но при двойном нажатии на файл start.http ничего не происходит?

Аноним 17/04/24 Срд 17:27:03 #133 №707388

>>706512
Мутировать в гидралиска.
не знаю

Ананасы, помогите заплатить барыгам на Plati.Market Аноним 17/04/24 Срд 21:24:48 #134 №707602

image.jpeg

Раз в несколько месяцев я набираю себе воду из родничка подписки на ElevenLabs - сделать это можно только через Plati.Market, потому что наши карты (особенно Беларуси) зарубежные сервисы не принимают.

Раньше я делал это через любого доступного барыгу: выбирал в способах оплаты карту Казахстана и оно пропускало. Со временем кто-то пораскинул своими тремя извилинами и убрал этот способ, так что пришлось переходить на Киви - итог известен.

Я конечно понимаю, что переводы денег между Россией и Беларусью это охуеть какая сложная международная задача уровня Мстителей, но неужели не осталось больше никаких способов, кроме ЮMoney (бывший яндекс-кошелёк, который не даёт себя пополнить без скана паспорта на фоне жопы в трёх проекциях)?

В наличии есть беларуская карта МИР, которая нормально оплачивала в России, но у барыг конкретно такого варианта нету. Крипта тоже не пойдёт, её тут хуй купишь без мозгоебли и тех самых фоток с жопой (или я чего-то не знаю). Если кто-то тоже попал в такую ситуацию, то напишите пожалуйста, если остался какой-нибудь рабочий способ

Аноним 17/04/24 Срд 21:50:41 #135 №707628

>>707602
прикладывай фото к жопе и заводи юмани, не выёбывайся.

Аноним 17/04/24 Срд 22:02:51 #136 №707640

>>707628
Да если бы только жопу прислать, как когда-то в вебмани, и всё - там же целая куча мозгоебли, которую принимает лишь один банк. Ещё и взнос такой, будто я медицинскую страховку открываю, а не электронный кошелёк

Аноним 17/04/24 Срд 22:37:10 #137 №707687

>>707640
белинвестбанк прикручивай и всё. они сами фотки твоего ануса в союзное государство перешлют.

Аноним 17/04/24 Срд 23:25:17 #138 №707745

>>707602
Зачем платить ElevenLabs если silero tts выдает такое же качество но при этом бесплатно и без ограничений?

Аноним 18/04/24 Чтв 13:15:47 #139 №708286

>>707745
>silero tts
Да не, это буквально небо и земля

Аноним 18/04/24 Чтв 14:07:47 #140 №708368

>>708286
Ну как знаешь. Я вбивал неподготовленный текст в обе модели и обе модели обсирались в одних и тех же местах. У меня вообще сложилось впечатление что это одна и та же модель но с разными голосами.

Аноним 18/04/24 Чтв 16:00:14 #141 №708533

Кто-нибудь слышал про забугор.рф? Они оплачивают подписки своими картами по идее

Аноним 18/04/24 Чтв 16:12:56 #142 №708562

ElevenLabs.mp4

>>708368
>вбивал неподготовленный текст
Ну вот что у меня выходит.

Тупо залил аудио из вот этого видео
https://www.youtube.com/watch?v=Kmy7h7lSSPg
Нажал Instant Voice Cloning, вбил текст, и все.

Аноним 19/04/24 Птн 00:02:24 #143 №709268

Аноны, у меня технический вопрос по железу.
Если пользоваться локальными моделями, то на что лучше обращать внимания по железу т.к. в скором времени хочу сменить компуктер.

Аноним 19/04/24 Птн 13:39:56 #144 №709754

>>709268
Видюха с поддержкой CUDA а больше требований и нет.
Да и локальных моделей раз два и обосрался.

Аноним 21/04/24 Вск 01:33:40 #145 №711998

>>704822
БАМП ВОПРОСУ

Аноны, подскажите

Аноним 21/04/24 Вск 01:48:43 #146 №712018

>>711998
Ставь Wireshark и анализируй трафик куда он обращается.

Аноним 21/04/24 Вск 19:05:13 #147 №712691

Есть опенсорс ТТСки которые могут в эмоции?

Аноним 22/04/24 Пнд 00:02:05 #148 №713154

>>684697
Что за хуйню ты сделал? Невозможно слушать

Аноним 22/04/24 Пнд 12:13:45 #149 №713572

image.png

>>664162 (OP)
Аноны, нейрокаверы вам в хату, такой вопрос - как переделать голос с мужского на женский и вообще реально ли это? Я записываю свой и на женской модели полный треш выходит. Делать высокий pitch тоже не помогает. Но при этом когда я даю модели запись голоса какой нибудь тянки, то плюс минус похоже получается.

Аноним 22/04/24 Пнд 14:00:46 #150 №713729

image.png

>>664162 (OP)
так почему нет выхлопа и куча ошибок

Аноним 22/04/24 Пнд 15:23:49 #151 №713803

>>712691
Сам натренируй.

Аноним 23/04/24 Втр 17:56:06 #152 №715145

image.png

>>713729

Аноним 24/04/24 Срд 00:22:25 #153 №715693

>>715145
Как я путь не менял не находит

Аноним 25/04/24 Чтв 20:32:41 #154 №717741

>>664162 (OP)
Аноны, дайте всю базу, если я хочу себе натренить голоса 2д девочек для moe-tts или что там сейчас топовое вышло. Еще что-то нужно сделать с эмоциями и интонациями. Вроде есть какой-то параметр питча, который в теории можно было бы менять прямо во время фразы. Но находил только какой-то университетский дроч. В общем, если кто-то что-то знает, подскажите.

Аноним 26/04/24 Птн 01:39:06 #155 №718006

>>664162 (OP)
Какая сейчас актуальная база для тренировки своей модели?
Обновления выходили для RVC? Или ещё какие модели появились?

Аноним 26/04/24 Птн 11:54:38 #156 №718208

Где можно бесплатно и реалистично клонировать свой голос для работы с русским языком?

Аноним 26/04/24 Птн 14:13:50 #157 №718331

где надыбать каественных образцов голоса к xtts2 ?
может какой то архив есть с wav?

Аноним 26/04/24 Птн 16:29:26 #158 №718490

>>718208
бамп вопросу

Аноним 27/04/24 Суб 19:49:02 #159 №719957

Нужно быстрая ттс модель + стс чтобы преобразовать ее в нужный голос, для реалтайм чатбота. Попробовал xtts v2, но он медленный как жопа даже на сторонней апишке. Есть какая-нибудь средняя по качеству моделька на 400кк параметров которая может в русский и быстрая конвертация в другой голос?

Аноним 28/04/24 Вск 21:02:35 #160 №720991

RVC Web UI грузит процессор не на полную, генерация происходит медленнее чем хотелось бы. Чзх

Аноним 29/04/24 Пнд 14:04:05 #161 №721611

>>683630
Я в одном из прошлых тредов писал свой опыт по установке этого говна. В общем там черех жопу надо скачивать модель с сайта силеро, с директории, на которую ниоткуда нет ссылок, так что найти ее можно только подрочив в присядку. Не советую начинать ставить силеро, так как тот же AllTalk на порядки лучше.

Аноним 29/04/24 Пнд 14:14:14 #162 №721620

>>718331
Я отсюда беру голоса https://www.kaggle.com/datasets/rtatman/speech-accent-archive

Аноним 29/04/24 Пнд 14:18:14 #163 №721623

>>721620
Кстати, еще ни разу до конца списка не доходил. В последний раз отвалился, как наевшийся клещ, к концу английских голосов.

Аноним 30/04/24 Втр 12:57:38 #164 №722348

https://www.youtube.com/watch?v=ciyEsZpzbM8

как вам?

Аноним 30/04/24 Втр 14:15:17 #165 №722381

>>722348
Вот если бы еще делали плавный переход между idle состоянием и разговором, то я бы даже захотел себе какую нибудь такую ассистентку запилить.

Аноним 30/04/24 Втр 15:28:53 #166 №722421

>>722381

https://www.youtube.com/watch?v=hPS7dtJn00s
https://www.youtube.com/watch?v=en6uW595DM8

Оно раньше было еще хуже, но автор подошел к делу со страстью и всего за два месяца такой прогресс. Надеюсь он не забросит проект. По сути он ничего нового не делает, а просто оптимизирует рабочие варики. Если судить по старым видео раньше он вообще использовал нейронки яндекса, гугла и говнАлису.

Аноним 30/04/24 Втр 17:59:21 #167 №722542

Почему Суно из дк выпилили модели нейронки? У меня с сайтом давно проблемы, ничего генерить не выходит. Вылетает при каждом удобном случае, как с впн, так и без. С разных устройств

Аноним 02/05/24 Чтв 03:48:30 #168 №723852

Tech-Priest.mp4

>>665008
> 4
Так проиграл, что сделал свою версию, и проиграл ещё больше.

Аноним 02/05/24 Чтв 10:58:34 #169 №723956

>>704822
БАМП ВОПРОСУ
У вас так же?

Аноним 02/05/24 Чтв 11:09:46 #170 №723960

image

>>713572
Чем записываешь? Какие модели юзаешь?

>>721620
А где там голоса брать?

Аноним 03/05/24 Птн 21:00:33 #171 №725068

Хелп срочно нужна модель голоса володарскокого

Аноним 05/05/24 Вск 00:46:02 #172 №726575

>>725068
Такая?
https://vocaroo.com/1eS9FaFJ62UE

Аноним 06/05/24 Пнд 18:03:52 #173 №728827

Есть идеи как они делают это переозвучивание?

https://www.youtube.com/watch?v=stPt86RN5Bo
https://www.youtube.com/watch?v=fH_sZkZ6Fjc

Хочу срочно инструмент который выдает такое топ качество.

Аноним 07/05/24 Втр 01:07:01 #174 №729665

>>728827
В коментах автор же написал 11 labs

Аноним 08/05/24 Срд 14:58:55 #175 №731819

reverieng.mp4

reverirus.mp4

>>729665
>В коментах автор же написал 11 labs
Действительно. Спасибо.

Интересует именно дубляж. Но автодубляж не тащит. Платные планы позволяют фиксить пере0еденный текст и ударения?

Так же халявный план не позволяет загружать аудио, только видео. Я в ffmpeg прицепил к mp3 изображение залитым одним цветом для меньшего веса:
ffmpeg -loop 1 -i input.jpg -i input.mp3 -vf "scale=640:480:force_original_aspect_ratio=decrease,pad=640:480:-1:-1:color=black,setsar=1,format=yuv420p" -shortest -fflags +shortest output.mp4

Но вы все скорее всего все это уже знаете. Когда указал как источник минутный ютуб ролик, оно уже пол часа его обрабатывает.

Аноним 08/05/24 Срд 16:35:37 #176 №731945

Проебал ссылку на билиотеку с войс моделями
На каждую поп-певичку по 100 моделей на каждую эру, и видно какая модель самая залайканая.

Аноним 08/05/24 Срд 17:05:46 #177 №731981

1715177146755.jpg

>>731945
Сам спросил сам ответил, weights.gg

Аноним 09/05/24 Чтв 00:32:12 #178 №732562

>>731981
Ужос какой-то. Все голоса как будто исполнены пьезоэлектрической зажигалкой или микросхемой из тостера.

Аноним 09/05/24 Чтв 00:34:38 #179 №732568

>>732562
Хотя нет, напутал - не микросхемой, а реле. Не все знают, кстати, что старинные реле можно использовать в качестве динамика.

Аноним 09/05/24 Чтв 08:19:13 #180 №732685

>>731819
Бесплатный аккаунт позволил скачать только первый голосовой перевод. Все остальные попытки что-то перевести не позволяют скачать результат, только прослушать первые 3-5 секунд.

Интересно если создать еще один бесплатный аккаунт, вычислят ли меня что я пытаюсь обойти их жадность?

Аноним 09/05/24 Чтв 09:34:30 #181 №732693

>>726575
да

Аноним 10/05/24 Птн 16:35:02 #182 №734104

>>732693
Но это не нейронка.

Аноним 10/05/24 Птн 18:49:05 #183 №734305

Слушайте, а как в RVC перегнать в желаемый голос всякие нестандартные голосовые звуки, т.е. не речь, а всякие крики, стоны, визги, мычания, ну вы понили.
Я пробовал разные модели с weights.gg, но получается коряво, присутствую разрывы и странности, артефакты. Всё потому что они натренерованы под речь, а надо тренировать специально под что описал выше, да?

Аноним 12/05/24 Вск 13:51:48 #184 №736115

welcome to le club buddy.mp4

>>664162 (OP)

Аноним 14/05/24 Втр 20:14:44 #185 №739422

>>664162 (OP)
У кого сейчас самое лучшее коммерческое решение синтеза речи? Планирую запилить свое собственное и выйти на азиатские рынки, надо посмотреть какое говно имеют сейчас мои конкуренты.

Аноним 14/05/24 Втр 20:37:41 #186 №739458

>>739422
(((а таки какое у тебя? поделись кодом)))

Аноним 16/05/24 Чтв 00:37:03 #187 №741117

>>664790
ты про suno?

Аноним 19/05/24 Вск 00:23:12 #188 №746102

>>732568
Если ты про ту хуйню с май бэби лавс ми, то это не показатель. Там надо качать и в деле слушать.

Аноним 20/05/24 Пнд 09:51:01 #189 №748212

Анон, а для голосовых нейронок(TTS) есть интерфейс вроде автоматика для картинок или убабуги для текста?
Что бы в него просто подкидывать модели и пользоваться.

Аноним 20/05/24 Пнд 15:09:31 #190 №748740

>>748212
тебе для какой?

Аноним 21/05/24 Втр 14:16:30 #191 №750257

>>748740
Для Silero или для Tera.
Для текстовых нейронок можно в разных форматах качать и все работает в одном интерфейсе, а для генерации текста в речь как то все сложно.

Аноним 21/05/24 Втр 15:34:00 #192 №750357

>>750257
Ну для силеро веб гуи есть мое. Вот ссылка. https://github.com/hinaichigo-fox/rus-silero-webui
вот кстати и для едж ттс https://github.com/hinaichigo-fox/rus-edge-tts-webui

Аноним 22/05/24 Срд 03:56:57 #193 №751214

alltalk.PNG

>>748740
У alltalk есть. В http://localhost:7851 все настройки и генерация текста.

Аноним 22/05/24 Срд 04:04:03 #194 №751217

>>746102
Я про реле, которые в жлектрических приборах. Я в детстве подключал к радиоточке и оно транслировало передачу, даже голос можно было разобрать постаравшись.
А если про голоса - то я на том сайте прослушал рандомно из списка десяток, и все как на подбор откровенно искусственные, так что даже ухо режет. Вот например в Alltalk если положить в voice более или менее качественный файл с исходным голосом, то результат будет хуманизированный, и только по возможным багам можно понять, что это все сгенерировано.

Аноним 22/05/24 Срд 10:42:15 #195 №751396

А как подменить слова в песне на свои тем же голосом?

Аноним 24/05/24 Птн 06:53:10 #196 №754503

але мале нах. че там ваши нейросети умные да? Чат жпт на тоннах книг учился. а где нейронка для того чтоб любую песню на аккорды разбить?

Аноним 24/05/24 Птн 09:49:24 #197 №754610

>>754503
https://www.mazmazika.com/chordanalyzer

Аноним 24/05/24 Птн 10:54:36 #198 №754666

>>754610
а опен сурс????

Аноним 24/05/24 Птн 10:58:39 #199 №754675

>>754666
А хуев тебе не завернуть?

Аноним 24/05/24 Птн 11:37:40 #200 №754735

>>754675
заверни.. главное чтоб с открытым иходным кодом

Аноним 24/05/24 Птн 18:09:01 #201 №755274

Как в Edge TTS ударения ставить?

Аноним 25/05/24 Суб 07:30:30 #202 №756425

Купил подписку на Elevenlabs самую дешманскую, пробую создавать модели и генерить текст. Сам голос в принципе неплох, но я не могу понять, как заставить ее расставлять ударения в нужных местах, а также выдавать нужные эмоции в определенных местах.

Аноним 25/05/24 Суб 07:56:53 #203 №756435

>>755274
по слогам разбиваешь слово

Аноним 29/05/24 Срд 17:51:59 #204 №763174

Сделал модель в RVC, но так и не понял как делать TTS с использованием моей модели. Подскажите плез, а то все что лазил из шапки - там уже встроенные модели. Или придется сначала делать текст - готовый голос - голос из модели?

Аноним 30/05/24 Чтв 07:55:48 #205 №763938

>>763174
сначала озвучиваешь простым ттс а потом в рвс его

Аноним 31/05/24 Птн 08:24:43 #206 №765265

Доставьте видос, где неко арк с огромными ушами говорит "ну говори, я тебя слушаю".
Вроде сохранял, а найти немогу.

Аноним 31/05/24 Птн 08:32:27 #207 №765268

мем неко арк #некоарк #мем #некоарк #fyp [j9onbuTRWeM].webm

>>765265
Нашёл в гугле, если есть лучше качество то доставьте, пожалуйста.

Аноним 02/06/24 Вск 00:25:25 #208 №767035

image.png

video2024-06-0123-50-26.mp4

Аноны, нуждаюсь в голосовой модели Вилл из чародеек. Не нашел, возможно не там искал, а возможно и нет вообще. долго ли и сложно ли натренить самостоятельно?

Аноним 02/06/24 Вск 02:23:55 #209 №767158

anekdot.mp4

Аноним 02/06/24 Вск 21:41:15 #210 №767912

Аноны. На меня опять нашло вдохновение. И я стал опять озвучивать пасты голосом артаса. Озвучу любую. Пишите в тред!

Аноним 03/06/24 Пнд 15:25:49 #211 №768664

>>767912
Батины травы

Аноним 03/06/24 Пнд 15:38:56 #212 №768673

>>768664
https://voca.ro/1aJJguTL4cvk

Аноним 04/06/24 Втр 01:00:04 #213 №769388

>RVC
Оно вздохи пуки когда-нибудь будет нормально конвертировать в персонажей?

Аноним 04/06/24 Втр 23:04:22 #214 №770545

1683958131197675673.png

Аноны, посоветуйте нейронку на подобии elevenlabs, точнее её функции дабинга и возможностью stt. Дико впадлу обучать модель 10 секундного отрывка просто потому что захотел другую интонацию.

Аноним 04/06/24 Втр 23:13:21 #215 №770554

Вопрос. А как в обучении голосовой модели воспринимаются паузы менее чем в пол секунды и единый поток звука без них? Хуево понимаю каков идеал датасета, к которому стоит стремиться и на котором стоит основываться

Аноним 06/06/24 Чтв 02:17:46 #216 №772162

Приветствую, аноны. Стал с недавних пор вкатываться в аудио-нейронки в реальном времени и есть несколько вопросов.

1. Многое ли изменилось с тех пор, как появились аудио-нейронки? Было ли что-то доработано, исправлено или просто добавлено?
2. Какие косяки имеет нейронки в рил тайме? Я так понимаю, что нейронки палятся на смехе, вздохе или попытке сделать громкий звук? Первый вопрос касается второго, так как вдруг что-то, что я вкратце перечислил, было пофикшено.
3. Возможно ли использовать нормально модель голоса женщины, будучи парнем? У самого голос средний, может звучать как девичий, так и мужской. Думаю если отрыть норм модель голоса по эпохам и покрутить тоналку, то пойдёт.
4. Какие видеокарты щас можно использовать для того, чтобы нейросетка работала грамотно рилтайм, без лагов? Желательно, чтобы не свыше 100к, до 50к. Видел где-то РТХ в ДНС и на Озоне за 30-40к. Но это всё желательно, приму любые советы анона.

Благодарю всех за ответ заранее.

Аноним 06/06/24 Чтв 11:50:51 #217 №772424

>>772162
30 серии нвидиа карты

Аноним 08/06/24 Суб 04:58:25 #218 №775092

Друзья, можете дать хорошую rvc модель Путина, я несколько пробовал, но не очень похоже, с тюном игрался и как то не выходит

Аноним 08/06/24 Суб 08:10:53 #219 №775159

>>775092
только сам...

Аноним 08/06/24 Суб 09:12:31 #220 №775201

>>775092
не доверяй никому. делай все сам. собирай датасет и делай!

Аноним 08/06/24 Суб 12:31:42 #221 №775424

>>775201
Это вообще дебри для меня. Я не очень знаю, как это делать

Аноним 08/06/24 Суб 12:49:52 #222 №775454

>>775424
надо учиться! Это очень интересно. Сначала сделай датасет хороший. Советую минут 15-20. Когда сделаешь такой с речью Путина то пиши

Аноним 08/06/24 Суб 16:39:45 #223 №775869

>>767035
Я создал
https://www.weights.gg/ru/models/clx62yo2l02g211lceihx0a30

Аноним 08/06/24 Суб 17:08:20 #224 №775930

аноны, а что лучше юзать harvest или crepe в войс чейнджере, а также сколько выставлять в параметре S.Tresh

Аноним 08/06/24 Суб 18:16:12 #225 №776021

>>775930
crepe если карточка норм

Аноним 09/06/24 Вск 01:51:17 #226 №776440

Друзья, а вообще сложно создавать свои датасеты, просто хочу начать это делать.. Может будет максимальная схожесть, если буду делать сам? И где гайды можно почитать и посмотреть?

Аноним 09/06/24 Вск 21:04:56 #227 №777399

>>776440
ты про какие датасеты? для рвс? Ну вообще в идеале 15-20 минут чистой речи. И тогда 250-300 эпох ну или выше офигенно будет все

Аноним 10/06/24 Пнд 20:09:05 #228 №778722

аноны, можете дать скрипт для kaggle или можно коллаб для создание модели RVC

Аноним 10/06/24 Пнд 20:42:18 #229 №778769

>>778722
https://t. me/pol1trees

Аноним 11/06/24 Втр 00:30:52 #230 №779212

друзья, а как правильно делать датасет, я вот отрыл несколько аудио, переформатировал в wav и потом просто объединить их все в Audacity (очистить шумы и тд) в один wav файл и просто в коллаб?

Аноним 11/06/24 Втр 00:59:13 #231 №779244

>>779212
Если ты про RVC, то да, одним файлом норм будет. RVC во время препроцессинга сам файлы на короткие чанки нарежет длиной по 4 секунды:
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/Instructions-and-tips-for-RVC-training#audio-split

Аноним 11/06/24 Втр 01:02:14 #232 №779248

>>779244
Спасибо огромное, а сколько будет достаточно, чтобы длился wav файл. Я слышал, что вроде 20 минут уже нормально

Аноним 11/06/24 Втр 01:09:00 #233 №779256

>>779248
Я не думаю, что кто-то тебе точные цифры по оптимальному размеру датасета сможет сказать - тема голосовых нейронок довольно нишевая, по сравнению с картинками/текстом.

В разных гайдах советуют от пяти минут (но с большим охватом спектра голоса), до часа. Я видел хорошие модели на 20 минутах, так что должно хватить.

Аноним 11/06/24 Втр 01:27:01 #234 №779268

>>779256
Спасибо за полезную информацию

Аноним 11/06/24 Втр 18:12:18 #235 №780340

аноны, а есть колабы для создания RVC, но где только еще crepe метод присутствует

Аноним 14/06/24 Птн 09:51:25 #236 №785494

Ещё не приручили озвучивать русских дубляжеров?

Аноним 14/06/24 Птн 12:43:48 #237 №785679

>>785494
А зачем, если русский текст тебе озвучит любая, даже японская.
Мне наоборот нравится изначально азиатских брать и озвучивать русское.

Аноним 16/06/24 Вск 10:09:09 #238 №788591

image.png

ElevenLabs не переводит лицензированные видосы / клипы, как-то можно обмануть или через что-то другое лучше сделать? Условно там клип сменима на адекватный русский. Не обязательно клип, просто мп3-ишка.

Аноним 16/06/24 Вск 22:35:21 #239 №789616

image.png

Почему не устанавливается XTTS-v2 для Windows 11?
Я сука уже как мог ебался, и всё упирается в эту ошибку.

Аноним 17/06/24 Пнд 14:40:10 #240 №790377

Друзья, в этом колабе уже есть аудио сплитер встроенный или нужно будет самому?
https://colab.research.google.com/drive/1mHKTGH5e3SAyDSBss1KtiYRbDdQzwSMs#scrollTo=POL0YLuyZN5H

Аноним 17/06/24 Пнд 21:26:20 #241 №790979

есть сайт с большим выбором языковых моделей?

Аноним 17/06/24 Пнд 21:28:13 #242 №790983

>>790979
в смысле?

Аноним 17/06/24 Пнд 21:29:42 #243 №790986

БАМП

Аноним 17/06/24 Пнд 21:43:11 #244 №791017

>>790983
ну вот TeraTTS например, там только 4 модели, хочется онлайн интерфейс с большим выбором моделей ну и фри конечно же

Аноним 18/06/24 Втр 01:43:02 #245 №791264

Напомните канал в дискорде, где выкладывают модели.