24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

TTS тред #2 - Text To Speech /tts/

 Аноним 22/05/23 Пнд 14:37:29 #1 №314948 
1684755449198.mp4
Обсуждаем оффлайновые генераторы речи и делимся результатами, для чего сначала конвертируем аудио в видео.

Что есть на сей день:

Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS.
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.
https://github.com/voicepaw/so-vits-svc-fork

Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI (по совместительству онлайн генератор речи, так что оффтоп в нашем треде) - https://dmkilab.com/soundworks - Tools \ Video \ Produce still video
Аноним 22/05/23 Пнд 15:32:47 #2 №315044 
>>314948 (OP)
Бля, прикрутите это к таверне, плез.
Аноним 22/05/23 Пнд 15:35:06 #3 №315046 
>>315044
у таверны есть 11 labs
Аноним 22/05/23 Пнд 15:37:02 #4 №315049 
>>314948 (OP)
пробовал vits-svc, на huggingface куча моделек
в реалтайме плохо успевает, а вот с записями работает вообще хорошо
Аноним 22/05/23 Пнд 15:37:35 #5 №315050 
>>315044
ах да, загугли sillytavern
Аноним 22/05/23 Пнд 15:46:45 #6 №315064 
Почему не запилили в шапке ссылку на предыдущий тред?
Аноним 22/05/23 Пнд 16:03:50 #7 №315080 
>>315049
скидывай результат
Аноним 22/05/23 Пнд 21:30:44 #8 №315641 
>>315064
Тоже верно. Предыдущий тред тонет тут:
https://2ch.hk/ai/res/88212.html
Аноним 22/05/23 Пнд 21:36:31 #9 №315649 
>>315643 →
> Ну в смысле? Нейросетка не способна распознать, что на записи два разных голоса присутствуют? Возможно нет в попенсурс доступе. Я конечно, понимаю, что архитектура в данном случае ещё сложнее будет, часть просто должна уметь распознавать, а другая часть ещё и отличать и узнавать голос

Да, не способна. Это текущий проект, как дополнение к Висперу, но пока работает никак. И это как раз опенсорс, просто не работает. У тебя есть конкретная задача для этого?
Аноним 23/05/23 Втр 08:34:24 #10 №316226 
Новое видео.mp4
>>315080
Аноним 23/05/23 Втр 22:22:33 #11 №317529 
>>316226
Там есть нормальный бабский голос без американского акцента? Перепробовал все из майлителпони, а в остальных вообще хуй пойми что на хугинфейсе.
Аноним 24/05/23 Срд 06:22:03 #12 №318054 
>>317529
ignorethis/so-vits-svc-4.0-ruvtubers
fnx/so-vits-svc-4.0-ru-saya
Аноним 25/05/23 Чтв 01:21:28 #13 №319953 
TZCh3.mp4
>>318054
Годно, спасибо.
Кстати, там не появилось новых утилит для работы c этой нейронкой? Питон скрипт который нарезает часовой аудиофайл на много маленьких по 10 секунд или ещё что-нибудь.
Не програмист и хз как такое искать.
Аноним 25/05/23 Чтв 06:00:45 #14 №320198 
>>319953

Да, есть такой скрипт.

https://github.com/flutydeer/audio-slicer
Аноним 26/05/23 Птн 10:18:53 #15 №322413 
товарищи аноны, а есть какая-нибудь инфа по тренировке своих голосов для Silero-models? а то разрабы так класно расхваливают свое детище, а годный функционал прикрыли...

или может есть другие годные TTS модели с воис клоном, и желательно поддержкой укр. ?

PS. капча с каждым днем все дибильнее
Аноним 26/05/23 Птн 13:27:14 #16 №322652 
https://www.youtube.com/watch?v=-JcvdDErkAU
Аноним 26/05/23 Птн 13:56:45 #17 №322714 
>>320198
Круто!
Аноним 26/05/23 Птн 17:59:31 #18 №323090 
>>322652
эх, лучше б TTS с пормальными голосами подвезли, чтобы текстовку озвучивать можно было,
(ибо комерческая ценность переозвученных песен в большинстве близка к нолю)
Аноним 26/05/23 Птн 19:48:59 #19 №323264 
>>323090
>комерческая ценность
сразу нахуй
Аноним 26/05/23 Птн 21:38:56 #20 №323576 
>>323090
> комерческая ценность
В большинстве случаев обратно пропорциональна культурной ценности.
Аноним 26/05/23 Птн 21:42:37 #21 №323594 
>>323090
ничто не мешает конвертнуть обычный голос tts в другой
Аноним 27/05/23 Суб 00:28:43 #22 №324030 
Untitled.webm
Аноним 27/05/23 Суб 00:54:18 #23 №324070 
>>324030
где блять нахуй сука сука блять?
не канон.
Аноним 27/05/23 Суб 01:09:17 #24 №324107 
>>323576
та какая разница с чем коррелирует, можно подумать Моргенштерн голосом ВинниПуха сильно культурно ценный

>>323594
Можно, но двойная ж конвертация выходит, больше времени, больше вероятность артефактов, ну и главное, пока что большинство TTS плохо в эмоции, а иногда и в ударения...
Аноним 27/05/23 Суб 01:10:59 #25 №324111 
>>324030
неплохо зачитывает, голос правда, шо робот по СВ рации
Аноним 27/05/23 Суб 04:18:05 #26 №324268 
ауд иокнига.webm
Аноним 27/05/23 Суб 06:28:37 #27 №324332 
>>324107
зато будет достаточно одной модели, которая хорошо в эмоции, а остальное поверх можно надстроить
Аноним 27/05/23 Суб 13:33:28 #28 №324551 
>>324332
если нормальный голос и эмоции будут то такая модель многие потребности закроет самостоятельно, так-то расширить спектр голосов не так уж и сложно, главное чтобы это работало нормально, и была возможность клонить голоса
Аноним 27/05/23 Суб 13:36:26 #29 №324555 
Попробовал в Bark тренировать голоса с записей - чет какой-то Shit выходит, мало похожий на голос вообще, это я чет не так делаю, или тот код что предлагается фигня полная...?
(да там в репе чейчас год с тренировкой через фейсбуковскую либу, которая на винде без визуал студии не поставится, хотя в колабе изи все можно сделать, в более старой версии была нативная тренировка вроде, где надо было транскрипцию записи писать)
Аноним 28/05/23 Вск 20:37:12 #30 №326404 
image.png
Аноним 31/05/23 Срд 21:28:43 #31 №333866 
АДОЛЬФ ГИТЛЕР - Я РУССКИЙ.mp4
Аноним 01/06/23 Чтв 07:34:29 #32 №334914 
Стикер
>>314948 (OP)
>План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.
>https://github.com/voicepaw/so-vits-svc-fork

Анон, можешь запилить простенький гайдец для самых маленьких. Что делать, первое, второе, третье. Хотя бы в самых общих чертах, без деталей и подводных камней.
Это, ну это, был бы вклад в популяризацию голосовых нейронок, а значит и косвенный вклад в их развитие - вот это всё. А ещё ты бы помог анонам, и треду, воооооот

С меня как всегда.
Аноним 01/06/23 Чтв 09:53:48 #33 №334986 
>>333866
https://youtu.be/Svuzdh8V_uE
Аноним 01/06/23 Чтв 15:16:45 #34 №335411 
>>334914
>Это, ну это, был бы вклад в популяризацию голосовых нейронок
А нахуя это надо? Популяризация полезна среди тех, кто может что-то сделать сам и придумать что улучшить. А ты обоссаный безруков, который не может гайд на ютубе загуглить. Которых там уже тыщи.
Аноним 01/06/23 Чтв 19:43:03 #35 №335986 
>>334914

Тебе нужен гайд по какому процессу - генерации или обучения?
Аноним 01/06/23 Чтв 19:45:41 #36 №335989 
1685637941233.jpg
>>334986
Кек. Забавно то, что если кто пожалуется на вебмку, то автор тоже на двушечку уедет. Но я не буду, это же юмор основанный на когнитивном диссонансе.
Аноним 01/06/23 Чтв 20:03:26 #37 №336022 
redan italiano.webm
Все примеры из треда это же кал ебаный низкокачественный.
Нормальные синтезаторы исключительно по подписке (пример вебмрилейтед - итальянец говорящий на русском с сильным акцентом) тк над ними постоянно работают профи мотивированные деньгами и развитием проекта.

А ваш кал с ультрапердолингом будет юзаться только школьниками для педофилии и фашизма вроде хуйни выше.
Аноним 01/06/23 Чтв 23:26:31 #38 №336410 
>>336022
> пример вебмрилейтед - итальянец говорящий на русском с сильным акцентом
Зачем ты это сюда притащил, шиз?
Аноним 01/06/23 Чтв 23:28:59 #39 №336414 
>>335986
Обучение
Аноним 01/06/23 Чтв 23:34:38 #40 №336419 
>>336022
Так съеби к своим профи. Хули ты тут высрался?
Аноним 01/06/23 Чтв 23:38:06 #41 №336426 
>>336022
Ну так твоя подписка это рак нейросетей и вообще технологий.
Помнишь был платный миджорней - тоже по подписочке, а потом святые программисты выложили в открытый доступ святой стаблдифужн и всё. Миджопней в жопе.
Аноним 01/06/23 Чтв 23:48:09 #42 №336439 
>>336410
>Зачем ты это сюда притащил, шиз?
Но это лучше чем >>333866
Аноним 01/06/23 Чтв 23:50:52 #43 №336443 
>>336426
миджорней это кал по сравнению со стейблом.
Подписка = профессиональное приложение. Не все конечно но я бы стал пользоваться илитным приложением по подписке а не хуйней.

Ну собственно примеры в этом треде по бесплатному аи и близко не подошли к тому что я выложил выше
Аноним 01/06/23 Чтв 23:51:07 #44 №336444 
1685652665736.mp4
>>336439
Снимаю вопрос.
Аноним 01/06/23 Чтв 23:56:41 #45 №336453 
>>336443
> я бы стал пользоваться илитным приложением по подписке а не хуйней
Ну я тоже для озвучки презентаций и учебных видео использую саундворкс (и соответственно стоящие за ним профессиональные API вроде Яндекса). Охулиард языков, голосов и так далее, стоит копейки, компания довольна.

НО. Для своих "проектов", для онлайн изменения голоса и тому подобного - какой нафиг профессиональный сервис? Только своё, оффлайновое. И со временем оно уделает онлайновое. Есть масса сценариев, где "подписка" вообще неприменима, даже если это плата за более высокое качество.
Аноним 01/06/23 Чтв 23:59:05 #46 №336458 
>>336443
>миджорней это кал по сравнению со стейблом.
Ты сам себе противоречишь. Миджорней по подписке, а сд бесплатный
Аноним 02/06/23 Птн 00:07:04 #47 №336479 
>>336443
>Ну собственно примеры в этом треде по бесплатному аи и близко не подошли к тому что я выложил выше
Окей. Покажи мне профессиональный клонер голоса, который может взять голос гитлера и кинуть его на песню шамана. У тебя 1 день.
Аноним 02/06/23 Птн 20:21:27 #48 №338154 
lyka.mp4
so-vits
Аноним 03/06/23 Суб 03:51:58 #49 №338812 
>>314948 (OP)
Нормальные реал-тайм воис морферы есть или пока не завезли?
Аноним 03/06/23 Суб 04:09:19 #50 №338829 
>>326404
кто сделал модель so-vits-svc с Пригожиным? Есть автор в треде? Есть тех. вопросы по реализации
Аноним 03/06/23 Суб 05:32:45 #51 №338877 
image.png
>>338829
>кто сделал модель so-vits-svc с Пригожиным? Есть автор в треде? Есть тех. вопросы по реализации
Аноним 03/06/23 Суб 07:56:25 #52 №338958 
>>338812
so-vits-svc
ах да желательно иметь Nvidia на 16 гигов.
На четырёх гигах работает хуёво, я проверил
Аноним 03/06/23 Суб 14:44:43 #53 №339490 
>>338877
скорее дядя с кувалдой, пикрил нынче за такую модель может только похвалить
Аноним 05/06/23 Пнд 04:46:13 #54 №342227 
so-vits-svc мастера обитают в треде?

Натренировал модель на 100 сэмплах, чистый голос без музыки, вздохов, пердежей, поскрипываний и смеха. Прогнал 1200 эпох, результатом не очень доволен. Когда в оригинальном голосе идёт завывание, изменение интонации, некоторые сочетание гласных и согласных, то результат идёт по пизде. Пробовал с разными настройками, походу косяк именно в сэмплах был.

Сколько сэмплов оптимально использовать для тренировки модели и стоит ли вырезать смех человека, всякие "нуууу, аааа, хммм" ?

Сколько эпох в идеале надо прогнать, чтобы получился норм результат?
Аноним 05/06/23 Пнд 04:54:32 #55 №342228 
>>339490
>скорее дядя с кувалдой
А кто-то знает имя террориста, который разбивал русским головы? Зачем ты на него ссылаешься. Ты намекаешь, что это Пригожин был? Да, действительно, его одержимость "Убийцей русских" странная, слышал он реплику сделал и зачем-то дурачкам всяким рассылал. Надеюсь, реплики свастик он делать не будет.
Аноним 05/06/23 Пнд 11:23:57 #56 №342362 
image.png
image.png
>>342227
Чем больше сэмплов тем качественее будет модель, аналогично с количеством эпох, чем их больше тем лучше. Ещё важно на какой голос ты накладываешь нейросеть, в идеале они должны быть чем то похожи с оригиналом.

Я использовал больше тысячи звуков для тренеровки там были не только:
>смех человека, всякие "нуууу, аааа, хммм"
Но и косяки со звуком, помехи, клики мышкой, хуяренье по клавиатуре... иногда человека просто перебивали и сэмпл засирался чужими голосами. Но результат всёравно вышел в десять раз пижже чем если тренеровать на сотне сэмплов.

Ещё советик если твой звуковой файл который ты хочешь изменить выглядит как пик 1 то получится хуйня 100% нужно на него накинуть нормализацию чтобы он стал похож на пик 2
Аноним 05/06/23 Пнд 16:36:18 #57 №342753 
>>342362
>Но результат всёравно вышел в десять раз пижже чем если тренеровать на сотне сэмплов.
Можно пример в звуке?
Аноним 05/06/23 Пнд 18:22:03 #58 №342871 
>>342362
Спасибо за развёрнутый ответ, буду тестить. Нормализация на акапелле действительно помогла, но из-за небогатого набора сэмплов всё равно косяков много.
Аноним 06/06/23 Втр 00:01:01 #59 №343438 
>>338958
Не нужно с такими требованиями. Почему до сих пор не оптимизировали до уровня запуска на калькуляторах?
Аноним 06/06/23 Втр 03:58:02 #60 №343707 
арбалеты.mp4
Аноним 06/06/23 Втр 04:55:15 #61 №343734 
>>343707
С Hugging Face модель взял? Видел там готовую с Байденом и прочими американскими политиками.
Аноним 06/06/23 Втр 06:42:43 #62 №343825 
>>343734
С ютуба спиздил. По "ai cover" много годноты выдает, можно еще отсортировать по просмотрам и выбрать за последний месяц.
Аноним 06/06/23 Втр 12:15:32 #63 №344160 
bobobo.mp4
>>343825
а в тикитоке вообще пиздец творится
Аноним 08/06/23 Чтв 08:36:22 #64 №346784 
1609a63562ed86564288da997a091850.jpg
Аноны, кто в колабе тренил, сколько ждать?
Аноним 08/06/23 Чтв 09:06:10 #65 №346786 
>>346784
У меня 2к+ сэмплов. По ощущениям одна эпоха идет минут 5-10, там анон выше писал что 1000 эпох прогнал это часов сто получается. Учитывая лимиты коллаба это месяц. Лол.
Аноним 08/06/23 Чтв 09:48:38 #66 №346842 
>>346784
За сутки бесплатного колаба не больше 1000-1500, так что даже не пытайся.
Аноним 08/06/23 Чтв 09:54:04 #67 №346850 
>>346842
Я там заметил, что в папке /dataset/44k/, где сэмплы лежат, там рядом с каждым звуковым файлом появился файл %name%.wav.data.pt
Эти файлы сохранять надо, может в них какая-то инфа о процессе обучения? Или похуй, при следующей тренировке они опять создадутся?
Аноним 08/06/23 Чтв 10:05:28 #68 №346861 
И самый главный вопрос. Когда колаб меня кикнет по середине процесса, не накроется ли там весь прогресс медным тазом? Ведь это предусмотрено да? Ведь предусмотрено?
Аноним 08/06/23 Чтв 10:38:43 #69 №346928 
>>346842
>1000-1500
Это как? По моим подсчетам за 6 часов будет около 120-150 эпох.
Аноним 08/06/23 Чтв 11:02:59 #70 №346973 
>>346928
Даже ещё меньше 10 эпох в час в среднем. Настройки все дефолтные.
Аноним 08/06/23 Чтв 11:29:25 #71 №347020 
>>346928
Это шаги. Нахуй ты эпохи считаешь, когда модель подписана шагами? Если модель_1000 это блядь не 1000 эпох.
А вообще скорость обучения зависит от размера датасета.
Аноним 08/06/23 Чтв 11:31:39 #72 №347025 
>>346861
>И самый главный вопрос. Когда колаб меня кикнет по середине процесса, не накроется ли там весь прогресс медным тазом? Ведь это предусмотрено да? Ведь предусмотрено?
Если у тебя сохранение на 500 шагов то ты пососешь час впустую. Если на 100 - то меньше. Там в конфиге можно исправить опция чекпойнт. Старые он сам удаляет поэтому просто нет смысла ставить большие значения.
Аноним 08/06/23 Чтв 11:38:46 #73 №347039 
>>347020
>>347025
Ну вот в консоли колаба мне пишут такую инфу:
Epoch 35/9999 ━━━━━━━━━━━━━━╺ 130/137
Очевидно что это эпохи, а про шаги я не знал и на гуглдрайв сохраняются соответсвубщие файлы D_34.pth G_34.pth.
А в конфиге опуции чекпоинт нет, даже слова такого там не встречается может это?
> "log_interval": 100,
> "eval_interval": 200,
Аноним 08/06/23 Чтв 11:40:37 #74 №347043 
>>347039
А вот что есть в конфиге
>"keep_ckpts": 3,
Он что каждые три шага сохраняет? Может поэтому так медленно?
Аноним 08/06/23 Чтв 12:15:50 #75 №347118 
>>347039
>> "log_interval": 100,
Это шаги. И они не равны эпохам, они меньше. За три часа колаба ты натренишь до 1000-1500, нормальная модель 200к. То есть у тебя будет 1000.птх
Аноним 08/06/23 Чтв 12:17:21 #76 №347121 
>>347043
Не еби мозги и найди в файле конфиг джасоен слово "чекпойнт".
Аноним 08/06/23 Чтв 12:26:55 #77 №347128 
>>347121
>>347118
Нету там этого слова, чел
https://pastebin.com/19ABPBVe
И судя по всему файлы чекпоинта теперь называются эпохами, я рискну предположить что случились какие-то изменения и то как ты обьясняешь было раньше. а теперь по-другому. Ну или я чего-то не понимаю, но я просто нюфаг.
Аноним 09/06/23 Птн 00:38:58 #78 №348405 
1686260335622.webm
>>347128
> судя по всему файлы чекпоинта теперь называются эпохами
Аноним 09/06/23 Птн 02:12:58 #79 №348489 
image.png
>>346786
Всё просто, кончается лимит - перекидываешь файлы на новый акк гугла.
Можно быстро переходить по разным аккаунтом его не ебёт, лимиты обнуляются.
Натренировал так за пару вечеров 800 сэмплов до 500 эпох
Аноним 09/06/23 Птн 05:23:35 #80 №348557 
>>348489
>Можно быстро переходить по разным аккаунтом его не ебёт, лимиты обнуляются.
Удачи всрать акки. Классный совет.
Аноним 09/06/23 Птн 11:48:28 #81 №348796 
>>348557
Ты прав. Я уже 3 недели этим занимаюсь и прям чувствую что акки обосраны...
Аноним 09/06/23 Птн 13:14:00 #82 №348906 
so-vits-svc
Аноны а нужно в сэмплах оставлять звуки НЕ РЕЧИ?
Ну там смех, вздохи, мычания, прочие звуки ртом. Звуки эти имеют ярко выраженную принадлежность к целевому голосу т.е. такой смех, например, очевидно принадлежит именно этому голосу.

Мне кажется что нейросети полезно и на таких звуках обучаться для полного, всестороннего повторения? Например когда исполнителю в процессе песни надо заменить голос он же там и тянет звуки и кряхтит и чего только не делает.

Может кто-нибудь интересовался этим вопросом ОФИЦИАЛЬНО? Ну там в репозитории разраба может такое спрашивали?
Аноним 09/06/23 Птн 15:50:19 #83 №349124 
.png
>>314948 (OP)
Нюфаня репортинг.

> Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing
Валится с ошибкой при выполнении !pip install -r requirements.txt

> Гайд: https://textbin.net/kfylbjdmz9
Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk из сорцов собирает и поэтому билд-тулзы надо ставить, вот что на SO пишут - https://stackoverflow.com/questions/75191940/i-cannot-install-pyopenjtalk-getting-requirements-to-build-wheel-did-not-run-su
Мне было лень разбираться с этой ошибкой.

> потом находим файл VITS-Umamusume-voice-synthesizer\app.py и открываем с помощью текстового редактора и находим блок на 27 строке
Там нет такого кода и я сходу не смог сообразить, что там поменять надо. Может поменяли что-то в более поздних версиях...

> https://github.com/voicepaw/so-vits-svc-fork
Вот это без проблем поставилось и работает.

В репе so-vits-svc-fork нашёл пару полезных ссылок.

Разбивка звуковой дорожки на вокал и инструменталку: https://github.com/Anjok07/ultimatevocalremovergui
Где брать готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/?query=so-vits-svc

Перегнать видео в аудио при помощи ffmpeg (я за ffmeg не шарю, просто из сети рабочих команд надёргал):
ffmpeg -i input.webm -vn -acodec libmp3lame output.mp3
ffmpeg -i input.mp4 -map a output.mp3

Алсо спасибо анонам, кто над русскоязычным голосом Саи работал. Вот моя первая попытка в перегон голоса:
https://vocaroo.com/1cEfRfQ1NBf9
Аноним 09/06/23 Птн 20:50:31 #84 №349584 
>>349124
Обмочил трусики. Продолжай.
Аноним 10/06/23 Суб 02:21:11 #85 №349921 
>>348906
если исполнитель смеётся, мычит и пердит во время выступление то нужно обязательно. Но это более свойственно для обычной речи, так называемой разговорной модели.
Аноним 10/06/23 Суб 15:06:52 #86 №350194 
Ребятушки, я нюфаня. Скачал VoiceConversionWebUI. Запустил, всё вроде работает. Где модельки с голосами брать? На Хаггене? Есть ссылка, какой-то сайт с примерами?
Аноним 10/06/23 Суб 17:37:22 #87 №350290 
>>349124
>Вот моя первая попытка в перегон голоса
Как-то инопланетно вышло. Ударения не там, темп речи не правильный.
Составитель архива с Саей
Аноним 10/06/23 Суб 21:50:57 #88 №350593 
image.png
>>350543 →
ёпта датасет больше делай. часа на 4 и обучай нормально - 100к эпох или чото там.
и при морфинге у тебя крутилки есть с пресетами типо dio harvers creepe и еще такова. вот эти крутилки тоже крути
Аноним 10/06/23 Суб 22:13:36 #89 №350634 
e479b861e95dc59c1aabd95bd75ee78c.png
7d03f8fdcbba21eaae52311daad279ce.png
16863296411051.png
>>350593
А чем ты пользуешься? Вот мои интерфейсы.
Аноним 10/06/23 Суб 22:18:32 #90 №350652 
>>350593
У меня 50 эпох и 4 минуты датасет... Это сколько 100к эпох будет учить?
Аноним 10/06/23 Суб 22:20:09 #91 №350655 
Если я хочу голос своей вайфу из тайтла извлечь, надо вручную каждый её звук ручками нарезать, или может есть какие-то тулзы, чтобы можно было автоматизировать нарезку конкретного голоса из дорожки?

>>350634
> эта смесь русика, англюсика и китайского в интерфейсе
Пиздец.
Аноним 10/06/23 Суб 22:23:22 #92 №350660 
>>350655
> эта смесь русика, англюсика и китайского в интерфейсе
>Пиздец.

Самое страшное, что я более менее на всех трёх говорю.
Аноним 10/06/23 Суб 22:40:45 #93 №350690 
>>350655
>какие-то тулзы
Если они есть, то я о них не знаю. Вишпер может сделать сабы, там будут тайминги речи, это может помочь. Но я так не делал если что.
>>350660
Скажи что-нибудь по китайски а то я только яп знаю.
Аноним 10/06/23 Суб 22:44:40 #94 №350699 
>>350634
https://youtu.be/f-P9-NkaO9U
Аноним 10/06/23 Суб 23:01:30 #95 №350718 
Как пользоваться этим коллабом VITS-Umamusume-voice-synthesizer? Запускаю, ниче не происходит
Аноним 10/06/23 Суб 23:19:04 #96 №350743 
>>350634
А это чо?
Аноним 10/06/23 Суб 23:22:27 #97 №350749 
>>350690
日本鬼, спок.
Аноним 11/06/23 Вск 00:11:14 #98 №350840 
Почкему так мало контента? Сделайт есмешнызх видео
Аноним 11/06/23 Вск 12:10:49 #99 №351178 
.webm
Вчера увидел гайд в наи треде и решил попробовать натренить по фану. Что скажете, хоть немного похожим вышел голос на баскова?
Аноним 11/06/23 Вск 12:43:39 #100 №351203 
2chhh.mp4
>>351178
Аноним 11/06/23 Вск 17:09:00 #101 №351419 
>>351203
Да ладно тебе, пусть учится. В среднем норм вышло. Просто трек и голос не сошлись.
Аноним 11/06/23 Вск 17:15:06 #102 №351428 
>>350634
Это лучший просто на свете Retrieval-based Voice Conversion WebUI

>>350593
Где вы эти 4 часа датасеты берёте нахой? В смысле серёзно. Мне только Гоблин с монологами на 4 часа в студии приходит в голову. Но я уже сделал с ним голос. теперь хочу кого-то другого. Где срезать 4 часа?

Думал с МЛП нарезать, но как подумал сколько это гемора на 4 часа.

Левитана оказывается найти в интернете проблема.
Аноним 11/06/23 Вск 17:42:45 #103 №351461 
>>351428
4 часа это в идеале, больше - лучше. А так сидишь и ручками вырезаешь из всего возможного контента. Выкачиваешь всё что можно пророка санбоя какого-нибудь и нарезаешь все звуки которые он издаёт, кряхтит, пердит и тд тоже.
Аноним 11/06/23 Вск 18:08:46 #104 №351486 
9d8b40af0b0beeb56fa06235ffd53d10.png
>>351461
>4 часа
>100к эпох

Ты в своём уме вообще? У меня 4090, 1 час датасет.
1 эпоха 40 секунд. 100 эпох - Это больше часа. Какие 200к.
У меня 300 эпох на 1 часе на 6 часов на 4090. Если 300 эпох на 4 часа это уже сутки. Откуда 200к эпох?
Аноним 11/06/23 Вск 18:35:15 #105 №351515 
>>351486
Ну ёпта бля эпохи с со степами спутал или чото там, могла бы и додуматься.
>У меня 300 эпох на 1 часе на 6 часов на 4090. Если 300 эпох на 4 часа это уже сутки. Откуда 200к эпох?
Нихуя мамтематика.
Я неделю 24\7 коллабы с обучением гнал, вышло как-раз около 100к чего-то там хуй знает чего ну короче файлик 100к.pth называется вооот
Аноним 11/06/23 Вск 18:50:00 #106 №351536 
>>351515
>Я неделю 24\7 коллабы с обучением гнал, вышло как-раз около 100к чего-то там хуй знает чего ну короче файлик 100к.pth называется вооот
Необучаемый, бубль отслеживает подобную активность. Как только ты украдешь достаточно мощностей ГПу (и других научишь) Алгоритмы начнут отслеживать файлы типа .pth перебрасываемые с акка на акк и банить их наглухо. Теперь скажи мне, зачем ты сам себе сейчас кислород прикручиваешь хвастаясь? Иди еще на пикабу гайд создай, чтоб тебя быстрей выебали.
Аноним 11/06/23 Вск 19:14:33 #107 №351559 
>>351536
>Админ гугла сидит на дваче в мёртвом треде и подсирает дурачкам с двумя гигами врам
Аноним 11/06/23 Вск 20:48:50 #108 №351650 
>>351559
Именно так они СД-блядей накуканили.
Аноним 11/06/23 Вск 21:07:34 #109 №351672 
>>351650
чот не видно
Аноним 11/06/23 Вск 21:26:06 #110 №351703 
>>351536
>>351650

Ты шо, ебанутый?
Я как генерировав так и генирироваю. И аудио и картинки и видео. И гугл меня поддерживает. Кто тебе в трусы голову насрал?
Аноним 11/06/23 Вск 21:49:44 #111 №351728 
>>350593
>крутилки есть с пресетами типо dio harvers creepe и еще такова. вот эти крутилки тоже крути
Можно поподробнее. Зачем их крутить? В какую сторону крутить? Сколько раз крутить? Что является критерием того что крутанул как надо? Как понять что плохо накрутил?
По-умолчанию стоит dio если на уже довольно долго обученной модели крутануть на другое какие это будет иметь последствия?
Аноним 11/06/23 Вск 21:54:50 #112 №351731 
>>351728
>какие это будет иметь последствия?
Кишка вывалится.
Генерирую на всех пресетах и выбираю лучший. dio не всегда делает как надо.
Аноним 11/06/23 Вск 21:56:14 #113 №351733 
>>351703
>И гугл меня поддерживает
С подключением, гугл как раз недавно официально забанил SD и добавил в правила что за него бан и в треде SD аноны говорили что забаненные среди них есть. Поддержка конечно - мое почтение, климюрич тащи свиней.

Суть в том, что это полумеры, чтобы отсеять лохов и посмотреть как разгрузится GPU сегмент, гугл пока вяло и жиденько отлавливает неуловимых генераторов, пока просто смотрит запрещенные слова. Но колаб это окружение погромистов, и гугл не лаптем деланый, разумеется если тенденции на нехватку мощностей будут сохраняться гугл будет более и более эффективно выявлять и банить. Даже я могу написать программку которая будет точно выяснять что ты генератор, а уж нормальные погромисты в гугле тем более смогут.
Аноним 11/06/23 Вск 21:59:52 #114 №351737 
>>351731
Я в кал_лабе генерирую, там чтобы посмотреть первые результаты хоть какого-то приличного качества две недели нужно пердолиться. И как понять какой пресет лучше без тестов? Никак?
Аноним 11/06/23 Вск 22:05:43 #115 №351744 
>>351737
незнаю
Аноним 12/06/23 Пнд 01:24:59 #116 №352100 
nikita.mp4
Сделайте кто с 4090 модель на мавроди. Хочу МММ свою открыть. Типо из тайги вышел.
Аноним 12/06/23 Пнд 18:58:56 #117 №352938 
TOXICSMALll.webm
Аноним 12/06/23 Пнд 19:00:44 #118 №352942 
>>352938
Блин, пережал для двача, качество видео и звука упало до состояния Жопа.3gp

В оригинале бодрее.
Аноним 12/06/23 Пнд 19:55:13 #119 №353057 
>>352938
Бля, ещё и аватарку свою всунуло... Ну и убожество..
Аноним 12/06/23 Пнд 20:03:57 #120 №353073 
>>350690
> Если они есть, то я о них не знаю. Вишпер может сделать сабы, там будут тайминги речи, это может помочь. Но я так не делал если что.
Нарезаю через Audacity пока. Там в тайтле много междометий и звуков, которые, вероятно, не попадут в тайминги сабов. Но как же долго это делать, пиздос.

Сначала извлекаю дорожку через ffmpeg:
ffmpeg -i './title-name-s1.mkv' -map a s01.mp3

Потом убираю всё, кроме голосов, через Ultimate Vocal Remover.

И уже получившийся файл нарезаю потом ручками, выбирая нужный фрагмент и используя в Audocity команду Export -> Export Selected Audio.
Аноним 12/06/23 Пнд 20:18:40 #121 №353117 
Посоветуйте годный STT. С русского mp3 в тхт.
Аноним 12/06/23 Пнд 21:49:48 #122 №353342 
>>353057
Для тебя стараюсь, что бы максимально всрато.
Аноним 13/06/23 Втр 03:20:44 #123 №353861 
.png
>>353073
> И уже получившийся файл нарезаю потом ручками, выбирая нужный фрагмент и используя в Audocity команду Export -> Export Selected Audio.
Выяснил, что гораздо быстрее это делать через добавление меток через Ctrl + B по выделенному отрезку и потом Export -> Export Multiple -> Split files based on labels. Теперь, если приноровиться, можно почти не ставить паузу и скорость нарезки будет совпадать с длительностью тайтла. До этого на каждую серию по часу тратил - на каждый отрезок в меню зайди, имя файла задай и сделай так 100-150 раз за серию.
Аноним 13/06/23 Втр 03:25:02 #124 №353863 
.png
>>353861
Алсо, тайминги проставленных меток можно сохранить/загрузить через Export/Import labels
Аноним 13/06/23 Втр 11:51:37 #125 №354045 
https://www.youtube.com/watch?v=RTS2ZSsBcpc
Это полнцый цикл. Текст, Музыка, Вокал.

Как по мне Stable Diffusion момент для музыкашек наступил, не успело пройти и года.
Аноним 13/06/23 Втр 12:13:36 #126 №354065 
image.png
>>353861
>Выяснил, что гораздо быстрее это делать через добавление меток через Ctrl + B по выделенному отрезку и потом Export -> Export Multiple -> Split files based on labels. Теперь, если приноровиться, можно почти не ставить паузу и скорость нарезки будет совпадать с длительностью тайтла. До этого на каждую серию по часу тратил - на каждый отрезок в меню зайди, имя файла задай и сделай так 100-150 раз за серию
Аноним 13/06/23 Втр 14:37:07 #127 №354194 
>>354065
Спасибо, анонче, потыкал немного тулзу. Это не совсем то, что мне нужно - данная программа просто нарезает звуки по коротким отрезкам, но, при этом, в один отрывок могут попасть голоса сразу нескольких спикеров, если между их репликами нет паузы. Этот вариант подошёл бы, если бы мне надо было длинный монолог нарезать.
Аноним 13/06/23 Втр 19:05:51 #128 №354671 
>>353861
Чел. Софт же есть который тебе сам всё разрежет.
https://github.com/flutydeer/audio-slicer
Аноним 13/06/23 Втр 19:18:41 #129 №354687 
>>354671
>>354194
Аноним 14/06/23 Срд 21:06:26 #130 №356156 
image.png
Не совсем по теме, но может кто-то пользовался https://github.com/openai/whisper ?
Подскажите почему на русский не переводит пробовал --language Russian скобки кавычки "ru" {Russian} всё равно английские субтитры, возможно ли что гугл.коллаб не поддерживает?
Аноним 14/06/23 Срд 21:38:35 #131 №356195 
ре-пост с пендосского /lmg/ :

Columbia University drops state of the art TTS
/vsg/ has awoken, ElevenLabs quality locally
https://arxiv.org/abs/2306.07691
>In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at this https URL.
https://styletts2.github.io/

веса модели styletts1 доступны для скачивания, а значит и этой тоже должны быть доступны в ближайшее время.
Аноним 15/06/23 Чтв 09:59:08 #132 №356775 
>>356156
>Подскажите почему на русский
Он только на английский умеет встроено переводить. Подключай апишку дипла.
Аноним 15/06/23 Чтв 10:56:17 #133 №356799 
>>356775
>>356156
Отличный способ получить кашу. В русском вообще-то всякие склонения-хуения, они привязаны наглухо к контексту.
Аноним 16/06/23 Птн 12:25:12 #134 №358317 
>>356195
Круть!
Аноним 16/06/23 Птн 16:22:04 #135 №358494 
>>314948 (OP)
АНОН КАК ТЫ СДЕЛАЛ ЛИПСИНГ НА ТЯНКЕ?
НАУЧИ ПЛЗ
Аноним OP 16/06/23 Птн 20:25:00 #136 №358720 
>>358494
Stable Diffusion, расширение Sad Talker.
Аноним 16/06/23 Птн 20:40:27 #137 №358738 
1686937225716.mp4
1686937225717.mp4
>>358720
Аноним 16/06/23 Птн 21:05:11 #138 №358777 
.png
>>358738
Моё ебало сгенерировали?
Аноним 16/06/23 Птн 21:15:23 #139 №358794 
>>358777
Ну нажми "Мне лень".
Аноним 16/06/23 Птн 21:20:39 #140 №358804 
>>358794
Бляяядь, я уже удалил, а что там? Даст генерировать без смс и регистрации?
Аноним 16/06/23 Птн 21:36:30 #141 №358822 
.png
Ладно, пошёл я нахуй.
Аноним 16/06/23 Птн 21:51:36 #142 №358840 
>>358777
>>358822
> синтез голоса за бабки
это на каких лохов расчитано?
вот здесь уже обещают 11labs уровень качества, локальный >>356195
Аноним 16/06/23 Птн 21:54:41 #143 №358841 
>>358840
>обещают
Вот когда выложат, тогда поговорим. А пока я весов не вижу.
Аноним 16/06/23 Птн 22:46:15 #144 №358924 
>>358804
Типа того.
Аноним 16/06/23 Птн 22:50:03 #145 №358931 
>>358822
> это на каких лохов расчитано?
Ну тогда жди пока пришлют ключ. Там очередь не долгая.

>>358840
> это на каких лохов расчитано?
Это вообще оффтоп здесь. Это клиент для платных API высокого качества.

>>358804
> я уже удалил
Ну и дурак. Там дофига функций помимо синтеза голоса, типа скачивания видео с этих ваших ютубов, создание субтитров и прочая. Платная фича там только синтез голосяки, но мне пофиг, у меня работа платит.
Аноним 16/06/23 Птн 23:53:34 #146 №359045 
>>358841
они будут здесь https://github.com/yl4579/StyleTTS2
> It will likely be July or August
https://github.com/yl4579/StyleTTS2/issues/1
Аноним 17/06/23 Суб 02:17:04 #147 №359150 
>>358720
Ахуенно!
Аноним 18/06/23 Вск 18:05:45 #148 №361279 
Моделька для черепахи варится потихоньку.
https://voca.ro/1luJYDn1y6ZI
Аноним 18/06/23 Вск 22:20:09 #149 №361600 
.mp4
.mp4
.png
.png
>>359008 →
Пока вот так вышло. Первый файл - это два куплета без инструментальной части, второй файл - это полная версия с инструментальной частью. Я там вроде как высоту голоса разную в этих вариантах сделал...

Датасет с голосом 1 час и 9 минут вышел на 12 серий. Всего 1309 отдельных отрывков длительностью 0.5-9 секунд. В конфиге выставил batch size в 28 (в 24 GB VRAM больше не лезет у меня), всё остальное оставил по умолчанию. Что-то я не сообразил, где глянуть общую длительность обучения (я паузы ставил и в тензор-борде оторажается только стата по последней сессии вроде как), но, вообще, обучал где-то 11 часов на 4090. Но я не знаю, в какой момент стоило остановить обучение, у меня все эпохи сохранились, но я только последнюю (1247) глянул.

С шипящими какая-то проблема, не понял пока, это особенность этой дорожки (может слишком криво голос от мелодии отделил), или общая проблема, т.к. датасет всё же японский.

Про морфинг не понял что именно ты хотел узнать, можешь уточнить?

Примеры голоса из датасета:
https://vocaroo.com/13X0uYKJhcCQ
https://vocaroo.com/1e8sTX36gZDC
Аноним 18/06/23 Вск 22:36:33 #150 №361612 
>>361600
>2.mp4
Ухх, круть.

Мимокрок из картинкотреда
Аноним 18/06/23 Вск 22:48:34 #151 №361620 
>>361600
Русский всё равно с акцентом выдаёт. Можешь сгенерить что-нибудь на японском, ну типа この素晴らしい世界に祝福を! или сразу модель скинь, мы сгенерим.
Кстати, нормализацию к датасету применял? Говорят тащит.
Аноним 18/06/23 Вск 23:07:29 #152 №361648 
>>361600
Красота. Десяточка.
Аноним 18/06/23 Вск 23:27:08 #153 №361669 
ari.mp4
>>361620
>с акцентом выдаёт
На каком языке обучаешь - такой акцент и будет, сколько обучение не дрочи. Ещё-ж базовая модель подирает картавостью.
Аноним 19/06/23 Пнд 09:52:38 #154 №361991 
1.webm
2.webm
3.png
>>361600
Какой же пиздец местами с этой песенкой и низким голосом видрил 1, podval records прямо, эта моделька тренилась тоже примерно часов 10 при бс 24 с датасетом в час с хвостиком, хотя натрененная на 4 часа с датасетом в минут 15 видрил 2 так не пердит, но и голос там абсолютно другой.
> обучал где-то 11 часов на 4090
И это кстати самый отталкивающий пиздец. Может надо повышать лр и увеличивать распад?
> С шипящими какая-то проблема, не понял пока, это особенность этой дорожки (может слишком криво голос от мелодии отделил), или общая проблема, т.к. датасет всё же японский.
У меня полностью русскоговорящие датасеты, но акцент как будто из англии челы в подвале записали пердёж по приколу, так что хз вообще.
> Про морфинг не понял что именно ты хотел узнать, можешь уточнить?
Параметры какие используешь в пикрил 3 интересно.
> может слишком криво голос от мелодии отделил
Чем, кстати, отделял?
Аноним 19/06/23 Пнд 16:52:27 #155 №362353 
.png
.png
>>361620
> Можешь сгенерить что-нибудь на японском, ну типа この素晴らしい世界に祝福を!
https://vocaroo.com/1mGiUk0OQYB3

> или сразу модель скинь, мы сгенерим
Да я, в целом, хотел модель скинуть, когда более-менее приемлемый результат получится, только пока сам поиграться немного хочу. Кстати, а где эти модели вообще выкладывают? Кроме хг и цивита есть ещё какие-то площадки? На них суммарно меньше ста моделей - все просто жопятся свои модели выкладывать или ещё что-то есть?

> Кстати, нормализацию к датасету применял? Говорят тащит.
Я только такое видел в офф. репе: "Silence removal and volume normalization are automatically performed (as in the upstream repo) and are not required". Есть какая-то другая инфа?

>>361991
> Какой же пиздец местами с этой песенкой и низким голосом видрил 1, podval records прямо, эта моделька тренилась тоже примерно часов 10 при бс 24 с датасетом в час с хвостиком, хотя натрененная на 4 часа с датасетом в минут 15 видрил 2 так не пердит, но и голос там абсолютно другой.
Не понял тебя - это модельки на разные голоса или модельки на один и тот же голос, но с разным объёмом датасета? Прям совсем по разному звучат. Не пробовал другие тесты поделать для сравнения? Интересно, вторая модель в других случаях всегда лучше звучит или только с низким голосом так выходит?

>> обучал где-то 11 часов на 4090
> И это кстати самый отталкивающий пиздец. Может надо повышать лр и увеличивать распад?
Возможно да. У тех же retard-friendly скриптов для запуска kohya-ss можно было LR на пару порядков увеличивать, по сравнению со значением по умолчанию. Там стратегия "сделаем низкий LR и поставим обучать на сутки" не приводила к чему-то более качественному, по сравнению с быстрым обучением на высоких LR.

> У меня полностью русскоговорящие датасеты, но акцент как будто из англии челы в подвале записали пердёж по приколу, так что хз вообще.
Может дело в базовой модели, как анон >>361669 подметил? Нет каких-то альтернативных базовых моделей, основанных на русскоязычных датасетах?

> Параметры какие используешь в пикрил 3 интересно.
Пик 1. Я только высоту голоса выше сделал, чтобы он более писклявый был, остальное по дефолту оставил. Хотя, может ещё prediction method менял, не помню уже. Я пока не разбирался с этими параметрами.

> Чем, кстати, отделял?
https://github.com/Anjok07/ultimatevocalremovergui
Плохо то, что у этой тулзы нет никакого CLI, автор обещал ещё полгода назад его добавить https://github.com/Anjok07/ultimatevocalremovergui/issues/359 но пока так ничего и не сделал.

В моём представлении, из UVR, so-vits-svc-fork и ffmpeg можно было бы сделать комбайн на gradio-интерфейсе по типу пика 2, чтобы обабатывать основные сценарии парой кнопок, т.е:
1. Извлечение аудиодорожки из видео через ffmpeg (то, что на пике)
2. Извлечение голоса/инструментальной части аудиодорожки через UVR (там нет CLI, но сам код опенсорсный и на питоне, при желании, наверняка его можно без родного гуя использовать)
3. Морфинг голоса через so-vits-svc-fork (там есть CLI)
4. Объединение нескольких аудиодорожек в одну через ffmpeg (чтобы объединить инструментальную частью с дорожкой, где поменяли голос)
5. Объединение аудиодорожки с картинкой/видео через ffmpeg

Ещё можно было бы txt2audio добавить, но я пока не понял, есть ли для русика что-то вменяемое для локалхоста? Я пока только вот эту облачную говнину пытался попробовать >>358777

Я за питон/градио не шарю, но, немного потыкавшись, смог сделать однокнопочный интерфейс, который извлекает аудиорожку из видео. Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Аноним 19/06/23 Пнд 17:39:43 #156 №362424 
>>362353
>https://vocaroo.com/1mGiUk0OQYB3
Почему-то вышло коносунараши, хотя должно быть субараши, ну да ладно. Неплохо, но темп можно и убавить.
>На них суммарно меньше ста моделей - все просто жопятся свои модели выкладывать или ещё что-то есть?
Думаю просто пока текущий статус аудиогена слишком пердольный, вот и не выкладывают. Появятся всякие лоры в пару мегабайт поверх базы, мержи и прочее развлечение в один клик, тогда и попрут васяномодели.
>Есть какая-то другая инфа?
Тут писалось, но не уверен, что к этому же инструменту.
>>342362
>Ещё советик если твой звуковой файл который ты хочешь изменить выглядит как пик 1 то получится хуйня 100% нужно на него накинуть нормализацию чтобы он стал похож на пик 2
>>362353
>txt2audio добавить, но я пока не понял, есть ли для русика
TTS только silero, но оно не обучаемое. Зато можно хоть на микроволновке запускать.
>>362353
>Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Надо запилить AudioGenerationWebUI, чтобы как у каломатика, но я только вышел на работу, так что ещё один полугодовой отпуск позволить себе не могу.
Аноним 19/06/23 Пнд 18:02:45 #157 №362460 
1.mp4
2.mp4
Ну короче нормализация и более чистый семпл + отделение от музыки другой сеткой внутри китаегуя сделали куда лучше результат. Пришлось ещё немного вилкой прочистить конечно трек с голосом, но это хотя бы уже что то. Акцент так никуда и не делся. Лучший результат получился с crepe почему то на автопитче.

>>362353
> Не понял тебя - это модельки на разные голоса или модельки на один и тот же голос, но с разным объёмом датасета?
Две разные модели, первая с голосом Михаила Черняка, просто более менее чистый голос взял для теста с какой то из его озвучек. Вторая это папич, качество ну среднее, во что он там вещает, обычное микро с подвала скорее всего. Первая хорошо зачитывает монотонный текст, что не удивительно, учитывая датасет, вторая более "артистичная", ведь там в датасете были эмоциональные крики.
> Не пробовал другие тесты поделать для сравнения?
Предложи войсы, я хз что лучше попробовать поморфить.
> Возможно да. У тех же retard-friendly скриптов для запуска kohya-ss можно было LR на пару порядков увеличивать, по сравнению со значением по умолчанию. Там стратегия "сделаем низкий LR и поставим обучать на сутки" не приводила к чему-то более качественному, по сравнению с быстрым обучением на высоких LR.
Как разберусь на чём лучше тренить, попробую на час поставить на повышенном лр новый какой нибудь датасет.
> Может дело в базовой модели, как анон >>361669 подметил? Нет каких-то альтернативных базовых моделей, основанных на русскоязычных датасетах?
А я хз, обычная базовая какая то в конфиге указана в разделе pretrained. На что это менять? Отсюда подойдут модели типо https://github.com/snakers4/silero-models/blob/master/models.yml ?
> Пик 1. Я только высоту голоса выше сделал, чтобы он более писклявый был, остальное по дефолту оставил. Хотя, может ещё prediction method менял, не помню уже. Я пока не разбирался с этими параметрами.
Я тоже разные потыкал и лучше всего получилось с crepe.
> Плохо то, что у этой тулзы нет никакого CLI, автор обещал ещё полгода назад его добавить https://github.com/Anjok07/ultimatevocalremovergui/issues/359 но пока так ничего и не сделал.
О, есть гуй для этого дела, я в китаевебуи делал разными моделями, одной из них вышло получше.
> 1. Извлечение аудиодорожки из видео через ffmpeg (то, что на пике)
Бля, а ведь реально у многих аудио должна она быть, я просто разделял на похер, не смотря на дорожки.
> 2. Извлечение голоса/инструментальной части аудиодорожки через UVR (там нет CLI, но сам код опенсорсный и на питоне, при желании, наверняка его можно без родного гуя использовать)
А обязательно его? В китаегуе разве не на его основе? https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
> 4. Объединение нескольких аудиодорожек в одну через ffmpeg (чтобы объединить инструментальную частью с дорожкой, где поменяли голос)
Я через audacity делал вот эти две, там можно чуть подредачить как раз.
> 5. Объединение аудиодорожки с картинкой/видео через ffmpeg
Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
> Ещё можно было бы txt2audio добавить, но я пока не понял, есть ли для русика что-то вменяемое для локалхоста? Я пока только вот эту облачную говнину пытался попробовать
Ну модель есть, хз чем её можно запускать только. Про какую облачную говнину кстати речь?

> Я за питон/градио не шарю, но, немного потыкавшись, смог сделать однокнопочный интерфейс, который извлекает аудиорожку из видео. Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
Аноним 19/06/23 Пнд 22:32:37 #158 №362793 
>>362460
> Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
Какие пробовал?
Аноним 20/06/23 Втр 01:08:05 #159 №363032 
>>362793
Shutter-encoder, Axion, QWinFF.
Аноним 20/06/23 Втр 09:28:16 #160 №363227 
>>363032
В треде были и другие. Тот же Саундворкс прекрасно лепит видео из картинки и аудио, добавляет или убирает аудио дорожку.
Аноним 20/06/23 Втр 16:22:51 #161 №363652 
>>363227
Спасибо за информацию! Да, существует несколько программ и инструментов, которые могут помочь создавать видео из статичных изображений и добавлять или удалять аудиодорожки. Одной из таких программ является Soundworks, которая специализируется на создании видео изображений с аудиоэффектами и манипуляциями с аудио. Это полезный инструмент для создания разнообразных видеоматериалов.
Аноним 20/06/23 Втр 17:04:30 #162 №363677 
.mp4
.PNG
.png
>>362424
> Тут писалось, но не уверен, что к этому же инструменту.
Интересно. Можно будет попердолитья с этим, у меня в датасете есть файлы, которые выглядят как пик 1 тут - >>342362

> TTS только silero, но оно не обучаемое. Зато можно хоть на микроволновке запускать.
Ну всё равно норм, сгенерировать сначала через silero, а потом заморфить уже на кастомной модели через so-vits-svc-fork.

> Надо запилить AudioGenerationWebUI, чтобы как у каломатика, но я только вышел на работу, так что ещё один полугодовой отпуск позволить себе не могу.
Ну вот, ты упустил редкий шанс того, чтобы тебя поливали говном на двощах/форчанах каждый раз, когда ты коммитишь что-то в master в своей репе. Мне интересно сам python + gradio потыкать, попробую, наверное, что-нибудь простое накидать, как время найду. Хотя у меня с ним тоже не особо хорошо, на самом деле. Да и на питоне я вообще не пишу, так что вероятность того, что выйдет не говно, близка к нулю.

>>362460
> Две разные модели, первая с голосом Михаила Черняка, просто более менее чистый голос взял для теста с какой то из его озвучек. Вторая это папич, качество ну среднее, во что он там вещает, обычное микро с подвала скорее всего. Первая хорошо зачитывает монотонный текст, что не удивительно, учитывая датасет, вторая более "артистичная", ведь там в датасете были эмоциональные крики.
А я думал, где же я мог слышать этот голос... Ну да, лол, более эмоциональный голос на песню явно лучше ложится.

> Предложи войсы, я хз что лучше попробовать поморфить.
Вот я тоже пока думаю, какие отрывки лучше морфить именно в целях тестирования. Вообще, как мне кажется, неплохо было бы на скороговорках потестить, чтобы было легко оценить, обсирается ли оно на каких-то определённых звуках. Ещё какие-нибудь короткие тексты для тестирования интонации. Ну и песенки, само собой. Нам бы какой-нибудь свой набор тестов для моделей составить, как в том же лама-треде заставляют петухов нести яйца и выясняют, сколько рыб осталось в аквариуме, если половина из них утонет.

> А я хз, обычная базовая какая то в конфиге указана в разделе pretrained. На что это менять? Отсюда подойдут модели типо https://github.com/snakers4/silero-models/blob/master/models.yml ?
Там вроде формат моделей другой. В репе у so-vits-svc-fork накое увидел: "If you have trained on a large, copyright-free dataset, consider releasing it as an initial model". Но где смотреть текущий список альтернативных моделей я не нашёл. Базовые модели скачиваются из этой репы: https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k Но там в репе нет какой-то полезной инфы вроде как.

> О, есть гуй для этого дела, я в китаевебуи делал разными моделями, одной из них вышло получше.
> А обязательно его? В китаегуе разве не на его основе? https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Надо глянуть тогда, спасибо за наводку.

> Я через audacity делал вот эти две, там можно чуть подредачить как раз.
Есть такой момент, да. По хорошему надо ещё вручную лишние звуки удалять из дорожки с вокалом, перед объединением вокала и инструменталки. Тут без какого-то стороннего UI никак. Это можно воспринимать аналогично генерации в автоматике картинок с низким разрешением, правка их в ФШ, а потом применение тайлового апскейла к уже исправленным картинкам.

> Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
Я через cli делаю, и сейчас выношу команды в gradio (пики 2-3). В моём понимании, там надо просто несколько разных команд предоставить для разных форматов файлов. Но может я чего-то не понимаю - я в кодеках и в медиа в целом не разбираюсь.

> Ну модель есть, хз чем её можно запускать только. Про какую облачную говнину кстати речь?
SoundWorks, выше обсуждали.

> Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
Я в процессе пока, если хотя бы основные табы для ffmpeg и so-vits-svc-fork осилю реализовать, то выложу.

>>362305 →
> Местами даже слишком хорошо, лойс поделись
Поделюсь чуть попозже. Попердолюсь сперва, хочу всё же хотя бы несколько эпох между собой сравнить, зря что-ли 300 чекпоинтов нагенерировал. Я пока вообще не могу понять, возможно ли эту штуку переобучить. Пробовал её обучать уже суммарно больше двадцати часов, и не сказал бы, что становится хуже (тестирую 1247 эпох против 2371), но разница между голосами становится минимальна.
Аноним 20/06/23 Втр 17:46:47 #163 №363705 
Dancyo-face20230618183409e00001300.png
Meta готовит к выпуску VoiceBox некий, tts
Аноним 20/06/23 Втр 18:11:56 #164 №363730 
.png
>>363705
> There are many exciting use cases for generative speech models, but because of the risks of misuse, we are not making the Voicebox model or code publicly available at this time.
> While we believe it is important to be open with the AI community and to share our research to advance the state of the art in AI, it’s also necessary to strike the right balance between openness with responsibility.
Аноним 20/06/23 Втр 18:16:40 #165 №363734 
изображение.png
>>363677
>редкий шанс того, чтобы тебя поливали говном
Этого у меня навалом ))
>>363705
>https://voicebox.metademolab.com/
Чёт прям интересно стало с этим пунктом.
Небось не выпустят нихуя, а то с таким инструментов генерить подделки станет как никогда просто.
>>363730
Как знал, слишком хороша для публики.
Аноним 21/06/23 Срд 05:57:06 #166 №364452 
Расистыч.mp4
Анекдот.mp4
>>363677
> А я думал, где же я мог слышать этот голос... Ну да, лол, более эмоциональный голос на песню явно лучше ложится.
Похож? Он впринципе получился почему то куда лучше, несмотря на то что я тренил его всего 4-5 часов и датасет был достаточно скромным. А вот другая сетка с большим датасетом и долгой тренировкой лажает как то больше, вон даже в зачитывании анекдота запинается.
> Вот я тоже пока думаю, какие отрывки лучше морфить именно в целях тестирования
Хуже всего справляется с дефектами в речи. Вон расистская песенка без проблем морфится, даже акцент пропал, правда только с одной моделью. Мб вторая перетренена сильно в итоге? Эпохи старые не сохранились, проверить это даже не могу.
> Нам бы какой-нибудь свой набор тестов для моделей составить
Хорошая идея, только хз что считать платиной.
> Там вроде формат моделей другой. В репе у so-vits-svc-fork накое увидел: "If you have trained on a large, copyright-free dataset, consider releasing it as an initial model". Но где смотреть текущий список альтернативных моделей я не нашёл. Базовые модели скачиваются из этой репы: https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k Но там в репе нет какой-то полезной инфы вроде как.
Ну тогда с этого чекпоинта дотренивать только остаётся.
Кстати насчёт тренировки, я попробовал с 1е-3, но более быстрым распадом, тренируется судя по тензорборду нормально, тренд такой же нисходящий, но получилась какая то херня после 200 минут тренировки. Я скорее всего обосрался с датасетом, надо перепроверять.
> как в том же лама-треде заставляют петухов нести яйца и выясняют, сколько рыб осталось в аквариуме, если половина из них утонет
А потом выясняют кто собакошиз, кто собакошизошиз и кто собакошизошизошиз.
> Есть такой момент, да. По хорошему надо ещё вручную лишние звуки удалять из дорожки с вокалом, перед объединением вокала и инструменталки. Тут без какого-то стороннего UI никак. Это можно воспринимать аналогично генерации в автоматике картинок
Всё так, именно так и воспринимается, никто не мешает так же из оригиала, если он не сильно отличается, подсунуть части голоса в плохо получившиеся места, по аналогии со слоями в фотошопе.
> с низким разрешением, правка их в ФШ, а потом применение тайлового апскейла к уже исправленным картинкам.
Ты прямо из лоуреза тайловым кнетом делаешь? У тебя получилось добиться приемлемого качества с таким? Я сколько его не тестил, он всегда выдавал картинку хуже по сравнению даже с хайрез ганом, про латент вообще молчу, либо мыло, либо детализации практически нет, ответь в наи насчёт этого лучше.
> Я через cli делаю, и сейчас выношу команды в gradio (пики 2-3). В моём понимании, там надо просто несколько разных команд предоставить для разных форматов файлов. Но может я чего-то не понимаю - я в кодеках и в медиа в целом не разбираюсь.
> Я в процессе пока, если хотя бы основные табы для ffmpeg и so-vits-svc-fork осилю реализовать, то выложу.
Ну это уже выглядит в целом юзабельнее, чем прыгать между трёх консолей и трёх хгуев. Они типо сейчас не рабочие? В чём проблема? Вижу что ты через комманду вызываешь ффмпег, может проще будет всё это внутренними зависимостями сделать? Ффмпег вроде есть прямо в пипе, сама морфилка ведь тоже на питоне, можно хоть колесо собрать, хоть просто скрипты напихать по идее.
Аноним 21/06/23 Срд 13:24:06 #167 №364660 
Есть прога ACE Studio, которая миди нотки переводит в вокал. Потом этот вокал через SVC vits прогоняешь через свою модель голоса и готов трек. Поздравляю, теперь ты певец без рта. Но прога сыроватая ещё, может кто аналоги знает...
Аноним 22/06/23 Чтв 18:23:53 #168 №366361 
>>322413
Купи паскод, бомж
Аноним 22/06/23 Чтв 18:27:06 #169 №366375 
>>333866
Ебать если ты это сделал, то ты кудесник.
Аноним 23/06/23 Птн 19:56:01 #170 №368338 
.png
>>368293 →
Забирай: https://civitai.com/models/95845/senko-so-vits-svc
Аноним 23/06/23 Птн 22:28:12 #171 №368544 
prikol9.mp4
Аноним 23/06/23 Птн 23:53:55 #172 №368599 
Стикер
>so-vits-svc
Аноны, есть тут кто-нибудь кто шарит в подкапоте этой нейросети?

Вот у меня большой датасет, несколько тысяч файлов, общей длительностью часа 2.
Я треню с помощью колаба. Но у калаба много ограничений. В частности меня волнует то, что он вырубается через 3 часа. Потом я запускаю обучение снова, опять 3 часа, опять запускаю и т.д.

И я вот что подумал.
Если нейросеть берет по порядку файлы датасета и выполняет свое обучение и если обучение прерывается каждые 3 часа, то ведь получается что те файлы которые в начале списка используются в таком прерывистом обучении чаще чем те, которые в конце.
Например представьте, что обучение прерывается каждые 10 минут и вы каждые 10 минут запускаете его снова в этом случае нейросеть будет успевать только первые файлы датасета обработать и будет обучаться только на них. С прерыванием каждые 3 часа тот же принцип - даже если обучение успевает сделать ротацию по всем файлам датасета, всё равно есть перекос в сторону файлов которые в начале списка.

Учитвая это всё, имеет ли в таком случае смысл перемешивать файлы в датасете? Просто меняя их имена на рандомные в начале каждого обучения?
Аноним 24/06/23 Суб 00:07:41 #173 №368612 
>>368599
Сохранение идёт по эпохам, когда прошла итерация по всему датасету. Так что для каждого чекпоинта число повторов по одним и тем же файлам будет одинаковое по идее.
Аноним 24/06/23 Суб 00:10:46 #174 №368614 
ahegao.mp4
>>368338
Благодарность, чё.
Получилось так себе, голос ЯВНО не подходит под модель, но забавно.
Аноним 24/06/23 Суб 00:39:22 #175 №368658 
.png
.mp4
>>368614
Хм, у меня вот так вышло, настройки пикрелейтед.
Аноним 24/06/23 Суб 00:40:06 #176 №368660 
>>356195
А в русский и другие языки он может?
Аноним 24/06/23 Суб 00:51:20 #177 №368671 
>>368614
>>368658
А для изменения файла голоса с помощью модели тоже нужна видеокарта с памятью или уже можно на своем некро-калькуляторе менять, а видеокарта только для обучения?
Аноним 24/06/23 Суб 00:58:54 #178 №368672 
>>368671
> GPU inference requires at least 4 GB of VRAM. If it does not work, try CPU inference as it is fast enough.
Из офф. репы so-vits-svc-fork.
Аноним 24/06/23 Суб 16:06:41 #179 №368982 
>>364452
> Похож? Он впринципе получился почему то куда лучше, несмотря на то что я тренил его всего 4-5 часов и датасет был достаточно скромным. А вот другая сетка с большим датасетом и долгой тренировкой лажает как то больше, вон даже в зачитывании анекдота запинается.
Да, похож, я просто его совсем мало слышал, поэтому не узнал сразу. Дикция шикарная на втором примере, но вот звуки определённые проглатывает, это да. Не пробовал папичем тот же анекдот озвучить, на тех же звуках будет спотыкаться? Я просто боюсь, что дело всё же в базовой модели может быть и так просто эту проблему не забороть для любых аудио на русском.

В офф. репе базовой модели такая инфа об исходных данных для обучения ( https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12 ):
> 新增large底模,由m4singer+vctk数据集训练,294k为loss14.75的,320k为最终训练步数。

Базовая модель для so-vits-svc-fork была обучена на этих наборах данных:
https://m4singer.github.io (полностью китайский)
https://paperswithcode.com/dataset/vctk (полностью английский)

Интересно, есть ли подобные готовые русскоязычные датасеты и насколько реально обучить базовую модель в домашних условиях. Требования по обучению/генерации тут всё же более щадящие, чем для той же генерации картинок; может на условных 24GB можно обучить что-то?

> Ну это уже выглядит в целом юзабельнее, чем прыгать между трёх консолей и трёх хгуев. Они типо сейчас не рабочие? В чём проблема? Вижу что ты через комманду вызываешь ффмпег, может проще будет всё это внутренними зависимостями сделать? Ффмпег вроде есть прямо в пипе, сама морфилка ведь тоже на питоне, можно хоть колесо собрать, хоть просто скрипты напихать по идее.
Да там пока кроме извлечения аудио из видео и конвертации аудио+картинки в видео ничего нет, весь код литературно вот - https://pastebin.com/8JW5qMdj Пока всё на коленке и совсем кривое не хочу репу на гитхабе заводить.
Из зависимостей gradio поставленный в venv или глобально, ну и ffmpeg, добавленный в path. Он не будет работать с путями, если там есть пробелы в именах файлов. Ну и я так и не заморочился пока с тем, чтобы команды для ffmpeg универсальные сделать, под все популярные типы файлов. Будет кидать файлы в output -> audio2video/video2audio.

Из интересного нашёл ещё такую штуку - https://github.com/pkalogiros/AudioMass
По сути, это браузерная тулза с локальным go-сервером, котоая выполняет ту же роль, что и Audacity, только в ней, вроде как, нельзя несколько треков одновременно обрабатывать, хотя для простого удаления шумов из дорожки с изменённым голосом это и не нужно. Если делать какой-то комбайн по типу web-ui от автоматика, то можно было бы попробовать решение по типу этого туда сразу интегрировать...

Я ещё подумал, что, может, вместо того, чтобы свой велоспид делать пытаться, лучше контрибьютить в RVC начать - предложить им добавить новые табы для типовых ffmpeg операций. У них и так там уже и разделение инструменталки/вокала и морфинг интегрирован в рамках одного web-ui, так что это более навороченная тулза, чем so-vits-svc-fork.
Аноним 24/06/23 Суб 16:14:19 #180 №368989 
>>368982
Требования по обучению/[...] тут всё же более щадящие, чем для той же генерации картинок
Хотя это, конечно, сильное заявление. С теми же лорами на SD всё совсем лайтово по системным требованиям для обучения стало теперь.
Аноним 24/06/23 Суб 18:09:30 #181 №369061 
>>368989
Так то лоры. Анон выше кажись предлагает обучать базовую модель специально для русика, потому что ангельские херят немного.
Аноним 24/06/23 Суб 18:44:38 #182 №369093 
>>369061
Это я и был. Я просто про то, что систему файнтьюна для sd сделали сильно лучше с течением времени, что привело к снижению системных требований для обучения, так что для обучения лор/ликорисов сейчас могут быть ниже системные требования, чем для дообучения звуковых моделей.

Но обучить полновесную модель с нуля по типу SD нереально сейчас, на неё потратили $600 000. А для обучения голосовой модели всё может быть не так страшно, если сравнить размеры датасетов для SD и этой голосовой модели:

Stable Diffusion - была обучена на 2.3 миллиардах пар текст-картинка.

Базовая модель для so-vits состоит из двух датасетов:
VCTK (CSTR VCTK Corpus) - 110 English speakers with various accents. Each speaker reads out about 400 sentences, which were selected from a newspaper, the rainbow passage and an elicitation paragraph used for the speech accent archive.
Итого 110 x 400 = 44000 английских предложений.

M4Singer - 20 professional singers, covering 700 Chinese pop songs as well as all the four SATB types (i.e., soprano, alto, tenor, and bass)
Итого 20 x 700 = 14000 песен на китайском.

Мнение?
Аноним 25/06/23 Вск 07:17:13 #183 №369567 
>>369093
>Мнение?
Английская модель не подойдет к русской речи, фонемы другие.
Аноним 25/06/23 Вск 09:26:54 #184 №369598 
papich.webm
snoop-dogg.webm
>>368982
Тензорборд у тренировки витса прямо намного полезнее картинкотренировки от кохи, даже сэмплы можно посмотреть по эпохам, хотя там вроде в последних коммитах тоже есть генерация пробных пикч, в тензорборд это добавляется или не, не знаешь?
Перетренил с 1е-3 с меньшим датасетом, но более однородным. Два часа где то тренилось, вышло получше и схоже с датасетом, видрил2. Надо подольше потренить и почекать на предмет улучшений.

> Да, похож, я просто его совсем мало слышал, поэтому не узнал сразу. Дикция шикарная на втором примере, но вот звуки определённые проглатывает, это да. Не пробовал папичем тот же анекдот озвучить, на тех же звуках будет спотыкаться? Я просто боюсь, что дело всё же в базовой модели может быть и так просто эту проблему не забороть для любых аудио на русском.
Запинается, но в других местах, видрил1. Видимо недостаточный датасет для определённых мест в разных тренировках, вон местами вообще интонация голоса пропадает и попискивает.

> Интересно, есть ли подобные готовые русскоязычные датасеты и насколько реально обучить базовую модель в домашних условиях. Требования по обучению/генерации тут всё же более щадящие, чем для той же генерации картинок; может на условных 24GB можно обучить что-то?
Ну даже если попробовать грубый подсчёт по данным что ты нарыл будет 110 спикеров на 400 предложений - 44000 чанков по 10 секунд на каждую эпоху, простых спикеров не считая поющих * 320к эпох с батчем ну в лучшем случае в ~28-30 с ~2it/s (у меня вроде столько выдаёт) это 733 секунды на эпоху и 234560000 секунд на 320к, ну как раз дотренится к моменту выхода какой нибудь квантовой нвидии каждому мимокроку в пекарню. Вроде нигде не обосрался в подсчётах, поправь если да.
> Да там пока кроме извлечения аудио из видео и конвертации аудио+картинки в видео ничего нет, весь код литературно вот - https://pastebin.com/8JW5qMdj
Окей, попозже покопаюсь, может что дельного смогу сделать.
> Из интересного нашёл ещё такую штуку - https://github.com/pkalogiros/AudioMass
Воу, там и питоном можно, только вторым, лол, я уж думал не увижу больше такого. Плохо кстати что нельзя дорожки друг на друга накладывать.
> Я ещё подумал, что, может, вместо того, чтобы свой велоспид делать пытаться, лучше контрибьютить в RVC начать - предложить им добавить новые табы для типовых ffmpeg операций. У них и так там уже и разделение инструменталки/вокала и морфинг интегрирован в рамках одного web-ui, так что это более навороченная тулза, чем so-vits-svc-fork.
Ну да, но там не хватает настроек морфинга. Да и тренирует почему то хуже и тензорборд не завезли.
Аноним 25/06/23 Вск 09:51:02 #185 №369604 
>>369598
>Видимо недостаточный датасет для определённых мест в разных тренировках, вон местами вообще интонация голоса пропадает и попискивает.
Там никакой детекции и нет, это не так работает. Просто в твоей модели нет подходящих звуков, поэтому его и корежит. Это основная проблема этого метода.
Аноним 25/06/23 Вск 10:23:40 #186 №369618 
>>369604
> Просто в твоей модели нет подходящих звуков
Ну да, я это и имел ввиду под недостаточностью датасета, ведь разные натрененные модели запинаются в разных местах.
Аноним 25/06/23 Вск 10:30:51 #187 №369622 
>>369618
Именно поэтому ты не можешь кинуть любую модель на любой голос. И мой тебе совет, посмотри на дорогу после генерации совитсом, она как бы вся выровненная получается. Я думаю, чтобы не корежило надо какую-то нормализацию делать до войс-свапа.
Аноним 25/06/23 Вск 10:38:14 #188 №369626 
>>369622
Я пробовал нормализацию делать в audacity с низкими значениями, так действительно лучше получается. Там же можно и вырезать лишнее после, ну и заменить плохие куски оригиналом или морфом с другими настройками, где этот кусок получился лучше.
Аноним 25/06/23 Вск 11:26:04 #189 №369649 
>>369626
Да, но в целом технология для серьезных и больших проектов не подходит, надо все дрочить вручную. То есть час-два звука делать ты охуеешь.
Аноним 25/06/23 Вск 15:34:08 #190 №369800 
>>369093
>Мнение?
Управимся в 6000 баксов. Хуйня вопрос, сейчас из тумбочки достану.
>>369649
А другие варианты?
Аноним 26/06/23 Пнд 14:29:59 #191 №371390 
Нуфажный вопрос по so-vits-svc, как определить что дальше модель можно уже не дообучать и ей уже нормально и большего не выжать?
Аноним 26/06/23 Пнд 16:32:10 #192 №371541 
>>371390
Когда не слышиш разницы с предыдущей итерацией
Аноним 28/06/23 Срд 11:18:25 #193 №374596 
Там если что всякие там террористы выпустили новый ттс и стт
https://huggingface.co/spaces/mms-meta/MMS
Аноним 28/06/23 Срд 20:20:32 #194 №375470 
>>371390
ты где обучаешь?
Аноним 28/06/23 Срд 20:56:47 #195 №375545 
silkworm.mp4
>>368338
Добра тебе, анон.
Аноним 29/06/23 Чтв 01:12:46 #196 №375970 
>>371390
перекатывайся с этого говна на rvc
Аноним 29/06/23 Чтв 01:29:52 #197 №375989 
>>375545
Спасибо, что поделился. Классно вышло.

автор модели
Аноним 29/06/23 Чтв 12:36:15 #198 №376400 
Есть нарезки аудио английского и русского голосов (90 секунд / множество минут). Могу я бесплатно натренить модель и генерить tts? ElevensLabs не работает ни с vpn, ни без него, можете подсказать подходящий под него впн, но не надеюсь уже. Есть аналоги, колабы?
Аноним 29/06/23 Чтв 20:25:43 #199 №377103 
>>371541
А по графикам?

>>375470
Локально

>>375970
В чём профит?
Аноним 29/06/23 Чтв 20:38:01 #200 №377129 
>>377103
>В чём профит?
Пока тестирую сам. Могу однозначно сказать, что за пару обучения уже получается хорошая модель. Но насколько я понял rvc легко переобучается и там нет смысла делать больше 300-500 эпох 3 часа на t4. Сегодня вот улучшил свой датасет и поставил обучаться 200 эпох, посмотрю какое качество будет.
Аноним 30/06/23 Птн 07:11:53 #201 №377714 
Аноны, можно как-то из so-vits-svc модели сделать простой tts без "перевалочного пункта" в виде сторонней аудиозаписи с голосом, которую мы и меняем?
Сейчас твич и ютуб заполонили вот такие каналы https://www.twitch.tv/trumporbiden2024 где
боты отвечают чату в режиме реального времени, по ссылке например голосами байдена и трампа. Понятно что тут как-то сделали tts модель, копирующую чужой голос, но как?
Аноним 30/06/23 Птн 12:46:33 #202 №378069 
>>314948 (OP)
Умельцы сделайте плиз ремикс Лета и Арбалеты голосом Пригожина
Аноним 30/06/23 Птн 14:33:28 #203 №378338 
>>375545
Круто получилось я бы даже схоронил, но слишком много изъянов всё-таки. Слова проглатываются, смазываются в некоторых местах.
Аноним 30/06/23 Птн 15:45:01 #204 №378485 
>>378069
Хотя уже нашел
Аноним 30/06/23 Птн 16:28:01 #205 №378540 
>>378485
хотя нет, он уебищный какой-то, сделайте еще
Аноним 30/06/23 Птн 16:38:18 #206 №378554 
>>378540
>сделайте
не сделаем, если найдешь уже обученную модель, тогда подумаем. а самому сейсас нарезать и обучать потому что ты сказал, извольте нахуй.
Аноним 30/06/23 Птн 20:16:17 #207 №378914 
>>378554
Ну for the culture же...
Аноним 30/06/23 Птн 20:55:48 #208 №378996 
>>378914
for the culture ты и сам можешь
Аноним 30/06/23 Птн 21:07:19 #209 №379020 
>>378914
Если у тебя нет мощностей на тренировку, то хоть датасет собери.
Аноним 30/06/23 Птн 23:12:08 #210 №379312 
Nazarechorus.mp4
>>378338
Это сделано на коленке, без малейшей обработки. Если пошаманить, можно убрать большинство изъянов. Акцент останется, такой уж оригинал голоса, но мне даже нравится.

Алсо, подкиньте обученных моделей для so-vits. На цивите и хаггинфейс почти ничего нет.
Аноним 30/06/23 Птн 23:22:25 #211 №379333 
>>379312
> Если пошаманить, можно убрать большинство изъянов.
что делать надо?
Аноним 30/06/23 Птн 23:25:58 #212 №379340 
>>378914
Да хуйня, мелко мыслишь. https://www.youtube.com/watch?v=F-JHxApZKcY вот это голосом Пригожина было бы реально круто.
Аноним 30/06/23 Птн 23:34:15 #213 №379349 
>>379333
Прогнать отдельно левый и правый каналы, т. к. so-vits выдаёт только моно. Убрать "протечки" музыки в канал голоса, чтобы не было этих визгов перед вторым куплетом. Вообще повозиться с исходником. Переделать локально места, где теряются части слов. Может на выходных сделаю.
Аноним 01/07/23 Суб 08:42:11 #214 №379659 
>>379349
Да, сделай анон. Модель голоса очень классная.
Интересно если её дальше тренить она лучше станет или это предел?
Аноним 01/07/23 Суб 08:42:44 #215 №379660 
>>379312
Во, идеально.
Аноним 01/07/23 Суб 09:01:45 #216 №379672 
>>379659
> Интересно если её дальше тренить она лучше станет или это предел?
Могу попробовать ещё дольше потренить. То, что на цивите, тренилось ~20 часов на 4090, но разница между моделями, обученными на 11 и 20 часов, как мне показалось, совсем небольшая.
Аноним 01/07/23 Суб 11:57:08 #217 №379825 
>>378996
>>379020
я не умею...
Аноним 01/07/23 Суб 12:58:07 #218 №379966 
>>379825
Что ты не умеешь, вырезать куски аудио? Тогда убейся нахуй, очисти генофонд человечества от своей тупизны.
Аноним 01/07/23 Суб 13:40:43 #219 №380066 
>>379825
печально
Аноним 01/07/23 Суб 20:17:25 #220 №380729 
>>379966
нахуй мне учиться когда всегда найдется куколд согласный все сделать за бесплатно, типа тебя
Аноним 01/07/23 Суб 20:21:53 #221 №380739 
>>380729
Нет, ты просто тупой.
Аноним 01/07/23 Суб 21:25:42 #222 №380914 
Silkwormv2.mp4
River.mp4
>>379659
Как-то так в общем.
+бонус
Аноним 02/07/23 Вск 00:09:02 #223 №381426 
>>380729
>типа тебя
Чел, я тебя обоссываю, как и остальные тут. Если кто-то и сделает твой реквест, то чисто случайно, лишь потому, что сам захотел. А теперь обтекай молча.
Аноним 02/07/23 Вск 13:27:19 #224 №382106 
>>380914
>Silkwormv2.mp4
Слава теперь хорошо слышно, но сам голос потерялся. Кажется что просто оригинал с большим питчем.
Аноним 02/07/23 Вск 13:28:12 #225 №382109 
>>382106
*слова
Аноним 02/07/23 Вск 14:15:11 #226 №382241 
800.mp4
1247.mp4
2371.mp4
3209.mp4
3711.mp4
graph.PNG
loss.PNG
>>379659
Не, что 8, что 30 часов обучать, я разницы не слышу просто. Может надо было на другом отрывке тестить, чтобы разницу услышать... Но, судя по графику в Audacity, разница всё же есть. Графики лосса с последней сессии (с 2371 по 3711 эпохи) я хз как интерпретировать, нужно мнение анонимных датасаентистов.

>>379349
> Прогнать отдельно левый и правый каналы, т. к. so-vits выдаёт только моно.
Вот это крутая подсказка кстати, спасибо. Вот тут с картинками объясняют, как в Audacity стерео-треки разбить по каналам, а потом обратно склеить: https://manual.audacityteam.org/man/splitting_and_joining_stereo_tracks.html
Аноним 02/07/23 Вск 14:23:44 #227 №382265 
>>382241
Голос Кипелова вообще не поддается, такое морф можно сказать ни куда не пойдет, а выше вон >>368658 Наутилус относительно нормально поменялся. Хотя у наутилуса голос даже ниже и более хриплый.
Аноним 02/07/23 Вск 14:26:53 #228 №382267 
>>382265
Хм, попробую тогда вечером что-нибудь другое заморфить на нескольких эпохах и ещё раз сравнить.
Аноним 02/07/23 Вск 14:48:54 #229 №382300 
>>382241
Попробуй на rvc v2 обучить
Аноним 02/07/23 Вск 15:15:05 #230 №382363 
>>382300
короче я щас сам попробую ряди интереса сделать кипелова на rvc, модель нашел
Аноним 02/07/23 Вск 15:56:16 #231 №382449 
kipelov (2).mp4
samka.mp4
Кипелов и инстасамка лол.
Нейронка rvc v2, 100 эпох.
Аноним 02/07/23 Вск 16:01:27 #232 №382460 
>>382449
Чел, ну ты ведь и сам видишь, что результат плохой.
Аноним 02/07/23 Вск 16:03:07 #233 №382463 
>>382460
Думаю всё дело в настройках применения модели к дорожке, а не в самой модели.
Аноним 02/07/23 Вск 16:04:50 #234 №382468 
>>382460
чел, иди нахуй
Аноним 02/07/23 Вск 16:12:42 #235 №382503 
Lalisa-1.mp4
Venom-1.mp4
Вот еще, возможно если бы было 200-300 эпох, то результат был бы лучше. А после 300-350 эпох он ухудшается на этой нейронке
Аноним OP 02/07/23 Вск 19:04:52 #236 №382794 
1688313892867.jpg
Если подумать, можно обучить голосовую модель по сэмплам реальной модели. То есть той же Яндексовской и любой другой. Чтобы больше не платить.

Надо будет только придумать, из каких фраз составить датасет.
Аноним 02/07/23 Вск 20:33:51 #237 №382927 
>>382794
За что платить? so-vits-svc не синтезирует речь, а только тон голоса "меняет".
Бля удоли свой пост. Даже как-то стыдно что ОП этого ИТТ (зис) треда ни хуя не понимает в теме.
Аноним 02/07/23 Вск 20:36:18 #238 №382931 
Silkwormv2plain.mp4
>>382106
Так получилось, потому что я добавил эхо и реверб, а в припевах сделал голос дуэтом. В итоге потерялось ощущение пения под караоке.

>оригинал с большим питчем
Питч я, кстати, не трогал. Стоит 0 без автокоррекции.

Если что, вот версия без обработки.
Аноним 02/07/23 Вск 20:43:43 #239 №382944 
>>382931
По-моему вот этот вариант уже получше будет, но всё равно нет голоса персонажа.
Из всех что были в треде пока идеальный вариант вот тут >>379312 прямо от сэю не отличить.
Ну и вот тут не плох >>368658
Но "на заре" можно как образец морфа прям показывать, очень удачно получилось.
Аноним 02/07/23 Вск 22:02:11 #240 №383057 
>>382944
Самое ужасное, что я никак не могу воспроизвести это. Хотел сейчас сделать всю песню и не запомнил, как выставил ползунки в тот раз. Теперь из припева получается какая-то каша.
Аноним 03/07/23 Пнд 05:53:07 #241 №383475 
Короче ничего я так и не затестил сегодня, зато статейку накидал для вкатунов по so-vits-svc-fork:
https://rentry.org/tts_so_vits_svc_fork_for_beginners
Аноним 03/07/23 Пнд 06:36:40 #242 №383480 
.mp4
Отделил инструментал от голоса и музыкальная дорожка начала "пукать", особенно хорошо слышно в конце, как фиксить?
Аноним OP 03/07/23 Пнд 08:14:47 #243 №383501 
>>382927
Ты дурак. Видишь, даже без вопросов, просто констатирую факт.

Тред - о генерации речи из текста, а не смене тона голоса. Фишку про генерацию бесплатной моделью и изменению голоса на "нормальный" я придумал в прошлом треде, но ты не вкурил, зачем это нужно. А нужно это потому, что бизнес сегодня использует существующие облачные модели для пре-генерации фраз и использования их, например, в помощниках. Но генерация динамических фраз - дорогое удовольствие. Если обучить модель голосу существующей облачной модели, можно будет сэкономить немало денег на генерацию, и позволить агенту общаться с клиентом тем же голосом, что был использован для облачной генерации инструкций.

Не говоря уже об исправлении существующих фраз, чтобы не мудрить с SAML, который не каждый провайдер поддерживает в должном объёме.
Аноним 03/07/23 Пнд 08:16:19 #244 №383503 
>>383501
> SAML
SSML
Аноним 03/07/23 Пнд 08:20:32 #245 №383506 
>>383480
Использовать другую модель для отделения инструменталки. Смотри, если сэмплинг выставлен тот же, что у оригинала. Можешь попробовать изменить метод отделения (MDX-Net итп).
Аноним 03/07/23 Пнд 09:51:58 #246 №383564 
>>383501
>А нужно это потому, что бизнес сегодня использует существующие облачные модели для пре-генерации фраз и использования их, например, в помощниках.
>Но генерация динамических фраз - дорогое удовольствие.

Ты опять всё перепутал дурачок. Облачный сервис яндексу нужен, потому что синтезированная речь часто отправляется в устройства с низкой вычислительной мощностью или в приложения - навигатор, настольный динамик "Алиса", короче в софт, который сам бы дольше синтезировали речь, чем получал звуковой файл по интернету, но сама по себе tts операция не "дорогое удовольствие", а очень дешевое, которое легко выполняет пека 10 летней давности.
Твое предложение копировать яндесовский tts на самом деле очень тупое и совершенно бессмысленное, думай прежде чем писать. Вообще даже теоретически это бред, в опенсорсе давно есть легкие tts движки которые превосхояд яндекс, сам таким пользуюсь.
Аноним 03/07/23 Пнд 11:59:02 #247 №383623 
>>381426
пока что ты обоссал только свой рот моим хуем
Аноним 03/07/23 Пнд 12:04:50 #248 №383626 
>>383623
Чел, твой запрос никто не выполнил и не выполнит. Ты обоссан, обтекай молча.
Аноним 03/07/23 Пнд 12:05:48 #249 №383627 
>>381426
>Если кто-то и сделает твой реквест, то чисто случайно, лишь потому, что сам захотел
Убеждай себя чмоня, пару раз вы уже сделали мои реквестики. сделаете и еще не один раз, как миленькие, обтек тебе за щеку, проверяй
Аноним 03/07/23 Пнд 12:48:29 #250 №383656 
>>383475
По uvr, тебе не надо выбирать галочки инструментал или вокал, если ты ничего не выберешь то сделается и то и то.
Аноним 03/07/23 Пнд 13:02:03 #251 №383678 
>>383475
О норм. Контент для треда. Молодец анон. Только so_vits это не tts.
Аноним 03/07/23 Пнд 13:25:19 #252 №383692 
>>383656
> По uvr, тебе не надо выбирать галочки инструментал или вокал, если ты ничего не выберешь то сделается и то и то.
И вправду... Что за сверхразум придумал этот UI, обе галочки отметить нельзя, но если их обе снять, то поведение эквивалентно двум отмеченным галочкам. Добавил в статью, спасибо.

>>383678
Я понимаю, просто статья для tts-треда (отдельного sts-треда у нас нет), поэтому такой префикс решил сделать.
Аноним 03/07/23 Пнд 14:39:20 #253 №383769 
>>383564
> но сама по себе tts операция не "дорогое удовольствие", а очень дешевое, которое легко выполняет пека 10 летней давности
Блядь, съеби отсюда. У нас стоит яндексовский сервер в дата центре, эта ебала стоит более 15 тысяч баксов, и генерирует 15 секунд речи в секунду. А теперь нахуй пошёл!

> в опенсорсе давно есть легкие tts движки которые превосхояд яндекс
Нету. Потому что "движка Яндекс" нет, но нет и ОС движка, превосходящего тот, что использует Яндекс.
Аноним 03/07/23 Пнд 15:11:35 #254 №383797 
>>383475
>Полноценное использование so-vits-svc-fork требует наличие видеокарты NVidia с 4GB VRAM. Если у вас с этим проблемы, то программа может полностью исполняться на процессоре с меньшей скоростью.

4gb требуется для inference, для обучения нужно 10gb.
Чел, я весь гайд вычитывать не буду но если ты в само начале такие ошибки допускаешь, то походу всё очень плохо.
Аноним 03/07/23 Пнд 15:29:13 #255 №383820 
>>383797
Впрочем, я зря быканул. Любой гайд лучше чем ничего.
Аноним 03/07/23 Пнд 16:58:29 #256 №383947 
>>383797
>>383820
Добавил инфу про 10GB VRAM для обучения. Я помню, что видел это инфу ранее, но забыл упомянуть в гайде. Мой косяк, да.

Дайте знать, если ещё надо что-то поправить/дополнить надо, я сам в этой теме меньше месяца, так что наверняка какие-то важные нюансы мог упустить.
Аноним 03/07/23 Пнд 17:16:00 #257 №383962 
fix.mp4
>>383506
Проблема оказалась в RVC webui. С UVR всё в порядке.
Аноним 03/07/23 Пнд 19:02:04 #258 №384087 
>>383947
>Добавил инфу про 10GB VRAM для обучения.
Тащемта обучать можно и на 4gb, ставишь "batch_size": 3 в конфиге, будет работать. Передаю привет с нищей 3050.
Аноним 03/07/23 Пнд 19:48:20 #259 №384130 
>>384087
В репе четко написано что 10 надо. Разработчику виднее как его хуйня работает, может там хуево учится с глюками в моделе, если памяти меньше.
Аноним 03/07/23 Пнд 20:02:47 #260 №384146 
>>384130
>Разработчику виднее как его хуйня работает
Ну так он там же и пишет, что вот тебе пожалуйте минималка 4 гига, вот для того чтоб там работало крутани тута, тама и здеся, ну и живи, только подорожник ещё приложить не забудь.
Про 10 гигов просто рекомендация по целесообразности, про глюки и то что модель в говно будет там и слова нет. От то что медленнее будет учится, согласен.
Аноним 03/07/23 Пнд 20:06:45 #261 №384151 
>>384146
>учится
ться, грамотей млять.
быстрофикс
Аноним 03/07/23 Пнд 21:47:30 #262 №384285 
>>384146
Да в стэйбл дифюжн тоже можно память снизить, только после этого то тут то там вылезают необъяснимые глюки.
Аноним 03/07/23 Пнд 22:48:20 #263 №384367 
tt.webm
>>384285
За СД не скажу, там я модели не обучал, это уже вопросы к СД.
Тут же я попробовал и своей цели достиг в какой то мере, каких то прям глюков глюков не застал.
Какие то шероховатости я смог объяснить тем, что датасет всего 9 минут с небольшим и он весьма не идеален, при том что очень желательно минут 12 и более с лучшим качеством.
Вот пример 8015 эпох, из обработок высоких чутка поднял эквалайзером, эхо накинул и лимитер влепил, просто потому что uvr немного грязно отработал.
Аноним 04/07/23 Втр 03:48:32 #264 №384593 
>>369598
> хотя там вроде в последних коммитах тоже есть генерация пробных пикч, в тензорборд это добавляется или не, не знаешь?
Не знаю, я кохя-скрипты давно не обновлял...

> Ну даже если попробовать грубый подсчёт по данным что ты нарыл будет 110 спикеров на 400 предложений - 44000 чанков по 10 секунд на каждую эпоху, простых спикеров не считая поющих * 320к эпох с батчем ну в лучшем случае в ~28-30 с ~2it/s (у меня вроде столько выдаёт) это 733 секунды на эпоху и 234560000 секунд на 320к, ну как раз дотренится к моменту выхода какой нибудь квантовой нвидии каждому мимокроку в пекарню. Вроде нигде не обосрался в подсчётах, поправь если да.
Да, пересчитал твои цифры, ~7.4 лет на одной 4090 придётся тренировать, и это если учесть только половину датасета. Так что в домашних условиях нереально самому базовую модель обучить, если не урезать датасет или делать число эпох на порядок-два ниже.
Аноним 04/07/23 Втр 13:30:15 #265 №384944 
>>384087
>>384130
>>384146
"Полноценное использование so-vits-svc-fork требует наличие видеокарты NVidia с 4GB VRAM. Обучение своих моделей так же можно проводить на видеокарте с обёмом памяти 4GB VRAM, однако, разработчкик рекомендует проводить обучение хотя бы на 10GB VRAM."

Так корректнее будет?
Аноним 04/07/23 Втр 14:20:32 #266 №385009 
Модели для so-vits-svc-fork и rvc являются совместимыми между собой?
Аноним 04/07/23 Втр 14:59:32 #267 №385052 
>>385009
Нет, даже rvc и rvc v2 несовместимы. Но на rvc быстрее обучишь в 10 раз.
Аноним 04/07/23 Втр 15:19:11 #268 №385077 
>>385052
по сравнению с so-vits разумеется
Аноним 04/07/23 Втр 15:26:39 #269 №385099 
>>384944
Вообще инференс so-vits прекрасно работает без видеокарты, раза в 2-3 медленнее.
Аноним 04/07/23 Втр 15:29:55 #270 №385104 
>>385099
>[...] Если у вас с этим проблемы, то программа может полностью исполняться на процессоре с меньшей скоростью. AMD GPU поддерживается только для Linux.
Эту строчку планировал дальше оставить. И вправду такая маленькая разница в скорости?
Аноним 04/07/23 Втр 15:42:56 #271 №385131 
>>385104
Проверил сейчас. Кусок аудио 14 секунд длиной обрабатывается на ноутбучной 3050 за 4 секунды, а на i5-10500 за 14.
У господ с 4090 будут другие тайминги.
Аноним 04/07/23 Втр 16:03:37 #272 №385176 
>>385131
Взял отрывок аудио длиной 36 секунд:
4090: обрабатывается 4 секунды
i9-9900k: обрабатывается 22 секунды
Аноним 04/07/23 Втр 17:55:44 #273 №385331 
kamina1.mp4
kamina2.mp4
kamina3.mp4
чо притихли?
Аноним 04/07/23 Втр 19:54:48 #274 №385531 
327343900.jpg
>>385176
Аноним 04/07/23 Втр 20:27:42 #275 №385571 DELETED
>>385331
Везде на 14 секунде глич. Мой вердикт: кал. Иди фикси ручками. Потом имаджинируй своё ебало если попробуешь целиком делать.
Аноним 04/07/23 Втр 20:44:44 #276 №385594 DELETED
>>385571
Иди попу подмой, сельдь.
Уже не знаешь как как на срач забайтить.
Аноним 05/07/23 Срд 08:16:46 #277 №386441 
>>385331
В чем видеорилетейд делалось? В шапке написано что только японский же?

только вкатываюсь в нейроозвучку
Аноним 05/07/23 Срд 10:33:09 #278 №386507 
>>385331
>3
Ебаааааааааать
Аноним 05/07/23 Срд 10:35:04 #279 №386509 
>>385331
Расскажи как делал, я тоже хочу озвучивать чуваом из постала.
Аноним 05/07/23 Срд 10:59:18 #280 №386523 
>>386441
>>386509
Пишешь vits-svc в ютубе и смотришь любое видео.
Аноним 05/07/23 Срд 12:01:19 #281 №386546 
>>386523
Благодарю
Аноним 05/07/23 Срд 12:05:15 #282 №386548 
>>386523
Эта штука только заменяет голос? В текст то спич не может?
Аноним 05/07/23 Срд 18:39:02 #283 №387058 
>>386548
Не может
Аноним 05/07/23 Срд 21:55:39 #284 №387357 
>>386523
Спасибо, потрогал, работает. Сколько вообще нужно тренировать до хорошего результата? Ты сколько чувака тренил?
В примерах, я смотрел, файлы по G_56000 лежат.
Аноним 05/07/23 Срд 22:03:57 #285 №387371 
>>387357
500 шагов на кал_лабе это час.
Аноним 05/07/23 Срд 22:05:06 #286 №387373 
>>387357
Индивидуально. Зависит ок количества датасета и его разнообразия. У чувака 90000, но разницы с 50000 большой нет.
Аноним 06/07/23 Чтв 02:04:39 #287 №387738 
>>387373
А ты как датасет собирал? Я когда-то давно из видео "Все фразы чувака из postal" повырезал, сохранив в формате wav. Хотел себе на компе системные звуки на фразы чувака заменить. Вот, сейчас пригодились, ради пробы сделал G_2000, сейчас доделалась 10000, буду тестить.
Если кому надо, могу скинуть архив со всеми фразами чувака.
Аноним 06/07/23 Чтв 04:20:37 #288 №387826 
>>314948 (OP)
Поясните, хочу обучить модель, у меня есть запись как чел читает книгу, с паузами, мне надо эти паузы вырезать или они ни на что не влияют?
Аноним 06/07/23 Чтв 05:15:57 #289 №387851 
>>387826
У so-vits-svc-fork так:
> Training
> Silence removal and volume normalization are automatically performed (as in the upstream repo) and are not required.

Как у RVC не знаю.
Аноним 06/07/23 Чтв 10:22:22 #290 №387986 
>>387738
так и собрал
Аноним 06/07/23 Чтв 13:16:09 #291 №388122 
>>387851
Ну вроде нормально получилось, юзал RVC.
Не могу только найти индекс файл, он вообще ещё нужен и что делает, вроде и без него конвертирует.
Аноним 07/07/23 Птн 08:56:07 #292 №389512 
RedSun.mp4
Аноним 07/07/23 Птн 10:42:17 #293 №389555 
sold.mp4
ZV.mp4
Почему не похоже?
Аноним 07/07/23 Птн 12:22:23 #294 №389621 
image.png
>>389512
Голову бы тебе оторвать, мудак. Не смей Доки но сакура трогать, мразь.
Аноним 07/07/23 Птн 14:19:36 #295 №389761 
>>389621
> Не смей Доки но сакура трогать, мразь.
Это название песенки? Покажи оригинал.
Аноним 07/07/23 Птн 14:47:52 #296 №389805 
>>389761
>оригинал
https://www.youtube.com/watch?v=Br9ALPmS1fA&t=0s

>Это название песенки?
Это был тонкий реквест, но мне пока лень делать.
Аноним 07/07/23 Птн 18:58:26 #297 №390291 
>>389805
> Это был тонкий реквест
Стал бы я иначе спрашивать исходник.
Аноним 07/07/23 Птн 20:42:34 #298 №390570 
image.png
>>390291
https://www.youtube.com/watch?v=0MqcwLjPQ9g
Держи, подонок. 10 000 лет жизни Императору! Божественный ветер!
Аноним 07/07/23 Птн 20:47:16 #299 №390582 
>>390291
https://www.youtube.com/watch?v=dP4t_GGl3Es
Аноним 07/07/23 Птн 23:19:42 #300 №390798 
>>387371
Я до 500 на кал лабе месяц тренил. Видимо от датасета зависит у меня было 2+часа в паре тысяч файлов.
Аноним 07/07/23 Птн 23:30:35 #301 №390822 
>>390798
У меня был 3 минуты!
Аноним 08/07/23 Суб 02:53:20 #302 №391059 
В UVR кто-нибудь пробовал разные модели тестировать? Их там десятки просто.
Аноним 08/07/23 Суб 07:08:59 #303 №391180 
.mp4
Аноним 08/07/23 Суб 12:55:00 #304 №391371 
Спасибо местному чуваку за дорожку

https://youtu.be/sOR8m9x4OJQ
Аноним 08/07/23 Суб 13:49:53 #305 №391427 
Как понимаю Vits всегда херит остальной звук в песне?
Аноним 08/07/23 Суб 14:14:12 #306 №391479 
>>391427
Нет.
Аноним 08/07/23 Суб 22:17:44 #307 №392334 
>>391180
Круто получилось, вообще не слышно дребезжания уже.
Как можно датасет улучшить? Я нарезал 110 треков по 8-10 секунд
И на 500 эпохах всё равно хуёво, голос срывается и квакает, что я делаю не так? Могу ещё 100 нарезать, это поможет?
Аноним 08/07/23 Суб 22:45:07 #308 №392418 
>>391180
Голос японский, да?
Аноним 09/07/23 Вск 21:44:02 #309 №393891 
bingchill.mp4
>>391371
пожалусто
Аноним 09/07/23 Вск 22:12:11 #310 №393923 
>>385331
Анон, я у тебя пару дней назад спрашивал про обучение чувака. Вот, натренировал свою модель до g_10000, решил затестить на песьне кота Леопольда и оно легло идельно. Пробовал на других записях и всегда какой-то шакал выходит, даже если идёт +/- норм, в какой-то момент голос тупа срывается. Но вот в этой песне, он как родной. Зацени, что скажешь?
https://youtu.be/UGHXJlTu9HU
Аноним 09/07/23 Вск 22:33:15 #311 №393953 
v1e1305.mp4
v2e800.mp4
v2e2371.mp4
v2e4366.mp4
>>392334
> Круто получилось, вообще не слышно дребезжания уже.
Ага, я сам прям кайфанул от того, как здорово вышло.

> Как можно датасет улучшить? Я нарезал 110 треков по 8-10 секунд
Может разнообразия звуков в датасете не хватает? У меня есть старая модель, которую обучал только по первым двум сериям аниме, там 21 минута голоса вышла. Прикрепил один и тот же отрывок для сравнения:
v1_e1305 - датасет 21 минута, 1305 эпох, 28 батч сайз
v2_e800 - датасет 69 минут, 800 эпох, 28 батч сайз
v2_e2371 - аналогично предыдущему, только больше эпох (это та версия, что на цивите как v1 выложена)
v2_e4366 - аналогично предыдущему, только больше эпох да, я обучал это 40 часов, потому-что почему бы и нет?

Во всех случаях звучит приемлемо, хотя у первого варианта датасет в три раза меньше. Но тут, конечно, такая проблема, что надо много тестов делать, чтобы хоть какие-то выводы можно было наверняка сделать - а нормальных инструментов по автоматизации этого процесса, типа гридов в SD, просто нет. А вручную слишком запарно это всё тестировать, надо скрипты хотя бы накидать, по хорошему - в том же so-vits есть CLI.

Отрывки я тоже все делал <10 секунд, как разработчик советовал.

> И на 500 эпохах всё равно хуёво, голос срывается и квакает, что я делаю не так? Могу ещё 100 нарезать, это поможет?
Может быть плохо вокал от инструменталки отделился для тех отрывков, которые тестировал? Пробовал те же отрывки на других моделях тестировать?

Либо может на неудачных отрывках тестируешь - у меня есть отрывки, на которых голос срывается вне зависимости от того, какую модель использую. Пробовал тестировать на разных версиях моделей с Сенко, и ещё пробовал Саю и Нахиду с хаггингфейса. Никто не вытягивает определённые участки. Тут остаётся только базовую модель винить.

>>392418
> Голос японский, да?
Да, датасет состоит из 69 минут японского голоса.
Аноним 09/07/23 Вск 22:36:56 #312 №393958 
>>393953
Как датасет собирал? Если из анимы резал, то как отделял от фоновых звуков?
Аноним 09/07/23 Вск 22:40:36 #313 №393961 
>>393958
Из анимы ручками резал, да. Сначала при помощи https://github.com/Anjok07/ultimatevocalremovergui убрал все фоновые звуки, а потом вручную нарезал голос нужного мне персонажа через Audacity, используя такой подход >>353861
Аноним 09/07/23 Вск 22:46:28 #314 №393968 
kaz.mp4
kr22.mp4
>>393923
Из-за разности в голосах тональности скорее всего проблема. Пробуй кнопки режимов повыбирать, типо harvest, creepe и ещё чото-там, короче, все попробуй.
В любом случае получилось лучше, чем у меня, молодец!
Аноним 10/07/23 Пнд 00:21:25 #315 №394091 
>>393923
>>393968
А моделькой поделитесь?
Аноним 10/07/23 Пнд 00:23:17 #316 №394092 
>>393968
Это где? Я серез этот коллаб мутил
https://colab.research.google.com/drive/1128nhe0empM7u4uo5hbZx5lqjgjG1OSf
Аноним 10/07/23 Пнд 00:47:45 #317 №394110 
image.png
>>394092
У меня тут. Где в каллабе хз.
Аноним 10/07/23 Пнд 01:02:59 #318 №394126 
image.png
А есть гайды че да как под vits-svс на русскоязычных лексемах обучать модели или тип того? Видел на хагингфейс спрашивали ссылаясь на эту ветку, но я ссылку проебал.

Это или неподъемная задача, или что? И почему модели ни кто не где не выгружает, бояться что выебут за авторские права?
Аноним 10/07/23 Пнд 01:54:35 #319 №394214 
1688943275188.png
>>394126
> бояться что выебут за авторские права?
Нет, образец голоса защищается другими законами, по сравнению с которыми авторские права - детский сад. Ни одна компания (вроде HuggingFace) на такое не пойдёт.
Аноним 10/07/23 Пнд 09:00:09 #320 №394403 
abutitan.mp4
Обучил абу до 24к. Есть ли смысл учить дальше, с учетом того что это RVC v2?
Аноним 10/07/23 Пнд 13:39:42 #321 №394566 
>>376400
Бамп
Аноним 10/07/23 Пнд 20:00:22 #322 №395015 
1689008419978.mp4
>>394403
Аноним 10/07/23 Пнд 22:27:44 #323 №395191 
изображение.png
>>394110
Анон, выручай, не видит видимокарту. У меня GTX 960, там cuda присутствуют.

Устанавливал через
pip install -U so-vits-svc-fork

Пробовал установить Pytorch with CUDA через
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
Аноним 10/07/23 Пнд 22:52:21 #324 №395234 
>>395191
О, всё. пофиксил, помогло
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu118
Аноним 11/07/23 Втр 05:13:31 #325 №395511 
>>394403
Проиграл, лучше наверное уже и не сделать, с тем что сейчас есть по крайней мере.
Аноним 11/07/23 Втр 15:31:47 #326 №395843 
изображение.png
Во время обработки выдаёт пикрил, при чём независимо от того, запускаю я на видеокарте или процессоре. Как фиксить?
Аноним 11/07/23 Втр 15:49:07 #327 №395857 
>>395843
При этом realtime худо-бедно работает, ошибок не выдаёт.
Аноним 13/07/23 Чтв 01:14:01 #328 №398703 
image.png
От куда этот пикрил интерфейс?
Аноним 13/07/23 Чтв 10:32:41 #329 №399184 
>>398703
https://www.youtube.com/watch?v=i03w6uGfvDM
Аноним 14/07/23 Птн 15:23:32 #330 №400831 
>>399184
А можно RVC модель конвернуть в SVC ?
Я так понял все каверы делают на RVC и они достаточно нормально работают с русскими лексамами (буква Р выговаривается)
А вот модели SVC сплош с акцентом звучат и ощутимо хуже работают, на зато SVC в реал тайм умеют
Аноним 14/07/23 Птн 23:15:44 #331 №401488 
>>400831
ЗЫ я долбаеб, rvc тоже в риалтайм умеет
Аноним 15/07/23 Суб 09:22:17 #332 №401922 
максим.mp4
Аноним 15/07/23 Суб 09:30:50 #333 №401923 
>>401922
охуеть
Аноним 15/07/23 Суб 15:43:40 #334 №402641 
>>399184
Пол дня пердолился с этим гайдом. Написали бы хоть где-нибудь что с 2060 туда можно не соваться.
Аноним 17/07/23 Пнд 04:50:36 #335 №407940 
Sunrise Avenue - Fairytale Gone Bad.mp4
Аноним 17/07/23 Пнд 08:46:42 #336 №408113 
https://huggingface.co/datasets/NeuroSenko/senko-voice
Датасет на голос с лисой, на случай, если кто-то захочет модель на RVC или ещё что-то обучить. А то я нескоро этим займусь похоже.
Аноним 18/07/23 Втр 16:08:20 #337 №413127 
pupa.mp4
Аноним 18/07/23 Втр 21:05:58 #338 №413682 
https://youtu.be/IcpRfHod1ic
Аноним 18/07/23 Втр 22:36:26 #339 №413975 
Короче, пацаны. Открываете телеграм, находите канал СnacuTe XpucT'a, боту отсылаете сообщение и качаете кучу говн\\\\ голосов.
RVC модели⬇️
RVC_Voice_1:
1- 50cent
2- Alduin
3- Ани Лорак
4- Arnold Schwarzenegger
5- Bella Poarch
6- Biden
7- Billie Eilish 2021
8- Billie Eilish 2019
9- Bob Dylan
10- Borat
11- Brigadier

RVC_Voice_2:
1- CardiB
2- Don Lafontaine
3- Elon Musk
4- elton
5- Eminem
6- Franklin Clinton
7- Freddie Mercury
8- Gabe Newell

RVC_Voice_3:
1- Georgew Bush
2- Gman
3- Johnny Silverhand
4- Kanye
5- Лена Катина
6- Kurt Cobain
7- Lana Del Rey
8- Leon Kennedy
9- Marilyn Monroe
10- Michael Jackson

RVC_Voice_4:
1- Michael de santa
2- Mike Patton
3- Mimir
4- Mitchie Mmiku
5- Morten
6- Namvet
7- Obama
8- Optimus Prime
9- Ozzy Osbourne

RVC_Voice_5:
1- Pitbull
2- Пригожин
3- Rick
4- Rick2
5- Sakura Miyawaki
6- Scarlett Rhodes
7- Selena
8- Shrek
9- Trevor Philips
10- Trump
11- Юлия Волкова
12- Yuna
13- Зеленский
14- Михаил Горшенёв

RVC_Voice_6:
1- Adriano Celentano
2- Akanev2(аниме)
3- Akon
4- Bob Marley
5- Bot maxim
6- Братишкин
7- Chino
8- Dalek(Доктор кто)
9- DMX
10- Geralt(eng)
11- Giorgia Meloni
12- Thrall WOW

RVC_Voice_7:
1- George Carlin
2- Frank Sinatra
3- Леонид Володарский

RVC_Voice_8:
1- Freddie Mercury 2
2- Miley Cyrus
3- Spongebob Squarepants
4- Глад Валакас

RVC_Voice_9:
1- Крош(смешарики)
2- Kurt Cobain 2
3- Егор Летов
4- LisaAImodel
5- Lyn lapid
6- Marmok
7- Nancy Drew
8- Neurosama(аниме)
9- Peter Griffin
10- Винни-Пух
11- Glados
12- Siri ru
13- Юрий Стоянов
14- Trump2
15- Viktor
16- Yandex Alisa

RVC_Voice_10:
1- Пригожин 2
2- Rihanna)

RVC_Voice_11:
1- Александр Головчанский
2- Александр Клюквин
3- Александр Рахленко
4- Александра Курагина
5- Алексей Борзунов
6- Андрей Гаврилов
7- Антон Савенков
8- Артём Карапетян
9- Борис Репетур
10- Вартан Дохалов
11- Василий Ливанов
12- Вероника Саркисова
13- Вероника Саркисова_2
14- Виктор Цымбал
15- Виталий Соломин
16- Владимир Антоник
17- Владимир Вихров
18- Владимир Ерёмин
19- Владимир Зайцев
20- Владимир Познер
21- Владислав Копп
22- Всеволод Кузнецов
23- Высоцкий Владимир
24- Вячеслав Баранов
25- Глушковский Михаил
26- Головчанский Александр
27- Денис Беспалый
28- Денис Некрасов
29- Дмитрий Полонский
30- Дмитрий Пучков
31- Дмитрий Пучков 2
32- Евгений Леонов
33- Евгений Суслов
34- Иван Жарков
35- Игорь Старосельцев
36- Игорь Тарадайкин
37- Илья Барабанов
38- Илья Бледный
39- Илья Исаев
40- Леонид Белозорович

RVC_Voice_12:
1- Леонид Белозорович_2
2- Леонид Володарский
3- Михаил Белякович
4- Михаил Георгиу
5- Matthew McConaughey
6- Никита Прозоровский
7- Николай Буров
8- Николай Дроздов
9- Олег Вирозуб
10- Ольга Зубкова
11- Рогволд Суховерко
12- Руслан Габидуллин
13- Светлана Репетина
14- Сергей Бурунов
15- Сергей Пономарёв
16- Сергей Чихачев
17- Сергей Чонишвили
18- Сергей Чонишвили 2
19- Станислав Концевич
20- Юрий Живов
21- Юрий Левитан
22- Юрий Яковлев

SVC модели⬇️
Voice_1:
1- Михаил Горшенёв (Эпох: 4400 )
2- Михаил Горшенёв 2 (Эпох: 3080 )
3- Михаил Горшенёв 3 (Эпох: 6400 )

Voice_2:
1- Dora (Эпох:4000)
2- Dora 2 (Эпох:12000)
3- Face (Эпох: 6000)

Voice_3:
1- Morgenshtern (Эпох: 15000)
2- Morgenshtern 2 (Эпох: 36000)
3- Morgenshtern 3 (Эпох: 1448)

Voice_4:
1- Егор Летов (Эпох: 2000)
2- Глад Валакас (Эпох: 56000)
3- Гитлер (Эпох: 30000)

Voice_5:
1- INSTASAMKA (Эпох: 9000)
2- Kizaru (Эпох: 27200)
3- OXXXYMIRON (Эпох: 24000)

Voice_6:
1- Slava Marlow (Эпох: 28000)
2- Бледный (Эпох: 7200)
3- Зеленский (Эпох: 11000)

Voice_7:
1- Меладзе (Эпох: 10000)
2- Мэйби Бэйби (Эпох: 32000)
3- Элджей (Эпох: 17000)

Voice_8:
1- Александр Белявский
2- Александр Клюквин
3- Александр Котов
4- Александр Рахленко

Voice_9:
1- Андрей Ярославцев
2- Борис Репетур
3- Владимир Зайцев
4- Всеволод Кузнецов

Voice_10:
1- Дмитрий Полонский
2- Дмитрий Пучков
3- Евгений Леонов
4- Иван Жарков

Voice_11:
1- Леонид Белозорович
2- Николай Быстров
3- Рогволд Суховерко
4- Сергей Бурунов

Voice_12:
1- Сергей Чонишвили

Ну там кроме этого еще полно всего.
Аноним 19/07/23 Срд 01:26:51 #340 №414384 
>>413975
>Открываете телеграм
Лучше вскрыться нахуй.
Кстати, если ты это сделал, то выложи на достойные ресурсы типа цивитая.
Аноним 19/07/23 Срд 08:44:53 #341 №414701 
image.png
Уважаемые господа, подскажите как чинить проблему на RVC. Когда пытаюсь сгенерировать на основе одного и того-же аудио, но с другими крутилками - вылезает это и разницы в результате с предыдущим траем нет. Перезапуск не помогает.
Аноним 19/07/23 Срд 13:29:18 #342 №415028 
>>414384
Как пожелаешь.
Не я и там овердохуягигов, которые скачиваются оттуда на максимальной скорости. Найти было очень трудно если что, но, видимо, это никому не упало.
Аноним 21/07/23 Птн 00:41:52 #343 №420451 
kipelo.mp4
В RVC мешьне/почти нет артефактов, но голос более похож у so-vits.
Пердолился с rvc на трёх моделях - голоса вообще не похожи. Разве что у боба кое как.
Мб для датасета из 400 файлов 100 эпох слишком много и идёт переобучение?
Аноним 24/07/23 Пнд 23:40:26 #344 №427916 
Sunrise Avenue - Fairytale Gone Bad.mp4
>>407940
Всё же голос звучит чётче, если морфить сразу по обоим стерео-каналам, а не выпендриваться с дроблением стерео на моно-треки с их последующим морфингом по отдельности.

В варианте выше делал морфинг по отдельным каналам. В прикреплённом здесь варианте просто морфинг по стерео-дорожке целиком.
Аноним 25/07/23 Втр 15:07:01 #345 №428635 
Может я, конечно, слоупочу, но
ОЧИНЬ МНОГА МАДЕЛИЙ ДЛЯ RVC
https://huggingface.co/juuxn/RVCModels/tree/main
Аноним 25/07/23 Втр 21:22:48 #346 №428995 
>>427916
Прикольно
Аноним 27/07/23 Чтв 02:29:42 #347 №430610 
>>428635
> ОЧИНЬ МНОГА МАДЕЛИЙ ДЛЯ RVC
Я думаю, японские дрочеры напрягаются. Страна-сексшоп, страна-фагготрия.
Аноним 27/07/23 Чтв 02:48:54 #348 №430626 
so-vits-svc-fork.mp4
rvce20.mp4
rvce1000.mp4
[Hugging Face] Senko.mp4
[Hugging Face] Senkosan.mp4
Пока не могу понять, как RVC готовить. По ощущениям, RVC лучше проговаривает отдельные звуки в сравнении с SVC (как анон >>400831 заметил), но, при этом, делает много других косяков.

Вот пример морфа одного и того же отрезка с разными моделями и одинаковыми настройками (питч +12, crepe). Тут есть вариант на so-vits-svc-fork, две rvc v2 модели по тому же самому датасету на разное число эпох (20 vs 1000), и две модели на того же персонажа, которые я нашёл на >>428635 файлопомоке. У so-vits-svc-fork просто не может взять пару высоких нот на 1:25, а у любых rvc-моделей иногда проскакивают какие-то механические звуки, или что-то совсем непонятное на резких переключениях высоты происходит, например на 0:57.

Может я с обучением или преобразованием напортачил? Кроме питча и "pitch extraction algorithm" всё по умолчанию оставлял. Либо RVC более чувствителен к качеству дорожки, которую использум для морфинга, хотя на других примерах у меня всё аналогично выглядит.
Аноним 27/07/23 Чтв 03:17:23 #349 №430636 
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases/tag/updated0618v2
А, и ещё, как поставить RVC на шиндовс - просто скачайте и распакуйте RVC-beta.7z, которую можно найти на странице последнего релиза по ссылке выше. Запуск через файл go-web.bat. Файлы с моделями кидать в директорию weights; по умолчанию не идёт каких-либо моделей в комплекте.

Я сначала пытался по умному через git и ручную установку зависимостей в venv поставить, но ниасилил - при запуске ругался на какие-то пакеты. А тут всё без каких-либо проблем завелось.
Аноним 27/07/23 Чтв 20:12:38 #350 №431554 
OplachuPidoru Postal Dude.mp4
>>430626
Я делаю всё через колабы, т.к. не имею достаточных мощностей, в силу чего не очень в нейронках понимаю. Но по личным наблюдениям SVC делает голос более похожим. но чаще встречаются всякие косяки типа срывов и хрипения, в то время как в RVC их почти нет.

Ну а ещё в случае с колабами RVC быстрее и проще запскается, для обучения хавает mp3 вместо wav, быстрее обучает и генерирует. SVC колаб же просто кастрированый, крутилок мало и они ничего в лучшую сторону не меняют.
Аноним 27/07/23 Чтв 20:14:30 #351 №431557 
>>431554
P.S.
Но если датасет и запись идельного качества, то SVC почти не плодит артефактов и получается лучше, чем в RVC.
Аноним 27/07/23 Чтв 20:57:37 #352 №431603 
>>430636
У меня с этого архива >>414701
Аноним 27/07/23 Чтв 23:05:45 #353 №431750 
>>362460
> Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
На спейс в HF вынес UI для извлечения аудио из видео и для конвертации аудио+картинки в видео. В режиме audio2video добавляет 3 секунды тишины в конце, пока не понял, почему так выходит - у меня ffmpeg локально и на HF по разному отрабатывает с одними и теми же командами. Вот с этой строкой надо колдовать - https://huggingface.co/spaces/NeuroSenko/audio-processing-utils/blob/main/app.py#L32

Ну и работает долго ппц, хотя это от очередей в HF зависит, насколько я понимаю. Можно форкнуть или поднять локально при необходимости - там в requirements.txt всё что надо прописано правда оно срать temp файлами в корень проекта будет.
Аноним 27/07/23 Чтв 23:19:22 #354 №431766 
Untitleaad.mp4
Аноним 27/07/23 Чтв 23:26:35 #355 №431780 
>>414701
Хз, у меня на той же версией RVC, что у тебя на пике, нет такой проблемы. Питон глобальный у меня так же 3.10.

Ну попробуй архив по новой стянуть, лол. Хотя, судя по дате поста, ты уже должен был всё перепробовать.
Аноним 27/07/23 Чтв 23:36:47 #356 №431792 
>>431780
Ну я просто хуй забил.
На то, что-бы убедиться что очередная спизженная модель плохо работает и одной попытки хватит.
Аноним 27/07/23 Чтв 23:51:26 #357 №431806 
>>431766
На 44 секунде он умир.
Аноним 28/07/23 Птн 15:26:50 #358 №432431 
output.mp4
Как челики делают подобного качества записи в RVC Voice AI? Только не говорите мне что создатель модельки японец или настолько помешан на аниме, что способен с подобной дикцией зачитывать текст
Аноним 28/07/23 Птн 16:43:40 #359 №432504 
>>432431
Вопрос закрыт, разобрался
Аноним 28/07/23 Птн 16:49:06 #360 №432508 
>>432504
Ты бы хоть поделился, как решил...
Аноним 28/07/23 Птн 17:13:17 #361 №432533 
image.png
1469363807.mp4
>>432508
В input выбираешь файл и желательно Acapella версию песни
https://youtu.be/_JXbvSTGPoo
Аноним 28/07/23 Птн 17:24:57 #362 №432554 
>>432533
Первый раз такой фронтенд вижу. Надо будет глянуть, спасибо за наводку.
Аноним 28/07/23 Птн 17:46:09 #363 №432584 
1469363808.mp4
С ритмом конечно же будет отдельная беда
Аноним 28/07/23 Птн 19:41:04 #364 №432696 
14693638194.mp4
Аноним 28/07/23 Птн 20:04:04 #365 №432711 
14345768.mp4
Аноним 28/07/23 Птн 23:29:06 #366 №433021 
Common.mp4
SSML.mp4
https://huggingface.co/spaces/NeuroSenko/tts-silero

Накидал на коленке фронтенд для TTS части проекта https://github.com/snakers4/silero-models
Поддерживается несколько русскоязычных спикеров. Должны поддерживаться и прочие спикеры, но что-то у меня на спейсе ошибки льются и мне лень прямо сейчас это раскуривать.

Поддерживается синтаксис SSML-разметки, подробнее курить в доках - https://github.com/snakers4/silero-models/wiki/SSML

Всё это, как водится, можно форкнуть или запустить локально.
Аноним 29/07/23 Суб 00:03:36 #367 №433084 
senko.mp4
>>433021
Спасибо
Аноним 29/07/23 Суб 13:18:28 #368 №433724 
kompromissspongebobmixdown.mp4
Анончики, как избавиться от акцента в RVC? У меня у всех моделей, даже русскоязычных очень заметный акцент, особенно на шипящих и твердых согласных.
Тут у Спанч Боба практически нет акцента >>420451
Аноним 29/07/23 Суб 13:22:38 #369 №433732 
>>433724
А никак, если хочешь, чтобы не было ебанутого английского акцента на русском тексте, то нужна русская базовая моделька. А таких не имеется.
Аноним 29/07/23 Суб 13:43:19 #370 №433755 
coi1.mp4
coi2.mp4
coi3.mp4
coi4.mp4
>>433724
Там крутилка есть на силу акцента. По умолчанию она на 0.7 стоит, можно больше делать, но будет больше артефатич
Аноним 29/07/23 Суб 15:35:17 #371 №433918 
letov1.mp4
>>433755
Аноним 29/07/23 Суб 17:29:18 #372 №434112 
>>433755
Это в локальной версии? Я на колабе такого, вроде, не видел.
Другойанон
Аноним 29/07/23 Суб 17:46:12 #373 №434141 
.png
>>434112
В локальном китайском webui
Правда толку от этой крутилки практически никакого
Аноним 29/07/23 Суб 18:34:23 #374 №434198 
>>434141
А, нифига себе. Ну, то что толку никакого я заметил. Ради теста делал одну и ту же запись на 0.5, 0.7, 0.9. Разницы не услышал.
Аноним 29/07/23 Суб 18:37:13 #375 №434205 
>>434141
Алсо, скинь, пожалуйста, скрин интерфейса локальной версии. Сравнить хочу с колабом.
А то у колаба SVC, например, почти все куртилки порезаны. Да и в целом колаб SVC кривой. Помню он мне одку песню почему-то при обработке отказывался на фрагменты разбивать, жрал все две минуты за раз, а потом выдавал ошибку, шо видеопамять закончилась.
Аноним 29/07/23 Суб 19:54:24 #376 №434315 
FireShot Capture 018 - Gradio - localhost.png
FireShot Capture 019 - Gradio - localhost.png
FireShot Capture 020 - Gradio - localhost.png
FireShot Capture 021 - Gradio - localhost.png
FireShot Capture 022 - Gradio - localhost.png
FireShot Capture 023 - Gradio - localhost.png
>>434205
Аноним 29/07/23 Суб 20:05:02 #377 №434334 
>>434315
Понятно, спасибо. Вроде отличия есть. но не такие сильные, как в случае с SVC.
Аноним 29/07/23 Суб 22:31:42 #378 №434521 
А на сколько трудно вот это подключить к тексту? Или чтение текста это совсем другая более сложная задача?
https://www.youtube.com/shorts/dnQotnbHax4
Аноним 29/07/23 Суб 22:37:23 #379 №434526 
>>434521
Это VC, оно меняет голос. Для чтения текста TTS.
В прицнипе, ты можешь засунуть в VC то, что было озвучено рандомным TTS, но, как и у всех TTS, будут проблемы с ударениями, интонацией и прочим.
Короче, VC>TTS
Аноним 30/07/23 Вск 13:35:30 #380 №435177 
https://huggingface.co/spaces/Aki004/herta-so-vits
Анончики, кто может помогите, пожалуйста.
Как вот эту вот ебалду завести на петухоне?
К примеру, я с консоли буду текст вводить, а оно мне речь на выходе лепить
Аноним 30/07/23 Вск 14:25:21 #381 №435273 
>>435177
git clone https://huggingface.co/spaces/Aki004/herta-so-vits/
cd ./herta-so-vits/
pip install -r requirements_win.txt
python ./demo.py

demo.py можно подправить, чтобы он принимал параметр TEXT в качестве аргумента
Аноним 30/07/23 Вск 15:38:12 #382 №435396 
>>435273
raise ValueError(f'mutable default {type(f.default)} for field '
ValueError: mutable default <class 'fairseq.dataclass.configs.CommonConfig'> for field common is not allowed: use default_factory

Срёт ошибкой при запуске :((
Аноним 30/07/23 Вск 15:51:15 #383 №435407 
>>435396
Полностью вывод консоли покажи
Аноним 30/07/23 Вск 15:58:22 #384 №435417 
>>435407
https://pastebin.com/xk3K2U9B
Аноним 30/07/23 Вск 16:02:08 #385 №435421 
>>435417
Python 3.11 не поддерживается. Ставь 3.10.8
Аноним 30/07/23 Вск 16:04:43 #386 №435424 
>>435421
спасибо спасибо <з
Аноним 30/07/23 Вск 16:43:35 #387 №435472 
>>435177
>>435424
https://pastebin.com/8UnDkM6z можешь этот файл скачать и запускать вместо demo.py. Вводишь текст в консольку и он его читает (и сохраняет в out_audio.wav), выходить через ctrl+c (или просто закрыть окно)
Перед использованием нужно установить пакет sounddevice
pip install sounddevice
Если будет ругаться на CUDA, то замени в строке #31 device = 'cuda' на device = 'cpu'
Аноним 30/07/23 Вск 17:05:39 #388 №435495 
>>435472
Спасибо, анончик!

Но после того, как накатил python 3.10.8, озвучка персонажа слетела и сейчас вообще не то, уже чистил и перекачивал репозиторий - сейм проблема
Аноним 30/07/23 Вск 18:05:38 #389 №435594 
>>435495
После накатки 3.10.8 pip install -r requirements_win.txt делал?
Так же убедись, что у тебя 3.10.8 прописался в path, а то может там остался 3.11
Аноним 30/07/23 Вск 18:45:19 #390 №435658 
>>435594
>pip install -r requirements_win.txt делал?
Делал
>в path 3.10.8
Аноним 30/07/23 Вск 19:24:57 #391 №435734 
>>435472
Видимо, запись в файл не понравилась скрипту в твоём варианте.
Переписал https://pastebin.com/t818hTAe, теперь все супер работает.
Спасибо за помощь!
Аноним 31/07/23 Пнд 22:14:48 #392 №438047 
Слухайте, а кроме voicevox ничего нормального нет для генерации рандомного текста в войс?
Аноним 01/08/23 Втр 15:22:31 #393 №439135 
video5334702908980077953.mp4
Аноним 03/08/23 Чтв 11:35:35 #394 №442209 
Что автопереводчики лучше воспринимают - предложения или отдельные слова? Влияет ли это на качество? Подправить перевод руками не сложно, но раз слова в образце не опознаются, может лучше его не использовать?
Аноним 03/08/23 Чтв 16:32:48 #395 №442604 
Есть гайд для долбоебов как генерить смешные песенки с голосом пророка санбоя?
Аноним 04/08/23 Птн 13:19:10 #396 №443679 
>>442604
Вот для дебилов версия: https://youtu.be/pdlhk4vVHQk

Если что-то по пути будет не понятно, спрашиваешь у чата гпт (я на poe.com спрашивал).

Не знаю, нужно ли это вообще было, но так как у меня стоит python 3.10, а для проги нужен 3.9, то я его установил и активировал через virtualenv (узнал об этом тоже у гпт по запросу "Как установить локальный python определённой версии для одной программы?"). Главное, что работает
Аноним OP 04/08/23 Птн 18:55:09 #397 №443882 
>>433021
> Накидал на коленке фронтенд для TTS части проекта

Круть. Это сейчас тестируется в альфе Soundworks, там редактор для SSML есть и встроенные конвертеры, грех не использовать. Так что фронтенд для винды, считай, тоже есть.

Мне нравится качество, которого ребята добились - не хуже Яндекса. Реальные молодцы.
Аноним OP 04/08/23 Птн 18:56:29 #398 №443883 
>>442209
Предложение несёт контекст.
Аноним OP 08/08/23 Втр 22:09:05 #399 №448810 
1691521743871.mp4
1691521743872.mp4
1691521743873.mp4
1691521743873.mp4
1691521743873.jpg
1691521743902.jpg
1691521743906.jpg
>>443882
Обновление SoundWorks с поддержкой Silero перешло в бету релиз. Что имеем:

Поддержка английского и русского языка (т.е. испанский и что там ещё у них есть - ещё не реализованы). 118 голосов в английском, 5 в русском. Если уже стоит питон и торч, то ничего дополнительно ставить не придётся. Если питона или торча нет - SW должен поставить. Там есть ссылка "установить Силеро", если на неё нажать, он проверит наличие Питона и Торча. Если скажет, что "наверное уже стоит, поставить заново?", то лучше от греха подальше сказать "нет".

Первая генерация займёт секунд 5-8, потому что будет скачивать модель. Моделька маленькая, но так как прогресс не показывается, то придётся понадеяться. В дальнейшем генерация занимает какую секунду, если с видеокартой. Полагаю, что с процессором будет не сильно дольше. Видеопамяти при генерации ест совсем мало.

Как установить - в конце.

Сейчас же о голосах. В принципе, качество очень высокое, но есть косяки. В примере - несколько голосов Силеро и один Алисы. Я полагаю, очевидно, что Алиса справляется с пунктуацией и произношением лучше, но в принципе косяки русских голосов Силеро именно в этом - ударения, пунктуация, их придётся проставлять отдельно, или будут "гитарные струнЫ" и "разводы грязИ".

Авторы заявляют поддержку SSML, но по факту её нет. Русская модель понимает теги SSML, но реального эффекта они не дают. Английская модель даже не понимает тегов.

В английском языке есть 118 голосов. В большинстве своём - так себе, интересно другое - как и в русском языке, это голоса не профессиональных дикторов, и они явно со всех стран мира. Я угадывал и шотландцев и австралийцев, и британцев с американцами. Так что придётся прослушать всех и выбрать нужный. К счастью, все примеры уже готовы и выложены в mp3.

https://dmkilab.com/files/SileroVoicesEN.zip
https://dmkilab.com/files/SileroVoicesRU.zip

Теперь как всё это устанавливать.

1. Скачиваем https://dmkilab.com/files/SoundWorksSetup.exe
(страница https://dmkilab.com/soundworks ведёт на ту же ссылку)
2. Устанавливаем. Оно докачает примерно 90Мб
3. Запускаем. Будет окошко на английском, выбираем Options - там ищем выбор русского языка и самое главное - вкладку Silero. Если на машине уже стоит питон и торч, то надо будет только разрешить использовать Силеро.
4. Запускаем снова, на сей раз выбираем Главное Окно - сначала появится окошко с лицензией, жмём I'm lazy - это введёт код. Не помню, если этот код позволяет генерировать премиальными голосами, но что-то дать может. Но нам пофиг, надо просто чтобы больше не спрашивал. Версия в нижнем правом углу должна показать как минимум 1.15
5. Выбираем язык, нажав на соответствующий флаг. Дальше просто - выбираем голос - все голоса Силеро внизу списка. Если до этого в настройках выбрали "только бесплатные голоса" - то в списке будут только голоса Силеро.
6. Вводим текст и генерироваем.

Там есть пара функций для генерации - доступны через меню "Проект". После нажатия зелёной кнопки, оно попытается сгенерировать файл. Первый раз займёт секунд 10, потом секунду - это очень быстрые модели.

Совет - в главном окне выберите конвертацию в MP3 и автоматические имена. В противном случае результаты Silero будут в WAV.

Первый пикрелейтед - голос Силеро.
Второй - Яндекс Алиса Алёна. Просто для сравнения.
Третий - Силеро (один из 118)
Четвёртый - то же

Резюме - местами очень хорошо, и это можно применить в "продакшене" (NB: лицензия модели запрещает коммерческое использование без выплаты лицензионных отчислений), но платным моделям всё ещё проигрывает.
Аноним OP 08/08/23 Втр 22:30:02 #400 №448831 
>>448810
> Русская модель понимает теги SSML, но реального эффекта они не дают.

А вот тут >>433021 - дают. Что наводит на мысли. Либо недостаточно прямая реализация, либо модели разные. Ну будем смотреть, может заработает. Больше смущают помехи при генерации английских голосов - как будто через аналоговую телефонную линию с очень загруженной станцией. Но учитывая цену - очень неплохо.
Аноним 09/08/23 Срд 09:00:46 #401 №449139 
Мимо шел, такой вопрос - можно ли свою модель сделать и ей озвучивать и насколько это сложно? Допустим есть пара десятков часов материала, этого будет достаточно?
Аноним 09/08/23 Срд 16:43:17 #402 №449569 
>>449139
Может быть, но лучше часов 50 студийной записи.

> насколько это сложно?
Весьма. Чисто для теории: вот статья на богомерзком хабре:
https://habr.com/ru/companies/sberdevices/articles/718096/

и вот тот продукт, о котором он говорит:
https://developers.sber.ru/portal/products/smartspeech-yourvoice
https://developers.sber.ru/portal/products/smartspeech

То же самое есть у Яндекса - можно записать голос для СпичКита, но там, кажется, речь шла о сотнях часов. Может, уже исправились.

TTS Silero записывали свои голоса за 2 часа, но и качество соответствующее. Они механизмом создания модели не делились.
Аноним 09/08/23 Срд 19:35:41 #403 №449731 
Анончики, буду рад вашей помощи. Да и тред по моему наиболее подходящий. Хоть мне и нужно наоборот Speech to text.
Очень упарываюсь по японским ASMR.
Но проблема в том, что оч плохо с японским, кроме базовых и распространенных фраз не особо вдупляю в чём речь.
Так вот, какое-то время я использовал программу на базе Whisper AI, называется Whisper Dekstop. Он помогал мне либо переводить, либо делать транскрип японской речи в текст. Но зачастую всё упиралось в то, что начало распознается более менее нормально, а вот дальше идет какой то пиздец с лупами и бессвязным текстом.
Можете подсказать какие нибудь более стабильные проги, для транскрипта японской речи прямо с аудио и чтоб выдавало в виде сабов с временными пометками.
Аноним 09/08/23 Срд 20:04:07 #404 №449775 
>>449569
>50 студийной записи.
Столько нету, хочу голосами одной известной анимешной студии дубляжа озвучивать, у них поменьше набирается. Просто мне заебали кидать нейросетевые каверы, стало интересно, чем их делают. so vitc svc или что-нибудь другое
Аноним 09/08/23 Срд 21:38:03 #405 №449890 
>>449775
Если изменить существующий голос на другой - да, vits, и это намного проще. Я говорил о TTS модели. Vits это скорее STS.
Аноним 09/08/23 Срд 22:02:19 #406 №449914 
1691607736511.jpg
>>449731
Whisper не очень для японского, уж не знаю, почему. В >>448810 тоже есть для него UI. Но японский распознаёт криво, особенно в песенках. Я думаю, что шанс есть у аналогичной STT от Алибабы. Они же китайцы, должны были сделать как надо.
Аноним 09/08/23 Срд 22:48:41 #407 №449999 
>>449914
почекал надо карту и номер привязывать. эх жаль :c
Аноним 09/08/23 Срд 22:58:20 #408 №450010 
>>449999
У меня там есть акк. У тебя есть сэмпл на японском?
Аноним 09/08/23 Срд 23:06:54 #409 №450016 
>>450010
йеп. вот залил на кэтбокс. если нужно короче, скажи, найду меньше.
https://files.catbox.moe/if4uap.mp3
Аноним 09/08/23 Срд 23:21:22 #410 №450024 
>>450016
Вот, к слову, Whisper. У тебя так же?

я не знаю.
он был здесь.
интересно, это время после работы?
что ж, я тоже так думаю.
но сама работа продвигалась намного раньше, и я ходила по магазинам, так что сейчас самое время.
но именно так я встретил тебя.
ты вернулся в нужное время. это был правильный ответ.
наши сестры могут думать что-то подобное каждый раз, когда сталкиваются с вами.
персонажи разные, но у всех у них есть что-то похожее.
итак, ты всегда гуляешь после работы, верно?
вот как это произошло, и я немного поладлю с тобой.
интересно, не опоздаю ли я немного, когда вернусь домой?
я взял его, но не вернусь, пока не стемнеет.
что ж, даже если возвращаться немного поздновато, мои сестры
, я думаю, я думаю, что встретил вас.
Удобно сказать, что в такое время наш дом находится рядом - нет никаких проблем, даже если это в какой-то степени медленно
, я должен поблагодарить своих родителей за то, что они стоят рядом с морем.
я не знаю.
давайте еще немного пройдемся по волнам. шум волн.
мне нравится слышать более отчетливо.
Если ты подойдешь еще ближе, твои ноги промокнут
Давайте медленно прогуляемся отсюда по пляжу
, несмотря на это, мне кажется необычным видеть вас вечером.
обычно это происходит после выходного дня, после того, как стемнеет.
море в это время тоже хорошее, не так ли?
закат немного ослепительный, но я чувствую, что это яркий вид.
но что мне нравится больше всего
Море ночью, эта тихая и спокойная атмосфера
, мне это очень нравится.
ты иногда бродишь где-то посреди ночи, не так ли?
может быть, это просто по дороге домой с работы, но, возможно, есть причина, по которой воздух этой ночи такой приятный.
для меня это то же самое, что и выходной.
мне нравится гулять на солнышке, но мои сестры и мои сестренки
, интересно, нравится ли ему гулять ночью
, мои родители не хотят, чтобы мои сестры уходили поздно, но... ну, я не хочу, чтобы мои сестры уходили поздно.
нагиса украдкой бросает на нее взгляд и ускользает.
это как будто я просто прогуливаюсь по пляжу, так что ни я, ни моя сестра ничего не скажем.
с другой стороны, кахо и Марин
, когда вы захотите прогуляться посреди ночи, позвоните мне или своей сестре.
интересно, не спросит ли он тебя слишком рано?
если мы встретимся здесь вечером примерно на час
, я хочу, чтобы ты остался со мной до ночи.
да, в любом случае, морской пехотинец.
кахо не из тех детей, которые так откровенно говорят, могу я спросить ее?
даже когда я ее спрашиваю.
я не решаюсь сказать это.
когда она была моложе, она была такой же честной, как Марин.
мне интересно, почему все сестры такие разные, несмотря на то, что они выросли в одной и той же среде
, моя сестра и Марин немного похожи, но если вы говорите, что они разные, значит, они разные.
ну, самое большое отличие - это нагиса.
она, кажется, осознает себя, и, возможно, ее подобрал под мостом только один из 5 человек.
все совсем не так.
интересно, почему все так по-другому?
я думаю, что между моей сестрой и мной большая разница, и, с вашей точки зрения, это правда.
когда ты впервые встретила меня, ты даже не знала, что ты моя сестра.
я думаю, что черты лица в какой-то степени похожи, но я думаю, что впечатление, о котором я говорил, в конце концов, другое
, если вы заметили, вы будете все время говорить о своих сестрах.
ты и двое из меня - единственные, кто здесь есть.
давай просто двигаться дальше.
смотри, вон там есть насыпь.
когда я отправляюсь на прогулку, я обычно заезжаю туда по дороге.
я слышала от своей сестры, что есть место, которое мне нравится, и, возможно, она даже показала мне его.
Каменистое местечко, как раз подходящее для того, чтобы ты мог присесть
, мне это место тоже нравится.
я хотел, чтобы другие места были особенными для меня.
это набережная.
это тоже действительно классное место.
пойдем.
Аноним 09/08/23 Срд 23:41:52 #411 №450068 
>>450024
кек. мне выдает такую срань если переводит с проги. а ты как делаешь? через консоль?


[00:00:01.000 --> 00:00:03.000] ( Шум волн становится громче)
[00:00:03.000 --> 00:00:05.000] ( Шум волн становится громче)
[00:00:05.000 --> 00:00:07.000] ( Шум волн становится громче)
[00:00:07.000 --> 00:00:09.000] ( Шум волн становится громче)
[00:00:09.000 --> 00:00:11.000] ( Шум волн становится громче)
[00:00:11.000 --> 00:00:13.000] ( Шум волн становится громче)
[00:00:13.000 --> 00:00:15.000] ( Шум волн становится громче)
[00:00:15.000 --> 00:00:16.000] ( Шум волн становится громче)
[00:00:16.000 --> 00:00:18.000] Ты здесь.
[00:00:18.000 --> 00:00:20.000] ( Шум волн становится громче)
[00:00:20.000 --> 00:00:22.000] Я думаю, это время означает.....
[00:00:22.000 --> 00:00:24.000] Я думаю, это время означает.....
[00:00:24.000 --> 00:00:25.000] ( Шум волн становится громче)
[00:00:25.000 --> 00:00:29.000] Что ж, думаю, я тоже здесь.
[00:00:29.000 --> 00:00:30.000] ( Шум волн становится громче)
[00:00:30.000 --> 00:00:37.000] Но мне пришлось пройтись по магазинам, чтобы добраться сюда.
[00:00:37.000 --> 00:00:42.000] Но я встретил тебя здесь.
[00:00:42.000 --> 00:00:46.000] Я вернулся в нужное время.
[00:00:46.000 --> 00:00:47.000] ( Шум волн становится громче)
[00:00:47.000 --> 00:00:49.000] ( Шум волн становится громче)
[00:00:49.000 --> 00:00:57.000] Моя сестра, возможно, думает об одном и том же каждый раз, когда встречает тебя.
[00:00:57.000 --> 00:01:07.000] У нас разные характеры, но у нас есть кое-что общее.
[00:01:07.000 --> 00:01:13.000] Итак, ты собираешься прогуляться по дороге домой с работы, верно?
[00:01:13.000 --> 00:01:22.000] Раз уж мы встретились здесь, я пойду с тобой.
[00:01:22.000 --> 00:01:47.000] ( Шум волн становится громче)
[00:01:47.000 --> 00:01:52.000] В такие моменты удобно быть поближе к дому.
[00:01:52.000 --> 00:01:56.000] Это не проблема, если вы немного опоздаете.
[00:01:56.000 --> 00:02:03.000] Я должен поблагодарить своих родителей за то, что они стояли на берегу моря.
[00:02:03.000 --> 00:02:07.000] Давайте еще немного прогуляемся по пляжу.
[00:02:07.000 --> 00:02:14.000] Мне больше нравится, когда шум волн звучит отчетливее.
[00:02:14.000 --> 00:02:26.000] ( Шум волн становится громче)
[00:02:26.000 --> 00:02:31.000] Если ты подойдешь еще ближе, твои ноги промокнут.
[00:02:31.000 --> 00:02:44.000] Давайте отсюда медленно прогуляемся вдоль береговой линии.
[00:02:44.000 --> 00:02:53.000] ( Шум волн становится громче)
[00:02:53.000 --> 00:03:00.000] Я чувствую, что редко вижу тебя по вечерам.
[00:03:00.000 --> 00:03:07.000] Обычно это происходит после полудня в выходной день и после наступления темноты ночью.
[00:03:07.000 --> 00:03:12.000] Море в это время чудесное, не правда ли?
[00:03:12.000 --> 00:03:19.000] На закате немного светло, но вид прекрасный.
[00:03:19.000 --> 00:03:25.000] Но больше всего мне нравится ночное море.
[00:03:25.000 --> 00:03:33.000] Мне действительно нравится эта тихая и спокойная атмосфера.
[00:03:33.000 --> 00:03:38.000] Ты иногда гуляешь по ночам, не так ли?
[00:03:38.000 --> 00:03:43.000] Это могло бы быть идеально для возвращения домой с работы, но...
[00:03:43.000 --> 00:03:52.000] Я думаю, есть причина, по которой ночной воздух такой приятный.
[00:03:52.000 --> 00:03:55.000] Я такой же.
[00:03:55.000 --> 00:04:01.000] Я люблю прогуляться в свой выходной или погреться на солнышке.
[00:04:01.000 --> 00:04:08.000] Я думаю, что моя сестра и сестренки любят гулять по ночам.
[00:04:08.000 --> 00:04:15.000] Но мои родители не хотят, чтобы мои сестры гуляли допоздна.
[00:04:15.000 --> 00:04:21.000] Нагиса крадется из своей комнаты.
[00:04:21.000 --> 00:04:24.000] Она не бродит где попало.
[00:04:24.000 --> 00:04:27.000] Это все равно что прогуливаться по пляжу.
[00:04:27.000 --> 00:04:31.000] Я ничего не говорю своей сестре.
[00:04:31.000 --> 00:04:37.000] Наоборот, когда Кахо и Марин хотят прогуляться ночью,
[00:04:37.000 --> 00:04:47.000] Я поговорю со своей сестрой.
[00:04:47.000 --> 00:04:52.000] Думаю, когда-нибудь я попрошу тебя пойти со мной.
[00:04:52.000 --> 00:05:01.000] Я хотел бы встретиться с вами здесь вечером и остаться с вами до наступления темноты.
[00:05:01.000 --> 00:05:09.000] О, Марин не из тех девушек, которые могут так говорить.
[00:05:09.000 --> 00:05:17.000] Когда она просит меня пойти с ней, она не решается сказать это.
[00:05:17.000 --> 00:05:26.000] Когда она была моложе, она была честна, как морской пехотинец.
[00:05:26.000 --> 00:05:35.000] Я не знаю, почему у всех сестер разные характеры, хотя они выросли в одной среде.
[00:05:35.000 --> 00:05:44.000] Моя сестра и Марин в чем-то похожи, но в чем-то отличаются друг от друга.
[00:05:44.000 --> 00:05:50.000] Ну, а Нагиса совсем другой.
[00:05:50.000 --> 00:05:54.000] Похоже, она и сама это осознает.
[00:05:54.000 --> 00:06:00.000] Она сказала, что одну из пяти сестер, возможно, подобрали под мостом.
[00:06:00.000 --> 00:06:08.000] Это неправда.
[00:06:08.000 --> 00:06:14.000] Интересно, почему мы такие разные?
[00:06:14.000 --> 00:06:19.000] Я думаю, что между моей сестрой и мной есть большая разница.
[00:06:19.000 --> 00:06:24.000] Ты тоже так думаешь, верно?
[00:06:24.000 --> 00:06:31.000] Когда ты впервые встретил меня, ты не знал, что я твоя сестра.
[00:06:31.000 --> 00:06:41.000] Я думаю, мы немного похожи внешне, но я думаю, что у нас разные впечатления.
[00:06:41.000 --> 00:06:49.000] И тут я поняла, что говорю о своей сестре.
[00:06:49.000 --> 00:06:57.000] Ты и я - единственные, кто здесь есть.
[00:06:57.000 --> 00:07:03.000] Давайте двигаться дальше.
[00:07:03.000 --> 00:07:07.000] Смотри, вон там есть беседка.
[00:07:07.000 --> 00:07:14.000] Обычно я заезжаю туда по пути на прогулку.
[00:07:14.000 --> 00:07:19.000] Вы когда-нибудь слышали, что у вашей сестры есть любимое место?
[00:07:19.000 --> 00:07:23.000] Может быть, ее направили туда.
[00:07:23.000 --> 00:07:27.000] Это идеальное место, чтобы посидеть.
[00:07:27.000 --> 00:07:31.000] Мне тоже нравится это место.
[00:07:31.000 --> 00:07:37.000] Я хотел, чтобы у меня было особое место для себя.
[00:07:37.000 --> 00:07:41.000] Это беседка.
[00:07:41.000 --> 00:07:46.000] К тому же это очень тихое место.
[00:07:46.000 --> 00:07:51.000] Пойдем.
[00:07:53.000 --> 00:07:58.000] Я иду в беседку.
Аноним 10/08/23 Чтв 15:29:22 #412 №450613 
1691670562143.jpg
>>450068
> а ты как делаешь? через консоль?
Soundworks. Там встроенный UI для Whisper. Потом загнал в Яндекс переводчик. По-моему у него есть и перевод файлов субтитров, но в данном случае я выводил в текстовый файл.
Аноним 10/08/23 Чтв 16:02:00 #413 №450635 
>>450068
> выдает такую срань
В общем мне это кажется более связным, чем мой перевод через Яндекс. А что, смысл совсем неверный?
Аноним 10/08/23 Чтв 22:50:56 #414 №451076 
Кто может, хелпаните. Юзаю Silero TTS, однако хочу поставить в него кастомную модель, как сделать модель, если у меня есть 2 5 файлов с вокалом в разрешении wav, есть ли какие то онлайн ресурсы или репозитории которые предоставляют код по созданию кастомной модели? Если это гемор, подскажите как реализовать TTS с кастомным голосом и как этот кастомный голос сделать, если на руках есть только 5 опенингов с убранной минусовкой
Аноним 10/08/23 Чтв 23:25:56 #415 №451159 
>>451076
Так они же не раскрывали свой способ тренировки.
Аноним 11/08/23 Птн 01:33:10 #416 №451325 
>>451159
В этом и проблема, но может просто кто то обратной ниженеркой открыл все тайны этого, может модели перерыл или ещё что то
Аноним 11/08/23 Птн 10:53:06 #417 №451608 
Аноны пользовался кто https://github.com/coqui-ai/TTS ?

Нужен хотя бы нормальный английский ттс
Аноним 11/08/23 Птн 12:47:42 #418 №451735 
1691747260550.mp4
>>451608
> Аноны пользовался кто https://github.com/coqui-ai/TTS ?
У них даже сэмплов нет.

> Нужен хотя бы нормальный английский ттс
Смотря что для тебя "нормальный". Есть Силеро (см. выше), у остальных бесплатных уровень примерно тот же, как я могу судить.
Для меня "нормальный" - это пикрелейтед. Такого на бесплатном сейчас не получить, и пока не предвидится.
Аноним 13/08/23 Вск 12:08:28 #419 №454200 
>>451735
>У них даже сэмплов нет.
https://soundcloud.com/user-565970875/tracks

у тебя нормальный это для меня очень плохо
Аноним 13/08/23 Вск 14:40:09 #420 №454350 
>>454200
Ну тогда для тебя TTS ещё не завезли. Coqui звучит намного хуже, а лучше чем пикрелейтед пока не сделали.
Аноним 13/08/23 Вск 15:03:16 #421 №454376 
Как мне сделать голос своей вайфу и озвучить им все?
Обесните
Аноним 13/08/23 Вск 18:31:23 #422 №454614 
>>454376
SO-VITS. Смотри инструкцию в этом и предыдущем тредах. В таком случае ты будешь переозвучивать материал, созданный другой моделью. Для создания своих моделей с нуля пока инструментов не завезли.
Если хочешь сделать это за деньги, то есть предложения от Яндекса и Сбера, но легче подождать, пока тренировка модели станет доступной.
Аноним 13/08/23 Вск 18:59:37 #423 №454633 
>>454614
У меня амд 4гб, а в колабе я не понял как запустить
Аноним 13/08/23 Вск 20:46:11 #424 №454795 
image.png
Вот эта штука конечно хороша, но я совсем не понимаю как подключиться к ее апи, чтобы сделать tts > vc. Нет на вкладке network запросов, на которые можно было бы завязаться.
Аноним 14/08/23 Пнд 12:50:33 #425 №455338 
>>454795
хотя разобрался, правда без использования апи. Могу потом выложить инструкцию и код если кому нужно.
Делаю свой вариант типа ассистента Алисы, только с лламой и милым голосом.
Аноним 14/08/23 Пнд 14:20:21 #426 №455407 
>>455338
>если кому нужно
Вкидывай всё что есть, в любом случае не помешает.
Аноним 14/08/23 Пнд 15:12:56 #427 №455441 
so-vits на цпу работает, на amdgpu крашится
как пофиксить
Аноним 14/08/23 Пнд 15:14:29 #428 №455444 
>>455338
> Делаю свой вариант типа ассистента Алисы, только с лламой и милым голосом.
Я уже сделал такое, только с GPT-4. Причём полиглот, будет говорить с тобой на том языке, на котором ты с ним.
Только с Алисой это сравнивать не надо, Алиса не просто на вопросы отвечает, она и ищет инфу и будильник настроить может, и ещё всякое, чего твоя программа не смогёт.
Аноним 14/08/23 Пнд 15:24:35 #429 №455455 
.png
>>455441
https://github.com/voicepaw/so-vits-svc-fork#manual-installation
> AMD GPUs are not supported on Windows.
Ты знаешь ответ.
Аноним 14/08/23 Пнд 15:26:47 #430 №455459 
>>455455
У меня линукс
Аноним 14/08/23 Пнд 15:29:42 #431 №455465 
>>455444
А есть где-то код выложенный посмотреть?
Аноним 14/08/23 Пнд 15:30:18 #432 №455466 
>>455459
Тогда хз, кинь логи ошибки что-ли, мб подскажет кто. У меня NVidia+шиндовс, так что не помогу.
Аноним 14/08/23 Пнд 15:34:06 #433 №455470 
>>455444
>она и ищет инфу и будильник настроить может, и ещё всякое, чего твоя программа не смогёт
Как настроишь, так и будет. Никаких принципиальных ограничений тут нет, кроме жадности гугла, лул.
Аноним 14/08/23 Пнд 15:35:34 #434 №455471 
>>455466
Ошибка сегментирования.
Тут только ворнинги
Аноним 14/08/23 Пнд 15:59:55 #435 №455494 
>>455465
Надеюсь, что нет.
Аноним 14/08/23 Пнд 16:05:48 #436 №455497 
>>455470
> Как настроишь, так и будет.
Дело не в настройках. Даже если ты сможешь определить, что пользователь хочет настроить условный будильник, тебе надо будет писать модуль для управления будильником. Яндекс может на это потратить пару сотен человеко-часов, а ты? Единственный путь - это сделать возможность подключения собственных модулей, и пусть сами пишут свои будильники. Собственно, так Яндекс и сделал в Алисе.
Аноним 14/08/23 Пнд 16:12:52 #437 №455510 
>>455497
Пользователь тут конкретный, и я думаю он знает, что ему нужно. Поэтому модулей выйдет не так уж и много.
Аноним 14/08/23 Пнд 16:21:03 #438 №455523 
Хочу услышать песню "Птички летят" голосом Цоя
Аноним 14/08/23 Пнд 16:45:09 #439 №455553 
coi5.mp4
sunboy.mp4
Аноним 14/08/23 Пнд 16:51:45 #440 №455558 
bobmoon.mp4
>>455553
Самое главное забыл
Аноним 15/08/23 Втр 03:24:26 #441 №456272 
На моей луне.mp4
>>455553
Аноним 15/08/23 Втр 03:54:27 #442 №456282 
>>455553
>>455558
>>456272
Гуд. Что за нейронка?
Аноним 15/08/23 Втр 04:23:29 #443 №456294 
Notre Dame de Paris - Le Temps des Cathédrales.mp4
>>456282
Для лисы делал через so-vits-svc-fork; что у анона выше - не знаю. На RVC у меня лучше произношение (реже звуки проглатывает), а на SVC голос больше похож на голос персонажа.

У RVC лучше интерфейс и там в комплекте сразу идут утилиты для разделения аудио на инстументалку и вокал.

---

Инструкция по установке и использованию SVC:
https://rentry.org/tts_so_vits_svc_fork_for_beginners

Готовые модели для SVC искать тут: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc&view=feed

---

Чтобы поставить RVC, проще всего скачать пакет со всеми зависимостями (наверху страницы ссылка на скачивание RVC-beta.7z):
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases/tag/updated0618v2

Запуск через файл go-web.bat. Файлы с моделями кидать в директорию weights; по умолчанию не идёт каких-либо моделей в комплекте. Для RVC тут можно найти много готовых моделей разной степени паршивости >>428635
Аноним 15/08/23 Втр 07:06:21 #444 №456349 
Вы используете index-файлы для RVC? Я не могу понять, для каких конкретно случаев они нужны - не слышу разницу что с индексами, что без них.
Аноним 15/08/23 Втр 10:09:04 #445 №456429 
>>456349
У меня без индексов вообще не запускаются
Аноним 15/08/23 Втр 11:20:52 #446 №456466 
senkoteam.webm
>>456272
в конце бомба
Аноним 15/08/23 Втр 12:17:58 #447 №456480 
Пачаны, а почему после преобразования фоновая музыка удаляется и остается только голос?
Аноним 15/08/23 Втр 12:21:45 #448 №456483 
>>456480
Потому что фоновая музыка удаляется для замены голоса.
Аноним 15/08/23 Втр 12:33:30 #449 №456495 
>>456483
И что надо вручную склеивать голос и музыку?
Аноним 15/08/23 Втр 14:07:22 #450 №456564 
>>456495
Да.
Аноним 15/08/23 Втр 14:16:29 #451 №456575 
>>454376
Если будешь нарезать с тайтла, то самым запарным будет собрать датасет. Необходимо убрать с аудиодорожки все сторонние звуки и нарезать с неё голос твоей вайфу так, чтобы длина одного файла была не более 10 секунд (можно и больше, но таковы рекомендации по датасетам от разработчиков SVC и RVC). Суммарная длительность голоса по рекомендациям должна быть не менее десяти минут. Нарезать голос автоматически не выйдет, поскольку утилиты для автоматической нарезки голоса ( >>354671 ) всех спикеров в кучу скинут; и, если один спикер прерывает другого или между их репликами короткая пауза, то два разных голоса попадут в один отрывок.

Я свой подход вот тут описывал, впрочем, может есть и более оптимальные способы это делать:
>>353073
>>353861

Возможно, что нарезать через стороннюю тулзу будет быстрее, но там вроде как всякие визги и междометия обрезаются, если верно помню.

---

https://github.com/voicepaw/so-vits-svc-fork#before-training
Обучение модели запускается в SVC парой консольных команд. Там только batch_size в config.json надо будет в максимум выкрутить, что у тебя видеокарта позволит.

---

В RVC обучение через GUI делается, там несложно разобраться. В треде уже кидали несколько роликов с пояснениями.

---

> амд 4гб
В SVC рекомендуется 10GB VRAM для обучения, хотя само обучение работает и на видеокартах меньшего объёма. Если не выйдет обучить локально или через коллаб, можешь готовый датасет итт закинуть, могу тогда обучить SVC/RVC варианты моделей.
Аноним 15/08/23 Втр 14:42:50 #452 №456601 
Как в коллабе отредактировать config.json?
Аноним 15/08/23 Втр 14:43:34 #453 №456602 
Предлагаю при перекате поменять тег на что-то вроде #voice и позиционировать этот тред как общий тред по TTS+STS, поскольку тут оба направления по факту обсуждают и тред довольно медленный, чтобы имело смысл их разделять.
Аноним 15/08/23 Втр 15:07:18 #454 №456616 
>>456602
Ничего не надо менять. Достаточно будет добавить ссылки на упомянутые инструменты.
Аноним 15/08/23 Втр 15:09:56 #455 №456617 
>>318054
>so-vits-svc-4.0-ruvtubers

Удалили. Мрази как всегда чистят годноту.
Может кто перезалить?
Аноним 15/08/23 Втр 15:17:43 #456 №456629 
>>456616
Просто на доске кто-то поднял мёртвый STS-тред и теперь будет путаница из-за этого >>187167 (OP)
Формально, обсуждения STS надо вести там, но, по факту, они происходят здесь. Поэтому надо поменять тему/тег таким образом, чтобы со стороны было ясно, что тут оба направления релейтед, ящитаю.
Аноним 15/08/23 Втр 15:45:27 #457 №456695 
>>456602
Ты ещё забыл про этот тред, лол >>102542 (OP)
Тут мочуху надо, чтобы порядок навести, позакрывать лишнее и поднять нужное.
Аноним 15/08/23 Втр 17:00:15 #458 №456792 
>>456695
Сами разберёмся
Аноним 15/08/23 Втр 17:03:54 #459 №456795 
>>456695
Ну да, я про то и говорю - как мне кажется, надо все TTS/STS треды позакрывать и сделать один общий, поскольку тема на этой доске малопопулярная и смысла дробить по тредам это не имеет при текущей скорости постинга. Но для этого надо сначала перекат сделать, который будет по смыслу объединять обе темы.

Сейчас со стороны даже непонятно, что тут STS обсуждают, раз мёртвые треды поднимать начали.
Аноним OP 15/08/23 Втр 17:49:59 #460 №456819 
>>456629
> Формально, обсуждения STS надо вести там
Там тега нет. Кроме того, у нас это вполне по теме - STS это обычно второй шаг после TTS, из-за отсутствия моделей, и по сути это надстройки над одним и тем же - одни и те же движки часто используются в обеих целях (Silero, например). Кто в теме - пойдёт сюда в любом случае.

>>456792
Вот.

>>456795
> Сейчас со стороны даже непонятно, что тут STS обсуждают, раз мёртвые треды поднимать начали.
Это всегда будет происходить. Оно поднимается теми, кто понятия не имеет, что такое TTS, STS, STT и так далее. Ты пока зришь далеко, по факту проблемы пока нет.
Аноним 15/08/23 Втр 19:17:58 #461 №456922 
>>456819
Я просто хочу, чтобы залётным было понятно, что в этом треде обсуждается всё подряд, что связано с синтезом/преобразованием/распознаванием голоса, и они не бегали создавать и бампать мёртвые узкоспециализированные треды, размазывая активность и так малопопулярного направления на этой доске. Поэтому, как я думаю, было бы логично обновить тег/имя/шапку треда.

Не очень понимаю, в чём твой поинт за сохранение текущего тега, если он не соответствует тому, что по факту обсуждается в треде.
Аноним 15/08/23 Втр 20:30:02 #462 №457065 
no-auto-predict-f0 добавляет искажения рандомные, как от них избавиться
Аноним 15/08/23 Втр 21:20:39 #463 №457151 
>>456922
> если он не соответствует тому, что по факту обсуждается в треде
Ты жопой тред читаешь. Хватит флудить, придерживайся темы.
Аноним 15/08/23 Втр 21:28:42 #464 №457160 
>>457151
> Text To Speech /tts/
> Обсуждаем оффлайновые генераторы речи и делимся результатами [...]
Но по факту в треде плюсом обсуждается STS и STT. Почему-бы не вынести это в шапку?

> Хватит флудить, придерживайся темы.
Но я же шапку треда обсуждаю, где это ещё делать, как не здесь...
Аноним 16/08/23 Срд 02:19:29 #465 №457756 
Neco Arc - МАСЮНЯ (AI COVER).mp4
Анончеки, с помощью чего можно сделать вот так 1 в 1?
Аноним 16/08/23 Срд 06:54:02 #466 №457916 
>>457756
rvc
Аноним 16/08/23 Срд 09:45:59 #467 №457969 
>>456272
Да как у тебя получается такой чистый голос?
Скачал готовую модель 29к эпох и она поет хуже, еще и слова зажевываются
Аноним 16/08/23 Срд 10:58:42 #468 №458048 
>>455407
https://github.com/atomlayer/llama_cute_voice_assistent
Примерно так накидал пока.
Единственное есть проблема со скоростью распознавания речи пользователя в текст. Надо будет что-то более быстрое прикрутить потом.
Аноним 16/08/23 Срд 11:19:37 #469 №458054 
>>458048
>Install the libraries
Есть же requirements.txt
Аноним 16/08/23 Срд 11:24:03 #470 №458056 
>>458054
Так-то есть, да. Надо будет потом сделать.
Аноним 16/08/23 Срд 18:38:56 #471 №458453 
ОплачуNecoArc.mp4
>>457756
Аноним 16/08/23 Срд 18:47:07 #472 №458463 
>>457969
> Скачал готовую модель 29к эпох и она поет хуже, еще и слова зажевываются
Я вижу такие варианты:

1. Некачественная модель.
Тут только датасет самому делать и в порядок его приводить. Одна из моделей на эту лису, которая на хг лежит, абсолютно отвратительна, не понимаю, почему автор не постеснялся её выложить. Просто сравни тут 1 и 4 варианты (это не совсем корректное сравнение, поскольку сравнивается SVC и RVC модель, но тут разница прям явная) >>430626

2. Либо аудиодорожка плохо разбилась на составляющие (инструменталка/вокал).
В этом случае абсолютно любой спикер будет зажёвывать слова. Попробуй для теста обработать какую-нибудь песню, которая была удачно преобразована в треде и сравни результат. Песня из поста, на который ты ссылаешься, была преобразована без какой-либо доп. обработки, можешь её попробовать. Я тебе свой вариант разбивки сразу скину, чтобы ты мог проверить, проблема с твоим инструментом для разбивки или это что-то другое:
https://vocaroo.com/13p09WQEfUPd (оригинал)
https://vocaroo.com/1mS1sqO2iheO (инструменталка)
https://vocaroo.com/1lcMSdDhOQU1 (вокал)

3. Или настройки синтеза плохие выставил.
По умолчанию в интерфейсах выбраны настройки с заделом на скорость обработки, а не на качество. У меня Prediction method = crepe работает лучше всего и для RVC и для SVC. Если используешь SVC, то обязательно выруби галку с "Auto predict F0", иначе тональность голоса будет вверх-вниз прыгать там, где это не нужно.
Аноним 16/08/23 Срд 18:56:59 #473 №458476 
сиди.mp4
>>458453
У меня пока только так, но это не через rvc который сверху написали (ибо я не понял чо это, а может и rvc).
А ты мне дашь совет? Я хочу научиться делать хороший голос некоарк, но я впервые работаю с голосовыми нейронками.
Аноним 16/08/23 Срд 19:19:56 #474 №458498 
>>458476
У SVC, если модель и запись не идеальны, начинаются косяки и артефакты. У RVC, в принципе, тоже, но там они не такие страшные.

Если на записи прям какие-то шипы и прочий говняк, можно попробовать потрогать эквалайзером, частоты вырезать, на которых больше всего говняка лежит.

В принципе, с той записью, что я скинул, я ничего так-то и не делал, просто закинул в RVC и всё. Модельку использовал neco-arc(aggressive).
Аноним 17/08/23 Чтв 03:16:25 #475 №459004 
Hallelujah.mp4
Запаблишил RVC-модель: https://civitai.com/models/128674/senko-rvc
Аноним 17/08/23 Чтв 05:00:09 #476 №459035 
senkog.webm
>>459004
Проверка левого уха
Аноним 17/08/23 Чтв 16:09:44 #477 №459447 
>>457756
Блядь, какая угарная песенка.
Аноним 17/08/23 Чтв 17:07:18 #478 №459469 
mihailrvc1.mp4
mihailrvc2.mp4
Есть возможность в RVC выставить октаву меньше -12? -20 допустим.
Аноним 17/08/23 Чтв 17:38:57 #479 №459482 
>>459469
Мой семпл кек, звучит лучше, чем в жизни
Аноним 17/08/23 Чтв 19:23:35 #480 №459563 
>>458453
>Посмотри, ФИТОРАС!
Пидор на фитнесе.
Аноним 17/08/23 Чтв 20:27:16 #481 №459614 
nat1encoded.mp4
nat2encoded.mp4
Аноним 17/08/23 Чтв 21:33:44 #482 №459653 
>>459614
>1
Уже сделано аноном https://www.youtube.com/watch?v=OwBKWaWnX9s
Вообще годный канал, делает в т.ч Тархуна
Аноним 18/08/23 Птн 00:32:55 #483 №459803 
>>459653
Качает!
Аноним 18/08/23 Птн 00:46:12 #484 №459817 
В гитхабе so vits svc ссылка на коллаб актуальная?
Аноним 18/08/23 Птн 19:05:10 #485 №460345 
Модель древнего руса есть?
Аноним 18/08/23 Птн 19:12:22 #486 №460359 
guide2024.mp4
Аноним 19/08/23 Суб 09:57:37 #487 №460913 
>>314948 (OP)
Накидал вариант шаблона шапки под голосовые сетки. Может с разметкой проебался, никуда не постил шаблон целиком для теста. Предлагаю дополнить его (смотри ниже), катнуть с ним и попросить мода закрыть эти два мёртвых треда >>187167 (OP) >>102542 (OP)

Что скажете?

1. Вот эти ссылки предлагаю выпилить из текущей шапки, либо кто-то подтвердите, что это я долбоёб и у вас всё работает.

> Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing
Валится с ошибкой при выполнении !pip install -r requirements.txt

> Гайд: https://textbin.net/kfylbjdmz9
Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk из сорцов собирает и поэтому билд-тулзы надо ставить, вот что на SO пишут - https://stackoverflow.com/questions/75191940/i-cannot-install-pyopenjtalk-getting-requirements-to-build-wheel-did-not-run-su
Мне было лень разбираться с этой ошибкой.

2. Вот с этими ссылками не уверен что делать:
> Есть VITS-Umamusume-voice-synthesizer, только на японском, 87 голосов.
> ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Это хоть кто-то итт использует? Почти не видел примеров синтеза японского голоса в треде.

> MoeGoe и MoeTTS.
> Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
> кажется итт можно тренировать свои голосовые модели, но это не точно
> Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8
Вижу 0 упоминаний этой сетки в треде. Аналогично - это кто-то использует по факту?

Алсо то же самое про Elevenlabs, который я добавил в текущий вариант шаблона. Если какую-то из сеток никто не по факту не использует, то предлагаю не держать устаревший кал в шаблоне, либо просто вкратце упомянуть его в конце шапки.

3. Вроде для SVC/RVC были ещё какие-то помойки моделей, есть у кого-нибудь ссылки?

4. Может ещё что-то важное упустил?

5. И катнуть предлагаю не чем-то унылым, а контентом из треда по выбору ОПа, чтобы сраться за шапку привлекать залётных. Только тут с лимитами будет проблема, на пост 20-60Мб максимум вес вложений, в зависимости от наличия/качества пасскода.

--- Сам шаблон ---

Тег: speech
Тема: Голосовых нейронок тред (TTS, STS, STT) #номер

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

📝 👉 🎤 Text To Speech (TTS)
Silero
Открытый проект TTS/STS, поддерживает русский язык: https://github.com/snakers4/silero-models
Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис для синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff


🎤 👉 🎤 Speech To Speech (STS)
Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners
Готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Где взять последнюю верию со всеми зависимостями: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases
Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main

Утилиты для отделения вокала от инструменталки идут в комплекте.


🎤 👉 📝 Speech To Text (STT)
Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

🛠️ Прочее
Проприетарный проект "всё в одном" (TTS/STS/TTS). Для части функционала требуется платная подписка: https://dmkilab.com/soundworks
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer

Ссылки на эти проекты мелькали в тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS
Аноним 19/08/23 Суб 10:05:25 #488 №460919 
>>460913
Ну и может я проебался с описанием чего-либо, не пробовал часть тулзов из шаблона.
Аноним 19/08/23 Суб 17:25:42 #489 №461127 
Решил попробовать rvc
Когда пробую свою модель, то выходной аудио файл сильно фонит, а голос еле слышно на фоне, как фиксить?
Аноним 19/08/23 Суб 17:27:50 #490 №461129 
Что думаете про нейронку с гугл коллабом? Она хорошо делает нейрокаверы?
Аноним 19/08/23 Суб 19:32:32 #491 №461179 
image.png
Поставил RVC одним архивом, запускаю go-web.bat - и вижу это.
Что делать? Хуйня какая-то.
Аноним 19/08/23 Суб 19:43:33 #492 №461195 
>>461179
Судя по тексту ошибки, ты скачал версию для NVidia, а у тебя AMD/CPU. Можно либо попробовать xformers скачать через pip под нужную платформу без перекачивания всего архива, либо скачать сразу архив RVC для правильной платформы - это будет проще.

Если у тебя NVidia, то надо курить, почему куда не работает.
Аноним 19/08/23 Суб 19:49:42 #493 №461199 
>>461195

У меня Нвидиа.
Кстати, я правильно понимаю что это говно не создает свой venv и срет пакетами прямо в систему?
Аноним 19/08/23 Суб 19:56:37 #494 №461208 
>>461199
Не, там используется venv похоже. Пакеты в .\runtime\Lib\site-packages
Аноним 19/08/23 Суб 20:03:21 #495 №461214 
>>461208

Я не вижу там activate.bat в scripts, как мне активировать этот venv чтобы насрать туда нужные пакеты?
Аноним 19/08/23 Суб 20:09:20 #496 №461218 
>>461214
Тоже заметил, сам не знаю. Может ещё кто подскажет...
Аноним 19/08/23 Суб 20:36:41 #497 №461239 
>>461214
.\runtime\python.exe -m pip
Аноним 19/08/23 Суб 22:06:01 #498 №461320 
>>460913
Активист, займись полезным делом. Не в этом треде.
Аноним 19/08/23 Суб 22:09:03 #499 №461327 
>>460913
Я мимо треда проходил, но одобряю.
Аноним 19/08/23 Суб 22:13:46 #500 №461339 
>>461179
Он просит тебя переустановить xformers.
Аноним 19/08/23 Суб 22:15:50 #501 №461344 
>>459817
А зачем там коллаб? Он на тостере работает, нет?
Аноним 19/08/23 Суб 22:19:15 #502 №461352 
>>458048
> Единственное есть проблема со скоростью распознавания речи пользователя в текст. Надо будет что-то более быстрое прикрутить потом.
Так, а сейчас что используется? В код не смотрел.
Аноним OP 19/08/23 Суб 23:00:32 #503 №461388 
3 месяца до бамплимита, надо же.

>>461354 (OP)
>>461354 (OP)
>>461354 (OP)
Аноним 20/08/23 Вск 00:11:58 #504 №461464 
>>460913
>Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk
Ага, и в той же инструкции есть пункт про фикс этой хуйни. Согласен, написано хуёво, сам проебался, хоть и погромизд, но инструкция в итоге рабочая, проверено.
>>460913
>Почти не видел примеров синтеза японского голоса в треде.
Были весь первый тред. Сейчас видимо яп голоса проблема решённая, поэтому весь фокус на русском языке.
Так что я за многообразие, ссылок в шапке пока ещё весьма мало, расточительно что-то удалять. Вот когда будет как в лламма тредах, тогда можно будет запускать очистку.
Голосовых нейронок тред (TTS, STS, STT) #3 Аноним 20/08/23 Вск 01:07:16 #505 №461504 
>>461500 (OP)
>>461500 (OP)
>>461500 (OP)
Аноним 02/09/23 Суб 05:39:28 #506 №474087 
321.jpg
Ребята подскажите пожалуйста, включил не смотря особо в настройки - потом смотрю 9999 эпох врублено. Возможно в какой-то момент прервать эту историю чтобы осталось хоть что-то обученное ? А то как из поста выше сказано - уже наверное мега квадро нвидиа квантовые компы у каждого стоять будут - пока эти эпохи пройдут. Или проще вырубить всё - и заново прогонять с нормальным количеством эпох ,спасибо заранее.
Аноним 02/09/23 Суб 09:35:08 #507 №474118 
Нашел такой гайд.
https://youtu.be/yRHbDbHPJMo?feature=shared
нормальный?
Аноним 26/10/23 Чтв 22:11:37 #508 №530099 
image.png
Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.
Аноним 27/10/23 Птн 22:40:42 #509 №530814 
>>314948 (OP)
Кто-то голос Пыни запилил? Можете озвучить речь Президента из пасты про Кормление Личинок Непредставимого Пхы?
Аноним 28/10/23 Суб 00:01:03 #510 №530886 
Запилите мне речь Пыни о Кормлении личинок.
comments powered by Disqus

Отзывы и предложения