TTS тред #2 - Text To Speech /tts/

АДОЛЬФ ГИТЛЕР - Я РУССКИЙ.mp4

Аноним 31/05/23 Срд 21:28:43 #31 №333866

Аноним 01/06/23 Чтв 07:34:29 #32 №334914

Стикер

>>314948 (OP)
>План Б: создаём речь в одном генераторе, и меняем голос через VITS, который можно натренировать на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.
>https://github.com/voicepaw/so-vits-svc-fork

Анон, можешь запилить простенький гайдец для самых маленьких. Что делать, первое, второе, третье. Хотя бы в самых общих чертах, без деталей и подводных камней.
Это, ну это, был бы вклад в популяризацию голосовых нейронок, а значит и косвенный вклад в их развитие - вот это всё. А ещё ты бы помог анонам, и треду, воооооот

С меня как всегда.

Аноним 01/06/23 Чтв 09:53:48 #33 №334986

>>333866
https://youtu.be/Svuzdh8V_uE

Аноним 01/06/23 Чтв 15:16:45 #34 №335411

>>334914
>Это, ну это, был бы вклад в популяризацию голосовых нейронок
А нахуя это надо? Популяризация полезна среди тех, кто может что-то сделать сам и придумать что улучшить. А ты обоссаный безруков, который не может гайд на ютубе загуглить. Которых там уже тыщи.

Аноним 01/06/23 Чтв 19:43:03 #35 №335986

>>334914

Тебе нужен гайд по какому процессу - генерации или обучения?

Аноним 01/06/23 Чтв 19:45:41 #36 №335989

1685637941233.jpg

>>334986
Кек. Забавно то, что если кто пожалуется на вебмку, то автор тоже на двушечку уедет. Но я не буду, это же юмор основанный на когнитивном диссонансе.

Аноним 01/06/23 Чтв 20:03:26 #37 №336022

redan italiano.webm

Все примеры из треда это же кал ебаный низкокачественный.
Нормальные синтезаторы исключительно по подписке (пример вебмрилейтед - итальянец говорящий на русском с сильным акцентом) тк над ними постоянно работают профи мотивированные деньгами и развитием проекта.

А ваш кал с ультрапердолингом будет юзаться только школьниками для педофилии и фашизма вроде хуйни выше.

Аноним 01/06/23 Чтв 23:26:31 #38 №336410

>>336022
> пример вебмрилейтед - итальянец говорящий на русском с сильным акцентом
Зачем ты это сюда притащил, шиз?

Аноним 01/06/23 Чтв 23:28:59 #39 №336414

>>335986
Обучение

Аноним 01/06/23 Чтв 23:34:38 #40 №336419

>>336022
Так съеби к своим профи. Хули ты тут высрался?

Аноним 01/06/23 Чтв 23:38:06 #41 №336426

>>336022
Ну так твоя подписка это рак нейросетей и вообще технологий.
Помнишь был платный миджорней - тоже по подписочке, а потом святые программисты выложили в открытый доступ святой стаблдифужн и всё. Миджопней в жопе.

Аноним 01/06/23 Чтв 23:48:09 #42 №336439

>>336410
>Зачем ты это сюда притащил, шиз?
Но это лучше чем >>333866

Аноним 01/06/23 Чтв 23:50:52 #43 №336443

>>336426
миджорней это кал по сравнению со стейблом.
Подписка = профессиональное приложение. Не все конечно но я бы стал пользоваться илитным приложением по подписке а не хуйней.

Ну собственно примеры в этом треде по бесплатному аи и близко не подошли к тому что я выложил выше

Аноним 01/06/23 Чтв 23:51:07 #44 №336444

1685652665736.mp4

>>336439
Снимаю вопрос.

Аноним 01/06/23 Чтв 23:56:41 #45 №336453

>>336443
> я бы стал пользоваться илитным приложением по подписке а не хуйней
Ну я тоже для озвучки презентаций и учебных видео использую саундворкс (и соответственно стоящие за ним профессиональные API вроде Яндекса). Охулиард языков, голосов и так далее, стоит копейки, компания довольна.

НО. Для своих "проектов", для онлайн изменения голоса и тому подобного - какой нафиг профессиональный сервис? Только своё, оффлайновое. И со временем оно уделает онлайновое. Есть масса сценариев, где "подписка" вообще неприменима, даже если это плата за более высокое качество.

Аноним 01/06/23 Чтв 23:59:05 #46 №336458

>>336443
>миджорней это кал по сравнению со стейблом.
Ты сам себе противоречишь. Миджорней по подписке, а сд бесплатный

Аноним 02/06/23 Птн 00:07:04 #47 №336479

>>336443
>Ну собственно примеры в этом треде по бесплатному аи и близко не подошли к тому что я выложил выше
Окей. Покажи мне профессиональный клонер голоса, который может взять голос гитлера и кинуть его на песню шамана. У тебя 1 день.

Аноним 02/06/23 Птн 20:21:27 #48 №338154

lyka.mp4

so-vits

Аноним 03/06/23 Суб 03:51:58 #49 №338812

>>314948 (OP)
Нормальные реал-тайм воис морферы есть или пока не завезли?

Аноним 03/06/23 Суб 04:09:19 #50 №338829

>>326404
кто сделал модель so-vits-svc с Пригожиным? Есть автор в треде? Есть тех. вопросы по реализации

Аноним 03/06/23 Суб 05:32:45 #51 №338877

>>338829
>кто сделал модель so-vits-svc с Пригожиным? Есть автор в треде? Есть тех. вопросы по реализации

Аноним 03/06/23 Суб 07:56:25 #52 №338958

>>338812
so-vits-svc
ах да желательно иметь Nvidia на 16 гигов.
На четырёх гигах работает хуёво, я проверил

Аноним 03/06/23 Суб 14:44:43 #53 №339490

>>338877
скорее дядя с кувалдой, пикрил нынче за такую модель может только похвалить

Аноним 05/06/23 Пнд 04:46:13 #54 №342227

so-vits-svc мастера обитают в треде?

Натренировал модель на 100 сэмплах, чистый голос без музыки, вздохов, пердежей, поскрипываний и смеха. Прогнал 1200 эпох, результатом не очень доволен. Когда в оригинальном голосе идёт завывание, изменение интонации, некоторые сочетание гласных и согласных, то результат идёт по пизде. Пробовал с разными настройками, походу косяк именно в сэмплах был.

Сколько сэмплов оптимально использовать для тренировки модели и стоит ли вырезать смех человека, всякие "нуууу, аааа, хммм" ?

Сколько эпох в идеале надо прогнать, чтобы получился норм результат?

Аноним 05/06/23 Пнд 04:54:32 #55 №342228

>>339490
>скорее дядя с кувалдой
А кто-то знает имя террориста, который разбивал русским головы? Зачем ты на него ссылаешься. Ты намекаешь, что это Пригожин был? Да, действительно, его одержимость "Убийцей русских" странная, слышал он реплику сделал и зачем-то дурачкам всяким рассылал. Надеюсь, реплики свастик он делать не будет.

Аноним 05/06/23 Пнд 11:23:57 #56 №342362

1609a63562ed86564288da997a091850.jpg

>>342227
Чем больше сэмплов тем качественее будет модель, аналогично с количеством эпох, чем их больше тем лучше. Ещё важно на какой голос ты накладываешь нейросеть, в идеале они должны быть чем то похожи с оригиналом.

Я использовал больше тысячи звуков для тренеровки там были не только:
>смех человека, всякие "нуууу, аааа, хммм"
Но и косяки со звуком, помехи, клики мышкой, хуяренье по клавиатуре... иногда человека просто перебивали и сэмпл засирался чужими голосами. Но результат всёравно вышел в десять раз пижже чем если тренеровать на сотне сэмплов.

Ещё советик если твой звуковой файл который ты хочешь изменить выглядит как пик 1 то получится хуйня 100% нужно на него накинуть нормализацию чтобы он стал похож на пик 2

Аноним 05/06/23 Пнд 16:36:18 #57 №342753

>>342362
>Но результат всёравно вышел в десять раз пижже чем если тренеровать на сотне сэмплов.
Можно пример в звуке?

Аноним 05/06/23 Пнд 18:22:03 #58 №342871

>>342362
Спасибо за развёрнутый ответ, буду тестить. Нормализация на акапелле действительно помогла, но из-за небогатого набора сэмплов всё равно косяков много.

Аноним 06/06/23 Втр 00:01:01 #59 №343438

>>338958
Не нужно с такими требованиями. Почему до сих пор не оптимизировали до уровня запуска на калькуляторах?

Аноним 06/06/23 Втр 03:58:02 #60 №343707

арбалеты.mp4

Аноним 06/06/23 Втр 04:55:15 #61 №343734

>>343707
С Hugging Face модель взял? Видел там готовую с Байденом и прочими американскими политиками.

Аноним 06/06/23 Втр 06:42:43 #62 №343825

>>343734
С ютуба спиздил. По "ai cover" много годноты выдает, можно еще отсортировать по просмотрам и выбрать за последний месяц.

Аноним 06/06/23 Втр 12:15:32 #63 №344160

bobobo.mp4

>>343825
а в тикитоке вообще пиздец творится

Аноним 08/06/23 Чтв 08:36:22 #64 №346784

Аноны, кто в колабе тренил, сколько ждать?

Аноним 08/06/23 Чтв 09:06:10 #65 №346786

>>346784
У меня 2к+ сэмплов. По ощущениям одна эпоха идет минут 5-10, там анон выше писал что 1000 эпох прогнал это часов сто получается. Учитывая лимиты коллаба это месяц. Лол.

Аноним 08/06/23 Чтв 09:48:38 #66 №346842

>>346784
За сутки бесплатного колаба не больше 1000-1500, так что даже не пытайся.

Аноним 08/06/23 Чтв 09:54:04 #67 №346850

>>346842
Я там заметил, что в папке /dataset/44k/, где сэмплы лежат, там рядом с каждым звуковым файлом появился файл %name%.wav.data.pt
Эти файлы сохранять надо, может в них какая-то инфа о процессе обучения? Или похуй, при следующей тренировке они опять создадутся?

Аноним 08/06/23 Чтв 10:05:28 #68 №346861

И самый главный вопрос. Когда колаб меня кикнет по середине процесса, не накроется ли там весь прогресс медным тазом? Ведь это предусмотрено да? Ведь предусмотрено?

Аноним 08/06/23 Чтв 10:38:43 #69 №346928

>>346842
>1000-1500
Это как? По моим подсчетам за 6 часов будет около 120-150 эпох.

Аноним 08/06/23 Чтв 11:02:59 #70 №346973

>>346928
Даже ещё меньше 10 эпох в час в среднем. Настройки все дефолтные.

Аноним 08/06/23 Чтв 11:29:25 #71 №347020

>>346928
Это шаги. Нахуй ты эпохи считаешь, когда модель подписана шагами? Если модель_1000 это блядь не 1000 эпох.
А вообще скорость обучения зависит от размера датасета.

Аноним 08/06/23 Чтв 11:31:39 #72 №347025

>>346861
>И самый главный вопрос. Когда колаб меня кикнет по середине процесса, не накроется ли там весь прогресс медным тазом? Ведь это предусмотрено да? Ведь предусмотрено?
Если у тебя сохранение на 500 шагов то ты пососешь час впустую. Если на 100 - то меньше. Там в конфиге можно исправить опция чекпойнт. Старые он сам удаляет поэтому просто нет смысла ставить большие значения.

Аноним 08/06/23 Чтв 11:38:46 #73 №347039

>>347020
>>347025
Ну вот в консоли колаба мне пишут такую инфу:
Epoch 35/9999 ━━━━━━━━━━━━━━╺ 130/137
Очевидно что это эпохи, а про шаги я не знал и на гуглдрайв сохраняются соответсвубщие файлы D_34.pth G_34.pth.
А в конфиге опуции чекпоинт нет, даже слова такого там не встречается может это?
> "log_interval": 100,
> "eval_interval": 200,

Аноним 08/06/23 Чтв 11:40:37 #74 №347043

>>347039
А вот что есть в конфиге
>"keep_ckpts": 3,
Он что каждые три шага сохраняет? Может поэтому так медленно?

Аноним 08/06/23 Чтв 12:15:50 #75 №347118

>>347039
>> "log_interval": 100,
Это шаги. И они не равны эпохам, они меньше. За три часа колаба ты натренишь до 1000-1500, нормальная модель 200к. То есть у тебя будет 1000.птх

Аноним 08/06/23 Чтв 12:17:21 #76 №347121

>>347043
Не еби мозги и найди в файле конфиг джасоен слово "чекпойнт".

Аноним 08/06/23 Чтв 12:26:55 #77 №347128

>>347121
>>347118
Нету там этого слова, чел
https://pastebin.com/19ABPBVe
И судя по всему файлы чекпоинта теперь называются эпохами, я рискну предположить что случились какие-то изменения и то как ты обьясняешь было раньше. а теперь по-другому. Ну или я чего-то не понимаю, но я просто нюфаг.

Аноним 09/06/23 Птн 00:38:58 #78 №348405

1686260335622.webm

>>347128
> судя по всему файлы чекпоинта теперь называются эпохами

Аноним 09/06/23 Птн 02:12:58 #79 №348489

>>346786
Всё просто, кончается лимит - перекидываешь файлы на новый акк гугла.
Можно быстро переходить по разным аккаунтом его не ебёт, лимиты обнуляются.
Натренировал так за пару вечеров 800 сэмплов до 500 эпох

Аноним 09/06/23 Птн 05:23:35 #80 №348557

>>348489
>Можно быстро переходить по разным аккаунтом его не ебёт, лимиты обнуляются.
Удачи всрать акки. Классный совет.

Аноним 09/06/23 Птн 11:48:28 #81 №348796

>>348557
Ты прав. Я уже 3 недели этим занимаюсь и прям чувствую что акки обосраны...

Аноним 09/06/23 Птн 13:14:00 #82 №348906

so-vits-svc
Аноны а нужно в сэмплах оставлять звуки НЕ РЕЧИ?
Ну там смех, вздохи, мычания, прочие звуки ртом. Звуки эти имеют ярко выраженную принадлежность к целевому голосу т.е. такой смех, например, очевидно принадлежит именно этому голосу.

Мне кажется что нейросети полезно и на таких звуках обучаться для полного, всестороннего повторения? Например когда исполнителю в процессе песни надо заменить голос он же там и тянет звуки и кряхтит и чего только не делает.

Может кто-нибудь интересовался этим вопросом ОФИЦИАЛЬНО? Ну там в репозитории разраба может такое спрашивали?

Аноним 09/06/23 Птн 15:50:19 #83 №349124

>>314948 (OP)
Нюфаня репортинг.

> Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing
Валится с ошибкой при выполнении !pip install -r requirements.txt

> Гайд: https://textbin.net/kfylbjdmz9
Тоже вылезает ошибка при установке зависимостей. Оно походу pyopenjtalk из сорцов собирает и поэтому билд-тулзы надо ставить, вот что на SO пишут - https://stackoverflow.com/questions/75191940/i-cannot-install-pyopenjtalk-getting-requirements-to-build-wheel-did-not-run-su
Мне было лень разбираться с этой ошибкой.

> потом находим файл VITS-Umamusume-voice-synthesizer\app.py и открываем с помощью текстового редактора и находим блок на 27 строке
Там нет такого кода и я сходу не смог сообразить, что там поменять надо. Может поменяли что-то в более поздних версиях...

> https://github.com/voicepaw/so-vits-svc-fork
Вот это без проблем поставилось и работает.

В репе so-vits-svc-fork нашёл пару полезных ссылок.

Разбивка звуковой дорожки на вокал и инструменталку: https://github.com/Anjok07/ultimatevocalremovergui
Где брать готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/?query=so-vits-svc

Перегнать видео в аудио при помощи ffmpeg (я за ffmeg не шарю, просто из сети рабочих команд надёргал):
ffmpeg -i input.webm -vn -acodec libmp3lame output.mp3
ffmpeg -i input.mp4 -map a output.mp3

Алсо спасибо анонам, кто над русскоязычным голосом Саи работал. Вот моя первая попытка в перегон голоса:
https://vocaroo.com/1cEfRfQ1NBf9

Аноним 09/06/23 Птн 20:50:31 #84 №349584

>>349124
Обмочил трусики. Продолжай.

Аноним 10/06/23 Суб 02:21:11 #85 №349921

>>348906
если исполнитель смеётся, мычит и пердит во время выступление то нужно обязательно. Но это более свойственно для обычной речи, так называемой разговорной модели.

Аноним 10/06/23 Суб 15:06:52 #86 №350194

Ребятушки, я нюфаня. Скачал VoiceConversionWebUI. Запустил, всё вроде работает. Где модельки с голосами брать? На Хаггене? Есть ссылка, какой-то сайт с примерами?

Аноним 10/06/23 Суб 17:37:22 #87 №350290

>>349124
>Вот моя первая попытка в перегон голоса
Как-то инопланетно вышло. Ударения не там, темп речи не правильный.
Составитель архива с Саей

Аноним 10/06/23 Суб 21:50:57 #88 №350593

e479b861e95dc59c1aabd95bd75ee78c.png

>>350543 →
ёпта датасет больше делай. часа на 4 и обучай нормально - 100к эпох или чото там.
и при морфинге у тебя крутилки есть с пресетами типо dio harvers creepe и еще такова. вот эти крутилки тоже крути

Аноним 10/06/23 Суб 22:13:36 #89 №350634

7d03f8fdcbba21eaae52311daad279ce.png

16863296411051.png

>>350593
А чем ты пользуешься? Вот мои интерфейсы.

Аноним 10/06/23 Суб 22:18:32 #90 №350652

>>350593
У меня 50 эпох и 4 минуты датасет... Это сколько 100к эпох будет учить?

Аноним 10/06/23 Суб 22:20:09 #91 №350655

Если я хочу голос своей вайфу из тайтла извлечь, надо вручную каждый её звук ручками нарезать, или может есть какие-то тулзы, чтобы можно было автоматизировать нарезку конкретного голоса из дорожки?

>>350634
> эта смесь русика, англюсика и китайского в интерфейсе
Пиздец.

Аноним 10/06/23 Суб 22:23:22 #92 №350660

>>350655
> эта смесь русика, англюсика и китайского в интерфейсе
>Пиздец.

Самое страшное, что я более менее на всех трёх говорю.

Аноним 10/06/23 Суб 22:40:45 #93 №350690

>>350655
>какие-то тулзы
Если они есть, то я о них не знаю. Вишпер может сделать сабы, там будут тайминги речи, это может помочь. Но я так не делал если что.
>>350660
Скажи что-нибудь по китайски а то я только яп знаю.

Аноним 10/06/23 Суб 22:44:40 #94 №350699

>>350634
https://youtu.be/f-P9-NkaO9U

Аноним 10/06/23 Суб 23:01:30 #95 №350718

Как пользоваться этим коллабом VITS-Umamusume-voice-synthesizer? Запускаю, ниче не происходит

Аноним 10/06/23 Суб 23:19:04 #96 №350743

>>350634
А это чо?

Аноним 10/06/23 Суб 23:22:27 #97 №350749

>>350690
日本鬼, спок.

Аноним 11/06/23 Вск 00:11:14 #98 №350840

Почкему так мало контента? Сделайт есмешнызх видео

Аноним 11/06/23 Вск 12:10:49 #99 №351178

.webm

Вчера увидел гайд в наи треде и решил попробовать натренить по фану. Что скажете, хоть немного похожим вышел голос на баскова?

Аноним 11/06/23 Вск 12:43:39 #100 №351203

2chhh.mp4

>>351178

Аноним 11/06/23 Вск 17:09:00 #101 №351419

>>351203
Да ладно тебе, пусть учится. В среднем норм вышло. Просто трек и голос не сошлись.

Аноним 11/06/23 Вск 17:15:06 #102 №351428

>>350634
Это лучший просто на свете Retrieval-based Voice Conversion WebUI

>>350593
Где вы эти 4 часа датасеты берёте нахой? В смысле серёзно. Мне только Гоблин с монологами на 4 часа в студии приходит в голову. Но я уже сделал с ним голос. теперь хочу кого-то другого. Где срезать 4 часа?

Думал с МЛП нарезать, но как подумал сколько это гемора на 4 часа.

Левитана оказывается найти в интернете проблема.

Аноним 11/06/23 Вск 17:42:45 #103 №351461

>>351428
4 часа это в идеале, больше - лучше. А так сидишь и ручками вырезаешь из всего возможного контента. Выкачиваешь всё что можно пророка санбоя какого-нибудь и нарезаешь все звуки которые он издаёт, кряхтит, пердит и тд тоже.

Аноним 11/06/23 Вск 18:08:46 #104 №351486

9d8b40af0b0beeb56fa06235ffd53d10.png

>>351461
>4 часа
>100к эпох

Ты в своём уме вообще? У меня 4090, 1 час датасет.
1 эпоха 40 секунд. 100 эпох - Это больше часа. Какие 200к.
У меня 300 эпох на 1 часе на 6 часов на 4090. Если 300 эпох на 4 часа это уже сутки. Откуда 200к эпох?

Аноним 11/06/23 Вск 18:35:15 #105 №351515

>>351486
Ну ёпта бля эпохи с со степами спутал или чото там, могла бы и додуматься.
>У меня 300 эпох на 1 часе на 6 часов на 4090. Если 300 эпох на 4 часа это уже сутки. Откуда 200к эпох?
Нихуя мамтематика.
Я неделю 24\7 коллабы с обучением гнал, вышло как-раз около 100к чего-то там хуй знает чего ну короче файлик 100к.pth называется вооот

Аноним 11/06/23 Вск 18:50:00 #106 №351536

>>351515
>Я неделю 24\7 коллабы с обучением гнал, вышло как-раз около 100к чего-то там хуй знает чего ну короче файлик 100к.pth называется вооот
Необучаемый, бубль отслеживает подобную активность. Как только ты украдешь достаточно мощностей ГПу (и других научишь) Алгоритмы начнут отслеживать файлы типа .pth перебрасываемые с акка на акк и банить их наглухо. Теперь скажи мне, зачем ты сам себе сейчас кислород прикручиваешь хвастаясь? Иди еще на пикабу гайд создай, чтоб тебя быстрей выебали.

Аноним 11/06/23 Вск 19:14:33 #107 №351559

>>351536
>Админ гугла сидит на дваче в мёртвом треде и подсирает дурачкам с двумя гигами врам

Аноним 11/06/23 Вск 20:48:50 #108 №351650

>>351559
Именно так они СД-блядей накуканили.

Аноним 11/06/23 Вск 21:07:34 #109 №351672

>>351650
чот не видно

Аноним 11/06/23 Вск 21:26:06 #110 №351703

>>351536
>>351650

Ты шо, ебанутый?
Я как генерировав так и генирироваю. И аудио и картинки и видео. И гугл меня поддерживает. Кто тебе в трусы голову насрал?

Аноним 11/06/23 Вск 21:49:44 #111 №351728

>>350593
>крутилки есть с пресетами типо dio harvers creepe и еще такова. вот эти крутилки тоже крути
Можно поподробнее. Зачем их крутить? В какую сторону крутить? Сколько раз крутить? Что является критерием того что крутанул как надо? Как понять что плохо накрутил?
По-умолчанию стоит dio если на уже довольно долго обученной модели крутануть на другое какие это будет иметь последствия?

Аноним 11/06/23 Вск 21:54:50 #112 №351731

>>351728
>какие это будет иметь последствия?
Кишка вывалится.
Генерирую на всех пресетах и выбираю лучший. dio не всегда делает как надо.

Аноним 11/06/23 Вск 21:56:14 #113 №351733

>>351703
>И гугл меня поддерживает
С подключением, гугл как раз недавно официально забанил SD и добавил в правила что за него бан и в треде SD аноны говорили что забаненные среди них есть. Поддержка конечно - мое почтение, климюрич тащи свиней.

Суть в том, что это полумеры, чтобы отсеять лохов и посмотреть как разгрузится GPU сегмент, гугл пока вяло и жиденько отлавливает неуловимых генераторов, пока просто смотрит запрещенные слова. Но колаб это окружение погромистов, и гугл не лаптем деланый, разумеется если тенденции на нехватку мощностей будут сохраняться гугл будет более и более эффективно выявлять и банить. Даже я могу написать программку которая будет точно выяснять что ты генератор, а уж нормальные погромисты в гугле тем более смогут.

Аноним 11/06/23 Вск 21:59:52 #114 №351737

>>351731
Я в кал_лабе генерирую, там чтобы посмотреть первые результаты хоть какого-то приличного качества две недели нужно пердолиться. И как понять какой пресет лучше без тестов? Никак?

Аноним 11/06/23 Вск 22:05:43 #115 №351744

>>351737
незнаю

Аноним 12/06/23 Пнд 01:24:59 #116 №352100

nikita.mp4

Сделайте кто с 4090 модель на мавроди. Хочу МММ свою открыть. Типо из тайги вышел.

Аноним 12/06/23 Пнд 18:58:56 #117 №352938

TOXICSMALll.webm

Аноним 12/06/23 Пнд 19:00:44 #118 №352942

>>352938
Блин, пережал для двача, качество видео и звука упало до состояния Жопа.3gp

В оригинале бодрее.

Аноним 12/06/23 Пнд 19:55:13 #119 №353057

>>352938
Бля, ещё и аватарку свою всунуло... Ну и убожество..

Аноним 12/06/23 Пнд 20:03:57 #120 №353073

>>350690
> Если они есть, то я о них не знаю. Вишпер может сделать сабы, там будут тайминги речи, это может помочь. Но я так не делал если что.
Нарезаю через Audacity пока. Там в тайтле много междометий и звуков, которые, вероятно, не попадут в тайминги сабов. Но как же долго это делать, пиздос.

Сначала извлекаю дорожку через ffmpeg:
ffmpeg -i './title-name-s1.mkv' -map a s01.mp3

Потом убираю всё, кроме голосов, через Ultimate Vocal Remover.

И уже получившийся файл нарезаю потом ручками, выбирая нужный фрагмент и используя в Audocity команду Export -> Export Selected Audio.

Аноним 12/06/23 Пнд 20:18:40 #121 №353117

Посоветуйте годный STT. С русского mp3 в тхт.

Аноним 12/06/23 Пнд 21:49:48 #122 №353342

>>353057
Для тебя стараюсь, что бы максимально всрато.

Аноним 13/06/23 Втр 03:20:44 #123 №353861

>>353073
> И уже получившийся файл нарезаю потом ручками, выбирая нужный фрагмент и используя в Audocity команду Export -> Export Selected Audio.
Выяснил, что гораздо быстрее это делать через добавление меток через Ctrl + B по выделенному отрезку и потом Export -> Export Multiple -> Split files based on labels. Теперь, если приноровиться, можно почти не ставить паузу и скорость нарезки будет совпадать с длительностью тайтла. До этого на каждую серию по часу тратил - на каждый отрезок в меню зайди, имя файла задай и сделай так 100-150 раз за серию.

Аноним 13/06/23 Втр 03:25:02 #124 №353863

>>353861
Алсо, тайминги проставленных меток можно сохранить/загрузить через Export/Import labels

Аноним 13/06/23 Втр 11:51:37 #125 №354045

https://www.youtube.com/watch?v=RTS2ZSsBcpc
Это полнцый цикл. Текст, Музыка, Вокал.

Как по мне Stable Diffusion момент для музыкашек наступил, не успело пройти и года.

Аноним 13/06/23 Втр 12:13:36 #126 №354065

>>353861
>Выяснил, что гораздо быстрее это делать через добавление меток через Ctrl + B по выделенному отрезку и потом Export -> Export Multiple -> Split files based on labels. Теперь, если приноровиться, можно почти не ставить паузу и скорость нарезки будет совпадать с длительностью тайтла. До этого на каждую серию по часу тратил - на каждый отрезок в меню зайди, имя файла задай и сделай так 100-150 раз за серию

Аноним 13/06/23 Втр 14:37:07 #127 №354194

>>354065
Спасибо, анонче, потыкал немного тулзу. Это не совсем то, что мне нужно - данная программа просто нарезает звуки по коротким отрезкам, но, при этом, в один отрывок могут попасть голоса сразу нескольких спикеров, если между их репликами нет паузы. Этот вариант подошёл бы, если бы мне надо было длинный монолог нарезать.

Аноним 13/06/23 Втр 19:05:51 #128 №354671

>>353861
Чел. Софт же есть который тебе сам всё разрежет.
https://github.com/flutydeer/audio-slicer

Аноним 13/06/23 Втр 19:18:41 #129 №354687

>>354671
>>354194

Аноним 14/06/23 Срд 21:06:26 #130 №356156

Не совсем по теме, но может кто-то пользовался https://github.com/openai/whisper ?
Подскажите почему на русский не переводит пробовал --language Russian скобки кавычки "ru" {Russian} всё равно английские субтитры, возможно ли что гугл.коллаб не поддерживает?

Аноним 14/06/23 Срд 21:38:35 #131 №356195

ре-пост с пендосского /lmg/ :

Columbia University drops state of the art TTS
/vsg/ has awoken, ElevenLabs quality locally
https://arxiv.org/abs/2306.07691
>In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at this https URL.
https://styletts2.github.io/

веса модели styletts1 доступны для скачивания, а значит и этой тоже должны быть доступны в ближайшее время.

Аноним 15/06/23 Чтв 09:59:08 #132 №356775

>>356156
>Подскажите почему на русский
Он только на английский умеет встроено переводить. Подключай апишку дипла.

Аноним 15/06/23 Чтв 10:56:17 #133 №356799

>>356775
>>356156
Отличный способ получить кашу. В русском вообще-то всякие склонения-хуения, они привязаны наглухо к контексту.

Аноним 16/06/23 Птн 12:25:12 #134 №358317

>>356195
Круть!

Аноним 16/06/23 Птн 16:22:04 #135 №358494

>>314948 (OP)
АНОН КАК ТЫ СДЕЛАЛ ЛИПСИНГ НА ТЯНКЕ?
НАУЧИ ПЛЗ

Аноним OP 16/06/23 Птн 20:25:00 #136 №358720

>>358494
Stable Diffusion, расширение Sad Talker.

Аноним 16/06/23 Птн 20:40:27 #137 №358738

1686937225716.mp4

1686937225717.mp4

>>358720

Аноним 16/06/23 Птн 21:05:11 #138 №358777

>>358738
Моё ебало сгенерировали?

Аноним 16/06/23 Птн 21:15:23 #139 №358794

>>358777
Ну нажми "Мне лень".

Аноним 16/06/23 Птн 21:20:39 #140 №358804

>>358794
Бляяядь, я уже удалил, а что там? Даст генерировать без смс и регистрации?

Аноним 16/06/23 Птн 21:36:30 #141 №358822

Ладно, пошёл я нахуй.

Аноним 16/06/23 Птн 21:51:36 #142 №358840

>>358777
>>358822
> синтез голоса за бабки
это на каких лохов расчитано?
вот здесь уже обещают 11labs уровень качества, локальный >>356195

Аноним 16/06/23 Птн 21:54:41 #143 №358841

>>358840
>обещают
Вот когда выложат, тогда поговорим. А пока я весов не вижу.

Аноним 16/06/23 Птн 22:46:15 #144 №358924

>>358804
Типа того.

Аноним 16/06/23 Птн 22:50:03 #145 №358931

>>358822
> это на каких лохов расчитано?
Ну тогда жди пока пришлют ключ. Там очередь не долгая.

>>358840
> это на каких лохов расчитано?
Это вообще оффтоп здесь. Это клиент для платных API высокого качества.

>>358804
> я уже удалил
Ну и дурак. Там дофига функций помимо синтеза голоса, типа скачивания видео с этих ваших ютубов, создание субтитров и прочая. Платная фича там только синтез голосяки, но мне пофиг, у меня работа платит.

Аноним 16/06/23 Птн 23:53:34 #146 №359045

>>358841
они будут здесь https://github.com/yl4579/StyleTTS2
> It will likely be July or August
https://github.com/yl4579/StyleTTS2/issues/1

Аноним 17/06/23 Суб 02:17:04 #147 №359150

>>358720
Ахуенно!

Аноним 18/06/23 Вск 18:05:45 #148 №361279

Моделька для черепахи варится потихоньку.
https://voca.ro/1luJYDn1y6ZI

Аноним 18/06/23 Вск 22:20:09 #149 №361600

>>359008 →
Пока вот так вышло. Первый файл - это два куплета без инструментальной части, второй файл - это полная версия с инструментальной частью. Я там вроде как высоту голоса разную в этих вариантах сделал...

Датасет с голосом 1 час и 9 минут вышел на 12 серий. Всего 1309 отдельных отрывков длительностью 0.5-9 секунд. В конфиге выставил batch size в 28 (в 24 GB VRAM больше не лезет у меня), всё остальное оставил по умолчанию. Что-то я не сообразил, где глянуть общую длительность обучения (я паузы ставил и в тензор-борде оторажается только стата по последней сессии вроде как), но, вообще, обучал где-то 11 часов на 4090. Но я не знаю, в какой момент стоило остановить обучение, у меня все эпохи сохранились, но я только последнюю (1247) глянул.

С шипящими какая-то проблема, не понял пока, это особенность этой дорожки (может слишком криво голос от мелодии отделил), или общая проблема, т.к. датасет всё же японский.

Про морфинг не понял что именно ты хотел узнать, можешь уточнить?

Примеры голоса из датасета:
https://vocaroo.com/13X0uYKJhcCQ
https://vocaroo.com/1e8sTX36gZDC

Аноним 18/06/23 Вск 22:36:33 #150 №361612

>>361600
>2.mp4
Ухх, круть.

Мимокрок из картинкотреда

Аноним 18/06/23 Вск 22:48:34 #151 №361620

>>361600
Русский всё равно с акцентом выдаёт. Можешь сгенерить что-нибудь на японском, ну типа この素晴らしい世界に祝福を! или сразу модель скинь, мы сгенерим.
Кстати, нормализацию к датасету применял? Говорят тащит.

Аноним 18/06/23 Вск 23:07:29 #152 №361648

>>361600
Красота. Десяточка.

Аноним 18/06/23 Вск 23:27:08 #153 №361669

ari.mp4

>>361620
>с акцентом выдаёт
На каком языке обучаешь - такой акцент и будет, сколько обучение не дрочи. Ещё-ж базовая модель подирает картавостью.

Аноним 19/06/23 Пнд 09:52:38 #154 №361991

1.webm

2.webm

3.png

>>361600
Какой же пиздец местами с этой песенкой и низким голосом видрил 1, podval records прямо, эта моделька тренилась тоже примерно часов 10 при бс 24 с датасетом в час с хвостиком, хотя натрененная на 4 часа с датасетом в минут 15 видрил 2 так не пердит, но и голос там абсолютно другой.
> обучал где-то 11 часов на 4090
И это кстати самый отталкивающий пиздец. Может надо повышать лр и увеличивать распад?
> С шипящими какая-то проблема, не понял пока, это особенность этой дорожки (может слишком криво голос от мелодии отделил), или общая проблема, т.к. датасет всё же японский.
У меня полностью русскоговорящие датасеты, но акцент как будто из англии челы в подвале записали пердёж по приколу, так что хз вообще.
> Про морфинг не понял что именно ты хотел узнать, можешь уточнить?
Параметры какие используешь в пикрил 3 интересно.
> может слишком криво голос от мелодии отделил
Чем, кстати, отделял?

Аноним 19/06/23 Пнд 16:52:27 #155 №362353

>>361620
> Можешь сгенерить что-нибудь на японском, ну типа この素晴らしい世界に祝福を!
https://vocaroo.com/1mGiUk0OQYB3

> или сразу модель скинь, мы сгенерим
Да я, в целом, хотел модель скинуть, когда более-менее приемлемый результат получится, только пока сам поиграться немного хочу. Кстати, а где эти модели вообще выкладывают? Кроме хг и цивита есть ещё какие-то площадки? На них суммарно меньше ста моделей - все просто жопятся свои модели выкладывать или ещё что-то есть?

> Кстати, нормализацию к датасету применял? Говорят тащит.
Я только такое видел в офф. репе: "Silence removal and volume normalization are automatically performed (as in the upstream repo) and are not required". Есть какая-то другая инфа?

>>361991
> Какой же пиздец местами с этой песенкой и низким голосом видрил 1, podval records прямо, эта моделька тренилась тоже примерно часов 10 при бс 24 с датасетом в час с хвостиком, хотя натрененная на 4 часа с датасетом в минут 15 видрил 2 так не пердит, но и голос там абсолютно другой.
Не понял тебя - это модельки на разные голоса или модельки на один и тот же голос, но с разным объёмом датасета? Прям совсем по разному звучат. Не пробовал другие тесты поделать для сравнения? Интересно, вторая модель в других случаях всегда лучше звучит или только с низким голосом так выходит?

>> обучал где-то 11 часов на 4090
> И это кстати самый отталкивающий пиздец. Может надо повышать лр и увеличивать распад?
Возможно да. У тех же retard-friendly скриптов для запуска kohya-ss можно было LR на пару порядков увеличивать, по сравнению со значением по умолчанию. Там стратегия "сделаем низкий LR и поставим обучать на сутки" не приводила к чему-то более качественному, по сравнению с быстрым обучением на высоких LR.

> У меня полностью русскоговорящие датасеты, но акцент как будто из англии челы в подвале записали пердёж по приколу, так что хз вообще.
Может дело в базовой модели, как анон >>361669 подметил? Нет каких-то альтернативных базовых моделей, основанных на русскоязычных датасетах?

> Параметры какие используешь в пикрил 3 интересно.
Пик 1. Я только высоту голоса выше сделал, чтобы он более писклявый был, остальное по дефолту оставил. Хотя, может ещё prediction method менял, не помню уже. Я пока не разбирался с этими параметрами.

> Чем, кстати, отделял?
https://github.com/Anjok07/ultimatevocalremovergui
Плохо то, что у этой тулзы нет никакого CLI, автор обещал ещё полгода назад его добавить https://github.com/Anjok07/ultimatevocalremovergui/issues/359 но пока так ничего и не сделал.

В моём представлении, из UVR, so-vits-svc-fork и ffmpeg можно было бы сделать комбайн на gradio-интерфейсе по типу пика 2, чтобы обабатывать основные сценарии парой кнопок, т.е:
1. Извлечение аудиодорожки из видео через ffmpeg (то, что на пике)
2. Извлечение голоса/инструментальной части аудиодорожки через UVR (там нет CLI, но сам код опенсорсный и на питоне, при желании, наверняка его можно без родного гуя использовать)
3. Морфинг голоса через so-vits-svc-fork (там есть CLI)
4. Объединение нескольких аудиодорожек в одну через ffmpeg (чтобы объединить инструментальную частью с дорожкой, где поменяли голос)
5. Объединение аудиодорожки с картинкой/видео через ffmpeg

Ещё можно было бы txt2audio добавить, но я пока не понял, есть ли для русика что-то вменяемое для локалхоста? Я пока только вот эту облачную говнину пытался попробовать >>358777

Я за питон/градио не шарю, но, немного потыкавшись, смог сделать однокнопочный интерфейс, который извлекает аудиорожку из видео. Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.

Аноним 19/06/23 Пнд 17:39:43 #156 №362424

>>362353
>https://vocaroo.com/1mGiUk0OQYB3
Почему-то вышло коносунараши, хотя должно быть субараши, ну да ладно. Неплохо, но темп можно и убавить.
>На них суммарно меньше ста моделей - все просто жопятся свои модели выкладывать или ещё что-то есть?
Думаю просто пока текущий статус аудиогена слишком пердольный, вот и не выкладывают. Появятся всякие лоры в пару мегабайт поверх базы, мержи и прочее развлечение в один клик, тогда и попрут васяномодели.
>Есть какая-то другая инфа?
Тут писалось, но не уверен, что к этому же инструменту.
>>342362
>Ещё советик если твой звуковой файл который ты хочешь изменить выглядит как пик 1 то получится хуйня 100% нужно на него накинуть нормализацию чтобы он стал похож на пик 2
>>362353
>txt2audio добавить, но я пока не понял, есть ли для русика
TTS только silero, но оно не обучаемое. Зато можно хоть на микроволновке запускать.
>>362353
>Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Надо запилить AudioGenerationWebUI, чтобы как у каломатика, но я только вышел на работу, так что ещё один полугодовой отпуск позволить себе не могу.

Аноним 19/06/23 Пнд 18:02:45 #157 №362460

1.mp4

2.mp4

Ну короче нормализация и более чистый семпл + отделение от музыки другой сеткой внутри китаегуя сделали куда лучше результат. Пришлось ещё немного вилкой прочистить конечно трек с голосом, но это хотя бы уже что то. Акцент так никуда и не делся. Лучший результат получился с crepe почему то на автопитче.

>>362353
> Не понял тебя - это модельки на разные голоса или модельки на один и тот же голос, но с разным объёмом датасета?
Две разные модели, первая с голосом Михаила Черняка, просто более менее чистый голос взял для теста с какой то из его озвучек. Вторая это папич, качество ну среднее, во что он там вещает, обычное микро с подвала скорее всего. Первая хорошо зачитывает монотонный текст, что не удивительно, учитывая датасет, вторая более "артистичная", ведь там в датасете были эмоциональные крики.
> Не пробовал другие тесты поделать для сравнения?
Предложи войсы, я хз что лучше попробовать поморфить.
> Возможно да. У тех же retard-friendly скриптов для запуска kohya-ss можно было LR на пару порядков увеличивать, по сравнению со значением по умолчанию. Там стратегия "сделаем низкий LR и поставим обучать на сутки" не приводила к чему-то более качественному, по сравнению с быстрым обучением на высоких LR.
Как разберусь на чём лучше тренить, попробую на час поставить на повышенном лр новый какой нибудь датасет.
> Может дело в базовой модели, как анон >>361669 подметил? Нет каких-то альтернативных базовых моделей, основанных на русскоязычных датасетах?
А я хз, обычная базовая какая то в конфиге указана в разделе pretrained. На что это менять? Отсюда подойдут модели типо https://github.com/snakers4/silero-models/blob/master/models.yml ?
> Пик 1. Я только высоту голоса выше сделал, чтобы он более писклявый был, остальное по дефолту оставил. Хотя, может ещё prediction method менял, не помню уже. Я пока не разбирался с этими параметрами.
Я тоже разные потыкал и лучше всего получилось с crepe.
> Плохо то, что у этой тулзы нет никакого CLI, автор обещал ещё полгода назад его добавить https://github.com/Anjok07/ultimatevocalremovergui/issues/359 но пока так ничего и не сделал.
О, есть гуй для этого дела, я в китаевебуи делал разными моделями, одной из них вышло получше.
> 1. Извлечение аудиодорожки из видео через ffmpeg (то, что на пике)
Бля, а ведь реально у многих аудио должна она быть, я просто разделял на похер, не смотря на дорожки.
> 2. Извлечение голоса/инструментальной части аудиодорожки через UVR (там нет CLI, но сам код опенсорсный и на питоне, при желании, наверняка его можно без родного гуя использовать)
А обязательно его? В китаегуе разве не на его основе? https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
> 4. Объединение нескольких аудиодорожек в одну через ffmpeg (чтобы объединить инструментальную частью с дорожкой, где поменяли голос)
Я через audacity делал вот эти две, там можно чуть подредачить как раз.
> 5. Объединение аудиодорожки с картинкой/видео через ffmpeg
Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
> Ещё можно было бы txt2audio добавить, но я пока не понял, есть ли для русика что-то вменяемое для локалхоста? Я пока только вот эту облачную говнину пытался попробовать
Ну модель есть, хз чем её можно запускать только. Про какую облачную говнину кстати речь?

> Я за питон/градио не шарю, но, немного потыкавшись, смог сделать однокнопочный интерфейс, который извлекает аудиорожку из видео. Так что, если особо не упарываться, можно попробовать под базовые сценарии сделать примитивные интерфейсы.
Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?

Аноним 19/06/23 Пнд 22:32:37 #158 №362793

>>362460
> Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
Какие пробовал?

Аноним 20/06/23 Втр 01:08:05 #159 №363032

>>362793
Shutter-encoder, Axion, QWinFF.

Аноним 20/06/23 Втр 09:28:16 #160 №363227

>>363032
В треде были и другие. Тот же Саундворкс прекрасно лепит видео из картинки и аудио, добавляет или убирает аудио дорожку.

Аноним 20/06/23 Втр 16:22:51 #161 №363652

>>363227
Спасибо за информацию! Да, существует несколько программ и инструментов, которые могут помочь создавать видео из статичных изображений и добавлять или удалять аудиодорожки. Одной из таких программ является Soundworks, которая специализируется на создании видео изображений с аудиоэффектами и манипуляциями с аудио. Это полезный инструмент для создания разнообразных видеоматериалов.

Аноним 20/06/23 Втр 17:04:30 #162 №363677

.PNG

Dancyo-face20230618183409e00001300.png

>>362424
> Тут писалось, но не уверен, что к этому же инструменту.
Интересно. Можно будет попердолитья с этим, у меня в датасете есть файлы, которые выглядят как пик 1 тут - >>342362

> TTS только silero, но оно не обучаемое. Зато можно хоть на микроволновке запускать.
Ну всё равно норм, сгенерировать сначала через silero, а потом заморфить уже на кастомной модели через so-vits-svc-fork.

> Надо запилить AudioGenerationWebUI, чтобы как у каломатика, но я только вышел на работу, так что ещё один полугодовой отпуск позволить себе не могу.
Ну вот, ты упустил редкий шанс того, чтобы тебя поливали говном на двощах/форчанах каждый раз, когда ты коммитишь что-то в master в своей репе. Мне интересно сам python + gradio потыкать, попробую, наверное, что-нибудь простое накидать, как время найду. Хотя у меня с ним тоже не особо хорошо, на самом деле. Да и на питоне я вообще не пишу, так что вероятность того, что выйдет не говно, близка к нулю.

>>362460
> Две разные модели, первая с голосом Михаила Черняка, просто более менее чистый голос взял для теста с какой то из его озвучек. Вторая это папич, качество ну среднее, во что он там вещает, обычное микро с подвала скорее всего. Первая хорошо зачитывает монотонный текст, что не удивительно, учитывая датасет, вторая более "артистичная", ведь там в датасете были эмоциональные крики.
А я думал, где же я мог слышать этот голос... Ну да, лол, более эмоциональный голос на песню явно лучше ложится.

> Предложи войсы, я хз что лучше попробовать поморфить.
Вот я тоже пока думаю, какие отрывки лучше морфить именно в целях тестирования. Вообще, как мне кажется, неплохо было бы на скороговорках потестить, чтобы было легко оценить, обсирается ли оно на каких-то определённых звуках. Ещё какие-нибудь короткие тексты для тестирования интонации. Ну и песенки, само собой. Нам бы какой-нибудь свой набор тестов для моделей составить, как в том же лама-треде заставляют петухов нести яйца и выясняют, сколько рыб осталось в аквариуме, если половина из них утонет.

> А я хз, обычная базовая какая то в конфиге указана в разделе pretrained. На что это менять? Отсюда подойдут модели типо https://github.com/snakers4/silero-models/blob/master/models.yml ?
Там вроде формат моделей другой. В репе у so-vits-svc-fork накое увидел: "If you have trained on a large, copyright-free dataset, consider releasing it as an initial model". Но где смотреть текущий список альтернативных моделей я не нашёл. Базовые модели скачиваются из этой репы: https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k Но там в репе нет какой-то полезной инфы вроде как.

> О, есть гуй для этого дела, я в китаевебуи делал разными моделями, одной из них вышло получше.
> А обязательно его? В китаегуе разве не на его основе? https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Надо глянуть тогда, спасибо за наводку.

> Я через audacity делал вот эти две, там можно чуть подредачить как раз.
Есть такой момент, да. По хорошему надо ещё вручную лишние звуки удалять из дорожки с вокалом, перед объединением вокала и инструменталки. Тут без какого-то стороннего UI никак. Это можно воспринимать аналогично генерации в автоматике картинок с низким разрешением, правка их в ФШ, а потом применение тайлового апскейла к уже исправленным картинкам.

> Заёбный тоже этап, большинство гуев к ффмпегу еррор выдают при конверте из аудио и картинки в видео, пришлось сначала через loop, а потом ещё и обрезать лишнее.
Я через cli делаю, и сейчас выношу команды в gradio (пики 2-3). В моём понимании, там надо просто несколько разных команд предоставить для разных форматов файлов. Но может я чего-то не понимаю - я в кодеках и в медиа в целом не разбираюсь.

> Ну модель есть, хз чем её можно запускать только. Про какую облачную говнину кстати речь?
SoundWorks, выше обсуждали.

> Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
Я в процессе пока, если хотя бы основные табы для ffmpeg и so-vits-svc-fork осилю реализовать, то выложу.

>>362305 →
> Местами даже слишком хорошо, лойс поделись
Поделюсь чуть попозже. Попердолюсь сперва, хочу всё же хотя бы несколько эпох между собой сравнить, зря что-ли 300 чекпоинтов нагенерировал. Я пока вообще не могу понять, возможно ли эту штуку переобучить. Пробовал её обучать уже суммарно больше двадцати часов, и не сказал бы, что становится хуже (тестирую 1247 эпох против 2371), но разница между голосами становится минимальна.

Аноним 20/06/23 Втр 17:46:47 #163 №363705

Meta готовит к выпуску VoiceBox некий, tts

Аноним 20/06/23 Втр 18:11:56 #164 №363730

>>363705
> There are many exciting use cases for generative speech models, but because of the risks of misuse, we are not making the Voicebox model or code publicly available at this time.
> While we believe it is important to be open with the AI community and to share our research to advance the state of the art in AI, it’s also necessary to strike the right balance between openness with responsibility.

Аноним 20/06/23 Втр 18:16:40 #165 №363734

изображение.png

>>363677
>редкий шанс того, чтобы тебя поливали говном
Этого у меня навалом ))
>>363705
>https://voicebox.metademolab.com/
Чёт прям интересно стало с этим пунктом.
Небось не выпустят нихуя, а то с таким инструментов генерить подделки станет как никогда просто.
>>363730
Как знал, слишком хороша для публики.

Аноним 21/06/23 Срд 05:57:06 #166 №364452

Расистыч.mp4

Анекдот.mp4

>>363677
> А я думал, где же я мог слышать этот голос... Ну да, лол, более эмоциональный голос на песню явно лучше ложится.
Похож? Он впринципе получился почему то куда лучше, несмотря на то что я тренил его всего 4-5 часов и датасет был достаточно скромным. А вот другая сетка с большим датасетом и долгой тренировкой лажает как то больше, вон даже в зачитывании анекдота запинается.
> Вот я тоже пока думаю, какие отрывки лучше морфить именно в целях тестирования
Хуже всего справляется с дефектами в речи. Вон расистская песенка без проблем морфится, даже акцент пропал, правда только с одной моделью. Мб вторая перетренена сильно в итоге? Эпохи старые не сохранились, проверить это даже не могу.
> Нам бы какой-нибудь свой набор тестов для моделей составить
Хорошая идея, только хз что считать платиной.
> Там вроде формат моделей другой. В репе у so-vits-svc-fork накое увидел: "If you have trained on a large, copyright-free dataset, consider releasing it as an initial model". Но где смотреть текущий список альтернативных моделей я не нашёл. Базовые модели скачиваются из этой репы: https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/tree/main/sovits_768l12_pre_large_320k Но там в репе нет какой-то полезной инфы вроде как.
Ну тогда с этого чекпоинта дотренивать только остаётся.
Кстати насчёт тренировки, я попробовал с 1е-3, но более быстрым распадом, тренируется судя по тензорборду нормально, тренд такой же нисходящий, но получилась какая то херня после 200 минут тренировки. Я скорее всего обосрался с датасетом, надо перепроверять.
> как в том же лама-треде заставляют петухов нести яйца и выясняют, сколько рыб осталось в аквариуме, если половина из них утонет
А потом выясняют кто собакошиз, кто собакошизошиз и кто собакошизошизошиз.
> Есть такой момент, да. По хорошему надо ещё вручную лишние звуки удалять из дорожки с вокалом, перед объединением вокала и инструменталки. Тут без какого-то стороннего UI никак. Это можно воспринимать аналогично генерации в автоматике картинок
Всё так, именно так и воспринимается, никто не мешает так же из оригиала, если он не сильно отличается, подсунуть части голоса в плохо получившиеся места, по аналогии со слоями в фотошопе.
> с низким разрешением, правка их в ФШ, а потом применение тайлового апскейла к уже исправленным картинкам.
Ты прямо из лоуреза тайловым кнетом делаешь? У тебя получилось добиться приемлемого качества с таким? Я сколько его не тестил, он всегда выдавал картинку хуже по сравнению даже с хайрез ганом, про латент вообще молчу, либо мыло, либо детализации практически нет, ответь в наи насчёт этого лучше.
> Я через cli делаю, и сейчас выношу команды в gradio (пики 2-3). В моём понимании, там надо просто несколько разных команд предоставить для разных форматов файлов. Но может я чего-то не понимаю - я в кодеках и в медиа в целом не разбираюсь.
> Я в процессе пока, если хотя бы основные табы для ffmpeg и so-vits-svc-fork осилю реализовать, то выложу.
Ну это уже выглядит в целом юзабельнее, чем прыгать между трёх консолей и трёх хгуев. Они типо сейчас не рабочие? В чём проблема? Вижу что ты через комманду вызываешь ффмпег, может проще будет всё это внутренними зависимостями сделать? Ффмпег вроде есть прямо в пипе, сама морфилка ведь тоже на питоне, можно хоть колесо собрать, хоть просто скрипты напихать по идее.

Аноним 21/06/23 Срд 13:24:06 #167 №364660

Есть прога ACE Studio, которая миди нотки переводит в вокал. Потом этот вокал через SVC vits прогоняешь через свою модель голоса и готов трек. Поздравляю, теперь ты певец без рта. Но прога сыроватая ещё, может кто аналоги знает...

Аноним 22/06/23 Чтв 18:23:53 #168 №366361

>>322413
Купи паскод, бомж

Аноним 22/06/23 Чтв 18:27:06 #169 №366375

>>333866
Ебать если ты это сделал, то ты кудесник.

Аноним 23/06/23 Птн 19:56:01 #170 №368338

>>368293 →
Забирай: https://civitai.com/models/95845/senko-so-vits-svc

Аноним 23/06/23 Птн 22:28:12 #171 №368544

prikol9.mp4

Аноним 23/06/23 Птн 23:53:55 #172 №368599

Стикер

>so-vits-svc
Аноны, есть тут кто-нибудь кто шарит в подкапоте этой нейросети?

Вот у меня большой датасет, несколько тысяч файлов, общей длительностью часа 2.
Я треню с помощью колаба. Но у калаба много ограничений. В частности меня волнует то, что он вырубается через 3 часа. Потом я запускаю обучение снова, опять 3 часа, опять запускаю и т.д.

И я вот что подумал.
Если нейросеть берет по порядку файлы датасета и выполняет свое обучение и если обучение прерывается каждые 3 часа, то ведь получается что те файлы которые в начале списка используются в таком прерывистом обучении чаще чем те, которые в конце.
Например представьте, что обучение прерывается каждые 10 минут и вы каждые 10 минут запускаете его снова в этом случае нейросеть будет успевать только первые файлы датасета обработать и будет обучаться только на них. С прерыванием каждые 3 часа тот же принцип - даже если обучение успевает сделать ротацию по всем файлам датасета, всё равно есть перекос в сторону файлов которые в начале списка.

Учитвая это всё, имеет ли в таком случае смысл перемешивать файлы в датасете? Просто меняя их имена на рандомные в начале каждого обучения?

Аноним 24/06/23 Суб 00:07:41 #173 №368612

>>368599
Сохранение идёт по эпохам, когда прошла итерация по всему датасету. Так что для каждого чекпоинта число повторов по одним и тем же файлам будет одинаковое по идее.

Аноним 24/06/23 Суб 00:10:46 #174 №368614

ahegao.mp4

>>368338
Благодарность, чё.
Получилось так себе, голос ЯВНО не подходит под модель, но забавно.

Аноним 24/06/23 Суб 00:39:22 #175 №368658

>>368614
Хм, у меня вот так вышло, настройки пикрелейтед.

Аноним 24/06/23 Суб 00:40:06 #176 №368660

>>356195
А в русский и другие языки он может?

Аноним 24/06/23 Суб 00:51:20 #177 №368671

>>368614
>>368658
А для изменения файла голоса с помощью модели тоже нужна видеокарта с памятью или уже можно на своем некро-калькуляторе менять, а видеокарта только для обучения?

Аноним 24/06/23 Суб 00:58:54 #178 №368672

>>368671
> GPU inference requires at least 4 GB of VRAM. If it does not work, try CPU inference as it is fast enough.
Из офф. репы so-vits-svc-fork.

Аноним 24/06/23 Суб 16:06:41 #179 №368982

>>364452
> Похож? Он впринципе получился почему то куда лучше, несмотря на то что я тренил его всего 4-5 часов и датасет был достаточно скромным. А вот другая сетка с большим датасетом и долгой тренировкой лажает как то больше, вон даже в зачитывании анекдота запинается.
Да, похож, я просто его совсем мало слышал, поэтому не узнал сразу. Дикция шикарная на втором примере, но вот звуки определённые проглатывает, это да. Не пробовал папичем тот же анекдот озвучить, на тех же звуках будет спотыкаться? Я просто боюсь, что дело всё же в базовой модели может быть и так просто эту проблему не забороть для любых аудио на русском.

В офф. репе базовой модели такая инфа об исходных данных для обучения ( https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12 ):
> 新增large底模，由m4singer+vctk数据集训练，294k为loss14.75的，320k为最终训练步数。

Базовая модель для so-vits-svc-fork была обучена на этих наборах данных:
https://m4singer.github.io (полностью китайский)
https://paperswithcode.com/dataset/vctk (полностью английский)

Интересно, есть ли подобные готовые русскоязычные датасеты и насколько реально обучить базовую модель в домашних условиях. Требования по обучению/генерации тут всё же более щадящие, чем для той же генерации картинок; может на условных 24GB можно обучить что-то?

> Ну это уже выглядит в целом юзабельнее, чем прыгать между трёх консолей и трёх хгуев. Они типо сейчас не рабочие? В чём проблема? Вижу что ты через комманду вызываешь ффмпег, может проще будет всё это внутренними зависимостями сделать? Ффмпег вроде есть прямо в пипе, сама морфилка ведь тоже на питоне, можно хоть колесо собрать, хоть просто скрипты напихать по идее.
Да там пока кроме извлечения аудио из видео и конвертации аудио+картинки в видео ничего нет, весь код литературно вот - https://pastebin.com/8JW5qMdj Пока всё на коленке и совсем кривое не хочу репу на гитхабе заводить.
Из зависимостей gradio поставленный в venv или глобально, ну и ffmpeg, добавленный в path. Он не будет работать с путями, если там есть пробелы в именах файлов. Ну и я так и не заморочился пока с тем, чтобы команды для ffmpeg универсальные сделать, под все популярные типы файлов. Будет кидать файлы в output -> audio2video/video2audio.

Из интересного нашёл ещё такую штуку - https://github.com/pkalogiros/AudioMass
По сути, это браузерная тулза с локальным go-сервером, котоая выполняет ту же роль, что и Audacity, только в ней, вроде как, нельзя несколько треков одновременно обрабатывать, хотя для простого удаления шумов из дорожки с изменённым голосом это и не нужно. Если делать какой-то комбайн по типу web-ui от автоматика, то можно было бы попробовать решение по типу этого туда сразу интегрировать...

Я ещё подумал, что, может, вместо того, чтобы свой велоспид делать пытаться, лучше контрибьютить в RVC начать - предложить им добавить новые табы для типовых ffmpeg операций. У них и так там уже и разделение инструменталки/вокала и морфинг интегрирован в рамках одного web-ui, так что это более навороченная тулза, чем so-vits-svc-fork.

Аноним 24/06/23 Суб 16:14:19 #180 №368989

>>368982
Требования по обучению/[...] тут всё же более щадящие, чем для той же генерации картинок
Хотя это, конечно, сильное заявление. С теми же лорами на SD всё совсем лайтово по системным требованиям для обучения стало теперь.

Аноним 24/06/23 Суб 18:09:30 #181 №369061

>>368989
Так то лоры. Анон выше кажись предлагает обучать базовую модель специально для русика, потому что ангельские херят немного.

Аноним 24/06/23 Суб 18:44:38 #182 №369093

>>369061
Это я и был. Я просто про то, что систему файнтьюна для sd сделали сильно лучше с течением времени, что привело к снижению системных требований для обучения, так что для обучения лор/ликорисов сейчас могут быть ниже системные требования, чем для дообучения звуковых моделей.

Но обучить полновесную модель с нуля по типу SD нереально сейчас, на неё потратили $600 000. А для обучения голосовой модели всё может быть не так страшно, если сравнить размеры датасетов для SD и этой голосовой модели:

Stable Diffusion - была обучена на 2.3 миллиардах пар текст-картинка.

Базовая модель для so-vits состоит из двух датасетов:
VCTK (CSTR VCTK Corpus) - 110 English speakers with various accents. Each speaker reads out about 400 sentences, which were selected from a newspaper, the rainbow passage and an elicitation paragraph used for the speech accent archive.
Итого 110 x 400 = 44000 английских предложений.

M4Singer - 20 professional singers, covering 700 Chinese pop songs as well as all the four SATB types (i.e., soprano, alto, tenor, and bass)
Итого 20 x 700 = 14000 песен на китайском.

Мнение?

Аноним 25/06/23 Вск 07:17:13 #183 №369567

>>369093
>Мнение?
Английская модель не подойдет к русской речи, фонемы другие.

Аноним 25/06/23 Вск 09:26:54 #184 №369598

papich.webm

snoop-dogg.webm

>>368982
Тензорборд у тренировки витса прямо намного полезнее картинкотренировки от кохи, даже сэмплы можно посмотреть по эпохам, хотя там вроде в последних коммитах тоже есть генерация пробных пикч, в тензорборд это добавляется или не, не знаешь?
Перетренил с 1е-3 с меньшим датасетом, но более однородным. Два часа где то тренилось, вышло получше и схоже с датасетом, видрил2. Надо подольше потренить и почекать на предмет улучшений.

> Да, похож, я просто его совсем мало слышал, поэтому не узнал сразу. Дикция шикарная на втором примере, но вот звуки определённые проглатывает, это да. Не пробовал папичем тот же анекдот озвучить, на тех же звуках будет спотыкаться? Я просто боюсь, что дело всё же в базовой модели может быть и так просто эту проблему не забороть для любых аудио на русском.
Запинается, но в других местах, видрил1. Видимо недостаточный датасет для определённых мест в разных тренировках, вон местами вообще интонация голоса пропадает и попискивает.

> Интересно, есть ли подобные готовые русскоязычные датасеты и насколько реально обучить базовую модель в домашних условиях. Требования по обучению/генерации тут всё же более щадящие, чем для той же генерации картинок; может на условных 24GB можно обучить что-то?
Ну даже если попробовать грубый подсчёт по данным что ты нарыл будет 110 спикеров на 400 предложений - 44000 чанков по 10 секунд на каждую эпоху, простых спикеров не считая поющих * 320к эпох с батчем ну в лучшем случае в ~28-30 с ~2it/s (у меня вроде столько выдаёт) это 733 секунды на эпоху и 234560000 секунд на 320к, ну как раз дотренится к моменту выхода какой нибудь квантовой нвидии каждому мимокроку в пекарню. Вроде нигде не обосрался в подсчётах, поправь если да.
> Да там пока кроме извлечения аудио из видео и конвертации аудио+картинки в видео ничего нет, весь код литературно вот - https://pastebin.com/8JW5qMdj
Окей, попозже покопаюсь, может что дельного смогу сделать.
> Из интересного нашёл ещё такую штуку - https://github.com/pkalogiros/AudioMass
Воу, там и питоном можно, только вторым, лол, я уж думал не увижу больше такого. Плохо кстати что нельзя дорожки друг на друга накладывать.
> Я ещё подумал, что, может, вместо того, чтобы свой велоспид делать пытаться, лучше контрибьютить в RVC начать - предложить им добавить новые табы для типовых ffmpeg операций. У них и так там уже и разделение инструменталки/вокала и морфинг интегрирован в рамках одного web-ui, так что это более навороченная тулза, чем so-vits-svc-fork.
Ну да, но там не хватает настроек морфинга. Да и тренирует почему то хуже и тензорборд не завезли.

Аноним 25/06/23 Вск 09:51:02 #185 №369604

>>369598
>Видимо недостаточный датасет для определённых мест в разных тренировках, вон местами вообще интонация голоса пропадает и попискивает.
Там никакой детекции и нет, это не так работает. Просто в твоей модели нет подходящих звуков, поэтому его и корежит. Это основная проблема этого метода.

Аноним 25/06/23 Вск 10:23:40 #186 №369618

>>369604
> Просто в твоей модели нет подходящих звуков
Ну да, я это и имел ввиду под недостаточностью датасета, ведь разные натрененные модели запинаются в разных местах.

Аноним 25/06/23 Вск 10:30:51 #187 №369622

>>369618
Именно поэтому ты не можешь кинуть любую модель на любой голос. И мой тебе совет, посмотри на дорогу после генерации совитсом, она как бы вся выровненная получается. Я думаю, чтобы не корежило надо какую-то нормализацию делать до войс-свапа.

Аноним 25/06/23 Вск 10:38:14 #188 №369626

>>369622
Я пробовал нормализацию делать в audacity с низкими значениями, так действительно лучше получается. Там же можно и вырезать лишнее после, ну и заменить плохие куски оригиналом или морфом с другими настройками, где этот кусок получился лучше.

Аноним 25/06/23 Вск 11:26:04 #189 №369649

>>369626
Да, но в целом технология для серьезных и больших проектов не подходит, надо все дрочить вручную. То есть час-два звука делать ты охуеешь.

Аноним 25/06/23 Вск 15:34:08 #190 №369800

>>369093
>Мнение?
Управимся в 6000 баксов. Хуйня вопрос, сейчас из тумбочки достану.
>>369649
А другие варианты?

Аноним 26/06/23 Пнд 14:29:59 #191 №371390

Нуфажный вопрос по so-vits-svc, как определить что дальше модель можно уже не дообучать и ей уже нормально и большего не выжать?

Аноним 26/06/23 Пнд 16:32:10 #192 №371541

>>371390
Когда не слышиш разницы с предыдущей итерацией

Аноним 28/06/23 Срд 11:18:25 #193 №374596

Там если что всякие там террористы выпустили новый ттс и стт
https://huggingface.co/spaces/mms-meta/MMS

Аноним 28/06/23 Срд 20:20:32 #194 №375470

>>371390
ты где обучаешь?

Аноним 28/06/23 Срд 20:56:47 #195 №375545

silkworm.mp4

>>368338
Добра тебе, анон.

Аноним 29/06/23 Чтв 01:12:46 #196 №375970

>>371390
перекатывайся с этого говна на rvc

Аноним 29/06/23 Чтв 01:29:52 #197 №375989

>>375545
Спасибо, что поделился. Классно вышло.

автор модели

Аноним 29/06/23 Чтв 12:36:15 #198 №376400

Есть нарезки аудио английского и русского голосов (90 секунд / множество минут). Могу я бесплатно натренить модель и генерить tts? ElevensLabs не работает ни с vpn, ни без него, можете подсказать подходящий под него впн, но не надеюсь уже. Есть аналоги, колабы?

Аноним 29/06/23 Чтв 20:25:43 #199 №377103

>>371541
А по графикам?

>>375470
Локально

>>375970
В чём профит?

Аноним 29/06/23 Чтв 20:38:01 #200 №377129

>>377103
>В чём профит?
Пока тестирую сам. Могу однозначно сказать, что за пару обучения уже получается хорошая модель. Но насколько я понял rvc легко переобучается и там нет смысла делать больше 300-500 эпох 3 часа на t4. Сегодня вот улучшил свой датасет и поставил обучаться 200 эпох, посмотрю какое качество будет.

Аноним 30/06/23 Птн 07:11:53 #201 №377714

Аноны, можно как-то из so-vits-svc модели сделать простой tts без "перевалочного пункта" в виде сторонней аудиозаписи с голосом, которую мы и меняем?
Сейчас твич и ютуб заполонили вот такие каналы https://www.twitch.tv/trumporbiden2024 где
боты отвечают чату в режиме реального времени, по ссылке например голосами байдена и трампа. Понятно что тут как-то сделали tts модель, копирующую чужой голос, но как?

Аноним 30/06/23 Птн 12:46:33 #202 №378069

>>314948 (OP)
Умельцы сделайте плиз ремикс Лета и Арбалеты голосом Пригожина

Аноним 30/06/23 Птн 14:33:28 #203 №378338

>>375545
Круто получилось я бы даже схоронил, но слишком много изъянов всё-таки. Слова проглатываются, смазываются в некоторых местах.

Аноним 30/06/23 Птн 15:45:01 #204 №378485

>>378069
Хотя уже нашел

Аноним 30/06/23 Птн 16:28:01 #205 №378540

>>378485
хотя нет, он уебищный какой-то, сделайте еще

Аноним 30/06/23 Птн 16:38:18 #206 №378554

>>378540
>сделайте
не сделаем, если найдешь уже обученную модель, тогда подумаем. а самому сейсас нарезать и обучать потому что ты сказал, извольте нахуй.

Аноним 30/06/23 Птн 20:16:17 #207 №378914

>>378554
Ну for the culture же...

Аноним 30/06/23 Птн 20:55:48 #208 №378996

>>378914
for the culture ты и сам можешь

Аноним 30/06/23 Птн 21:07:19 #209 №379020

>>378914
Если у тебя нет мощностей на тренировку, то хоть датасет собери.

Аноним 30/06/23 Птн 23:12:08 #210 №379312

Nazarechorus.mp4

>>378338
Это сделано на коленке, без малейшей обработки. Если пошаманить, можно убрать большинство изъянов. Акцент останется, такой уж оригинал голоса, но мне даже нравится.

Алсо, подкиньте обученных моделей для so-vits. На цивите и хаггинфейс почти ничего нет.

Аноним 30/06/23 Птн 23:22:25 #211 №379333

>>379312
> Если пошаманить, можно убрать большинство изъянов.
что делать надо?

Аноним 30/06/23 Птн 23:25:58 #212 №379340

>>378914
Да хуйня, мелко мыслишь. https://www.youtube.com/watch?v=F-JHxApZKcY вот это голосом Пригожина было бы реально круто.

Аноним 30/06/23 Птн 23:34:15 #213 №379349

>>379333
Прогнать отдельно левый и правый каналы, т. к. so-vits выдаёт только моно. Убрать "протечки" музыки в канал голоса, чтобы не было этих визгов перед вторым куплетом. Вообще повозиться с исходником. Переделать локально места, где теряются части слов. Может на выходных сделаю.

Аноним 01/07/23 Суб 08:42:11 #214 №379659

>>379349
Да, сделай анон. Модель голоса очень классная.
Интересно если её дальше тренить она лучше станет или это предел?

Аноним 01/07/23 Суб 08:42:44 #215 №379660

>>379312
Во, идеально.

Аноним 01/07/23 Суб 09:01:45 #216 №379672

>>379659
> Интересно если её дальше тренить она лучше станет или это предел?
Могу попробовать ещё дольше потренить. То, что на цивите, тренилось ~20 часов на 4090, но разница между моделями, обученными на 11 и 20 часов, как мне показалось, совсем небольшая.

Аноним 01/07/23 Суб 11:57:08 #217 №379825

>>378996
>>379020
я не умею...

Аноним 01/07/23 Суб 12:58:07 #218 №379966

>>379825
Что ты не умеешь, вырезать куски аудио? Тогда убейся нахуй, очисти генофонд человечества от своей тупизны.

Аноним 01/07/23 Суб 13:40:43 #219 №380066

>>379825
печально

Аноним 01/07/23 Суб 20:17:25 #220 №380729

>>379966
нахуй мне учиться когда всегда найдется куколд согласный все сделать за бесплатно, типа тебя

Аноним 01/07/23 Суб 20:21:53 #221 №380739

>>380729
Нет, ты просто тупой.

Аноним 01/07/23 Суб 21:25:42 #222 №380914

Silkwormv2.mp4

River.mp4

>>379659
Как-то так в общем.
+бонус

Аноним 02/07/23 Вск 00:09:02 #223 №381426

>>380729
>типа тебя
Чел, я тебя обоссываю, как и остальные тут. Если кто-то и сделает твой реквест, то чисто случайно, лишь потому, что сам захотел. А теперь обтекай молча.

Аноним 02/07/23 Вск 13:27:19 #224 №382106

>>380914
>Silkwormv2.mp4
Слава теперь хорошо слышно, но сам голос потерялся. Кажется что просто оригинал с большим питчем.

Аноним 02/07/23 Вск 13:28:12 #225 №382109

>>382106
*слова

Аноним 02/07/23 Вск 14:15:11 #226 №382241

>>379659
Не, что 8, что 30 часов обучать, я разницы не слышу просто. Может надо было на другом отрывке тестить, чтобы разницу услышать... Но, судя по графику в Audacity, разница всё же есть. Графики лосса с последней сессии (с 2371 по 3711 эпохи) я хз как интерпретировать, нужно мнение анонимных датасаентистов.

>>379349
> Прогнать отдельно левый и правый каналы, т. к. so-vits выдаёт только моно.
Вот это крутая подсказка кстати, спасибо. Вот тут с картинками объясняют, как в Audacity стерео-треки разбить по каналам, а потом обратно склеить: https://manual.audacityteam.org/man/splitting_and_joining_stereo_tracks.html

Аноним 02/07/23 Вск 14:23:44 #227 №382265

>>382241
Голос Кипелова вообще не поддается, такое морф можно сказать ни куда не пойдет, а выше вон >>368658 Наутилус относительно нормально поменялся. Хотя у наутилуса голос даже ниже и более хриплый.

Аноним 02/07/23 Вск 14:26:53 #228 №382267

>>382265
Хм, попробую тогда вечером что-нибудь другое заморфить на нескольких эпохах и ещё раз сравнить.

Аноним 02/07/23 Вск 14:48:54 #229 №382300

>>382241
Попробуй на rvc v2 обучить

Аноним 02/07/23 Вск 15:15:05 #230 №382363

>>382300
короче я щас сам попробую ряди интереса сделать кипелова на rvc, модель нашел

Аноним 02/07/23 Вск 15:56:16 #231 №382449

kipelov (2).mp4

samka.mp4

Кипелов и инстасамка лол.
Нейронка rvc v2, 100 эпох.

Аноним 02/07/23 Вск 16:01:27 #232 №382460

>>382449
Чел, ну ты ведь и сам видишь, что результат плохой.

Аноним 02/07/23 Вск 16:03:07 #233 №382463

>>382460
Думаю всё дело в настройках применения модели к дорожке, а не в самой модели.

Аноним 02/07/23 Вск 16:04:50 #234 №382468

>>382460
чел, иди нахуй

Аноним 02/07/23 Вск 16:12:42 #235 №382503

Lalisa-1.mp4

Venom-1.mp4

Вот еще, возможно если бы было 200-300 эпох, то результат был бы лучше. А после 300-350 эпох он ухудшается на этой нейронке

Аноним OP 02/07/23 Вск 19:04:52 #236 №382794

1688313892867.jpg

Если подумать, можно обучить голосовую модель по сэмплам реальной модели. То есть той же Яндексовской и любой другой. Чтобы больше не платить.

Надо будет только придумать, из каких фраз составить датасет.

Аноним 02/07/23 Вск 20:33:51 #237 №382927

>>382794
За что платить? so-vits-svc не синтезирует речь, а только тон голоса "меняет".
Бля удоли свой пост. Даже как-то стыдно что ОП этого ИТТ (зис) треда ни хуя не понимает в теме.

Аноним 02/07/23 Вск 20:36:18 #238 №382931

Silkwormv2plain.mp4

>>382106
Так получилось, потому что я добавил эхо и реверб, а в припевах сделал голос дуэтом. В итоге потерялось ощущение пения под караоке.

>оригинал с большим питчем
Питч я, кстати, не трогал. Стоит 0 без автокоррекции.

Если что, вот версия без обработки.

Аноним 02/07/23 Вск 20:43:43 #239 №382944

>>382931
По-моему вот этот вариант уже получше будет, но всё равно нет голоса персонажа.
Из всех что были в треде пока идеальный вариант вот тут >>379312 прямо от сэю не отличить.
Ну и вот тут не плох >>368658
Но "на заре" можно как образец морфа прям показывать, очень удачно получилось.

Аноним 02/07/23 Вск 22:02:11 #240 №383057

>>382944
Самое ужасное, что я никак не могу воспроизвести это. Хотел сейчас сделать всю песню и не запомнил, как выставил ползунки в тот раз. Теперь из припева получается какая-то каша.

Аноним 03/07/23 Пнд 05:53:07 #241 №383475

Короче ничего я так и не затестил сегодня, зато статейку накидал для вкатунов по so-vits-svc-fork:
https://rentry.org/tts_so_vits_svc_fork_for_beginners

Аноним 03/07/23 Пнд 06:36:40 #242 №383480

Отделил инструментал от голоса и музыкальная дорожка начала "пукать", особенно хорошо слышно в конце, как фиксить?

Аноним OP 03/07/23 Пнд 08:14:47 #243 №383501

>>382927
Ты дурак. Видишь, даже без вопросов, просто констатирую факт.

Тред - о генерации речи из текста, а не смене тона голоса. Фишку про генерацию бесплатной моделью и изменению голоса на "нормальный" я придумал в прошлом треде, но ты не вкурил, зачем это нужно. А нужно это потому, что бизнес сегодня использует существующие облачные модели для пре-генерации фраз и использования их, например, в помощниках. Но генерация динамических фраз - дорогое удовольствие. Если обучить модель голосу существующей облачной модели, можно будет сэкономить немало денег на генерацию, и позволить агенту общаться с клиентом тем же голосом, что был использован для облачной генерации инструкций.

Не говоря уже об исправлении существующих фраз, чтобы не мудрить с SAML, который не каждый провайдер поддерживает в должном объёме.

Аноним 03/07/23 Пнд 08:16:19 #244 №383503

>>383501
> SAML
SSML

Аноним 03/07/23 Пнд 08:20:32 #245 №383506

>>383480
Использовать другую модель для отделения инструменталки. Смотри, если сэмплинг выставлен тот же, что у оригинала. Можешь попробовать изменить метод отделения (MDX-Net итп).

Аноним 03/07/23 Пнд 09:51:58 #246 №383564

>>383501
>А нужно это потому, что бизнес сегодня использует существующие облачные модели для пре-генерации фраз и использования их, например, в помощниках.
>Но генерация динамических фраз - дорогое удовольствие.

Ты опять всё перепутал дурачок. Облачный сервис яндексу нужен, потому что синтезированная речь часто отправляется в устройства с низкой вычислительной мощностью или в приложения - навигатор, настольный динамик "Алиса", короче в софт, который сам бы дольше синтезировали речь, чем получал звуковой файл по интернету, но сама по себе tts операция не "дорогое удовольствие", а очень дешевое, которое легко выполняет пека 10 летней давности.
Твое предложение копировать яндесовский tts на самом деле очень тупое и совершенно бессмысленное, думай прежде чем писать. Вообще даже теоретически это бред, в опенсорсе давно есть легкие tts движки которые превосхояд яндекс, сам таким пользуюсь.

Аноним 03/07/23 Пнд 11:59:02 #247 №383623

>>381426
пока что ты обоссал только свой рот моим хуем

Аноним 03/07/23 Пнд 12:04:50 #248 №383626

>>383623
Чел, твой запрос никто не выполнил и не выполнит. Ты обоссан, обтекай молча.

Аноним 03/07/23 Пнд 12:05:48 #249 №383627

>>381426
>Если кто-то и сделает твой реквест, то чисто случайно, лишь потому, что сам захотел
Убеждай себя чмоня, пару раз вы уже сделали мои реквестики. сделаете и еще не один раз, как миленькие, обтек тебе за щеку, проверяй

Аноним 03/07/23 Пнд 12:48:29 #250 №383656

>>383475
По uvr, тебе не надо выбирать галочки инструментал или вокал, если ты ничего не выберешь то сделается и то и то.

Аноним 03/07/23 Пнд 13:02:03 #251 №383678

>>383475
О норм. Контент для треда. Молодец анон. Только so_vits это не tts.

Аноним 03/07/23 Пнд 13:25:19 #252 №383692

>>383656
> По uvr, тебе не надо выбирать галочки инструментал или вокал, если ты ничего не выберешь то сделается и то и то.
И вправду... Что за сверхразум придумал этот UI, обе галочки отметить нельзя, но если их обе снять, то поведение эквивалентно двум отмеченным галочкам. Добавил в статью, спасибо.

>>383678
Я понимаю, просто статья для tts-треда (отдельного sts-треда у нас нет), поэтому такой префикс решил сделать.

Аноним 03/07/23 Пнд 14:39:20 #253 №383769

>>383564
> но сама по себе tts операция не "дорогое удовольствие", а очень дешевое, которое легко выполняет пека 10 летней давности
Блядь, съеби отсюда. У нас стоит яндексовский сервер в дата центре, эта ебала стоит более 15 тысяч баксов, и генерирует 15 секунд речи в секунду. А теперь нахуй пошёл!

> в опенсорсе давно есть легкие tts движки которые превосхояд яндекс
Нету. Потому что "движка Яндекс" нет, но нет и ОС движка, превосходящего тот, что использует Яндекс.

Аноним 03/07/23 Пнд 15:11:35 #254 №383797

>>383475
>Полноценное использование so-vits-svc-fork требует наличие видеокарты NVidia с 4GB VRAM. Если у вас с этим проблемы, то программа может полностью исполняться на процессоре с меньшей скоростью.

4gb требуется для inference, для обучения нужно 10gb.
Чел, я весь гайд вычитывать не буду но если ты в само начале такие ошибки допускаешь, то походу всё очень плохо.

Аноним 03/07/23 Пнд 15:29:13 #255 №383820

>>383797
Впрочем, я зря быканул. Любой гайд лучше чем ничего.

Аноним 03/07/23 Пнд 16:58:29 #256 №383947

>>383797
>>383820
Добавил инфу про 10GB VRAM для обучения. Я помню, что видел это инфу ранее, но забыл упомянуть в гайде. Мой косяк, да.

Дайте знать, если ещё надо что-то поправить/дополнить надо, я сам в этой теме меньше месяца, так что наверняка какие-то важные нюансы мог упустить.

Аноним 03/07/23 Пнд 17:16:00 #257 №383962

fix.mp4

>>383506
Проблема оказалась в RVC webui. С UVR всё в порядке.

Аноним 03/07/23 Пнд 19:02:04 #258 №384087

>>383947
>Добавил инфу про 10GB VRAM для обучения.
Тащемта обучать можно и на 4gb, ставишь "batch_size": 3 в конфиге, будет работать. Передаю привет с нищей 3050.

Аноним 03/07/23 Пнд 19:48:20 #259 №384130

>>384087
В репе четко написано что 10 надо. Разработчику виднее как его хуйня работает, может там хуево учится с глюками в моделе, если памяти меньше.

Аноним 03/07/23 Пнд 20:02:47 #260 №384146

>>384130
>Разработчику виднее как его хуйня работает
Ну так он там же и пишет, что вот тебе пожалуйте минималка 4 гига, вот для того чтоб там работало крутани тута, тама и здеся, ну и живи, только подорожник ещё приложить не забудь.
Про 10 гигов просто рекомендация по целесообразности, про глюки и то что модель в говно будет там и слова нет. От то что медленнее будет учится, согласен.

Аноним 03/07/23 Пнд 20:06:45 #261 №384151

>>384146
>учится
ться, грамотей млять.
быстрофикс

Аноним 03/07/23 Пнд 21:47:30 #262 №384285

>>384146
Да в стэйбл дифюжн тоже можно память снизить, только после этого то тут то там вылезают необъяснимые глюки.

Аноним 03/07/23 Пнд 22:48:20 #263 №384367

tt.webm

>>384285
За СД не скажу, там я модели не обучал, это уже вопросы к СД.
Тут же я попробовал и своей цели достиг в какой то мере, каких то прям глюков глюков не застал.
Какие то шероховатости я смог объяснить тем, что датасет всего 9 минут с небольшим и он весьма не идеален, при том что очень желательно минут 12 и более с лучшим качеством.
Вот пример 8015 эпох, из обработок высоких чутка поднял эквалайзером, эхо накинул и лимитер влепил, просто потому что uvr немного грязно отработал.

Аноним 04/07/23 Втр 03:48:32 #264 №384593

>>369598
> хотя там вроде в последних коммитах тоже есть генерация пробных пикч, в тензорборд это добавляется или не, не знаешь?
Не знаю, я кохя-скрипты давно не обновлял...

> Ну даже если попробовать грубый подсчёт по данным что ты нарыл будет 110 спикеров на 400 предложений - 44000 чанков по 10 секунд на каждую эпоху, простых спикеров не считая поющих * 320к эпох с батчем ну в лучшем случае в ~28-30 с ~2it/s (у меня вроде столько выдаёт) это 733 секунды на эпоху и 234560000 секунд на 320к, ну как раз дотренится к моменту выхода какой нибудь квантовой нвидии каждому мимокроку в пекарню. Вроде нигде не обосрался в подсчётах, поправь если да.
Да, пересчитал твои цифры, ~7.4 лет на одной 4090 придётся тренировать, и это если учесть только половину датасета. Так что в домашних условиях нереально самому базовую модель обучить, если не урезать датасет или делать число эпох на порядок-два ниже.

Аноним 04/07/23 Втр 13:30:15 #265 №384944

>>384087
>>384130
>>384146
"Полноценное использование so-vits-svc-fork требует наличие видеокарты NVidia с 4GB VRAM. Обучение своих моделей так же можно проводить на видеокарте с обёмом памяти 4GB VRAM, однако, разработчкик рекомендует проводить обучение хотя бы на 10GB VRAM."

Так корректнее будет?

Аноним 04/07/23 Втр 14:20:32 #266 №385009

Модели для so-vits-svc-fork и rvc являются совместимыми между собой?

Аноним 04/07/23 Втр 14:59:32 #267 №385052

>>385009
Нет, даже rvc и rvc v2 несовместимы. Но на rvc быстрее обучишь в 10 раз.

Аноним 04/07/23 Втр 15:19:11 #268 №385077

>>385052
по сравнению с so-vits разумеется

Аноним 04/07/23 Втр 15:26:39 #269 №385099

>>384944
Вообще инференс so-vits прекрасно работает без видеокарты, раза в 2-3 медленнее.

Аноним 04/07/23 Втр 15:29:55 #270 №385104

>>385099
>[...] Если у вас с этим проблемы, то программа может полностью исполняться на процессоре с меньшей скоростью. AMD GPU поддерживается только для Linux.
Эту строчку планировал дальше оставить. И вправду такая маленькая разница в скорости?

Аноним 04/07/23 Втр 15:42:56 #271 №385131

>>385104
Проверил сейчас. Кусок аудио 14 секунд длиной обрабатывается на ноутбучной 3050 за 4 секунды, а на i5-10500 за 14.
У господ с 4090 будут другие тайминги.

Аноним 04/07/23 Втр 16:03:37 #272 №385176

>>385131
Взял отрывок аудио длиной 36 секунд:
4090: обрабатывается 4 секунды
i9-9900k: обрабатывается 22 секунды

Аноним 04/07/23 Втр 17:55:44 #273 №385331

kamina1.mp4

kamina2.mp4

kamina3.mp4

чо притихли?

Аноним 04/07/23 Втр 19:54:48 #274 №385531

327343900.jpg

>>385176

Аноним 04/07/23 Втр 20:27:42 #275 №385571 DELETED

>>385331
Везде на 14 секунде глич. Мой вердикт: кал. Иди фикси ручками. Потом имаджинируй своё ебало если попробуешь целиком делать.

Аноним 04/07/23 Втр 20:44:44 #276 №385594 DELETED

>>385571
Иди попу подмой, сельдь.
Уже не знаешь как как на срач забайтить.

Аноним 05/07/23 Срд 08:16:46 #277 №386441

>>385331
В чем видеорилетейд делалось? В шапке написано что только японский же?

только вкатываюсь в нейроозвучку

Аноним 05/07/23 Срд 10:33:09 #278 №386507

>>385331
>3
Ебаааааааааать

Аноним 05/07/23 Срд 10:35:04 #279 №386509

>>385331
Расскажи как делал, я тоже хочу озвучивать чуваом из постала.

Аноним 05/07/23 Срд 10:59:18 #280 №386523

>>386441
>>386509
Пишешь vits-svc в ютубе и смотришь любое видео.

Аноним 05/07/23 Срд 12:01:19 #281 №386546

>>386523
Благодарю

Аноним 05/07/23 Срд 12:05:15 #282 №386548

>>386523
Эта штука только заменяет голос? В текст то спич не может?

Аноним 05/07/23 Срд 18:39:02 #283 №387058

>>386548
Не может

Аноним 05/07/23 Срд 21:55:39 #284 №387357

>>386523
Спасибо, потрогал, работает. Сколько вообще нужно тренировать до хорошего результата? Ты сколько чувака тренил?
В примерах, я смотрел, файлы по G_56000 лежат.

Аноним 05/07/23 Срд 22:03:57 #285 №387371

>>387357
500 шагов на кал_лабе это час.

Аноним 05/07/23 Срд 22:05:06 #286 №387373

>>387357
Индивидуально. Зависит ок количества датасета и его разнообразия. У чувака 90000, но разницы с 50000 большой нет.

Аноним 06/07/23 Чтв 02:04:39 #287 №387738

>>387373
А ты как датасет собирал? Я когда-то давно из видео "Все фразы чувака из postal" повырезал, сохранив в формате wav. Хотел себе на компе системные звуки на фразы чувака заменить. Вот, сейчас пригодились, ради пробы сделал G_2000, сейчас доделалась 10000, буду тестить.
Если кому надо, могу скинуть архив со всеми фразами чувака.

Аноним 06/07/23 Чтв 04:20:37 #288 №387826

>>314948 (OP)
Поясните, хочу обучить модель, у меня есть запись как чел читает книгу, с паузами, мне надо эти паузы вырезать или они ни на что не влияют?

Аноним 06/07/23 Чтв 05:15:57 #289 №387851

>>387826
У so-vits-svc-fork так:
> Training
> Silence removal and volume normalization are automatically performed (as in the upstream repo) and are not required.

Как у RVC не знаю.

Аноним 06/07/23 Чтв 10:22:22 #290 №387986

>>387738
так и собрал

Аноним 06/07/23 Чтв 13:16:09 #291 №388122

>>387851
Ну вроде нормально получилось, юзал RVC.
Не могу только найти индекс файл, он вообще ещё нужен и что делает, вроде и без него конвертирует.

Аноним 07/07/23 Птн 08:56:07 #292 №389512

RedSun.mp4

Аноним 07/07/23 Птн 10:42:17 #293 №389555

sold.mp4

ZV.mp4

Почему не похоже?

Аноним 07/07/23 Птн 12:22:23 #294 №389621

>>389512
Голову бы тебе оторвать, мудак. Не смей Доки но сакура трогать, мразь.

Аноним 07/07/23 Птн 14:19:36 #295 №389761

>>389621
> Не смей Доки но сакура трогать, мразь.
Это название песенки? Покажи оригинал.

Аноним 07/07/23 Птн 14:47:52 #296 №389805

>>389761
>оригинал
https://www.youtube.com/watch?v=Br9ALPmS1fA&t=0s

>Это название песенки?
Это был тонкий реквест, но мне пока лень делать.

Аноним 07/07/23 Птн 18:58:26 #297 №390291

>>389805
> Это был тонкий реквест
Стал бы я иначе спрашивать исходник.

Аноним 07/07/23 Птн 20:42:34 #298 №390570

>>390291
https://www.youtube.com/watch?v=dP4t_GGl3Es

>>390291
https://www.youtube.com/watch?v=0MqcwLjPQ9g
Держи, подонок. 10 000 лет жизни Императору! Божественный ветер!

Аноним 07/07/23 Птн 20:47:16 #299 №390582

Аноним 07/07/23 Птн 23:19:42 #300 №390798

>>387371
Я до 500 на кал лабе месяц тренил. Видимо от датасета зависит у меня было 2+часа в паре тысяч файлов.

Аноним 07/07/23 Птн 23:30:35 #301 №390822

>>390798
У меня был 3 минуты!

Аноним 08/07/23 Суб 02:53:20 #302 №391059

В UVR кто-нибудь пробовал разные модели тестировать? Их там десятки просто.

Аноним 08/07/23 Суб 07:08:59 #303 №391180

Аноним 08/07/23 Суб 12:55:00 #304 №391371

Спасибо местному чуваку за дорожку

https://youtu.be/sOR8m9x4OJQ

Аноним 08/07/23 Суб 13:49:53 #305 №391427

Как понимаю Vits всегда херит остальной звук в песне?

Аноним 08/07/23 Суб 14:14:12 #306 №391479

>>391427
Нет.

Аноним 08/07/23 Суб 22:17:44 #307 №392334

>>391180
Круто получилось, вообще не слышно дребезжания уже.
Как можно датасет улучшить? Я нарезал 110 треков по 8-10 секунд
И на 500 эпохах всё равно хуёво, голос срывается и квакает, что я делаю не так? Могу ещё 100 нарезать, это поможет?

Аноним 08/07/23 Суб 22:45:07 #308 №392418

>>391180
Голос японский, да?

Аноним 09/07/23 Вск 21:44:02 #309 №393891

bingchill.mp4

>>391371
пожалусто

Аноним 09/07/23 Вск 22:12:11 #310 №393923

>>385331
Анон, я у тебя пару дней назад спрашивал про обучение чувака. Вот, натренировал свою модель до g_10000, решил затестить на песьне кота Леопольда и оно легло идельно. Пробовал на других записях и всегда какой-то шакал выходит, даже если идёт +/- норм, в какой-то момент голос тупа срывается. Но вот в этой песне, он как родной. Зацени, что скажешь?
https://youtu.be/UGHXJlTu9HU

Аноним 09/07/23 Вск 22:33:15 #311 №393953

>>392334
> Круто получилось, вообще не слышно дребезжания уже.
Ага, я сам прям кайфанул от того, как здорово вышло.

> Как можно датасет улучшить? Я нарезал 110 треков по 8-10 секунд
Может разнообразия звуков в датасете не хватает? У меня есть старая модель, которую обучал только по первым двум сериям аниме, там 21 минута голоса вышла. Прикрепил один и тот же отрывок для сравнения:
v1_e1305 - датасет 21 минута, 1305 эпох, 28 батч сайз
v2_e800 - датасет 69 минут, 800 эпох, 28 батч сайз
v2_e2371 - аналогично предыдущему, только больше эпох (это та версия, что на цивите как v1 выложена)
v2_e4366 - аналогично предыдущему, только больше эпох да, я обучал это 40 часов, потому-что почему бы и нет?

Во всех случаях звучит приемлемо, хотя у первого варианта датасет в три раза меньше. Но тут, конечно, такая проблема, что надо много тестов делать, чтобы хоть какие-то выводы можно было наверняка сделать - а нормальных инструментов по автоматизации этого процесса, типа гридов в SD, просто нет. А вручную слишком запарно это всё тестировать, надо скрипты хотя бы накидать, по хорошему - в том же so-vits есть CLI.

Отрывки я тоже все делал <10 секунд, как разработчик советовал.

> И на 500 эпохах всё равно хуёво, голос срывается и квакает, что я делаю не так? Могу ещё 100 нарезать, это поможет?
Может быть плохо вокал от инструменталки отделился для тех отрывков, которые тестировал? Пробовал те же отрывки на других моделях тестировать?

Либо может на неудачных отрывках тестируешь - у меня есть отрывки, на которых голос срывается вне зависимости от того, какую модель использую. Пробовал тестировать на разных версиях моделей с Сенко, и ещё пробовал Саю и Нахиду с хаггингфейса. Никто не вытягивает определённые участки. Тут остаётся только базовую модель винить.

>>392418
> Голос японский, да?
Да, датасет состоит из 69 минут японского голоса.

Аноним 09/07/23 Вск 22:36:56 #312 №393958

>>393953
Как датасет собирал? Если из анимы резал, то как отделял от фоновых звуков?

Аноним 09/07/23 Вск 22:40:36 #313 №393961

>>393958
Из анимы ручками резал, да. Сначала при помощи https://github.com/Anjok07/ultimatevocalremovergui убрал все фоновые звуки, а потом вручную нарезал голос нужного мне персонажа через Audacity, используя такой подход >>353861

Аноним 09/07/23 Вск 22:46:28 #314 №393968

kaz.mp4

kr22.mp4

>>393923
Из-за разности в голосах тональности скорее всего проблема. Пробуй кнопки режимов повыбирать, типо harvest, creepe и ещё чото-там, короче, все попробуй.
В любом случае получилось лучше, чем у меня, молодец!

Аноним 10/07/23 Пнд 00:21:25 #315 №394091

>>393923
>>393968
А моделькой поделитесь?

Аноним 10/07/23 Пнд 00:23:17 #316 №394092

>>393968
Это где? Я серез этот коллаб мутил
https://colab.research.google.com/drive/1128nhe0empM7u4uo5hbZx5lqjgjG1OSf

Аноним 10/07/23 Пнд 00:47:45 #317 №394110

>>394092
У меня тут. Где в каллабе хз.

Аноним 10/07/23 Пнд 01:02:59 #318 №394126

А есть гайды че да как под vits-svс на русскоязычных лексемах обучать модели или тип того? Видел на хагингфейс спрашивали ссылаясь на эту ветку, но я ссылку проебал.

Это или неподъемная задача, или что? И почему модели ни кто не где не выгружает, бояться что выебут за авторские права?

Аноним 10/07/23 Пнд 01:54:35 #319 №394214

1688943275188.png

>>394126
> бояться что выебут за авторские права?
Нет, образец голоса защищается другими законами, по сравнению с которыми авторские права - детский сад. Ни одна компания (вроде HuggingFace) на такое не пойдёт.

Аноним 10/07/23 Пнд 09:00:09 #320 №394403

abutitan.mp4

Обучил абу до 24к. Есть ли смысл учить дальше, с учетом того что это RVC v2?

Аноним 10/07/23 Пнд 13:39:42 #321 №394566

>>376400
Бамп

Аноним 10/07/23 Пнд 20:00:22 #322 №395015

1689008419978.mp4

>>394403

Аноним 10/07/23 Пнд 22:27:44 #323 №395191

изображение.png

>>394110
Анон, выручай, не видит видимокарту. У меня GTX 960, там cuda присутствуют.

Устанавливал через
pip install -U so-vits-svc-fork

Пробовал установить Pytorch with CUDA через
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

Аноним 10/07/23 Пнд 22:52:21 #324 №395234

>>395191
О, всё. пофиксил, помогло
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu118

Аноним 11/07/23 Втр 05:13:31 #325 №395511

>>394403
Проиграл, лучше наверное уже и не сделать, с тем что сейчас есть по крайней мере.

Аноним 11/07/23 Втр 15:31:47 #326 №395843

изображение.png

Во время обработки выдаёт пикрил, при чём независимо от того, запускаю я на видеокарте или процессоре. Как фиксить?

Аноним 11/07/23 Втр 15:49:07 #327 №395857

>>395843
При этом realtime худо-бедно работает, ошибок не выдаёт.

Аноним 13/07/23 Чтв 01:14:01 #328 №398703

>>398703
https://www.youtube.com/watch?v=i03w6uGfvDM

От куда этот пикрил интерфейс?

Аноним 13/07/23 Чтв 10:32:41 #329 №399184

Аноним 14/07/23 Птн 15:23:32 #330 №400831

>>399184
А можно RVC модель конвернуть в SVC ?
Я так понял все каверы делают на RVC и они достаточно нормально работают с русскими лексамами (буква Р выговаривается)
А вот модели SVC сплош с акцентом звучат и ощутимо хуже работают, на зато SVC в реал тайм умеют

Аноним 14/07/23 Птн 23:15:44 #331 №401488

>>400831
ЗЫ я долбаеб, rvc тоже в риалтайм умеет

Аноним 15/07/23 Суб 09:22:17 #332 №401922

максим.mp4

Аноним 15/07/23 Суб 09:30:50 #333 №401923

>>401922
охуеть

Аноним 15/07/23 Суб 15:43:40 #334 №402641

>>399184
Пол дня пердолился с этим гайдом. Написали бы хоть где-нибудь что с 2060 туда можно не соваться.

Аноним 17/07/23 Пнд 04:50:36 #335 №407940

Sunrise Avenue - Fairytale Gone Bad.mp4

Аноним 17/07/23 Пнд 08:46:42 #336 №408113

https://huggingface.co/datasets/NeuroSenko/senko-voice
Датасет на голос с лисой, на случай, если кто-то захочет модель на RVC или ещё что-то обучить. А то я нескоро этим займусь похоже.

Аноним 18/07/23 Втр 16:08:20 #337 №413127

pupa.mp4

Аноним 18/07/23 Втр 21:05:58 #338 №413682

https://youtu.be/IcpRfHod1ic

Аноним 18/07/23 Втр 22:36:26 #339 №413975

Короче, пацаны. Открываете телеграм, находите канал СnacuTe XpucT'a, боту отсылаете сообщение и качаете кучу говн\\\\ голосов.
RVC модели⬇️
RVC_Voice_1:
1- 50cent
2- Alduin
3- Ани Лорак
4- Arnold Schwarzenegger
5- Bella Poarch
6- Biden
7- Billie Eilish 2021
8- Billie Eilish 2019
9- Bob Dylan
10- Borat
11- Brigadier

RVC_Voice_2:
1- CardiB
2- Don Lafontaine
3- Elon Musk
4- elton
5- Eminem
6- Franklin Clinton
7- Freddie Mercury
8- Gabe Newell

RVC_Voice_3:
1- Georgew Bush
2- Gman
3- Johnny Silverhand
4- Kanye
5- Лена Катина
6- Kurt Cobain
7- Lana Del Rey
8- Leon Kennedy
9- Marilyn Monroe
10- Michael Jackson

RVC_Voice_4:
1- Michael de santa
2- Mike Patton
3- Mimir
4- Mitchie Mmiku
5- Morten
6- Namvet
7- Obama
8- Optimus Prime
9- Ozzy Osbourne

RVC_Voice_5:
1- Pitbull
2- Пригожин
3- Rick
4- Rick2
5- Sakura Miyawaki
6- Scarlett Rhodes
7- Selena
8- Shrek
9- Trevor Philips
10- Trump
11- Юлия Волкова
12- Yuna
13- Зеленский
14- Михаил Горшенёв

RVC_Voice_6:
1- Adriano Celentano
2- Akanev2(аниме)
3- Akon
4- Bob Marley
5- Bot maxim
6- Братишкин
7- Chino
8- Dalek(Доктор кто)
9- DMX
10- Geralt(eng)
11- Giorgia Meloni
12- Thrall WOW

RVC_Voice_7:
1- George Carlin
2- Frank Sinatra
3- Леонид Володарский

RVC_Voice_8:
1- Freddie Mercury 2
2- Miley Cyrus
3- Spongebob Squarepants
4- Глад Валакас

RVC_Voice_9:
1- Крош(смешарики)
2- Kurt Cobain 2
3- Егор Летов
4- LisaAImodel
5- Lyn lapid
6- Marmok
7- Nancy Drew
8- Neurosama(аниме)
9- Peter Griffin
10- Винни-Пух
11- Glados
12- Siri ru
13- Юрий Стоянов
14- Trump2
15- Viktor
16- Yandex Alisa

RVC_Voice_10:
1- Пригожин 2
2- Rihanna)

RVC_Voice_11:
1- Александр Головчанский
2- Александр Клюквин
3- Александр Рахленко
4- Александра Курагина
5- Алексей Борзунов
6- Андрей Гаврилов
7- Антон Савенков
8- Артём Карапетян
9- Борис Репетур
10- Вартан Дохалов
11- Василий Ливанов
12- Вероника Саркисова
13- Вероника Саркисова_2
14- Виктор Цымбал
15- Виталий Соломин
16- Владимир Антоник
17- Владимир Вихров
18- Владимир Ерёмин
19- Владимир Зайцев
20- Владимир Познер
21- Владислав Копп
22- Всеволод Кузнецов
23- Высоцкий Владимир
24- Вячеслав Баранов
25- Глушковский Михаил
26- Головчанский Александр
27- Денис Беспалый
28- Денис Некрасов
29- Дмитрий Полонский
30- Дмитрий Пучков
31- Дмитрий Пучков 2
32- Евгений Леонов
33- Евгений Суслов
34- Иван Жарков
35- Игорь Старосельцев
36- Игорь Тарадайкин
37- Илья Барабанов
38- Илья Бледный
39- Илья Исаев
40- Леонид Белозорович

RVC_Voice_12:
1- Леонид Белозорович_2
2- Леонид Володарский
3- Михаил Белякович
4- Михаил Георгиу
5- Matthew McConaughey
6- Никита Прозоровский
7- Николай Буров
8- Николай Дроздов
9- Олег Вирозуб
10- Ольга Зубкова
11- Рогволд Суховерко
12- Руслан Габидуллин
13- Светлана Репетина
14- Сергей Бурунов
15- Сергей Пономарёв
16- Сергей Чихачев
17- Сергей Чонишвили
18- Сергей Чонишвили 2
19- Станислав Концевич
20- Юрий Живов
21- Юрий Левитан
22- Юрий Яковлев

SVC модели⬇️
Voice_1:
1- Михаил Горшенёв (Эпох: 4400 )
2- Михаил Горшенёв 2 (Эпох: 3080 )
3- Михаил Горшенёв 3 (Эпох: 6400 )

Voice_2:
1- Dora (Эпох:4000)
2- Dora 2 (Эпох:12000)
3- Face (Эпох: 6000)

Voice_3:
1- Morgenshtern (Эпох: 15000)
2- Morgenshtern 2 (Эпох: 36000)
3- Morgenshtern 3 (Эпох: 1448)

Voice_4:
1- Егор Летов (Эпох: 2000)
2- Глад Валакас (Эпох: 56000)
3- Гитлер (Эпох: 30000)

Voice_5:
1- INSTASAMKA (Эпох: 9000)
2- Kizaru (Эпох: 27200)
3- OXXXYMIRON (Эпох: 24000)

Voice_6:
1- Slava Marlow (Эпох: 28000)
2- Бледный (Эпох: 7200)
3- Зеленский (Эпох: 11000)

Voice_7:
1- Меладзе (Эпох: 10000)
2- Мэйби Бэйби (Эпох: 32000)
3- Элджей (Эпох: 17000)

Voice_8:
1- Александр Белявский
2- Александр Клюквин
3- Александр Котов
4- Александр Рахленко

Voice_9:
1- Андрей Ярославцев
2- Борис Репетур
3- Владимир Зайцев
4- Всеволод Кузнецов

Voice_10:
1- Дмитрий Полонский
2- Дмитрий Пучков
3- Евгений Леонов
4- Иван Жарков

Voice_11:
1- Леонид Белозорович
2- Николай Быстров
3- Рогволд Суховерко
4- Сергей Бурунов

Voice_12:
1- Сергей Чонишвили

Ну там кроме этого еще полно всего.

Аноним 19/07/23 Срд 01:26:51 #340 №414384

>>413975
>Открываете телеграм
Лучше вскрыться нахуй.
Кстати, если ты это сделал, то выложи на достойные ресурсы типа цивитая.

Аноним 19/07/23 Срд 08:44:53 #341 №414701

Sunrise Avenue - Fairytale Gone Bad.mp4

Уважаемые господа, подскажите как чинить проблему на RVC. Когда пытаюсь сгенерировать на основе одного и того-же аудио, но с другими крутилками - вылезает это и разницы в результате с предыдущим траем нет. Перезапуск не помогает.

Аноним 19/07/23 Срд 13:29:18 #342 №415028

>>414384
Как пожелаешь.
Не я и там овердохуягигов, которые скачиваются оттуда на максимальной скорости. Найти было очень трудно если что, но, видимо, это никому не упало.

Аноним 21/07/23 Птн 00:41:52 #343 №420451

kipelo.mp4

В RVC мешьне/почти нет артефактов, но голос более похож у so-vits.
Пердолился с rvc на трёх моделях - голоса вообще не похожи. Разве что у боба кое как.
Мб для датасета из 400 файлов 100 эпох слишком много и идёт переобучение?

Аноним 24/07/23 Пнд 23:40:26 #344 №427916

>>407940
Всё же голос звучит чётче, если морфить сразу по обоим стерео-каналам, а не выпендриваться с дроблением стерео на моно-треки с их последующим морфингом по отдельности.

В варианте выше делал морфинг по отдельным каналам. В прикреплённом здесь варианте просто морфинг по стерео-дорожке целиком.

Аноним 25/07/23 Втр 15:07:01 #345 №428635

Может я, конечно, слоупочу, но
ОЧИНЬ МНОГА МАДЕЛИЙ ДЛЯ RVC
https://huggingface.co/juuxn/RVCModels/tree/main

Аноним 25/07/23 Втр 21:22:48 #346 №428995

>>427916
Прикольно

Аноним 27/07/23 Чтв 02:29:42 #347 №430610

>>428635
> ОЧИНЬ МНОГА МАДЕЛИЙ ДЛЯ RVC
Я думаю, японские дрочеры напрягаются. Страна-сексшоп, страна-фагготрия.

Аноним 27/07/23 Чтв 02:48:54 #348 №430626

so-vits-svc-fork.mp4

rvce20.mp4

rvce1000.mp4

[Hugging Face] Senko.mp4

[Hugging Face] Senkosan.mp4

Пока не могу понять, как RVC готовить. По ощущениям, RVC лучше проговаривает отдельные звуки в сравнении с SVC (как анон >>400831 заметил), но, при этом, делает много других косяков.

Вот пример морфа одного и того же отрезка с разными моделями и одинаковыми настройками (питч +12, crepe). Тут есть вариант на so-vits-svc-fork, две rvc v2 модели по тому же самому датасету на разное число эпох (20 vs 1000), и две модели на того же персонажа, которые я нашёл на >>428635 файлопомоке. У so-vits-svc-fork просто не может взять пару высоких нот на 1:25, а у любых rvc-моделей иногда проскакивают какие-то механические звуки, или что-то совсем непонятное на резких переключениях высоты происходит, например на 0:57.

Может я с обучением или преобразованием напортачил? Кроме питча и "pitch extraction algorithm" всё по умолчанию оставлял. Либо RVC более чувствителен к качеству дорожки, которую использум для морфинга, хотя на других примерах у меня всё аналогично выглядит.

Аноним 27/07/23 Чтв 03:17:23 #349 №430636

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases/tag/updated0618v2
А, и ещё, как поставить RVC на шиндовс - просто скачайте и распакуйте RVC-beta.7z, которую можно найти на странице последнего релиза по ссылке выше. Запуск через файл go-web.bat. Файлы с моделями кидать в директорию weights; по умолчанию не идёт каких-либо моделей в комплекте.

Я сначала пытался по умному через git и ручную установку зависимостей в venv поставить, но ниасилил - при запуске ругался на какие-то пакеты. А тут всё без каких-либо проблем завелось.

Аноним 27/07/23 Чтв 20:12:38 #350 №431554

OplachuPidoru Postal Dude.mp4

>>430626
Я делаю всё через колабы, т.к. не имею достаточных мощностей, в силу чего не очень в нейронках понимаю. Но по личным наблюдениям SVC делает голос более похожим. но чаще встречаются всякие косяки типа срывов и хрипения, в то время как в RVC их почти нет.

Ну а ещё в случае с колабами RVC быстрее и проще запскается, для обучения хавает mp3 вместо wav, быстрее обучает и генерирует. SVC колаб же просто кастрированый, крутилок мало и они ничего в лучшую сторону не меняют.

Аноним 27/07/23 Чтв 20:14:30 #351 №431557

>>431554
P.S.
Но если датасет и запись идельного качества, то SVC почти не плодит артефактов и получается лучше, чем в RVC.

Аноним 27/07/23 Чтв 20:57:37 #352 №431603

>>430636
У меня с этого архива >>414701

Аноним 27/07/23 Чтв 23:05:45 #353 №431750

>>362460
> Ты про пик2? Можешь запилить на гитхаб или куда нибудь этот вебгуй что собрал?
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
На спейс в HF вынес UI для извлечения аудио из видео и для конвертации аудио+картинки в видео. В режиме audio2video добавляет 3 секунды тишины в конце, пока не понял, почему так выходит - у меня ffmpeg локально и на HF по разному отрабатывает с одними и теми же командами. Вот с этой строкой надо колдовать - https://huggingface.co/spaces/NeuroSenko/audio-processing-utils/blob/main/app.py#L32

Ну и работает долго ппц, хотя это от очередей в HF зависит, насколько я понимаю. Можно форкнуть или поднять локально при необходимости - там в requirements.txt всё что надо прописано правда оно срать temp файлами в корень проекта будет.

Аноним 27/07/23 Чтв 23:19:22 #354 №431766

Untitleaad.mp4

Аноним 27/07/23 Чтв 23:26:35 #355 №431780

>>414701
Хз, у меня на той же версией RVC, что у тебя на пике, нет такой проблемы. Питон глобальный у меня так же 3.10.

Ну попробуй архив по новой стянуть, лол. Хотя, судя по дате поста, ты уже должен был всё перепробовать.

Аноним 27/07/23 Чтв 23:36:47 #356 №431792

>>431780
Ну я просто хуй забил.
На то, что-бы убедиться что очередная спизженная модель плохо работает и одной попытки хватит.

Аноним 27/07/23 Чтв 23:51:26 #357 №431806

>>431766
На 44 секунде он умир.

Аноним 28/07/23 Птн 15:26:50 #358 №432431

output.mp4

Как челики делают подобного качества записи в RVC Voice AI? Только не говорите мне что создатель модельки японец или настолько помешан на аниме, что способен с подобной дикцией зачитывать текст

Аноним 28/07/23 Птн 16:43:40 #359 №432504

>>432431
Вопрос закрыт, разобрался

Аноним 28/07/23 Птн 16:49:06 #360 №432508

>>432504
Ты бы хоть поделился, как решил...

Аноним 28/07/23 Птн 17:13:17 #361 №432533

kompromissspongebobmixdown.mp4

1469363807.mp4

>>432508
В input выбираешь файл и желательно Acapella версию песни
https://youtu.be/_JXbvSTGPoo

Аноним 28/07/23 Птн 17:24:57 #362 №432554

>>432533
Первый раз такой фронтенд вижу. Надо будет глянуть, спасибо за наводку.

Аноним 28/07/23 Птн 17:46:09 #363 №432584

1469363808.mp4

С ритмом конечно же будет отдельная беда

Аноним 28/07/23 Птн 19:41:04 #364 №432696

14693638194.mp4

Аноним 28/07/23 Птн 20:04:04 #365 №432711

14345768.mp4

Аноним 28/07/23 Птн 23:29:06 #366 №433021

Common.mp4

SSML.mp4

https://huggingface.co/spaces/NeuroSenko/tts-silero

Накидал на коленке фронтенд для TTS части проекта https://github.com/snakers4/silero-models
Поддерживается несколько русскоязычных спикеров. Должны поддерживаться и прочие спикеры, но что-то у меня на спейсе ошибки льются и мне лень прямо сейчас это раскуривать.

Поддерживается синтаксис SSML-разметки, подробнее курить в доках - https://github.com/snakers4/silero-models/wiki/SSML

Всё это, как водится, можно форкнуть или запустить локально.

Аноним 29/07/23 Суб 00:03:36 #367 №433084

senko.mp4

>>433021
Спасибо

Аноним 29/07/23 Суб 13:18:28 #368 №433724

Анончики, как избавиться от акцента в RVC? У меня у всех моделей, даже русскоязычных очень заметный акцент, особенно на шипящих и твердых согласных.
Тут у Спанч Боба практически нет акцента >>420451

Аноним 29/07/23 Суб 13:22:38 #369 №433732

>>433724
А никак, если хочешь, чтобы не было ебанутого английского акцента на русском тексте, то нужна русская базовая моделька. А таких не имеется.

Аноним 29/07/23 Суб 13:43:19 #370 №433755

>>433724
Там крутилка есть на силу акцента. По умолчанию она на 0.7 стоит, можно больше делать, но будет больше артефатич

Аноним 29/07/23 Суб 15:35:17 #371 №433918

letov1.mp4

>>433755

Аноним 29/07/23 Суб 17:29:18 #372 №434112

>>433755
Это в локальной версии? Я на колабе такого, вроде, не видел.
Другойанон

Аноним 29/07/23 Суб 17:46:12 #373 №434141

FireShot Capture 018 - Gradio - localhost.png

>>434112
В локальном китайском webui
Правда толку от этой крутилки практически никакого

Аноним 29/07/23 Суб 18:34:23 #374 №434198

>>434141
А, нифига себе. Ну, то что толку никакого я заметил. Ради теста делал одну и ту же запись на 0.5, 0.7, 0.9. Разницы не услышал.

Аноним 29/07/23 Суб 18:37:13 #375 №434205

>>434141
Алсо, скинь, пожалуйста, скрин интерфейса локальной версии. Сравнить хочу с колабом.
А то у колаба SVC, например, почти все куртилки порезаны. Да и в целом колаб SVC кривой. Помню он мне одку песню почему-то при обработке отказывался на фрагменты разбивать, жрал все две минуты за раз, а потом выдавал ошибку, шо видеопамять закончилась.

Аноним 29/07/23 Суб 19:54:24 #376 №434315

FireShot Capture 019 - Gradio - localhost.png

FireShot Capture 020 - Gradio - localhost.png

FireShot Capture 021 - Gradio - localhost.png

FireShot Capture 022 - Gradio - localhost.png

FireShot Capture 023 - Gradio - localhost.png

>>434205

Аноним 29/07/23 Суб 20:05:02 #377 №434334

>>434315
Понятно, спасибо. Вроде отличия есть. но не такие сильные, как в случае с SVC.

Аноним 29/07/23 Суб 22:31:42 #378 №434521

А на сколько трудно вот это подключить к тексту? Или чтение текста это совсем другая более сложная задача?
https://www.youtube.com/shorts/dnQotnbHax4

Аноним 29/07/23 Суб 22:37:23 #379 №434526

>>434521
Это VC, оно меняет голос. Для чтения текста TTS.
В прицнипе, ты можешь засунуть в VC то, что было озвучено рандомным TTS, но, как и у всех TTS, будут проблемы с ударениями, интонацией и прочим.
Короче, VC>TTS

Аноним 30/07/23 Вск 13:35:30 #380 №435177

https://huggingface.co/spaces/Aki004/herta-so-vits
Анончики, кто может помогите, пожалуйста.
Как вот эту вот ебалду завести на петухоне?
К примеру, я с консоли буду текст вводить, а оно мне речь на выходе лепить

Аноним 30/07/23 Вск 14:25:21 #381 №435273

>>435177
git clone https://huggingface.co/spaces/Aki004/herta-so-vits/
cd ./herta-so-vits/
pip install -r requirements_win.txt
python ./demo.py

demo.py можно подправить, чтобы он принимал параметр TEXT в качестве аргумента

Аноним 30/07/23 Вск 15:38:12 #382 №435396

>>435273
raise ValueError(f'mutable default {type(f.default)} for field '
ValueError: mutable default <class 'fairseq.dataclass.configs.CommonConfig'> for field common is not allowed: use default_factory

Срёт ошибкой при запуске :((

Аноним 30/07/23 Вск 15:51:15 #383 №435407

>>435396
Полностью вывод консоли покажи

Аноним 30/07/23 Вск 15:58:22 #384 №435417

>>435407
https://pastebin.com/xk3K2U9B

Аноним 30/07/23 Вск 16:02:08 #385 №435421

>>435417
Python 3.11 не поддерживается. Ставь 3.10.8

Аноним 30/07/23 Вск 16:04:43 #386 №435424

>>435421
спасибо спасибо <з

Аноним 30/07/23 Вск 16:43:35 #387 №435472

>>435177
>>435424
https://pastebin.com/8UnDkM6z можешь этот файл скачать и запускать вместо demo.py. Вводишь текст в консольку и он его читает (и сохраняет в out_audio.wav), выходить через ctrl+c (или просто закрыть окно)
Перед использованием нужно установить пакет sounddevice
pip install sounddevice
Если будет ругаться на CUDA, то замени в строке #31 device = 'cuda' на device = 'cpu'

Аноним 30/07/23 Вск 17:05:39 #388 №435495

>>435472
Спасибо, анончик!

Но после того, как накатил python 3.10.8, озвучка персонажа слетела и сейчас вообще не то, уже чистил и перекачивал репозиторий - сейм проблема

Аноним 30/07/23 Вск 18:05:38 #389 №435594

>>435495
После накатки 3.10.8 pip install -r requirements_win.txt делал?
Так же убедись, что у тебя 3.10.8 прописался в path, а то может там остался 3.11

Аноним 30/07/23 Вск 18:45:19 #390 №435658

>>435594
>pip install -r requirements_win.txt делал?
Делал
>в path 3.10.8

Аноним 30/07/23 Вск 19:24:57 #391 №435734

>>435472
Видимо, запись в файл не понравилась скрипту в твоём варианте.
Переписал https://pastebin.com/t818hTAe, теперь все супер работает.
Спасибо за помощь!

Аноним 31/07/23 Пнд 22:14:48 #392 №438047

Слухайте, а кроме voicevox ничего нормального нет для генерации рандомного текста в войс?

Аноним 01/08/23 Втр 15:22:31 #393 №439135

video5334702908980077953.mp4

Аноним 03/08/23 Чтв 11:35:35 #394 №442209

Что автопереводчики лучше воспринимают - предложения или отдельные слова? Влияет ли это на качество? Подправить перевод руками не сложно, но раз слова в образце не опознаются, может лучше его не использовать?

Аноним 03/08/23 Чтв 16:32:48 #395 №442604

Есть гайд для долбоебов как генерить смешные песенки с голосом пророка санбоя?

Аноним 04/08/23 Птн 13:19:10 #396 №443679

>>442604
Вот для дебилов версия: https://youtu.be/pdlhk4vVHQk

Если что-то по пути будет не понятно, спрашиваешь у чата гпт (я на poe.com спрашивал).

Не знаю, нужно ли это вообще было, но так как у меня стоит python 3.10, а для проги нужен 3.9, то я его установил и активировал через virtualenv (узнал об этом тоже у гпт по запросу "Как установить локальный python определённой версии для одной программы?"). Главное, что работает

Аноним OP 04/08/23 Птн 18:55:09 #397 №443882

>>433021
> Накидал на коленке фронтенд для TTS части проекта

Круть. Это сейчас тестируется в альфе Soundworks, там редактор для SSML есть и встроенные конвертеры, грех не использовать. Так что фронтенд для винды, считай, тоже есть.

Мне нравится качество, которого ребята добились - не хуже Яндекса. Реальные молодцы.

Аноним OP 04/08/23 Птн 18:56:29 #398 №443883

>>442209
Предложение несёт контекст.

Аноним OP 08/08/23 Втр 22:09:05 #399 №448810

>>443882
Обновление SoundWorks с поддержкой Silero перешло в бету релиз. Что имеем:

Поддержка английского и русского языка (т.е. испанский и что там ещё у них есть - ещё не реализованы). 118 голосов в английском, 5 в русском. Если уже стоит питон и торч, то ничего дополнительно ставить не придётся. Если питона или торча нет - SW должен поставить. Там есть ссылка "установить Силеро", если на неё нажать, он проверит наличие Питона и Торча. Если скажет, что "наверное уже стоит, поставить заново?", то лучше от греха подальше сказать "нет".

Первая генерация займёт секунд 5-8, потому что будет скачивать модель. Моделька маленькая, но так как прогресс не показывается, то придётся понадеяться. В дальнейшем генерация занимает какую секунду, если с видеокартой. Полагаю, что с процессором будет не сильно дольше. Видеопамяти при генерации ест совсем мало.

Как установить - в конце.

Сейчас же о голосах. В принципе, качество очень высокое, но есть косяки. В примере - несколько голосов Силеро и один Алисы. Я полагаю, очевидно, что Алиса справляется с пунктуацией и произношением лучше, но в принципе косяки русских голосов Силеро именно в этом - ударения, пунктуация, их придётся проставлять отдельно, или будут "гитарные струнЫ" и "разводы грязИ".

Авторы заявляют поддержку SSML, но по факту её нет. Русская модель понимает теги SSML, но реального эффекта они не дают. Английская модель даже не понимает тегов.

В английском языке есть 118 голосов. В большинстве своём - так себе, интересно другое - как и в русском языке, это голоса не профессиональных дикторов, и они явно со всех стран мира. Я угадывал и шотландцев и австралийцев, и британцев с американцами. Так что придётся прослушать всех и выбрать нужный. К счастью, все примеры уже готовы и выложены в mp3.

https://dmkilab.com/files/SileroVoicesEN.zip
https://dmkilab.com/files/SileroVoicesRU.zip

Теперь как всё это устанавливать.

1. Скачиваем https://dmkilab.com/files/SoundWorksSetup.exe
(страница https://dmkilab.com/soundworks ведёт на ту же ссылку)
2. Устанавливаем. Оно докачает примерно 90Мб
3. Запускаем. Будет окошко на английском, выбираем Options - там ищем выбор русского языка и самое главное - вкладку Silero. Если на машине уже стоит питон и торч, то надо будет только разрешить использовать Силеро.
4. Запускаем снова, на сей раз выбираем Главное Окно - сначала появится окошко с лицензией, жмём I'm lazy - это введёт код. Не помню, если этот код позволяет генерировать премиальными голосами, но что-то дать может. Но нам пофиг, надо просто чтобы больше не спрашивал. Версия в нижнем правом углу должна показать как минимум 1.15
5. Выбираем язык, нажав на соответствующий флаг. Дальше просто - выбираем голос - все голоса Силеро внизу списка. Если до этого в настройках выбрали "только бесплатные голоса" - то в списке будут только голоса Силеро.
6. Вводим текст и генерироваем.

Там есть пара функций для генерации - доступны через меню "Проект". После нажатия зелёной кнопки, оно попытается сгенерировать файл. Первый раз займёт секунд 10, потом секунду - это очень быстрые модели.

Совет - в главном окне выберите конвертацию в MP3 и автоматические имена. В противном случае результаты Silero будут в WAV.

Первый пикрелейтед - голос Силеро.
Второй - Яндекс Алиса Алёна. Просто для сравнения.
Третий - Силеро (один из 118)
Четвёртый - то же

Резюме - местами очень хорошо, и это можно применить в "продакшене" (NB: лицензия модели запрещает коммерческое использование без выплаты лицензионных отчислений), но платным моделям всё ещё проигрывает.

Аноним OP 08/08/23 Втр 22:30:02 #400 №448831

>>448810
> Русская модель понимает теги SSML, но реального эффекта они не дают.

А вот тут >>433021 - дают. Что наводит на мысли. Либо недостаточно прямая реализация, либо модели разные. Ну будем смотреть, может заработает. Больше смущают помехи при генерации английских голосов - как будто через аналоговую телефонную линию с очень загруженной станцией. Но учитывая цену - очень неплохо.

Аноним 09/08/23 Срд 09:00:46 #401 №449139

Мимо шел, такой вопрос - можно ли свою модель сделать и ей озвучивать и насколько это сложно? Допустим есть пара десятков часов материала, этого будет достаточно?

Аноним 09/08/23 Срд 16:43:17 #402 №449569

>>449139
Может быть, но лучше часов 50 студийной записи.

> насколько это сложно?
Весьма. Чисто для теории: вот статья на богомерзком хабре:
https://habr.com/ru/companies/sberdevices/articles/718096/

и вот тот продукт, о котором он говорит:
https://developers.sber.ru/portal/products/smartspeech-yourvoice
https://developers.sber.ru/portal/products/smartspeech

То же самое есть у Яндекса - можно записать голос для СпичКита, но там, кажется, речь шла о сотнях часов. Может, уже исправились.

TTS Silero записывали свои голоса за 2 часа, но и качество соответствующее. Они механизмом создания модели не делились.

Аноним 09/08/23 Срд 19:35:41 #403 №449731

Анончики, буду рад вашей помощи. Да и тред по моему наиболее подходящий. Хоть мне и нужно наоборот Speech to text.
Очень упарываюсь по японским ASMR.
Но проблема в том, что оч плохо с японским, кроме базовых и распространенных фраз не особо вдупляю в чём речь.
Так вот, какое-то время я использовал программу на базе Whisper AI, называется Whisper Dekstop. Он помогал мне либо переводить, либо делать транскрип японской речи в текст. Но зачастую всё упиралось в то, что начало распознается более менее нормально, а вот дальше идет какой то пиздец с лупами и бессвязным текстом.
Можете подсказать какие нибудь более стабильные проги, для транскрипта японской речи прямо с аудио и чтоб выдавало в виде сабов с временными пометками.

Аноним 09/08/23 Срд 20:04:07 #404 №449775

>>449569
>50 студийной записи.
Столько нету, хочу голосами одной известной анимешной студии дубляжа озвучивать, у них поменьше набирается. Просто мне заебали кидать нейросетевые каверы, стало интересно, чем их делают. so vitc svc или что-нибудь другое

Аноним 09/08/23 Срд 21:38:03 #405 №449890

>>449775
Если изменить существующий голос на другой - да, vits, и это намного проще. Я говорил о TTS модели. Vits это скорее STS.

Аноним 09/08/23 Срд 22:02:19 #406 №449914

1691607736511.jpg

>>449731
Whisper не очень для японского, уж не знаю, почему. В >>448810 тоже есть для него UI. Но японский распознаёт криво, особенно в песенках. Я думаю, что шанс есть у аналогичной STT от Алибабы. Они же китайцы, должны были сделать как надо.

Аноним 09/08/23 Срд 22:48:41 #407 №449999

>>449914
почекал надо карту и номер привязывать. эх жаль :c

Аноним 09/08/23 Срд 22:58:20 #408 №450010

>>449999
У меня там есть акк. У тебя есть сэмпл на японском?

Аноним 09/08/23 Срд 23:06:54 #409 №450016

>>450010
йеп. вот залил на кэтбокс. если нужно короче, скажи, найду меньше.
https://files.catbox.moe/if4uap.mp3

Аноним 09/08/23 Срд 23:21:22 #410 №450024

>>450016
Вот, к слову, Whisper. У тебя так же?

я не знаю.
он был здесь.
интересно, это время после работы?
что ж, я тоже так думаю.
но сама работа продвигалась намного раньше, и я ходила по магазинам, так что сейчас самое время.
но именно так я встретил тебя.
ты вернулся в нужное время. это был правильный ответ.
наши сестры могут думать что-то подобное каждый раз, когда сталкиваются с вами.
персонажи разные, но у всех у них есть что-то похожее.
итак, ты всегда гуляешь после работы, верно?
вот как это произошло, и я немного поладлю с тобой.
интересно, не опоздаю ли я немного, когда вернусь домой?
я взял его, но не вернусь, пока не стемнеет.
что ж, даже если возвращаться немного поздновато, мои сестры
, я думаю, я думаю, что встретил вас.
Удобно сказать, что в такое время наш дом находится рядом - нет никаких проблем, даже если это в какой-то степени медленно
, я должен поблагодарить своих родителей за то, что они стоят рядом с морем.
я не знаю.
давайте еще немного пройдемся по волнам. шум волн.
мне нравится слышать более отчетливо.
Если ты подойдешь еще ближе, твои ноги промокнут
Давайте медленно прогуляемся отсюда по пляжу
, несмотря на это, мне кажется необычным видеть вас вечером.
обычно это происходит после выходного дня, после того, как стемнеет.
море в это время тоже хорошее, не так ли?
закат немного ослепительный, но я чувствую, что это яркий вид.
но что мне нравится больше всего
Море ночью, эта тихая и спокойная атмосфера
, мне это очень нравится.
ты иногда бродишь где-то посреди ночи, не так ли?
может быть, это просто по дороге домой с работы, но, возможно, есть причина, по которой воздух этой ночи такой приятный.
для меня это то же самое, что и выходной.
мне нравится гулять на солнышке, но мои сестры и мои сестренки
, интересно, нравится ли ему гулять ночью
, мои родители не хотят, чтобы мои сестры уходили поздно, но... ну, я не хочу, чтобы мои сестры уходили поздно.
нагиса украдкой бросает на нее взгляд и ускользает.
это как будто я просто прогуливаюсь по пляжу, так что ни я, ни моя сестра ничего не скажем.
с другой стороны, кахо и Марин
, когда вы захотите прогуляться посреди ночи, позвоните мне или своей сестре.
интересно, не спросит ли он тебя слишком рано?
если мы встретимся здесь вечером примерно на час
, я хочу, чтобы ты остался со мной до ночи.
да, в любом случае, морской пехотинец.
кахо не из тех детей, которые так откровенно говорят, могу я спросить ее?
даже когда я ее спрашиваю.
я не решаюсь сказать это.
когда она была моложе, она была такой же честной, как Марин.
мне интересно, почему все сестры такие разные, несмотря на то, что они выросли в одной и той же среде
, моя сестра и Марин немного похожи, но если вы говорите, что они разные, значит, они разные.
ну, самое большое отличие - это нагиса.
она, кажется, осознает себя, и, возможно, ее подобрал под мостом только один из 5 человек.
все совсем не так.
интересно, почему все так по-другому?
я думаю, что между моей сестрой и мной большая разница, и, с вашей точки зрения, это правда.
когда ты впервые встретила меня, ты даже не знала, что ты моя сестра.
я думаю, что черты лица в какой-то степени похожи, но я думаю, что впечатление, о котором я говорил, в конце концов, другое
, если вы заметили, вы будете все время говорить о своих сестрах.
ты и двое из меня - единственные, кто здесь есть.
давай просто двигаться дальше.
смотри, вон там есть насыпь.
когда я отправляюсь на прогулку, я обычно заезжаю туда по дороге.
я слышала от своей сестры, что есть место, которое мне нравится, и, возможно, она даже показала мне его.
Каменистое местечко, как раз подходящее для того, чтобы ты мог присесть
, мне это место тоже нравится.
я хотел, чтобы другие места были особенными для меня.
это набережная.
это тоже действительно классное место.
пойдем.

Аноним 09/08/23 Срд 23:41:52 #411 №450068

>>450024
кек. мне выдает такую срань если переводит с проги. а ты как делаешь? через консоль?

[00:00:01.000 --> 00:00:03.000] ( Шум волн становится громче)
[00:00:03.000 --> 00:00:05.000] ( Шум волн становится громче)
[00:00:05.000 --> 00:00:07.000] ( Шум волн становится громче)
[00:00:07.000 --> 00:00:09.000] ( Шум волн становится громче)
[00:00:09.000 --> 00:00:11.000] ( Шум волн становится громче)
[00:00:11.000 --> 00:00:13.000] ( Шум волн становится громче)
[00:00:13.000 --> 00:00:15.000] ( Шум волн становится громче)
[00:00:15.000 --> 00:00:16.000] ( Шум волн становится громче)
[00:00:16.000 --> 00:00:18.000] Ты здесь.
[00:00:18.000 --> 00:00:20.000] ( Шум волн становится громче)
[00:00:20.000 --> 00:00:22.000] Я думаю, это время означает.....
[00:00:22.000 --> 00:00:24.000] Я думаю, это время означает.....
[00:00:24.000 --> 00:00:25.000] ( Шум волн становится громче)
[00:00:25.000 --> 00:00:29.000] Что ж, думаю, я тоже здесь.
[00:00:29.000 --> 00:00:30.000] ( Шум волн становится громче)
[00:00:30.000 --> 00:00:37.000] Но мне пришлось пройтись по магазинам, чтобы добраться сюда.
[00:00:37.000 --> 00:00:42.000] Но я встретил тебя здесь.
[00:00:42.000 --> 00:00:46.000] Я вернулся в нужное время.
[00:00:46.000 --> 00:00:47.000] ( Шум волн становится громче)
[00:00:47.000 --> 00:00:49.000] ( Шум волн становится громче)
[00:00:49.000 --> 00:00:57.000] Моя сестра, возможно, думает об одном и том же каждый раз, когда встречает тебя.
[00:00:57.000 --> 00:01:07.000] У нас разные характеры, но у нас есть кое-что общее.
[00:01:07.000 --> 00:01:13.000] Итак, ты собираешься прогуляться по дороге домой с работы, верно?
[00:01:13.000 --> 00:01:22.000] Раз уж мы встретились здесь, я пойду с тобой.
[00:01:22.000 --> 00:01:47.000] ( Шум волн становится громче)
[00:01:47.000 --> 00:01:52.000] В такие моменты удобно быть поближе к дому.
[00:01:52.000 --> 00:01:56.000] Это не проблема, если вы немного опоздаете.
[00:01:56.000 --> 00:02:03.000] Я должен поблагодарить своих родителей за то, что они стояли на берегу моря.
[00:02:03.000 --> 00:02:07.000] Давайте еще немного прогуляемся по пляжу.
[00:02:07.000 --> 00:02:14.000] Мне больше нравится, когда шум волн звучит отчетливее.
[00:02:14.000 --> 00:02:26.000] ( Шум волн становится громче)
[00:02:26.000 --> 00:02:31.000] Если ты подойдешь еще ближе, твои ноги промокнут.
[00:02:31.000 --> 00:02:44.000] Давайте отсюда медленно прогуляемся вдоль береговой линии.
[00:02:44.000 --> 00:02:53.000] ( Шум волн становится громче)
[00:02:53.000 --> 00:03:00.000] Я чувствую, что редко вижу тебя по вечерам.
[00:03:00.000 --> 00:03:07.000] Обычно это происходит после полудня в выходной день и после наступления темноты ночью.
[00:03:07.000 --> 00:03:12.000] Море в это время чудесное, не правда ли?
[00:03:12.000 --> 00:03:19.000] На закате немного светло, но вид прекрасный.
[00:03:19.000 --> 00:03:25.000] Но больше всего мне нравится ночное море.
[00:03:25.000 --> 00:03:33.000] Мне действительно нравится эта тихая и спокойная атмосфера.
[00:03:33.000 --> 00:03:38.000] Ты иногда гуляешь по ночам, не так ли?
[00:03:38.000 --> 00:03:43.000] Это могло бы быть идеально для возвращения домой с работы, но...
[00:03:43.000 --> 00:03:52.000] Я думаю, есть причина, по которой ночной воздух такой приятный.
[00:03:52.000 --> 00:03:55.000] Я такой же.
[00:03:55.000 --> 00:04:01.000] Я люблю прогуляться в свой выходной или погреться на солнышке.
[00:04:01.000 --> 00:04:08.000] Я думаю, что моя сестра и сестренки любят гулять по ночам.
[00:04:08.000 --> 00:04:15.000] Но мои родители не хотят, чтобы мои сестры гуляли допоздна.
[00:04:15.000 --> 00:04:21.000] Нагиса крадется из своей комнаты.
[00:04:21.000 --> 00:04:24.000] Она не бродит где попало.
[00:04:24.000 --> 00:04:27.000] Это все равно что прогуливаться по пляжу.
[00:04:27.000 --> 00:04:31.000] Я ничего не говорю своей сестре.
[00:04:31.000 --> 00:04:37.000] Наоборот, когда Кахо и Марин хотят прогуляться ночью,
[00:04:37.000 --> 00:04:47.000] Я поговорю со своей сестрой.
[00:04:47.000 --> 00:04:52.000] Думаю, когда-нибудь я попрошу тебя пойти со мной.
[00:04:52.000 --> 00:05:01.000] Я хотел бы встретиться с вами здесь вечером и остаться с вами до наступления темноты.
[00:05:01.000 --> 00:05:09.000] О, Марин не из тех девушек, которые могут так говорить.
[00:05:09.000 --> 00:05:17.000] Когда она просит меня пойти с ней, она не решается сказать это.
[00:05:17.000 --> 00:05:26.000] Когда она была моложе, она была честна, как морской пехотинец.
[00:05:26.000 --> 00:05:35.000] Я не знаю, почему у всех сестер разные характеры, хотя они выросли в одной среде.
[00:05:35.000 --> 00:05:44.000] Моя сестра и Марин в чем-то похожи, но в чем-то отличаются друг от друга.
[00:05:44.000 --> 00:05:50.000] Ну, а Нагиса совсем другой.
[00:05:50.000 --> 00:05:54.000] Похоже, она и сама это осознает.
[00:05:54.000 --> 00:06:00.000] Она сказала, что одну из пяти сестер, возможно, подобрали под мостом.
[00:06:00.000 --> 00:06:08.000] Это неправда.
[00:06:08.000 --> 00:06:14.000] Интересно, почему мы такие разные?
[00:06:14.000 --> 00:06:19.000] Я думаю, что между моей сестрой и мной есть большая разница.
[00:06:19.000 --> 00:06:24.000] Ты тоже так думаешь, верно?
[00:06:24.000 --> 00:06:31.000] Когда ты впервые встретил меня, ты не знал, что я твоя сестра.
[00:06:31.000 --> 00:06:41.000] Я думаю, мы немного похожи внешне, но я думаю, что у нас разные впечатления.
[00:06:41.000 --> 00:06:49.000] И тут я поняла, что говорю о своей сестре.
[00:06:49.000 --> 00:06:57.000] Ты и я - единственные, кто здесь есть.
[00:06:57.000 --> 00:07:03.000] Давайте двигаться дальше.
[00:07:03.000 --> 00:07:07.000] Смотри, вон там есть беседка.
[00:07:07.000 --> 00:07:14.000] Обычно я заезжаю туда по пути на прогулку.
[00:07:14.000 --> 00:07:19.000] Вы когда-нибудь слышали, что у вашей сестры есть любимое место?
[00:07:19.000 --> 00:07:23.000] Может быть, ее направили туда.
[00:07:23.000 --> 00:07:27.000] Это идеальное место, чтобы посидеть.
[00:07:27.000 --> 00:07:31.000] Мне тоже нравится это место.
[00:07:31.000 --> 00:07:37.000] Я хотел, чтобы у меня было особое место для себя.
[00:07:37.000 --> 00:07:41.000] Это беседка.
[00:07:41.000 --> 00:07:46.000] К тому же это очень тихое место.
[00:07:46.000 --> 00:07:51.000] Пойдем.
[00:07:53.000 --> 00:07:58.000] Я иду в беседку.

Аноним 10/08/23 Чтв 15:29:22 #412 №450613

1691670562143.jpg

>>450068
> а ты как делаешь? через консоль?
Soundworks. Там встроенный UI для Whisper. Потом загнал в Яндекс переводчик. По-моему у него есть и перевод файлов субтитров, но в данном случае я выводил в текстовый файл.

Аноним 10/08/23 Чтв 16:02:00 #413 №450635

>>450068
> выдает такую срань
В общем мне это кажется более связным, чем мой перевод через Яндекс. А что, смысл совсем неверный?

Аноним 10/08/23 Чтв 22:50:56 #414 №451076

Кто может, хелпаните. Юзаю Silero TTS, однако хочу поставить в него кастомную модель, как сделать модель, если у меня есть 2 5 файлов с вокалом в разрешении wav, есть ли какие то онлайн ресурсы или репозитории которые предоставляют код по созданию кастомной модели? Если это гемор, подскажите как реализовать TTS с кастомным голосом и как этот кастомный голос сделать, если на руках есть только 5 опенингов с убранной минусовкой

Аноним 10/08/23 Чтв 23:25:56 #415 №451159

>>451076
Так они же не раскрывали свой способ тренировки.

Аноним 11/08/23 Птн 01:33:10 #416 №451325

>>451159
В этом и проблема, но может просто кто то обратной ниженеркой открыл все тайны этого, может модели перерыл или ещё что то

Аноним 11/08/23 Птн 10:53:06 #417 №451608

Аноны пользовался кто https://github.com/coqui-ai/TTS ?

Нужен хотя бы нормальный английский ттс

Аноним 11/08/23 Птн 12:47:42 #418 №451735

1691747260550.mp4

>>451608
> Аноны пользовался кто https://github.com/coqui-ai/TTS ?
У них даже сэмплов нет.

> Нужен хотя бы нормальный английский ттс
Смотря что для тебя "нормальный". Есть Силеро (см. выше), у остальных бесплатных уровень примерно тот же, как я могу судить.
Для меня "нормальный" - это пикрелейтед. Такого на бесплатном сейчас не получить, и пока не предвидится.

Аноним 13/08/23 Вск 12:08:28 #419 №454200

>>451735
>У них даже сэмплов нет.
https://soundcloud.com/user-565970875/tracks

у тебя нормальный это для меня очень плохо

Аноним 13/08/23 Вск 14:40:09 #420 №454350

>>454200
Ну тогда для тебя TTS ещё не завезли. Coqui звучит намного хуже, а лучше чем пикрелейтед пока не сделали.

Аноним 13/08/23 Вск 15:03:16 #421 №454376

Как мне сделать голос своей вайфу и озвучить им все?
Обесните

Аноним 13/08/23 Вск 18:31:23 #422 №454614

>>454376
SO-VITS. Смотри инструкцию в этом и предыдущем тредах. В таком случае ты будешь переозвучивать материал, созданный другой моделью. Для создания своих моделей с нуля пока инструментов не завезли.
Если хочешь сделать это за деньги, то есть предложения от Яндекса и Сбера, но легче подождать, пока тренировка модели станет доступной.

Аноним 13/08/23 Вск 18:59:37 #423 №454633

>>454614
У меня амд 4гб, а в колабе я не понял как запустить

Аноним 13/08/23 Вск 20:46:11 #424 №454795

Вот эта штука конечно хороша, но я совсем не понимаю как подключиться к ее апи, чтобы сделать tts > vc. Нет на вкладке network запросов, на которые можно было бы завязаться.

Аноним 14/08/23 Пнд 12:50:33 #425 №455338

>>454795
хотя разобрался, правда без использования апи. Могу потом выложить инструкцию и код если кому нужно.
Делаю свой вариант типа ассистента Алисы, только с лламой и милым голосом.

Аноним 14/08/23 Пнд 14:20:21 #426 №455407

>>455338
>если кому нужно
Вкидывай всё что есть, в любом случае не помешает.

Аноним 14/08/23 Пнд 15:12:56 #427 №455441

so-vits на цпу работает, на amdgpu крашится
как пофиксить

Аноним 14/08/23 Пнд 15:14:29 #428 №455444

>>455338
> Делаю свой вариант типа ассистента Алисы, только с лламой и милым голосом.
Я уже сделал такое, только с GPT-4. Причём полиглот, будет говорить с тобой на том языке, на котором ты с ним.
Только с Алисой это сравнивать не надо, Алиса не просто на вопросы отвечает, она и ищет инфу и будильник настроить может, и ещё всякое, чего твоя программа не смогёт.

Аноним 14/08/23 Пнд 15:24:35 #429 №455455