24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео пер /tts/
Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Гайд: https://textbin.net/kfylbjdmz9
Если хотите с картинками то можно скачать ффмпег и через кансоль делать: ffmpeg -loop 1 -i imag.png -i ahegao.wav -c:v libx264 -t 30 -pix_fmt yuv420p -shortest ahegao.mp4
Надо заменит imag.png - на путь до файла, если там пробелы то надо в кавычки "" Также ahegao.wav - на путь до аудио. А ahegao.mp4 - это название видео
>>88418 Размер тензоров не совпадает, это скорее веса, тут просто так не пофиксить это. Это скорее всего веса, они получаются из тренировки. Или ты файлы перепутал.
>>88439 Есть только японские голоса из VN (( Видел онлайн сервис, ему примерно минута нужна. А сколько нужно этим моделям? Или ещё никто не добрался до тренировок?
>>88443 > Или ещё никто не добрался до тренировок? Не, анон, который мне показал tts, сказал что можно натренировать. Я лично нашел лишь то видео от китайца и его колаб. Сам ничего не тренировал.
>>88438 все так называемые нейросети работают по шаблону Input -> Model -> Output В этом случае Input - это текст, а аутпут аудио. Текст конвертируется в тензор(многомерный набор чисел с определённым размером, например, (256, 16, 2)) над этим вектором делают матиматическую магию и делают новый тензор, с новым размером который декодируется в аудио. И проблема в том что программа конвертится в твой текст в тензор, модель не может его использовать потому-что его размер не подходит для арефметических операций этой модели, потому что она по другому это делает. Это как мозги, у нас они могут по разному устроены и с разным количеством нейроннов, но делать одно и тоже.
>>88448 Хммм. Оригинальный датасет весит 11 гиг, и это на 110 English speakers. То есть на одного нужно примерно 100 метров голоса, 400 фраз. Мда, из фильмов такое не наколупать.
>>88658 >Там же наверняка всякая музыка и прочие вспуки на фоне будут. Во-первых, есть вырыватели голоса. Во-вторых, можно тупо взять какие-нибудь порнорассказы начитанные томными женскими голосами. Там обычно фона нет.
Что-то не догоняю в тред. Куда что жать, чтобы накачать аудиокниг на русском языке женских, которые начитали всякое фэнтези женское про ведьм. И потом эти аудиокниги скормить и на выходе получить русский ттс, который озвучит мне все что угодно?
>>88879 Пока не знаем. Кстати, вспомнил, что проект "Песнь Сайи" как-то озвучивали на русском. Итого есть к примеру целых 50 мегабайт озвучки самой Сайи и чуть больше 200 метров всей озвучки на русском. Если кто будет трейнить, можно будет выдрать и сами тесты, если это нужно.
>>88943 Тексты надо из скриптов выковыривать. Звук же могу хоть сейчас залить, хотя я просто распаковал файлы для андроид версии и прошёл по пути main.10105.ru.anso.saya\assets\x-game\x-voice\x-Persons_rus
>>88943 Короче декомпилировал скрипт игры, там в формате типа > voice "voice/Persons_rus/Saya/04.ogg" > s "Я работала в гостиной, покраска наполовину завершена. И теперь я готовлю тебе ужин, как показывают по телевизору." > voice "voice/Persons_rus/Fuminori/40.ogg" > f "Здорово." Надо такое, или мне привести в более божеский вид? А то я немного приболевший сейчас, программировать неохото.
>>89021 Да, из игры. Куда заливать? >>89040 Я мечтаю о таком, лол. И с русским чтобы было. Конечно задача на порядок сложнее, но не думаю что прям вообще невозможно.
>>89023 Можешь полностью озвучить свой мультик одним ттс, или прикрутить в игре ттс, к чатжпт персонажам, в итоге нпс будут как люди генерировать фразы, ещё и озвучивать. Можешь вести свой ютуб канал на любом языке, давая озвучку ттс. Ну и ещё миллион вариаций.
>>89902 Вот эта штука вообще ништяк, но увы только для англо-говорящих. Русский там звучит как чухонец какой-то. Надеюсь, в будущем кто-нибудь запилит русскую версию, да чтоб с национальными акцентами. Идеально и для озвучки игр, и для аудиокниг, и для анимации. Можно и песенки позаписывать типа вокалоидов. Знай себе играй с ползунками, проставляя ударения и тональность.
>>91360 Этот гайд я писал и его прошли только пару человек, поэтому это ожидаемо что могут быть какие-то траблы. Если у тебя есть какая-то конкретная проблема, то можещь написать в чём именно. И не забудь прикрепить скрин последних логов для из повершелл.
Traceback (most recent call last): File "E:\TTS\anon_eblan\lib\site-packages\gradio\routes.py", line 337, in run_predict output = await app.get_blocks().process_api( File "E:\TTS\anon_eblan\lib\site-packages\gradio\blocks.py", line 1018, in process_api data = self.postprocess_data(fn_index, result["prediction"], state) File "E:\TTS\anon_eblan\lib\site-packages\gradio\blocks.py", line 956, in postprocess_data prediction_value = block.postprocess(prediction_value) File "E:\TTS\VITS-Umamusume-voice-synthesizer\app.py", line 36, in audio_postprocess suffix=".wav", dir=self.temp_dir, delete=False AttributeError: 'Audio' object has no attribute 'temp_dir'
>>92502 >>92520 Никто не спорит, что там норм качество, но: 1) Модель для английского языка. 2) Платная хуита. 3) Моджель для английского языка. Нужна TTS уровня Виспера и Стабл Дифьюжена, чтоб можно было голос клонить на компе у себя/в калабе. А фочаньки тупые могут на свою хуиту сколько угодно дрочить, для наших целей это хуетой быть не перестает.
>>92533 Для таких целей архитектура должна быть заточена под zero/few shot learning, как SD. Не читал про архитектуру tts-моделей, но там точно есть VAE.
Про xVAsynth уже писали? Дружелюбный интерфейс, куча уже готовых голосов + очень легко нагенерить свои, можно буквально 1 ссылкой из ютуба и десятком кликов запустить процесс. Но если заморочиться, то и результат будет лучше.
Парни, помогите сгенерировать голос. есть 7166 звуковых файлов опредеоённого голоса, от 1 секунды до 1 минуты каждый. В названии файлов текст произносимый персонажом. Куда их закинуть чтобы кнопка была "сделать всё пиздато"? Chatgpt не предлагать
>>96927 Ну я щс в этом капаюсь, но у меня трабля с библиотеками, потому что они расчитанны на убунту. Я щс учу докер, к своему стыду я им не пользовался. Если не получится то тогда просто скачаю ОС.
Ну все, пиздец. Вчера переписывал на свой лад для ВН-ки- речь Профессора Озпина, а теперь спустя день уже озвучил... Напомните, а Ритан сколько сотен тысяч на озвучку ЛМР, с блэкджеком и борщом собирал, но не дособирал?
>>97322 ЯННП, ну да ладно. Если что я за попенсорс модели, которые можно скачать да запустить у себя на ПК. Если у тебя такая, делись. Если это всё тот же сайт, то нах не нужно, ибо лимиты/цены/правила/пидорнут за просто так.
>>97335 Так хер забей и не трясись, сделают для вас однокнопочный веб гуй, как для чатбота/риффстейшона/СД и прочего прочего. Это я к чему-технология не нова и в нете все уже есть, еще месяца 4 первый серъезный взбугурт на эту тему был у озвучкобак. А дрочишь ты на сырой кусок мяса а не на лолю.
>>97352 Да я бы и с консолью попердолился, пердоля из меня ещё та. >>97352 >А дрочишь ты на сырой кусок мяса а не на лолю. Само собой, товарищ майор. На лоль я не дрочу.
>>97388 Не, товарищ смотрящий, она всегда девушкой представлялась. правда я всё равно зашкварен, ибо она сосала, и я с ней сосался, всё, потрогал член губой и иду под шконку. А вообще пора заканчивать обсуждать игру и начать тренить TTS
А нет такой, чтоб из моего голоса делала другой голос? Все эти штуки, по типу голосов варкрафта из телеги максимум на мемы годятся, для чего-то серьёзного нифига.
Кто-то уже тестил нейронки на предмет получения монетизации Ютуба? А то с инглишем в плане понимания у меня все хорошо, а вот с произношением довольно плохо. А нейронки вроде как выход
>>134424 >Есть одна проблема - ютуб режет монетизацию аи-контента
А как он отличит качественный AI от живой речи? Понятное дело, что хуевые говорилки банят, а тут уже нейронка, которая реально паузы ставит, интонации меняет и вообще очень круто звучит. Мне кажется намного лучше, чем когда я со своим акцентом записываю звук на английском
>>136907 Короче там всё просто, весь нужный код в репозитории. https://voca.ro/18R9Y2GWUmEK Весь код на скрине, нужно поставить торч, эту хуиту пипом и запускать.
>>137703 >v6 запустить Если ты посмотришь внимательно, то v6 это STT модели (и они не выложили русскую). >>137703 >Ну или хотя бы v2 а то там голоса наташек Там вроде все в одну модель упакованы, выбирай + рандомные голоса, можешь роллить свою вайфу. >>137121 Кстати, на проце модель работает в 2 раза быстрее. Так что куду подключать нет смысла.
>>137736 >Там вроде все в одну модель упакованы, выбирай + рандомные голоса, можешь роллить свою вайфу. В v3 только aidar, baya, kseniya, xenia, eugene, random Я хотел v2_natasha.pt заценить, а оно выдает TypeError: TTSModelAcc_v2.save_wav() got an unexpected keyword argument 'text'
>>137941 Нахуя тебе старая модель? Она же заикается, весит больше, срёт под себя и вообще. Но вот, без проблем. Лайфхак- открыть .pt файл архиватором, зайти и найти там файл типа mono_acc_v2_package.py. Там все определения функций. Думаю дальше ты поймёшь, раз дошёл до шага с ошибкой. https://voca.ro/1dPkmaIPG0Ac
>>138051 Ну да, модели, как и куча другого дерьма сейчас, это переименованные zip архивы. Они везде просто, пиздец какой-то. >>138075 >Мне хочется теперь имитировать войс по входному примеру А, ну за этим нужны другие инструменты. Тебе побаловаться или как?
>>138101 > А, ну за этим нужны другие инструменты. Тебе побаловаться или как?
Скорее всего, использовать на постоянке в одном проекте. Качество не обязательно хорошее должно быть, главное, чтобы результат можно было понять и было хоть как-то похоже на имитируемый голос.
Только вкатываюсь в ТТС, шапка актуальна? Что сейчас самое топовое чтобы макисмально быстро генерить голоса? У меня хорошая видюха, я могу это делать локально? Хочу попробовать подключить голос к character.ai или TavernAI
Еще потыкал китайскую модель VITS-Umamusume-voice-synthesizer и охуеть. Почему еще нет гайда как они это сделали? Она почти идеальна и там хуева куча голосов с разными интонациями и эмоциями.
>>147508 Они релизили готовую. Обучать то можно, это простой чекпоинт. Вопрос чем, ведь каждая модель - это практически доведенный до идеала голос. Тут разве что другим языкам обучать вопрос стоит, но для этого желательно иметь первоисточник голоса чтобы не извращаться с промтами на произношение.
>>147556 >2018 Хуя старьё, ещё до Whisper. Просто я думал, что дообучить готовую модель на нужный голос проще, чем с нуля пердолится. С картинками и текстом оно работает именно так. >>147523 >Обучать то можно, это простой чекпоинт. А где можно почитать про обучение простых чекпоинтов? Для чайников.
А что есть по части офлайновых переводчиков текста с русского на английский и vice versa? Или там только уровень промпта и лучше к апи DeepL подсасываться?
Посмотрел этот видос и захотел что-то подобное сделать. https://youtu.be/UY7sRB60wZ4 Но он пока ничего из исходников не выложил.
>там омериканское Вы ебанутые? Нахуя вам разные треды на разные языки? Я думал тут просто виабушники даже не гуглили англоязычные/русскоязычный, а вы просто ебнутые.
Так-с, а где собсна учить модели новым голосам и всему такому? Какой длинны должна быть дорожка для должного обучения и хуле в шапке какая-то хуйня, а не полезные ссылки? Нахуй мне ваша геншино-параша?
>>88212 (OP) audio-books su/reads/page/3/ Аноны, ищу аудиокниги, желатально английские с приятными голосами, или сайты, где можно смотреть английских дикторов. Выше скинул пример сайта.
>>157670 Это не обязательное действие. Шинда нормально работает и с анальной пробкой. А теперь скажи, как отключить телеметрию в бубунте с хромом на борту.
>>157867 >Или firefox? This. Хоть и под шиндой. Впрочем, и там анальных пробок достаточно. >>157875 Ага. И либы. И вычистить весь код. А так я и ядро шинды собрать могу ХРшное, но радости мне это не прибавит.
Аноны, как я понял из постов и истории гугла, раньше у silero была в открытом доступе модель для копирования образцов голоса, но из за РАБОТНИКОВ СБЕРБАНКА они эту фичу быстро скрыли от общественности. Теперь у них там только "random" который выдает полное говно, нагенерировал штук 500 голосов и все очень плохого качества.
Ну и как быть? Какие ещё есть варианты для копирования голоса на русском? Сразу говорю мне не для сугубо личных целей. Есть одна тян актриса озвучания, которая мне давно нравится, сэмплы её голоса и аудиокниги я давно собираю. Хочу этот голос в свое полное распоряжение.
И второй вопрос. Как в голосовую модель добавить интонацию? Может кто знает какие приемы для этого? По умолчанию есть вопросительная и восклицательная которые нейросеть сама делает исходя из промпта, но может как-то ещё это можно контролировать? Слишком сухая речь получается. Не обязательно в silero а вдруг есть ещё какая-то неизвестная мне модель могущая в русскую речь.
× Getting requirements to build wheel did not run successfully. │ exit code: 1 ╰─> [28 lines of output] setup.py:26: DeprecationWarning: distutils Version classes are deprecated. Use packaging.version instead. _CYTHON_INSTALLED = ver >= LooseVersion(min_cython_ver) Traceback (most recent call last): File "C:\Python310\lib\runpy.py", line 196, in _run_module_as_main return _run_code(code, main_globals, None, File "C:\Python310\lib\runpy.py", line 86, in _run_code exec(code, run_globals) File "C:\anon_eblan\Scripts\cmake.exe\__main__.py", line 4, in <module> ModuleNotFoundError: No module named 'cmake' Traceback (most recent call last): File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module> main() File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main json_out['return_val'] = hook(hook_input['kwargs']) File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 118, in get_requires_for_build_wheel return hook(config_settings) File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 162, in get_requires_for_build_wheel return self._get_build_requires( File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 143, in _get_build_requires self.run_setup() File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 267, in run_setup super(_BuildMetaLegacyBackend, File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 158, in run_setup exec(compile(code, __file__, 'exec'), locals()) File "setup.py", line 154, in <module> File "C:\Python310\lib\subprocess.py", line 456, in check_returncode raise CalledProcessError(self.returncode, self.args, self.stdout, subprocess.CalledProcessError: Command '['cmake', '..', '-DHTS_ENGINE_INCLUDE_DIR=.', '-DHTS_ENGINE_LIB=dummy']' returned non-zero exit status 1. [end of output]
note: This error originates from a subprocess, and is likely not a problem with pip. error: subprocess-exited-with-error
× Getting requirements to build wheel did not run successfully. │ exit code: 1 ╰─> See above for output.
note: This error originates from a subprocess, and is likely not a problem with pip.
>>200850 > >subprocess.CalledProcessError: Command '['cmake > А чому смейк? Понятия не имею, в питоне не разбираюсь. Это же он эту функцию вызвал, а не я. > И вообще билд тулы установлены? Какие? спасибо, что написал
ЗАЛЕТАЮ С ДВУХ НОГ С САМЫМ ГЕНИАЛЬНЫМ ВОПРОСОМ ITT!!! Есть ли рабочий способ озвучивать текст с генеративных нейронок, вроде https://github.com/oobabooga/text-generation-webui не копируя его вручную в интерфейс озвучки? Конкретно к этой оболочке прикручена богомерзкая silero, но она нихуя не работает с русским. Может есть какие-то другие движки, которые могут в русский? Меня бы даже качество https://beta.elevenlabs.io вполне устроило.
>>201377 >небось пару строчек дописать нужно Ахуенный совет. Ты бы ещё погуглить предложил.
Список спикеров есть только в питоновском файле и даже если я его отредактирую, мне придётся пересобирать колаб, чтобы это запустить. хотя вряд ли это вообще поможет Локальная же версия ВебГУИ в принципе не может в русский из за всратой ошибки, которую никто не хочет править, так что даже смысла с ней возиться нет. Задача по разгребанию всего этого полурабочего говна по красноглазию может посоперничать с написанием своего движка с нуля.
Поэтому я и спросил ЕСТЬ ЛИ РАБОЧЕЕ РЕШЕНИЕ?! и похоже что нет
>>201418 >А в гайде ОПа вообще ни слова об этом. Он вообще на минималках был написан. Кстати, я тут заметил строчки >>200659 > _CYTHON_INSTALLED = ver >= LooseVersion(min_cython_ver) Какие у тебя версии софта? И откуда pyopenjtalk ставишь? >>201456 >мне придётся пересобирать колаб Ну так сделой. >Локальная же версия ВебГУИ в принципе не может в русский из за всратой ошибки, которую никто не хочет править Чел, ты же понимаешь, что колаб это такой же компьютер, просто в облаке гугла? Всё, что работает там, можно запустить локально (если ресурсов хватает). >Поэтому я и спросил ЕСТЬ ЛИ РАБОЧЕЕ РЕШЕНИЕ?! Готового нету. И впиливание другого TTS движка 100% будет сложнее, чем перенастройка сирено на русский.
>>201503 >Какие у тебя версии софта? И откуда pyopenjtalk ставишь? Python 3.10.7 Cython version 0.29.34 pyopenjtalk ставлю командой pip install pyopenjtalk.
>>201503 >Всё, что работает там, можно запустить локально Да и именно поэтому буквально НИКТО как минимум на этой борде не смог запустить модуль гуглпереводчика локально. Если ты такой сверхмозг, сделай это, напиши как у тебя это вышло и тебе весь Ламатред спасибо скажет.
>Ну так сделой. Когда тебя о чём-то спрашивают о решении какой-то проблемы, ты всегда сначала говоришь что это хуйня, а потом советуешь спросившему разобраться самостоятельно? Охуенно ценный совет, что бы я блядь, без тебя делал.
>>88212 (OP) Анонсы, помогите! Перечитываю тред, но всё меньше понимаю смысл, и всё больше не понимаю, что в моем случае норм бы сработало. Моя задача - озвучивать большие объемы текста нормальной английской речью. если там можно будет свой голос загрузить, то это плюс, но опционально Что для этого использовать? На онлайн ресурсах для озвучки всегда количественные ограничения, есть какие-то непонятные японские вайфо-дрочилки с японским акцентом, мне наверное такое не подойдет. Остается скачивать питон и загружать на него какое-то ТТС дополнение от ОПа или что-то другое? Или как
>>201633 >локально. Если ты такой сверхмозг, сделай это, напиши как у тебя это вышло и тебе весь Ламатред спасибо скажет. Я это сделал. Могу даже пруфы предоставить, только я разочарован тупой ламой и больше не пользуюсь. Рассказывать пидорашкам из того треда как сделать не буду, так как они отказались по многочисленным просьбам анонов поднять ламу на коллабе, поэтому идут нахуй.
Пусть сидят квантуют и тупые вопросы задают не менее тупой модели. Хотели пердолиться каждый отдельно - пердольтесь.
Хай, гайс. Хочу вкатиться в ттс, с чего начать, что юзает местный анон? Полистал по треду вроде самая норм херня это платная штука: https://beta.elevenlabs.io/speech-synthesis Есть ещё что-нибудь на англе?
>>202253 ТТС ещё пойди найди. Пока только смог скачать голос от IVONA, но он звучит как мультики с двача. Самый приятный пока голос - это xenia, но им на колабе только короткие фрагменты можно озвучить, а если хочешь с SSML, то вообще не больше 1000 символов.
В общем, ситуация в отрасли озвучки самая днищенская, как я вижу. Картинки генерить - бесплатные модели валяются везде на выбор по тематике. Текст генерить - ОпенАИ хоть и не раздает, но доступ на сайте есть. Да и открытые модели в сети какие-то тоже. Видимо звук не так востребован, что ли
>>202905 >Хочу вкатиться в ттс, с чего начать, что юзает местный анон? MoeTTS для япа с инглишом и силеро для русича. >>202925 Я не в колабе если что, всё локально. Что же касается ограничений, кажется, у колаба проблемы с отдачей файлов больше х мегабайт. Можно попробовать сохранять сразу на свой диск.
>>203109 О! А я могу её подключить в Speech2Go так же как и IVONA? Или это другая технология. Я не шарю, но мне интересно сделать так, чтобы я мог озвучивать текст хоть локально, хоть в колабе, не важно. Не для комерческого применения.
Почитал гайды, ниче не пони. Мне надо ставить себе питон и на нем писать код? Я не люблю питон, я гошник. Можно мне что-то на го или без танцев с кодом? Ну или просто ткните пальцем в мануал
>>88212 (OP) > VITS-Umamusume-voice-synthesizer, она только на японском говорит, Есть какие-то гайды, как генерить годноту? У меня не получается сделать экспрессию нужного уровня.
>>202936 > Видимо звук не так востребован, что ли Самый последний Ксеон стоимостью 10 штук за процессор, лепит звук на скорости около 15 секунд в секунду. То есть это дорогое удовольствие. Текст генерировать дешевле. Поэтому бесплатных хороших моделей пока и не найти. Платных - выбор голосов зашкаливает.
>>212584 >Текст генерировать дешевле. Хороший текст можно делать только на небольшом кластере видях стоимостью в 10 этих ваших платиновых зивонов, так что нифига не дешевле.
>>213199 >Там одна A6000 справится. Не справится. 175B параметров требуют больше 200 гиг врама. >>213199 >иначе триала на OpenAI не было бы. Они на подсосе у майкрософта, на них бабки льются рекой. Они будут захватывать рынок любой ценой, даже работая в глубокий минус.
Silero TTS можно вообще подтянуть на чтение английских букв и цифр в ру модели 3_1 которая? Я нормализацию цифр и чтение транслита имею ввиду У меня она просто скипает числа записанные как 1, 2, 3, и любые слова на английском языке, хотя я видел в интернете пару человек у кого это нормально работало.
Мне бы кряк или лучше пожизненную учётку на voxbox, там тысячи голосов персонажей из мультиков и не только... Не пиар, я же кряк прошу лол. Может где можно купить сворованную у хакиров?
>>213252 Чет не похоже, что любой ценой, после того, насколько они закрутили цензуру. Раньше GPT была развратной, как мокрощелка, потом её уже надо было разводить на интим, но это было интересно, а вчера она вообще давать перестала, разве что не говорит, что потратила на меня лучшие годы. Уже подумываю уйти от неё к RuBERT.
>>221592 Я сам этого не делал, но видел в мануале у Demagog. Там есть экспериментальная версия со скриптом для Silero и у неё в ридми всё написано. Гугли
>>88212 (OP) Гайс, а есть какие-то варики ускорить тортойс? ахуенно работает, ахуенно мимикрирует голоса но я так понял, что он в отличии от других нейронок не создает модель голоса, а всегда заново анализирует, и дает результат
Поём как АИ. Тема любопытная, тред решил сделать, чтобы оставить на АИ-борде отпечаток истории развития АИ.
Наткнулся тут на АИ-каверы. Реддиторы с сабреlдита r/Yedits/ обучают АИ петь как медийныt личностb, в основном там правда рэперы, но тут уж кто на что горазд. На трубе множество АИ-каверов на Канье Уэста. Любопытно можно "фитануть" со звездой не снимая свитера, ну либо самому спеть как Эминем или там Рианна.
>>233508 Смысла нет, но на доске с 10 тредами можно донести свою руку до контрол це и своими мокрыми дрожащими рученками скинуть шапку закрытого треда в целевой тред, нет?
>>234282 ну а как поет рианна можешь найти сам, я думаю. нейронка очень точно и тонко передала ее хриплость голоса на высоких и обрывы слогов, я был приятно удивлен
>>234289 >>234296 Да, результат неплохой. Но это как я понимаю голос-ту-голос? Хотелось бы больше экспериментов, например, с русским, или попробовать натянуть голос англичанки на русский текст.
>>234336 да, все так, нейронка из одного голоса делает другой я пробовал натягивать голос англосаксов на русских, звучит не очень, но лишь по той причине, что ты знаешь как звучит англосакс на своем языке и мозг просто ломается а так, нейронке похуй, на каком языке делать переозвучку сейчас треню русский голос, думаю, после 21 по мск смогу уже что-то скинуть сюда
>>234375 >я пробовал натягивать голос англосаксов на русских, звучит не очень, но лишь по той причине, что ты знаешь как звучит англосакс на своем языке и мозг просто ломается Нет, дело в том что в английской речи отсутствуют звуки, поэтому появляется естественный акцент, ведь суть акцента в том что человек чей язык приучен к выдаче определенных звуков пытается своими звуками имитировать иностранные звуки, в его речи отсутствующие. Соответственно, лучший вариант для обучения использовать русских.
>>234671 В каком каллабе обучение запустил? У меня почему то не запускалось в том что по ссылкам. Мой совет - делай датасет не по вырванным из песен кускам, найди чистый голос. Это ускорит обучение и качество улучшит.
>>234671 А это не фейк? Они и так фитились же. Ты давай что-нибудь очевидно говнарское типа ДДТ в исполнении моргенштерна или Летова, что он точно бы в жизни петь не стал.
>>234986 Большой датасет требуется? Вопрос именно в этом. Тип есть голос тян, которая просто говорит что-то. Сколько нужно минут её голоса, чтобы можно было её голос натягивать на свой или любой другой не песня.
>>234997 Очевидно, чем больше тем лучше, плюс тебе надо его почистить будет, и тогда твоя мамка наконец сможет говорить "сынок, давай я пососу твой хуец, всегда об этом мечтала". Но думаю тут истина такая же как с любыми нейросвапами. Лору, допустим, можно тренировать на 1 фото, если мозг в черепе имеется тупо делаешь качественные фейссвапы. Здесь таким же методом можно получить хоть из одной минуты звука, но это конечно повлияет на результат. То есть, ты делаешь на своем материале, подбираешь для замены похожее что то, делаешь свап - добавляешь результат к своему датасету - делаешь еще. Но скорее всего такой мороки не нужно.
>>234897 да, скорее всего придется вырезать голос из кусков интервью и блогов, с песен не очень получилось
делаю на своей пеке, в коллабе не пробовал
>>234978 можно самому что угодно наговорить и наложить голос, даже можно в лайве накладывать
>>234981 всм фейк, не понял тебя это я из голоса инстасамки сделал голос моргена, там, где вышло хуево на бэк подкинул оригинал голос инстасамки, чтобы норм звучало
>>234997 дело в качестве исходников, а не в количестве можно натренить на 50 файлах и будет заебись, можно закинуть 500 хуевых, и на выходе будет говно
>>235718 Да этих знаю. Можно чтобы лещенко спел с инстасамкой?
>>235567 Я бы рад. Там же на калабе сменили версию питона. Но после трех часов ебли и тупизны, даже я старый 57 летний дед смог. Правда я не понял один момент. Там типа у команды авторов этой хуйни этой есть собственная претрейнед модель? Она претренирована на английский? Или на неё вообще можно хуй забить? Или это как в стабле базовая модель - типа она нужна для лучшего качества?
>>235359 Где нормальность? Голоса моргенчлена даже близко нет. Ты хоть с параметрами играйся иногда. Ну и своим протыкласникам включай на оценку раз сам не понимаешь. >>235480 Тут чуть лучше, но то ли ты модель хуево надрочил, то ли акапеллы с коричневыми нотами вычленяешь. Либо что более вероятно и то и другое.
А посоветуйте прогу или сайт, чтоб убирать лишние звуки задние и оставлять только голоса, даже не из песен, а из шоу мне надо реплики. (Это не подходящий тред для такого вопроса, но мало ли, в s точно не ответят.)
>>236062 Ну слушай, не идеально разумеется, но и другие модели тоже не супер, это всё же "пионерское" поколение, а у тебя для первого раза как миумум узнаётся уже, чтоу же хорошо.
Алсо список моделей прилично пополнился в гугл-доке.
>>236131 Если вдруг ты еще не делаешь этого, первый шаг это вырезать фронтальный канал из многоканального аудио, именно в нем обычно голос и минимум посторонних звуков.
>>237356 Пока не знаю у меня уже полтора часа сопли жует. Вообще из-за обновления питона на калабе почти все дневники упали. Но я сделал бочку и украл ячейки. Но хз хватит ли времени на тренировку.
>>88212 (OP) Эй, моргенпорридж. Вопрос для знатаков - он будет бесконечно дрочить поколения, пока я не остановлю? А то уже 3 часа, меня в сон клонит, сердце уже болит от волнения за Лёву.
>>228388 Версия 4.1 часто отдаёт мусор вместо голосов, в 4.2 вроде пофиксили это. Генерация текста больше 2к символов тоже починили в 4.2 >>228391 > А она не включает платные функции питч и тп? Впринципе можно и без них лол. Эти функции работают только с "Real People" голосами. Похоже остальные голоса генерятся онлайн
>>237389 >>237644 Короче это хуйня не для колаба, одна генерация - 1 час. То есть, 3 генерации в сутки и сосо. Плюс там сцена расползлась на тыщу форков с миллионом дохлых блокнотов которые никто не чинит, потому что эта тема по какой-то причине интересна только китайцам, которые дрочат на маняме. Так что 80% вопросов там решается на китайском.
>>242163 Неплохо! Спасибо! А возможно поделиться моделью моргена, а то боюсь я даже до 50к не обучу, колаб уже коленца выкидывает, а видюха - кал. Не смогу локально(
>>243703 Что-то у них даже в тестовых аудио бывают левые шумы. >Bark has the capability to fully clone voices - including tone, pitch, emotion and prosody. The model also attempts to preserve music, ambient noise, etc. from input audio. However, to mitigate misuse of this technology, we limit the audio history prompts to a limited set of Suno-provided, fully synthetic options to choose from for each language. Specify following the pattern: {lang_code}_speaker_{number}.
>>244389 Вот с такими жадными пидорахозумерами и приходится сидеть в тредах. Как спиздить что у комьюнити - то эт всегда пожалуйста, как поделиться чем - то - АРРРРЯ МАЁ!!!!1
>>244150 Ну, тебе придётся детектить числа и оборачивать их в SSML тэги. Это элементарно. Ну а насчет английских слов... Тут поинтереснее. Лучше, наверное, модельку найти, которая может в элементарную транскрипцию, чтобы самому временный огород не городить.
>>252727 Ну Семён Семёныч, а ну ка заканчивайте с самоподдувом. Неровен час и снесу к хуям твой канал с пацанской музыкой про тазы по АП. В соседних тредах и без тебя хватает аватарочных вниманиеблядей. Хочешь поделиться - ебашь шебм
У него нет "модели моргена". Он не генерирует его голосом, а меняет существующий. Ну а модель для VITS с его голосом даже проскакивала где-то, ну и свою создать - 15 минут.
>>253432 Спасибо за тупоебские замечания, но я уже сам генерировал и получше тебя (судя по твоему пуку) понимаю о чем речь. Мне интересен его ответ.
>>253432 >Он не генерирует его голосом, А мы и не говорим про генерацию, тупое животное, сюда витс перенеслир просто потому что модеру похуй ттс это или войсвап. И да, чмоня, на войсвап точно так же ТРЕНИРУЕТСЯ МОДЕЛЬ ЫЫЫЫЫЫ даунидзе блядь, поэтому у него есть моджель моргена, так же как у меня есть модель лещенко для войссвапа.
>>254041 изначально то песня русская, язык тут вообще не при чем. пока что не вижу продажу модели разумным шагом, все еще очень сырое и работает хуй пойми как. условно, конечно, могу ее толкнуть, но 8 треков из 10 она не вывезет, а пиздюлей потом я получу, т.к. продал хуйню и это касается всех моделей на данный момент я на данный момент натренил двух моргенов, один умеет только петь, а второй только говорить, разговорного могу скинуть, мне не жалко, но там всего 1к шагов
>>254084 Мне морген не нужен, мне нужна цена твоей тренировки модели на моем чистом материале. Допустим все ттх такие же как ты указал у моргена, выше.
>>254109 >если делать модель на 100к, которой я делаю все треки сейчас, то я бы взялся от десяти к деревянных, там работы на 2-3 суток Тебе для этого надо не в России жить. 2-3к топ. Поэтому я и спросил про наносековость. Обычный россиянин 30-40к получает в месяц, на несезонной работе. Ты сказал у тебя на обучение ушло 19 часов. Но я не оспариваю твою цену. Просто озвучил мнение. Ты у себя контакты на ютубе оставь, на фейкопочту. Не разговаривай ни с кем, кто не дост задаток 1к сразу, чисто для начала разговора. Если не хочешь с троллями общаться.
>>254274 >>254277 мы оба прекрасно понимаем, как легко и быстро можно монетизировать модель, поэтому цену в 2-3к вижу ну уж совсем неразумной какая разница где жить и работать, если мы в инторнетах с тобой сидим мой рабочий день стоит от 5к, с учетом того, что пека будет занята фармом модельки, я не смогу нормально выполнять свою основную работу, поэтому цена такая
>>254308 >мой рабочий день стоит от 5к, с учетом того, что пека будет занята фармом модельки, я не смогу нормально выполнять свою основную работу, поэтому цена такая Ну вот это другой разговор. У меня просто точно такая же ситуация. Поэтому мне нужен ничем не занятый малолетний игрогений, которому видяху на др подарили, взяв кредит под залог мамкиных яичников.
>>258393 В ответ на высказанную реплику я могу сказать, что не согласен с таким подходом к решению проблем. Решение проблем требует ответственности и серьезного подхода, а просто закидывать все в одну кучу и надеяться на лучшее - это неэффективно. Я готов помочь вам с конкретными вопросами или проблемами, но для этого необходимо четко определить их и найти рациональные решения.
>>88212 (OP) Нужно программой озвучить книги и другие тексты, с ударениями, может даже эмоциями, хз до чего уже прогресс дошёл. Тренировать свои собственные голоса (пока?) не хочу. Дайте ссылку на готовое оффлайн решение.
>>260254 Скинешь суп с флажком в жопе, дам ссылку на годный 100% рабочий коллаб, куча моделей на русском, казахстанском и американском языках, настраивается с пол пинка
>>272530 >долго День в коллабе. на том видосе около 10к эпох. Дотренил до 50к эпох - результат не сильно лучше. Мб из-за того, что датасет тупо только из видоса со всеми фразами из постала, а он там говорит в основном в одной тональности с одной интонацией.
>>277462 Извините, я знаю, что дегенерат, но все же наставьте на путь истинный, где все же в дальнейшем можно применить модель созданную в данном колабе?
>>278075 Схуяли только про песенки? Если школьники суют только моргенштернов - это не значит что этим применение ограничивается. Однако, это voice to voice, а не text to voice. Ты всё ещё можешь сгенерировать текст голосом робота из переводчика, а затем наложить на него нормальной голос, если найдёшь.
>>278250 >С того что только на фоне песенок гличи не слышно От части да, но >Он норм ложится только на монотонный голос Он норм ложиться на похожий голос и манеру речи. Если в твоём датасете диктор ёпта только монотонно и говорит, то ясен хуй на генерации криков будут клитчи. Как тут. Идеально модель можно, пока, получить только записывая голос специально для этой цели.
>>278385 >ты получишь хуйню Это если тренировать 5 минут. Если заебаться и потренить пару дней - всё будет ок. Я бы пруфанул, если бы у меня был голос поставлен и я не запинался бы в слове из четырёх букв. А так просто иди нахуй.
>>278399 Ну ты же пиздабол просто. Причем твой ссаный голос. Датасет откуда угодно можешь вырвать, так же как и целевой материал. Можешь хоть 100 дней тренировать, от этого принцип наложения не изменится.
>>278575 >Это че он за говно тогда, когда даже древний пониебский проект нормально голосами поней говорил. Там голоса не естественные, кучи частот нет, не тупи. Плюс не путая локовость рук и реальную выдачу.
Можно ли как-то подогнать существующие образцы голоса под всякие эротические звуки, стоны и т.п.? Или хотя бы посоветуйте нейросетку стонов, буду наиболее похожее искать.
>>310850 в сторону silero models посмотри, вроде лайтовая и шустрая штука, правда я stt в ней не тестил, меня интересовала больше задача озвучивать текст (правда для озвучки она ударения плохо оч ставит, приходится сразу гонять скрипт ударений, а потом озвучивать)
>>267630 вот нафига? Барк и так на 4 гб работает спокойно, или вообще на расбериПай надо запускать? (та и вопрос скорости открытым остается, барк не сказать что быстрый, а больше всего раздражает ограничение по времени, в один присест до 38 "токенов", или че там оно в консоли считает - примерно 13 секунд, дальше тупо рубит
>>255098 модели общие, для спикеров только настройки, а чтоб запускать на 8 и меньше гигах надо включить "маленькие модели" тогда и докачивает в пару раз меньше, и в 4 Гб влазит вроде
>>310850 Вишпер. >>311301 >silero models Там русека для STT нет. >>311688 Само собой это шиза. Но лично я копаться в коде не хочу. >>311709 Ну так а тензорные блоки какую рам используют?
>>310850 > Есть ли решение на базе нейросетей, чтобы перевести эти записи > в текстовый формат > Собеседник 1: бла-бла > Собеседник 2: пук-пук-пук Нет. Такого пока не создали.
>>314924 Ну в смысле? Нейросетка не способна распознать, что на записи два разных голоса присутствуют? Возможно нет в попенсурс доступе. Я конечно, понимаю, что архитектура в данном случае ещё сложнее будет, часть просто должна уметь распознавать, а другая часть ещё и отличать и узнавать голос
>>273501 Нужен config.json он постоянно апдейтится, а какой именно ты использовал, хз... Кароче, скинь пожалуйста config.json свой... И, ты использовал so-vits-svc?
Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео перед постингом. Советую аудио лучше слушать в наушниках.
Есть VITS-Umamusume-voice-synthesizer, она только на японском говорит, но у неё 87 голосов.
ХагиФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing
Также есть MoeGoe и MoeTTS.
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8
Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест.
Гайд: https://textbin.net/kfylbjdmz9