Stable Diffusion технотред #14 /tech/

Аноним 14/11/23 Втр 03:20:33 #1 №543635

1662868715940.png

1601073061548.png

1553267043386.png

1669230494077.png

ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются

Предыдущий тред: >>532447 (OP)

➤ Софт для обучения

https://github.com/kohya-ss/sd-scripts
Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах.
Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss

➤ GUI-обёртки для sd-scripts

https://github.com/bmaltais/kohya_ss
https://github.com/derrian-distro/LoRA_Easy_Training_Scripts
https://github.com/anon-1337/LoRA-train-GUI

➤ Обучение SDXL

https://2ch-ai.gitgud.site/wiki/tech/sdxl/

➤ Гайды по обучению

Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.

✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам:
https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов
https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA
https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)

✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге:
https://github.com/KohakuBlueleaf/LyCORIS

Подробнее про алгоритмы в вики https://2ch-ai.gitgud.site/wiki/tech/lycoris/

✱ Dreambooth – выбор 24 Гб VRAM-бояр. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://rentry.co/lycoris-and-lora-from-dreambooth (англ.)
https://github.com/nitrosocke/dreambooth-training-guide (англ.)

✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet:
https://rentry.org/textard (англ.)

➤ Тренировка YOLO-моделей для ADetailer:
YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.

Подробнее в вики: https://2ch-ai.gitgud.site/wiki/tech/yolo/

Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.

➤ Гугл колабы

﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA [1] https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-trainer.ipynb
﹡LoRA [2] https://colab.research.google.com/drive/1bFX0pZczeApeFadrz1AdOb5TDdet2U0Z

➤ Полезное

Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.)

Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)

Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
https://rentry.org/2ch_nai_guide#апскейл
https://rentry.org/UpscaleByControl

Коллекция лор от анонов: https://rentry.org/2chAI_LoRA

Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdgoldmine
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/gayshit/makesomefuckingporn

➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией

https://2ch-ai.gitgud.site/wiki/tech/legacy/

➤ Прошлые треды

https://2ch-ai.gitgud.site/wiki/tech/old_threads/

Шапка: https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/

Аноним 14/11/23 Втр 10:31:20 #2 №543746

Перекатил вопрос.
Почему всякие гайды по обучению лоры на определенный ебальник (одного человека) рекомендуют использовать 10-30 фото? Разве закинуть 100-200 фото не лучше для обучения?

Аноним 14/11/23 Втр 10:41:52 #3 №543750

>>543746
Принцип необходимости и достаточности

Аноним 14/11/23 Втр 12:55:38 #4 №543818

>>543746
ты б еще спросил почему в зерошот моде достаточно 6 ебальников

Аноним 14/11/23 Втр 13:37:15 #5 №543828

https://huggingface.co/collections/ptx0/terminus-xl-65451893a156b3b1d1456514
Я непонел шоэта? Файнтюн или модель с нуля? Он так пишет будто с нуля тренил.
>Terminus XL Gamma is a new state-of-the-art latent diffusion model that uses zero-terminal SNR noise schedule and velocity prediction objective at training and inference time.
>Terminus is based on the same architecture as SDXL, and has the same layout. It has been trained on fewer steps with very high quality data captions via COCO and Midjourney.

Аноним 14/11/23 Втр 14:31:36 #6 №543855

Я просто не могу использовать влад автоматик или а1111, на амуде 7900 в убунту крашится драйвер на мгновение, и все графические программы перестают работать до полной перезагрузки
Комфи работает, но не нравится он мне. Признайтесь, у кого на амуде 7900 все работает, и можно генерировать два часа, какие версии, какие гайды?

Аноним 14/11/23 Втр 14:40:54 #7 №543857

>>543855
У меня есть товарищ, казуал полный,и ставить ручками эти ваши питоны-диффузеры в рот ебал, так что скачал уан-клик-инсталл модную молодёжную оболочку для нейросетей: https://github.com/LykosAI/StabilityMatrix
У неё внутре неонка Комфи, но интерфейс белого человека, а не макаронного монстра. На интерфейс комфи тоже можно переключиться в случае чего, обычным заходом по айпи.

Аноним 14/11/23 Втр 14:44:26 #8 №543858

А вообще я бы охлаждение проверил и мб андервольтинг сделал у видюхи.

Аноним 14/11/23 Втр 15:07:39 #9 №543878

>>543746
Все зависит от задачи. Если цель - буквально воспроизводить фейс с минимальным изменением ракурса то такого вполне достаточно и заодно упростит подготовку датасета. Если нужно что-то более сложное или генерация остального тела то больше фоток предпочтительнее, с другой стороны здесь качество важнее количества.
А так кто знает этих шизохайперов с их вбросами и ахуительными историями. Будет неудивительно если братишки продемонстрировали где-то в статье саму возможность такого обучения, не задумываясь об оптимизации результата, а дурень увидев это принял за абсолютную истину и всюду тащит.
>>543828
Файнтюны офк.
>>543855
Логи хоть глянь что с драйвером ним происходит.

Аноним 14/11/23 Втр 15:38:49 #10 №543908

>>543878
>Логи
Не знаю, полез, и уже 20 минут нет вылетов. Нечего добавить. Блин, а вчера ни одного нормального рана не было. Ладно, пока закрываю тему
>>543857
Спс, гляну. Насчет параметров видюхи, нашел Corectrl, но в нем как-то криво настраивается, не рискну трогать

Аноним 14/11/23 Втр 15:50:47 #11 №543916

>>543878
> Файнтюны офк.
Нет, это именно обученные с нуля модели на архитектуре SDXL. Но так как у них всратый датасет, то они соответственно нихуя не могут.
Просто технодемка для проверки технологий.

Аноним 14/11/23 Втр 15:57:49 #12 №543925

>>543916
А зачем тогда? Как тренить модели уже известно, ничего нового. У них там линки на скрипты для файнтюна, в них что-то такое особенное - уникальное?
Применение zero-terminal SNR не ново и есть и на 1.5. Последовательный тренинг xl в разрешениях с 512 до 1024? Ну наверно норм, честно хз как тренилась оригинальная модель, сразу или с повышением. В чем суть то?

Аноним 14/11/23 Втр 16:17:48 #13 №543941

>>543925
Ну очевидно что это попытка попробовать к чему приведёт
>very high quality data captions
>zero-terminal SNR noise schedule and velocity prediction objective
в архитектуре SDXL.

Это просто следствие того что цены на тренировку фундаментальных моделей резко упали (пиксарт альфа, DiT уже тренировали за копейки), вот уже отдельные энтузиасты балуются.

>Применение zero-terminal SNR не ново и есть и на 1.5.
В SDXL они не осилили ни ztsnr, ни vpred. По каким-то техническим причинам, кажется. Этот чел вот делает.

Аноним 14/11/23 Втр 16:29:55 #14 №543955

>>543941
> По каким-то техническим причинам, кажется.
Вот это довольно странно, учитывая что в 2.х оно было. Возможно xl на самом деле старше чем 2.х и начала трениться до ее релиза.
На 1.5 эти вещи относительно легко добавляются файнтюном базовой модели, велика вероятность что здесь сработает тот же трюк.
Другое дело что тренировка с нуля отличается, написано о предпочтительности обширного и разнообразного датасета в начале тренировки, а смещение к качеству и усложнение наилучшим образом работает уже на более поздних ее этапах. Пока что их результат это подтверждает и усложняет оценку остального.
Кстати кто-нибудь на xdxl пробовал будку запускать, оно вообще реально без A100?

Аноним 14/11/23 Втр 16:31:57 #15 №543958

image.png

>>543908
Далеко не уехал. В гугле нашел открытые проблемы, пишут про разные причины
ERROR MES failed to response msg=14
[drm:mes_v11_0_submit_pkt_and_poll_completion.constprop.0 [amdgpu]] ERROR MES failed to response msg=2
amdgpu: failed to add hardware queue to MES, doorbell=0x1216
amdgpu: MES might be in unrecoverable state, issue a GPU reset

Аноним 14/11/23 Втр 16:39:38 #16 №543963

>>543941
> По каким-то техническим причинам, кажется.
Технические причины звучат примерно так: "Good morning sir, use lora, noise offset lora good, can fix everything, thank you."
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_offset_example-lora_1.0.safetensors

Аноним 14/11/23 Втр 16:44:12 #17 №543967

>>543955
> Кстати кто-нибудь на xdxl пробовал будку запускать, оно вообще реально без A100?
На 3090/4090 реально
https://github.com/recoilme/train#kohya-train-params-for-3090-with-24-ram
Но скорость пиздец конечно

Аноним 14/11/23 Втр 16:54:53 #18 №543977

Уже было?
>Stable Diffusion v1.6 Release
https://platform.stability.ai/docs/release-notes#stable-image-v1-release

Аноним 14/11/23 Втр 16:58:42 #19 №543979

>>543977
В sd треде было

Аноним 14/11/23 Втр 18:21:00 #20 №544033

>>543977
Почему доступ только через api

Аноним 14/11/23 Втр 18:27:05 #21 №544043

>>543967
Без gradient_checkpointing выходит не заведется? Припоминаю что оно раза так в 1.5 скорость резало или даже больше.
>>543977
А сами веса где?

Аноним 14/11/23 Втр 19:54:26 #22 №544113

>>544033
>>544043
SAI всегда сначала через апи дают пробовать, потом уже релизят веса

Аноним 15/11/23 Срд 02:19:45 #23 №544399

>>543977
а сдхл это что было тогда?

Аноним 15/11/23 Срд 02:53:47 #24 №544410

>>543967
Так, а на kaggle, если дают две Т4? accelerate, все дела?

Аноним 15/11/23 Срд 02:55:05 #25 №544411

>>543977
Шта? Полторашка победила??
Надеюсь, что все штуки с когеренцией на высоких разрешениях они вынесли в отдельные слои. Чтобы с существующими миксами было проще мёржить.

Аноним 15/11/23 Срд 06:30:27 #26 №544449

>>544043
> Без gradient_checkpointing выходит не заведется?
Не хватит памяти

Аноним 15/11/23 Срд 06:35:11 #27 №544450

>>544043
>>544449
> gradient_checkpointing
Ужасная вещь, пробовал с этим сделать лору, да, потребление памяти ниже чуть ли не в 2.5 раза, скорость всего в 1.5-2 раза была ниже, но не запомнилось практически ничего. У вас получалось с этим параметром удачно натренить что нибудь?

Аноним 15/11/23 Срд 14:37:32 #28 №544661

bandicam 2023-11-15 14-11-20-365.mp4

Есть 2 папки: с небольшим проверочным датасетом и классификационными картинками. Выставляю какие то настройки, Изображения классов на изображение экземпляра ставлю на 20, нажимаю Тренироваться - хуяк, please check your dataset directories. Что? Чего блядь? Нажимаю ещё раз Тренироваться - начинается генерация классификационных картинок.. У меня же блядь уже есть эти картинки, хули ты сука их генерируешь. Мне кажется этот dreambooth вообще не видит, что у меня есть какие-то изображения хоть в одной хоть в другой папке, всё максимально криво, во время обучения он выдает картинки которые вообще не о том, какая то потрескавшаяся штукатурка, мусор, подобие карты местности, но только не портреты людей.
Давайте помогайте кто шарит, спасайте.

Аноним 15/11/23 Срд 14:45:05 #29 №544666

bandicam 2023-11-15 14-42-31-468.mp4

Вот такая хуйня высирается

Аноним 15/11/23 Срд 17:53:09 #30 №544829

>>544661
Папка с изображениями должна называться %количество повторений%_%название концепта%, например 10_proverka
Закидываешь изображения/подписи в папку, например d:\mygreatlora\10_proverka и указываешь путь датасета d:\mygreatlora

Аноним 15/11/23 Срд 18:11:22 #31 №544844

>>544829
А папку с классификационными картинками с подписями как размещать?

Аноним 15/11/23 Срд 18:27:06 #32 №544856

image.png

>>544829
Перекинул папки на жесткий диск с рабочего стола, теперь вроде видит классификационные картинки, по крайней мере не пытается их заново генерировать, первая генерация выдала это. В чем проёб?

Аноним 15/11/23 Срд 18:32:22 #33 №544860

image.png

Нихуя не получается

Аноним 15/11/23 Срд 19:45:47 #34 №544918

Как sdxl лоры на персонажей в сравнении с 1.5 кто-нибудь сравнивал?

Аноним 15/11/23 Срд 19:47:33 #35 №544920

>>544918
2d если конкретно

Аноним 15/11/23 Срд 20:18:49 #36 №544984

>>544661
> с небольшим проверочным датасетом
Это тут не поможет. Про структуру папок вроде сказали, ну и пользуйся кохой а не встроенным костылем автоматика, там все сильно лучше.
>>544856
Пережарил, лр снижай.

Аноним 16/11/23 Чтв 01:52:43 #37 №545228

Анон, это кабздец. У меня нет апстрима. Я линуксоид во втором поколении, больше 10 лет на убунте. Я не могу жить без апстрима. Это неправильно.

Ты, может быть, меня вспомнишь. Может быть, я тебе уже даже надоел. Я треню DreamBooth на колабе от ShivamShrirao, основательно так перепиленном под мои нужды. Треню редко, в среднем раз в неделю. Не так много того, что мне хочется иметь, а датасеты собирать долго.

Так вот, у меня нет апстрима. Совсем. Шивам забросил своё поделие. Попытка воткнуть вместо его скрипта официальный, из диффузерсов - провалилась. Слишком большое расхождение. Шивам в своё время вообще не пуллреквестил, и в результате многие нужные опции реализованы совсем иначе - в его форке и в диффузерсах. Я пытаюсь сейчас всё это бэкпортнуть, но... но... диффузерсы категорически скептически настроены против того, чтобы принимать новые фичи! Вообще! Никто этого не хочет. Коха? Последний коммит 7 месяцев назад. ЛастБен? Что-то в том же духе.

Наверное, я обречен вечно страдать без апстрима. Это кара за жажду обладания тем, что мне не принадлежит.

Аноним 16/11/23 Чтв 15:32:41 #38 №545601

1000066386.png

1000066385.png

Что думаете про этот Vae от OpenAI? Лица в меньшей мере распидарашивает
https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/13879

Аноним 16/11/23 Чтв 15:35:12 #39 №545603

>>545601
О, кстати, в автоматике в отдельной ветке реализовали

Аноним 16/11/23 Чтв 15:51:36 #40 №545612

>>545601
А ты быстрый. Это говно уже успели обоссать 10 раз, в автоматике передумали делать его потому что хуже обычного VAE.

[mailto:sage] Аноним 16/11/23 Чтв 18:38:58 #41 №545712

1000066390.jpg

Расширение, добавляющее LCM Sampler в sd-webui

Теперь lcm лору для sdxl можно использовать в автоматике!

https://github.com/light-and-ray/sd-webui-lcm-sampler

Аноним 16/11/23 Чтв 19:06:15 #42 №545743

>>545712
Это всё ещё не полноценная реализация семплера, я в прошлом треде кидал сравнение с этим обрубком. По качеству всё ещё лучше частичное LCM использовать, так хоть негативы будут работать.

Аноним 16/11/23 Чтв 21:11:22 #43 №545819

>>545743
Негативы отрубаются при cfg 1.0

Аноним 16/11/23 Чтв 21:13:08 #44 №545821

>>545601
Жрёт память люто, проблемы полностью не фиксит. Вердикт: в печь. Банальные хайрез фиксы, деталеры, и прочие двухпроходные трюки работают быстрее, лучше, экономичней.

Аноним 16/11/23 Чтв 22:59:45 #45 №545907

image.png

Пасаны, как лечить эту хуйню? Походу из за этого у меня dreambooth не работает, восклицательные знаки явно не просто так выставились.

Аноним 17/11/23 Птн 00:57:42 #46 №546016

Возвращениеблудногопопугая-6.jpg

Купил 3060, по бенчмаркам на англоязычных сайтах она выдаёт 12it/s. А у меня 6it/s.

Если у кого-то есть 3060, прошу сделайте тест

a house

Steps: 20, Sampler: Euler, CFG scale: 4.5, Seed: 3005468437, Size: 512x512, Model hash: 84d76a0328 (https://civitai.com/models/25694/epicrealism), Version: 1.6.1

Напишите it/s и время генерации картинки
Напишите свой set COMMANDLINE_ARGS=
Версию драйвера
Версию cuDNN
Версию PyTorch

Аноним 17/11/23 Птн 01:05:15 #47 №546023

image.png

>>545907
Ебать ты тупой.

[mailto:sage] Аноним 17/11/23 Птн 01:37:19 #48 №546046

>>546016
6 it/s выглядит норм. Чуть больше 3 сек на генерацию, у меня так же

Скорее всего ты видел тесты нового драйвера с включенным tensorrt

Аноним 17/11/23 Птн 01:38:15 #49 №546048

>>546046
Э, а че у меня сажа включилась. Бамп

Аноним 17/11/23 Птн 01:40:58 #50 №546049

>>546016
xformers включил?

Аноним 17/11/23 Птн 02:00:07 #51 №546057

>>546049
Да, при этом

--precision full and не работает, выдаёт ошибку
--no-half снижает производительность вдвое

Аноним 17/11/23 Птн 02:23:05 #52 №546063

>>546057
> --no-half снижает производительность вдвое
Что здесь тебя удивляет, так и должно быть. Эти параметры на видеокартах белого человека не нужны.
Если судить по бенчмарку из шапки то примерно 6 итераций там и должно быть, покажи что за бенчмарки ты смотрел.

Аноним 17/11/23 Птн 02:38:19 #53 №546067

>>546063
https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html
там есть без tensor rt с ебенячими показателями

плюс ещё тут смотрел 6-7 секунд у пацанов
а у меня 9-10
https://www.reddit.com/r/StableDiffusion/comments/z0f5k0/stable_diffusion_rtx_3060_12gb_vs_rtx_3060ti/

Карту проверил в бенчмарках, выдаёт что нужно, но в СД показатели ниже чем средние.

Аноним 17/11/23 Птн 02:48:15 #54 №546072

как же хочица 1.6...

Аноним 17/11/23 Птн 02:50:20 #55 №546073

bandicam 2023-11-17 02-47-51-515.mp4

>>546023
А такое видал? Установил ебать дримбут, сразу пиздота непонятная началась.

Аноним 17/11/23 Птн 02:57:01 #56 №546075

>>546067
Переустановил SD, получилось 7.2 - 7.5 секунд на генерацию из реддита

Хз что ещё сделать, они там не пишут какую модель используют, от модели же тоже зависит скорость?

>>546016
В моём тесте получается 6,5 - 7.2 it/s, 3.2 секунды генерится картинка

Аноним 17/11/23 Птн 03:48:36 #57 №546089

>>546067
Тут все ок, 6-7 it/s для 3060. Есть один с 12 it/s, но там sdp оптимизатор и большой batch size. Как я понял, это флаг на split attention, или quad attention

Можно еще в настройках до кучи token merge поставить на примерно 0.4 - даст ещё около 20% скорости

Аноним 17/11/23 Птн 03:55:36 #58 №546090

>>546089
А, затупил, spd - это speed. Короче вот этот флаг:

--opt-sdp-attention May results in faster speeds than using xFormers on some systems but requires more VRAM. (non-deterministic)

Аноним 17/11/23 Птн 03:58:40 #59 №546091

>>546090
А блин, затупил еще сильнее. Короче хрен знает что за sdp. В общем больше памяти жрет, не детерменистичный - это большие минусы. А судя по бенчмарку, преимущество в скорости только при большом batch size

Аноним 17/11/23 Птн 03:58:55 #60 №546092

>>546089
>sdp оптимизатор
у меня с ним результат ещё хуже чем xformers

>Можно еще в настройках до кучи token merge поставить на примерно 0.4 - даст ещё около 20% скорости
Я щас буду устанавливать все игры оптимизаторы

Братишка, а объясни ещё что такое AITemplate? Его можно запустить вместе с TensorRT?

Аноним 17/11/23 Птн 04:54:21 #61 №546111

lora и tensor rt невозможно применить вместе?

Аноним 17/11/23 Птн 06:11:41 #62 №546133

Так чего там с этой лцм-лорой и мерджем?
На аниме работает? Чувствительность к негативам и цфг какая?
Контролнет, хайрезфикс, и всё такое?
Хочу понять, стоит заморачиваться или нет. 4080 в компе - это, конечно, хорошо, но если можно урезать количество шагов в 4 раза - это ж еще лучше.

P.s. кохай свой хайрезфикс запилил, мнения?
https://github.com/wcde/sd-webui-kohya-hiresfix

Аноним 17/11/23 Птн 10:17:47 #63 №546249

>>546133
>Так чего там с этой лцм-лорой и мерджем?
>На аниме работает? Чувствительность к негативам и цфг какая?
>Контролнет, хайрезфикс, и всё такое?
Всё работает. Возможно имеет тенденцию к упрощению или замыливанию фона; недавно обнаружили баг с кривым шедулером, может пофиксят. LCM оказался хорошей финишной штукой, имеет смысл генерить недопроявленную композицию на минимальном разрешении обычным методом (512х512, 4-6 шагов и т.п.), потом апскейл до рабочего разрешения и прогнать через LCM. Так получается когерентность лучше, чем чисто LDM или чисто LCM. Если с контролнетами юзать, то первый этап не нужен, можно сразу LCM.

>P.s. кохай свой хайрезфикс запилил, мнения?
Всё пиздато, работает и каши не просит.

Аноним 17/11/23 Птн 11:53:22 #64 №546302

>>546133
Хуита

Аноним 17/11/23 Птн 12:06:43 #65 №546310

>>546111
Возможно, надо лору конвертировать тоже. Если ты про lcm, то ее надо мержить

Аноним 17/11/23 Птн 12:16:22 #66 №546321

image.png

>>546016
20/20 [00:02<00:00, 8.04it/s]

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set CUDA_MODULE_LOADING=LAZY
set NUMEXPR_MAX_THREADS=16
set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.9,max_split_size_mb:512
set COMMANDLINE_ARGS=--autolaunch --opt-sdp-attention --upcast-sampling --opt-channelslast
git pull
call webui.bat

Драйвер 546.01 нвидя студио, как у всех белых людейлюдей
Cuda compilation tools, release 12.1, V12.1.105
Build cuda_12.1.r12.1/compiler.32688072_0
PyTorch второй

Вот только у меня NVIDIA GeForce RTX 2060, а после твоих мощностей мне чет расхотелось покупать что-то помощнее, когда выхлопа будет меньше

Аноним 17/11/23 Птн 12:26:14 #67 №546325

>>546321
А если 150 шагов, то какая скорость? У меня была 2060Super, на ней получалось 9.2 it/s

Аноним 17/11/23 Птн 12:29:00 #68 №546328

22.PNG

11.PNG

>>546310
Нажал Apply LoRA checkpoint to TensorRT model
и кажется получилось.

Если я подключаю в sd_lora LCM лору, то получается 5сек.
Если я подключаю в sd_unet TRT для лоры (не для модели, тогда работать не будет), а в sd_lora не подключаю ничего (тогда тоже работать будет), то получается 3.8 секунды.

Это оно? Или что-то не правильно?

Аноним 17/11/23 Птн 12:30:56 #69 №546332

>>546321
А у тебя 2060 на 12 гб?

Аноним 17/11/23 Птн 12:32:32 #70 №546336

>>546328
У тебя разница во времени из-за загрузок модели. Надо смотреть на время второй генерации после изменения модели

Аноним 17/11/23 Птн 12:33:17 #71 №546337

>>546321
Очевидно, что 3060 мощнее 2060, и значит у меня какая-то проблема.
А попробуй в аргументы добавить только xformers?

С 2060 имеет смысл обновляться тогда уже на 4060 Ti и что-то выше. Или ждать следующего года, может подвезут 4060с с 12 гб для нищеты.

Аноним 17/11/23 Птн 12:37:34 #72 №546345

>>546336
я несколько раз прогенерировал после изменения модели

Аноним 17/11/23 Птн 12:39:37 #73 №546347

image.png

>>546337
150/150 [00:18<00:00, 7.98it/s]
Ну на этой модели столько
>>546332
Da
>>546337
>А попробуй в аргументы добавить только xformers?
А я не помню, какой у меня из аргументов является альтернативой для иксов, от куды. Они же в конфликт вступят.

Аноним 17/11/23 Птн 12:40:31 #74 №546351

>>546337
>>546347
А, тьфу, слепой я. ТОЛЬКО иксы, понял, щас

Аноним 17/11/23 Птн 12:46:49 #75 №546355

image.png

>>546337
WARNING:xformers:A matching Triton is not available, some optimizations will not be enabled.
И как фиксить?
Генерит незначительно медленнее, хотя сосноль говорит, что иксы подкручены
150/150 [00:20<00:00, 7.27it/s]

Аноним 17/11/23 Птн 12:53:42 #76 №546366

>>546355
> И как фиксить?
Тритон только для прыщей и в SD не используется.

Аноним 17/11/23 Птн 13:12:50 #77 №546381

>>546355
У тебя там VAE какое-то подключено не стандартное, кста, попробуй генерацию без него.

Аноним 17/11/23 Птн 13:59:35 #78 №546415

>>546381
Пробовал, там без разницы. Либо разница несущественная настолько, что даже не видно.

Аноним 17/11/23 Птн 14:06:38 #79 №546419

>>546347
> 150/150 [00:18<00:00, 7.98it/s]
> Ну на этой модели столько
> Da

12 гб 2060 основана на 2060 super. А та в свою очередь по бенчмаркам, что кидали недавно, не отличается от 3060 в генерации

Аноним 17/11/23 Птн 16:08:27 #80 №546490

HFValidationError ( huggingface_hub.utils._validators.HFValidationError: Repo id must be in the form 'repo_name' or 'namespace/repo_name': 'путь/к/моей/модели/блять.safetensors'. Use `repo_type` argument if needed.

Какова хуя, помогите посоны. Норм запускается только на стандартной модели 1.5
Олсо как запустить тренировку из сосноли, а не из вебгуи?

Аноним 17/11/23 Птн 17:20:27 #81 №546537

>>546490
Путь/имя базовой модели неверно указал.
> Олсо как запустить тренировку из сосноли, а не из вебгуи?
Ты про что именно здесь? Там есть кнопка "печать команды", ее копируешь и вставляешь в консоль, или пишешь все параметры вручную.

Аноним 17/11/23 Птн 19:01:19 #82 №546584

>>546537
> Путь/имя базовой модели неверно указал.
В том и дело что верно, прямой путь непосредственно к модели .safetensors
Если точно так же указываю стандартную 1.5 - съедает и начинает работать.
Гугл показывает схожие проблемы, например https://github.com/guoyww/AnimateDiff/issues/14#issuecomment-1635563101
>Там есть кнопка "печать команды
Кнопка есть, но начинается с accelerate что не является исполняемым файлом. И как параметр, который передается в train_network.py это не выглядит (хотя и похоже на конвейер, типа передачи вывода на ввод в другое место). Я не проверял еще это канеш, но выглядит так, как будто не заработает.

Аноним 17/11/23 Птн 19:10:38 #83 №546595

>>546584
> В том и дело что верно
Прямой/обратный слеш, отдельные символы и прочее точно верные? Такое выдавало при ошибке в пути, по твоей ссылке о том же.
> но начинается с accelerate что не является исполняемым файлом.
Орли? Венв активируй и сразу станет им.
> Я не проверял еще это канеш, но выглядит так, как будто не заработает.
В фонд золотых цитат.

Аноним 17/11/23 Птн 19:14:50 #84 №546602

>>546595
>Прямой/обратный слеш, отдельные символы и прочее точно верные? Такое выдавало при ошибке в пути, по твоей ссылке о том же.
У меня стандартная 1.5 лежит там же где и остальные модели. И прописывал я это не руками, а через гуй намышетыкал - тут же (почти) нельзя ошибиться.
>Венв активируй
Указать venv как PATH то есть?
>В фонд золотых цитат.
Бля ну не издевайся, консоль не поймет что такое accelerate потому что ничего об этом не знает. Она поймет максимум следующий далее train_network.py с паравозом ключей к нему, но не accelerate. Это на первый взгляд.

Аноним 17/11/23 Птн 19:20:58 #85 №546606

1577668572519.png

>>546602
> Указать venv как PATH то есть?
> Бля ну не издевайся, консоль не поймет что такое accelerate потому что ничего об этом не знает
Не издеваюсь и без негатива, просто у тебя даже базовых знаний нет зато лезешь рассуждать.
По той же причине ошибка с неверным путем с вероятностью 99.5%, а прошлое могло работать вообще потому что подсасывало с обниморды по названию (да оно так может).

Аноним 17/11/23 Птн 19:27:37 #86 №546617

>>546606
>просто у тебя даже базовых знаний нет
Я погуглил, я молодец, понял о чем ты. Странно, venv должен активироваться при старте вебгуя, но действительно при указании модели 1.5 я видел что
>прошлое могло работать вообще потому что подсасывало с обниморды по названию.
Но думал что это мож зависимости какие к модели, хз.

Аноним 17/11/23 Птн 19:32:16 #87 №546622

>>546617
> Странно, venv должен активироваться при старте вебгуя
Так для него он активировался, но только для него а не глобально, каждый новый терминал - своя активация среды.
Ну вот и понятно стало, внимательнее будет, в первую очередь чекни чтобы слеши прямые а не обрашные были, базированная херь в шинде.

Аноним 17/11/23 Птн 19:40:45 #88 №546629

>>546622
> каждый новый терминал - своя активация среды.
Я имею в виду один терминал, да. Батник с вебгуи ведь должен в т.ч. активировать venv, но при этом непонятно почему он не берет модель по прямому пути. Навскидку очень тупое предположение - потому что модели лежат в отдельной директории, но при указании прямого пути все должно работать же энивей.
Но я попробую запуск из сосноли, потому что пока гуглил - встретил мнение что это именно проблема вебгуя.

Аноним 17/11/23 Птн 23:49:23 #89 №546825

Как тренить лору на hll или на животных, как то отличается от обычного обучения или нужно какие то флаги ставить?

Аноним 18/11/23 Суб 00:10:50 #90 №546842

Какой положняк по тренировки лиц? Могу ли я мешать анфасы с профилем или одтельно тренить на анфас и на профиль?

Аноним 18/11/23 Суб 05:14:17 #91 №546939

>>546825
--v_parameterization --zero_terminal_snr --scale_v_pred_loss_like_noise_pred

Аноним 18/11/23 Суб 20:56:46 #92 №547645

Tensor RT не работает с SDXL моделями? Выдаёт ошибку

Аноним 18/11/23 Суб 21:14:38 #93 №547655

Так.. Решил заняться тотальным обновлением софта, а то там хлам всякий тянется уже с релизов полугодовой давности. Вебуй для генерации вижу теперь запилили работающим без нужды засирать системный диск питоновским говном. Это хорошо.
А как быть с тренировкой лор? Гайд к скрипту традиционно начинается с "поставьте питон, поставьте ГИТ". Не сделали еще такой же установки чисто в свою папку?

Аноним 18/11/23 Суб 21:18:26 #94 №547657

>>547655
https://github.com/serpotapov/stable-diffusion-portable
https://github.com/serpotapov/Kohya_ss-GUI-LoRA-Portable

Ты можешь сам ставить всё в свою папку, посмотри как это делает хач, или используй его сборку.

Аноним 18/11/23 Суб 21:34:09 #95 №547668

Ну какого черта в новом вебуи сделали систему сохранения промптов совсем черезжопной. Раньше выбрал в выпадающем меню, нажал применить - ВСЕ. Теперь выбираешь в меню, открываешь отдельное меню и уже оттуда применяешь. Нахрен так делать было?! Есть плагин, который схоронять может промпты нормально удобно умеет и при этом не перегружен свистоперделками типа перевода текста и ведения целой базы данных.

Аноним 18/11/23 Суб 21:38:16 #96 №547671

>>547668
Зумер, плиз.
https://github.com/Haoming02/sd-webui-boomer

Аноним 18/11/23 Суб 22:04:45 #97 №547693

Нужно ли указывать pretrained model при обучении лор? Какие подводные камни у обучения с чекпоинтом и без него?
Если я указываю рандомный чекпоинт (хуй знает, пусть будет эпикреализм) в качестве pretrained model - полученная лора будет совместима с другими чекпоинтами (например с киберреалистик), или таким образом она затачивается на идеальную работу с конкретным, а со всеми другими будет хуйня?
Поясните за положняк.

Аноним 18/11/23 Суб 23:57:26 #98 №547761

>>547671
Чёт проиграл.

Аноним 19/11/23 Вск 01:47:11 #99 №547818

SD и NAI давно не вставляет, там нет самого главного : motion. Живой кадр, выразительная динамика, развитие и раскрытие динамической композиции в таймлайне. А так от ультра-высокого разрешения нет толку.
Васянский костыль типа deforum это не motion, а наркоманский трип. Gen-2 и та новая модель тоже нет. Хотя наработки для годных моделей давно представлены. Стабилити лоханулись, надо было пилить модель для видео вместо XL. Пусть оче базовую, но с пониманием концепта motion и temporal - остальное бы допилило комьюнити.

Аноним 19/11/23 Вск 02:27:49 #100 №547838

>>547818
До этого ещё минимум год-два, если не больше, можешь залегать в спячку.
Достигнутый максимум темпоральной стабильности на сегодня это vid2vid с необходимостью обучать с нуля https://isl-org.github.io/PhotorealismEnhancement/ , для диффузии нет такого пока

Аноним 19/11/23 Вск 02:46:41 #101 №547845

>>547838
Эх! А ведь дифьюжн модели будто специально предназначены для того, чтоб генерировать контент, ебейшее CGi с vfx как здесь
https://youtube.com/watch?v=Qwz5H9M8rsM
Упарывался игорем когда-то давно, интро видео как раз пример простого и грамотно сделанного моушена в компьютерной графике: освещение, камера, персонаж с гестурами. Такие пока делаются лишь спецами за бешеные деньги и спецы с навыками везде нарасхват
в марвел и голливуде, в геймдеве, на Западе и в Азии.

Аноним 20/11/23 Пнд 19:52:22 #102 №549219

matplotlib не отрисовывает графики в дебаге в gradio приложении, кто-нибудь сталкивался? Как чинили?

Аноним 21/11/23 Втр 01:22:39 #103 №549499

>>547693
Есть мнение, что тренить лору надо на SD / NAI (в зависимости от мясности тянки), тогда она будет совместима со всеми моделями. Но ты теоретически можешь тренить и на одном чекпоинте - тогда, теоретически, она будет на этом чекпоинте лучше, чем если тренить на SD, а на всех остальных - существенно хуже.

Но лично я не проверял.

Аноним 21/11/23 Втр 01:25:17 #104 №549501

>>547655
Гит - не пихон, его нормальные люди пишут. Лично Линус, ЕМНИП, руку к его созданию приложил. Там нет зоопарка несовместимых между собой версий и вот этого всего питонячьего дерьма.

Гит не засирает твою систему, он облагораживает её, сраный ты форточник. Ставь свежайшую версию глобально и забудь про неё, она подойдёт ко всем автоматикам ещё несколько лет (а то и несколько десятков лет).

Аноним 21/11/23 Втр 01:28:02 #105 №549502

>>545907
о, дримбут-братишка. няяяя...

Аноним 21/11/23 Втр 01:29:18 #106 №549503

>>546072
... и повышенную когерентность на дополнительных слоях, как инпаинтинг... чтобы рррраз - и смёржил...

Аноним 21/11/23 Втр 01:30:49 #107 №549504

>>546073
А в нормальное место логи можешь скидывать, типа пастебина? Это ж сука кошмар эпилептика - логи в виде видоса сука!!! Зумеры хреновы!

В сторис выложить не забудь

Аноним 21/11/23 Втр 01:32:02 #108 №549506

>>546073
CUDA, говорит, кривая у тебя.

Аноним 21/11/23 Втр 01:38:06 #109 №549507

>>546490
Походу, твоя тулза предпочитает тренить на тех моделях, что выложены на обниморде, а не у тебя на винте. Попробуй в качестве пути указать
admruul/anything-v3.0

и посмотри, запустится ли. Если запустится - то, возможно, дело в этом.

Аноним 21/11/23 Втр 01:39:11 #110 №549508

>>546595
Убери из пути русские буквы. Кириллицу. Пробелы. И т.д. Правило 8.3, все дела!

Аноним 21/11/23 Втр 01:47:09 #111 №549513

изображение2023-11-21014657786.png

Аноны, выручайте. В программировании не шарю от слова совсем. Пару месяцев назад с кайфом генерировал всю хуйню, потом прогу снес. Ща решил снова установить, но выдает вот эту поеботу. Че делать не ебу, может из вас кто подскажет че-нить. В гугле не забанили, вообще все блять сделал из того что предлагали, все равно выдает эту срань. Уже неделю с этим ебусь, да все никак пофиксить не выходит.

Аноним 21/11/23 Втр 01:48:04 #112 №549517

>>549513
Когда начинаю генерировать выдает это, забыл уточнить

Аноним 21/11/23 Втр 01:50:40 #113 №549519

>>549513
Еще забыл уточнить что иногда он может сгенерировать одну пикчу, но на этом все заканчивается.

Аноним 21/11/23 Втр 02:12:31 #114 №549526

>>549519
vae кривое?
--no-half в аргументы добавить?

Аноним 21/11/23 Втр 02:15:32 #115 №549528

>>549526
Об этом в гайдах только ленивый не написал, пробовал конечно. Не пашет. VAE и другое ставил, и вообще выключал

Аноним 21/11/23 Втр 02:31:16 #116 №549536

00006-1667237840.png

>>549526
Ща попробовал вписать еще раз, теперь даже начало генерировать, правда что-то в стиле этого

Аноним 21/11/23 Втр 13:09:39 #117 №549759

>>549536
Давай сюда скрин настроек, особенно хэш модели. Аскотест проходил?

Аноним 21/11/23 Втр 13:26:05 #118 №549774

изображение2023-11-21132528225.png

>>549759
Не уверен про какие ты настройки, но предположил что это. Аскотест не проходил, ща гляну че это

Аноним 21/11/23 Втр 13:28:46 #119 №549777

>>549774
Ох бля...

Аноним 21/11/23 Втр 13:29:43 #120 №549780

>>549774
Погуглил немного, нихера не понял. Уточни что надо заскринить, вообще не шарю толком)

Аноним 21/11/23 Втр 13:37:48 #121 №549789

БЛЯТЬ ЭТО ТРЕД НЕ ДЛЯ НЕОСИЛЯТОРОВ - ЭТО ТЕХНО ТРЕД!

Аноним 21/11/23 Втр 13:41:50 #122 №549794

1585553045778.mp4

>>549789
> ТЕХНО ТРЕД
И где твое техно, пчел?

Аноним 21/11/23 Втр 13:45:43 #123 №549802

>>549789
Будем гонять сегодняшних неосиляторов - потеряем будущих техногуру! Всё лишнее - детям!

Настройки того места, где ты нажимаешь кнопку "генерировай".

Аноним 21/11/23 Втр 13:47:36 #124 №549804

>>549536
нормальное современное искусство, чёнетак? фигачишь в NFT и продаёшь

Аноним 21/11/23 Втр 13:55:44 #125 №549808

изображение2023-11-21135529660.png

>>549802
Спасибо за понимание, я просто в целом очень далек от всего этого, но очень хотел бы влиться в это все и разобраться, а тут такая хуйня. Знакомых шарящих нет, так что не придумал ничего лучше чем сюда написать. Скрин настроек вот, меня все по 100 раз, везде то же самое. Если проверку отключить, в тупую выдает черные квадраты

Аноним 21/11/23 Втр 14:00:30 #126 №549815

>>549804
Это конечно заебись, но хотелось бы иметь возможность создавать не только это)

Аноним 21/11/23 Втр 14:25:04 #127 №549834

>>549808
На других моделях то же самое? Нафига кфг скейл 2 выставил, кстати (стандарт - 7)? И пиздец у тебя браузер засран, конечно, я вот на отдельном генерю, без лишнего мусора. В своей васянозапускалке (которую ни один здоровый человек использовать не будет) попробуй выставить в качестве параметров --xformers --medvram --no-half-vae --precision full, а не то, что там сейчас.

Аноним 21/11/23 Втр 14:41:56 #128 №549848

изображение2023-11-21144121062.png

>>549834
Другие модели вообще в первую очередь пробовал поставить. скейл менял когда просто параметры перебирал, смотрел мб че как работать будет. Просто перед скрином ниче специально не менял, кинул как на тот момент было. Поставил то что ты сказал, теперь вообще выдает это

Аноним 21/11/23 Втр 14:46:49 #129 №549852

>>549848
Ну могу только предложить последовать путём анона из >>549166 → поста, с нвидия-проблемами я лично мало знаком, у меня свои, амдешные.

Аноним 21/11/23 Втр 14:51:06 #130 №549857

>>549852
Спасибо, гляну как домой вернусь тогда. У кого еще будут идеи, предложите, попробую. Заранее благодарен

Аноним 21/11/23 Втр 16:50:57 #131 №549995

>>549536
Галочки лишние для создания текстурок поснимай
>>549774
Снеси этот малвер для васянов, клонируй репу гитом и запусти батник.
>>549848
И шизу такую в негатив ставить не стоит, оно сделает только хуже.

Аноним 21/11/23 Втр 17:19:38 #132 №550023

>>549774
откуда ты это скачиваете? как вы это блять вообще находите?
почему нельзя просто скачать сборку автоматика дефолтную

Аноним 21/11/23 Втр 17:25:57 #133 №550033

>>549774
1. Удали это говно.
2. Скачай это.
https://github.com/AUTOMATIC1111/stable-diffusion-webui
3.
в webui-user.bat
set COMMANDLINE_ARGS=--autolaunch --xformers
больше никаких аргументов, если карта RTX

если GTX
set COMMANDLINE_ARGS=--autolaunch --xformers --precision full --no-half

Аноним 21/11/23 Втр 17:36:55 #134 №550043

>>549774
Не слушай его >>550033 Тебе надо medvram и xformers. Даже gt 1030 не требует эту херню с полной точностью - это только для амудэ

Аноним 21/11/23 Втр 17:38:06 #135 №550045

>>550033
>если GTX
У него GTX 1660 6GB, видно на скринах. Это говно что, уровня амуды или даже хуже, без нохалфа не пашет?

Аноним 21/11/23 Втр 17:40:11 #136 №550048

>>550043
На счет xformers заработает ли на 1060 не уверен, но если не заработает - не страшно

Аноним 21/11/23 Втр 17:41:35 #137 №550050

>>550033
> если GTX
Только если 1600 серия, и то там вроде это подебили большей частью. А то сейчас на паскалях сделает так и будет жаловаться насколько они медленные.

Аноним 21/11/23 Втр 17:42:48 #138 №550052

>>550033
так и так только что закончил это делать. Установил стандартную версию, в батник вписал вроде все что надо. Нихуя все равно не работает. Та же хуйня абсолютно.
>>550045
Да блять, раньше без этого все работало, и xformers, и вся хуйня. Вообще мозги себе не ебал. Как выше уже писал, потом переустановил через пару месяцев, и пиздец.

Вы правильно думаете, у меня 1660 стандартная.

Аноним 21/11/23 Втр 21:19:28 #139 №550355

>>550052
покажи батник и скрин sd в браузере

ты прежде чем скачать дождался, что он всё скачает?
Какой версии питон?

Аноним 21/11/23 Втр 21:22:58 #140 №550367

>>550043
>>550048
Слушай, лучше не открывай свой пиздак, а

16серия требует --xformers --precision full --no-half
Максимальная производительность с такими настройками
medvram только замедляет работу и иногда ведёт к ошибкам, для простых генераций в нём нет никакого смысла на 6gb, его прописывать стоит только при имг2имг и апскейле

Аноним 21/11/23 Втр 22:25:37 #141 №550494

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

SAI сделали видео-модель. Выглядит сравнимо с ранвеевской, те же несколько секунд относительной темпоральной стабильности. Пока только API через вейтлист.

Аноним 21/11/23 Втр 22:26:24 #142 №550496

>>550494
А, стопэ, я еблан, веса сразу выпустили. Вот они https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

Аноним 22/11/23 Срд 00:34:51 #143 №550702

изображение2023-11-22003329388.png

Короче, аноны, похоже это победа. Запустил нейронку буквально сделать скрин для ответа на вот это >>550355, а в итоге она заработала блять). Последнее что сделал перед тем как уйти, вписал вот это set ATTN_PRECIGION=fp16. Короче пока вроде пашет. Спасибо всем кто пытался помочь, приятно осознавать, что в трудную минуту не кинут, а помогут)

Аноним 22/11/23 Срд 14:03:43 #144 №551124

>>550702
Если что можешь смело удалять все строки с commandline args кроме последней, у тебя переменная перезаписывается и xformers нету.

Аноним 22/11/23 Срд 15:23:41 #145 №551191

image.png

>>550496
c lowvram модом еле помещается в 24Гб видеопамяти.
Спасибо, ух щас погенерим.

Аноним 22/11/23 Срд 16:25:16 #146 №551261

>>550496
О, это хорошо. Animate diff так не может

>>551191
Это для генерации ещё влезает, или я надеюсь ты про обучение 😳

Аноним 22/11/23 Срд 17:13:24 #147 №551349

>>546490
Попробуй этим скриптом конвертнуть из safetensors в папочки и расскажешь как прошло
https://github.com/huggingface/diffusers/blob/main/scripts/convert_original_stable_diffusion_to_diffusers.py

cd ./diffusers

# assume you have downloaded xxx.safetensors, it will out save_dir in diffusers format.
python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.safetensors --dump_path save_dir --from_safetensors

# assume you have downloaded xxx.ckpt, it will out save_dir in diffusers format.
python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.ckpt --dump_path save_dir

Аноним 22/11/23 Срд 17:16:36 #148 №551358

Обучил лору в kohya_ss, в diffusers работает хуже чем в automatic, нужно запускать в diffusers. Что делать?

Аноним 22/11/23 Срд 17:20:40 #149 №551365

15144014236430.jpg

>>551358
>в diffusers работает хуже чем в automatic
>Что делать?
нужно запускать в diffusers

Аноним 22/11/23 Срд 17:48:50 #150 №551401

Можно в sd next как-то убрать шуе-интерфейс, и сделать чтоб он был как stable-diffusion-webui, только с возможностью diffusers?

Аноним 22/11/23 Срд 23:52:37 #151 №551867

Можно ли в риге openposeBones в Блендере как-то зафиксировать длину рук\ног?

Аноним 23/11/23 Чтв 01:14:47 #152 №551985

SD 1.6 это строго проприетарная модель? То есть можно не ждать.

Аноним 23/11/23 Чтв 01:23:57 #153 №552001

>>551985
Нет, просто они всегда мурыжат новые версии SD за своим апи, прежде чем релизнуть веса.

Аноним 23/11/23 Чтв 07:48:56 #154 №552171

>>552001
> они всегда мурыжат новые версии SD за своим апи
И когда ты такое видел? Очевидно они не будут релизить 1.6.

Аноним 23/11/23 Чтв 14:24:56 #155 №552351

>>552171
>И когда ты такое видел?
Блять, всегда. 1.5, 2.0, 2.1, SDXL. Сначала у них в проге и/или через апи, потом релиз весов через какое-то время.

Аноним 23/11/23 Чтв 14:49:16 #156 №552363

>>552351
Не пизди. 1.5 вообще не их модель, они её не релизили, это файнтюн Runway. Двуха и XL 1.0 были сразу в день релиза доступны.

Аноним 23/11/23 Чтв 14:58:05 #157 №552370

>>552171
> Очевидно они не будут релизить 1.6.
Какой смысл гейткипить? В ней ничего радикально нового и уникального чего нет в файнтюнах 1.5, отсутствуют и какие-то крутые коммерческие перспективы. А вот актуализировать самую массовую и популярную базовую модель - тема хорошая.

Аноним 23/11/23 Чтв 15:15:30 #158 №552381

>>552363
>Двуха и XL 1.0 были сразу в день релиза доступны.
То день релиза. Они долго держали веса за своей дримстудией, потом в один момент просто обозвали очередной чекпоинт релизом и выпустили.

Аноним 23/11/23 Чтв 15:23:40 #159 №552384

>>552363
1.5 и 1.4 - это их. 1.3, 1.2, 1.1 - вот это не их, это от CompVis

Аноним 23/11/23 Чтв 15:49:57 #160 №552403

>>552384
> 1.5 и 1.4 - это их.
Чел, до 1.4 - это CompVis, 1.5 - это файнтюн 1.2 силами Runway. Стабилити к первой SD имеют отношение только в виде предоставления серверов для CompVis. Они ничего сами не тренировали до 2.0.
https://huggingface.co/runwayml/stable-diffusion-v1-5

Аноним 23/11/23 Чтв 18:12:35 #161 №552547

>>552403
А, была еще и третья контора RunWay. Как все запутано

Аноним 23/11/23 Чтв 19:42:08 #162 №552649

Блджажд, что они с таггером сотворили? Как им вообще теперь пользоваться? Почему он на базовой Deepdanbooru модели срет про какой-то tensorflow_io?

Аноним 25/11/23 Суб 10:56:53 #163 №554422

К ключу --save_state можно указать директорию сохранения? Куда сохраняется по умолчанию, с пустым ключом без указания директории?

Аноним 25/11/23 Суб 10:59:16 #164 №554424

Это >>554422 про обучение лоры, если что.
Олсо поясните почему при запуске с батника с вебгуи скорость обработки 40-50s/it, а при запуске из сосноли (с набором команд, сгенереных в вебморде) скорость 30-33it/s.
Что так тормозит при запуске вебгуи?

Аноним 25/11/23 Суб 19:08:58 #165 №554788

https://github.com/chengzeyi/stable-fast
Ускорятор для diffusers. Жрёт меньше памяти, работает быстрее TensorRT или AIT, при этом не требует компиляции.

Аноним 25/11/23 Суб 19:37:47 #166 №554817

>>554788
> работает быстрее TensorRT
Открываю ссылку и сразу вижу что ты пиздишь. В их же бенчмарках он медленнее.
> не требует компиляции
А тебе от этого легче? Совместимости всё так же ни с чем нет. Ещё и пердоликс-онли.

Аноним 25/11/23 Суб 20:14:49 #167 №554851

>>554422
> Куда сохраняется по умолчанию
В папку которая указана для выхлопа моделей, создает дирректорию соответствующую эпохе.
>>554424
> Что так тормозит при запуске вебгуи?
Венвы то одинаковые? Так разницы быть не должно, с другой стороны
> 40-50s/it
Это что за дичь? Если обучаешь на 1030 то аппаратное ускорение браузера может вредить.

Аноним 25/11/23 Суб 22:44:46 #168 №554989

>>554851
>В папку которая указана для выхлопа моделей
Готовых? Ок, спасибо.
>Венвы то одинаковые? Так разницы быть не должно, с другой стороны
Одинаковые, стартую оттуда, откуда же стартует вебгуи.
>Это что за дичь? Если обучаешь на 1030
На 1063. Кстати из сосноли скорость увеличилась до 29s/it за прошедшее с моего поста время.
>аппаратное ускорение браузера может вредить.
Интересно каким он тут боком. Я стартанул обучение из консоли, но при этом браузер остался открытым для параллельного двачевания.

Олсо, может подскажете мне параметры для тренировки на строго определенный ебальник? В прошлую интерацию обучения на свою еотову с 60 повторениями каждого фото генерация выдавала примерно одну очень похожую из 20 не очень похожих. Офк мне нужно полное сходство.

Аноним 25/11/23 Суб 23:01:38 #169 №555002

>>554851
> В папку которая указана для выхлопа моделей
А вот хуй. Output folder указан, параметр --save_last_n_steps="1000" есть, на данный момент прогресс в полторы тысячи шагов но Output folder пуст.
Не хочу просрать четверо суток из-за броска по питанию, бсода или иного факапа.

Аноним 25/11/23 Суб 23:10:41 #170 №555012

>>554989
> Одинаковые, стартую оттуда, откуда же стартует вебгуи.
Тогда разницы быть не должно, может как-то влияет особенности выгрузки врам в рам, или интерфейс жрадио на себя что-то там выделяет. Только мониторингом можно проверить.
> Интересно каким он тут боком.
Да хз, больше там нет отличий, одно и то же запускается.
>>555002
> на данный момент прогресс в полторы тысячи шагов
Оно будет сохранять только каждую эпоху и даже об это напишет, шаги тут не при чем. Сколько эпох в обучении?
> четверо суток
Ты делаешь что-то неправильно, тут братишка на 1050ти тренили и там всего часов 12 выходило емнип. Лучше распердоль коллаб или купи видеокарту, 4 суток на то что должно делаться максимум минут 15 это жесть.

Аноним 25/11/23 Суб 23:29:22 #171 №555037

>>555012
>может как-то влияет особенности выгрузки врам в рам
>там нет отличий, одно и то же запускается.
Вот и я про то же.
>Оно будет сохранять только каждую эпоху и даже об это напишет, шаги тут не при чем. Сколько эпох в обучении?
Эпоха одна и закончится она через 84 часа. А я хочу пощупать результат, поэтому поставил сохранение каждую 1000 шагов (аналог параметра сохранения каждые n эпох).
>Ты делаешь что-то неправильно
Я не нашел прямого мана, поэтому мне и нужна рекомендация по параметрам, или прямой конфиг. Опытным путем увидел что 60 шагов дали результат лучший чем 30, поэтому зарядил на сотню. Датасет 120 фото, 100 шагов на каждое, скорость 30s/it - вот и вырисовывается несколько суток. Впрочем, параллельно на другой пекарне учится лора с датасетом в 30 фото, и там как раз 1050 (без ти), доучится примерно к вечеру понедельника. Вощем-то у меня параметры почти все в дефолте стоят, может в этом дело, но куда крутить я не знаю.

Аноним 25/11/23 Суб 23:31:30 #172 №555040

>>555012
А, ну и коллаб я конечно же не буду распердоливать, я сам себе администратор локалхоста. С видимокартой тоже пока непонятно, это сейчас я загорелся, если через полгода не пройдет - обновлюсь, иначе без задач.

Аноним 25/11/23 Суб 23:42:55 #173 №555057

>>555037
> Эпоха одна
Ууу, ну земля пухом, насмотрятся своего хача а потом ебут друг друга в локалхост, лол.
> увидел что 60 шагов
О каких шагах ты говоришь, число повторений датасета?
Оптимальные параметры довольно просты и сложны, есть несколько вариантов про которые можешь в статьях из шапки почитать, вот один из них: адам8, lr unet = 2e-3, lr text = 1e-3, alpha=1, dim 32-128, число повторений подбирай так чтобы получилось 400-500 на эпоху (для 100 это будет 4-5), 10 эпох.
>>555040
~15 минут разобраться, ~15 на тренировку каждой дальнейшей вместо нескольких дней на то что у владельцев 4090 уходит пара минут.

Аноним 25/11/23 Суб 23:51:12 #174 №555066

>>555057
>Ууу, ну земля пухом, насмотрятся своего хача
Все так.
>О каких шагах ты говоришь, число повторений датасета?
Число повторений каждого фото. То, что задается именем директории n_datasetname.
>Оптимальные параметры довольно просты
Благодарю. Попробую при следующем обучении.
>~15 на тренировку каждой дальнейшей вместо нескольких дней
Фарш невозможно провернуть назад. Выходные у меня один хуй заняты, а в трудо-выебудни я работаю, так что скорость ебет только мою хотелку по факту. Владельцам 4090 я канеш завидую, но сам к ним смогу примкнуть лет через 5 лол, когда цена упадет до той, которую я могу безболезненно оторвать от своих финансов. Эти условные 100к я с большей охотой вложу в ремонт или влошу в фондовый срынок чем в дофаминовую морковку передергивания писюна на еотову с максимально возможной скоростью. Хотя от этого мне канеш грустно, я бы лучше морковку навернул а не вот это вот все.

Аноним 26/11/23 Вск 00:08:48 #175 №555076

>>555057
>400-500 на эпоху
>10 эпох.
Что ты собрался 4000-5000 шагов тренить?
Хотя если с 2е-3... Нухз, возможно.

Я на базовое 1е-4 и 2е-5 всегда ориентируюсь, 2000-2200 шагов суммарно. И то обычно в конце уже перетрен получается, насыщение где-то на 1300-1700 начинается.

Аноним 26/11/23 Вск 00:13:07 #176 №555079

>>555076
> Что ты собрался 4000-5000 шагов тренить?
Расчет был на то что он по эпохам пройдется и выберет лучшую, плюс его дженерик тнус точно запомнит. Перетрен с таким лром можно получить только на упоротом датасете, свитспот 2.5-3.5к, дальше просто бесполезно.
Хотя что там с еотовыми хз, ведь подборка их клозап фейсов вместо разнообразных пикч это тот еще пиздец вместо датасета и оно может очень рано начать ломаться.

Аноним 26/11/23 Вск 09:30:00 #177 №555245

Ээ.. Насчет количества шагов. А как быть если тренишь стиль или концепт, а там овер 300 минимум надо артов, а лучше больше. Там если по дефолту делать по 10 (как в гайдах по созданию датасетов пишут) раз на каждый арт, то выйдет овер 3000 шагов только на одну эпоху. Или вы тут про тренировку на персонажа обсуждаете где куда меньше артов надо в общем? Хотя я тренил с дофига каким количеством артов и по 3-5 эпох. Перетрен? Да, явно перетрен. Но можно просто применять Лору с весом поменьше и вполне работает нормально.

Аноним 26/11/23 Вск 18:09:13 #178 №555657

>>555245
> овер 300 минимум надо артов
> по 10 (как в гайдах по созданию датасетов пишут) раз на каждый арт
Если там написано именно так и не указаны какие-то нюансы, то следует ставить под сомнение такие советы. Есть случаи где лору на стиль или даже персонажа тренят оче долго с десятками/сотнями тысяч шагов и большим числом эпох, но там в основном дадапт, хитрые шедулеры, и нет свидетельств того что это оптимально и результат качественно будет отличаться от тренировки короче.
На персонажа достаточно меньше, но и стили разные бывают, иногда с 4-х десятков такое тренируется что потом удивляешься.
> Перетрен?
По результатам смотреть надо, оно может и не оверфитнуться заметно, просто время попусту потратишь. Если же нужно снижать вес чтобы не ломало - пиздарики.

Аноним 26/11/23 Вск 19:47:29 #179 №555772

>>555245
>овер 300 минимум
Это прям лютый оверкилл.
Сотни обычно вполне хватает. Может и с 40 натрениться.

Аноним 26/11/23 Вск 21:56:44 #180 №555969

>>555066
Блять, арендуй 4090 на vast.ai и дрочи свой писюн со скоростью света.

Аноним 27/11/23 Пнд 01:27:38 #181 №556119

>>555969
Настрой колаб. Или обучи на цивите. 4 дня ходишь, лайкаешь, получаешь максимум 125 buzz в день. 500 buzz (ЕМНИП, а сейчас может и 600 уже) стОит натренить лору. Генерить вроде можно там же или на гравита и темпочтой от дядюшки Мохмала.

Аноним 27/11/23 Пнд 01:29:41 #182 №556120

>>551358
О, сочувствую, чувак. Там семплеры соответствуют нетривиально, в курсе? В issues diffusers на github поищи табличку. Алсо, ты точно используешь lpw pipeline? Иначе не будут работать (скобочки) [как] (в автоматике:1.07)

Аноним 27/11/23 Пнд 01:30:29 #183 №556123

>>551358
Либо dreambooth теми же kohya-ss/sd_scripts, в diffusers работает, брат жив, еот хороша, всем рекомендую.

Аноним 27/11/23 Пнд 01:31:45 #184 №556124

>>546584
https://huggingface.co/spaces/NickKolok/converter

Аноним 27/11/23 Пнд 01:38:21 #185 №556127

>>550702
Чувак, у тебя ошибка в слове preciSion

но раз работает - не трогай!

Аноним 27/11/23 Пнд 02:04:32 #186 №556132

>>556119
Бесплатный колаб медленный пиздос, да и платный тоже. В то время как на васте (или подобном хостинге) можно занидорага арендовать БОЛЬШОЙ УТЮГ. Например лоры для SDXL тренятся куда лучше на 48 гигах.

Я сейчас балуюсь реалтайм генерацией по нарисованной подложке в плагине для криты, в паре с копеечным планшетом это такая охуенная вещь, я прям себя рисователем с большой дороги почуствовал. Но для реалтайма надо чтобы генерация 1344х768 в SDXL была не больше секунд четырех, поэтому на медленней чем 4090 я и не смотрю. Дома у меня 3060, на ней такое не прокатит.

Аноним 27/11/23 Пнд 03:04:34 #187 №556159

Тренирую лору на своём лице. Скажите, стоит ли для улыбающегося и серьёзного лица тренировать разные лоры? Стоит ли в одной лоре совмещать улыбку и серьёзное лицо?

Аноним 27/11/23 Пнд 03:40:07 #188 №556175

>>556159
в одну лору, но обязательно протэгать выражение лица: smile, happy, calm, serious, concentrated, worried, relaxed, etc.

Если часть фоток с очками, а часть без - очки тэгать обязательно!

я не оч по инглишу, погугли

Аноним 27/11/23 Пнд 05:17:15 #189 №556199

>>556175
Спасибо. А почему хачатур говорил, что теги это хуйня без задач, и не работают?

Аноним 27/11/23 Пнд 05:19:29 #190 №556202

Что скажете насчёт однокартиночных лор? (не IP-Adapter)
https://civitai.com/articles/3021/one-image-is-all-you-need

Аноним 27/11/23 Пнд 05:36:56 #191 №556204

Аноны в файле моделей, чекпоинте информация о весах хранится тоже в матрицах, или в каком-то более человекопонятном виде?

Аноним 27/11/23 Пнд 06:35:03 #192 №556210

>>556199
Потому что долбоёб

Аноним 27/11/23 Пнд 06:53:32 #193 №556216

>>556202
Херня без задач.

Аноним 27/11/23 Пнд 09:23:16 #194 №556267

Надеюсь когда выложат sd 1.6 в открытый доступ, достаточно будет сделать мерж разницы с 1.5 в любой файнтюн, и тем самым генерировать в высоких разрешений без хайрез фиксов

Аноним 27/11/23 Пнд 09:24:10 #195 №556271

>>556267
Иначе зачем они называют ее 1.6, если у нее будет не формат 1.x моделей

Аноним 27/11/23 Пнд 09:47:42 #196 №556278

>>556267
Ну ты и соня. Уже давно 2.0 вложили.

Аноним 27/11/23 Пнд 10:12:01 #197 №556291

>>556267
Я тоже надеюсь. Более того, я тут уже полтреда как надеюсь, что хайрезность обеспечивается дополнительными слоями - как инпантинг, и мёрж там тривиален.

Но если нет, или если не выложат... Ох, анончики, объясните мне (тупому), почему никто до сих пор не натренил просто дополнительные слои на паре тысяч изображений (пусть бы только тянок, ладно) на обеспечение хайреза? Это же ведь определение гипернетворка как он есть, разве нет?..

Аноним 27/11/23 Пнд 10:28:08 #198 №556309

Чем finetune отличается от dreambooth ? Я нихуя не понимаю

Аноним 27/11/23 Пнд 10:50:35 #199 №556334

>>556309
Dreambooth один из видов finetube

Аноним 27/11/23 Пнд 10:50:52 #200 №556336

>>556334
*finetune

Аноним 27/11/23 Пнд 11:08:24 #201 №556361

Ребятки, я походу не дотренировал лору, можно ли продолжить с того места где я остановился? Можно ли продолжить тренировать готовую лору?

Аноним 27/11/23 Пнд 11:11:48 #202 №556367

image.png

>>556334
Я про это спрашиваю, в kohya_ss
Я там недавно обосрался со своей первой моделью которую более 12 часов тренировал.

Аноним 27/11/23 Пнд 11:15:00 #203 №556371

>>556361
Можно.

Аноним 27/11/23 Пнд 11:35:53 #204 №556392

image.png

как работает этот калкметод в супермерджере?

Аноним 27/11/23 Пнд 11:43:14 #205 №556397

>>556371
Как?) Я делаю это в программе от хрисТа

Аноним 27/11/23 Пнд 11:51:15 #206 №556406

>>556397
Тогда у него и спрашивай. Мы-то откуда знаем как что делать в мокропиське хача.

Аноним 27/11/23 Пнд 11:55:09 #207 №556409

>>556406
Ладно, скажи как в стандартной проге делать

Аноним 27/11/23 Пнд 14:09:14 #208 №556537

>>556361
>>556371

Да-да, анонимус разрешаэ!

Аноним 27/11/23 Пнд 14:34:00 #209 №556575

>>556291
> что хайрезность обеспечивается дополнительными слоями
Судя по практике - такое маловероятно, для повышения резрешения достаточно дополнительной тренировки имеющейся структуры. Возможность мерджить разницу это не отменяет, но каков будет результат сказать сложно.
> до сих пор не натренил просто дополнительные слои на паре тысяч изображений
Объясни что имел ввиду, какие еще слои?
>>556309
Превое - более старый традиционный способ, будка функциональнее.

Аноним 27/11/23 Пнд 15:54:09 #210 №556651

Странная херня, через час использования Автоматика, скорость генерации начинает падать. Приходится перезагружать комп.

Аноним 27/11/23 Пнд 15:55:16 #211 №556653

grid-0001.png

Screenshot1.png

Почему результат такой уёбищный? Как нормально обучить? Хули у всех всё получается, а у меня нихуя?

Аноним 27/11/23 Пнд 16:03:13 #212 №556659

image.png

49.png

19.png

Какие параметры нужно выставить чтоб обучилось нормально?

Аноним 27/11/23 Пнд 16:15:59 #213 №556676

>>556659
>Какие параметры нужно выставить чтоб обучилось нормально?

Оптимальные

Аноним 27/11/23 Пнд 16:16:37 #214 №556677

>>556216
Но автор как раз приводит задачи и демонстрирует применение.

Аноним 27/11/23 Пнд 16:19:03 #215 №556680

>>556659
Ты там памятники несуществующим людям собрался генерить? Шапку прочти. Чет проиграл с первой.

Аноним 27/11/23 Пнд 16:21:22 #216 №556681

image.png

Что даёт эта хуета?

Аноним 27/11/23 Пнд 16:24:25 #217 №556685

>>556677
Так в том то и дело, что практически всё то, что он приводит, либо делается самим автоматиком "из коробки", без лоры, либо контролнетом.
Не надо писать тэги к картинке, не надо тратить время на тренировку, просто берешь и делаешь.

Аноним 27/11/23 Пнд 16:26:22 #218 №556687

>>556680
Хотел через img2img надрочить на обработку фото в таком стиле с прорисованными волосками, но эта хуйня какая то необучаемая. На ютубе вообще мало уроков, все делают только лоры, а нормальные модели кто делать будет!

Аноним 27/11/23 Пнд 16:28:04 #219 №556689

>>556681
Ресайз картинок под разрешение тренировки с сохранением соотношения сторон. Тут задаешь, какое разрешение будет минимальным/максимальным.
Кропать оно не будет, именно отресайзит.
Ну, насколько я помню эту фигню, конечно.

Аноним 27/11/23 Пнд 16:32:46 #220 №556693

image.png

>>556689
это сегменты какие то злоебучие, а не ресайз. разрешение тренировки у меня 768 на 1024

Аноним 27/11/23 Пнд 16:36:53 #221 №556699

>>556693
Вот под это разрешение оно тебе и будет ресайз делать.
Грубо говоря, если в базовых настройках 512х512 у тебя 0.26 мегапикселов, и в сете есть огромная картинка с соотношением 4:1, то отресайзит в 1024х256 под те же самые 0.26 мегапикселов.

Опять же, это то, как я эту фигню сам понимаю, исходя из данных, которые скрипт в лог по подготовленным изображениям выводит.

Аноним 27/11/23 Пнд 16:39:18 #222 №556701

изображение.png

>>556693
Вот это вот.
Тут у меня 6 повторений, всего 40 картинок. Разрешение тренировки было 768х768, с максимумом бакета на 1024.

Аноним 27/11/23 Пнд 17:25:09 #223 №556742

>>556685
Чёт сомнительно что такую простоту в переносе стиля и редактировании можно получить зеро-шот методами. У меня не получалось.

IPAdapter работает со входными 224х224, другие зерошот методы (референс-онли, t2i style adapter и т.п.) тоже в сравнимом, потому что все они юзают CLIP-ViT для кодировки, а он принимает ограниченное разрешение. И самое большое их ограничение - они переносят всё, нельзя нормально фильтровать, приходится изгаляться. Например если оставить перса на белом фоне сегментацией, они захавают и фон в том числе, а у него просто убираешь тег и убирается фон. А уж как это использовать для бутстрапа датасета для полноценной лоры, как он это предлагает - вообще хз.

А у него на демках чистенькая фильтрация признаков с пикчи с использованием знаний самой модели (а не CLIP-ViT), прям куда круче чем у меня когда-либо получалось. Зерошот может быть лучше конечно со временем, но конкретно текущие методы очень ограничены. Если эта хуйня действительно работает как у него написано, занимает пару минут и не требует танцев с бубном - хули бы и нет? Надо разобраться, попробовать, потестить. Никогда не подумал бы что лору можно делать из лишь одной пикчи.

Аноним 27/11/23 Пнд 19:41:18 #224 №556837

>>556689
> Кропать оно не будет, именно отресайзит.
Вроде как будет чтобы подогнать по кратность (по дефолту 64 вроде). Там в конце пишется ошибка, обычно оно пренебрежимо мало.
>>556701
Зря максимум так близко к разрешению тренировки выставил, вон6 пикч не влезли.
>>556742
Так некоторые лоры твикеры делали, но там намеренный оверфит а потом отсечка некоторых слоев.

Аноним 27/11/23 Пнд 19:46:47 #225 №556844

изображение.png

>>556406
> в мокропиське хача
Если вы вдруг не видели или не знаете, мокрописька от христа тянет билд от автоматика.
Но мокрописька от автоматика смущает вас намного реже, насколько я заметил.
Поэтому не выебывайтесь и давайте советы годные.

Аноним 27/11/23 Пнд 20:03:10 #226 №556862

>>556844
> мокрописька от автоматика
Довольно крупный и сложный проект, которые разрабатывается и поддерживается длительное время множеством людей. И то к ней вагон замечаний и претензий, а высказывания о забагованности уже стали мемом.
> мокрописька от христа
Подзалупная херь от глупого унтерменьша, напизженная у остальных и все равно выполненная криво. При этом создана для выполнения оче простых функций, а ца - падкие на синдром утенка кабанчики.
И на кой хер для тренировки тащить автоматика, чтобы заиметь потом конфликт зависимостей с кохой?
> давайте советы годные
Поставь любой нормальный гуи для кохи и делай все там, или вообще через консоль скриптом.

Аноним 27/11/23 Пнд 20:06:35 #227 №556871

>>556837
>Зря максимум так близко к разрешению тренировки выставил, вон6 пикч не влезли.
Всё влезло же.
Сложи все строки и раздели на 6 (число повторов).
240\6 = 40

>>556742
Ну попробуй.
Мне что-то сомнительной кажется такая штука.
Особенно если ты собрался ее тренировать на концепт, который в модели отсутствует как таковой.

Аноним 27/11/23 Пнд 20:13:07 #228 №556884

изображение.png

>>556862
> И на кой хер для тренировки тащить автоматика, чтобы заиметь потом конфликт зависимостей с кохой?
Аллоу, маня, что коха, что сд от дружка хача ставятся сорт оф портейбл на самом деле не совсем и не срут в систему. Конфликта нет, они даже параллельно работать могут.
>Подзалупная херь от глупого унтерменьша
На самом деле ты сейчас обосрал крупный и сложный проект, который разрабатывается и поддерживается длительное время множеством людей. Потому что все, что делает мокрописька от хача - это распаковывает гит с пердоном и увязывает с ними билд от автоматика через 1,5 бат-файла, которые задают необходимые параметры сессии и дергают потроха билда автоматика.
>Поставь любой нормальный гуи для кохи
А он внезапно нормальный, кто бы мог подумать что мокрописька от хача тоже тянет "официальный" коховский билд, пикрил.

Вощем-то из этого следует что синдром утенка - у тебя, лол.

Аноним 27/11/23 Пнд 20:19:42 #229 №556895

>>556871
> Всё влезло же.
Часть пикч была в меньшем разрешении, другое дело что не критично.
>>556884
> маня
Ай лол, любитель понюхать хачевскую сперму огрызается.
> обосрал крупный и сложный проект, который
Нет, речь про хачевские надстройки что "устанавливают и конфигурируют", это ты не разделяешь их с оригинальными.
> мокрописька от хача тоже тянет "официальный" коховский билд
А что еще она может тянуть, будто он что-то свое может создать.
> синдром утенка - у тебя
Назвать вещи своими именами? Нет, синдром утенка это защищать и оправдывать говноподелки с которых начал и уверовал.

Аноним 27/11/23 Пнд 20:24:58 #230 №556904

scale1200.jpg

>>556895
>речь про хачевские надстройки что "устанавливают и конфигурируют"
Где? Там ничего кроме гита с питоном нет.
>будто он что-то свое может создать.
Оче хорошо. Мы разобрались что мокрописька от хача - это суть довольно крупный и сложный проект, которые разрабатывается и поддерживается длительное время множеством людей.
>говноподелки
А нет, похоже что не разобрались, опять вернулись на шаг назад. Ты где-то делишь на ноль, тебе так не кажется?

Аноним 27/11/23 Пнд 20:46:09 #231 №556932

Аноны, а подскажите каую-нибудь удобную штуку для тэгирования изображений. Чтоб наглядная была.
Типа, в левой части у тебя картинка - справа плашки с тэгами. Кликаешь на плашку - тэг включается/отключается.
Ну и предварительный прогон чтоб был, как в ВД-тэггере, с разными моделями и уровнем чувствительности. Плюс с возможностью добавлять свои тэги принудительно.
WD-тэггер хорош только для полной автоматизации, вручную им работать практически невозможно.

Аноним 28/11/23 Втр 01:02:47 #232 №557115

>>556575
Ох. Я в этом не очень хорошо шарю, но попробую объяснить. Знаешь, как модели по слоям мёржат? У UNet есть некие слои, в которых хранятся, собственно, веса. На разных слоях хранятся веса, отвечающие за разное. Где-то я даже картинку видел, на каком что. Соответственно, если мёржить разные слои с разным коэффициентом, то будет получаться разный результат, причём направление этого результата вроде как даже можно предсказать (уххх, алхимия! старина Фламель в гробу вертится!).

Знаешь, как из любой модели сделать инпаинтинговую? Нет, можно, конечно, и натренить - у Шивама, кажется, скрипты такие были. Но вообще-то общепринятый способ - тот самый послойный мёрж. У официальной инпаинтинговой модели есть четыре дополнительных слоя в UNet, и при мёрже A + (B - C), где А - инпаинтинговая модель, В - кастомка, С - SD1.5, эти самые инпаинтинговые слои остаются нетронутыми.

https://www.reddit.com/r/StableDiffusion/comments/zyi24j/how_to_turn_any_model_into_an_inpainting_model/

Можно ли провернуть такой же фокус, добавив слои и натренировав их обычным образом, но при залоченной модели - скажем, на разрешение 1024х1024? Если это удастся, то потом это разрешение можно будет переносить на любую полторашную модель (кроме, быть может, инпаинтинговых) без потери информации в модели, без искажения.

И я полагаю, что именно это делают гипернетворки, разве нет?..

Аноним 28/11/23 Втр 07:44:15 #233 №557199

>>557115
Продолжаю мысль.

Ты спросишь: зачем мне поддержка 1024х1024 нативно, если есть хайрез фикс? А я отвечу: обучение, чуваки мои, обучение. Мы можем сколько угодно кормить адетайлер фоточками няшных рук. Но только сетка в целом сможет понять, где рука правая, а где левая, насколько разными должны быть ноги и как держать солнышко на ладошке.

Можем, я неправ и долбодятел. Это со всеми бывает. Но почему никто даже не попробовал?

Аноним 28/11/23 Втр 14:34:42 #234 №557365

>>557115
> как из любой модели сделать инпаинтинговую
В ней есть допольнительные слои и добавлены лишние операции связанные с такой обработкой, это считай просто локальное возмущение имеющейся модели без существенных изменений того что она может генерировать. При том насколько улучшается перфоманс в том самом инпеинте, учитывая сочетания значительно ушедших от исходника современных моделей и древних значений в "дополнительных слоях инпеинта", и в целом целесообразность это процедуры - под вопросом.
Аналогия понятна и ожидаема, но здесь нюанс. Для получения хорошей работы в высоких разрешениях такого недостаточно, все ее части должны быть организованы таким образом, чтобы сохранять когерентность при большем количестве обрабатываемых данных. Невозможно сделать пару волшебных слоев, которые из поломанной херни вдруг сделают хорошую картинку.
Плюс в том что на возможность мерджей это, скорее всего, не повлияет и к сд 1.6 можно будет в пару кликов добавить то что было дообучено на 1.5. Но, может случиться всякое, пока не увидим ее можно только гадать.
>>557199
> Ты спросишь: зачем мне поддержка 1024х1024 нативно
Странный вопрос, чем выше порог когерентности модели, офк если говорить про реальные величины а не те где нужно долго ловить удачный рандом, тем точнее она помнит и понимает мелкие детали, включая и пальцы (но панацеи тут всеравно не будет), тем более качественно можно делать апскейл. Все правильно.
> Но почему никто даже не попробовал?
Сейчас сложно найти новые файнтюны 1.5 что проводят в разрешении 512.

Аноним 28/11/23 Втр 20:37:05 #235 №557634

Нейрочелики, как дообучить модель в finetune kohya_ss ?

Аноним 28/11/23 Втр 21:04:13 #236 №557671

У меня вопрос, как сочетается опен сорс лицензия, по которой работают sai (как понимаю, она вирусная, и при всем желании они отказаться от нее не смогут), и то, что они прячут за api 1.6, и раньше прятали xl?

Аноним 28/11/23 Втр 21:45:39 #237 №557708

>>557671
Это лицензии с пользователями, т.е. это только для тебя вирусная GPL или что там у них, не ебу, а SAI правообладатель и могут делать что хотят. Часто в софте делают коммерческую лицензию и вирусную для опенсорса, никто не запрещает проприетарщине иметь не совместимые между собой лицензии.

Аноним 28/11/23 Втр 22:58:40 #238 №557779

>>557671
Ох, чувак, учи матчасть. И про вирусность лицензии, и про разницу копилефта и пермиссива, и вот это всё. В двух словах не объяснить. Грубо говоря, у SD - пермиссивка, не вирусная: мол, вот вам веса, творите что хотите. Или нет, анончики?..

Аноним 28/11/23 Втр 23:21:16 #239 №557803

>>557671
>>557708
>>557779
Лицензия не опенсорс, а OpenRAIL++. Попенсорс был бы, если был бы весь процесс можно было бы реплицировать с нуля, включая точный датасет и все настройки тренировки. Ну и датасет тоже должен позволять такое использование.

А в чём проблема что прячут за api? Ну никак не совместимо. Как выпустят веса, так будет OpenRAIL++.

>>557634
Так же как и лору или будку, в чём конкретно вопрос?

Аноним 28/11/23 Втр 23:22:55 #240 №557805

https://huggingface.co/stabilityai/sdxl-turbo

Вжух! SDXL-турбо, под реалтайм использование. Быстрее LCM (1-2 шага), и по словам SAI качество лучшеее.

Аноним 28/11/23 Втр 23:41:17 #241 №557820

>>557805
https://comfyanonymous.github.io/ComfyUI_examples/sdturbo/

Аноним 28/11/23 Втр 23:49:43 #242 №557829

>>557805
Кал какой-то. Похоже тренировалось на 512, на 1024 мутанты как на ванильной полторашке, качество говно. Мержил разницу к кастомкам - пиздец хуже LCM. Негативы не работают так же как и с LCM.

Аноним 28/11/23 Втр 23:55:23 #243 №557832

>>557829
У них обратные результаты, а на 4 шагах получается что-то уровня SDXL. Собственно цель и была избавиться от LCM-мыла. Пока читаю пейпер, не вижу ничего препятствующего негативам как в LCM

Аноним 29/11/23 Срд 00:01:56 #244 №557836

>>557832
На практике я не вижу этого результата. И апскейлится оно очень хуёво. XL и так такое себе по качеству картинки, а это совсем пизда.
> избавиться от LCM-мыла
Легко избавляется дополнительными 4-6 шагами хайрезфикса с Euler a.
> не вижу ничего препятствующего негативам как в LCM
Они выключены вообще в демо SAI, в принципе их нет. Если на практике включить CFG 1.5 - сразу пидорасит.

Аноним 29/11/23 Срд 00:06:00 #245 №557838

>>557805
Есть демо на клипдропе
https://clipdrop.co/stable-diffusion-turbo
Выглядит очень плохо, хуже ванильной полторашки. Всё в артефактах, разрешение как у полторахи, вместо людей месиво.

Аноним 29/11/23 Срд 00:24:15 #246 №557853

ну че все идёт к тому что нейросетки будут риалтайм?

Аноним 29/11/23 Срд 00:37:20 #247 №557868

>>557853
Всё идёт к тому что в следующем году полторашку изобретут второй раз. Будет реальным прорывом, глядя на то как отрицательно прогрессирует качество в последние пол года. Какая-то рекурсия, год прошёл, а стало только шакальнее, зато в 10 раз быстрее.

Аноним 29/11/23 Срд 00:52:18 #248 №557884

>>557868
Какое быстрее, у меня до сих пор на CPU не идет. Не покупать же видяху.

Аноним 29/11/23 Срд 00:58:42 #249 №557889

>>557365
>Сейчас сложно найти новые файнтюны 1.5 что проводят в разрешении 512.

Ага, вот только все примеры к топовым моделям сделаны на каких-нибудь 512х640 или 512х768 и потом прохайрежены. Но ладно, я могу быть долбодятлом и долбиться в глазоньки... можешь, плиз, показать хорошие, годные современные фотореалистичные модели, по качеству не уступающие фотогазму (возьмём его за точку отсчёта), которые легко сгенерят мне тянку без искажения пропорций... ну, хотя бы 649х960? 16 тянок из 16, например. С тебя сид-промпт - прочие сорцы, с меня - попытаться построить контрпример.

И как тогда, кстати, делают современные инпаинтинговые модели, которыми раздевают тянок? Тренят скриптом? Каким?..

Аноним 29/11/23 Срд 00:59:28 #250 №557890

>>557884
Сколько гигов оперативки?

Аноним 29/11/23 Срд 01:01:08 #251 №557891

>>557890
8, но это shared RAM

Аноним 29/11/23 Срд 01:05:07 #252 №557893

>>557853
Я в крите балуюсь "реалтаймом" в 4 секунды на фрейм безо всяких ЛЦМ, и это просто охуенно, совершенно иной способ, мамины "промпт инженеры" сосут бибу. Игнорируй довена выше, он ноет абсолютно всегда.

Аноним 29/11/23 Срд 01:11:29 #253 №557895

>>557893
Кстати, есть идея прикрутить подобный процесс в редактор на андроиде, с использованием облака. Рисовать пальцем. Технически будет несложно, просто нет такого же редактора на андроид чтоб сделать плагин.

Аноним 29/11/23 Срд 01:16:39 #254 №557896

>>557884
Я скушал аренда-пилюлю и уже передумал покупать 4090. Покупать имеет смысл если тебе есть чем её загрузить 24/7. На деньги что нужны для 4090 и компа под неё, я могу лет 6-7 подряд генерить в темпе 2 часа в день, а там уже несколько поколений пройдёт, и заточки под новый куда компьют, и вообще всё совершенно изменится.
И при этом мне не нужна 4090 большую часть времени, обычно хватает V100 16ГБ или 3090 24ГБ, а для тренировки всё равно выгодней арендовать большой утюг вроде A100 80ГБ, т.к. можно увеличить размер батча и выйдет быстрее+дешевле чем на 4090, либо тренировать SDXL на полной точности. Так что выходит намного дешевле.

Аноним 29/11/23 Срд 01:17:48 #255 №557897

На реддите пояснили, чем civitai отбивает затраты на свой генератор. Ответ: ничем.

>Burning venture capital until they get bought by someone larger or crash, like a lot of companies

Потом продадут бизнес, а новые владельцы введут цензуру, позапрещают всё NSFW и модели с лолями типа CuteYukiMix.
Кстати, уже был похожий, охуенный сайт - который закрылся, когда сжег бабло с инвестиций. Подозреваю, что и с проектом SD, и со стабилити та же история. Эх...

Аноним 29/11/23 Срд 01:19:45 #256 №557899

>>557895
Пальцем неудобно, куда лучше небольшой планшет купить графический, с пером. Рисовать толком уметь не надо, надо просто мочь представлять картинку в голове. Хотя можно и айпад/самсунг с пером, тоже прокатит.

Аноним 29/11/23 Срд 01:19:58 #257 №557900

>>557365
>Невозможно сделать пару волшебных слоев, которые из поломанной <...> сделают хорошую картинку.

Давай зададимся (пока теоретически) более простой целью. Допустим, что нам нужно уметь делать хайрезный дженерик. Одна тян, стоит/сидит, смотрит в камеру / вбок / вдаль / на тебя как на говно. Много ли тут информации надо впитать, а? Голова сверху, ноги снизу, пупок один (ну или там по количеству тянок), грудей один ряд. Горизонт слева и справа на одном уровне. Небо вверху одним куском. Ну и так далее. Возможно ли это теоретически - или я принципиально не понимаю, как работают гипернетворки?

>>557896

Аноним 29/11/23 Срд 01:23:11 #258 №557902

>>557893
какой денойз в им2им ставишь?

Аноним 29/11/23 Срд 01:24:46 #259 №557903

>>557897
>Подозреваю, что и с проектом SD, и со стабилити та же история.

Ага, только есть нюанс. Джинна в бутылку не загнать, веса полторашки и сдохли уже в паблике, контролнет придумала не стабилити, а коммьюнити (поправьте, если неправ). Мир уже никогда не будет прежним. А бабло инвесторов... ну, это бабло инвесторов. Они знают, что идут на риск.

Аноним 29/11/23 Срд 01:25:17 #260 №557904

>>557899
Братюнь, купить можно и видеокарту для ПК, а нужны именно решения для девайсов которые есть под рукой.
Рисовать умею, стилус для Wacom планшета где-то проебался лет пять назад, - да и мобильные устройства мне так-то больше нравятся.

Аноним 29/11/23 Срд 01:26:06 #261 №557905

>>557896
Можно кулстори с подробностями? Оно, конечно, лучшие вещи в мире бесплатны, но о нелучших тоже неплохо бы знать. Какой страны карточка, которой платишь? Какой сервис используешь? Почём час аренды утюга?

Аноним 29/11/23 Срд 01:29:05 #262 №557908

>>557897
Блять, отрыл Армению, зарывай обратно. Чугуниевая долина в таком режиме вообще десятилетиями живёт. Реальность же в том что цена тренировки резко упала и доступна / скоро будет доступна хуям простым.

Аноним 29/11/23 Срд 01:30:52 #263 №557910

>>557889
> годные современные фотореалистичные модели
Предпочитаю 2д, сорян. Стоит отметить что большинство современных миксов без проблем переваривают 768х768, 800х600 и подобные разрешения и хорошо себя показывают на апскейлах.
Раньше думал что в фотораелизме там дохуя какой прогресс, но поизучав посты авторов "топовых моделей", их рекомендации, гайды и прочее сильно засомневался. Но это лишь оценочное суждение по узкой выборке, офк найдутся и хорошие мастера - моделеделы.
Натренить базовую модель в ~768, не поломав а наоборот улучшив, сделав лучшую работу с мелкими деталями и когерентность, добавив то что хочешь - не то чтобы сложно, а потом результат мерджишь по усмотрению, получая все фишки. "Повышение эффективного разрешения" возможно даже лорой сделать, будет побочный эффект если тренить в изначально большем разрешении. Офк речь о нормальной а не пиздеце с клозап лицами. Другой пример - собаки, которые заявляют 1024 базовым разрешением и относительно когерентных тней генерируют в нем.
> кстати, делают современные инпаинтинговые модели
Просто современные модели - дримбус. Инпаинтовые - мерджем разницы с древностью времен 1.4. Возможно есть более новые зафантюненные модели с теми слоями, не в курсе. Чтобы раздевать тяночку достаточно самой обычной модели без всяких доп слоев.
>>557900
Хз как они работают, писали что шли поверх основной модели. Если у тебя в глубине поломалось, то обратно не соберешь, для работы в повышенном разрешении вся модель должна хорошо работать, а не иметь при себе волшебную добавку. Как раз ту самую информацию что ты описал оно должно чувствовать на большей области.

Аноним 29/11/23 Срд 01:32:56 #264 №557912

>>557905
Я не он, но использую полнофункциональное API бесплатно. Не хватает лишь мелочей типа обработки видео.

Аноним 29/11/23 Срд 01:34:12 #265 №557914

>>557365
Алсо, а где можно взять соответствующие датасет хотя бы на пару тысяч картинок? Можно, конечно, взять фотки одноклассниц из вконтактика заботливо мною сохранённые на винте ещё в бытность школьником, а вы что подумали? и протегать их, но такой датасет ведь будет нелегален, верно? Нельзя ведь просто так взять картинку из интернета и распространять её. Нехорошо-с, неопенсорсненько.

Набирать же генерации с цивиты... Ох, ну с анимцом ещё туда-сюда этот способ, но реалистик... Ой...

Аноним 29/11/23 Срд 01:37:10 #266 №557918

>>557912
Раз бесплатно, то тем более пили кулстори. Анонимус ждёт!

Аноним 29/11/23 Срд 01:42:42 #267 №557922

>>557910
>Предпочитаю 2д
Сейм.

Но для меня есть два направления, одно из них это манга-стиль. Причем ортодоксальный, без 2.5д, без "обведенного" 3д носа у персонажей.
Второе - это японские айдору и AV контент, с фотореалистичными SD моделями. Здесь задача подражать скриншотам из японских фильмов, поэтому реализм должен наоборот быть максимальным, без CG эффектов. Почему-то не перевариваю блядей как в met-art, MILF и подобные фетиши. Но японские JAV актрисы это другое, они милые. Причем, могу сразу на глаз различать японок, кореянок и китаянок - у них разное строение лиц, например кореянки немного похожи на белых. Мои любимые актрисы ирл Yua Mikamo и Yui Hatano. Ayumi Shinoda всратка, но шишка колом. Юлька вообще грудастая богиня, сразу видно еврейскую кровь.

Аноним 29/11/23 Срд 01:43:58 #268 №557924

>>557922
>Mikamo
Mikami

Аноним 29/11/23 Срд 01:49:33 #269 №557926

>>557905
vast.ai, другой страны + впн для оплаты, час утюга от полубакса до полутора в зависимости от утюгастости и времени суток, час обычной видюхи в 2-3 раза дешевле. Сетевой трафик не бесплатный, это тоже надо учитывать и экономить размеры. Есть ещё runpod, есть serverless апи для генерации типа comfyuiworkflows с готовым подключением комфи или modal с быстрым холодным стартом, которые берут только за загрузку, они вроде дешевле, но если нагружать дохуя то дороже.

Аноним 29/11/23 Срд 01:49:44 #270 №557927

>>557918
nogpu-webui.com
Если не сможешь разобраться - значит, тебе не нужно

Аноним 29/11/23 Срд 01:51:08 #271 №557928

04917-3330361234-39096bd097c14dfcbe00c40eee7cf151.png

04916-3330361233-6569ff703ec749958c27011fa0f911d9.png

04930-3330361233-8fa734455ccd41208263abcfddea383f.png

04976-1337-0546503ca97e4d48a1a95841041ca1f0.png

>>557910
>Предпочитаю 2д, сорян. Стоит отметить что большинство современных миксов без проблем переваривают 768х768, 800х600 и подобные разрешения и хорошо себя показывают на апскейлах.

О, чувак, вот тебе Lametta с 1024х1024 от фуррей. Не ах какой идеал, но пикрил сделаны на ней без хайрезфикса.

https://huggingface.co/NickKolok/lametta-v2012-beastboost-2ch-fp16

Но у неё есть некие проблемы с обучаемостью с будке. Впрочем, не исключено, что это у меня проблемы с кривизной рук.

> "Повышение эффективного разрешения" возможно даже лорой сделать, будет побочный эффект если тренить в изначально большем разрешении.

Всё уже украдено придумано до нас. https://civitai.com/models/110071/hd-helper
Толком не тестил, хотя вау-эффекта не даёт.

Аноним 29/11/23 Срд 01:55:20 #272 №557930

>>557928
>Всё уже украдено придумано до нас.
На аниме-моделях нифига не работает, кстати.

Аноним 29/11/23 Срд 01:55:57 #273 №557931

>>557927
>nogpu-webui.com
Так со сбросом кук (в моём случае - chromium-browser --temp-profile) и на гравити можно. Какие плюсы/минусы?.. Какие подводные?

Аноним 29/11/23 Срд 01:57:30 #274 №557932

>>557930
На анимэ-моделях есть BeastBoost. Про проверку которого на реалистике мне ничего не известно. Мой ноут почти успел достигнуть японского возраста согласия, но последний внезапно подняли

Аноним 29/11/23 Срд 02:02:28 #275 №557933

>>557914
Некоторые выложены в публичном доступе на той же обниморде, на кагле есть коллекции и т.д., но офк на них уже тренили и качество там самое разное. Собирай самостоятельно на различных агрегаторах и потом тегай хотябы тем же клипом.
> но такой датасет ведь будет нелегален, верно?
Это серая зона в принципе, сложно доказать и на обычного пользователя всем похуй. Если так это волнует - делай свои фотографии в публичных местах, обрабатывай и используй. Можно этот процесс даже автоматизировать чтобы время не тратить, закону не противоречит. Или используй ресурсы со свободной линцензией контента, много начинающих фотографов выкладывают с такими.
> Набирать же генерации с цивиты
Только если самые отборные и удачные, иначе преумножит количество артефактов.
>>557922
Эх, назвал два самых "сложных" направления из 2д. По первому проблематично собрать датасет ибо сложно сортировать чтобы остальное не подмешивалось. Но и избегать этого нельзя ибо не наберешь должного баланса и разнообразия датасета, как вариант вообще просто лорой воспользоваться поверх "униваерсальной модели". Второе уже сильно в фотореализм, но с элементами. Только пиздеть рассуждать могу, подсказать нечего, увы.
>>557928
> пикрил сделаны на ней без хайрезфикса
Год назад о подобном можно было только мечтать, отличный пример.

Аноним 29/11/23 Срд 02:04:48 #276 №557934

>>544450
Да, будку на колабе.

Аноним 29/11/23 Срд 02:05:02 #277 №557935

>>557931
На гравити нужно регать акк, даже если и не сдетектят сразу твое временное мыло. Всё это - руками.

Аноним 29/11/23 Срд 02:07:41 #278 №557936

>>557933
>назвал два самых "сложных" направления из 2д.
Щта? Это же и есть самые проработанные файнтюны. Первое Anything v3 и прочие, второе - есть реалистик модели специально для азиаток.

Аноним 29/11/23 Срд 02:08:51 #279 №557937

>>557928
Чем превосходит XL?

Аноним 29/11/23 Срд 02:10:03 #280 №557938

>>557914
Генерируй с dall-e 3

Аноним 29/11/23 Срд 02:13:21 #281 №557940

>>557933
Да неправильно это - добиваться когерентности лорами, да извинит поздний час мой теоретизирующий максимализм. Лора - это ведь искажение весов модели, искажение, которое что-то убирает, что-то корёжит. Не должно это так работать, должно быть приращение знания! Вот жопой чую! Должен быть способ добавить информацию в модель, как это делают две самые успешные технологии в мире SD, два game changer - инпаинтинг и контролнет... Должна быть выраженная модульность.

Хотя добавить гипернетворк/слои, отвечающие за когерентность, а потом уже вместе с ними тренировать модель как единое целое на высоких разрешениях - тоже вполне себе хорошая идея. Вот сейчас что будет, если условную NAI начать тренировать на 1280х1280? Подозреваю, что полная фигня! Тут ведь был анон с датасетом под 1024, или это в SD-треде?..

Человек с высшим математическим образованием никогда не скажет "полная жопа" - он тактично уточнит, что наблюдаемая жопа - банахова.

Аноним 29/11/23 Срд 02:15:05 #282 №557942

>>557928
>BeastBoost is a trick developed by Anonymous on 2ch.hk/ai/ imageboard.

RAKI SUKA

Аноним 29/11/23 Срд 02:18:47 #283 №557944

>>557942
Извольте детальнее изложить причину недовольства, сударь, пока я не вызвал Вас по айпи на дуэль на пингах ?

Аноним 29/11/23 Срд 02:24:42 #284 №557945

>>557936
> Первое Anything v3
Древнее зло, не соответствующее современным стандартам и недалеко ушедшее от наи, в сравнительных гридах хорошо заметно, которое вполне себе выдает 2.5+д если попросить художниками и длинными промтами на реализм.
>>557940
Правильный путь - полноценный файнтюн.
> Хотя добавить гипернетворк/слои, отвечающие за когерентность
Это как добавить человеку вторую печень чтобы улучшить его мелкую моторику, никакого толку. Простая тренировка решит эту проблему. Если ты просто про изменение размеров слоев или их структуры - это уже другая модель будет, как 2.1/xl.
> Подозреваю, что полная фигня!
Если найдешь хороший сбалансированный датасет, подберешь параметры тренировки и постепенно поднимешь разрешение - будет не фигня. Только это просто лишь на словах, сделать это так чтобы при этом ничего случайно не лоботомировалось - та еще задача. Для анимца просто хайрез пикчи это меньшая из проблем.

Аноним 29/11/23 Срд 02:25:59 #285 №557947

>>557932
Это шаманство с мёрджами мы тут сравнительно недавно тестировали, и лично я пришел к выводу, что не стоит оно того. Начинает выдавать картинки с разной степенью контрастности, вдобавок периодически выдавая непонятные цветовые акценты туда, где их быть не должно. Особенно сильно било синим и фиолетовым цветами. Чертовы синие собаки, их явно было слишком много в датасете оригинальной меховой модели.

Хотя возможно, что с тех пор методика мёрджа как-то поменялась. Хз.

Аноним 29/11/23 Срд 02:28:59 #286 №557948

>>557937
Совместимостью со всем полторашным хозяйством, включая схемы обучения, лоры, контролнеты и т.д. Насколько там хорошая совместимость - вопрос дискуссионный, но явно лучшая, чем полное её отсутствие у сдохли.

Что не отменяет того факта, что за сдохлей может быть будущее.

Кстати, из релиза "контры" (SD 1.6) убрали хвастовство про хайрез, теперь там просто
> stable-diffusion-v1-6 has been optimized to provide higher quality 512px generations when compared to stable-diffusion-v1-5

https://platform.stability.ai/docs/release-notes#stable-image-v1-release

Аноним 29/11/23 Срд 02:31:28 #287 №557949

>>557947
Насколько я понимаю, это всё тот же train-diff задом наперёд.

Аноним 29/11/23 Срд 02:32:48 #288 №557950

>>557945
>Это как добавить человеку вторую печень чтобы улучшить его мелкую моторику, никакого толку.

Чего это никакого? Быстрее выводится алкоголь -> меньше трясутся руки -> лучше мелкая моторика!

Аноним 29/11/23 Срд 02:42:06 #289 №557953

>>557948
Всегда знал, что бенгали - пиздаболы, лишь бы струсить бабла с инвесторов.

Аноним 29/11/23 Срд 02:43:36 #290 №557954

diffused2023-11-28---21-41-04.png

diffused2023-11-28---21-35-51-870597814055312.png.hires-0.4420.png

diffused2023-11-28---19-39-41.png

diffused2023-11-28---19-39-35.png

И ещё один вопрос. Как водится, ЕОТ. Тренил я её, тренил, и наконец натренил. Нагенерил много картинок. Понятно, что какие-то похожие и удачные, а какие-то... Вот пикрил1. Вроде няша, и вроде волосы такие, и причёска, и глаз столько же. Однако ж - не она!

А пикрил 2 вообще капец. И тоже не она. Пикрил3 тоже не очень-то похож - и субъективно, и объективно. Пикрил4 вобще морду помяло.

Не пропадать же нагенерённому добру? Может, его можно как-то присобачить к тренировочному датасету (с отрицательным весом? как отдельный концепт?) и повторить тренировку?..

Алсо, а как вообще валидируется успешность тренинга лица, кроме подсчёта совпадений на https://search4faces.com/search_vkwall.html ?

Аноним 29/11/23 Срд 03:14:17 #291 №557960

image.png

>>557928
Чет я не могу найти этот флаффирок e159, у автора этой линейки модели нет такой, либо почему всем так впадлу писать ссылки на модели, которые используют в мерджах?

Аноним 29/11/23 Срд 03:37:51 #292 №557962

https://nitter.net/EMostaque/status/1729609312601887109#m

П - "Предательство"

Аноним 29/11/23 Срд 04:57:34 #293 №557983

>>557962
>не монетизируешься
>жалуются
>монетизируешься
>снова жалуются

Аноним 29/11/23 Срд 06:44:24 #294 №557997

>>557949
Ну я вот модель по ссылке потестировал - вообщем-то получше, чем в моем мердже. Когерентность не теряется, контраст постоянный.
Задники блюрит только совершенно нещадно (хотя может это косяк базовой модели, хз), ну и вообще на 1024х768 не шибко много разницы заметно, по сравнению с каким-нибудь 800х600, в котором я стандартно лоурезы генерю.
Только вот с 1024 вполне и кохаевский хайрезфикс справляется плюс-минус с теми же затратами скорости.

P.s. ради интереса посмотрел, так моя текущая модель вполне себе с 1024х768 справляется и сама по себе, ха. Вот она, польза файнтюнов.

Аноним 29/11/23 Срд 07:09:04 #295 №558001

Аноны, а кто-нибудь мега-лоры с сетами в несколько тысяч картинок тут тренил вообще? Какие настройки нужны при такой тренировке?
Вот, допустим, я тренирую, ну, скажем, деревья.
Датасет и тэги структурирую следующим образом:

В стиле_Ван-Гога__Дерево
В стиле_Ван-Гога__Дерево__Зимой
В стиле_Ван-Гога__Дерево__Летом
В стиле_Шишкина__Дерево
В стиле_Шишкина__Дерево__Зимой
В стиле_Шишкина__Дерево__Летом

Тренить, понятное дело, буду не деревья

Всё по стандарту ставить, просто повторений на каждую картинку поменьше?
Но ведь очень сильное усреднение получится? Тогда как мне бы хотелось бы чтоб лора смогла это всё разграничить, не смешивая. Чтоб была возможность суб-концепты (дерево_шишкина_зимой) вызывать поверх базового (просто какого-то усредненного дерева)
Дотренировку делать после того, как один блок-датасет ухватится? А оверфита не получится? Ведь базовый концепт (дерево) будет один.
Непонятно, вообщем.

Аноним 29/11/23 Срд 07:21:14 #296 №558004

>>557803
>Так же как и лору или будку, в чём конкретно вопрос?
Ну и как? Вот я обучил модель, как её туда обратно запихнуть чтоб она дообучилась с более долгим lr ?
я даже когда ставил на стоп кнопкой она потом заново с первой эпохи куячила, а не продолжала. куда жать что делать бля конкретно

Аноним 29/11/23 Срд 09:04:03 #297 №558035

>>557708
> а SAI правообладатель
>>557703 →
> А в чём проблема что прячут за api? Ну никак не совместимо. Как выпустят веса, так будет OpenRAIL++.

Так они ж не с нуля сделали, они дообучили веса, натрененые изначально вообще CompVis

>>557779
> у SD - пермиссивка, не вирусная:
Я на цивите краткое описание этого open rail++ смотрел, там мержи и дообученные нельзя продавать указано. То есть уже точно не полностью свободная. Может она вирусная только в плане продажи, хз, а в плане сервиса - нет. Саму лицензию я читать, конечно же, не буду. Есть еще вариант, что создатель прошлых весов в особом порядке для них пролиценщировал

Sd корнями из MIT идет, нет? Вообще, судя по политике sai, создается впечатление, что они очень хотят закрыть свои модели. И думаю если б не вирусность, то с радостью как open ai закрыли бы. На сайте ни слова про локальное использование

Аноним 29/11/23 Срд 09:11:21 #298 №558037

>>557836
> Если на практике включить CFG 1.5 - сразу пидорасит.
Плюс негативы работают не корректно. Просто рандомно меняют картинку, а не то, что указал в негативе

Аноним 29/11/23 Срд 09:28:50 #299 №558040

>>558004
В командной строке у Кохи был флажок --resume, посмотри, как он работает.

Аноним 29/11/23 Срд 09:34:11 #300 №558042

>>558040
в какой нахуй командной строке, у меня эта визуальная хуета автоматика

Аноним 29/11/23 Срд 10:30:50 #301 №558070

>>558042
> в какой нахуй командной строке
> Stable Diffusion технотред

Аноним 29/11/23 Срд 10:31:40 #302 №558071

>>558042
> в какой нахуй командной строке
Командная строка - это терминал. Консоль. PlayStation 5

Аноним 29/11/23 Срд 11:26:07 #303 №558090

>>558042
Ну лично я сторонник баша, хотя вот zsh и dash тоже хвалят. Главное - не cmd

Аноним 29/11/23 Срд 11:27:15 #304 №558092

Там Linaqruf опубликовал ебейшую XL модель, го пробовать.

Аноним 29/11/23 Срд 11:35:31 #305 №558098

image.png

>>558071
>>558070
где тут командная строка?

Аноним 29/11/23 Срд 11:42:58 #306 №558102

Анончики, хочу тренировать лору, подскажите, что такое регулярязационные изображения?

Аноним 29/11/23 Срд 12:20:25 #307 №558119

>>558098
Братишка, не выебывайся и спроси иначе. Повторяй за мной: "аноны, помогите, я не знаю как в командную строку, что нужно сделать?"

Аноним 29/11/23 Срд 12:37:19 #308 №558127

>>558119
Нахуй мне твоя командная строка не впёрлась, мне нужно через визуальный интерфейс автоматика как белый человек запустить дообучение, а не пердолить в линуксы

Аноним 29/11/23 Срд 13:37:07 #309 №558147

>>558098
>>558127
Где тут автоматик? Или пихаешь свою модель в качестве исходной и тренишь дальше с новым запуском шедулера, или через --resume как и сказали продолжаешь, но тогда шедулер продолжится и если он завершился то заново начинай.

Аноним 29/11/23 Срд 15:08:04 #310 №558221

Сука блять, что ха хуйня. Драйвер не обновлялся, дистр не обновлялся, нихуя не обновлялось, но NansException: A tensor with all NaNs was produced in Unet. This could be either because there's not enough precision to represent the picture, or because your video card does not support half type. Try setting the "Upcast cross attention layer to float32" option in Settings > Stable Diffusion or using the --no-half commandline argument to fix this. Use --disable-nan-check commandline argument to disable this check.
Да какова ж хуя, что сломалось-то бля. И ведь --no-half --no-half-vae есть, и float32 тоже попробовал выставить, и все равно залупа. Не буду же я --disable-nan-check ставить чтобы черные квадраты получать.
ГОВНО ЖОПА

Аноним 29/11/23 Срд 15:19:21 #311 №558232

image.png

>>558147
> Или пихаешь свою модель в качестве исходной
Как его туда запихать? там нет кнопки добавить другую свою

Аноним 29/11/23 Срд 15:24:36 #312 №558236

>>558232
Пиздос, ты даже в гуе заблудился, даже блять мышкой натыкать не в состоянии. Кастом нажми, мудила.

Аноним 29/11/23 Срд 15:25:12 #313 №558237

>>558232
Белый блять человек он, обезьяна ёбаная.

Аноним 29/11/23 Срд 15:34:13 #314 №558240

>>558236
Если в тебе осталась хоть капля мужского согласись, что это было не так очевидно как ты это преподносишь. custom должен быть вынесен отдельно, а не в общем списке с моделями, это я тебе как дизайнер говорю.

Аноним 29/11/23 Срд 15:35:54 #315 №558241

>>558240
>custom должен быть вынесен отдельно
>это я тебе как дизайнер говорю.
А я-то думаю, почему с каждым годом интерфейсы все всратее и всратее.

Аноним 29/11/23 Срд 15:40:02 #316 №558248

>>558241
потому что их делают индусы, а не я.

Аноним 29/11/23 Срд 16:31:22 #317 №558292

heyBarsee-1729530509754003879-20231128225941-vid1.mp4

https://twitter.com/heyBarsee/status/1729529998250250439
https://pika.art/login
Что думаете?

Аноним 29/11/23 Срд 16:33:04 #318 №558296

>>558292
Вот кстати, а треда на видеогенерацию нет, чтоль?
Или он где-то утонул?
На дипфейки вижу, а вот чисто видео - что-то нет.

Аноним 29/11/23 Срд 16:36:22 #319 №558301

>>558296
А зачем он? Видеогенерация все еще кал

Аноним 29/11/23 Срд 16:55:00 #320 №558327

>>558221
Настало время переустанавливать автоматик!
>>558232
Действительно белый человек. Выбираешь "кастом" и потом вручную прописываешь путь к своей моделке. Чтобы не обосраться - скопируй из проводника.
>>558292
Если бы эти видеогенераторы были в действительности также хороши как на промо видео.

Аноним 29/11/23 Срд 17:03:18 #321 №558334

>>558035
Ну вон Имад твитнул выше, рассматривают Юнити-монетизацию для новых core-моделей. Типа если зарабатываешь этой моделью, башляешь им фиксированную плату, а для остального можешь юзать и файнтюнить как хочешь.

Аноним 29/11/23 Срд 17:10:37 #322 №558337

>>558292
Ехал черрипик через черрипик.
Помнится ещё год назад кто-то показал ахуительный рил с переносом стиля голливудско-диснеевского качества, а воз и ныне там.
Заебись было бы иметь хорошую видео модель, но по демо-рилам не судят.

Аноним 29/11/23 Срд 17:21:12 #323 №558338

input0t.mp4

>>558292

Аноним 29/11/23 Срд 17:46:31 #324 №558350

>>558296
https://2ch.hk/ai/res/191362.html

Просто надо чаще постить контент.
>кто, я?

Аноним 29/11/23 Срд 17:55:17 #325 №558361

>>558337
>Ехал черрипик через черрипик.
Как будто картинки не так генерятся, лол.
На одну хорошую - десяток-другой не очень.

>>558301
НАИ в начале тоже кал был (сравнивая с текущим состоянием дел), а тред до сих пор есть.

Аноним 29/11/23 Срд 18:07:09 #326 №558374

>>558361
Они пока хуже наи и даже дефолтной SD1.4

Аноним 29/11/23 Срд 19:28:28 #327 №558421

Сап, вечерний. ЕОТ. А вот пиков её косплея на конкретного персонажа в хорошем качестве - раз, два и обчёлся. Но есть шакалы а-ля 384х640 (то есть у самих фоток-то разрешение поболе будет, но они со сцены и там другие тяночки тоже есть, не такие интересные.

Вопрос: чем апскейлить? Каким апскейлером? К моим услугам все те, что есть на гравити.

Персонаж очень уж оригинальный - бульбазавр в бикини.

Аноним 29/11/23 Срд 20:08:20 #328 №558480

>>558361
>Как будто картинки не так генерятся, лол.
>На одну хорошую - десяток-другой не очень.
Нет. Если меняешь сид, уже что-то не так. Черрипик это следствие ограничений, как и промпт инжиниринг, рандом непригоден для практического юзания.

Аноним 29/11/23 Срд 20:16:41 #329 №558499

изображение.png

>>558480
>рандом непригоден для практического юзания.
При этом вся ИИ-генерация картинок построена на создании изображения из рандомного шума.
Ага.

P.s. Опять капчу поменяли. Как вот такое решать, ё-моё?!

Аноним 30/11/23 Чтв 16:02:36 #330 №559049

https://twitter.com/toyxyz3/status/1729922123119104476
https://twitter.com/toyxyz3/status/1729925444596855041

Походу всё-таки придется комфи ставить и изучать.
В автоматик такого врядли завезут.

Аноним 30/11/23 Чтв 16:22:19 #331 №559058

>>559049
В интеграциях с фотошопом/критой уже давно есть.

Аноним 30/11/23 Чтв 17:16:57 #332 №559081

Штош... 1050 показывала ~60it/s, 1630 показывает ~18it/s (возможно что еще немношк разгонится)
Охуеть, это даже быстрей чем на моей домашней 1063 хотя userbench показывает что она мощнее в джва раза.

Аноним 30/11/23 Чтв 17:33:59 #333 №559092

Как добавить вариативности в инпаинтинге? Сиды, смена шедулера не помогают. Модель генерирует результаты с минимальными изменениями

Аноним 30/11/23 Чтв 19:02:10 #334 №559155

>>559049
Так это давно было в плагинах под комфи, и для блендера, и для криты. Через OBS это костыль какой-то.

>>559092
Деноис повысь, наверно.

>>559081
>1050 показывала ~60it/s, 1630 показывает ~18it/s
Чтобля, где ты там столько итераций накопал, 4090 еле до 60it/s допукивает при всех оптимизонах

Аноним 30/11/23 Чтв 19:10:47 #335 №559173

https://www.bloomberg.com/news/articles/2023-11-29/stability-ai-has-explored-sale-as-investor-urges-ceo-to-resign
Паджита хотят пидорнуть, говорят что слишком распиздяй для CEO. И SAI может продадут, но пока нет.

Аноним 30/11/23 Чтв 20:30:50 #336 №559270

mediaGAJenO1W0AIRE8F.jpg

https://arxiv.org/abs/2311.17528
Ещё одна попытка в хайрезфикс без хайрезфикса. и без кода

Аноним 30/11/23 Чтв 20:52:24 #337 №559293

>>559270
И ещё одна. с кодом
https://ruoyidu.github.io/demofusion/demofusion.html

Аноним 30/11/23 Чтв 21:05:32 #338 №559301

>>559270
Это хайрезфикс кохи, только вместо интерполяции конволюшеном жмут.
>>559293
Тайлинг, сразу нахуй.

Аноним 30/11/23 Чтв 21:15:50 #339 №559313

>>559301
Там же только первая половина от кохи.

Аноним 30/11/23 Чтв 21:57:06 #340 №559339

>>559313
Вторая половина про Свин - это оптимизации скорости для хайрезов в основном.

Аноним 30/11/23 Чтв 23:06:14 #341 №559418

Без имени.png

>>559155
Не бомби, это я ошибся перепутав показания. Не it/s а s/it то есть секунд на 1 шаг. Не стал исправлять, подумал что вы и так поймете. Пикрил 1063 из консоли (об этом нюансе я писал тут >>554424), для 1050 и 1630 так же скорость с запуском из консоли, через гуи я ебал запускать теряя половину скорости. 1050 я уже не пруфану в любом случае, а вот 1630 завтра принесу если не забуду.

Ну и еще я на днях попробовал на интол арк А380 завестись. В вебморде запуск через openvino появился, но ебать какой же это костыль. Короче я нишмог, и ебаться особого желания не было - воткнул невидию обратно.

Аноним 01/12/23 Птн 02:52:08 #342 №559660

>>559155
>>559058
Шо, прям вот так с переключениями по контролнетам, с позером, в котором есть скелет, и прочими свистоперделками, типа сегментации?
Или все-таки тупо "что-то рисую, оно мне это обрабатывает"?

Аноним 01/12/23 Птн 04:39:24 #343 №559707

>>559660
>Шо, прям вот так с переключениями по контролнетам, с позером, в котором есть скелет, и прочими свистоперделками, типа сегментации?
Ну да, в плагине под криту оно так и работает. Можно и скелет в векторе подвигать (и списать с позы), и IPAdapter есть, и сегментация, и хуяция, и естественно нормальный критовский инструмент доступен - кисти, слои ебошишь, перспективные гайды, трансформации и т.п. https://github.com/Acly/krita-ai-diffusion
Плагин под блендер это вообще конвертация комфи-нод в блендерные. https://github.com/AIGODLIKE/ComfyUI-BlenderAI-node/ плюс есть риг готовый https://toyxyz.gumroad.com/l/ciojz

Аноним 01/12/23 Птн 06:08:49 #344 №559745

а экстракт метод мерджа хорош, не такой ебнутый как трейн дифренс

Аноним 01/12/23 Птн 06:37:42 #345 №559753

>>559707
Та не, это не совсем то, что на видео показывали.

Хотя в ФШ и того нет поди...

Блин, не хочется криту осваивать. Лениво ппц.

Аноним 01/12/23 Птн 07:16:05 #346 №559769

1701404164601.jpg

1701404164619.jpg

Новый Realistic Vision 6.0, судя по редми из беты, генерит на разрешениях 896х896, 768х1024, 640х1152 :О

Прокачка фуррями здорового человека?

https://huggingface.co/SG161222/Realistic_Vision_V6.0_B1_noVAE

Аноним 01/12/23 Птн 07:21:23 #347 №559775

>>559753
>Та не, это не совсем то, что на видео показывали.
Да нет, прям то. И реалтайм, и скелеты, и всё что хошь.
https://www.youtube.com/watch?v=-QDPEcVmdLI
https://www.youtube.com/watch?v=AF2VyqSApjA

Аноним 01/12/23 Птн 07:36:39 #348 №559783

>>559769
Потестил - ну смешанное впечатление. На 896х896 иногда мутации проскакивают, но редко. Но судя по рекомендуемому промпту на негатив - они выполняют дофига работы. (Там стена текста из missing limbs и т.п.), модель он обучил их воспринимать корректно

А по фотореализму - кажется стало только хуже, и до EpicPhotogasm очень далеко...

Аноним 01/12/23 Птн 09:16:27 #349 №559819

>>559418
Не забыл. Вот для 1630 например

Аноним 01/12/23 Птн 09:43:22 #350 №559824

>>559819
Бля. Скрин проебал, комп ребутнул. Позже принесу мб.

Аноним 01/12/23 Птн 16:03:55 #351 №560013

>>559769
по ощущениям на выходе как будто лцм механики присобачили с убиранием оверхита, надо допердолить через экстрактомердж с фотогазмом и чекнуть

Аноним 01/12/23 Птн 22:15:04 #352 №560315

>>559769
Проверил. Генерит. Пруфы на цивитае:
https://civitai.com/models/4201/realistic-vision-v60-b1

Аноним 02/12/23 Суб 00:58:15 #353 №560569

При тренировке ведь чем больше размер батча, тем хуже результат? (модель хуже обобщает)

Если да, можно ли это побороть?

Аноним 02/12/23 Суб 07:45:00 #354 №560765

>>560569
Наоборот. Для LION рекомендован батчсайз 32+.

Аноним 03/12/23 Вск 00:07:38 #355 №561406

https://github.com/HumanAIGC/AnimateAnyone
Анимации.

Аноним 03/12/23 Вск 02:37:27 #356 №561523

>>561406
Кода нет, весов нет, нихуя нет. Когда релизнут, тогда и приходите.
Вот реальный проект https://github.com/showlab/MotionDirector — есть и код и веса.

Аноним 03/12/23 Вск 04:48:43 #357 №561556

Аноны, а никто не в курсе, как лору-слайдер натренить?
Инструкции может есть какие?
Офигенская же штука (в некоторых случаях).

Аноним 03/12/23 Вск 05:13:03 #358 №561562

>>561556
Ostris делает своим способом. https://github.com/ostris/ai-toolkit#lora-slider-trainer

Аноним 03/12/23 Вск 13:49:54 #359 №561751

>>561562
Что-то нифига не понял из его коллаба, если честно.
Датасет куда грузить? Само генерится, чтоль, и потом на сгенерившимся тренируется?

Аноним 03/12/23 Вск 13:53:24 #360 №561754

Почему когда я ставлю Train batch size больше 1 время тренировки увеличивается, а не уменьшается? В чем смысл этих batch size тогда?

Аноним 03/12/23 Вск 14:13:29 #361 №561784

Шаред мемори?

Аноним 03/12/23 Вск 15:24:23 #362 №561831

>>543635 (OP)
Почему софт такое говно? Бесконечный бета-тест.

Аноним 03/12/23 Вск 15:30:23 #363 №561836

изображение.png

>>561751
>>561562
Хм. Походу так и есть.
Он генерит картинки, и потом через их сравнение (?) что-то там тренирует.
Однако Коллаб дохлый, выдает ошибку.
Какой-то кусок из софта необходимого чтоль не встал, или еще что-то?

Аноним 03/12/23 Вск 16:13:51 #364 №561895

>>561831
Купи подписку на OpenAI - там все на релизе, для таких как ты

Аноним 03/12/23 Вск 16:49:39 #365 №561910

Корочи, я потренил лоры на своих еотовых на разных настройках.
Лучше всего получилось по гайду хача - больше всего похоже на оригинал из всех остальных натрененых, отдельные генерации я бы отнес к категории реальных фото. Но только лишь отдельные - все равно не идеал, я бы доучил.
А по советам из треда получилось говно, норм результаты выдавало только на 0.8-0.9, более ранние эпохи генерили анатомически верно и соответствовали промту, но черты лишь отдаленно похожи. Говно, нирикаминдую. Вы походу на своих пресетах тренили на какую-нибудь маняме, у которой из черт лица - три черточки и две закорючки.
Ух бля, чет я заебался генерить всю эту залупу, лучше бы дальше с инпейнтом развлекался.

Аноним 03/12/23 Вск 17:03:31 #366 №561917

>>561910
Нормальная лора и должна выдавать норм результаты на 0.6-0.8

Аноним 03/12/23 Вск 17:05:55 #367 №561919

>>561917
Нет. Нормальная должна работать вплоть до 1.2-1.3.
Только потом уже должны начинаться заметные косяки.
То, что работает только на 0.6-0.8 - пережарено, перетренировано, или просто закосячено.

Аноним 03/12/23 Вск 22:17:37 #368 №562165

>>561919
С чего бы, лол? Твоя нормальная работа при 1.2-1.3 это недотрен..

Аноним 03/12/23 Вск 22:21:53 #369 №562173

>>562165
C того, что она работает на таких числах - и выдает приемлемый результат (конечно не совсем приемлемый, с косяками, ибо все-таки перебор - но никакого сильного искажения или пережаривания картинки быть не должно).

Аноним 03/12/23 Вск 22:45:58 #370 №562200

>>562173
Ну если тебе нравится, то ок. Только нормальный диапозон около 1, а 1.3 - потолок

Аноним 03/12/23 Вск 23:02:13 #371 №562220

>>562200
Так о чем и речь же.
Если лора не совсем ломается на 1.3 - это значит, что базовый диапазон у нее как раз в районе единицы.
Все, что крутится на 0.6-0.8 - на единице обычно выдает лютый пережар.

Аноним 04/12/23 Пнд 04:59:51 #372 №562487

Все разработчики нового AnimateAnyone - чонги Суй хуй в чай. Как же подгорает с пиздоглазой ордынской вьетнам хуйни когда она всюду лезет. Сиди бля в загоне и жри летучую мышь, ИИ - для белых людей.

Аноним 04/12/23 Пнд 13:56:59 #373 №562697

1701687418900.jpg

В ветке release candidate stable-diffusion-webui уже есть changlog на 1.7.0

Что за новые доп сети OFT и GLora? Про офт я пробовал понять документ по ним, вроде как типа та жа лора, только не портит какие-то концепты из основной сети. Но по примерам качественного отличия не заметил

Аноним 04/12/23 Пнд 14:33:12 #374 №562725

>>562697
> пробовал понять документ по ним
Нахуй вы вообще лезите туда, если буквы не понимаете?

Аноним 04/12/23 Пнд 19:32:30 #375 №562994

Мужики, куда делся кроп из имг2имг на автоматике?

Аноним 04/12/23 Пнд 22:13:15 #376 №563269

>>562487
>>562725
Что за шиз в треде?

Аноним 04/12/23 Пнд 22:23:01 #377 №563287

>>562697
> OFT
Новая база. Только лучше всё же COFT брать, чтоб оверфит не ебал. OFT пойдёт шизам с микродатасетами хотя лучше насемплить 2-5 вариаций капшенов, чем эпохи дрочить и ловить момент где оно перестаёт ломаться на 1.0.
> GLora
Кал, очередной способ как сделать оверфит на ещё меньшем количестве параметров, аналог лоха. Делался для LLM, за результат на графике никто не отвечает.

Аноним 05/12/23 Втр 04:39:44 #378 №563508

Какая-то новая приблуда для поз.
https://github.com/facebookresearch/detectron2/tree/main/projects/DensePose

И контролнет-модели для нее
https://civitai.com/models/120149/controlnet-for-densepose

С виду какой-то объединение openpose с depth?

Аноним 05/12/23 Втр 22:30:50 #379 №564333

Есть ли разница в скорости генерации если устанавливать софты на HDD или SSD?

Аноним 05/12/23 Втр 22:53:01 #380 №564354

>>564333
Нет. Но тягать туда-сюда модели и результаты генераций комфортнее на ссд, разумеется.

Аноним 06/12/23 Срд 05:44:16 #381 №564520

>>564333
>>564354
А лучше на SSD M.2 7000 Мбайт/сек. Там модели за 2-3 секунды меняются, мердж моделей идет в районе 8-10 секунд, если не меньше.
Советую Kingston FURY Renegade, по цена/качество самое то.

Аноним 06/12/23 Срд 08:23:28 #382 №564615

изображение.png

Можно как-то сделать чтобы контролнетовские модели не подгружались каждый раз при нажатии на генерейт? Заебывает сильно

Аноним 06/12/23 Срд 08:47:31 #383 №564631

>>564615
Выключи CN. Или ты хочешь пользоваться им без моделей что ли, шиз?

Аноним 06/12/23 Срд 08:52:03 #384 №564632

>>564615

Ну вот к примеру, я включил модули контролнета, нажал генерейт, он их подгружает, производит генерацию и выгружает из памяти эти модули. При следующем нажатии на генерейт все происходит по новой - ждать ~20 сек подгрузки модулей перед генерацией. Смысл этого дрочева, если я не меняю параметры и модули в контролнете? Понял о чем я, шиз?

Аноним 06/12/23 Срд 10:08:59 #385 №564651

>>564632
Нахуй ты сам с собой разговариваешь, шиз? Нахуй ты кэш CN-моделей выключил в настройках и траллишь тут тупостью?

Аноним 06/12/23 Срд 10:13:38 #386 №564653

>>564651
А я ничего не выключал. Зачем ты себе что-то надумываешь, шиз?

Аноним 06/12/23 Срд 10:15:00 #387 №564655

>>564651
Но я теперь хотя бы знаю в какую сторону копать. Спасибо тебе, ЧСВ дебил

Аноним 06/12/23 Срд 12:28:31 #388 №564713

где 1.6

Аноним 06/12/23 Срд 13:14:15 #389 №564729

Sup!

Меня мучает такой вопрос - на сколько сильно влияет кол-во памяти в видеокарте на результат генерации в СД? У меня 3070 на 8гб, генерирую уже год, получается вроде хорошо, хотя апскейлить больше чем на 1500х1500 из-за 8гб не получается, но это не страшно, меня больше волнует сильно ли я теряю именно в качестве.

Действительно ли на одной и той же модели, промпте и даже сиде результаты будут ОЧЕНЬ разные на моей 8гб и на условной 24гб?

Просто думаю может зря я хуйней вообще занимаюсь, раз нет карточки нормальной.

Пытался найти сравнения в инете, но не нашел.

Аноним 06/12/23 Срд 13:16:14 #390 №564731

https://readout-guidance.github.io/

Что-то типа контролнета, но тренируется всего на 100 парах.

Аноним 06/12/23 Срд 13:17:42 #391 №564732

>>564729
>на сколько сильно влияет кол-во памяти в видеокарте на результат генерации в СД?
Нинасколько.
>Действительно ли на одной и той же модели, промпте и даже сиде результаты будут ОЧЕНЬ разные на моей 8гб и на условной 24гб?
Нет, будет то же самое.

Аноним 06/12/23 Срд 13:20:09 #392 №564734

>>564732
Тогда на что именно влияет объем видеопамяти? Не просто ведь так за ним гонятся люди

Аноним 06/12/23 Срд 13:23:31 #393 №564739

>>564734
На то, что влезает в него (особенно при тренировке), и на размер батча.

Аноним 06/12/23 Срд 13:25:03 #394 №564740

>>564729
Очень разные результаты будут если у тебя 2 или 4 гига, medvram/lowvram меняют. В твоем же случае разница на том же сиде не будет. Для работы с большими тайлами - tiled vae используй. Тут уже достаточный размер поддерживается чтобы не было артефактов. Сложности могут быть только с контролнетами в больших разрешениях и всякими дополнительными моделями, что уже вместе с сд может не влезть.
Другое дело что перфоманс с 24 гигами если это не амд вырастет в разы, сможешь делать больше и в итоге лучше.

Аноним 06/12/23 Срд 13:27:32 #395 №564743

>>564740
>Очень разные результаты будут если у тебя 2 или 4 гига, medvram/lowvram меняют.
Несёшь хуйню и рад.

Аноним 06/12/23 Срд 13:30:48 #396 №564746

>>564743
Чому ты порвался? Это факт, с данными параметрами на мелких картах не воспроизвести оригинальные генерации. Будет ли средний результат в итоге лучше или хуже - хз.

Аноним 06/12/23 Срд 13:32:21 #397 №564749

>>564746
Это не факт, а выдумки дегенерата, несущего хуйню и не краснеющего при этом.

Аноним 06/12/23 Срд 13:46:39 #398 №564756

https://showlab.github.io/X-Adapter/

Адаптер для полторашных лор, контролнетов и т.п. к SDXL - без переобучения. Ни весов, ни даже кода не видать.

Интересно, если это возможно то можно ли тренить лоры под SD 1.5 и юзать через такой адаптер на SDXL?
Или допустим в принципе запилить две модели - одну большую, другую маленькую, и файнтюнить маленькую, а юзать через адаптер на большой.

Наверняка результат хуйня, где-то должен быть подвох.

Аноним 06/12/23 Срд 13:59:42 #399 №564766

>>564749
Истеричка, как ты можешь объяснить то, что счастливые владельцы нищекарт не могут воспроизвести сиды нормальных генераций?

Аноним 06/12/23 Срд 14:05:05 #400 №564770

https://blog.playgroundai.com/playground-v2/

Playground v2 - новая модель на архитектуре SDXL с нуля. Заявляют качество пиздаче, насчёт следования промпту ничего не известно. Лицензия открытая.

https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic ссылка на модель, го тестить.

Аноним 06/12/23 Срд 14:06:49 #401 №564771

Итак, вводные данные.
AMD Ryzen 7 5800X 8-Core Processor
64Gb Ram
AMDGPU RX6800
Gentoo линух

Блять, не догоняю слегка эти ваши мануалы. Пол мануала объясняется как вкорячить git с питоном на Шиндошс и на костылях деплоить ебаться с неродной системой.
Есть по простому?
С какой репы качать саму нейронку?
Из чего оно состоит? Типа оболочки которую брать на гитхабе, а потом ещё лутать запечённые датасеты? Есть вариант перевода чтобы нейронка хавала русский язык нативно? Как использовать несколько датасетов?

Аноним 06/12/23 Срд 14:10:11 #402 №564775

>>564766
Бурной фантазией твоего сознания, как же ещё? Всё воспроизводится, если ты берёшь тот же самый воркфлоу и модель на той же точности, без xformers. Если у тебя не так - пруфани, ибо это экстраординарное заявление, требующее экстраординарных доказательств. Примерно как сказать что синус на 4090 может достигать четырёх, не то что на калькуляторе.

Аноним 06/12/23 Срд 14:17:47 #403 №564785

>>564771
Ты что вообще пытаешься сделать, амудебил? Инференс или обучение? Если первое, то блять ставь первый попавшийся уй, там везде есть совместимость с амудой и инструкции для самых конченых.
https://github.com/AUTOMATIC1111/stable-diffusion-webui
https://github.com/comfyanonymous/ComfyUI
https://github.com/invoke-ai/InvokeAI
https://github.com/lllyasviel/Fooocus
https://github.com/easydiffusion/easydiffusion
>Есть вариант перевода чтобы нейронка хавала русский язык нативно?
Нет. Ну точнее оно немного хавает за счёт того что обучалось также и на русскоязычных кэпшенах, но нормальных результатов не жди.
>Как использовать несколько датасетов?
>лутать запечённые датасеты?
Какие блять датасеты, поехавший? Куда запечённые? Разберись чего ты хочешь, для начала.

Аноним 06/12/23 Срд 14:18:59 #404 №564787

>>564775
> Бурной фантазией твоего сознания, как же ещё?
О, дефолтный наезд от чсв шиза, ты нормально общаться вообще не умеешь?
> Если у тебя не так - пруфани
У меня все в порядке, но какое-то время назад был вайн что на нищекартах сиды не воспроизводились. Было вроде то же, но с явными отличиями. Тогда же на 4х-гиговом паскале это проверил, с опциями оптимизациями памяти на выходе другая генерация. Буквально в том же автоматике с запуском по метадате, просто при смене железки и параметров.
Возможно это связано не с low/med vram а с работой всего на старых картах, но хз.
> Примерно как сказать что синус на 4090 может достигать четырёх
В военное время может достигать и 5, или быть красного цвета.

Аноним 06/12/23 Срд 14:26:22 #405 №564804

>>564787
>ты нормально общаться вообще не умеешь?
Ладно бы ты просто давал некорректную инфу, но ты настаиваешь на своей правоте, когда тебе говорят что ты несёшь хуйню. Как ещё блять с такими общаться? Извините сэр, мне кажется вы неправы, сэр. Срал вам в горло, всего хорошего.
>У меня все в порядке, но какое-то время назад был вайн что на нищекартах сиды не воспроизводились.
Никогда не было такого вайна. Были дебилы, которые не разобрались как это работает, либо врубили xformers или любую другую подобную шнягу, которая давала невоспроизводимые генерации. Вот у меня блять есть 970 4ГБ на старом компе, 3060 12ГБ на новом, и арендую я 3090, 4090, или A100 когда надо, и везде всегда будет один и тот же результат.

Аноним 06/12/23 Срд 14:31:28 #406 №564814

>>564804
> Ладно бы ты просто давал некорректную инфу, но ты настаиваешь на своей правоте, когда тебе говорят что ты несёшь хуйню.
Вот, это чисто про истеричные вбросы чсв шиза, знания которого кончаются на поверхностных ухватках в отличии от самоуверенности, и после очередного фейла он сливается, чтобы вскоре опять всплыть.

> я не видел значит не было и быть не может
Справедливо да
> xformers
> невоспроизводимые генерации
лол

А ведь мог бы сам погуглить ту херню, еще на гитхабе и прочих около сд ресурсах обсуждали почему нищуки не могут пройти всякие аскотесты и специальные отдельные версии для них пилили.

Аноним 06/12/23 Срд 14:31:57 #407 №564815

>>564804
>Как ещё блять с такими общаться?

Да ты со всеми здесь так общаешься, обиженный в ИРЛ, видимо

Аноним 06/12/23 Срд 14:36:38 #408 №564821

>>564815
Ты похоже общаешься с голосами у себя в голове, выдумывая каких-то неизвестных людей.
>>564814
Так ты пруфы-то дашь, или будешь продолжать нести хуйню? Без пруфов можешь нахуй идти.

Аноним 06/12/23 Срд 14:54:58 #409 №564838

>>564731
То, что можно команду стрелочками указывать, как повернуть голову или часть тела - это что-то новенькое? Или есть в контролнетах?

А еще команда поменять позу выглядит интересно, хотя возможно это работает в img2img с контролнетом, я не пробовал

Аноним 06/12/23 Срд 15:17:21 #410 №564862

>>564838
>То, что можно команду стрелочками указывать, как повернуть голову или часть тела - это что-то новенькое? Или есть в контролнетах?
На это можно натренить контролнет свободно. его можно на любые пары натренить На цивите есть кастомные КН на контроль положения источников света, например. Вопрос только в том что контролнеты относительно большие. Тут новация походу в том что эта хуйня меньше по параметрам и требует датасет поменьше, её проще тренить с нуля.

Аноним 06/12/23 Срд 17:23:20 #411 №565030

>>564862
>На цивите есть кастомные КН на контроль положения источников света, например.
Это лоры-слайдеры же, не контролнеты.

Аноним 06/12/23 Срд 17:26:58 #412 №565032

>>564729
Больше размер памяти - больше картинка в нее помещается - больше деталей ИИ на ней нарисует. Сложно передать текстуру кожи на фуллбоди-персонаже, если у тебя картинка всего 1280х1024.
Где-то дополнительные детали - хорошо, а где-то не очень.

Хотя текстуру кое-где можно и апскейлом сделать, а вот именно детали - уже нет.

Аноним 06/12/23 Срд 19:41:10 #413 №565156

>>564821
> Так ты пруфы-то дашь
Ты это серьезно? Миллион постов "почему после смены видеокарты я не могу воспроизвести сиды", "влияет ли medvram/lowvram на качество", демонстрация проблем на паскале и недотьюирангах. Плюс посты в тредах этой доски.
Держи даже разбор аскотеста где это продемонстрировано http://web.archive.org/web/20230516140252/https://imgur.com/a/DCYJCSX сраный имгур его выпилил но интернет все помнит
После ознакомления можешь в очередной раз проследовать нахуй. Каждый раз как в первый, уже бы пора чсв поубавить и вникать в вопрос перед выебонами

Аноним 06/12/23 Срд 19:55:31 #414 №565166

>>565030
https://civitai.com/models/80536/ вот он. Это больше пруф ов концепт, но вообще такие вполне можно натренить полуавтоматически просто создав пары в блендере. Контролнет это довольно универсальная хрень, можешь например натренить его на парах изображение-камера и получишь крутилятор камеры, простор для экспериментов большой. Вот например https://civitai.com/models/191956/

Аноним 06/12/23 Срд 20:02:53 #415 №565172

>>565156
>Ты это серьезно? Миллион постов "почему после смены видеокарты я не могу воспроизвести сиды", "влияет ли medvram/lowvram на качество", демонстрация проблем на паскале и недотьюирангах. Плюс посты в тредах этой доски.
Где блять всё это? Такое ощущение что я пытаюсь научить овоща завязывать шнурки. Ты притащил совершенно невероятное заявление, противоречащее здравому смыслу и пониманию как это работает. Это тебе надо куда-то там лезть за постами, по дефолту ты упорствующий долбоёб.

>Держи даже разбор аскотеста где это продемонстрировано http://web.archive.org/web/20230516140252/https://imgur.com/a/DCYJCSX
Что тут продемонстрировано? Вижу только беспруфный вскукарек:
>did you launch webui with the --medvram, --lowvram, or ----no-half options? if so, then you're ok, it's normal for these options to cause very slight variation in the output due to how it works.
В чём суть демонстрации?

Не отвечай мне пока не притащишь пруфы, ты заебал, не интересно мне слышать твои виляния без субстанции.

Аноним 06/12/23 Срд 21:53:34 #416 №565315

>>564771
Поставь себе генту - уравненовесь свой либидо,
Гента такая классная, гента всегда нова...

Аноним 06/12/23 Срд 21:55:00 #417 №565321

>>564785
завали свой выходной поток, мразь ты форточная, и воздай же ретивую хвалу Линусу нашему Торвальдсу за создание Великого Гита!

Аноним 06/12/23 Срд 21:56:14 #418 №565326

>>564804
На дуэль его каналью!!!

Аноним 06/12/23 Срд 22:17:40 #419 №565356

vaeany.png

vaesd.png

extra.png

Аноны, а можно как-то косяки с цветовыми пятнами на апскейле забороть?

Понятно, что они из-за ВАЕ вылазят, но, блин, что СДшное, что НАИшное, что всякие энифинги - они все гадят пятнами в одни и те же места. Просто где-то более заметно, а где-то менее.

Пикрил примеры: вае энифинга (клон НАИ), вае СД (840000-ema), и апскейл в то же самое разрешение, тем же самым апскейлером, но экстрой.

Вот как с таким говном бороться, если тайловый апскейл нужен?

Аноним 06/12/23 Срд 22:34:32 #420 №565399

Сап ананасы я лоу айку работяга с завода, скачал стейбл диффужн что бы ебать свою новенькую 4070ti, сегодня чутка ей попользовался вроде генерит что то, но я думаю надо в матчасть вкатываться что бы не тупить, пожскажите с чего начать

Аноним 06/12/23 Срд 22:44:16 #421 №565424

>>565399
> работяга с завода
> что бы не тупить, пожскажите с чего начать

Начни с поиска нормальной работы

Аноним 06/12/23 Срд 22:55:29 #422 №565441

>>565399
>>565424

Не слушай токсика, сегодня у него месячные, срет по всем ИИ-веткам подряд.

Посмотри в соседних тредах - NAI (аниме) и SD (реализм, иллюстрации). Там в шапках очень много полезной информации.

Аноним 06/12/23 Срд 22:56:44 #423 №565442

>>565356
vq-gan поробуй. Но вообще это нормальное состояние VAE. Даже если кажется нет синяков - есть желтизна на белом возле лейна. Частично пофиксить можно пересев на мыльный семплер.

Аноним 06/12/23 Срд 22:56:49 #424 №565443

>>565441
Спс анончик, два чая тебе и сотен нефти

Аноним 06/12/23 Срд 23:39:00 #425 №565529

>>565442
Ссылку бы еще, да где его искать.
Желтизну у линий не шибко видно (это всё-таки абсурдрес 4к уже), а вот синяки - прям в глаза бросаются. Я уже и размер тайлов пытался менять, и апскейлеры - остаются, и всё тут.

Собственно, поэтому на апскейл экстрой и перешел. Из-за таких вот косяков.

Аноним 07/12/23 Чтв 01:30:51 #426 №565682 DELETED

>>565424
Квалифицированный токарь получает вполне на уровне айтишника. Видишь, у него на новенькую видяху есть бабло. Не училка же и не кассир.

Аноним 07/12/23 Чтв 01:49:53 #427 №565703

>>565172
Ого, уже похоже на обсуждение а не просто визг, красавчик, без иронии.
> Где блять всё это?
В гугле вбиваешь что-то типа "stable diffusion seed reproduction lowvram", можно сразу по гитхабу или реддиту не говоря о базированном "cuda different result on new architecture", мл инженер арендующий A100 епта. В репе автоматика ишьюсы среди которых есть немалая доля относящаяся к этому, на реддите ветки (хотя те в основном были в первом полугодии были и протухли). Там целое исследование этого запилили и было много примеров как оно может искажаться, причем чем больше операций с пикчей и сложнее тем больше разница, уходящая далеко за мелочи от xformers. Сейчас 404, можешь заняться изысканиями если есть мотивация.
> Ты притащил совершенно невероятное заявление
Оно верное, ранее были замечены проблемы с повторением пикч на старом железе которое требовало этих опций, о чем много свидетельств.
> противоречащее здравому смыслу
Противоречит только в случае если быть узколобым и не вникать. Причин для проебывания сидов здесь может быть множество, от того как (насколько корректно и без потерь) организована выгрузка частей моделей при этих опциях, до реализации работы отдельных операций в нищекартах без поддержки нужных инструкций в сочетании со всеми оптимизациями, которые уже оче давно перестали быть детерминированными, это к твоему примеру про косинус. Могут быть вообще баги в либах куды, которые никто уже не будет устранять по причине смерти той серий карт, когда находят ошибки в элементарных операциях в современном GCC уже ничего не удивляешься.
> В чём суть демонстрации?
> these options to cause very slight variation in the output
Выделил специально, глаза не видят?
> Не отвечай мне
лол

Аноним 07/12/23 Чтв 02:05:03 #428 №565723

January2023.png

December2023.png

Вот уж не знаю, чего у вас там за косяки, но я сейчас взял свою генерацию, которой почти год уже (в январе на чистом сливе НАИ сделана была), закинул ее в ПНГ-инфо, тыкнул Generate, и получил 99.5% совпадение.
С тех пор чего только не поменялось. Автоматик обновлялся. Иксформерсы-хуёрмерсы, куды-приблуды. Даже комп у меня уже другой, с 2070 на 4080 пересел. Результат - пикрил.

Единственный случай, когда я столкнулся с невозможностью повторить старую картинку - это когда у меня в пнг-инфо пробилась какая-то картинка с "вирусным" параметром Eta noise seed delta, я ее отправил в т2и, и эта вот дельта у меня из-за нее в настройки скрытно прописалась. И все следующие картинки с новым параметром генерились.
Спасибо какому-то чуваку с гитхаба, который про эту штуку рассказал. С тех пор я ее в квиксеттингс автоматика вынес, висит там, ноль показывает, как и должно быть.

Аноним 07/12/23 Чтв 02:09:26 #429 №565734

>>565356
Попробуй kl-f8, она артефачит меньше всего, хотя полностью проблему не решает. Если не помогает - смириться. Или поправить в фотошопе используя восстанавливающую кисть, или добавив в то место участок из экстры, он хорошо получился. Вообще склейка разных частей - довольно дефолтная тема в sd, очень быстро и эффективно.
>>565529
> Ссылку бы еще
https://dropmefiles.com/1ZL7b
Вроде оно, пароль стандартный, учти что его желтые артефакты могут быть даже более заметны в некоторых случаях.
>>565723
Это же замечательно, а с каким железом и параметрами генерировал раньше, менялось ли что?
> с "вирусным" параметром Eta noise seed delta
Это просто смещение номера сида для повторения поведения наи.

Аноним 07/12/23 Чтв 02:41:21 #430 №565780

>>565734
>Попробуй kl-f8
Та же жопа, только в профиль. Что-то среднее между СД и НАИ. СД с виду даже менее заметно артефачит (по крайней мере на этой пикче).
>Вообще склейка разных частей - довольно дефолтная тема в sd, очень быстро и эффективно.
Склейка хороша, когда я саму картинку делаю.
Апскейл должен идти по принципу "тыкнул и готово", а не создавать еще больше артефактов и лишней работы.
>Вроде оно, пароль стандартный
Да, это получше. По центру и сверху артефакты почти ушли, нижний, правда, всё равно остался. Самый лучший вариант из предыдущих трех (НАИ-СД-КЛФ), но не идеал.
Странно, ну чистые же линии в оригинале, никаких особых переходов яркости нет, вся картинка такая же - а артефачит именно там.
>а с каким железом и параметрами генерировал раньше, менялось ли что?
Так я ж написал. Всё, что с начала года могло поменять - поменялось. Начиная с версии автоматика и заканчивая личным компом, виндой, и всем остальным софтом. Абсолютно две разные системы, неизменными остались только модель, вае, и те метаданные, что были прописаны в саму картинку.
>Это просто смещение номера сида для повторения поведения наи.
Вот оно и прописалось. Его ж нигде не видать, только в настройки лезть - а результат сразу заметен, как невозможность повторить старую генерацию.

Аноним 07/12/23 Чтв 04:01:49 #431 №565846

Кто знает как без косяков проставить тегги и описания изображений, нужна либо программа либо что-то для автоматического тегирования без обсёров. В kohya_ss есть что-то, но качество так себе.
Что на сегодяшний день лучше всего работает?

Аноним 07/12/23 Чтв 06:26:46 #432 №565936 DELETED

>>565682
Но ведь если работа отнимает условно больше 4 часов в день, и ты вынужден жить всего пару часов вечером - это ж пиздец. Зачем вообще жить в таком случае

Аноним 07/12/23 Чтв 06:46:26 #433 №565942

>>565846
>В kohya_ss есть что-то, но качество так себе.
Если тебе тамошних анимублядских клип-блип теггеров не хватает, то или запускай локально CogVLM (желательны 40GB, в 24 влезает кое-как если ужаться), или бери GPT-4V. Можешь LlaVA, но она хуже обоих.

Аноним 07/12/23 Чтв 06:53:20 #434 №565946

image.png

>>565942
я не понял, что 40 в 24 влезает. нормально объясни по человечески чем анимублядские клип-блип теггеры отличаются от других и как эти другие найти и присобачить. там вроде как есть специальное поле, я нашёл какой то https://github.com/jmisilo/clip-gpt-captioning
вставляю ссылку туда и не работает ничего, или вставляю название, но не работает.
у меня видюха на 16гб если что.
>GPT-4V
как его брать и как всунуть?

Аноним 07/12/23 Чтв 07:18:20 #435 №565950

>>565946
Мимо другой анон, предполагаю не влезает по той же причине почему webui требует no-half. Т.е. из-за отсутствия операций с fp16 требует примерно в 2 раза больше памяти

Аноним 07/12/23 Чтв 07:52:28 #436 №565955

>>565946
>чем анимублядские клип-блип теггеры отличаются от других
Тем что не пользуются полноценными визуальными моделями. GPT-4V видит картинку и является частью GPT-4, она просто неестественно хорошо разбирает происходящее на пикчах, можно по тегам если попросить, можно натуральным языком, можешь её заставить хоть поэму в гекзаметре на древнегреческом сочинить по картинке.
>как его брать и как всунуть?
Заплатить OpenAI и юзать. Всунуть готовым образом в койя_сс никак, придется самому городить колхоз на питоне, или юзать отдельную приблуду вроде этой https://github.com/vladignatyev/bulktag

>я не понял, что 40 в 24 влезает. нормально объясни по человечески
Если не GPT-4V, то топовая локальная модель сейчас это CogVLM. Она здоровенная и хорошо видит то что на картинке, но требует 80GB (я оказывается напиздел про 40), так что тут только арендовать. A100 80GB стоит порядка 2 баксов в час на vast.ai on-demand, тебе из этого понадобится может несколько минут протегить твои картинки (смотря сколько их там конечно). А вот автотеггер тебе пилить придётся самому, готовых решений нет.

>у меня видюха на 16гб
Можешь попробовать LLaMA-13B. Она сильно лучше ссаного BLIP, но хуже даже CogVLM. Демка есть тут https://llava.hliu.cc/ , автоматических теггеров под неё не знаю, поищи, может есть.

Решений вообще без пердолинга нет, как ты думаю уже понял.

Аноним 07/12/23 Чтв 07:59:24 #437 №565956

>>565955
>LLaMA
LLaVA
фикс

Аноним 07/12/23 Чтв 12:38:33 #438 №566048

image.png

>>565950
>no-half
да нет, там заёба, чтобы не было no-half нужно открыть конфиг и поставить false вместо true и тогда обучение запускается

Аноним 07/12/23 Чтв 12:38:39 #439 №566049

square1280f0a922d6fb7967b1d6881ceadbff4325.jpeg

>>565321
>Великого Гита
Он теперь под мелкософтом

Аноним 07/12/23 Чтв 12:45:36 #440 №566052 DELETED

>>565936
>Но ведь если работа отнимает условно больше 4 часов в день
Если ты на чпу и у тебя поток, а не полторы детали - вся твоя работа это настроить комплюхтер в твоем станке под деталь и опционально менять болванки/оснастку. В остальном сидишь-пердишь и периодически смеешься над дево-псами которые с мокрой жопой пытаются раскукожить схлопнувшийся кубер. Про рабов-погромистов я ваще молчу, это совсем дно.

Аноним 07/12/23 Чтв 12:58:25 #441 №566057

image.png

>>565955
>LLaMA-13B
Как то он странно описывает, как будто для книжки, а не для обучения.
Не думал, что описать и протеггить будет так сложно и более энергозатратно чем обучить, я думал обучение это самое сложное.
А вообще насколько влияет правильное теггирование и описание на результат тренировки? Я тренирую на людях и у меня проёб с одеждой, планирую начать делать паки с разными куртками, дождевиками, футболками и т.д. для добавления в модель по типу Realistic Vision, сейчас протеггил 50 картинок вручную методом Manual Captioning в kohya_ss

Аноним 07/12/23 Чтв 13:01:58 #442 №566061 DELETED

>>566052
Если в это свободное время ты можешь делать свои дела на своем компе, например - тогда прям кайф

Аноним 07/12/23 Чтв 13:03:34 #443 №566062

>>566057
> >LLaMA-13B
> Как то он странно описывает, как будто для книжки, а не для обучения.

Это проблема не лавы, а карточки персонажа. Нужно ей чтоб в контексте были примеры того, как надо отвечать

Аноним 07/12/23 Чтв 13:04:44 #444 №566063

Погодите, а что вы тут обсуждаете? В саму ламу уже добавили мультимодальность? Или это лава? Я просто забросил следить за текстовыми моделями

Аноним 07/12/23 Чтв 14:32:23 #445 №566100 DELETED

>>566061
>>566052

так и представил как греча сидит в подсобке после настройки чпу и дрочит на рисованные вагины

Аноним 07/12/23 Чтв 14:36:32 #446 №566102 DELETED

>>566061
Не можешь. Плюс там грязно и воняет. Ну и кАЛнтингент соответствующий. Там никто не хочет работать, поэтому его окружение это скуфы и туповатые васяны с нулем интересов. Да он и сам туповатый, как видно по вопросам.

Аноним 07/12/23 Чтв 15:02:50 #447 №566122

Screenshot2.png

Screenshot1.png

image.png

Обучил модель на сотнях мужских фото, добавил слово "дождевик" в промпт, лица неплохие, хоть и иногда растянутые бывают, но одежда полное дерьмо. Ну думаю создам пак с дождевиками и дообучу модель. В итоге получилось это, теперь модель пытается делать вместо крупных портретов моих мужиков этих манекенов с дообучения даже в полный рост кадрирование появляется и руки везде, да и вообще сами плащи выглядят почти так же хуево как и до дообучения.
Что я делаю не так?
Почему в модели realistic vision одежда выглядит нормально, а тут деформация на деформации и ещё руки везде и лысый мужик из дообучения везде появляется

Аноним 07/12/23 Чтв 15:29:28 #448 №566135

>>566122
Потому что капшены говно. Если нет нормальных качественных ручных капшенов, то генерируй на каждый пик по 5 капшенов в пару предложений и потом тренируй на них по очереди с батчсайзом 8-16, разрешение меньше 768 никогда не делай. Вместо кучи эпох лучше насемплить побольше капшенов. Так будет хоть какая-то генерализация и понимание у сетки что ты от неё хочешь. А так у тебя сетка в душе не ебёт что за "дождевик", может это капюшон или согнутые руки для позирования, сетке это не понятно. Ещё пробуй уменьшать размер лоры чтоб как меньше инфы влезало в неё, COFT попробуй взять или глору если датасет большой.

Аноним 07/12/23 Чтв 15:48:56 #449 №566160 DELETED

>>566102
>Не можешь
Зависит от лояльности. Если ты не косячишь и над тобой нормальные люди - можешь сидеть-пердеть за своим ноутом, хоть дрочить, хоть вприсядку плясать. Если в руководстве сапоги - сложнее, но тоже остаются некоторые варианты, например "тестирую код для чпу к следующей партии" или "инициативно повышаю квалификацию", а сам на втором экране/вкладке вагину петровичу инпейнти вместо рта. Если твой завод режимный - тоби пизда, будешь загнивать
Но вот этот >>566102 прав канеш.

Аноним 07/12/23 Чтв 16:10:29 #450 №566175

image.png

>>566135
>по 5 капшенов в пару предложений и потом тренируй на них по очереди с батчсайзом 8-16
Я не думаю, что большое значение имеет капшон больше одного короткого предложения, врядли оно вообще понимает контекст и все такое, у меня помимо капшенов ещё и файлы txt с теггами имеются.
Ты про тренинг батчсайз? Я его ставлю на 1 всегда, так быстрее обучается. В чем смысл ставить 8-16 ? Это же просто сколько картинок одновременно обучается, по идее должно быть быстрее если больше батчсайз, но у меня время обучения увеличивается.
>А так у тебя сетка в душе не ебёт что за "дождевик", может это капюшон или согнутые руки для позирования
Там где человек с надетым капюшоном я так и пишу, а вообще очевидно, что дождевики разных цветов, есть на молнии, а есть на кнопках, хули там не понять то.
>Ещё пробуй уменьшать размер лоры
я делаю Finetuning 768x1024

Аноним 07/12/23 Чтв 16:17:22 #451 №566185

>>566175
> врядли оно вообще понимает контекст и все такое
Понимает. Не прям как текстовая модель, но в какой-то степени есть понимание. И оно лучше, чем просто каша из пяти слов. Особенно когда у тебя тренируемый объект очень отличается между пиками.
> В чем смысл ставить 8-16 ?
В генерализации.
> хули там не понять то
Хотя бы указывай какие характеристики у дождевика - цвет, фасон. А иначе он так и будет думать что это самый статистически стабильный объект на пиках, а не одежда всех цветов радуги.
> Finetuning
Тогда и не спрашивай почему он обучается чему-то непонятному.

Аноним 07/12/23 Чтв 16:28:42 #452 №566210

>>566185
>какие характеристики у дождевика - цвет, фасон
я и указываю цвет, и на молнии он или на кнопках.
>В генерализации.
а русским языком это как?
>Тогда и не спрашивай почему он обучается чему-то непонятному.
чувак который создал модель realistic vision тоже Finetuning использовал

Аноним 07/12/23 Чтв 16:38:37 #453 №566222

XXL21135.jpg

XXL235.jpg

XXL8.jpg

пиздец из меня учитель, оно даже позы повторяет

Аноним 07/12/23 Чтв 16:55:19 #454 №566243

image.png

Аноним 07/12/23 Чтв 17:33:36 #455 №566295

>>566063
Лава. Это жуёбок очепятался я

Аноним 07/12/23 Чтв 17:41:53 #456 №566310

>>566057
Ну вообще кэпшены с хорошей VLM получаются очень быстро, просто нет готовых решений. Если у тебя лора, то пикч 20-50 и вручную можно затегить.
>А вообще насколько влияет правильное теггирование и описание на результат тренировки?
Максимально. Модель хавает смысл из пар картинка-текст.

>>566135
>Если нет нормальных качественных ручных капшенов
Уже CogVLM даёт не менее пиздатые описания чем человек, и замечает каждую деталюху на пикче, в чём можно убедиться на их демке. Может описать позу и все объекты. Лишь изредка ошибается. Не говоря уже о гопоте-4.

>>566122
>>566222
Теги должны быть максимально подробные, но при этом не превышать твой выбранный лимит токенов (в кохе можно выбрать не 75 а например 225). Описывать надо каждую значимую деталь (включая фон, позы, настроения, цвета и т.п.), чтобы потом он мог генерировать без этих деталей. Если не описывать ненужное, он склеит его с нужным.

Аноним 07/12/23 Чтв 19:52:10 #457 №566522

>>566310
> CogVLM
На уровне лавы 1.5, хуже её файнтюнов. Обсерается в композициях сложнее клоузапа. Ручные капшены всё ещё ничего даже близко не заменит, даже жпт, у которой галлюцинации на реальных фото через раз.

Аноним 07/12/23 Чтв 21:07:20 #458 №566649

Screenshot (433).jpg

Screenshot (434).jpg

>>566522
>> CogVLM
>На уровне лавы 1.5, хуже её файнтюнов. Обсерается в композициях сложнее клоузапа.
Бля, ну даже не знаю...
>даже жпт, у которой галлюцинации на реальных фото через раз.
Мне кажется ты даже не пробовал. Она охуевшие детали замечает, которые сам не сразу высмотришь, ещё и по ним какие-то вещи выводит. Ни о каких галлюцинациях через раз там даже речи не идёт. Она ошибается изредка, но в целом у неё охуенная точность и детальность, человеку надо усраться чтобы каждую картинку так описать как это делает GPT-4V.

Но не суть. Главное что при файнтюне на 10к пикч, или тренировке кучи лор, ты не будешь это всё делать вручную, это пиздец дроч. Нормальный автокэпшен это более чем годная вещь. Если бы ещё и поиск в вебе и сортировку можно было поручить нейронке, это было бы дважды охуеть.

Аноним 07/12/23 Чтв 21:10:44 #459 №566658

Screenshot (435).jpg

Screenshot (436).jpg

>>566649
Другая рандомная пикча, ткнул из папки все_ебанулись наугад

Аноним 07/12/23 Чтв 21:16:42 #460 №566667

image.png

XXL1.jpg

XXL.jpg

>>566310
>Теги должны быть максимально подробные
какая разница сколько тегов если оно не может понять форму сраной куртки и пытается скопировать целиком позу человека с датасета

Аноним 07/12/23 Чтв 21:17:46 #461 №566669

Screenshot (437).jpg

Screenshot (438).jpg

>>566658
Ещё одна рандом пикча, результаты абсолютно несравнимые, это разного уровня модели совершенно. А на вопросы нет/да CogVLM вобще почти безупречно отвечает, если заставить хорошую LLM дополнительно переписать её ответы в виде проверочных вопросов, а потом CogVLM на них отвечать по пикче.

Впрочем даже теггинг ллавой на голову выше сраного блипа.

Аноним 07/12/23 Чтв 21:24:40 #462 №566676

>>566667
Бля, анон, челы с цивита как-то умудряются даже на одной пикче тренить так чтобы не повторять позы.

А что за датасет у тебя? Там одна и та же поза везде?

Чтобы оно не оверфитило датасет, нужно его разбавлять регуляризационными пикчами, штук по 5-20 на каждую пикчу датасета. Т.е. пикчи того же класса, например фотки мужиков в парке, не обязательно в дождевике. Только нельзя их генерить (во всяком случае на модели той же архитектуры), получается жопа с усилением собственных артефактов. Регуляризация помогает усреднить всю эту хурму, чтобы оно не фокусило конкретные куски из него.

Аноним 07/12/23 Чтв 21:34:13 #463 №566689

>>566676
Кек. Похоже я всн это время так делал, но не клал их в папку reg..

Аноним 07/12/23 Чтв 21:36:06 #464 №566690

>>566122
>Обучил модель на сотнях мужских фото
Ты делаешь файнтюн, будку или лору? Думаю в твоих условиях достаточно лору или ликорис сделать из 20-30 нормально подобранных и протегенных картинок (+регуляризация без дождевиков, её тегить не надо). Сотни лишь испортят дело.

Аноним 07/12/23 Чтв 21:50:58 #465 №566707

>>566669
Интересно, а на борушные тэги для аниме-моделей такого нет?

Аноним 07/12/23 Чтв 21:51:23 #466 №566708

>>566057
>Как то он странно описывает, как будто для книжки, а не для обучения.
Всё зависит от того как ты захочешь потом промптить. Хочешь натуральный язык - оно сделает тебе его по дефолту. Хочешь теги - запроси у неё теги. Это же обычный чатбот, который понимает изображения. А не специализированный теггер, который заранее знает что тебе надо.

Аноним 07/12/23 Чтв 21:56:32 #467 №566712

Ёбаный насвай, неделю не запускал и хуяк ошибки.
При выборе TRT модели не генерирует

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument mat1 in method wrapper_CUDA_addmm)

хуле ему сделать надо?

Аноним 07/12/23 Чтв 21:59:39 #468 №566714

>>566707
CogVLM понятия не имеет о тегах данбуры (если попросить то просто ставит теги какие ей покажется нужными, но не данбуровские 1girl и т.п.). Можно попробовать расшатать GPT-4V, она может их знать. Но вряд ли, скорее нужен специфический файнтюн.

Аноним 07/12/23 Чтв 22:19:51 #469 №566734

>>566714
>специфический файнтюн
Вот и я так думаю.
WD-таггеры и прочие не очень хорошо картинку разбирают, к сожалению, могут просто дофига дичи накидать.

Если что-то появится - это будет просто шикарно, сразу качество тренировки лор подымется.

Аноним 07/12/23 Чтв 22:42:41 #470 №566750

>>566714
>специфический файнтюн.
Там на гитхабе есть описание такого. Вопрос только сколько займет по времени и какое железо надо

Аноним 07/12/23 Чтв 22:51:49 #471 №566755

55.png

66.png

>>566676
>регуляризационными пикчами
в файнтюнинге нет этой хуйни с регуляризационными пикчами, это тебе не дримбут.
>А что за датасет у тебя?
основной это портреты мужиков, дообучение делал на 50пикчах из дождевиков
>>566690
>Сотни лишь испортят дело.
это файнтюнинг, я хочу сделать модель такого же качества как realistic vision только с улучшением, так как там лица слишком модельные получаются и через img2img похожие лица трудно воссоздать, а у меня с этим нормально, так как в датасете присутствует множество простых славянских круглых ебальников, как начнут получатся портреты с одеждой планирую добавить фото окружающей среды и всего остального, но первостепенной важности портреты конечно.

Аноним 07/12/23 Чтв 23:09:56 #472 №566763

>>566750
>It is recommended to use the 490px version. However, if you have limited GPU resources (such as only one node with 8* RTX 3090), you can try 224px version with model parallel.
Т.е. обучение даже шакальной 224х224 версии еле влезает в большой утюг с 192ГБ VRAM, полноценной видимо ещё больше. Риг с 4x A100 80GB SXM (т.е. объединённой в единый пул памятью) встанет тебе примерно в $7.5/час на vast.ai и дороже на других хостингах, и это ещё если в него влезет. А вот сколько времени надо это хз. Рассчитывай от получаса до 10 часов, я думаю. (чисто пальцем в небо) Можно связаться с яйцеголовыми или в иссуях на гитхабе спросить. На самом деле я думаю что модель можно урезать по точности и сократить расходы на тренировку. В общем задача под силу энтузиасту, хоть и на грани.

Конечно всё это сначала надо протестить на простеньком компе, чтобы весь датасет был в норме и все скрипты работали, прежде чем включать утюг.

кстати забавно что туториал датасет у них по решению капчи, лол

Аноним 07/12/23 Чтв 23:37:23 #473 №566784

>>566763
>192ГБ VRAM
Звучит больно;(
Хотя ~70 баксов не так много, можно потом на донатах отбить, наверное (но не у нас)

Аноним 08/12/23 Птн 13:46:00 #474 №567207

Что такое free-u, какая-то удудшалка для sd генераций. Норм или нет?

Аноним 08/12/23 Птн 15:38:05 #475 №567253

>>567207
Потыкал. В большинстве случаев какой-то переуонтраст делает, что черные детали сливаются. В целом детали может быть лучше, но по отдельности мелкие детали похуже

Аноним 08/12/23 Птн 16:03:35 #476 №567270

>>567207
По опыту использования, фрию частично помогает против нейрохуйни и бодихоррора, но средство не ультимативное и как улучшение какого-то изображения, которое хотелось бы починить работает плохо - просто другую картинку сгенерит, может и не поломанную, но другую.

Аноним 08/12/23 Птн 20:03:16 #477 №567518

>>567207
>>567253
>>567270
Оно может сделать лучше, особенно на малых шагах. Беда в том что коэффициенты надо выбирать для каждого конкретного случая, а прямого алгоритма не существует. Это примерно такое же шаманство как латент трэвел или прямое редактирование нейронов. Можно попробовать сделать гигантские XY чарты, но всё равно оно останется непредсказуемым и оттого малоюзабельным.

Аноним 08/12/23 Птн 23:18:18 #478 №567667

>>566049
Ты путаешь с гитхабом, даун. Или пруфы в visual студию!

Аноним 09/12/23 Суб 01:10:01 #479 №567733

>>566049
> >Великого Гита
> Он теперь под мелкософтом
🤡 Это серьезно?

Аноним 09/12/23 Суб 01:47:37 #480 №567746

1702075658585.png

Установил по гайду, сразу всё запустилось и работало. Сегодня решил запустить через lauch, и какая-то ошибка вылезает в командой строке на секунду, так что я даже заскринить не могу. Щас запустил через файл webui-user, нажал generate и такая ошибка вылезла.

Аноним 09/12/23 Суб 06:16:05 #481 №567809

>>567733
А ты думал? Каких только шизиков не бегает тут.

Аноним 09/12/23 Суб 06:17:39 #482 №567810

>>565321
Причём тут гит, какие форточки, что ты несёшь, поехавший.

Аноним 09/12/23 Суб 06:19:01 #483 №567811

>>567746
>и такая ошибка вылезла
В консоли-то что пишет?

Аноним 09/12/23 Суб 08:58:33 #484 №567848

кто знает что такое шаги накопления градиента и нахуй оно надо если можно просто поставить больше эпох?

Аноним 09/12/23 Суб 08:58:45 #485 №567849

Что в данный момент не позволяет создать архитектуру для нейронок как SD, но чтобы трейнить с нуля, за короткое время на небольших данных и с нужными тебе параметрами? (То бишь не зависимую от каких-либо pretrained весов с корявыми эмбедингами, при этом с базовым знанием мира, понимающая в принципе что от нее требуется, этакая pretraining-free)

Аноним 09/12/23 Суб 09:06:10 #486 №567853

>>567849
> как натренировать модель без тренировки
Никак. Иди нахуй с такими дегенеративными вопросами.

Аноним 09/12/23 Суб 09:29:37 #487 №567868

>>567849
>>567853
Ничто не мешает этому, это называется zero-shot learning. Все эти методы трансфера стиля/концептов/объектов типа IPAdapter, reference-only controlnet и т.п. это оно и есть. Результат неизбежно хуже чем полноценная тренировка, но в долгосрочной перспективе это выигрышный путь.

Аноним 09/12/23 Суб 09:55:09 #488 №567879

>>567868
> zero-shot learning
Ты хоть ознакомился бы с ним. Оно не отменяет необходимость в натренированной модели.
> типа IPAdapter
Который конечно же без тренировки работает, да? CLIP для извлечения "фичей" тоже уже без тренировки на миллиардах пиков работает?
> reference-only controlnet
Технически минимальные отличия от img2img, разница лишь в каком месте UNET применяется референс - в кросс-аттеншене, а не просто пикча на вход UNET передаётся. Без натренированного UNET это всё так же не будет работать, а от твоего референса UNET не научится рисовать то что не умеет.
> в долгосрочной перспективе это выигрышный путь
Никому не нужно такое говно. Сейчас наоборот идёт весь упор на повышение качества моделей через вариации RL, где помимо основной модели нужно ещё иметь модели для ревардов/скоров.

Аноним 09/12/23 Суб 14:37:07 #489 №568192

>>567879
Я просто в глаза ебусь, думал что этот даун хочет без файнтюна, а он предлагает вообще без модели обойтись. Этого конечно не бывает.
>Никому не нужно такое говно. Сейчас наоборот идёт весь упор на повышение качества моделей через вариации RL, где помимо основной модели нужно ещё иметь модели для ревардов/скоров.
Речь об zero shot vs файнтюнинг. Зерошот на базе универсальной модели всегда будет более востребован, файнтюнят лишь из-за того что результат лучше.

Аноним 09/12/23 Суб 15:13:27 #490 №568213

1643908969002.jpg

>>565780
> Апскейл должен идти по принципу "тыкнул и готово", а не создавать еще больше артефактов и лишней работы.
Пикрел
>>565942
> Можешь LlaVA
С анимублядскими только кое как bakllava справляется, и то потом ее выдачу нужно сильно обрезать или прогонять через другую LLM. Новые мультимодалки возможно получше в этом отношении будут.
>>565955
> Заплатить OpenAI и юзать.
Полноценный датасет выйдет очень дорого, но еще раньше упрешься в рейтлимиты.
> CogVLM. Она здоровенная и хорошо видит то что на картинке, но требует 80GB
> CogVLM supports 4-bit quantization now! You can inference with just 11GB GPU memory!
Пробовал кто?
>>566649
> >На уровне лавы 1.5, хуже её файнтюнов. Обсерается в композициях сложнее клоузапа.
Ее бы локально пустить с нормальными настройками семплинга и промтом. Текстовая часть в этих моделях очень глупенькая и с ней надо как с ребенком ложечкой кормить, тогда отвечают.
>>566714
> CogVLM понятия не имеет о тегах данбуры
Потом можно через другую llm прогнать попросив сделать теги. Но лучше сразу wd tagger из нескольких моделей.

Аноним 09/12/23 Суб 15:15:58 #491 №568215

>>568213
>Новые мультимодалки возможно получше в этом отношении будут.
как их искать и где?

Аноним 09/12/23 Суб 15:30:45 #492 №568226

>>568215
Речь про этот самый CogVLM и еще какая-то выходила недавно. Из легковесных - ShareGPT4V различает очень хорошо и меньше галлюцинирует, но слаб в непотребствах. Вон из llama треда их сравнение https://rentry.co/r8dg3
В перспективе наиболее рабочим вариантом может быть связка интерогейтеров, мультимодалки и LLM как в примере https://rentry.co/pvnhr
тут на основе wdtagger, clip и общения с Bakllava китайская сеть описывала пикчи и достоаточно эффективно осеивала галлюны последней и большей частью давала верное описание. На дикую графоманию описания внимания не обращай, это легко меняется промтом.
Сюда имплементировать CogVLM, ShareGPT4V, устроить сортировку по содержимому пикчи в соответствии с возможностями мультимодалок, добавить еще промежуточные этапы - легко превзойдет gpt4v в зирошоте, а то и в диалоге.

Аноним 09/12/23 Суб 16:31:06 #493 №568278

в какой последовательности и каккими калькуляционными методами лучше всего сращивать концепты моделей? допустим у нас есть реалиситиквижн и фотогазм, максимально усредненное значение можно получить через экстракцию из фотогазма в рв + рв в фотогазм и потом их вейтедсумить пополам с альфа слоем

а дальше? допустим я хочу присадить анимеконцепты, беру модель и через трейндифренс с 0.5 присаживаю, получаю уже не фотореал, а псевдо 2д, далее могу через смуфадд или долго повторяя экстракт получить более менее реалистик назад при этом сохранив концепты из аниме модели

может есть какой-то более умный метод?

Аноним 09/12/23 Суб 16:55:07 #494 №568302

>>568226
Мультимодалки ламы с CLIP примерно все одинаковые. Cog уже лучше, но я им недавно на 12к пикч генерировал капшены - сутки вышло по времени, блять. Зато сильно лучше всего говна что до этого видел. А чистый CLIP хорош разве что вычистить мусор из датасета побыстрому, если тянешь фоточки со всяких помоек или стоков, то мусора там достаточно, приходится чистить.

Аноним 09/12/23 Суб 17:09:53 #495 №568316

Объясните тому как это запустить
https://github.com/bishopfox/unredacter

Аноним 09/12/23 Суб 20:15:23 #496 №568473

>>568278
Анон, ты про свеженький реалистиквижн, шестой? Ты если его с фотогазмом... того, ты это... выложи куда-нибудь. Интересно, потянет ли плод трудов твоих скорбных реалистиковские 768х1024.

Аноним 10/12/23 Вск 04:32:47 #497 №568887

>>568302
> Мультимодалки ламы с CLIP примерно все одинаковые.
Sharegpt4v из них выделяется сильно, но у него и свой проектор не работающий с остальными. От ллавы же можно легко на любую 7б/13б подключить и она как-то будет работать.
> на 12к пикч генерировал капшены
Круто, пускал локально квантованную версию или арендовал/абузил апи? Покажи на примерах что получилось и если не стесняешься - промт запроса, было бы полезно и интересно.
> CLIP хорош разве что вычистить мусор из датасета
Ага, ему еще можно свои наборы капшнов кормить а он уже их отранжирует под каждую пикчу. Для разбивки по категориям самое то, даже с анимублядскими справляется только ссущих почему-то отправляет в safe for all ages категорию, пиздец блять

Аноним 10/12/23 Вск 08:51:46 #498 №568964

https://github.com/mlpc-ucsd/TokenCompose
Киллер-фича для SD, - она допиливает модели практически до уровня DALL-E 3. (Не считая стилистических биасов, ибо масштаб не тот.) Изображения будут точно следовать промптам после дотрейна по инновационному методу?

Аноним 10/12/23 Вск 10:42:57 #499 №568996

00013-2317495874.png

Господа, паоменял жесткий диск в пука и установил чистую винду. Раньше использовал stable diffusion webui, но уже больше года прошло. Что сейчас принято устанавливать у анонов? И есть ли ссылка на гайд?

Аноним 10/12/23 Вск 10:49:24 #500 №568998

>>568996
Уёв/движков полно, выбирай любой.
>всё тот же автоматик1111
>ComfyUI
>fooocus
>InvokeAI
>EasyDiffusion
и т.д. и т.п.

Аноним 10/12/23 Вск 10:51:24 #501 №568999

>>568998
Автоматик сильно отстает от новых или если привык к нему, то нет смысла переходить на что-то другое?

Аноним 10/12/23 Вск 10:53:34 #502 №569001

>>568887
> Sharegpt4v
Он же хуже балаклавы.
> что получилось
Ну Cog внезапно даже в порнуху умеет. Проёбы всё ещё частые, но это по крайней мере в пределах 10%, а не как в прошлых сетках, где буквально каждый раз проёбывается. С терминологией, конечно, надо ебаться в промпте, чтоб всякие "white substance" или "posterior" не лезли. Ещё из неприятного - у него странное понимание лежащей тянки, она должна лежать как будто спит чтобы он её назвал лежащей, а не сидящей. Проиграл что цензуру мозаикой на хуях/пиздах он понимает и даже понимает что под ней, но приписывает что она "for privacy", лол.
Вот примеры что на порнушные пики он генерит, на этих описаниях всё чётко как на пике, без галлюцинаций.
> The photo is a side-by-side comparison of a woman in two different states of undress. On the left, she is wearing a blue t-shirt and glasses, standing in an outdoor setting with trees and a body of water in the background. On the right, she is completely nude, sitting on a bed with a radiator and window curtains behind her.
> This explicit photo showcases two Asian women engaging in a passionate oral interaction inside a well-lit room with green curtains in the background. The woman on the left wears a beige turtleneck and gold earrings, while the woman on the right dons a white top. Both are visibly sweaty, suggesting intense physical activity, and both have their tongues deeply inserted into each other's mouths.
> This porn photo features a young woman with long brown hair wearing white lingerie. She is positioned in a room with floral wallpaper, sunlight streaming in from a window, and a bouquet of flowers on the floor. The woman has a heart-shaped butt plug inserted into her anus and is holding a small white object near her vagina.
> This is a close-up adult photo featuring a woman with her face covered in cum. She wears a green sleeveless top and has her finger touching her lips. The background shows a room with a dresser and a closed white door.

Аноним 10/12/23 Вск 11:00:42 #503 №569003

>>568999
Не особо отстаёт, можешь ставить. Хотя новые фичи быстрее в комфи приплывают, как правило, но в автоматик тоже быстро. Ну можешь комфи поставить чисто чтоб ознакомиться как работает, принцип там иной совсем.

Аноним 10/12/23 Вск 11:04:27 #504 №569005

>>569003
Есть гайд для низкоайсикьюшных по установке и настройки комфи?

Аноним 10/12/23 Вск 11:07:01 #505 №569007

>>569005
Скачай@запусти батник.
https://github.com/comfyanonymous/ComfyUI#installing

Есть ещё плагины для 2Д редакторов таких как крита или фотошоп, тоже другой принцип взаимодействия с сеткой совсем.
https://github.com/Acly/krita-ai-diffusion/

Аноним 10/12/23 Вск 11:10:19 #506 №569009

>>568964
Это же модель с весами, а не способ для любых моделей. Прочёл и похоже я слишком брейнлет для этого. Как-то не очень понял как оно работает и что нужно для апгрейда произвольной модели.

Аноним 10/12/23 Вск 11:32:38 #507 №569016

>>568964
>man walking upside down on the ceiling
>koi fish doing a handstand on the skateboard
>yellow ball on the green box on the white plate in the park
>overturned car
Этому конечно далеко до дали-3, ололо. Многих вещей он изначально не понимает. Но тем не менее охуенно останавливает протекание токенов друг в друга и вообще в целом улучшает взаимодействие объектов. Как они это делают без огромного трансформера для кодирования текста?

Аноним 10/12/23 Вск 11:47:28 #508 №569023

>>568964
а нахуя они на 1.4 делали? они ебанутые?

Аноним 10/12/23 Вск 11:51:24 #509 №569025

>>569023
Они делали на 2.1, т.е. ещё более ебанутые

Аноним 10/12/23 Вск 11:59:02 #510 №569030

Господа, кто-нибудь пробовал textual inversion для sdxl натренить? На civitai их подозрительно крайне мало.
Есть персонаж, реальный человек, с не очень качественным набором фото. На 1.5 лучшие результаты получал сочетанием лоры и ти.

Аноним 10/12/23 Вск 12:12:28 #511 №569034

>>569016
>Как они это делают без огромного трансформера для кодирования текста?
Ответ - никак, они файнтюнят на его выхлопе. Генерят пикчу по промпту, сегментируют объекты из результата на основе существительных, выделенных из промпта, и файнтюнят на этом. DreamSync выглядит лучше, там LLM на основе промпта задаёт проверочные вопросы по пикче, которые потом проверяет VLM, и на этом тренятся. Если соединить это со StyleAligned, будет пиздато.

Но все эти способы имеют один недостаток - они не научат сеть тому что она в принципе не может сгенерить, они только улучшают то что есть.

Аноним 10/12/23 Вск 12:29:26 #512 №569039

>>569016
> Этому конечно далеко до дали-3
Двачую, дали вообще не может в нормальную композицию реалистика, тут бы сначала дали догнал SDXL.

Аноним 10/12/23 Вск 13:30:54 #513 №569051

>>569030
Их мало потому что то TI проку мало, и их используют главным образом для негативов под SD.
>На 1.5 лучшие результаты получал сочетанием лоры и ти.
Мог бы сделать полноценный файнтюн в таком случае.

Аноним 10/12/23 Вск 13:31:12 #514 №569052

>>569007
Спасибо. Попробую.

Аноним 10/12/23 Вск 13:52:48 #515 №569064

Аноны, а как можно скриптом загрузить промпт из картинки в stable-diffusion-webui? Т.е. сэмулировать перетягивание картинки в Prompt и нажатие на "Read generation...".
Скажем имеем картинку C:\123\666.PNG, запускаем скрипт - он подтягивает из неё промпт.

Суть такая, что есть дохрена картинок с "удачным" промптом, хотелось бы для кажной из них сгенерировать по 50 картинок с разным сидом.

Аноним 10/12/23 Вск 14:17:50 #516 №569078

>>569001
> Он же хуже балаклавы.
Не, в сценах без нсфв или где это не главный элемент он сильно лучше, может сходу четко описать сцену с большим числом объектом не сбиваясь и сохраняя консистентность выдачи, также четко выдает координаты. Его слабые места - необычные позы, стилизованное 2д, левд и подобное, в них бакллава уже лучше.
> Ну Cog внезапно даже в порнуху умеет.
По примерам весьма неплохо, это успех похоже. Через апи пробовал или локально? Настройки семплинга там сильно влияют на качество ответов и галюны. Так вот уже можно хорошо датасеты описывать и сортировать.
>>569034
> они не научат сеть тому что она в принципе не может сгенерить
Вносить в нее это новое той же лорой, а в процессе обучение постепенно снижать ее вес. Разумеется с адекватной реализацией а не так топорно, но по принципу.
>>569064
Exif же.
Пишешь простейший парсер и делаешь обращения по api, предварительно его включив в параметрах запуска. Описание его в репе есть.