24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
ИТТ делимся результатами обучения, советами, лайфхаками, наблюдениями, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
➤ Гайды по обучению
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа. ✱ Текстуальная инверсия (Textual inversion) может подойти, если сеть уже умеет рисовать что-то похожее: https://rentry.org/textard (англ.) ✱ Гиперсеть (Hypernetwork) может подойти, если она этого делать не умеет; позволяет добавить более существенные изменения в существующую модель, но тренируется медленнее: https://rentry.org/hypernetwork4dumdums (англ.) ✱ Dreambooth – выбор 24 Гб VRAM-бояр. Выдаёт отличные результаты. Генерирует полноразмерные модели: https://github.com/nitrosocke/dreambooth-training-guide (англ.) ✱ LoRA – "легковесный Dreambooth" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением: https://rentry.org/2chAI_LoRA_Dreambooth_guide ✱ Text-to-image fine-tuning для Nvidia A100/Tesla V100-бояр: https://keras.io/examples/generative/finetune_stable_diffusion (англ.) Бонус. ✱ Text-to-image fine-tuning для 24 Гб VRAM: https://rentry.org/informal-training-guide (англ.) Не забываем золотое про правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.
Вообще надо бы сказать, что у оранжа с руками изначально все почти норм при норм негативах часто бывает, надо модельку с ультра кривыми руками потестить, есть у кого че посоветовать? Реалистики там например какие. А еще плагин для лор и автоматиковский инжект лор работают несколько по разному, и тот и тот по своему хорош.
>>103821 → Главная проблема датасета что там нет анатомически неправильных рук в контексте персонажа, а лишь одни клоузапы. Поэтому всё, чему ты обучаешь сеть, это как делать клоузапы кривых рук Я крайне скептически отношусь к такому подходу, да и вообще к обучению подобного, потому что как я уже говорил в изначальном датасете модели и так было достаточно тренировочных образцов, и если её не смогли обучить правильной анатомии с таким датасетом, то лора тут не поможет имхо Но ты пытайся. Работа дурака любит
>>103861 > педики чсвшные > илитаебалом Хуя ты подорвался. Всего лишь пытался освободить тебя от бессмысленной работы чтобы ты занялся чем-то более полезным. Ну, зато теперь у тебя есть отличная мотивация доказать всем что я неправ.
> датасет из 2 миллиардов пикч со всеми возможными вариациями рук с разными жестами, цветами кожи, стилями рисовки, с разного расстояния и разных ракурсов не смог в анатомию > ух ща лорку наебеню на клоузапах кривых конечностей и буду самым умным, ведь никто до меня не пытался сделать что-то подобное
Что-то в автоматике или в экстеншне для лорок сломали? Тэгом из папки автоматика вызываются норм, а вот с выпадающего листа и папки экстеншна- не работают почему-то.
Зато дополнительную вкладку завезли, где можно препарировать лорки на предмет тренировочных параметров. Оченно помогает. Видишь хорошую - ориентируешься на нее.
>>103876 > датасет из 2 миллиардов пикч со всеми возможными вариациями рук с разными жестами, цветами кожи, стилями рисовки, с разного расстояния и разных ракурсов не смог в анатомию
Ну, блин, зная что там художники порой рисуют - ничего удивительного, что усредненный результат восьмипалых монстров выдает. Идея правильная, пусть старается.
В датасете наверняка дохрена симпсонов, например, у которых каноническое количество пальцев - четыре. Никто не пробовал, кстати, simpsons в негатив пихать? И это тольео самый известный пример. Тут дело идёт к тому, что нужны отдельные inpaint-модели на руки. Возможно, отдельно анимешные и отдельно реализм; возможно, чуть ли не отдельные модели для разных положений руки.
>>103861 Хуя подрыв, ты хоть по сути скажи чем он не прав. Аргументы разумные, что совсем не поможет тут я бы не согласился, но в текущем виде оче успешная реализация маловероятна.
>>102649 → Расскажи как у тебя там стоят параметры (все включая батч сайз, планировщик, настройки вармапа и т.д.) правил ли дополнительно теги. Нужно прояснить тему с количеством эпох, чому у одних все сходится за 5-8 а дальше пережаривается а кто-то херачит десятки а то и сотни в поисках результата.
>>104018 >скажи чем он не прав В чем не прав пчелик, который резко негативно выступает против идей, их проверки и транслирует позицию "а давайте нихуя не делать потомушта я так скозал"? Ну даже не знаю.
>>104023 Хз насчет выступает, там только в конце он чуть выебнулся а в основном посте обозначил скепсис, от этого рваться нужно? Или привык к круговому дрочеву да подлизыванию без тени критики там где она полезна и необходима? Не отождествляй себя со своими действиями, все станет нормально восприниматься Раз считаешь что работает - поясни почему, ну и пруфы приноси, в прошлом треде какие сделать гриды где все будет хорошо видно предложили.
>>104028 >Так он не это пишет, глаза протри. >я я я я я >если её не смогли обучить правильной анатомии с таким датасетом, то лора тут не поможет имхо >Работа дурака любит >"а давайте нихуя не делать потомушта я так скозал" >Так он не это пишет Протёр глаза, все на месте.
>>104029 >от этого рваться нужно? Так где рвоньк-то? Выразил мнение, что челик чсвшный пидорок просто, которому и это не так, и то не так, и вообще на попке ровно надо сидеть. >Или привык к круговому дрочеву да подлизыванию без тени критики там где она полезна и необходима? Вопервых я модель даже не выкладывал, сам кручу ее, а шизло уже начало пропукивать "нинужно неработает уии я скептик пук хрюк имхо". Это конструктивная критика чтоли? Это банальное двачное обесценивание и бабах с нихуя на ровном месте. >Не отождествляй себя со своими действиями С этим проблем нет, есть проблема с "нинужно ненадо работа дурака любит", это прямой наезд чсв мудака не на результат, а конкретно на меня. >Раз считаешь что работает - поясни почему Потому что очевидно я ебу эту модельку в разных позах щищас. Результат очевидно имеется, но я бы лучше гудхендс потренил еще дополнительно чтобы сравнить, а это надо датасет новый собирать. >ну и пруфы приноси, в прошлом треде какие сделать гриды где все будет хорошо видно предложили. Я же сказал что выложу все эпохи и сами тестируйте, у меня нет столько времени чтобы на некрокарте гриды делать.
>>104033 >тоже свои параметры обозначь В прошлом треде скинул конфиг.
>>104036 > Так где рвоньк-то? > Главная проблема датасета > Я крайне скептически отношусь к такому подходу > не поможет имхо > что челик чсвшный пидорок Вот же оно, сам не лучше него выходишь > Это банальное двачное обесценивание Сам пишешь что еще ничего нет, значит нечего обесценивать, нечего ценить. > а конкретно на меня > я я я я я Не ты ли ноешь по кд что у тебя майнинг-плата из 2016 года вместо актуального аи-ускорителя? Хотя не, тот от гридов не отказывается > я ебу эту модельку в разных позах щищас. Результат очевидно имеется > Я же сказал что выложу все эпохи и сами тестируйте Ну что же ты, раз результат очевидно имеется значит ты его получил, а поделиться не хочешь, ну ахуеть > у меня нет столько времени чтобы на некрокарте гриды делать А, таки угадал, тогда и пиши что затруднительно а не чсв гонево уровня "вот я для вас все делаю сами давайте изучаяте а я всегда прав". > В прошлом треде скинул конфиг. Отлично, спасибо
>>104041 >Вот же оно, сам не лучше него выходишь Он на меня наехал, я на него, все ок.
>Сам пишешь что еще ничего нет, значит нечего обесценивать, нечего ценить. Это не повод для наездов и преждевременных умозаключений.
>Хотя не, тот от гридов не отказывается Я вообще против любых гридов, потому что сиды это запеченый в момент прожатия генерейта путь чанков по шуму, и мягко говоря надо хотя бы варсид подкручивать при любом изменении чанков (что является также вкл выкл лоры) на ноль целых хуй десятых, сравнения на одинаковых сидах может пригодиться разве что для теста стилистики и чека овертрейна, потому что стилистика хранится в самых жирных кластерах веса - M0 и теми которые рядом с M0, а всякие ручки глазки ножки это окраина которая требует точности для построения и статик сид ломает точность. Кароче, гриды на полностью одинаковых сидах это суходрочка ради суходрочки в вопросе чеканья мелких деталей.
>раз результат очевидно имеется значит ты его получил, а поделиться не хочешь, ну ахуеть Ну выложу после ресерча, терпим.
>тогда и пиши что затруднительно а не чсв гонево уровня "вот я для вас все делаю сами давайте изучаяте а я всегда прав" Я против гридов, как уже скозал, с лорой статичная концепция вообще невозможна, поэтому если кому-то надо поделать хуйни гридов на одинаковых сидах - пусть сами делают потом, я таким заниматься не буду.
>>104054 >>102649 → > но последние эпохи опять всрались > learning_rate: 2e-4 Не стоит раздельная скорость обучения унет и ТЕ, сооветственно ТЕ тренится на скорости 2е-4, а это очень много для него, мой совет оставить унет как есть потому что он правильно рассчитан (1е-4 х батч сайз), а вот текстовый энкодер обучать на скорости в 5-10 раз меньше унета (2е-5 - 4е-5), а то и не обучать его вовсе с параметром --train_unet_only. По остальным настройкам как бы хорошо всё, хотя мне казалось их больше
>>104021 > Нужно прояснить тему с количеством эпох, чому у одних все сходится за 5-8 а дальше пережаривается а кто-то херачит десятки а то и сотни в поисках результата. Всё зависит от настроек и размера датасета. 3 и 4 пик оппоста
>>104064 > Я вообще против любых гридов, потому что сиды это запеченый в момент прожатия генерейта путь чанков по шуму Можно с пикрелейред и накрутить батчей дабы сравнивать по совокупности вариантов. Когда одинаковый сид и где нет возмущений которые пикчу переделывают то сравнивать удобно, но в любом случае нужна какая-то статистика дабы отследить тренд. Тут будет просто оценка по совокупности, например, сравнивая пальцы на 16 пикчах уже эффект отследить можно, на 1-2-4 хуй. Вообще сам по себе одинаковый сид ничего плохого не делает, обеспечивает изначальную схожесть, другое дело что захуевшивающий эффект он не позволит отследить, ибо это может оказаться единственный сид из десятков тогда как на остальных поебота. > Я против гридов > я таким заниматься не буду Предлагай как отслеживать объективно а не ударяться в манямир >>104054 Найс. > learning_rate: 2e-4 Так мало, однако, а повторений сколько? Ну оно и понятно, значит надо смотреть чем 2 эпохи с 1 повторением сета будут отличаться от 1 эпохи с двумя, если максимально упростить. Пока что сам пришел к тому что более короткое обучение но с лр повыше дает лучший результат в плане сохранения функциональности, отсутствия искажения, влияния на фон и т.д.
Пытаюсь потренить рожи, но лора портит и упрощает и остальные части тела и фоны, треню на Any4.0 Какие есть методы для трени только рожи, но чтобы не портило и остальное?
>>104127 > Какие есть методы для трени только рожи, но чтобы не портило и остальное Качество датасета, нормальное теггирование с бур хватает а автотегер иногда тащит лишнее, правильно подобранные параметры тренировки.
>>104076 >>По остальным настройкам как бы хорошо всё, хотя мне казалось их больше Да я просто убрал бессмысленные пути и прочие
> а вот текстовый энкодер обучать на скорости в 5-10 раз меньше унета (2е-5 - 4е-5), а то и не обучать его вовсе с параметром --train_unet_only Напомни кстати, почему так лучше делать?
>>104095 > Так мало, однако, а повторений сколько? 5
> Ну оно и понятно, значит надо смотреть чем 2 эпохи с 1 повторением сета будут отличаться от 1 эпохи с двумя, если максимально упростить. А как ты это собираешься проверить, там же всегда рандом присутствует? Теги же мешаются
> Пока что сам пришел к тому что более короткое обучение но с лр повыше дает лучший результат в плане сохранения функциональности, отсутствия искажения, влияния на фон и т.д. У меня пока на больших лр-ах и батч сайзах только дичь какая-то получалась
Есть способ сделать две абсолютно одинаковые лоры с одним хешем? Для этого надо перестать теги мешать?
>>104139 > Напомни кстати, почему так лучше делать? Потому что процент тренируемых параметров больше у ТЕ, чем у UNet, соответственно при одинаковой скорости обоих текстовый энкодер переобучается быстрее. Да и к тому же это опция, его в теории необязательно обучать. По моему опыту высокая скорость обучения ТЕ если не приводит к переобучению, то уж точно ломает редактируемость и переносимость сети
> чем 2 эпохи с 1 повторением сета будут отличаться от 1 эпохи с двумя Еще раз повторяю, ничем
> всегда рандом присутствует При статичном сиде - нет
>>104153 Имеет смысл собрать датасет включающий все себя фотки с разных ракурсов, с разного расстояния, с разным освещением и фоном, иметь и портреты и 3/4 и полноростовики, и с разной одеждой. Если в датасете не хватает чего-то из того что я перечислил это минус. Чем меньше разнообразия, тем меньшую редактируемость ты получишь > упрощает и остальные части тела и фоны Вместо того чтобы начинать диалог, который в теории может растянуться на тыщу постов, говори что ты хочешь получить, к чему ты стремишься и что у тебя есть на данный момент. Включая референс концепта, результат который тебе не нравится и ссылку на датасет
Доброе утро, тредные 800 постов осилить сложновато и прочитав шапку я так и не понял, когда что использовать вернее? Вот есть у меня модели, что все делают. Часть из них со своими особыми стилями, тот же самый диско элизиум. Хочу я обучить НЁХ на персонажа. Это правильнее делать гиперсетью, чтобы не херить стили? Ведь она же идет как надстройка к основной сети и по сути является декодером, как я понимаю. А если я хочу обучить НЁХ именно на стиль. Это уже лора или эмбеддинг? Эмбед же нужен если нужен шорткат, верно?
>>104322 Эмбединг на стиль практически бесполезен, либо гиперсетку (муторнее и дольше, но лучше), либо лору (каждый первый говноед сейчас дрочит на эту технологию в силу доступности любому дауну с картошкой вместо видюхи, но результаты у нее на стилях парашнее). Да, яскозал.
>>104322 Без разницы что и чем обучать. Выбирай метод наиболее подходящий тебе. Пробуй. >>104341 > Ещё лучше тупо взять и dreambooth сделать, можно на несколько часов арендовать А100 и вся история. А еще лучше лору dreambooth сделать, арендовать 3090 на 20 минут и модель готова
>>104341 > Лоры ощутимо лучше гиперсетей на практике Для рисования очередной штампованной тупорылой анимепизды с пустыми мыльными глазами - безусловно.
Так блядь, реги готовы. Прочитал что рекомендуемое количество - размер датасета умножить на количество эпох. Не дай бог не прокатит, лично блять приеду к китайцу в Японию и промассирую ему простату.
>>104139 > А как ты это собираешься проверить, там же всегда рандом присутствует? Теги же мешаются Его эффектом можно будет пренебречь при таком числе повторений. > У меня пока на больших лр-ах Не, больших тут и не надо. Попозже может попробую сравнение намутить. >>104153 Смотря что делаешь, но в 90% случаях не стоит. Разбавить то что уже есть кропнутыми, особенно если там есть какие-то детали на лице - да, но и теги соответствующим образом поправить. Трудоемкость пиздец, чувствительность результата меньше чем к верным настройкам, так что смотри сам. >>104360 Регулялизация? А на что тренируешь? Каковы критерии выбора?
>>104366 > Регулялизация? А на что тренируешь? Каковы критерии выбора? Хочу вот жопича на тестовой сетке с нетворк дим 4, альфа 1 потренить без оверфита. Уже столько раз пробовал реги и всегда с ними результат был говно. Но и настройки были гавно. Сейчас попробую с чистого листа Критерий выбора - класс концепта. Жопич - мужчина, следовательно реги - фотки мужчин
>>104351 Для неанимешных стилей лоры и дримбуфы тоже лучше гиперсетей. Учатся быстрее, стиль передают лучше, потенциальных возможностей угробить тренировку тоже меньше.
Окей, впервые за раз 10 с регами что-то получилось. Но обучается с ними конечно гораздо медленее. Слава богу для стиля не нужны. Не понимаю только как люди умудряются тренить дримбуз по одному инстанс токену без описаний. Я сделал также и теперь на половине пиков либо наушники, либо спинка от стула.
>>104616 > When merging models it is recommended leave the base_alpha value either at 0 or 1, as intermediate values tend to either give bad results or outright break the text encoder. And I don't know why. То есть классический мердж кормил нас говном из-за смешивания текстового кодировщика. Уже пробовали исправить старые миксы, установив его в 1 или 0?
не желаете ли челлендж, достопочтенные господа? суть проста, натренить Малышеву любым способом, получить посредством txt2img и отличных от стандартных чекпоинтов изображения, значительно отличные от датасета для тренировки.
почему именно Малышева? потому что я за каким-то хером начал разбираться со всей этой хуйней именно с неё. получалось не лучше пикрил. уже чуть не бросил это дело, да попробовал пару других персонажей и получилось заебись.
походу тяжело СД переваривает ее квадратный ебасос.
>>104680 Да там изи. Берем лицо, треним лицо, готово, я так мейтай натренировал.
>>104645 >То есть классический мердж кормил нас говном из-за смешивания текстового кодировщика. А то. Еще сломанным клипом кормил. >Уже пробовали исправить старые миксы, установив его в 1 или 0? Офк. Ток тебе надо выбрать чью альфу впиздячивать обратно. Можешь вообще от стабильной хуйни левой взять просто типа делиберейта или оранжа.
Скажи мне, анон, вот СД 1.5 натренена на картинках 512х512, это есть общеизвестный факт. Соответственно, попытка генерить нечто даже с одной стороной, существенно превосходящей 512, приводит к рассиамливанию ака потере когерентности. Ну т.е. 512х640 обычно ещё ок, а вот фотка 512х1024 почти всегда долбаный кентавр с задницей из плеч.
То, что СД 2.1 натренена на 768х768, подаётся как достижение и чуть ли не как один из основных аргументов за переход на неё.
И тут какие-то чуваки выкладывают DreamLike-PhotoReal-v2 и пишут в описании, что он натренен на 768х768. Причём по ощущениям он реально справляется с 768х768 на порядок лучше, чем AnalogDiffusion, скажем.
>>104714 Попробуй для первого варианта писать: waifuname waifunamebluebikini и далее прочие тэги, если есть. А для второго, соответственно, waifunsme waifunamewhitesportswear и далее тэги
Совет теоретический (сам не пробовал), но попробуй.
>>104761 > попытка генерить нечто даже с одной стороной, существенно превосходящей 512 Если другую убавишь сохранив общее число пикселей то оно сработает, далее апскейлы различными методами. >>104714 Именно, заодно еще описывай его атрибуты известными тегами и применяй их при генерации. Когда не удалял теги с названием костюмов, потом по ним вполне себе вызывалось нужное.
>>104751 Ну я например юзаю два варианта - короткий с более простым рендером и ковровый спам с выебонами покрывающими кучу негативов. Соответственно графинум у них разный тоже.
woman holding coffe cup
Пик1 (deformed, distorted, disfigured: 1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation
deformed, distorted, disfigured poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, mutated hands and fingers, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation
Пик2 [intersection intersection : bad eyes bad eyes : deformed deformed : bad anatomy bad anatomy : disfigured disfigured : poorly drawn face poorly drawn face : mutation mutation : mutated mutated : extra limb extra limb : ugly ugly : poorly drawn hands poorly drawn hands : missing limb missing limb : floating limbs floating limbs : disconnected limbs disconnected limbs : malformed hands malformed hands : out of focus out of focus : long neck long neck : long body long body : monochrome monochrome : feet out of view feet out of view : head out of view head out of view : lowres lowres : bad hands bad hands : text text : error error : missing fingers missing fingers : extra digit extra digit : fewer digits fewer digits : cropped cropped : worst quality worst quality : low quality low quality : jpeg artifacts jpeg artifacts : signature signature : watermark watermark : username username : blurry blurry : artist name artist name : poorly drawn eyes poorly drawn eyes : out of frame out of frame : black and white black and white : censored censored : bad legs bad legs : bad hands bad hands : text text : error error : extra digit extra digit : fewer digits fewer digits : cropped cropped : normal quality normal quality : jpeg artifacts jpeg artifacts : extra legs extra legs : without hands without hands : bad knees bad knees : multiple shoulders multiple shoulders : bad neck bad neck : no head no head : poorly drawn limbs poorly drawn limbs : amateur drawing amateur drawing : odd odd : extra fingers extra fingers : mutated hands mutated hands : multiple penises multiple penises : disembodied disembodied : deformed breasts deformed breasts : bad proportions bad proportions : extra limbs extra limbs : extra ears extra ears : inaccurate limb and hands inaccurate limb and hands : mosaic censoring mosaic censoring : reference sheet reference sheet : logo logo : unfinished unfinished : horrendous horrendous]
Так вот, получается, что сетку, натрененную на 512х512, можно и на бОльших разрешениях тренить? А имеет ли это смысл в случае дримбудки? А как оно отразится на требуемой памяти? А на скорости обучения? Вот, например, Anything V3. Он - судя по результатам генераций - натренен на 512х512 (а дальше уже безбожно сиамит). Имеет ли смысл тренить его, скажем, на 640х640? Или так вообще нельзя, а можно только кратно 256? Ставить 768х768 я не вижу смысла - таких артов в принципе маловато (по моей персонажке).
>>104771 > что сетку, натрененную на 512х512, можно и на бОльших разрешениях тренить? можно, но зачем >а можно только кратно 256? мне отчетливо помнится, что обоснование выбора разрешения исходит то ли из деления на 8, то ли из 64 640 делится и на 8 и на 64, так что можно и 640
Пытаюсь натренить лору на вот этого рисваку https://www.pixiv.net/en/users/26068055 Собрал 37 пиков (90% одна девочка, без надписей, нейтральный фон или вообще без), кропнул, протегал. Тренил 10 эпох, 1480 шагов. Модель эни4.5. Результаты пикрил. Хотелось бы как-то получше. Что можно исправить? Хочу в первую очередь стиль. или он слишком дефолтный? но я вроде вижу его. может шиза лол
>>104775 Чтоб лицо не так всирала, например, и при этом не сиамила. Т.е. чтоб качество бвло лучше. Или это так не работает?
И противоположный вопрос. Вот допустим у меня есть простой, очень простой объект. Скажем, серёжка в виде двух ромбиков. Могу ли я на неё натренить дримбуф в разрешении 128х128 или дпже 64х64?
И ещё ночных безумных мыслей наброшу. Можно ли разложить лицо по базису из известных нейронке лиц и их свойств? Нечто вроде textual inversion, но по более-менее заранее известному набору токенов. Или это так не работает? И как обойти тот факт, что, скажем, Emma Watson - это два токена (или нет)?
>>104783 Для начала убавь вес до 0.9-1 и скинь что получается. Ну и напиши какие параметры тренировки используешь, число повторений и т.д. > кропнул А что у него там кропать? И так персонаж основной объем рисунка занимает, если стиль хочешь то нет смысла этого делать >>104781 > Что за странный синтаксис с двоеточиями и повторениями, кстати? В вики автоматика есть, емнип это будет чредование их. Вообще подход как минимум странный, что уже обсасывали во времена разгула срунешизика в резиновом наи, простое перечисление основных тегов из этих чтобы помещались в 75 токенов даст лучший результат, ну и про рекомендованные ворст квалити лоурез забывать не стоит.
>>104781 >Что за странный синтаксис с двоеточиями и повторениями, кстати? Шаговый миксер без указания шагов, т.е. в момент прожатия генерации сетка берет все чанки негатива и перебирает их в один гигаманячанк приводя к среднему значению или что-то типа того. >И да, зачастую даже bad anatomy влияет на стиль. Да можно чисто на негативах картинки делать такто, пик с пустым позитивом.
>>104805 >простое перечисление основных тегов из этих чтобы помещались в 75 токенов даст лучший результат Далеко не факт, собственно поэтому и юзаю.
Вообще есть еще прикол чанкования негатива, если следовать точному синтаксису: [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[intersection intersection : bad eyes bad eyes : 7] : deformed deformed : 7] : bad anatomy bad anatomy : 7] : disfigured disfigured : 7] : poorly drawn face poorly drawn face : 7] : mutation mutation : 7] : mutated mutated : 7] : extra limb extra limb : 7] : ugly ugly : 7] : poorly drawn hands poorly drawn hands : 7] : missing limb missing limb : 7] : floating limbs floating limbs : 7] : disconnected limbs disconnected limbs : 7] : malformed hands malformed hands : 7] : out of focus out of focus : 7] : long neck long neck : 7] : long body long body : 7] : monochrome monochrome : 7] : feet out of view feet out of view : 7] : head out of view head out of view : 7] : lowres lowres : 7] : bad hands bad hands : 7] : text text : 7] : error error : 7] : missing fingers missing fingers : 7] : extra digit extra digit : 7] : fewer digits fewer digits : 7] : cropped cropped : 7] : worst quality worst quality : 7] : low quality low quality : 7] : jpeg artifacts jpeg artifacts : 7] : signature signature : 7] : watermark watermark : 7] : username username : 7] : blurry blurry : 7] : artist name artist name : 7] : poorly drawn eyes poorly drawn eyes : 7] : out of frame out of frame : 7] : black and white black and white : 7] : censored censored : 7] : bad legs bad legs : 7] : bad hands bad hands : 7] : text text : 7] : error error : 7] : extra digit extra digit : 7] : fewer digits fewer digits : 7] : cropped cropped : 7] : normal quality normal quality : 7] : jpeg artifacts jpeg artifacts : 7] : extra legs extra legs : 7] : without hands without hands : 7] : bad knees bad knees : 7] : multiple shoulders multiple shoulders : 7] : bad neck bad neck : 7] : no head no head : 7] : poorly drawn limbs poorly drawn limbs : 7] : amateur drawing amateur drawing : 7] : odd odd : 7] : extra fingers extra fingers : 7] : mutated hands mutated hands : 7] : multiple penises multiple penises : 7] : disembodied disembodied : 7] : deformed breasts deformed breasts : 7] : bad proportions bad proportions : 7] : extra limbs extra limbs : 7] : extra ears extra ears : 7] : inaccurate limb and hands inaccurate limb and hands : 7] : mosaic censoring mosaic censoring : 7] : reference sheet reference sheet : 7] : logo logo : 7] : unfinished unfinished : 7] : horrendous horrendous : 7]
Вот эта поебень считается как 4 чанка например и выдает прикольные результаты с простыми промтами. Ну типаhigh detailed woman smiling, holding coffee cup на пике.
хотя хз лучше ли что-то я присмотрелся и там уторая рука без кисти а первая выглядит не как согнутые пксти а как без пальцев... наверное последняя снизу лучше всего
>>104837 чё не так? технотредовская тема: обманка сетки чтобы она весь массив негативов сверх 75 токенов обработала в блоке 75 токенов это не баг а фича
>>104805 >А что у него там кропать? И так персонаж основной объем рисунка занимает, если стиль хочешь то нет смысла этого делать Просто до квадрата кропал мокрописькой. А можно вообще не кропать и разного размера пикчи загонять? Я не знал.
>>104838 >>104839 Прогнал еще раз с тем же сидом, вроде такая же. Разве их можно как-то еще доставать, если автосохранение отключено? Да и у нее же хвоста нет.
>>104834 > Далеко не факт Нуу, вокруг стохастических эффектов всегда любят собираться неоче ментально здоровые люди и по единичным из множества случаям делать выводы, игнорируя факты остальное большинство подозреваю в тебе, ага. Уже ведь делали гриды сравнения, можем повторить. > ообще есть еще прикол чанкования негатива > : 7 Вредительство что видно по результату. Хотя вот если юзать для генерации чаржей или подобной стиллизации - вполне заебись, по красоте, надо сохранить. > считается как 4 чанка например А зачем их сокращать, все что влезает в 75 токенов и полезно - сокращений не требует. Поведение же кучи чредующихся тегов сравнимо с поведением тру шизонегативов на несколько экранов, где из всех на каждом шаге будет применяться только часть что влезает. И то, даже это даст результат лучше ибо в выборку почти каждый раз будут попадать полезные "ворстквалити" и прочие. >>104835 > $max_token_length = 75 Точно все что натегал влезают? > $train_batch_size = 1 Если хватает врам попробуй поднять > $shuffle_caption = 1 > $keep_tokens = 1 Первым тегом - однотокенновый тег автора? Хотя это офк и не так сильно влияет. В первую очередь попробуй лр вверх-внизу крутануть.
>>104844 > А можно вообще не кропать и разного размера пикчи загонять? Да, оно само обработает, другое дело что если персонаж занимает малую долю будет хуевый результат. >>104859 > а хвостик спрятан за спиной А хвостик можно и дорисовать
>>104857 ну опять чсв высер отрицалы че такое то, че ты забыл в треде экспериментов вообще с таким отношением? иди мастерписи генерируй в наи тред
>вокруг стохастических эффектов всегда любят собираться неоче ментально здоровые люди и по единичным из множества случаям делать выводы ад хоминем 1 я приложил изначально две картинки, с гигапромтом всегда субъективно лучший результат, это не пальцем в небо тыкано >Уже ведь делали гриды сравнения, можем повторить. поди еще и на статик сиде? гридование на статике бесполезно, сравнение коня в вакууме да и вообще, еще раз говорю - если бы не было эффекта я бы не юзал >Вредительство что видно по результату. ты просто негативишь чисто чтобы срач был >А зачем их сокращать чтобы больше чанков было в ротации >Поведение же кучи чредующихся тегов сравнимо с поведением тру шизонегативов на несколько экранов, где из всех на каждом шаге будет применяться только часть что влезает. ад хоминем 2 > И то, даже это даст результат лучше ибо в выборку почти каждый раз будут попадать полезные "ворстквалити" и прочие. голое утверждение основанное ни на чем, у этих двух токенов нет какого-то особого положения что их чаще берет сетка, все токены внутри одинаковый вес имеют
по хорошему надо игнорировать тебя и твое чсв, но мне так похуй что не могу молчать
>>104857 >Точно все что натегал влезают? Да, там самое длинное описание около 40. Может больше нужно было тегать? >Если хватает врам попробуй поднять 12гб. Не знаю, на сколько этого хватит, но можно попробовать. Это влияет на качество, да? >Первым тегом - однотокенновый тег автора? Хотя это офк и не так сильно влияет. Просто придуманные 4 буквы. Я видел в гайде что-то по поводу списка однотокеновых, там не было написано, сколько слов/букв влезает в "токен". >>104865 >Да, оно само обработает, другое дело что если персонаж занимает малую долю будет хуевый результат. Тогда вообще оригиналы загоню. Я сжимал до 512, потому что $resolution = 512 >В первую очередь попробуй лр вверх-внизу крутануть 2е-4 это больше или меньше? В гайде с 4е-4 каша какая-то начинается на примерах.
>>104859 Конечно, но ведь смотреть на хвостик это одно из самого приятного..
>>104867 > ррряяя ты негативишь чсв ааа меня обосрали Мдэ, таблетки пей, или уж сразу теряй сознание когда свою видеокарту чекаешь перед тем как посты писать. Тебе разные люди пишут а ты на всех кидаешься. > всегда > субъективно > я приложил изначально две картинки хех > поди еще и на статик сиде? > гридование на статике бесполезно > сравнение коня в вакууме И тут ты такой пруфы и четкое ясное обоснование > ты просто негативишь чисто чтобы срач был Большие веса все дико искажают, это факт. Если такова цель и нужен такой стиль - все ок, если хочешь получать ими нормальные пикчи - херь.
Я даже не поленюсь и потрачу 3 минуты чтобы эту херню еще раз обоссать, вот 16 пикч, в нормальном разрешении, теги видны. Сочный оранж с красивыми лицами, анатомией, норм пальцами с шейдингом, ногтями, большей частью получились. Странная штука с мылом, перекошенными фейсами, отсутствием пальцев местами а там где есть они напоминают рисовку начинающих. Офк стиль может показаться интересным, можно юзать как и то для чаржей, но с точки зрения правильности анатомии, пальцев и прочего - ну херь же. Везде сид рандомен, никаких лор и прочего не подключено, дабы не узнылся.
>>104881 Ну и самый сок, вообще убираем негатив и смотрим что получится. Хммм, что же это нам напоминает? Ну и в догонку сбалансированный вариант с меньшим весом рекомендательных тегов и добавлением мелочей
>>104881 >Мдэ, таблетки пей, или уж сразу теряй сознание когда свою видеокарту чекаешь перед тем как посты писать. Тебе разные люди пишут а ты на всех кидаешься. Узнал тебя, мастерписер ебучий. Как ты заебал уже, шоб ты сдох. >хех хуех >И тут ты такой пруфы и четкое ясное обоснование выше в треде писал, еблом не щелкай >И тут ты такой пруфы и четкое ясное обоснование по итогу ты обоссал сам себя: 1. субъективщина 2. ddim вместо семплера 3. используешь нулевое описание по сути, отдавая на откуп сетке генерацию, с таким же успехом можешь пустое поле оставлять и будешь получать свои ебучие мастерписи, ебанат
Иди на хуй кароче, не умеешь пользоваться фичами - не возникай.
>>104885 Ну понятно, шизосеря протек в технотред и теперь пытается под других косять, а я 1060-работягу еще обидел, эх. А это ты ловко придумал, сразу не узнал.
И с ответом даже не постарался, семплер не семплер, субъективщина, пик 1 плохо а в пик 2 - хорошо. С нулевого описания особенно проиграл, в прошлый раз было нытье про сложную позу с лежачими тнями. Слив засчитан, положение по тегам с примерами стоит в шапку закрепить, шизоконцепты тоже - вдруг кому такой стиль понадобится и пример каких затейников тряпками гнать надо.
Ты криворукий уебан с эталонным дженериком на DDIM (который только в дженерикоговне и не обсирается если че) с потерями в 45% качества на сложных промтах и рисующей заместо тебя сеткой просто.
>>104900 Ты далбаебина в DDIM запихал сложный промт и не понял этого. И до сих пор не понимаешь что генерации на двух чанках это женерик кал и любой дебил может так делать. Расти уже, заебал.
>>104891 > DDIM (который только в дженерикоговне и не обсирается если че) с потерями в 45% качества на сложных промтах Давно корелляцию между семплерами и женериком открыли?
>>104896 > Пик тотально релейтед кста. Че за исследование? Дай ссылку
>>104916 Ты сам-то понял чё написал или в написании осмысленных предложений находишься на том же уровне, что и твой уровень понимания стейблдифужена, мастерпися?
>>104923 я похоже забыл включить DDIM - ЛУЧШИЙ СЕМПЛЕР ДЛЯ ГОВНА ДЖЕНЕРИК ОНЕМЕ МАСТЕРПИС ТЯНна самом деле нет, мастерписокал на других семплерах лучше получается да и поебать, я спать
>>104930 Конечно я бы поспорил что значит "лучше/хуже", но допустим я согласился с твоим дебильным тезисом, но исходя из него получается, что не у ебланов, а у стейблдифуженской модели которая натренирована делать мастерписщитовую жвачку на двух чанках в пару сек. А проигрывать в качестве машине не позорно. Вот делать 1 girl, sfw (worst quality, low quality:1.4) и считать это верхом возможностей и тип больше ниче не надо - вот это позорище.
Сколько раз он сказал чето в духе "я программист". И я в какой-то момент сбился со счета слова "математически". Досмотрел до сравнения dpm++2m и каррас варианта и умер от кринжа с его "математических" объяснений про цвет, или хуй пойми что он там имел ввиду. На моменте про контрастность пошел сгенерил по паре пикч на этих семплерах и они сука одинаковые, разница в гистограммах в пределах погрешности, на глаз тем более даж на оледе поглядел
Закрыл видос и думаю, надо чекнуть че там еще за видосы у этого автора, перешел и орнул:
БА! ДА ЭТО Ж ТОТ САМЫЙ ЧСВШНЫЙ ХАЧАТУР-ВАСЯН! КОТОРЫЙ ГОВНОТВИКЕР ДЛЯ ВИНДЫ СДЕЛАЛ С КОНФИРМЕД БЕКДОРАМИ! КАК ТЕСЕН ИНТЕРНЕТ!
Еще раз вспомнил сколько раз он там чето про программирование упоминал и снова орнул Нупздц, лидеры мнений сука
В общем ладно, ноу оффенс как говорится. Другие исследования есть?
>>104984 >а то что за выпады в сторону ddim в контексте женерика. Тут живой пример в треде: ddim с брейнлес (worst quality, low quality:1.4) и ddim со стеной тегов в 375 чанков через специфичную команду. Во втором случае ddim пернул, не вывез и похерил качество. Помоему яркая иллюстрация качества 6/10 и честности в табличке >>104896
Вопрос о тренировке ЛОРы на "стиль". Почему, если применять такую лору с параметром :1, картинка может получаться "пережаренной"? Т.е. тренированный стиль чуть-чуть узнается, но выглядит больше как карикатура или вообще мазня. Приходится занижать силу применения, но в результате начинает вылазить базовая модель, искажая натренированную стилистику. Куда копать, чтоб от этого избавиться? Какие параметры тренировки использовать?
>>105030 В том то и проблема, что скорость на базовом значении (1е-4), и от количества тренировки тоже как-то слабо зависит. Проявляется уже на первых эпохах, когда вместо нормальной лоры - заблюренная мазня. Но мазня уже пережаренная.
>>104910 Лол, он заявляет что ддим для аниме, а эйлер для реализма. Субъективное имхо ддим бешеный и рисует много деталей, зачастую даже слишком много лишнего, очень хорош для фонов и апскейла, персонажей распердолит с большим шансом. Эйлер приглаживает картинку и делает её более светлой, хорошо подходит для аниме тяночек, детальность фонов говно. 2м каррась годнота по балансу для персонажей и фона. Грид на 25 шагов, все каноны мастерписей соблюдены. Ддим нарисовал самый детальный фон, но добавил даже на этой выборке лишнего во второй сид, в первом не правильное отражение, но оно хотя бы есть. Эйлер просто всё пригладил. 2м каррась сделал что-то среднее и оказался тут лучше, отражения есть, на 3 сиде даже правильное, в отличии от 1. Тяночек ддим не пощадил вовсе, хоть и фон пытался напердеть. Эйлер опять всё пригладил. Лучше всех опять справился 2м каррась, баланс прорисовки и фона и персонажа.
На 4-й эпохе с силой 1 стиль не понимает. На 20-й уже похоже, но только с занижением силы лорки до 0.5-0.7. Я потом упоролся и до 60 эпох тренировал на тех же настройках, и даже лучше стало... Но не намного.
Да, в наи протечка почему-то. Я думал как там резину снимут все шизы стекут туда обратно.
>>105116 Понижай TE lr до 2е-5. Учитывая что у тебя батч сайз два, умножай скорости на два: unet lr = 2e-4 te lr = 4e-5 Нетворк альфу нахуй в единицу ставь. Нетворк дим на свой вкус от 1 до 4. Планировщик cosine_with_restarts меняй на простой cosine. Только пока не стартуй. Скажи мне сколько у тебя уникальных пикч в датасете (не учитывая повторения, именно уникальных)
>>105117 Погоди погоди. Я готовлю сравнение карася и ддима на выборке из ста изображений для каждого
>>105119 >Скажи мне сколько у тебя уникальных пикч в датасете (не учитывая повторения, именно уникальных) 55 Это маленький датасет, но и на 1200 (300 картинок + повторения, без учета х2 батча) результат похожий был.
>>105187 Здесь серьезные ребята пишут промты для серьезных моделей, специальные анимекальные калы из четырех слов для анимекала - в анимекал тред, там бейтесь за лучший саморендер на пипильсине.
>>105175 > Смысл? Смысл делать 144 мегабайтовую сетку? Ты там 15 концептов обучаешь? Твои значения альфы и дима пидорасят тебе результат. > 55 Достаточно большой датасет. Я бы начал с 55 х 100 повторений в расчете на 1 пикчу = 5500 шагов / батч сайз 2 = 2750 шагов, т.е. убирай строчку с количеством эпох, ставь max_train_steps = 2750 и делай 1 повторение папки. Либо ставь сколько хочешь повторений, но во столько же раз уменьшай количество шагов (время одно, но эпох будет меньше)
>>105202 >Смысл делать 144 мегабайтовую сетку? Смысл не делать? Если дело только в размере - вообще пофигу на него. Винты нынче большие, интернеты быстрые, можно себя не ограничивать. Не в нулевых все-таки живем, когда за каждый байт приходилось биться, чтоб оно в 33кбс пролезло за вменяемое время. Но чисто ради эксперимента, конечно, можно попробовать.
>Я бы начал Т.е. в итоге будет: unet lr = 2e-4 te lr = 4e-5 cosine 2750 шагов. Т.е. 55 пикч х 10 повторений х 10 эпок с батчем два.
>>105238 > Т.е. в итоге будет: Ну типа такого > Смысл не делать? Повторяю. Такие большие значения альфы и дима в паре приводят к распидорашиванию. Это пошло с форчка, мета с большим димом, якобы больше = лучше. Это не так. Лора задумывалась как маленькая сетка, она не тренирует все параматеры модели, а лишь их маленький процент, чтобы в результате был маленький размер и малое влияние на веса модели. Эдакий легковесный дримбуз без его главного недостатка. Я уже говорил ранее, в оригинальном репо клона симо я ни разу не видел чтобы кто-то ставил ранк (дим) выше 16. А там умные челы сидят, которые по бумаге сумели первые написать отлично работающий код, можешь полистать дискуссии в том репозитории. Можешь также зайти на цивит аи, есть одна девка (LuisaP), я её в своё время хейтил, но она (а мож и не она, хуй знает) походу новый тренд на цивите пускает: пока все делают перетрененные негибкие сетки весом 150-300 мб, она выпускает лорки на стиль на альфе и диме 1. Они весят меньше мегабайта и работают. Просто попробуй хотя бы. Тебе для одного стиля на 50 пиках я думаю с головой хватит.
>>105239 Ну, пусть сотня. 14 гигов? Пфу. Ерунда какая. Может, конечно, критично быть, если у тебя еще сорок моделей, и ты весь этот компот хочешь на ССД запихать. Но и они нынче большие стали, войдет запросто.
>>105264 Имхо бессмысленно, потому что качество > количество, но отговаривать тебя не буду, твоё дело Тем не менее я спрашивал не про датасет, а какой метод ты планируешь использовать
>>105260 >Просто попробуй хотя бы. Тебе для одного стиля на 50 пиках я думаю с головой хватит. Ну я и говорю - чисто для эксперимента можно и попробовать. С 64 и 32 у меня такая же фигня выходила, как и со 128, разницы особой не замечал.
>>105267 У меня нет примеров обучения на столь большом датасете, даже близко Начинать с мильёна шагов бессмысленно, если неправильно подберешь настройками и поставишь коптится, есть шанс забрать говно на выходе Внимание! Далее имхо. Ответственности не несу. Я бы начал с 1-2 шагов на одну уникальную пикчу датасета. Соответственно если пикч 2000, то выходит 2000-4000 шагов и скорость от которой можно оттолкнуться дефолтные unet lr = 1e-4 и te lr 1e-5/2e-5 при батч сайзе 1. Если батч сайз больше 1, то дели шаги на свой батч сайз, и умножай скорости также на свой батч сайз. Учитывая вариативность датасета оно может прокатить с первого же раза (?)
>>105269 Еще в прошлом треде писал про риски больших значений (включая свой опыт): >>102427 →
Для апскейла/шумозачищения что нынче модно использовать? Чтоб пачками и не очень долго? Набрал картинок для лорки, а они оказались по разрешению не шибко большие, и вдобавок в страшно шакальном жипеге, хуже чем из твиттера. После тренировки на таком "материале" все мелкие детали (типа пальцев, глаз и прочих детализированных фиговин) нафиг посыпятся, есть у меня такие ощущения.
>>105304 Еще бы понять, как это фигню использовать, если у тебя нет инженерного образования. Куча питоновских скриптов, и ебись с ними как хош. Неужели так сложно сделать простой интерфейс?..
>>105260 Дим4, альфа 1. Все равно на единице пережаривает. Как бы да, стиль лорка ухватила, но вот нарисовать не может. Линии слишком толстые, тени перенасыщены, всякие другие косяки. На 0.65 силы это уходит, но вместо правильного стиля начинает вылазить базовая модель. Хз, может тэги не те?.. Может, вообще всё убрать из файлов, на чистом имени концепта тренировать?
>>105318 А скинь датасет, дай поглядеть > Может, вообще всё убрать из файлов, на чистом имени концепта тренировать? Я так 3 недели назад разок сделал, люди говорили что у них работает, у меня не сработало. Но я тогда еще совсем зеленый был. В теории это как дримбуз, только без классовых изображений. Персонажи у меня так получались
Порекомендуйте настройки лоры для стиля. 130 пикч, не зеркалил, 8 повторов, 8 эпох, 768x768. Вышло нормально, но хочется на новой версии прогнать. До этого делал её на версии 3.2 или ниже. Было по стандарту на то время - 128 dim, 1e-4, 1 банч. ACertainty модель и вае от Anything-V3.0. Стоит зеркалить? Пробовал обучать персонажей на 512x512 и мне больше понравилось.
>>105325 Щас я тоже потреню тестовую сетку на стиле по-бырому, если выйдет как я хочу поделюсь что сделал Могу только сказать что 130 это вероятно очень дохуя. И учитывая количество изображений в датасете делать зеркалки это оверкилл
>>105320 Сет как сет. Разные персы, разные позы. Там картинки с патреона, и вообще вся эта затея в кооперации с самим художником идет ради ускорения создания ассетов для одной игрушки. Но, повторюсь, эта фигня у меня вообще на всех попытках почти. Как 1 в силу не поставлю, так пипей.
Причем когда я в 60 эпох это тренил - он сказал, что да, вот это на меня уже похоже. Хотя и там картинки для проверки не 1 силы были сделанны, а 0.65. Настройки были такие: батч 2, повторы 2, дим 128, альфа 128. lr: 0.0001 te_lr: 5e-05 cosine_with_restarts
>>103790 → Потестил лоры на anything 4.5. Sayori норм, не считая множества рандомных деталей (наверное лучше было сначала почистить фон). У kanzeon явный оверфит, а также биас делать синее нижнее белье (хотя его даже не было в сете) и сует везде кошек из линейки.
Уникальный тег не использовался (я не в курсе есть ли он вообще).
>>105395 Имеешь ввиду пример датасета который можно скачать, шаблоны настроек для обучения при правильном использовании которых получится конкретный результат? Годнота
>>105402 Ставил sayori и kanzeon Я над каждой пикчей в фотошопе вожусь обычно, недайбох хоть один лишний волос другой тянки в кадр попадет, хотя это немного излишне.
>>105395 >>105410 А ведь реально годнота, но разве не должно быть тогда три разных датасета на персонажа, стиль и концепт с соответствующими настройками?
Что мне нравится в sayori, это чёткие и твёрдые поверхности, яркая и умеренно контрастная палитра с охуенными градиентами, выверенный объём при 2д-стиле, и тончайшие детали при кажущейся простоте стиля. Особенно хорошо заходит в высоком разрешении.
>>105418 >>105417 Тогда выбирайте персонажа чтобы был с характерными чертами которые легко отследить, не был бы изначально известен сети, не был бы провокационным, может еще какие критерии
>>105427 Типа того. Когда-то пытался в рисование, даже покупал планшет - но в действительности мне хотелось тупо результатов, и бесплатно. Узнав про stylegan, сделал ставку на развитие ML - и не прогадал.
>>105428 Какая, лол. Тут бы что нейтральное дабы срачи никак не порождались, там гг или его друг из ворот шайтана, ванпанчмен (его наверно уже знает сетка?) и т.п. >>105430 А ее сетка и так неплохо знает, левдсы так вообще отборные получаются
>>105436 А ну да, тут еще условие чтобы датасет вменяемый было легко собрать без многочасовой ебли с кропами. Из азурки ташкента можно, детали выделяющиеся и легко обучиться должно. >>105433 Датасет если будет то вполне заходит.
Анончики, нужна ваша помощь. Мамке по работе нужны иллюстрации (работает в рекламе), но в её городе одни криворукие уебаны, которые делают рисунки уровня детсада и просят за это десятки тысяч. Так вот, есть ли нейросетка, позволяющая генерировать несложные иллюстрации/плакаты, по заданном ТЗ, чтоб даже женщина средних лет справится? Сразу скажу, у мамки комп не мощный, я ей леть 5 назад купил i5 и 1050ти.
>>105477 > есть ли нейросетка, позволяющая генерировать несложные иллюстрации да > по заданном ТЗ, чтоб даже женщина средних лет справится нет, может быть с обучением но обучать должен тот кто шарит а потом периодически помогать > у мамки комп не мощный, я ей леть 5 назад купил i5 и 1050ти. тоже нет
Перетренил лору с теми же параметрами, но без тэгов, чисто на концепте - пережарка на применение с силой 1 ушла... Вместе со стилем и пониманием того, что, собственно, надо рисовать.
>>105479 >тоже нет Всегда можно поднять УИ на колабе. Даже "женщина средних лет" после обучения справится, я думаю. Если готовый колаб дадут, где надо только кнопки жать.
И если он нормально работать будет, без отвалов коннекта к градио, как у меня было. Погенерил 15 минут, а потом ошибка 504, и хоть ты тресни.
>>105489 Это да, но вот также отвалится и что делать. И хз какое там тз. Тут совет простой - сначала сам попробуй освоить и там будет понятно, до коммерческого применения с наемными работниками тут далеко, как инструмент уровня видеоредактора - юзать можно.
>>105479 > i5 и 1050ти > тоже нет Кстати в теории есть шанс если тренить с оптимизированным 8 бит адамом, иксформерсами (либо mem_eff_attn) и без текстового энкодера. Последним вариантом тренить на меньшем разрешении чем 512px, но я бы так не делал
>>105495 > копродедушки, нахуй срыгу офоримил > Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются Мы не воюем. Нам пришлось объединится ради победы над общим врагом.
>>105502 Так, мужичок, одного раза достаточно. Это в сд тред идёт. Если хочешь что-то полезное запостить, запости гриды с эпохами, расскажи про настройки, датасет, вот это вот всё, ну ты понимаешь
>>105504 >Так, мужичок, одного раза достаточно. Эт я еще по эпохам не начал кидать... >Если хочешь что-то полезное запостить, запости гриды с эпохами Да я финалку выложу когда оно дотренится.
>расскажи про настройки пик2 >датасет, 145 картинок с кариной, прогнано один раз через таггер, добавлен тег sharisha, больше ниче не делал
>>105479 Ок, допустим тогда я буду на своём компе делать (5800Х+3060). В чём будет заключаться обучение, накидать тонны плакатов? Просто я этой тематике не особо шарю.
>>105496 > Кстати в теории есть шанс если тренить с оптимизированным 8 бит адамом, иксформерсами Да ему там похоже не тренить а просто запускать, причем сд2 а не 1 под анимцо. >>105496 > оп, который умудряется писать гайды и учить чему-то людей обсирается с каждой сеткой Рили? >>105395 >>105424 Грустнокошку предлагаю
>>105513 >Вроде пережарено уже, нет? Нет, это инстаграмный рендор через CFG fix. >Ты же в курсе, что больше не значит лучше? Ну это смотря как посмотреть
>>105514 Ну допустим плакат "Добрый Кола", с каким-нибудь слоганном. У матери компании рекламой всего занимается, начиная едой и заканчивая играми и фильмами. Например, им Марвел во время показа 1 спуди с Холандом, скинула несколько постеров и сказали "ебитесь как хотите, но сделайте витринные плакаты для Кинотеатров". И нужно было сделать так, чтоб они не копировали постеры, то есть обработать с фш и т.д.
>>105508 Бля, 200 эпох на 145 картинок, охуеть, только сейчас заметил. У тебя там повторений папки хоть нет? Интересно потом будет посмотреть на последнюю эпоху, учитывая 29000 шагов и быстрый текстовый энкодер
>>105520 Считать? Хех :) Я за все свои лоры (и неудачные в т.ч.) так и не смог определиться с "безопасными" настройками чтобы на последней эпохе выходила сеть в идеальной кондиции - аккурат между андерфитом и оверфитом. Ну окей, допустим безопасные значения это unet lr 1e-4 и te lr 1e-5/2e-5. "А сколько тренить надо?" Зависит от датасета. "Окей, у меня 15 пикч, сколько тогда ставить эпох" Зависит от того, что в датасете. Столько переменных, столько мест где можно обосраться да и еще помноженное на дополнительный рандом, ведь мы работаем с нейросетями. Поэтому универсального ответа нет. Повезло с первого раза еще не значит, что такие настройки сработают на другом датасете.
>>105521 Да это сейчас я чет обсираться начал, опять в эксперименты полез. Я немного преувеличил. Как не обосраться? Тренировать, смотреть на результат, делать выводы, получать опыт.
>>105531 Да хуй с ним с текстом, можно хоть в пейнте накидать. Ну да ладно, раз мне это кажется сложной залупой, то и матери однозначно будет ещё сложнее. Спасибо за ответы, анончики.
>>105526 () - увелич влияние 1.1 {} - увелич влияние с меньшим весом чем () - 1.05 : - оператор миксера для [from:to:when] | - оператор микширования концепций AND - оператор параллельного смешивания концепций (большая нагрузка на врам) \(word\) - комментирование () через \ для юза в промте
>>105524 Забей, спецу в этом деле нейронка в теории могла бы помочь, а такую работу в руках нормиса без шансов. Ну или сидеть крутиться, за несколько месяцев чему-нибудь научишься. >>105528 > опять в эксперименты полез Так это же хорошо, ты делись результатом даже если он отрицательный, как не надо тоже полезно.
>>105511 Грустнокошка, но с заниженным лр для текстового энкодера. Было 1e-3 для юнета 5e-4 для текста, здесь 5e-5 согласно рекомендации. Джессика получается менее детально и фейсы похуже роллить сид чтобы было ее хорошо видно без крипоты пришлось несколько раз, но бекграунд везде старается отрисовывать, тогда как на прошлой оно перешло к каким-то стенам. Здесь вопрос чем это вызвано, просто смещением и первая модель будет слушаться указаний к фону, или же она упоролась по датасету и выдать что-нибудь сразумительное уже не сможет. По новой версии стоит напилить клозапов и тоже оценить что с фоном, а то всеже какую-то крипоту сзади начало выдавать.
>>105542 Ля какая, мэ наица >>105542 > Так это же хорошо, ты делись результатом даже если он отрицательный, как не надо тоже полезно. Да я сам блять понять не могу, нормально оно или нет. На одном гриде ну ниче так. На другом стиль как будто не тот. На третьем артефакты как будто. На четвертом опять всё нормально. Я уже кукухой поехал наверное
>>105542 >>105511 Там было 1girl, js, cat girl, green eyes, standing В первых двух добавилось city, outside, on the street, night, sky, stars во второй паре еще closeup. Сиды везде рандомные. Угадайте где какая модель?
>>105544 > мэ наица В качестве примера к гайдам могу выложить если других идей нет. > На другом стиль как будто не тот. На третьем артефакты как будто. На четвертом опять всё нормально. А вот эти осцилляции на четных-нечетных эпохах кстати часто наблюдаю, хуй знает почему так. Как правило четные более красочные, нечетные более разнообразные-концептуальные. >>105551 2-4 с высоким текст рейтом, 1-3 с низким, юнет одинаковый. В первой куче ласт пикча довольно хорошо получилась, остальные слабее. На 1-3 вообще задник ультрапростой что странно. Что удивляет так это более детальное и прорисованное окружение на более высоком лр для текстового энеодера, хотя поидее это могло его перетренить и поломать. Приложены дефолтные пикчи без лоры и их задники. Кмк результат со снижением текстового лр результат ухудшает, здесь может быть проблема или просто в низком значении, или в большом отличии от лр юнета. Есть идеи как затестить, что посмотреть, как интерпретировать - велкам.
>>105563 > Что удивляет так это более детальное и прорисованное окружение на более высоком лр для текстового энеодера, хотя поидее это могло его перетренить и поломать. Таки да, текстовый энкодер обязательно нужно тренировать если нужно выжать максимум деталей из датасета, но очень аккуратно. Он улучшает картинку до определённого момента, потом начинает ломать. Он быстрее обучается чем unet
>>105565 Меня удивляет почему такое отличие в лр, величины от >>105528 отличаются более чем в 10 раз. Другое дело что стоит train_batch_size=8, сейчас скину на единичку и попробую повторить, выйдет ли то же самое или все поломается.
>>105544 > Да я сам блять понять не могу, нормально оно или нет. На одном гриде ну ниче так. На другом стиль как будто не тот. На третьем артефакты как будто. На четвертом опять всё нормально. Я уже кукухой поехал наверное У меня на разных промптах из датасета, по разному показывают себя разные эпохи, где-то лучше эпоха выше где-то ниже, ну охуеть можно, видимо какая-то эпоха конкретно под какой-то из промптов лучше натренилась. Стиль так в итоге хорошо и не подхватился, попробовать чтоли откатиться на 128/128 дим и альфу и зарядить ради теста
>>105567 Так я для батча 1 значения говорил. У тебя батч 8, следовательно множишь скорости на 8. >>105569 > Стиль так в итоге хорошо и не подхватился Хуясе не подхватился. У тебя бтв с 12-13 эпохи никаких изменений. Думай.
Так, господа математики. Пытаюсь понять как высчитать скорость обучения для 10 эпох, если знаю, что для 30 эпох скорость обучения равна 1.5e-3. Как вы думаете, как должен выглядеть график длительности обучения: как минус корень из скорости обучения или минус квадрат скорости обучения? Пытаюсь натренить сетку в 3 раза быстрее, но с тем же результатом.
>>105569 Вот кстати тот же эффект с повторением общей концепции и позы на последующих четных-нечетных эпохах >>105575 > У тебя батч 8, следовательно множишь скорости на 8. Скейлится линейно или есть нюансы? Похоже что есть. >>105567 > сейчас скину на единичку Ебануться как же долго оно с этим считает один плюс можно 2-3 штуки параллельно запустить почти без импакта на скорость.
Запустил с лр как есть (1e-3 5e-4) и второй вариант с ополовиненными (5e-4 2.5e-4), в гриде по 2 пикчи на каждый вариант, все эпохи не стал тащить. Хуй знает, вроде перетрена не видно хотя он ожидается ибо в 8 раз интенсевнее если скейл линейный. С 1.1 на 8й эпохе чуит поломались, чсх "фрактализовалась" та что с вдвое меньшим лр, но довольно художественно получилось лол. Попробую сейчас пачками побольше сравнить эти и прошлую модель.
>>105610 > Скейлится линейно или есть нюансы? Похоже что есть. Линейно, умные дяди со стаковерфлоу так сказали. Еще есть мнение что при увеличении батч сайза в n раз скорость обучения нужно увеличить в корень из n раз, но такое встречал реже
>>105626 > Линейно, умные дяди со стаковерфлоу так сказали. А не те же дяди говорили про разное качество/характеристики обучения >>102562 → ? Пока ответ не так уж очевиден и перетрена в 8 раз не получается, вроде не сказать что прошлая модель была так уж сильно недотренена, поидее заметная разница и артефакты уже должны лезть. Пачек несколько наделал, субъективно модель с 8 батчами чуть лучше, но если отбирать наилучшие то однохуйственно, с ополовиненным лр на 1 батче будто недотренена но также без прямого сравнения не скажешь.
Раз уж пошло такое дело, заодно сравнил как оно будет обучаться с разным числом эпох и повторений при примерном сохранении общего числа шагов. В общем та же херня, качественной разницы нет, признаки подхватывает, срать гридами не буду если надо есть. Разве что меньше эпох считаются чуть быстрее ибо меньше время простоя карточки. > при увеличении батч сайза в n раз скорость обучения нужно увеличить в корень из n раз Вот это можно чекнуть, хотя тут разнообразие датасета влиять будет. Пока что к лр чувствительность с точки зрения передачи деталей и отсутствия артефактов максимальная, а повторения и прочие уже продолжительностью обучения компенсируются.
походил по лоропомойкам - везде делают нах нинужных онеме девиц и стилистики онемешнековплошкарис единицы делают реальных людей и позинг еще меньше делают чтото уникальное фетишистское почему так
>>105673 все так же как и с остальным: собираешь датасет небольшой с конкретной позой, прогоняешь таггером, добавляешь нужные теги для вызова, тренируешь
>>105683 стиль - концепт вернего уровня поза - концепт среднего уровня лицо - концепт нижнего уровня соотвественно если тренить только как позу соответствующими тегами то стиль затрагивать не будет
>>105650 > А не те же дяди говорили про разное качество/характеристики обучения С разным батчем на одном сиде получаются разные результаты > Пока ответ не так уж очевиден и перетрена в 8 раз не получается Мне это непонятно. Когда я менял батч с 10 на 1 и оставлял лр 1е-3, у меня разносило сетку с первых же эпох > как оно будет обучаться с разным числом эпох и повторений При одинаковых шагах и сиде никак. В имплементации китайца эпохи не отвечают ни за что, кроме как за возможность сохранить чекпоинт
>>105705 Чем ты будешь регуляризировать определенную позу? Мне интересно
>>105746 > С разным батчем на одном сиде получаются разные результаты Ну у тебя с разным батчем порядок операций и прочее иначе идут, так что тот же сид вовсе не должен выдавать тот же результат. Это как с разрешением и добавлением лор, та же пикча не получится. > Мне это непонятно. Когда я менял батч с 10 на 1 и оставлял лр 1е-3 Вот и хз да, там есть поднять лр до 5, например, уже ощутимо пережаривать начинает при любых батчах. Если есть идеи как тестить - предлагай. > В имплементации китайца эпохи не отвечают ни за что А планировщики сбрасываются в начальное приближение или продолжают с того что было? > Чем ты будешь регуляризировать определенную позу? Хуй знает, до регуляризации так и не дошел, можно попробовать остальные позы
>>105764 > А планировщики сбрасываются в начальное приближение или продолжают с того что было? Ничего не меняется. Графики ЛРов при разном количестве эпох всегда выглядят одинаково
Поставил train_batch_size 2, поменял тег на однотокеновый, поменял датасет на оригиналы без кропа. Прогнал на 1e-4 и 2e-4, вышло 740 шагов на 10 эпох. Результаты пикрил. Стало получше, но по мне все еще слабовато копирует стиль. Даже хз, лернинг рейт еще трясти или шагов больше накидывать.
>>105860 Попробуй поставить батч сайз максимальный который в врам влезает, поварьируй лр. Повторения и эпохи пока лучше оставь как есть, после 7-8 эпохи оно вроде особо и не меняется.
Помогите установить лору. Стоит последний автоматик, в extensions всё нужное установлено, но сосноль высирает пикрил на доп модели. Отсюда лора и не работает. Ебусь с этой хернёй уже целый вечер.
>>105893 > Это влияет на качество В теории да, субъективно тоже. На скорость точно влияет, хотя тут от железа будет зависеть. > или проблема датасета/настроек? this, но скорее не после 4-го с 6-8го
>>105893 > Это баг Точно нет. Когда с определенного момента эпохи перестают отличаться друг от друга, это означает что на этом этапе скорость обучения упала настолько сильно, что нейросеть на каждом новом батче "падает в яму", т.е. перестает захватывать новые детали или укреплять уже существующие нейронные связи. Помогает увеличение начальной скорости обучения. Но в таком случае может "съехать" длительность обучения, придется её корректировать. По-хорошему все эпохи должны визуально отличаться друг от друга и последняя из них должна быть лучшей в плане визуала, но это надо быть мастером чтобы с первого раза подобрать такие настройки. В начале обучения обычно захватываются крупные детали (например цвета), и постепенно со снижением скорости обучения нейронка должна переходить к рефайнингу всё более и более мелких деталей, но точно не должна застревать.
Все так же 8 повторов, 8 эпох, 130 пикч. Но 1-2. unet_lr = 2e-4, text_encoder_lr = 4e-5 при batch_size = 2. cosine, дим 4, альфа 1 2-4. unet_lr = 3e-4, text_encoder_lr = 1.5e-4 при batch_size = 1. linear, дим 32, альфа 16 В первом случае лучше редактируемость, но не аутентично, слабовато как-то. Хотя и второй результат для меня слабенький. >>105325
На циве что-то Лор очень много льют. Но большенство из них какое-то говно. Ставят на превью пикчу с промтом "токен_нейм, 1girl" и с силой 1.0 На деле же, когда хочешь получить не копирку с пула дата-сета, то выходит какая-то хуйня, где весь персонаж теряется, нет рук\ног, надо описать одежду и самого персонажа, и смысл от редактируемости уже нет. А я то ебусь, чтоб и fullbody был, и чтоб редактируемость, и чтоб персонаж сохранялся на 0.7, и чтобы в любую позу и со всех сторон.
>>106175 У тебя 2.5 стула: 1 Если ноут современный и может в тундерболт или полную спецификацию usb-c 4.0 то можешь купить брендовый внешний бокс и видеокарту, все будет красиво, эффективно но стоить как оче бюджетная пекарня. 2 Если в проброс pci-e по юсб не может или хочешь сэкономить - гуглишь на али egpu и шлейф, который вставляется в разъем m2, офк тут нужен свободный. Гораздо дешевле, но колхознее и постоянно торчащий шлейф из полуразобранного корпуса 2.5 То же но вместо вайфай карточки, наиболее грустно ибо всего одна линия, но на скорость генерации особо не повлияет. Ознакомься с ценами, добавь к варианту 2 еще покупка бп и какое-то оформление. Может оказаться что купить бу офисную сборку с более менее корпусом и б.п. окажется выгоднее, поставишь его в отдаленное место а зходить будешь через веб интерфейс, заодно и проблем с шумом нет. > насколько мощная видюха мне нужна Минимум - 1060, можешь поискать p-106, из средне-бюджетных удачный вариант 3060 на 12гб, верхней границы нет.
Прогнал 4е-4 и 1е-3. Батч сайз максимум 3 тянет, на 4 вылет. Результаты даже хуже по моему.
>>105909 >>105922 Последние эпохи снова почти не меняются. Может покрутить lr_warmup_ratio или $scheduler поменять? У меня cosine_with_restarts стоит. Или дальше лернинг рейт загонять?
Эх, не смог натренить Лору с 1 персом, но 2 видами одежды. Постоянно выдает только 1 вид, хотя я вводил отдельный промт для каждого вида одежды. Даже помощь другими промптами, описывающие другой наряд, не помогает. Попробую тогда не ставить основной тег перса, а только 2 разных использовать. Или забить и просто сделать 2 отдельные Лоры...
>>105554 Кароче потестил более глубоко на разных моделях, в базовом либерейте на котором и тренилось понятно что все ок, в остальных реалистиках типа хасана или там пфг тоже плюс хорошо. В специфических реалистиках типа бстабера пережарка иногда, но зато можно карину камшотами залить одной командой, в овертрейнед дримлайк фотореалистике изображение с лорой горит но тож прикольно выглядит иногда, как будто графин со стримов лол. Веса на теге sharisha надо подбирать, если юзать через адишнл нетворк. Вот.
>>106412 Вообще я видел интересное мнение, что чтобы лора ложилась под любую модель надо ее тренить на дефолтном стейблдифьюжене, потому что его т.н. ядро входит в любую модель и так. Как считаете?
>>106417 Есть такое мнение, да. Для моделей на реализме и реалистичные сущности - СД 1.4 или 1.5 (тут мнения расходятся), всякий рисованный графен - на NAI, как на максимально первородном, но подходящем для анимешных миксов. Эмбединги, по крайней мере, так получались и пеклись лучше всего, вряд ли лоры существенно чем-то отличаются.
>>106183 Спать в следующий раз пойдешь - поставь очередь из несколько вариантов лра и планировщиков. Алсо попробуй через экстеншн подключать и там заодно порегулировать веса отдельных частей модели. >>106191 А ты лр подними попробуй, с высокой альфой обучение интенсивнее идет. Чсх, когда экспериментировал с высокими альфами - они часто выходили более сочными, да и модели старой версии дают нужный результат и хорошо откликаются на промт. >>106265 Странно, а что и как тренишь? Джессика в примере выше переодевается в сравнительно каноничное красное кимоно хотя в датасете на это 3.5 пикчи и нет отдельных тегов. Если хочешь чтобы у тебя там было оче много деталей к каждому костюму - тогда трень две отдельные модельки.
>>106556 У тебя если уж прямо есть желание попердолиться, попробуй скрипт sd_upscale модифицировать, чтобы он для каждого тайла свой промпт имел, имхо это будет действительно охуенно
>>106567 >>106586 >Сделать матрицу промтов и подгружать ее из файла? Я думаю какой-нибудь простой УИ сделать, который тайлы позволяет переключать между "фон" и "субьект", уже было бы хорошо. А то лица на стенах заебали.
>>106496 Смотри по своим деньгам. Генерация 512х512 с дальнейшим латент апскейлом в 2 раза, батчсайз 8 (8 одновременно), 30 шагов эйлер а, 1 - 4090 2 - 3080ti Тренинг лоры, 1 - 4090 с батчсайз 8, 2 - 3080ти с батчсайз 6 (8 не завелось), скорость итераций скачет и не успевает устаканиться и в первом случае считает одновременно больше, временной прогноз примерно соответствует реальности. Прибавка где-то в 2 раза, плюс возможность работы с большими пикчами, сложными моделями и т.д., относительно 3080 будет еще выше. Еще можно попердолиться с оптимизацией и получить 3-5-10-20-...% прибавки (особенно в обучении где жор 50% от тдп), но это нужно заниматься. Стоит ли это переплат - смотри сам.
>>106586 Задумка очень пердольная, и для каждой картинки будет отличаться по промптам и количеству тайлов. Ну примерно так: посмотреть размер изображения, сравнить с выставленными шириной, высотой и оверлапом, получив количество тайлов. В соответствии с этим сообщить юзеру сколько тайлов и запросить соответствующее количество промптов. В теории может получиться меньше призраков и больший денойз для каждого тайла, соответственно большая детализация, если вводить правильные промпты, для правильных кусков. Не понятен пока вопрос швов с таким подходом. В идеале конечно было бы, чтобы такой скрипт прямо визуализировал, как разделяется картинка на тайлы. Но сам я такое врятли смогу правильно дописать в скрипт, лишь имеется такая идея. >>106589 В треде мелькал Comfyui. Он умеет в так называемый compositional AND. Это не самый простой уи, конечно. Как я понял он умеет по пиксельно кусками отрисовывать картинку, выглядит комично, но работает. Вот тут на нихонском видел пример: https://note.com/te_ftef/n/n505ddf8ab808
>>106613 > Ну примерно так: посмотреть размер изображения, сравнить с выставленными шириной, высотой и оверлапом, получив количество тайлов Ну и во сколько раз увеличивать забыл ещё дописать
>>106613 Апскейл по принципк персонаж/не персонаж не выглядит таким уж сложным. Спрашиваем про каждый тайл CLIP: а есть ли на нём person? Если нет - person в негативы и вся любовь. Можно ещё с размерами тайлов поиграться, чтобы побольше person влезало. Задача же о сшивке уже как-то решена. Не вижу, почему бы этому решению не работать с уточнёнными промптами.
В доках автоматика тоже написано, что он умеет в Compositional AMD. ComfyUI идёт дальше и умеет круче - прямой каст промпта на прямоугольник по заданным координатам. Не как в инпаинте, а синхронно несколько областей и несколько промптов. Недооценённая киллер-фича, теоретически позволяющая размещать несколько персонажей без их "смешивания"и страданий с инпаинтом. Но там чёт загонный интерфейс, даже не CLI - там JSON надо руками писать. Пока для меня это сомнительное, очень сомнительное кдовольствие.
>>106708 > Апскейл по принципк персонаж/не персонаж не выглядит таким уж сложным. Спрашиваем про каждый тайл CLIP: а есть ли на нём person? Если нет - person в негативы и вся любовь. Можно ещё с размерами тайлов поиграться, чтобы побольше person влезало. Задача же о сшивке уже как-то решена. Не вижу, почему бы этому решению не работать с уточнёнными промптами. Ну тем не менее, интерфейса по такому взаимодействию, как и скриптов до сих пор нету. Ну или я не знаю о существовании таких.
> Недооценённая киллер-фича Да, жаль пока единственная. В остальном, не связанным с конкретно дефолтной генерацией картинки, очень уступает автоматику, хз как там тот же сд апскейл сделать, вроде пока никак
> Но там чёт загонный интерфейс, даже не CLI - там JSON надо руками писать Для обычного использования там есть веб интерфейс, где части отвечающие за клип, вае, модель и тд можно двигать. Если про скриптовое какое-то взаимодействие говоришь, то тут уже хз, жсон так сложно парсить?
>>106891 Не знаю про какой скрипт ты говоришь конкретно, но в каждой распространяемой модели есть встроенный VAE и он подхватывается в случае если ты не указываешь свой. Не сказать чтобы выбор VAE как-то существенно влиял на результат
>>107003 Пчел, если ты сделал лору чтобы по кд промтить "sharisha face", ну, у меня типа лайфхак для тебя есть. Например тоже самое можно ввести в строке поиска гугла. Какбе суть обучения нейронок не воспроизводить попиксельно то что было в датасете, а понять концепт и уметь работать с ним, если твоя сеть не может нарисовать концепт в другом окружении/одежде/позе/стиле, то твоя сеть - говно. Только не обижайся.
>>106837 > У тебя обе видюхи? Да, как раз одну из них тестил перед продажей. > А в google code labs можно выбрать самую мощную бесплатно Хз, обычно в коллабах приходится жрать что дают, тут уже к опытным пользователям сервисов.
>>103825 (OP) Поясните за гуглколаб Пробовал по гайду какого-то хачика на Хэ начинаетсч ник запускать СБ через колаб, выдает какой-то эррор. Он типа платным стал или что? Сколько сейчас бесплатно выдаётся времени на колабе?
>>106749 Мне в уме жсон парсить сложно. Там чтобы нарисовать "Асука слева, Сэлормун справа, над ними радуга", надо вручную накидать пару килобайт оного жсона. ЕМНИП.
>>107157 > ~5минут на ~1500 шагов Грустнокошка из примера выше с 3к шагов где-то 7-8 минут, при том что гпу-тайм там менее 50%, остальное собирается моделька, идет аллокация неиспользуемой далее рам и всячески пропердывается скрипт. Последнее можно ускорить настройками, и это уже достаточно быстро. > получать на стандартное изображение 512х512 максимум 20it/s Овер 40 эффективных итераций в пачке из 8 и 25-30 если одну штуку. Из пердолинга - подмахнуть дллки из архива в папку, если собирать на правильном торче и хформерз то будет 35 на одной.
>>107169 >если собирать на правильном торче и хформерз то будет 35 на одной. Это и есть пердолинг, чел. Какого хуя я должен заменять библиотеки и собирать торч из-за рукожопов?
>>107175 Чел, потому мало кто этим занимается, ведь достаточно скопировать дллки и уже получить ультимативную скорость, прирост к которой от пердолинга в реальных юзеркейсах будет единицы процентов. > Какого хуя я должен заменять библиотеки и собирать торч из-за рукожопов? Сиди, страдай, грусти. >>107176 > На 4090 можно и больше батч вытянуть. Можно, но зачем? Уже с 3-4 эффективная скорость почти такаяже, а после шакала будет идти хайрезфикс, который в 6гб уже не влезет.
>>107183 > 20it/s с уже замененными либпми и на новом торче >>106610 из изменений только либы. С одной в батче пикрелейтед, и это с включенным лайвпревью, запущенным ютубом и т.д. Вангую тебе шмурдяк продали, или ты сруня решил на новую тему перейти. Один хуй даже 20 итерациям тут большинство были бы оче рады.
>>107154 >Пробовал по гайду По какому, там гайд от гайда говно, лоровский номер 2 с шапки итт отлично работает, а выше него какой то хуесосный >Сколько сейчас бесплатно выдаётся времени на колабе? Ну у меня часов 5 безостановочно тренило, на шестой час отключили. Переключился на другой акк - продолжил ебаться.
>>107207 Карта от палита GameRock OC ибо была самый дешман на момент покупки, частоты сток ибо и так печка на 500вт но по температурам холодная, из всех действий - заменить библиотеки. Не так давно при обновлении когда переходили на новую версию торча и хформерз надо было их переставлять, при этом слетели длл, пришлось заново их копировать. Проверь может у тебя как раз такой случай.
>>107167 >>107170 > Нет. > Ну раскрой свой секрет Вы траллите? Как в октябре с первыми версиями xformers было 30+, так и сейчас. Только раньше был пердолинг, а сейчас оно просто работает.
>>107232 Да, агромразь тебе правильно указала на параметры запуска, ну и кстати от модели и вае скорость генерации может немного варьироваться, потребление рам уж точно.
>>107251 Напоминает то что было на оче старой версии сразу после замены видюхи. Обнови дрова, поставь студио драйвер лол, проверь точно ли ты поменял библиотеки и туда ли скинул. Ну и покажи что там происходит если 8 в батчсайз запустить. Итерации при первой генерации будут ниже ибо там оно еще модель подгружает, далее стабилизируется. Ну и проверься на майнеры и прогар разъема, скинь что в сенсорах gpu-z происходит когда идет генерация пачки из 8
Из гайда по лорам: Есть мнение, что стоит уменьшать скорость обучения текстового энкодера в два раза относительно learning_rate (т.е. до значения 5e-5) для улучшения конечного результата.\
Как это вообще понимать? Почему 5е-5 это в два раза уменьшенное 1е-4? Или они имели в виду не 1е-4? Там какая-то формула?
>>107272 Офигеть, а как я должен был догадаться? В 7 классе этого не проходили. Я честно не помню, когда последний раз в жизни видел такую запись числа. Хоть бы пояснение 1 словом в скобочках где-то было.
>>107283 > Заменил либы на последние отсюда: Ну вот, а ты говоришь пердолинг > В чем разница? Да особо ни в чем, разве что отсутствует лаг во время сохранения пикчи, но это может и просто обновление версии решило. >>107294 Тогда в тредике спросить а не прирекаться или выебываться, опционально использовать скиллы гуманитария для дипломатии.
>>107442 я так захотел у свиньи и человека похожие лица, но совсем разные токены на вызов. и если ты, допустим, генерируешь свинью с чертами лица твоей модельки - значит переобучил, либо где-то обосрался. если пига вообще не рисует - переобучил очень сильно, а если генерит телку и морфит её лицо в свинью - то скорее всего недообучил. пик1 с перевесом тёлки. пик2 с перевесом хрюши
>>107533 > А лисички типа над головой Пикрел > СЖатые кулаки это типа boxing? Clenched fists, а еще бахни рукопожатие
Пикчи выглядят многообещающе, если офк не отборные среди большой массы. >>107557 Будет настроение - завтра бахну, если офк там все в порядке с датасетом
>>107563 >Пикрел Как оно на инглише будет то >Clenched fists >а еще бахни рукопожатие Ок, позже, у меня колаб отвалился мразь гугловская че те жалко чтоли >Пикчи выглядят многообещающе, если офк не отборные среди большой массы. Да там либо ферст трай либо секонд. Например первый ролл на вторую картинку например такой был, но я решил второй сделать. С ножом был сначала второй пик. Ну кароч тыпонил.
Вообще было бы неплохо если бы кто-то помог мне собрать картинок под позитивную лору рук для теста, может у кого завалялся сетик скачанный откуданибудь с жестами или ручки выразительные? Пока собираю с гуглояндексокартинок всякий калич.
>>107563 > а еще бахни рукопожатие С рукопожатием ранняя версия хороших рук присобачена без оттюненого веса, так что не финал ресульт далеко. >Clenched fists Прикрепил.
>>107499 Жаль ни одна модель не знает middle finger по моим наблюдениям Но попробуй что-то вроде 1girl, solo, (middle finger:1.2), blonde hair, round eyewear, glasses, long hair, long sleeves, low twintails, bow, black dress, yellow eyes, bangs, puffy sleeves, hair bow
>>107626 Мидлфингера точно нет, но в чем проблема обучить отдельно на жест, берешь и обучаешь. Я обучу потом когданибудь а может в гудхендс запихаю. А так по твоему промту просто пальчики оттопыренные у меня.
Вообще мой ранний гудхендс в целом полностью рабочий, может за жопы даже мацать по команде, может завтра релизну обе модели для теста на цитайку и гайд как пользоваться.
>>107640 Да ниче особенного, это даже не позы, не кропаю ничего, просто использую несколько фишек вебуя вместе которые магическим образом всё фиксят, главное иметь жирные лоры базовые натренить хоть как-то, правильно заинжектить в вебуй и оно покатит.
>>107641 Фиксануть руки это вообще оказалось пиздец как просто на самом деле (но нужно гайдом расписать для тупых даунов из наитреда и любителям мастерписов на DDIM конечно как пользоваться), непонятно почему никто еще не догадался в сообществе.
>>107641 Я вот тоже не очень понял, что за фишки и что за жирные лоры? Ты хочешь сказать, что обучаешь лору на большом количестве пикч, в которых есть хорошие позы\пальцы и потом все работает? Слышал про обучение на плохих пальцах, а потом такую лору в минус уводили. Но многие по итогу сказали, что это херня и я забил с ней разбираться.
>>107646 >Я вот тоже не очень понял, что за фишки и что за жирные лоры? Ну там расписывать последовательность надо + лорок пару штук (можно и не пару такто, но база это две лорки моих, можешь и своих натренить вообще похую). Распишу кароч потом, спать хочу. >Ты хочешь сказать, что обучаешь лору на большом количестве пикч, в которых есть хорошие позы\пальцы и потом все работает? Нисавсем так, но обучаю на большом количестве в том числе, поз нет, но тоже можно впиздячить в целом отдельно. >Слышал про обучение на плохих пальцах, а потом такую лору в минус уводили. Но многие по итогу сказали, что это херня и я забил с ней разбираться. Ну вот я начал дрочить обучение плохих рук, срался итт с маняскептиками, которые твердили что "работа дурака любит", а теперь у меня фиксед хендс на руках. Никогда не сдавайтесь, пацаны.
>>107572 > Как оно на инглише будет то fox finger gesture, fox sign, иногда даже срабатывает но на это вангую лору делать надо чтобы стабильно. > Да там либо ферст трай либо секонд. >>107623 >>107641 Хуясе. Делись! >>107841 Добавь чуть до 4090 чтобы без компромисов.
>>107958 Не волнуйся мастерпися, всему свое время. Хотя из-за таких чмох как ты я похоже ток в телегопомйку свою и на цвитай кину, живи дальше в проклятом мире, который сам и создал.
>>108007 >Пофиксил Там нет черрипика. Ну ваще давай без говнокидания, почему ты рвешься от меня постоянно? Что мы не поделили? Я же по сути решил главную проблему сообщества, пока ты "скептик" хуйцы сосешь и говном поливаешь чужую работу. Что с тобой не так? >Вот тут перетолстил и сдетектил В смысле? А на чем я по твоему тренить должен? У меня карточки 6 гигов нету.
>>108015 Ладно, ты победил, у меня бомбануло. Идёшь нахуй с этим тредом значит. Остальные онончеки - знаете где если че искать.
>>108018 Потому что а) я пишу гуид б) я продолжаю тренить Ладно мастерпися тупой ебанат не понимает что нельзя просто так выкинуть в паблик и все, но другие то аноны должны понимать.
>>108008 Сруня, ты? Сейчас опять будет сценарий > смотрите я открыл топчик которые решает все проблемы Далее идут ветвления > вот как надо делать а у кого не получается тот сам хуевый, пруфов правильной работы не будет или > вот я знаю как делать надо но вам не скажу, вот 2.5 штуки 512х512 где приемлемо в качестве пруфов и низкосортные попытки тралинга Уже сколько раз было, давай сразу срыгнешь и моче за тобой подтирать не придется. > почему ты рвешься от меня постоянно кек, опять своего воображаемого друга во всех постах узнаешь?
Бля, проигрываю с пацанёнка, вкинул один пост в начале треда >>103858 и с тех пор лишь зоонаблюдаю, а он до сих пор думает что я единственный с ним бодаюсь.
>>108008 > У меня карточки 6 гигов нету Что ты здесь забыл, сливаешь накопленную злость из-за превозмоганий и страданий? Кому нужны твои потуги если с них нет толку, а срачей кроме тебя никто не пораждает.
>>108022 >а ни одного файла на тест ты не показал Да вы потерпеть не могли или че? Вообще я бы за пейвол спрятал бы еще чтоб шизов типа >>108020 бахнуло. Джапы щедрые оплотют мне 4090 еще и памятник из лолей отольют. Ок гугл, как обналичивать йены?
>Ну гонора у тебя дохуя Ну щито поделать, так бывает когда есть плоды труда и все получается как задумано.
>Поэтому выглядит так, что ты пиздабол, уж извини. Да похуй уже. В коммунити классов соберу лучше по итогу, авось до итт докатится как че куда.
>Можно Нельзя. Хоть это и альфабета релиз будет, но меня же ОКР заебет, я хочу все эпохи прочекать чтобы потом было куда улучшать, а у меня гугл отбирает жпу в самый неподходящий момент тренирования как же эта мразь заебала тварь.
>>108061 >Да похуй уже. В коммунити классов соберу лучше по итогу, авось до итт докатится как че куда. Ну и уекбывай тогда в свое коммунити, че я могу сказать. >>108018>>108021-анон
>>108061 Дурочка сначала долго долго байтит и тралит а потом усирается что все вокруг шизы да скептики и как бомбануло. В натуре шиз. > В коммунити классов соберу Срыгспок дура
Наконец-то оно хоть как-то подхватило стиль рисовки на лицо на 6е-4. С анатомией, чувствую, будут проблемы. Последние эпохи все так же почти не отличаются друг от друга.
>>108072 Если ты реально рукофикс делаешь, то ты дохрена молодец. Потому как после того, как почти победили косоглазие кстати, какой тэг против него?, руки - основная проблема.
Если проблема в том, что калаб внезапно, быстро, решительно отбирает видяху, не давая скачать честно натрененное, а меня вон вообще от GPU отлучил, то есть как минимум два выхода.
Во-первых, я бы не сбрасывал со счетов kaggle. Да, нужен фейковый мобильный номер. Но мне хватило бесплатного на не-первой ссылке в гугле. Там можно включить preservation и файлы будут сохраняться, GPU вкл/выкл по кнопке но время на перенос файлов и более-менее прозрачная система квотирования времени. Мне пока показывает 41 час в неделю (до утра субботы), из которых 09:32 я уже выюзал там прямо-таки часики тикают. В соседнем треде жалуются на проблемы с ним, но попробовать стоит.
Во-вторых, в колабе можно с помощью !nohup ... & disown запустить любой скрипт в фоновом режиме. В том числе, если очень припечёт - чтобы отслеживал изменения в файлах и лил промежуточные версии на huggingface. Пока мне влом, но если на кону рукофикс... Ну...
>>108500 О, все еще мутузишь своего лисенка. Я может быть слегка переборщил со словами, что прям сильно должно отличаться до последней эпохи. Если хочется более экстремальный метод обучения - попробуй constant с разогревом
>>108513 Да, просто тестирую на одном промте. Хочу делать лисичек в стиле автора. Как минимум с 6 до 10 эпохи прогресс по пикам виден. Думал уже упороться окончательно и попробовать все планировщики.
>>108555 Сразу: констант в попу, полиномиал узконаправленный туда же, линеар более плавный чем козайн, скорость у него падает быстрее, козайн виз рестартс (хороший варик кстати) требует дополнительный параметр в виде числа хард рестартов скорости за весь период обучения, без него будет работать как обычный козайн, остаются козайн (дефолт) и констант с подогревом, в теории для некоторых датасетов может быть пушкой и единственным вариантом, но по-моему как и констант он самый "пережаривающий". Кстати оффициальный SD тренировали именно на последнем, с разогревом в 10000 шагов
Кстати, было бы хорошо в тот гуй добавить аналог возможности x\y скрипта. Чтобы наделал гридов с небольшим изменением скорости, шагов и планировщиков разом.
>>108576 В гуе мокропиське есть строка дополнительных параметров для таких случаев >>108577 Почти в самом низу скрипта где строчка powershell accelerate... можешь прямо перед ней добавить $run_parameters += " --lr_scheduler_num_cycles=X" >>108582 Не уверен что справлюсь
Хочу сделать Лору на определенный автомобиль, сколько шагов нужно примерно? Так же 1500? И теги можно автоматически проставить с помощью wd или нужно клипом? Тренить очевидно буду на сд2.0
Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
➤ Гайды по обучению
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ Текстуальная инверсия (Textual inversion) может подойти, если сеть уже умеет рисовать что-то похожее:
https://rentry.org/textard (англ.)
✱ Гиперсеть (Hypernetwork) может подойти, если она этого делать не умеет; позволяет добавить более существенные изменения в существующую модель, но тренируется медленнее:
https://rentry.org/hypernetwork4dumdums (англ.)
✱ Dreambooth – выбор 24 Гб VRAM-бояр. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://github.com/nitrosocke/dreambooth-training-guide (англ.)
✱ LoRA – "легковесный Dreambooth" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением:
https://rentry.org/2chAI_LoRA_Dreambooth_guide
✱ Text-to-image fine-tuning для Nvidia A100/Tesla V100-бояр:
https://keras.io/examples/generative/finetune_stable_diffusion (англ.)
Бонус. ✱ Text-to-image fine-tuning для 24 Гб VRAM:
https://rentry.org/informal-training-guide (англ.)
Не забываем золотое про правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.
➤ Гугл колабы
﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA [1] https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-trainer.ipynb
﹡LoRA [2] https://colab.research.google.com/drive/1bFX0pZczeApeFadrz1AdOb5TDdet2U0Z
➤ Полезное
Гайд по фиксу сломанных моделей: https://rentry.co/clipfix (англ.)
Расширение WebUI для проверки "сломаных" тензоров модели: https://github.com/iiiytn1k/sd-webui-check-tensors
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
Подборка мокрописек от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)
Коллекция лор от анонов: https://rentry.org/2chAI_LoRA (заливать лоры можно сюда https://technothread.space/ пароль 2ch)
Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdgoldmine
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/gayshit/makesomefuckingporn
Сервер анона с моделями: https://static.nas1.gl.arkprojects.space/stable-diff/
Шапка: https://rentry.org/ex947
Прошлые треды:
№1 https://arhivach.ng/thread/859827/
№2 https://arhivach.ng/thread/860317/
№3 https://arhivach.ng/thread/861387/
№4 https://arhivach.ng/thread/863252/