24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
B]ТЕХНОТРЕД №4 ИТТ делимся результатами обучения, советами, лайфхаками, наблюдениями, обсуждаем вну /tech/
Так, это всё очень весело, смешнявка 4 пиком, проебанный заголовок, но вопрос в другом: что сегодня обучаем? Планирую сегодня вкинуть шекелей на васт эй ай Нужна какая-нибудь задача уровня интермедиэйт и выше, т.е. не дженерик 2д аниме баба, с этим ясен хуй лора справится, вот какой-нибудь хитровыебаный стиль или концепт подошел бы (только чтоб не надо было год датасет собирать)
>>94300 (OP) В ссылках не нашел, спрошу так, лору можно натренить только на одежду? Чтобы я мог менять в промпте деталей о персонаже, о стиле рисовки, но чтобы одежда всегда была одна конкретная?
>>94340 Силовая броня из Fallout. Типа T-45, T-51 или T-60, но только не броня Анклава. Ещё в сентябре пытался генерить постапокалиптические арты на копромодели 1.4, и оказалось что она практически ничего про неё не знает.
>>94370 Ты берешь оригинальный стиль человека, который он сам придумал и который сформировался в том числе ввиду уникальности его нервной системы и всего прочего и воруешь его. это мразотство.
>>94375 Бля, жир, ты заебал. Хули ты забыл на этой доске? Тут нет ничего своего, это доска про копирование чужих идей, стилей и т.п. Ты пидор заебал троллить тут.
>>94366 > Пилить видос как с нуля собираю датасет, тегаю, вычищаю его, обучаю и тестирую? Или никому не надо? Давай, а то по датасетам тут больше вопросов, чем по установке и параметрам скрипта
>>94325 → > Тренируй больше разных лор, если сталкиваешься с проблемой, то ищи варианты решения Так и делаю
> hair ornament, без hairclip (а hairclip емнип всегда идет с hair ornament), то с высокой вероятностью оно подсосет то что было натренено в лоре Подсосёт именно в этот тег, заменяя его веса новыми, как я понял. Оно и правда через теггер всегда вместе выдавало эти два тега, но почему у кого нибудь вообще может возникнуть желание использовать их по отдельности, если на картинке оба тега подходят?
> Да, но не вылезая за теги данбуры, а то получится новый тег, который ты будешь обучать с нуля скорее всего. Просто тут сейм херня что и при промтинге, есть созависимые теги, или же теги, которые используются от контекста, типо разницы между тем же pussy и cleft of venus. Такие группы тегов типа hair ornament + flower hair ornament частенько встречаются, там еще и hairclip может с ними быть, или например crying + crying with eyes open. Кароч это уже непосредственно тема теггинга данбуру артов, лол. Понял, из опыта можешь сказать что лучше, описывать подробно группой тегов или стоит оставить один простой, чтобы в него и насосало все изменения при тренинге? Кстати, нужно ли всё-таки проставлять теги по типу full body, cowboy shot, close-up, или не стоит?
> Оба в этой лоре есть Не, я сам эту натренил, это не твоя лора, но с твоими параметрами, чуть изменёнными.
> А как вызывал? Если по xiao то это уже считай новый тег, который с нуля обучался Да, так и вызывал 1boy, xiao. Вот с уточнением геншина уже куда лучше всё на пикриле1, пик2 попробовал без лоры.
> Однако в моем понимании все просто - надо убрать все лишнее из пикч для тренировки, а все остальное что там осталось - плотно затегать не создавая новые сущности. Хуй знает как высрать это из моего мозга, наверное можно сказать что подробное тегирование сродни дифференциации. Я уже хочу спать и хз как вменяемо объяснить. Не шизу получается, а заранее ответ на мой вопрос выше.
> Я в основном пользуюсь костылем от кои, а не нативной херней от ватоматика, когда ставишь, то в хуплоте появляется пик 4, это намного удобнее имхо. Я уже нашёл, просто версия старая аддишионал нетворков была.
> больше пикч было бы хорошо Вот тут бы пояснение не помешало, чего добавить. Читал как анон выше советовал добавлять в датасет разные ракурсы, там клоуз-апы, ковбой шоты, фулл боди, фром бехайнд. В разной одежде, с разными фонами, в разных позах. Ты для своих лор как обычно собираешь датасет?
>>94413 > Подсосёт именно в этот тег Ну типа > заменяя его веса новыми Не могу ни подтвердить, ни опровергнуть это > но почему у кого нибудь вообще может возникнуть желание использовать их по отдельности У меня теггеры часто обсираются мне в штаны, поэтому приходится чекать за ними и ручками проставлять, идти на данбуру, искать похожие ракурсы итд и тащить оттуда подходящие теги.
> из опыта можешь сказать что лучше, описывать подробно группой тегов или стоит оставить один простой, чтобы в него и насосало все изменения при тренинге? Я таким исследованием не особо занимался, но по наблюдениям имхо лучше проставлять все. У меня иногда бывает что нужное не вызывается или плохо вызывается по одному тегу, тогда ставлю второй и экспериментирую. Правда в таком случае уже могут идти вопросы к качеству тренировки или датасета. По сути если у тебя одновременно два тега на объект в описании, то и тренятся они вместе, ты можешь вызывать нужное двумя токенами, правда разница между ними будет зависеть от начальных весов модели для них, ну и собсна еще от того насколько лора перекрывает модель.
> Кстати, нужно ли всё-таки проставлять теги по типу full body, cowboy shot, close-up, или не стоит? Офк нужно, это же основные теги композиции считай, с ними то и в промте работа частая получается, хотя вместо того же фулбади можно костыльно получить похожий эффект, прописав в промте обувь.
> я сам эту натренил Поне
> Не шизу получается, а заранее ответ на мой вопрос выше. Не поне
> Читал как анон выше советовал добавлять в датасет разные ракурсы, там клоуз-апы, ковбой шоты, фулл боди, фром бехайнд. В разной одежде, с разными фонами, в разных позах Если для сяо, то это был я. Ну это правильно собсна. Представь например что тебе нужно сделать 3д модель объекта из фоток, тебе для этого нужно обфоткать его с разных сторон, со сдвигом в 30 градусов по осям, при камере, привязанной к объекту, например. Сделать этакую сферу. Только тут еще нужно "сфоткать" объект вблизи, что бы нейронка поняля детали на клоз апе, и вдали, типа вайд шот или фулл бади. Три сферы считай, примерно так наверное и будет выглядеть идеальный на самом деле хуй знает датасет, Для человека еще нужны разные позы, что бы ненароком не приклеить натрененную лору к какой-нибудь Т-позе.
> Ты для своих лор как обычно собираешь датасет? Начальный датасет я собираю от фонаря честно говоря, штук 25 пикч какой-нибудь херни, которая понравилась и которая мб теоретически подойдет, треню, щупаю результаты, потом корректирую или меняю датасет но чаще просто забрасываю лору, лол Для черновых вариантов не очень хочется ебаться так сказать.
Зачем шиза кормите? Воровать стили авторов надо усиленно, через это воровство другие аноны узнают об этом авторе и заценят его работы, грубо говоря, вы своим воровством пропиарете автора, от чего выиграете и вы и автор.
>>94522 Я под каждым постом на пиксиве с ворованным стилем оставляю ссылку на пиксив автора. Ну и на дваче тоже сообщаю, если кому это интересным становится.
>>94522 Ты подписывать автора у которого своровать собрался прям а картинке? Не думаю. Ты просто ставишь художника в положение в котором он вынужден ДЕЛИТЬСЯ. Хотя его и не спрашивают. Но выходит что делится он со всякими додиками, ведь они такие неумелые,обделенные,юродивые, с ними надо делиться своими трудами, чтобы и они так смогли.
>>94458 >Мне ещё фкейщик понравился Fkey? Он очень классный. Еще давно пытался добавлять теги с ним, но сетка не знает. Будет круто, если выйдет натренить его стиль.
>>94532 >ДЕЛИТЬСЯ Да, большинство художников не хотят развивать искусство, они хотят нахапать под себя, нагрести и сидеть на этой куче деградировать. Как же хорошо визжит мусор с патреона, который говно гнал и получал за это бабло после появления нейросетей, ведь этот мусор развивать ничего не хочет, он хочет только зарабатывать.
>>94325 → >Принято Благодарю. Когда пытаешься сделать нужный образ одним только описанием, выходит так себе... Но с кастомной лорой этот промпт сделает норм.
>>94547 Он получается подражатель fkey, поэтому так его называют? Не понимаю, но его стиль выглядит немного другим. >>94549 Ты можешь мне прояснить? Ты же с /pa/, знаешь ведь всех конфоблядей там?
>>94538 Главное - демократизация. Чтоб для каждого была своя ниша: и для тех кто готов платить, и для тех кому платят, и для тех кому нужно получать рисунки бесплатно (для меня).
Кто-нибудь итт или на форче, может сделать максимально упрощенный колаб скрипт для лоры? Чтоб там были проставлены самые оптимальные (универсальные, эффективные) параметры, чисто чтоб скинуть туда файлы и трейнить одним кликом.
>>94507 > Не поне Да я просто пост не дочитал до конца, начал реплай строчить, потом увидел что ты придерживаешься детального описания датасета и вопрос вообщем-то отпал, но искать его в простыне текста не стал, чтобы удалить.
> Если для сяо, то это был я. Не, я про анона который исследованиями делился в прошлым треде говорю.
Ну насчёт аниме тяночек я вообщем то понял, а что насчёт стилей? Это типо тренировка тега с нуля будет, даже если там есть персонажи в датасете, тут ведь полюбому есть свои тонкости, самое очевидное что приходит на ум, это то что такое тренить нужно дольше? А с реализмом как быть? В гайде написано, что лучше придерживаться сд стиля промптов и первого клипа. Как сд стиль будет перезаписывать это - a portarait of a girl standing in the middle of the street я вообще мало себе представляю, учитывая специфику тренировки данбору тегов.
Я читаю в дискорде англо сервер художников, орагнизовавших сопротивление против ИИ. Юзеры постят свои рисунки с бодипозитивными персонажами. Про нас говорят, типа, убить пидорасов! Засудить, и всё такое прочее.
>>94594 --share ето параметр запуска, когда юзаешь на Kaggle - чтоб разместить app на градио. Там еще нужно делать пароль, иначе непременно какой-нибудь чёрт отыщет брутфорсом и нагенерит тебе расчлененки.
>>94601 Объяснишь про лосс, что это такое? Какие значения можно считать приемлемыми и почему может происходить подобное, как я понял неправильное отклонение в какую-то сторону?
>>94616 Лосс это различие между искусственно зашумленным тренировочным образцом и обесшумленным на один шаг с помощью unet тоже изображения с шумом, но большим. Чем больше значение - тем больше различие. Обучение это и есть уменьшение лосса, сеть учится деноизить изображение, ориентируясь на датасет. Сеть постоянно подстраивается под лосс и пытается скорректировать свой алгоритм, это называется градиент. По-хорошему лосс должен падать с течением обучения Приемлимые хз, ну скажем 0.08-0.15
>>94623 В том то и дело, там нету ни то что такого >>94633 годного объяснения, а вообще хоть какого то. Поискал по loss в ссылках на гайды обучения, может не так искал
>>94574 > а что насчёт стилей? А они в среднем по больнице легче тренятся.
> Это типо тренировка тега с нуля будет Зависит от того присутствует ли автор стиля на бурах или нет, насколько он популярен, и реагирует ли на него модель соответственно.
>это то что такое тренить нужно дольше? Сложно сказать, но обычно стиль схватывается быстрее персонажа.
>тут ведь полюбому есть свои тонкости Это наверное не у меня спрашивай, опыта тут маловато, да и я до сих пор не стартанул нормальную тренировку стиля нихея
> А с реализмом как быть? Тут не знаю, я только пару версий кратоса из год оф вар на реалистик моделях пробовал тренировать, вышло очень всрато и я забросил.
>>94541 Пока что словил перетрен с сильным прилипанием стиля, приколы с полями прилагаются. У него лучше >>94471 Надо поиграться с параметрами обучения. Алсо, я забыл спросить, на какой модели тренить и что ты хочешь получить? Я так понимаю в стиле твоих пикрилов, но в одежде имари? Алсо, возможно скоро отвалюсь спать
Два месяца меджирую трейны и понял самое главное: главное найти понравившуюся тебе базу и юзать оттуда текстоэнкодер, то есть base_alpha. Это как минимум процентов 80 качественного мерджа под свои вкусы. Ну и чтобы модели были либо разными трейнами, либо юзали разные трейны если это миксы. Сами веса инпута и аутпута можно вообще по шахматке распологать, срединный блок в 0.5 по дефолту. Ну и клипфиксинг конечно бустит до 100 качественного микса. Делебирейт кстати как база кайфовый. Такие дела.
>>94820 >на какой модели тренить и что ты хочешь получить? Я так понимаю в стиле твоих пикрилов, но в одежде имари? Персонажа. Прическу и желательно, пропорции лица. Одежду лучше чтоб можно было выбирать любую или ее отсутствие.
Есть три самые популярные модели: Anything v3 и v4 - самый усредненный стиль, Orangemix - детализированный полутрехмерный стиль, тягучие формы словно пластилин, Counterfeit - многого сказать не могу, но выглядит как дженерик.
Судя по всему, Anything v3 оптимальный вариант для трейнинга лоры. WD и HD хуйня, Grapefruit и Poison параша, тринарт специфичен
Это думаю все таки сюда, короче заебавшись копаться в промтах я начал искать способ их удобно хранить. Вариантов обнаружилось много, но наиболее удобным оказалось использование программы для написания сценариев, КИТ Сценарист. Плюсы, бесплатно. Пропты хранятся на сорт оф стене, в виде карточек. У карточек ясно читаемый заголовок описание, видно содержимое, можно структурировать и размечать разными цветами, размеры текста внутри карточки неограничен.
>>95094 Почему на 512х512 такая производительность охуенная? Если я в img2img планирую автоматик использовать, то имеет ли смысл тесты делать в img2img, а не в txt2img?
>>95104 > Почему на 512х512 такая производительность охуенная? Ну так тренили ж на таком разрешении > Если я в img2img планирую автоматик использовать Не понял предложения
>>95141 > Какая нахуй разница на чем тренили? Ну блять, есть же некоторая закономерность между тем, на каком разрешении сеть обучали и на каком разрешении максимальная производительность? М? > Ты глупый? Да, я глупый. Объясни пожалуйста как в img2img использовать автоматик, а то я только наоборот умею
>>95167 >есть же некоторая закономерность С чего бы ей быть? Если ты всю жизнь спал на старой ржавой советской кровати с пружинами, ты внезапно откажешься от какого-нибудь матраса с латексным наполнителем? >только наоборот умею Как часто в автоматике наоборот?
>>95283 >славы восхищения зрители Если он не может сделать лучше, чем я за 5 минут в генераторе, значит он этого не заслуживает. >заработок Я не продаю генерации.
>>95313 >Ты сделай лучше без его рисунков Почему? Художники ведь не с закрытыми глазами учатся рисовать. Вполне себе пиздят друг у друга стили. Ну не зря же стиль нельзя закопирайтить. Только больной мозг до такого бы додумался.
>>95315 >Вполне себе пиздят друг у друга стили. Тоже не айс но человек хотябы пользуется своей нейросетью в голове и конкуренция происходит на биологическом уровне что чуть более справедливо. Если один художник другого обскакал чтож он более одарен генетически. Но обычно такое копирование стиля не поощряется и копирующий художник выглядит как дешевка да и понятно что делается такое в коммерческих целях, а для души он рисует в своем стиле.
>>95454 Сегодня пытался натренить стиль, писал видео в обсе два часа, нихуя не вышло за 7 попыток, стиль не подхватился. На этом моя карьера лораёба ВСЁ
>>95532 Скорее копиум, у меня никогда так тяжело лора не давалась. Чтобы лосс стабильно был выше 0.2 на всех эпохах, это пиздец Я даже не думал что такое теоретически возможно, ладно бы там каша какая-то невнятная была, хуй с ним, так лора просто сказала НЕТ Я НЕ БУДУ РИСОВАТЬ В ЭТОМ СТИЛЕ, и всё тебе нахуй
>>94991 Прочитай ветку диалога, мы там с аноном обсуждали разные способы вызова лор, просто 1boy xiao, 1boy xiao \(genshin impact\) и третий с кучей уточняющих тегов, ну и сравнение без лор ко всему этому делу ещё. Я тоже натренил по твоему датасету чтобы попробовать получить примерные результаты.
Поясните пожалуйста, за что отвечает "Copy config from" и там четыре варианта ответов. Что именно он копирует и что стоит выбирать при мердже с вычитанием и сложением?
Написать гайд по мерджу по весам для даунов под задачу "получение любого стиля с базой на релистик модели без ошибок и без потери качества рук/ебл/etc"?
>>95901 ДА! В шапке есть ссылка на гайд. "Гайд по кручению весов моделей". Он пустой. Если готов взяться, редактируй. Пароль 2ch. Если боишься что угонят, меняй пароль. Тред будет тебе благодарен, родина тебя не забудет.
Нашел пару советов хороших, наверное я зря так боялся трогать network_alpha, типа что это "не тру". Это настройка ведь значительно замедляет обучение. Я бы до пре0.4.0 значений конечно не загибал (было раньше network_dim = network_alpha), но 12.5-50% от network_dim однозначно сегодня попробую. Я иду за тобой, ебаный каджатони!
>>95975 Ноуп. Она используется в формуле (network_alpha / network_dim), а это значение в свою очередь применяется к выходных весам слоев (умножает). Соответственно чем меньше альфа, тем меньше веса. При network_alpha = network_dim выходные веса не меняются, но это может привести к ошибкам округления и нулевым весам слоев, что не очень хорошо. Но на единице походу пиздец хуйня у меня выходит в большинстве случаев. Нужно что-то среднее Обновлю гайд как-нибудь
>>95982 Было бы неплохо, давно ты гайд не обновлял Это объясняет почему пришлось ебаться с лернинг рейтом после 0.4.0 > If you've baked loras before alpha was added then you were by default using dim = alpha (128/128, 64/64, etc) Если сейчас поставить также 128/128, будет очередная лора и нулевыми тензорами, но старый лр из гайда будет нормально работать? А дим уменьшенный почему работает, данных мало и все помещаются в выделенное место? До 0.4.0 16 или 32 дим работал вообще?
>>96004 > Было бы неплохо, давно ты гайд не обновлял > Это объясняет почему пришлось ебаться с лернинг рейтом после 0.4.0 Да, всё верно. Я может про нетворк альфу не сильно расписал, но скрипт сразу же обновил и в скобках указал, что если хотите как раньше, то ставьте альфу как дим > Если сейчас поставить также 128/128, будет очередная лора и нулевыми тензорами, но старый лр из гайда будет нормально работать? Да. Но как я понял нулевые тензоры не такая уж и проблема, учитывая какие результаты мы и я получали. Я бы смотрел значения альфы 8-64 для дим 128, но я юзаю дим 16-32, поэтому буду смотреть 4-16 альфы где-то > А дим уменьшенный почему работает, данных мало и все помещаются в выделенное место? Я хуй знает что там под капотом, но вот то что ты написал я так думаю сейчас. Тесты малого дима мне понравились. И занимаемое место > До 0.4.0 16 или 32 дим работал вообще? Да, работал конечно. В официальном репо лоры я вообще не видел чтоб кто-то выше 16 лез вообще >>96034 Открой лора репо, там 90% лор мои. Качай, тестируй >>96036 Всё работает, но на одном датасете не сработало, и я пока не знаю почему. Не факт что из-за альфы, может протегано хуёво
Ну дела. Оказывается в кернелах не найдешь рабочий скрипт даже чтоб просто загрузить готовую модель. То ли поддерживаются в web UI нативно, то ли нужен аддон. Китайцы запилили какой-то специальный ноутбук для лоры, надо попробовать, хотя выглядит криво.
>>96324 > Очередной жирный вброс? Да не, почему, такое возможное в теории. И судя по тому что у них была демка, то и на практике. Там же вон даже бумажку сделали пару месяцев назад, где описывается как за 8 шагов получали готовое четкое изображение
>>96330 >Да не, почему, такое возможное в теории. И судя по тому что у них была демка, то и на практике. Возможно то но возможно, только крайне жаль, что не будет применяться повсеместно.
>>96332 Да, их там вроде на реддите захейтили, что они такие ебать благородные, такую хуйню в народ пускают, но почему-то не сделали расширение для автоматика или другого фронтенда
>>96676 Качество в плане обрезаны рамки черные/белые, по возможности обрезаны/незаметно замазаны надписи, разрешение не 256х256, текстовики с тегами полноценными
>>96690 это единственная такая пикча, + там видна пикча с диалоговым видно на этом все, я сейчас замажу и кину в тред, датасет скоро будет, дальше сам решишь
>>96696 А нет, не все, он практически каждую пикчу подписывает свою. Хз, удовлетворительно это для тебя или нет, сам решай. https://dropmefiles.com/JFsFM
>>96720 Для тебя удовлетворительно ли если в последствии тебе может выдаваться текст и подпись с такой лорой? Пройдись просто в фотошопе хилинг тулом по всем его подписям, они настолько маленькие что их легко затереть, скинул не пофикшенную хуйню кстати. Зачем такой длинный тег в несколько токенов в начале, почему не использовал однотокенный?
>>96775 >Для тебя удовлетворительно ли если в последствии тебе может выдаваться текст и подпись с такой лорой? да >>96775 >почему не использовал однотокенный не вижу особого смысла
Ну кароч сделал я какой-то псевдогайд, на запись ручки тряслись, делал ошибки. С 17:17 по 25:14 искал рабочий гпу, можно скипать. На 28:30 вспомнил, что забыл стереть тег автора из файлов описаний и заменить каким-нибудь коротеньким. По 33:00 тренил. На 39:25 результат. Разрешение 768х768. Стиль автора дался лорке очень тяжело, но схватился, очень разномастные пикчи, одна крупной кистью, другая с тонкими линиями, на одном пике лицо крупным планом, на другом в жопе мира и его еле видно, да и порой я сам до конца не мог понять, что на рисунке автор изобразил. Перегнул с лёрнинг рейтом. Плюс поленился ждать 40 минут, сбросил тренировку и начал заново, уменьшив шаги в 2.5 раза. Короче могло быть всё лучше. со второй эпохи обосрался
>>96775 Кстати узнал что там не в токенах идёт расчет, а в словах, keep_tokens это нихуя не tokens, а количество "охраняемых" тегов до N-ной запятой. Так что имя автора или персонажа может быть хоть 5 слов, главное чтобы не было разделено запятой
>>96869 Да боялся что файл гигантский будет. А вьювер FastStone Image Viewer, полжизни пользуюсь > Лосс большой с твоим датасетом 0.15-0.2 Да, в курсе, бывало и меньше. Вчера у меня вообще был 0.23-0.3. Перелопатил датасет, покропал всё что можно, убрал много пикч и теперь имею что имею. Если кто-то сможет натренить крутую лору на этого автора, могу только низкий поклон оформить
>>96890 Можешь какой нейронкой видос апскейльнуть, по быстрому получив качество лучше? Шакалы очень сильно всё портят всё таки, ну или скажи, чем можно
>>96989 Лосс в районе 0.15, настройки скоро будут. Не хватает только вот этого "мрачного" лука на некоторых пикчах как у автора, но опять же, 1500 шагов всего, 5 минут тренировки
Итак, анон, я хочу натренить нейронку, чтобы сажала тянок на шпагат. Полагаю - что таки или DreamBooth, или TextualInversion (кстати, что посоветуешь, анон?). С первым работал, со вторым - нет. DreamBooth хорош тем, что на выходе у него - diffusers-совместимые веса, которые хорошо ложатся на huggingface.
Итак, что я сделал. Я нагенерил протогеном 2.2 тянок как на пикрилах. Они не без греха, но грех можно и обрезать. Планирую плюс-минус повернуть их гимпом так, чтобы расшпагаченность была снизу и горизонтально.
Сколько нужно пикч для тренировки позы? Что указывать базовым концептом в DreamBooth? "stretching" ? Есть ли отличия по lr от тренировки персонажа? И вообще, что посоветуешь?
>>97005 Норм видос в этот раз, жаль этап теггинга мало был затронут, пожалуй эту теггалку в вебуи тоже стоит добавить. Я тренил 1875 х 2 батч, чтоб уж наверняка, вот два промпта из датасета на разных сидах, на ласт эпохах уже ничего не улавливало походу нового
>>97160 Я могу запилить потом видос как я персонажа вашего на выбор треню :) Мне пизда весело Еще скорость обучения важна, да и вообще все другие настройки
>>97167 Да ты вообще какой-то колдун ебучий, умудрился зацепить троих моих любимых персонажа в своих лорах. Ну если ни у кого больше нет идей, даешь Суйку тогда! И чтоб с бочонком, а то не канон: https://danbooru.donmai.us//posts/6032634 Мне на самом деле больше интересно посмотрерть на процесс теггинга во время сборки датасета. Я даж не знаю, могут ли в нее модели нынче или мож кто натренил уже, лол. Наи хуево могла в октябре, это точно помню.
>>97394 С бочонком? Ну попробуем извините, я секондарька, а в чем суть? >>97394 > Мне на самом деле больше интересно посмотреть на процесс теггинга во время сборки датасета А там смотреть нечего. Либо теги автоматом с буру, либо wd автотеггер, который уже киллер машина просто, научился угадывать даже персонажей > Наи хуево могла в октябре Ну значит её и научим
>>97438 Автотеггер? Нет. Он работает только по дженерал тегам и по персонажам. Ну может там в теории проскочить какой-нибудь traditional media, но ты наверное не это имеешь в виду
>>97444 Что ты понимаешь под стилем? Стилистические теги есть на данбуру, хоть их и немного, соответственно есть и в теггере. Скетч какой-нибудь он с легкостью отличит от обычного рисунка, я думаю
Всё, ложуся баеньки, завтра будет и гайд, и лора, и настройки, и всё всё всё В гайде достаточно времени уделил сборке датасета, подготовке и обработке изображений, небольшой возне с тегами, подбору настроек, эпох и т.д. Правда нвенк после старта обучения крашнулся и оборвал видос, но результат в треде в любом случае, я там просто игрался с промтами и моделями
Extensions - Install from URL - ссыль выше. Перезагружаем страницу. Settings - Show all pages в самом низу ставим галку Fix broken CLIP position IDs. Теперь во вкладке Toolkit у нас по паре кликов мыши можно очищать-прунить модели до 2ГБ размера и клипфикс(?) делать, все оперативно. Ну и еще в safetensors все модели переводит. Обычная пруня в fp16 без галки с клипом результат на моделях не меняет, в пределах погрешности xformers. С галкой меняет, но незначительно.
Есть тут опытные лористы? Запилите стиль по этому сету https://drive.google.com/file/d/10CrWTaxiuQdTqCgQZqZb-wE_KDYD_tMV/view?usp=sharing 1306 образцов графики из warcraft II and homm II. Первая половина сета - гладкие апскейлы, вторая половина - те же картинки, но пиксельные. Иконки из варкрафта представлены с цветовыми вариациями, как в оригинале. Ассеты из каждой игры обозначены отдельно, чтобы можно было применять по отдельности или смешивать два стиля. Если взлетит, то должно получиться супер. В теории, будет возможно делать такую же графику как в этих играх, но в HD с огромным вниманием к деталям.
>>97827 Мне в целоп похуй на клип, потому что сколько не менял особо разницы не видел, а вот то что раздутую до 8 гб модель можно спрунить в 2 гб малышку для меня киллерфича >>97872 Я сделал >>97925 Тег sks. Я перетренил с другими настройками, получилось вроде еще лучше, могу залить >>97963 Возможно >>97970 1300? Жопа не лопнет?
>>98000 Я не представляю какие настройки должны быть с таким датасетом. Может быть по фану попробую, еще пока не знаю >>98002 >давай Чуть позже, я с телефона капчую >Возможно А почему нет? Не совсем понимаю. Собери датасет где они изображены и лорируй
>>98007 Наверное каждая пикча должна прогоняться по чуть-чуть? Не знаю, я только rudall-e раньше трейнил и stylegan. С большим сетом оверфит точно не грозит.
>>98014 Возможно. Но они для простого объекта, одного или двух, а тут будет стиль чтобы сгенерировать что угодно как красочный пиксель-арт из 90х. Охуенно же
>>98016 Вчера анон скинул датасет из 50 пикч, получилось сделать стиль кое как, потом я решил провести эксперимент и собрал свой датасет по тому же автору, но уже на 13 пикч и вышло лучше
>>98048 udonNoodleMix и оранж 2 ряд: первая попытка на большом датасете 3, 4: 13 пикч датасет В 4 ряду вдвое меньшая скорость обучения чем в 3, мне больше всего нравится пока
>>98072 > В 4 ряду вдвое меньшая скорость обучения чем в 3 А в третьем то какая? Как тут >>96889, подогнанная под батч? Попробовал на большей скорости тот же сет, ничего особо хорошего из этого не получилось
>>97670 Что там кстати по Суйке с видосом и гайдом, сегодня запилишь?
>>98171 В 3 ряду unet 1e-3, te 1e-4 под батч сайз 5 В 4 ряду unet 5e-4, te 5e-5, т.е. в два раза медленнее >>98171 > Что там кстати по Суйке с видосом и гайдом, сегодня запилишь? Да
>>98428 Че там ебаться? python .\merge_lora.py -h Он тебе выдаст всю хелпу. Там вроде 4 параметра, это два пути с лорами которые мешаешь и два значения сколько весов взять от каждой из них
>>98485 А, сначала нужно зайти в виртуальное окружение .\venv\scripts\activate Потому что там нужен торч И возможно запускать надо не так как я сказал, а accelerate launch .\merge_lora.py -h но это не точно
Я вот думаю... композицию на реддите уже изобрели - разные промпты для разных прямоугольников. Само по себе дело интересное, кстати. А что там с последовательностью тэгов?
Очевидно же (или я даун?), что на первых нескольких шагах какой-нибудь open_mouth или там detailed face никакого эффекта не даёт, только место в токенайзере занимает. А вот если на предпоследнем шаге рука уже обрезана, то хоть обпишись perfect anatomy в негатив - всё, поздняк.
>>98671 Хз, мне кажется что промт генерируется целиком как есть, и важно чтобы на каждом шаге присутствовал он целиком. Ведь допустим если ты с помощью конструкции [:open mouth:0.9] попробуешь в последних шагах открыть персонажу рот, вряд ли что-то выйдет, картинка уже обесшумлена и нейронка не знает что с этим тегом делать, генерация почти готова. Или наоборот, если с помощью [open mouth::0.1] ты попробуешь на начальных шагах открыть персонажу рот, чтобы тег не занимал место, тебе остается лишь надеяться, что так оно и останется до конца генерации, потому что как только этот тег пропадет, нейронка будет вольна нарисовать что угодно. Моё виденье
aiнанасы подскажите кто освоил тренировку лора по реальным лицам, не онеме. что лучше по датасету - картинки, описание? по настройкам? цель txt2img, с минимальным влиянием на всё кроме лица. ебусь с этой хуйнёй который день, сходство пока не то, что хотелось бы. или может как-то надрочить текстовую инверсию на кастомных чекпоинтах?
Кароч запиндюрил гайдецкий, наверное лучший сравнивая с предыдущими, но и самый длинный. Хотел запилить что-то типа субтитров с объяснением почему я так сделал и т.п., но у меня уже болит очко от этого попенсорса и я после 3 софтин сдался, поэтому если че непонятно спрашивайте здесь.
Видос: https://drive.google.com/file/d/1W2dgALDYwHEgrdQ87DRc5OQarqmUjAYX/view?usp=share_link Лора, теги, датасет, настройки: https://drive.google.com/drive/folders/1id7K_EkOOdvRVsRfpFCLk9O-WoqIXQx0?usp=share_link Таймкоды: 00:00-19:18 собираю датасет, 22:07-38:02 сортирую концепты, кропаю изображения, доделываю работу за хуйдожников, 39:21-50:25 вожусь с тегами, 50:38-51:32 решаю сколько повторений выставить на каждый концепт, учитывая количество изображений в каждом из них, 51:32 и далее в принципе можно скипать, там ресайз пикч, подбор настроек, классическая ебатория с поиском рабочего ГПУ, обучение и видос обрывается с ошибкой, кек мне так понравилась Суйка в исполнении nishiuri, кайфарик
>>98730 > Скорость обработки Чего > от размера окна Какого
>>98775 >Освободил себе 80+ гигов на диске Сейм. Кстати vae тоже можно сдуть
>>98784 Я жопича натренил, в принципе получилось сносно учитывая шакальность изображений. Даже перетренил, слишком похож при весе 1.0, приходилось понижать По датасету всё как обычно: разные выражения лиц, освещение, фоны, одежда, ракурсы, портреты/полный рост и т.п. В общем чтоб какое-то разнообразие было. Настройки дефолтные я думаю, unet lr 1e-4, te lr 1e-5, network_dim 32, network_alpha 16-32, что там еще... clip_skip 1, scheduler cosine, shuffle_caption вкл. да и всё в целом, должно работать
>>97827 >Что скажете по вот этому поводу? Всегда делаю прунинг любой говномодели скачанной. Ну и клипфикс попутно, хотя его можно и в MBW плагине форс резетнуть потом если для смешивания модель берется.
>>98839 Если это с галочкой на клипфикс, то - да, примерно такая разница в результатах и будет, должна в целом моделька стать чуточку "лучше" или "точнее". Если без галочки, то - хз, скорее не норм. Но обычный Anything 3.0 это особый случай. Вроде не раз писали про разницы fp16 и fp32 на Эни, я в подробности не вдавался, потому что уже миксы варил тогда.
>>98858 >Model will be fixed. Это с галкой, клипфиксом. Если не отмечать её в самом низу настроек, то будет просто сокращение размера модели, без исправления >CLIP had incorrect positions ...
>>98869 >>98865 Нихуя этот тулкит обновился мощно, показывает теперь тензоры говеные. А когда в сам автоматик эта галочка успела вообще попасть, не знал про нее. Есть вообще отличия такого фикса от ALL_A + reset в блок мерджилке?
>>98876 Я - да. Обсер с числами с плавающей точкой не мог быть сделан специально, шоб "лучше было". Это из-за миксования повылезало. Но тут на твое усмотрение на самом деле. >>98871 До того как сюда ссыль кидать, на 3-ех моделях протестил. Butter (yohandiffusion на хаггине, микс оранжа и еще чего-то), капуста на эни 4.5 и еще какая-то модель. Без клипфикса просто пруня в fp16 ничего не поменяла, разница микроскопическая. Причем в оранжах каких-то вообще тензоры везде ровные, а GorynichMix 1.1 показал примерно 15 неправильных.
>>98880 >А когда в сам автоматик эта галочка успела вообще попасть, не знал про нее Я тоже, лол. Даже сначала подумал, что это расширение само добавило. >Есть вообще отличия такого фикса от ALL_A + reset в блок мерджилке? У меня ни одной модели с фиксом через мердж не осталось, всего один раз делал, не проверить. Если ради эксперимента кто-то сравнит - будет балдеж.
Да, попробовал убрать галку и запрюнить модель опять, результат изменений теперь околонулевой. И нравится больше результата с галкой. Ладно, пока просто облегчу модели без изменений клипа, пожалуй, а то памяти на дисках не осталось почти.
>>98807 Суйка вообще огонь. Лицо довольное как на пикриле. Спасибо тебе большое, за лору и за гайд, буду пользоваться как референсом, если чего не понятно будет А можешь рассказать про планировщики, ну или направить где про них можно почитать? Ну там в чем отличие, когда какой стоит использовать, что за разогрев и тд? Пикчи, как понял лучше всё таки обрезать на главном, корректировать цвета, и подгонять под 512 по стороне Почему кстати юзаешь в 10 раз меньшую скорость ТЕ в итоге, лучше работает?
Тоже словил этот баг сейчас кстати, только в промпте лора сработала >>97931
>>99013 > ебать благодарствую, два чая достойному господину Спасибо, рад помочь > вопрос еще по количеству пикч в датасете Сложный вопрос на самом деле для меня. Я всегда подготавливаю датасет тыкая пальцем в небо. Сколько получится, столько получится. В гайде датасет был примерно 50 пикч и он прокатил, нейронка персонажа поняла, на теги отзывается. Но бывает такое, как например вчера со стилем художника, тоже 50 пикч датасет, но те что помладше в одной рисовке, те что постарше, пару лет назад - в другой. И всё в одной куче. Ну и соответственно результат мне не очень понравился, и лосс во время обучения был большой. Потом я в 4 раза уменьшил датасет, оставил только пикчи которые видно что объединены общим стилем и перетренил. И вот тогда мне понравился результат. Мы конечно с аноном поспорили на эту тему, но я говорю чистое имхо Но есть важный нюанс с количеством пикч в датасете, чем меньше пикч, тем менее разнообразен датасет и это в свою очередь приводит к тому, что генерации получаются либо очень похожими друг на друга, либо очень сильно напоминают какую-то пикчу из датасета. Я такое не люблю, поэтому целюсь всегда на хотя бы 20 пикч, это такой минимум для меня. А дальше - если получается найти годный контент, пихаю еще, если не получается - останавливаюсь на том что есть Важное правило в обучении нейронок (и это не только лоры касается) - говно на входе = говно на выходе > что для лора надо 9 или 16 9 или 16? Первый раз слышу, кек. Шизотерика какая-то. У меня в датасетах бывало от 10 до 70 пикч, да и нормально всё
>>99024 > Спасибо тебе большое, за лору и за гайд Спасибо, приятно > Пикчи, как понял лучше всё таки обрезать на главном, корректировать цвета, и подгонять под 512 по стороне Это всё лично мой "воркфлоу". Это на самом деле всё делать необязательно: Обрезал я только верхнюю часть тела, потому что чем меньше площадь информации на изображении, тем легче нейронке это запомнить. По крайней мере мне так кажется. Но это логично приведет к тому, что в полный рост персонажа сгенерировать будет не так просто. По-хорошему, всё что я обрезал нужно было еще и из тегов удалить, но это очень муторно и долго и не факт что будут какие-то значительные положительные изменения по итогу Корректировал цвета я чтобы нейронка не охренела от палитры цветов. На одном пике волосы насыщенно рыжие, на другом светлые и бледные, а я хотел, чтобы на генерациях волосы были такие прям ух, поэтому притемнял изображения и чутка подкручивал насыщенность Подгонял я примерно под квадрат хз почему, тоже кажется что так лучше. Типа сд тренилась на квадртаных 512px пикчах, всё такое. Я не то чтобы всегда так делаю, главное всегда по возможности стараюсь отойти от прям супер вытянутых 10:1 пикч, потому что все равно обучалка подожмет эту пикчу к 512 пикселям по длинной стороне. Но кстати говоря тренить можно не только на квадратах, можно даже так: resolution="512,1024" > Почему кстати юзаешь в 10 раз меньшую скорость ТЕ в итоге, лучше работает? Не раз встречал низкие значения скорости обучения ТЕ во всяких репозиториях, и вообще функция тренировки ТЕ не в каждом виде обучения существует, по-моему даже в дримбузе такого раньше не было (могу ошибаться). Плюс к этому выяснил, что количество обучаемых параметров ТЕ больше чем параметров UNet в случае с лорой, соответственно ей не нужна такая же большая скорость обучения. Я видел результаты на высокой скорости ТЕ, всё очень плохо кончается. Исходя из вышесказанного со спокойной душой ставлю скорость ТЕ в 5-10 раз меньше скорости UNet > А можешь рассказать про планировщики, ну или направить где про них можно почитать? Про планировщики максимально детально в шапке в лорагайде есть, и в том числе что за разогрев. Как говорят умные дяди, разогрев чаще всего не нужен, если ты только не знаешь что делаешь. Я и так и сяк экспериментировал, но так ни к чему особо и не пришёл Касаемо планировщика, мне понравился cosine, мне не понравился cosine_with_restarts и кто-то еще сказал обходить constant стороной, если лору тренишь
>>99013 >для лора надо 9 или 16. вот прям так. хз почему. сколько сам используешь? 15, это оптимальное число. Еще заметил, что если палец в очко себе сунуть и понюхать, то модель никогда не оверфитится.
>>98871 >Пруня кста факапит модель, один дебик допрунькался Норм всё, прунькнул оранж все воркс перфект вери вел.
>>98839 Особые отличия в точности видны на хорошо описанных промтах и/или на высоком CFG (особенно на нем, там точность улетает в небеса из-за самого функционирования CFG), либо на каких-то простых промтах типа loli, woman с начальными сидами от 1 до 10.
>>98880 >А когда в сам автоматик эта галочка успела вообще попасть, не знал про нее. Так в автоматике и нет ее по дефолту. Может в будущем добавит функцию в мерджер, или вообще MBW впиздячит сразу. >Есть вообще отличия такого фикса от ALL_A + reset в блок мерджилке? Тоже самое, но без прунинга.
>>99073 > Типа сд тренилась на квадртаных 512px пикчах, всё такое Именно это меня и насторожило, когда гайд читал, вроде до этого всегда обрезали пикчи, будь то будка, гипер или эмбед, наверное тоже буду заморачиваться, благо в этой вьювер мокропиське ты показал как это можно запилить по быстрому.
Чет пока смотрел вот с этой херни аж в голос: https://danbooru.donmai.us/posts/3187506 Видимо тематическое музло и пальчик в очке прибавляет к успешности лоры на выходе
> resolution="512,1024" Кстати заметил эти параметры в твоём конфиге, они типо отвечают за кроп изображения как раз до определённого разрешения, если оно превышено, во время тренировки, или как? Алсо зачем фиксированный сид, это как-то важно для тренинга?
> Про планировщики максимально детально в шапке в лорагайде есть, и в том числе что за разогрев. Понял, в первый раз как читал гайд мало обратил внимание на них
> Спасибо, приятно Всё таки ты реально охуенен анон, кстати приятно не тебе одному :3 лорка нормально натренилась и годно миксуется с концептами с форчка
>>98671 >Или я даун и нейронки работают не так? Нейронка в момент прожатия генерейта уже знает че она будет собирать из шума. Твоя задача подобрать болиелимение сильный сид и крутить потом варсид чтобы поверх сида ролить с нужной тебе комбинацией, на этапе варсида можешь менять промт, и чем выше цфг тем проще нароллить нужное (особенно когда существует CFG фикс теперь, на котором можно 30 CFG крутить не только на конском разрешении но и на микрописьках без бернинга)
>>99332 > вроде до этого всегда обрезали пикчи Скрипт китайца поддерживает бакетинг (что-то типа автоподстройки разрешения), поэтому кроп опционален > в этой вьювер мокропиське ты показал как это можно запилить по быстрому Возможно есть еще более удобный метод "квадратирования" изображений, в гайде по лоре 4-ый совет по сборке датасета, там другая мокрописька > Чет пока смотрел вот с этой херни аж в голос Да там на самом деле много годноты было. Интересно че если на всяком подобном говне натренить лору > они типо отвечают за кроп изображения resolution отвечает за бакетинг изображений и как бы по сути является разрешением тренировки. Больший resolution позволяет зацепить больше деталей + можно генерировать на большем разрешении > Алсо зачем фиксированный сид, это как-то важно для тренинга? Нет, просто я без скрипта который мне генерирует число, а вписать что-то надо :з
Ага, так вот к чему обосрамс с клипом выходит. Сегодня пытался на протогене сделать машину, пишу "car..." и описываю промт детально, в итоге генерю-генерю, и не понимаю чезаХ, вроде всё есть: джунгли на месте, дождь, лужи, туман, а машины-то нету!
ImportError: DLL load failed while importing _pywrap_tensorflow_internal: Файл подкачки слишком мал для завершения операции.
Да сколько ему надо то?! 16 оперативы и кэш 12 гигов. Или что-то подкрутить надо? Алсо, а на каком диске он его сжираем? На том где скрипт лежит или на системном?
>>99722 >Да сколько ему надо то?! 16 оперативы и кэш 12 гигов. Или что-то подкрутить надо? В автомат выстави подкачку. >На том где скрипт лежит или на системном? Файл подкачки лежит на системном.
вроде ахуенная лора на Эйрин вышла, модель уже немного знает про неё, так что лора идеально легла на модельку пик 1 - yagokoro eirin, touhou пик 2 - yagokoro eirin, touhou + LoRA Т.е. выдаёт её костюм даже без уточняющих тегов. Ни разу такой лоры не выходило.
>>99729 >Т.е. выдаёт её костюм даже без уточняющих тегов. Ни разу такой лоры не выходило. Возможно, тут дело в крайне простом дизайне самого перса. На какую-нибудь с Сейгу с её заколкой и шалью куда сложнее натренировать лору.
Да что за хуета, боже бля, я специально подбирал те пикчи, где эти триграммы правильно и их хорошо видать и в итоге все равно дерьмо... Пиздец, зато на других лорах повторяет рисунки на одежде хорошо. Я ебал, много тох оттренил, а свою вайфу не могу...
>>100048 > Мне со скоростью обучения играться? Ну как вариант. Ничего особо не остается. Правда я не знаю в какую сторону - на понижение или на повышение. Я бы наверное сперва понизил скорость обучения unet и увеличил длительность тренировки, чтобы сеть успела запомнить концепт, но не перегрелась. Также и обратное может в теории сработать - повышение скорости и уменьшение времени тренировки
>>100122 Хару конкретно не говорил. Но я давненько не заходил в его конфу На пике вероятно устаревшая инфа, как минимум потому что wd 1.4 основана на sd 2.1
Короче думаю надо переименоваться в Stable Diffusion ТЕХНОТРЕД Потому что вечно вижу вопросы в смежных тредах которые должны быть тут. Не знаю насколько сильно это поможет, просто есть мысли что не все кто заходят на доску понимают по заголовку что мы тут конкретно про sd говорим. Чё скажете?
Вопрос по теггингу для гиперсети (именно hypernetwork, не лоры): вот хочу я обучить персонажа допустим только внешку/вместе с одеждой, аксессуарами. Для первого случая мне в тэгах нужно указывать только имя, глаза, волосы и тп. А для второго ещё и промпты для одежды, я правильно понял как это работает? То есть если я не хочу, чтобы что-то на обучающей картинке не ассоциировалось с персонажем, это не нужно указывать? Или всё равно нужно, но просто не вызывать такой промпт при генерации.
>>100206 Не важно, лора или не лора, принцип везде один. Если ты хочешь внешку персонажа, кропай датасет чтобы было видно только лицо, теги соответственно тоже только про внешность лица. Если надо целиком с одёжкой, тогда не кропай и точно также тегай как и в первом случае, т.е. черты внешности и всю одежду, аксессуары. Есть еще вариант не прописывать детально например лицо, а придумать любой новый тег и протегать им все пикчи с персонажем где его лицо присутствует, тогда в промте ты сможешь вызвать внешку персонажа просто указав этот тег, не нужно будет детально описывать цвет и форму волос, глаз и т.д. Но в таком случае есть риск что пострадает редактируемость. Тоже самое касется не только лица, некоторые вообще персонажа тренят одним тегом, например его именем, и с помощью это магического тега вызывают его целиком вместе со всеми чертами и одеждой. Но я так не люблю делать, сильно пострадает редактируемость, т.е. поменять одежку будет проблематично а то и вообще невозможно, но если у тебя цель натренировать персонажа как он есть канонично и ты не планируешь в дальнейшем экспериментировать с его внешностью, то я бы так сделал, это и проще и быстрее и результат будет потенциально лучше.
Помимо лоры на табард перерабатываю оригинальный датасет при помощи той самой мокрописюхи, оказывается в половине случаев тега trigram не стояла, в части картинок триграммы были неправильные, все это поправлю и ещё попытаюсь.
>>100275 >Бля, в ней нельзя теги сохранить без кропа, а кропать я не хочу. Скопируй датасет, сделай все через прогу, а потом закинь пикчи обратно с заменой. Она их не переименовывает.
Пока тут в треде обучают лору, автоматизированную до нажатия трёх кнопок, я пытаюсь в KAIR. Документации или каких-то пояснений ноль. Тренировка с нуля работает, вопросов нет. Но как файнтюнить? Скармливаю netE и netG, так же даю ему дискриминатор, заранее подготовленный на 20к итерациях хотя пишут даже 5к достаточно. В итоге шумоподавление возрастает до неадекватных величин - на 100к уже дикое мыло. Хотя с нуля PSNR с такими же настройками нормально тренируется. Что за ебень?
Щас попробую лора текстуальную инверсию обучить через скрипт китайца вообще он японец А то че-то полистал цивит аи, так там такие крутые лица через инверсию получаются у людей. Даже не верится что эта хрень весит меньше мегабайта Кстати в оригинальном репозитории клона симы уже относительно давно есть опцию тренировки лоры совместно с текстуальной инверсией, типа еще лучше результаты. Но там такая убогая реализация кэпшенов (.txt файлы описаний не поддерживаются, только названия файлов) что я моментально забил. Надеюсь он исправит эту чудовищную ошибку и я благополучно свалю с кохъяскрипта
Я бы только попросил помощи у анонов которые тренили TI, объясните на пальцах по-русски что вписать в эти параметры чтобы вышло грамотно? (пикрел) Ну num_vectors_per_token в целом понятно, сколько токенов в промте будет занимать эмбединг А вот что с остальными? Меня сбивает с толку что их два. Одно слово должно быть уникальным (не должно присутствовать в токенайзере), другое - нет. Выручайте
>>100636 > Ты сравнивал? Нет, но учитывая скорость обучения лора сети по сравнению с гиперсетью делаю такой вывод. Тем более не будет же чел изобретать велосипед, правильно? Какие-то плюсы у его метода есть, и мне очень хочется проверить > Чел... Нормально ответить?
>>100649 Судя по тому, что ты вместо ответа на мой вопрос начал рекомендовать мне хуйню о которой я не просил, ты и обычный TI не юзал. Собсна нахуй было вообще что-то писать? > долбаёб Погоняло у тебя такое.
>>100654 У тебя погоняло погоняло, погоняло. >начал рекомендовать мне хуйню о которой я не просил Ложь. Я ничего тебе не рекомендовал, спросил просто, почему ты встроенным не пользуешься. В ответ ничего внятного не услышал.
>>100663 > Ложь. Окей, я неправ. > В ответ ничего внятного не услышал. Окей, сейчас услышишь. В скрипте, который я хочу заюзать есть такие вещи как бакетинг, клип скип, планировщик скорости, сохранение первых N токенов в файлах описаний и еще достаточно полезных функций, но о которых я не пишу потому что конкретно я ими еще не пользовался. Мне эти фичи привычны, я знаю как их применять и получать результат. Всего перечисленного в автоматике нет.
>>100673 >Всего перечисленного в автоматике нет. Ты давно вкладку трейна открывал чел? Буквально каждая тобою перечисленная опция в автоматике есть, кроме наверное первых токенов.
>>100673 Clip skip в настройках есть Планировщик скорости насколько сложный ты имеешь в виду? 1e-5:1000, 2e-5:2000 - первая тысяча шагов со скоростью 1е-5, вторая тысяча с 2е-5. Вот такое есть в автоматике. Или тебе нужно, чтобы функцией описывать можно было
>>100718 > Clip skip Это понятно что он есть, но действительно ли он работает как должен работать в случае обучения? Какая гарантия что этот ползунок не исключительно для генераций? > Или тебе нужно, чтобы функцией описывать можно было Да, привычнее просто cosine вбить >>100720 Автолахта спок
Были ли на гугл коллабе какие то вариации шедоу банов? Конечно все может обьясняться элементарно криво вставшими моделями и кривыми руками, а то и вообще ошибками восприятия но мне КАЖЕТСЯ, что на одном аккаунте у меня результаты генерации слишком глючат. Не худе лучше, а именно горы сбоев, черные картинки, месиво цветов, значительно худшее объективное качество. И это мой второй как бы фейковый акк, на тот который идет основным, такой хуйни нет.
>>100881 Там написано обучить VAE, если судить по архитектуре стейбол дифьюжен то это не все, это лишь один из компонентов. Но скорее всего у Muse другая архитектура. Так что да, остается походу ждать натренированную модель и гуй
А есть какие-нибудь таблицы сравнений, сколько при тренировке лоры n в названии папки ставить, в зависимости от количества пикч в датасете, их качества и тд? Если папка всего одна. Или так, примерно силой прочувствовать?
Кто-нибудь делал сравнение, какое значение gradient accumulation лучше использовать? У меня 3050, batch size выше 1 не запускает. Я пытался сравнить на датасете из 20 картинок. Ставил значения 1,5,20 при прочих равных. Выходило по-разному, не могу сказать что что-то лучше или хуже.
>>100978 Но стало получше, возможно, надо именно кропы табарда включать в датасет, чтобы модель понимала положение этих триграмм вообще. Но мне пока что лень, т.к. весь остальной котюм выдает правильно.
>>101086 Оно нормальное, но очень придирчиво к настройкам и датасету. На цивите охуенные эмбеды с актёрами повыкладывали, супермегаредактируемые, работающие с любой сд 1.х моделью. И я как увидел сразу полетел тестить, но датасет на жопиче говно потому что хайрез пиков с ним не существует в природе, соответственно шансы натренить нормальный эмбед нулевой
>>101100 > А как же апскейл? Бля, а что есть прям хорошие апскейлеры, которые могут восстановить детали на лице? Я не в курсе. Конечно бы проапскейлил, если б знал чем. Да и вообще инфа про апскейлеры в шапке бы пригодилась
>>101205 Я лоры не тренил, но тренил эмбеддинги. Я не тестировал, но подозреваю вот что: а) Модель должна уметь воспроизводить тот стиль, что на пикчах в датасете. Если модель это делает по умолчанию или в датасете вообще пики непосредственно с модели, то тегать в датасете стиль не нужно. Если модель умеет воспроизводить стиль, но для этого нужно прописать тег, то в датасете на соответствующих пикчах должен быть проставлен тег. б) Модель должна быть достаточно популярной, чтобы большая её часть находилась в популярных миксах. Пункт а) нужен, чтобы сеть усвоила концепт, а не стиль или ещё хуйню какую-нибудь.
>>101272 Я читаю, но он не про колаб, а вопросики нубасные все равно есть конкретно по колабу. Например вот эти две папки, я правильно понял что кропы с описанием кидатьв первую папку, а что во вторую?
>>101090 >На цивите восхитительные эмбеды с актёрами повыкладывали, супермегаредактируемые, работающие с любой сд 1.х моделью.
Так-так-так, то есть если некая ЕОТ постит селфачи в хорошем качестве в своих соцсеточках, то... сколько там надо лицефоток для тренинга инверсии? И как их готовить? А если есть лица не в 512х512, а в 768х768?
Кто-нибудь пробовал? Или там нужен одинаковый макияж, причёска, образ и вот это всё?..
Блядь, неужели нет нормальной мокрописьки чтобы пройтись по папкам с пикчами и создать текстовики с описаниями от BLIP'а? Пиздец, что не найду, одно нерабочее говно.
>>101484 Кароче, мердж стоэпошной джинксы с моделью базой вроде работает (характерные круглые серьги по тегу генерит), но очевидно надо дрочить тыщи эпох для уберточности для мерджа.
Анон который знает как тренировать лору, расскажи что делаю не так?
В гайдах пишут что в Instance Token пишется тег, который будет потом в промте включать натренерованный стиль или обьект. В Instance Prompt, Class Prompt, Sample Image Prompt - теги из .txt из датасета.
Но у меня после тренировки модель рисует натренерованные детали и стили сразу в любой промт даже без тега eyrt из поля Instance Token, т.е. датасет намазывается на всю модель.
Сам eyrt один в качестве промта может рисовать несвязанный с датасетом рандом.
Неясно, как задать активацию стиля в промте в txt2img на конкретный уникальный тег.
Вот например: по гайду из >>98807 сделать лору и чтобы при 1girl, standing - не рисовалась суйка или любые другие черты и стили из датасета, которые натренила лора а при 1girl, standing, ibs - рисовалась суйка или её черты и стили
>>101577 Так не получится, если теги > 1girl, standing есть в файлах описаний. Учитывая что 1girl скорее всего находится в каждом файле, сеть непременно будет ассоциировать внешность с персонажа с этим тегом.
>>101583 Бессмысленно проставлять тег 1girl в каждом файле. Нейронка не учится на тегах, она вообще не понимает что это такое, нейронка учится на различиях. Если бы у тебя была половина пикч с 1girl и другая половина с 1boy, нейронка бы прекрасно поняла как генерировать и то и другое, потому что она запомнила различия. Если ты хочешь один уникальный тег на вызов персонажа, убирай из всех файлов описаний общее и заменяй убранное на один придуманный тобой тег.
>>101589 > Если ты хочешь один уникальный тег на вызов персонажа, убирай из всех файлов описаний общее и заменяй убранное на один придуманный тобой тег.
Гипернетворки и эмбединги так и работали. Там была строка для ввода главного тега, и по нему потом они подтягивались в txt2img:
-сеть берет описание из файла, генерит картинку, ассоциируя ее с уникальным тегом. -сравнивает ее с картинкой с датасета: ---Если далеко - получает по башке. В следующий раз старается сделать иначе. ---Если близко - получает печеньку. В следующий раз старается сделать похоже. и т.д.
В результате по уникальному тегу оно включало натренерованные стили/обьекты.
А тут как оно будет генерить по описанию, чтобы сравнить, если описание - уникальный придуманный тег который не рисует по описанию, а рандом?
>>101598 Ой бля пиздец сложна. > сеть берет описание из файла, генерит картинку, ассоциируя ее с уникальным тегом. Это как? > А тут как оно будет генерить по описанию, чтобы сравнить, если описание - уникальный придуманный тег который не рисует по описанию, а рандом? Ваще пиздец не понял.
>>101643 Наверное нет такого понятия как "лучше" или "хуже". Видимо имплементация китайца ломает детерминированность. Когда батч делится на минибатчи они каждый раз рандомно перетасовываются и в такой последовательности идут на обновление градиента, соответственно ты никогда не сможешь воспроизвести одни и те же результаты даже на одном сиде. Я сегодня гуглил твою проблему, и такого типа быть не должно, такое случается только если обработка происходит параллельно, например на видеокарте и процессоре одновременно
Кароче 1000 эпох на 26 картинках перетрен вроде как. А теперь обисните лоре нужен огромный датасет или что с ней делать вообще? Она же юзлес получается - снижаешь влияние сосешь с похожестью, не снижаешь - сосешь из-за собранного датасета - все картинки получаются как датасет. Почему такой дроч на лору, если гиперы и эмбеды более гибкие?
>>101541 > детали и стили сразу в любой промт Да и на скрипте у меня такая же хрень. Что с токеном, что нет - рисует одинаково. Мне кажется это нормой и оно действует только тогда, когда у тебя несколько концептов. Например, несколько персонажей запихиваешь в одну лору. >>101678 Когда я обучал гиперсеть у меня точно такая же проблема была, как и на лоре. Скорее наоборот радовался, что она при силе 1 рисует как дата-сет, значит она смогла его запомнить, а не рисовать мешанину как в предыдущих 999 попытках.
Принимаете реквесты? Анон делал по реквесту лору Имари, хорошо получилось. У меня тоже маленький реквест, Reika Shinohira. Она хорошо заходит и для реализма, и для манга стиля. Если есть желающие, то позже скину хороший сет без полей, с чистым фоном, тегами и апскейлом.
Ну что анончики, тред полистал и так и не понял, с нетворк альфой разобрались? 1 в новых, равна диму для поведения старой версии и может поломаться, а что там с промежуточными вариантами, тестил кто?
Эх, вот бы кто завёз расширение чтобы можно было на лету использовать различные клипы и унеты как это реализовано с вае. Вообще эта фича должна быть реализована в автоматике. Мы такой хуйней занимаемся, это пиздец. Каждый раз качаем почти одинаковые модели, тоже самое с серверами, засираем хаггинфейс и цивит одним и тем же говном. Некоторые дебилы в 2023 году умудряются заливать 8 гигабайтные модели с ЕМА и с бесполезным fp32 Вот приведу пример. Скачал я пару дней назад Classic Negative SD 2.1-768. Но меня не устраивало, что почти стоковая SD 2.x модель занимает ровно столько же места, сколько и просто стоковая. Я подумал "попробую извлечь разницу между моделями, авось что выйдет". Расчехлил скрипт китайца. Достал лору. Результат нуууу... такой. С лорой получалось нечто среднее между Classic Negative и обычной моделью. Но суть не в этом. Когда я вытаскивал лору, скрипт сравнивал компоненты модели и выдал следующее: "Text encoder are the same, extracting UNet only" Я такой "ага млять". Пихаю классик негатив в тулкит и выясняю что и VAE от стоковой модели (на самом деле это вполне логично, никто VAE отдельно не тренирует и очень-очень зря, но это тема для другого разговора). Т.е. у меня две модели грубо говоря на две трети одинаковые и отличаются только UNet'ом. И нахуя мне это? Почему я не могу просто юзать SD 2.1, а потом на лету менять UNet? И это один пример из сотни.
Сколько лора может запоминать? Может ли одна лора запомнить, скажем, сразу несколько персонажей? Лучше ли обучать одну лору на нескольких персонажах или на каждого персонажа по одной лоре?
>>101941 >>101962 lr указан в названии, r1,r2,r3 - 5, 10 и 15 повторений пикч датасета, a1 - альфа 1, a32 - альфа 32 (дим 64), с лр 5e-3 последняя ломается. Хуй знает, так сложно судить, надо с другими тегами ее запустить, сделать на другого персонажа чтобы более отличался от того что модель уже знает, датасет разнообразнее.
>>102295 Трудно сказать. Еще нужно учитывать само количество пикч в датасете. Чем больше - тем меньше повторений. Чем меньше - тем больше повторений, но будь готов к тому что лора будет хуевая
Как же заебала эта хуесосина тупая. Даже код из другой репы не может скопировать нормально. Вместо "if params in pretrained_model.keys()" написал хуиту какую-то, а пользователь потом проверяй за ним и фикси этот кал.
>>102201 Хуй знает, если теги взять из другого файла и почистить то лучше. Точно можно сказать что лр 1e-3 для альфы в половину дима уже многоват, для альфы 1 и 5e-3 близок к верхней границе. По повторениям сказать сложно, понятно что 5 для такого датасета маловато, на 15 уже подсасывает детали костюма тем где он не вызывается и в негативах, но здесь еще проблема в однообразии, по опыту около 900 шагов на эпоху вполне прилично а тут уже на 500 начинает проскакивать. Кто-нибудь на высоких альфах на новой версии тренил?
>>102361 > Кто-нибудь на высоких альфах на новой версии тренил? Высокая альфа - это поведение старой версии, других отличий нет. У всех старых лор дим = альфе. Высокая альфа приводит к перетрену и ошибкам округления.
>>102367 > Высокая альфа - это поведение старой версии Альфа равная диму - поведение старой версии. > Высокая альфа приводит к перетрену и ошибкам округления. Именно высокая или равная диму? К перетрену она сама не приведет же, да и раньше все тренилось нормально, просто лр другой нужен. >>102381 6я там. Дальше 6-8 при нормальных настройках и для персонажа, обычно, идти смысла нет, пережиривается, детали начинают сливаться и прет хтонь. Твои пикчи тут удачно иллюстрируют (мутции, руки, изгибы на груди, волосы из костюма), но эффект офк слабый на фоне рандомайзера.
>>102402 > Именно высокая Любая выше чем единица уже потенциально может привести к проблемам. Точные числа я тебе не назову. Чем больше альфа - тем меньше контроля. > К перетрену она сама не приведет же Конечно же приведёт. Альфа нужна для масштабирования выходных весов и используется там в качестве числителя для множителя этих весов: входные веса * (альфа / дим) = выходные веса. Дим - это твой размер нетворка. Чем больше дим, тем большее количество параметров может хранить в себе сеть. --- Ахтунг! Дальше идут мои предположения. --- Если не пользоваться альфой для компенсации выходных весов или ставить такое значение что соотношение (альфа / дим) близко к единице (это больше касается высоких ранков, на низких ранках это не так сильно влияет), то это приведет к оверфиттингу, даже на больших датасетах. Допустим у тебя дим 128 и такая же альфа и ты натренил лору. Просто представь: диффузионная модель без лишнего мусора и с точностью fp16, натренированная на двух миллиардах изображений весит 2 гигабайта. И твои веса которые ты натренировал на всего лишь (условно) ~50 пикчах весят целых 150 мегабайт! Высокая альфа - это шорткат для ленивых и нетерпеливых. Я в оригинальном репозитории от клона симо по-моему ни разу не видел альфы выше чем единицы. Я видел только гриды с альфой меньше, вплоть до 0.2.
И вообще, с большим значением дима лора теряет несколько из своих главных приемуществ - размер и переносимость. Суть всей этой лоры что она тренирует лишь маленький процент параметров, в отличии например от дримбуза, который тренирует 100% параметров unet и TE. Поэтому она быстро обучается, мало весит и не так сильно влияет своими весами на веса исходной модели. Погуглите что такое catastrophic forgetting, дримбудка этим болеет
>>102427 Оче интересно но ничего не понятно, надо изучать. На форче на 16-32-64 приносили с довольно интересным результатом, потому интересно, ну и пример прошлых моделей актуальности не теряет, потому направление может быть интересным. Также и малые альфы. Жаль рандома много а критерии оценки часто субъективны, если есть идеи как лучше изучить - велкам. > Высокая альфа - это шорткат для ленивых и нетерпеливых. Так ведь рофел в том что она не дает ускорения обучения, количество шагов +- то же просто с меньшим лр. Сравнение размера моделей и количества пикч для тренировки здесь не актуально, теплое с мягким.
>>102034 >>102081 Потестил последний по счету файл с Orangemix abyss. Из минусов: - возвращается к дефолтному комбинезону даже когда по промпту его быть не должно, или налепляет неоны - не может в рейка-пупса (наверное потому что в сете не было пупсов)
>>102462 Это понятно, но вот как вчера мы с аноном рассуждали, а как сделать так чтобы тег 1girl не вызывал персонажа, чтобы персонаж вызывался только по уникальному токену? Ответ: на большой альфе - никак. Большая альфа слишком сильно модифицирует исходные знания модели, если присутствуют смежные теги в датасете. Если твоя цель просто быстро сделать персонажа и тебя не сильно волнует, что детали твоего персонажа будут проявляться на других персонажах, даже когда ты не вызываешь его явно через промт, то альфу можно хоть как по старинке делать равной диму. Но если ты хочешь сделать "качественную", маленькую и переносимую сеть, не приводящей к catastrophic forgetting подключаемой модели, то тут только альфа 1 или меньше и невысокий дим. >>102472 > На форче на 16-32-64 приносили У тебя не осталось? Интересно посмотреть. Я тоже пару тредов назад приносил и просто почувствовал себя наёбанным, когда узнал что необязательно ставить 128, хорошую сеть можно уместить и в 20 мегабайтах. > Сравнение размера моделей и количества пикч для тренировки здесь не актуально Это почему?
>>102234 >>102421 А зачем вы ставите такой большой batch_size? Правильно же понимаю что это умножение шагов на 8, в даннном случае, на эпоху? Разве от такого не должен пойти очень быстрый перетрен?
>>102478 Вот у этого анона лучше получилась >>102361 Вообще там наверное лучше не использовать последнюю эпоху, попробуй какую нибудь 8 ну или попроси анона поделиться.
Бля, я как допер окончательно до альфы аш загорелся сделать лору на единичке и с димом 4-8. Завтра наверное буду экспериментировать. Но нужен какой-то датасет хороший, не знаю какой взять. Есть идеи, анончики?
>>102507 > Это та же лора или другая? У него другая, он с другими параметрами тренил на твоем сете. > Даже не понял, какое у этого эмбеддинга уникальное слово и есть ли оно вообще, поэтому применял только теги. Я же положил туда пару пикч с промптами, там rk тег
>>102520 Скинь файл кто трейнил? Вроде даже лучше получилось, и со словом надо отдельно попробовать.
>>102521 Пользуюсь kaggle, но там другая среда (другая версия pytorch что ли) и плохо совместима с этим webui - половина расширений даже не отображается. Наверное надо быть прошаренным питонистом, чтобы всё настроить. Нашелся только вариант на китайском (без возможности сменить язык), где хотя бы подключаются лоры... Для колаба еще надо поискать работающий скрипт, + обрубает если не следить за вкладкой.
>>102530 > А влияет то это на что? Обучение становится медленнее, но все равно быстрее чем с батчем 1 потому что батчами обучать эффективнее > Шагов в итоге становится в 8 раз меньше Да. Сеть делит твой датасет на несколько групп и обучается на каждой группе целиком. У этого момента кстати вроде есть свои нюансы
>>102507 Другая же, интересно было сравнить результат с разными параметрами, но прояснилось не многое. Сет что выше выложен. Говори куда тебе залить и какие версии понравились, скину.
Так друзья, один маленький вопрос. Решил я значит лоркой заняться, под влиянием этой игры злоебучей. Но на чем мне божественную 808'рочку тренить? Видел фуриёбскую модель, но они один хуй все антропоморфные, нет? Или похуй, само натренится? Нужно ли теги ног на лапы менять? Передние - задние отдельно? Как вообще животному теги расставлять? Анатомия не проебётся?
>>102558 Кто-то говорит он "сглаживает" обучение (хуй знает что это значит), кто-то наоборот топит что нужно максимальный ставить. Я тоже за максимальный.
Кстати я вот всё думаю еще раз гайд переписать, но на этот раз сделать максимально грамотно, добавить что-то типа субтитров где я объясняю каждое действие зачем я это делаю и чтоб результат на выходе был отличный. Но это ссука всё сложна
>>102586 > еще раз гайд переписать Ты про то 40 минутное видео где братишка под тохомиксы неспешно создает папки, пишет в тредик, ждет скачивания пикч? Если хочешь сделать что-то полезное то вырежи 95%, оставь подготовку датасета на примере одной-двух пикч и не более минуты, настройки с комментариями что дают, как делать гриды лол и финальный результат. Все остальное не нужно если говорить мягко.
>>102599 > Ты про то 40 минутное видео где братишка под тохомиксы неспешно создает папки, пишет в тредик, ждет скачивания пикч? Я спросил в треде "нада?", ответили "пили!". Ну... я как бы по сути ничем никому не обязан. И таймкоды дал. Если делать лучше, это уже надо какие-то усилия прилагать. И я пока думаю стоит ли мне тратить время или нет. Тем более я не сказать что прям отец лор, далеко не всегда всё получается с первого раза, а это время + деньги.
>>102611 Чому ты так реагируешь, сам чтоли не смотрел что там? Сделал - молодец спору нет, что содержимое разбавлено непойми чем и малопригодно к просмотру - увы, а местные тебе сказать про это видимо постеснялись или им норм. > я пока думаю стоит ли мне тратить время или нет Просто включай запись когда делаешь что-то полезное-важное, показав один пример приостанавливай, продолжай на следующем этапе. Или если субтитры добавлять планируешь то это всегда лезть в видеоредактор, там и обрежешь лишнее. >>102489 > А зачем вы ставите такой большой batch_size? Лучше загружает видеокарту и заканчивает быстрее
>>102645 > Чому ты так реагируешь, сам чтоли не смотрел что там? Да нормально я отреагировал, я ж говорю что в курсе что много лишнего, никаких конкретных запросов от анонов не было, поэтому и сделал на своё усмотрение
Правильно я понимаю, что если картинки под лорой "пережаривает" и они становятся только на низких cfg(около 5), то это оверфит? Какие параметры обучения скручивать?
Попробовал пришить вместо родной модели CLIP 4-гиговую BERT от LAION, в итоге ни одного вменяемого изображения не получил - просто каша какая-то. Надо ещё и UNET тренировать под неё что ли? В обратную же сторону это работает без проблем - UNET любой для CLIP подходит.
>>102739 Во вопрос хороший, кто-нибудь сравнивал результаты с кропом пикч и со свалкой как есть, офк с чисткой текста, других персонажей и прочего? Простой автокроп для подготовки датасета есть в комплекте с webui ватоматика, на вкладке трейн
>>102738 Да нормальные скорости вроде. Если пережаривается, значит либо мало пикч в датасете, либо слишком долго обучаешь. Ах да, еще такое может быть если большая альфа и дим
>>102743 >кто-нибудь сравнивал результаты с кропом пикч и со свалкой как есть я похуист, у меня даже не чищенные изображения, получается то что хочеца в целом
>>102797 пока 200 эпох, May Thai, тренится только лицо из датасета в 18 картинок, максимум эпох 1к, настройки позже кину если кому надо влияние вне лица нулевое, можно выпромтовывать что угодно, в т.ч. тело
Сколько нужно памяти для обучения? Типа 8 гигов это мало? Или я что-то не так делаю? Обучаю в первый раз и оставил настройки из скрипта дефолтными, расставил только пути до папок и длину токена.
>>103097 Я пытался https://rentry.org/2chAI_LoRA_Dreambooth_guide читать, но там даже когда пишут про >Открыть скрипт любым текстовым редактором и изменить переменные вверху файла под свои нужды. Все переменные достаточно понятно прокоментированы, поэтому пройдёмся по не самым очевидным из них:
не пишут, какой из сотен скриптов то открыть и под нужды.
>>103098 Что делает число повторений? От чего зависит? И зачем оно в названии, а не в конфиге?
>>103104 > не пишут, какой из сотен скриптов то открыть и под нужды > Что делает число повторений? От чего зависит? И зачем оно в названии, а не в конфиге? Ну разуй ты глаза...
>>103104 >Что делает число повторений? От чего зависит? Эт не число повторений, а значение для скрипта у концепта, нужное чтобы если у етбя больше чем 1 концепт то скрипт исходя из значений брал из одного концепта столько-то, а из другого столько-то. То есть 1_penis и 2_penis - из второго концепта пенисов будет браться в джва раза больше данных.
>>103117 Бля, братан, если ты не видишь синенькую ссылку и не можешь прочитать что в скобочках написано, ну тут как бы ну, как это сказать, ну это, ну, полномочия мои, ну, собсна как бы получается всё. Как бы ну, не в моих силах, сам понимаешь.
>>103117 Поддвачну, за специфично-садистскую структуру описания в наи треде уже описано. >>103119 В папке, которую указываешь, внутри должна быть еще одна папка с именем 10_aa, где 10 это число повторений, и только в ней уже сами пикчи и текстовые файлы с тегами к ним. Выше тебе уже отписали, в гайде тоже про это есть, только после сразу идет описание для дримбуса которое сбивает. Если делать более аккуратно, то можно подобрать разные наборы пикч с топовыми мастерписями, кропнутым фейсом, общий вид и т.д. и с соответствующим числом повторений их забить.
>>103134 > специфично-садистскую структуру описания Да просто изначально в гайде не было про дримбуз расширение, потом другой анон вызвался помочь и получилась такая нелепая структура. И так оно по сей день. Ладно, если не лень будет, сегодня встану и сделаю по-человечески.
>>103135 Там предметно обозначено в чем проблемы и предложены варианты как поправить, на это как раз ровняться стоит, за остальное не скажу. >>103141 Да я без хейта и предъяв, просто оно увы так получается, главное не зейтить неофитов что попадаются в эту ловушку. Хотя после вот такого >>103126 можно и не мешать, дураков работа любит
>>103145 > Хотя после вот такого >>103126 можно и не мешать, дураков работа любит Проиграл
Да я не то чтобы хейчу, просто с каждым днём вопросы всё более нелепые, сначала обсуждали перетрен и грамотные настройки, а сегодня не можем вложить папку в папку. И задница горит люто. И вроде как гайд прочитало немало человек, но чем популярней становится лора, тем реже аноны делятся своими нетворками. Тоже горит.
>>103145 Я же выше написал >>103110, что сделал так. у меня в папке по указанным путям 1_edd папка и в ней уже картинки. Пробовал переименовать, все равно не находит ничего. Уже и в корень диска даже вытащить попробовал.
Про ссылку на скрипт конечно тупость получилась, но я бы и на сотый раз не додумался на неё кликнуть, и искал бы скрипт запуска в самом sd-scripts, ибо ну какой долбаеб будет давать тулзы и не давать батник или скрипт стартующий эти тулзы?
>>103159 Я планирую написать ретард гайд отдельно от основного. Где не будет опций сделать А или сделать Б, а чисто прямой путь до лоры. Допущу что текущий гайд не самый простой, плохо структурированный и возможно местами перегруженный.
>>103168 Покажи как выглядит структура. Картинкой. Я настаиваю.
>>103172 > Я планирую написать ретард гайд отдельно от основного. Норм, пили, сразу можно будет фидбек собрать и норм. >>103178 И ты, брут? А форчевский лаунчер тебе как? >>103168 > у меня в папке по указанным путям 1_edd папка и в ней уже картинки Скрин содержимого скрипта где указывается путь выложи
>>103186 Сам скрипт/гуи в котором указываются параметры, а он уже запускает sd-scripts >>103188 У тебя нужная структура в поддирректории edd_db а путь указан только до train_img. Ясен хуй оно не может найти то что ищет
>>103194 >>103196 Зайди в папочку где лежат папки 1_... и 2_..., нажми ctrl+L, скопируй и вставь в текст скрипта. Если не поможет - перенеси свою "edd_db" в корень, лол
>>103194 Кстати настройки крайне хуевые, лучше юзай скрипт, там по дефолту вроде нормальные. Дим 4 альфа 32 это вообще пиздец, боюсь представить что будет в итоге. Плюс защита от ретарда есть. Либо юзай мокропиську.
>>103200 В корень диска я уже переносил, тогда пути верные были, но это не помогло.
>>103203 Я настройки с суйки выше скопировал. Плюс у японца на сайте такие настройки по дефолту стоят и он пишет что выше не надо. Но мне бы хотя бы просто запустить эту хуйню...
>>103209 > Я настройки с суйки выше скопировал. Не такие настройки я юзал. Не может быть альфа выше чем дим. Японец рекомендует альфу в единичку. Почему питоновский скрипт не может найти папки я не понимаю. Пробелы в путях изображений?
>>103189 > А наш лаунчер вам как? Ахуителен, каждый раз проигрываю как бчб в начале сменяется триколором в конце, а при запуске следующего появляется обратно. >>103209 > тогда пути верные были Тут все на это оче похоже, еще оно не видит .jpeg, но у тебя расширения вроде верные. Скачай любой датасет что выше был и на нем попробуй, ну и учитывая букву диска - попробуй запустить локально если это какой нас.
>>103213 > Ахуителен :)))))) Но я не про него. В гайде под скриптом еще есть ссылка на заговнокоженый гуй. Попробуй его. Там всё для людей, и вкладки, и экспорт/импорт настроек и всё всё всё.
>>103194 Не знаю, исправили ли проблему, но раньше такое было, что скрипт не умел создавать папки. Создай пустые папки, которые прописал. То есть out, logs_gir Никогда не пробовал обучать на джепегах. Попробуй хоть один png вкинуть.
Это нормально что для обучения лоры надо убивать хром (миллиард вкладок) и автоматик1111? Аналогично для автоматика надо убивать хром и лору, для хрома убивать автоматик и лору? Памяти 64гб, врам 24гб
Доброе утро, тредные 800 постов осилить сложновато и прочитав шапку я так и не понял, когда что использовать вернее? Вот есть у меня модели, что все делают. Часть из них со своими особыми стилями, тот же самый диско элизиум. Хочу я обучить НЁХ на персонажа. Это правильнее делать гиперсетью, чтобы не херить стили? Ведь она же идет как надстройка к основной сети и по сути является декодером, как я понимаю. А если я хочу обучить НЁХ именно на стиль. Это уже лора или эмбеддинг? Эмбед же нужен если нужен шорткат, верно?
>>103421 В общем почекал еще на других моделях текущие 10 эпох. Вот оранж с 0.4 веса негативной лоры. Блядский гугл, в другой акк все переносить теперь для трени.
>>103543 Лучше бы анонам тренерам не стили пиздить, а потренить плохие ручки на разных скоростях. А што если еще сделать лору с хорошими руками и юзать в оппозиции к негативной? Есть датасет с норм руками?
Колаб из шапки https://colab.research.google.com/drive/1bFX0pZczeApeFadrz1AdOb5TDdet2U0Z как соотносится с указанным в гайде, где написано "21.01.2023 была поднята тема по поводу бага, вызывающего антипереполнение весов слоёв при обучении (значения весов, близкие к нулю округлялись до нуля). На момент обновления гайда баг пофикшен: был добавлен новый аргумент --network_alpha для предотвращения данного поведения." ? Какие настройки оптимальные ставить?
>>103569 > 1. сид может быть любым? Любым. Это сид > 2. какие параметры прямо влияют на скорость? Не понял вопроса >>103579 По-хорошему network_alpha должен быть 1. Но ты заебешься тренить, поэтому оставляй как есть. Скорость говно стоит. Для начала берешь 1e-4 для unet и 2e-5 для текст. энкодера и умонжаешь их на train_batch_size, вписываешь
В том месяце 700 рублей за электричество пришло, в этом 1100. А суммарно за хату 8800. Охуенно. >>103543 Щас попробую. Я не эксперт, поэтому что выйдет, то выйдет, и лучше бы кто-то знающий еще сделал. Кстати, все еще делаю лору по некопаре. Точно не знаю когда будет релиз от меня, ибо я решил сразу несколько неко в одной уместить и она будет где-то сутки обучатся.
>>103214 Не, он конечно юзер-френдли, но в таких вещах сонсолечка да текстовые инпуты привычнее и удобнее. Плюс за минуту пишется оснастка, которая делает серию с варьированием нужных параметров, копирует нужные эпохи к ватоматику, выдает параметры для тестовых гридов и т.д. Народ на гуи не жалуется значит норм >>103597 > кратно увеличивает скорость тренировки Если по времени судить то 8 по сравнению с 1 справляются быстрее в 2 раза, оно впринципе видно по потреблению карты (140 и 300 вместо 500, оптимизация нахуй), что там по скорости сходимости и качеству тренировки вопрос сложнее. >>103741 Скидывай
>>103761 Маленькая выборка, по этому сравнению могу сказать что изменений нет, даже в чем-то хуже (нет ногтей), а лишний палец слева спишу на погрешность. Я без негатива, ты уж нормально пойми > loss 0.05 Ух бля, будем надеятся что это не оверфит :) Не уверен что настолько маленький лосс это хорошо
>>103765 >Маленькая выборка Я дохера тестов начикал уже, и ваще выше писал что влияние на модели мизерное и на прошлой трене было. >даже в чем-то хуже (нет ногтей) Да ногти поебать, они теряются и так на 512 разрешении без динамик трещелдинга (я его выкл), главное что слева бабская рука, справа детская. >а лишний палец слева спишу на погрешность. Ну тащемта это не погрешность иксформерса, а реально лишний палец, на похожих картинках с капом в такой позе постоянно такое.
>>103761 Сделай грид на десяток вариантов хотябы, ну и модель скидывай. А так левый вариант поправить легко и выглядит естественнее, на правом более коряво >>103765 > Ух бля, будем надеятся что это не оверфит На таком примере вообще сложно что-то оценивать и хз понимает ли сеть чему ее учат
>>103798 > Предлагай как проверять. Персонаж клозап на простом фоне как здесь, персонаж фуллбади, фуллбади на пестром фоне, то же но со взаимодействием (что-то держит, делает жест и т.д.). По нескольку вариантов с/без в разрешении хотыбя 720п где уже можно судить.
>>103867 Во-первых, >>103825 (OP) Во-вторых, умножай ЛРы на твой батч сайз, т.е. на 5. >>103867 > датасет из 380 картинок примерно Если у тебя такой большой датасет, попробуй для начала сделать 10 повторений на пикчу, поставь 10 эпох. Это будет 380 / 5 * 10 = 760 шагов, смотри что получится, корректируй в зависимости от результата. Телепатов нет. Универсального рецепта тоже. Необходимые настройки нащупываются путём проб и ошибок, с опытом ты будешь с первого раза более точно определять что примерно нужно ставить. Главное не допусти главную ошибку новичка - много не равно хорошо. Лора моментально перетренировывается, это достаточно быстрый метод обучения.
>>102098 !unzip ... Или как-то так. Стэковерфлоу знает ответ на твой вопрос, или проблемы с инглишем? Восклицательный знак в начале строки означает, что строка не на питоне, а на баше.
Пытаюсь потренить рожи, но лора портит и упрощает и остальные части тела и фоны, треню на Any4.0 Какие есть методы для трени только рожи, но чтобы не портило и остальное?
ИТТ делимся результатами обучения, советами, лайфхаками, наблюдениями, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем
Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
➤ Гайды по обучению
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ Текстуальная инверсия (Textual inversion) может подойти, если сеть уже умеет рисовать что-то похожее:
https://rentry.org/textard (англ.)
✱ Гиперсеть (Hypernetwork) может подойти, если она этого делать не умеет; позволяет добавить более существенные изменения в существующую модель, но тренируется медленнее:
https://rentry.org/hypernetwork4dumdums (англ.)
✱ Dreambooth – выбор 24 Гб VRAM-бояр. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://github.com/nitrosocke/dreambooth-training-guide (англ.)
✱ LoRA – "легковесный Dreambooth" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением:
https://rentry.org/2chAI_LoRA_Dreambooth_guide
✱ Text-to-image fine-tuning для Nvidia A100/Tesla V100-бояр:
https://keras.io/examples/generative/finetune_stable_diffusion/ (англ.)
Бонус. ✱ Text-to-image fine-tuning для 24 Гб VRAM:
https://rentry.org/informal-training-guide (англ.)
➤ Гугл колабы
﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA [1] https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-trainer.ipynb
﹡LoRA [2] https://colab.research.google.com/drive/1bFX0pZczeApeFadrz1AdOb5TDdet2U0Z
➤ Полезное
Гайд по фиксу сломанных моделей: https://rentry.co/clipfix (англ.)
Расширение WebUI для проверки "сломаных" тензоров модели: https://github.com/iiiytn1k/sd-webui-check-tensors
Гайд по кручению весов слоев моделей: https://rentry.org/mp2dt
Гайд по апскейлу: https://rentry.org/SD_upscale
Подборка мокрописек от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)
Коллекция лор от анонов: https://rentry.org/2chAI_LoRA (заливать лоры можно сюда https://technothread.space/ пароль 2ch)
Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/gayshit/makesomefuckingporn
Сервер анона с моделями: https://static.nas1.gl.arkprojects.space/stable-diff/
Шапка: https://rentry.org/ex947
Прошлые треды:
№1 https://arhivach.ng/thread/859827/
№2 https://arhivach.ng/thread/860317/
№3 https://arhivach.ng/thread/861387/