24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Технотред тестовый (№1) ОБУЧЕНИЕ Существующую модель можно обучить симулировать определенный стиль /tech/
Что хорошо бы добавить: 1) Как с умом крутить веса модели (см. картинка в шапку 2) 2) Корректная формулировка для защиты от вахтера. Обучаем всему, чему считаем нужным (в рамках правил сайта), делимся результатами. База: https://c2n.me/4hCvXLF.jpg https://c2n.me/4hCvX2Y.jpg 3) Мокрописьки для создания датасетов - грабберы, таггеры
наиболее действенные как по мне это смуфстепы/реверс смуфстепы, *4 либо /4, либо полный флат 0.5 весов уровня пика, где енкодер основной тоже по половинке берется от каждой модели
еще там запили форс резет клип позиций кстати недавно и сохранение в тензоры
>>63553 (OP) Сразу вопрос годному треду, какие слои тринарта и дерриды отвечают за стили художников? Ну и вообще делитесь своими знаниями по дебаггингу при мердже моделек
Закатился, залью фурслат, как просил анон: >>63344 → >Вопрос, что за Furslut_v1 юзал тут анон? Это своя собственная кастомка или её скачать где можно, или же это hypernetworks какой?
https://gofile.io/d/IWi4rh Есть еще куча его версий, но их долью, как тред с колен встанет на ноги, чтобы это не был филиал фур. Напоминаю, что генерации ради генераций с него сюда лить не нужно. Либо иди с ними в интернеты, либо в загон на фур, либо срать по доске и ловить бан от мочи.
>>63574 → >>63572 → Скорее всего неиронично (лол бля) найдут. Скорее всего с кешем на nvme под горячие данные датасетов. Им же не весь chat openai обслуживать, а только себя, могут и подождать ответа пол минуты.
>>63594 >Чем лучше мерджера в вебуи? отсутствием дисторсий очевидно из минусов разве что что на некроговняных картах с малым количеством памяти не мерджит, в отличие от вебуи
Что думаете про возможную text-to-video модель на базе Stable Diffusion? Я говорю не про перетекание одной позиции в другую. А буквально брать следующий или предыдущий кадр из латентного пространства. И "чувство времени". Примерно как в CogVideo.
>>63606 Есть сравнение? Первый раз просто про них услышал. >на некроговняных картах с малым количеством памяти не мерджит, в отличие от вебуи Там тоже с этим проблемы вроде, аноны с бич картами воют.
>>63614 >следующий или предыдущий кадр из латентного пространства Так у них связности нет. Это же рандомогенератор. Это надо искать похожие сиды, а это в свою очередь - брутфорс, причем дорогой.
>>63583 Можешь объяснить простыми словами как вот эти веса слоёв работают примерно? Вот у тебя на скрине например это если бы к модели А прибавили модель Б 0.5+0.5 через стандартную мерджилку или чем то отличается? Алсо что за base alpha и как понять куда её лучше крутить?
>>63553 (OP) >Мокрописьки для создания датасетов - грабберы, таггеры Booru grabber, если нужен кастомный датасет и неохота ебаться с danbooru2020. Еще есть скрипт для авто-загрузки полноразмерных изображений из Bing по листу запросов. Например, по сто пикч по результатам каждой линии. Была даже годная прога чтобы отсеивать дубликаты. Captions создаются известно чем: clip или blip.
>>63616 >Так у них связности нет В текущей реализации SD ее нет. Если бы была, то и поднимать вопрос было незачем. Просто я не изучал эту архитектуру, поэтому интересно, какой у нее задел для доработки.
>>63627 Максимум - дрочить variation seed или обучать по аддону на каждого субъекта видео, чтобы его можно было крутить стабильно. С фоном вопрос отдельный.
>>63634 Ну опять же - для витуберов же делают модели, они же тоже не из воздуха берутся. Так и тут - надрачиваешь лору так, чтобы она вообще нахуй забыла про других персонажей и пол дела сделано считай.
>>63639 Ну да, а тут ты герерируешь сначала 5 пикч персонажа, а потом из него лору. >>63643 >Артефакты в динамике это пиздец. Я не видел, чтобы кто-то пробовал с лорой на персонажа совмещать. С портреткой оно должно справиться, я думаю...
Олсо, если есть идеи о том, что можно или нужно для треда развернуть, типа условную файло- или пастопомойку - пишите предложения, есть на чем. Насчет файлопомойки есть сомнения, что туда не будут лить ЦП и прочую ботву, но в целом есть о чем подумать.
>>63671 > туда-сюда возить А, т.е ты пиктчу с 4мя информационными блоками и размером в 3510x2910 пытался читать не "возя"? Ебать ты техномант, конечно.
Если упрощать то это блоки инпута (IN), срединных значений (M00), и аутпута (OUT) для каждой модели, каждый блок содержит кластеры датасетов конкретной модели для построения изображения, соответственно зная что находится в каждом блоке мы можем балансить мердж в сторону одной из моделей. Допустим примешать в модель А бодикомпоз из модели Б, не меняя остального.
>Вот у тебя на скрине например это если бы к модели А прибавили модель Б 0.5+0.5 через стандартную мерджилку или чем то отличается? Ничем не отличается конкретно на скрине, ибо я там в описании ошибся, против с загрузкой пресета с полным аналогом 0.5 вейтедсум, правильнее было бы написать "либо полный флат 0.5 весов уровня пика, где енкодер base_alpha берется от модели А". То есть чтобы было понятно: пик2 - бейз енкодер 0.5 через плагин весов с 0.5, пик3 обычный вейтед сум, пик4 - бейз енкодер от анимушной модели А. Следующим постом кину базовую анимушную модель без примесей. Все настройки одинаковые
>Алсо что за base alpha и как понять куда её лучше крутить? Это базовый текстовый енкодер модели, обычно его оставляют жестко в положении положении 0 или 1, чтобы брался енкодер базовой модели или модели Б. Конкретно на пике1 бейз 0 это bw-merge2-2-2, бейз 1 это bw-merge1-2-2, там с линейными функциями смешивания правда но не суть.
>>63553 (OP) Касаемо второй пикчи в шапке, я не уверен что смогу перевести достоверно имбо не пользовался этим расширением. Не знаю что за что отвечает.
>>63731 > Если упрощать то это блоки инпута (IN), срединных значений (M00), и аутпута (OUT) для каждой модели, каждый блок содержит кластеры датасетов конкретной модели для построения изображения, соответственно зная что находится в каждом блоке мы можем балансить мердж в сторону одной из моделей. Допустим примешать в модель А бодикомпоз из модели Б, не меняя остального.
Это я уже понимаю, не понимаю только как эффективнее всего искать нужные слои и сколько примешивать, относительно обычных миксов, по типу налить 0.2 к модели через вейтед сум, тут получается столько же с уже найденными слоями или можно даже больше?
> Ничем не отличается конкретно на скрине, ибо я там в описании ошибся, против с загрузкой пресета с полным аналогом 0.5 вейтедсум, правильнее было бы написать "либо полный флат 0.5 весов уровня пика, где енкодер base_alpha берется от модели А". То есть чтобы было понятно: пик2 - бейз енкодер 0.5 через плагин весов с 0.5, пик3 обычный вейтед сум, пик4 - бейз енкодер от анимушной модели А. Следующим постом кину базовую анимушную модель без примесей. Все настройки одинаковые
То-есть, перефразируя на более нубский язык. Weighted sum 0.5 из стандартной мерджилки = скрин >>63583. Бейз энкодер = бейз альфа. Этот бейз энкодер, судя по твоему пику влияет очень сильно на будущий микс и нужно его ставить с умом. Надеюсь правильно понял, что на пике 1 идёт сначала ws sd1.5_0.5+wd1.3_0.5. Потом флат 0.5 с базой 1, после 0. Соответственно и результат уклоняется либо в реализм, либо в аниме.
А вот это > bw-merge2-2-2 будь добр расшифруй, вообще не понятно такое обозначение. Block-weighted-merge? Почему 2-2-2, 1-2-2?
>>63800 >не понимаю только как эффективнее всего искать нужные слои и сколько примешивать Ну я делаю так - беру слой и мешаю три микса 0, 0.5, 1, потом сравниваю на одном и том же промпте. Выбираю два лучших значения и мешаю доп микс со срединным значением между ними. И так далее пока перфект поинт не нахожу. Далее записываю положение этого блока в блокнот и делаю следующий. Когда со всеми закончил, то просто вписываю значения перфект поинтов и мерджу финальную версию. >Weighted sum 0.5 из стандартной мерджилки = скрин >>63583 (You) Да >Бейз энкодер = бейз альфа Да >Надеюсь правильно понял, что на пике 1 идёт сначала ws sd1.5_0.5+wd1.3_0.5. Это просто базовые модели, от сд дефолт и вайфу дифужн. >Потом флат 0.5 с базой 1, после 0. Третья строка - вейтед сум 0.5 обычный, четвертая строка плагин весов - линейная функция на пик1 плюс бейз альфа 1 (не вейтедсумная 0.5), пятая строка плагин весов - линейная функция пик 2 плюс бейз альфа 0
>будь добр расшифруй, вообще не понятно такое обозначение. Block-weighted-merge? Да
>>63616 >Есть сравнение? Первый раз просто про них услышал. ну вот примерно так как на пике 1, бефор - с дисторсией, афтер - после применения Skip/Reset CLIP position_ids (аналог функции из софтины внутри мерджера весов)
smile woman sleepy Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 1538003301, Face restoration: CodeFormer, Size: 512x512
>аноны с бич картами воют. У меня на 3 гига карте внутри вебуи мерджит норм.
>>63591 >тут уже каждый решает что для него лучше - нету дисторсий или файнтюнинг весов если кто не понял моей кривой формулировки, имелось в виду хотите ли вы играться с весами - если нет, то просто через софтину можете дрочить базовые мерджи без дисторсий, если надо веса еще крутит, то только через плагин https://github.com/bbc-mc/sdweb-merge-block-weighted-gui
>>63907 > Ну я делаю так - беру слой и мешаю три микса 0, 0.5, 1, потом сравниваю на одном и том же промпте. Выбираю два лучших значения и мешаю доп микс со срединным значением между ними. И так далее пока перфект поинт не нахожу. Далее записываю положение этого блока в блокнот и делаю следующий. Когда со всеми закончил, то просто вписываю значения перфект поинтов и мерджу финальную версию. И сколько же времени уходит на подбор всех слоёв хотя бы для двух моделек в среднем?
> Это просто базовые модели, от сд дефолт и вайфу дифужн. Да, я просто не стал про них писать, сразу с 3 строки начал.
> четвертая строка плагин весов - линейная функция на пик1 плюс бейз альфа 1 (не вейтедсумная 0.5), > пятая строка плагин весов - линейная функция пик 2 плюс бейз альфа 0
Это одна и та же функция, просто инвертированная под бейз альфу другой модели?
Откуда кстати это всё? С того самого форума чтоли?
Алсо как ты понимаешь мелкие отличия в слоях на таком маленьком разрешении? Там же буквально всё расплывается
>>63999 >И сколько же времени уходит на подбор всех слоёв хотя бы для двух моделек в среднем? Дохуя, зато по итогу перфект мердж выходит, с которым можно потом подмешивать уже не на всем протяжении от 0 до 1 а только от 0 до 0.5 >Это одна и та же функция, просто инвертированная под бейз альфу другой модели? Да >Откуда кстати это всё? Ты не поверишь... Из ридми плагина. >С того самого форума чтоли? С того самого форума ток картинка из шапки с примерным содержимым блоков. >Алсо как ты понимаешь мелкие отличия в слоях на таком маленьком разрешении? Я обычно в базовом квадрате рендерю 768 на 768, это база, больше и не нужно в целом. >Там же буквально всё расплывается Да вроде нет
>>63907 >беру слой и мешаю три микса 0, 0.5, 1 поправка: 3 микса при значениях весов по дефолту на 0.5, если мешать прям с нулевым значением весов во всех блоках, то смысл рендера 0 пропадает мне просто удобнее с 0.5 изначально работать, более наглядные изменения происходят от 50% мерджа
>>64019 > Дохуя, зато по итогу перфект мердж выходит, с которым можно потом подмешивать уже не на всем протяжении от 0 до 1 а только от 0 до 0.5 Вот тут не понял, такой мердж уже не нуждается в дальнейшем кручении слоёв от 0 до 1 с другой моделью типо?
> Ты не поверишь... Из ридми плагина. Вот это я слепой, лол.
>>Я обычно в базовом квадрате рендерю 768 на 768, это база, больше и не нужно в целом. Просто по твоим примерам не особо понятно что там с чем мерджилось и какой эффект дало, ну боди композ, как я понял, в ридми прям более показательный пример получился с сд и вд для ньюфагов как я.
Кстати вот здесь >>63731 у ws0.5 и флат 0.5 со скрина разные хеши моделей в названиях картинок получились, но результаты одинаковые, это как так?
> поправка: 3 микса при значениях весов по дефолту на 0.5, если мешать прям с нулевым значением весов во всех блоках, то смысл рендера 0 пропадает мне просто удобнее с 0.5 изначально работать, более наглядные изменения происходят от 50% мерджа
Только больше запутался, как на пиках с in00 слоем ты имеешь ввиду типо?
>>64077 Да. Боялся что из-за сильно различающейся рисовки между пиками датасета будут проблемы, но проблем почти нет. Единственное что дорисовывает слева у челки второй хвост и мне это не очень нравится.
>>64084 >такой мердж уже не нуждается в дальнейшем кручении слоёв от 0 до 1 с другой моделью типо? Вообще зависит от того что с чем мерджить конечно, но в целом да, место внутри модели ограничено так скажем, поэтому если ты опять будешь подмешивать на всем протяжении от 0 до 100 процентов с каждой последующей итерацией, то есть вероятность сильно поломать свой перфект мердж и в конечном итоге его размоет сильно, будет капустка по сути. Но опять же все индивидуально, в некоторых случаях можно блоки полностью менять типа как GapingLargeInsertion-60_MedConcept+MedTextures_Anime 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.05,0.05,0.05,0.05,0.65,0.65,1,0,0,0,1
>Просто по твоим примерам не особо понятно что там с чем мерджилось и какой эффект дало Прикрепил пик1 подмешиваемой модели на тех же настройках. Расположил в порядке от примешиваемой до базовой, пик2 вейтедсум, пик3 вейтедсум бейз0.
>у ws0.5 и флат 0.5 со скрина разные хеши моделей в названиях картинок получились, но результаты одинаковые, это как так? Изза бейз альфы, в одном случае 0, в другом 0.5
>Только больше запутался, как на пиках с in00 слоем ты имеешь ввиду типо? Да, именно так, ток бейз альфу в 0 увожу. Когда перфект поинты весов есть можно отдельно бейзальфу крутануть ради интереса.
>>64127 > GapingLargeInsertion-60_MedConcept+MedTextures_Anime 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.05,0.05,0.05,0.05,0.65,0.65,1,0,0,0,1 Это так гейпинг-аниме чтоли получился какой-то? Лол
> будет капустка по сути Что-то прямо хихикнул, это ты про модель капустную? Что с ней прямо не так то?
> Прикрепил пик1 подмешиваемой модели на тех же настройках. Расположил в порядке от примешиваемой до базовой, пик2 вейтедсум, пик3 вейтедсум бейз0. А бейз1 прикпепишь?
> А не, напиздел. Из-за пикрелейтед фикса дисторсий. Если none поставить тот же хеш будет? Что вообще за фикс дисторсий, когда и для чего его применять? Опять же ноль отличий на этих примерах с ним и без >>63731
>>64180 Есть предположение, что лоры превратят стейбл в индастриалкрафт: надо будет еще больше возица с настройками (жду расширение максимального кол-ва лор до бесконечного, регулир. пользователем), так как станет возможной генерация еще более качественных и тематических картинок...
Анон, который гайд по лоре делал, добавь уточнение к настройкам граббера что там после второго карета пробел идет "%all:unsafe,separator=^,^ %", а то щас перепечатал со скрина без пробела да слепой, и пришлось в документацию лезь, и только потом снизошло озарение почему не работает и нахуя там второй карет нужен.
Потестировал эту новую модель "горыныч" (без vae), опубликованную в NAI треде, и напишу фидбэк.
Из плюсов - приятность, мультяшность в хорошем смысле: напоминает про концепты игр от Katauri (King's Bounty и Royal Quest), а также графику города в оригинальном "Эадор", или графику в старых российских браузерках (Легенда: Наследие Драконов). Чёткие мазки кистью для задников, а-ля яркая акварель. В общем, чувствуется что-то русское. Вот эта вот красочность, щедрость русской души. Местами даже ощущается некая "совковость", будто советский детский мульт с лоли-пионерками. Из минусов: зачастую модель не может определиться, реалистичный ли нужен стиль, или мультяшный. И делает гибридную серость, ни рыба ни мясо. Приходится уточнять, например, тегом "pixiv", и все равно получается разнобой в стилях. Иногда пикчи обрезаны по диагонали, будто хуевый кроп в датасете. Количеством деталей результаты не блещут, тут скорее как графика в мобильных играх (Clash of Clans). Не знаю, не фанат. Нравится чтобы стиль был как в китайской графике а-ля huaban, weibo. Чтоб детали были настолько изощренными, что мельчайшие из них терялись в пикселях и были меньше одного пикселя, будто это фрактал. Ruan Jia, Guangjian Huang и Fenghua Zhong - лучшие художники, имхо. https://w0.peakpx.com/wallpaper/733/763/HD-wallpaper-cat-girl-luminos-girl-ruan-jia-face-cat-gorgeous-art-frumusete-superb-cute-pisici.jpg Так что комьюнити на bilibili рулит, да и восточная изобразительная культура в целом.
>>64188 >Это так гейпинг-аниме чтоли получился какой-то? Лол Не, тут типа пример как текстурки в оригинальной гейпинг модели подмешали на онемешные текстурки из другой аниме модельки с полной заменой блока.
Есть более нежный пример пример:
Есть модель фотореальных пёзд AIroticArt-SVulva, она типа оче сильная сама по себе и имеет другую конфигурацию блоков (читшит с оппоста не подходит) нежели комплексные модели. Берем Bstaber или Bastard, суем в модель А, свульву в модель Б, ставим alpha 0 (тут пик1 спамфильтр не пустил) Теперь у нас есть еще более реалистичные пёзды.
>Что-то прямо хихикнул, это ты про модель капустную? Не, чисто капуста как слово, всего навалено, изначальный микс где-то отзвуками отдается имею в виду.
>А бейз1 прикпепишь? Надо смерджить сначала лол. Попозже.
>Если none поставить тот же хеш будет? Возможно, не проверял.
>Что вообще за фикс дисторсий, когда и для чего его применять? Вот тут >>63953 видно, что с дисторсией модель не реагирует на чанк со smile, собственно это вот и есть дисторсия, когда на чанк не реагирует и руинит твой промт.
>Опять же ноль отличий на этих примерах с ним и без Ну тут несколько вариантов почему 0 отличий: а) дисторсия не случилась, но она может случится на любом этапе мерджа б) промт не вызвал дисторсию в) модели изначально не имели тензорного значения с дисторсией перед мерджем
>>64266 Так а нахуя подписывать эмбеддингом-то? Это собьет с толку. На пике с жопичем примитивно показан процесс токенизации промта и передача его в unet. Текстуальная инверсия тут не причём, а ведь именно к ней обычно применяют это слово.
И вообще эти картинки чисто для эстетики и краткого понимания. Человек если заинтересуется, нырнёт сёрфить интернет. Тут не про научные работы тред, хотя никто не запрещает.
>>64226 > она типа оче сильная сама по себе и имеет другую конфигурацию блоков (читшит с оппоста не подходит) нежели комплексные модели А на много ли моделек этот читшит вообще впринципе подойдёт? Я читал на том форуме, этот пик это что-то усредненное по 5(вроде) моделям, где что находилось в них, но это же вовсе не означает что в нужной модельке это будет лежать там же.
> Вот тут >>63953 видно, что с дисторсией модель не реагирует на чанк со smile, собственно это вот и есть дисторсия, когда на чанк не реагирует и руинит твой промт. Да кто такой этот ваш дисторсия и нахуя она нужна если просто руинит промпты?
>>64143 Алсо с какой именно галкой она выключена/включена? None = выключена, Force reset = включена?
>>64277 Это как раз-таки с толку не собьет, а поможет понять, на каком этапе работы нейросети вообще появляется эффект от результатов textual inversion, несмотря на то что как таковой её на пике нет. >>64289 Ну тут и правда не очень правильный пример получился, но тем не менее, там всё понятно что за что отвечает.
Алсо интересно было бы увидеть такой же график, но для img2img, по сути там же ничего не поменяется кроме кодирования через кодировщик vae в latent и накидывания шума или я фундаментально ошибаюсь по поводу работы img2img?
>>64361 >Это как раз-таки с толку не собьет Да лень пиздец. >img2img Берется изображение, размывается по гауссу я так понял (denoising strength 0.0-1.0), vae кодирует в латент, потом по кругу семплирование n шагов, vae декодирует обратно. Шум там подмешивается или нет хуй знает, на превью вроде не видно.
>>64361 >а поможет понять, на каком этапе работы нейросети вообще появляется эффект от результатов textual inversion Да и плюс на первом пике с типами тренировок вроде достаточно понятно показано, что ti пихается на этапе токенизации промта, направляя своим весом unet в нужную сторону. Как магическое супер слово.
>>64288 >А на много ли моделек этот читшит вообще впринципе подойдёт? Я читал на том форуме, этот пик это что-то усредненное по 5(вроде) моделям, где что находилось в них, но это же вовсе не означает что в нужной модельке это будет лежать там же. Там конкретно эти модели Futanari-v2-e3 GapingLargeInsertion-60 ZeipherFN-f222 Airoticart-Penflac-Penerec
А ф222 почти в каждый микс суется, поэтому в целом можно считать что к любой модели должно подходить болиелимение.
>Да кто такой этот ваш дисторсия и нахуя она нужна если просто руинит промпты? Это рандом ошибка вываливающаяся при мердже, This is an int64 tensor that has the values from 0 to 76, merging will convert these to float and introduce errors. For example in AnythingV3 the value 76 has become 75.9975, which is cast back to int64 when loaded by the webui, resulting in 75
>Алсо с какой именно галкой она выключена/включена? None = выключена, Force reset = включена?
Нет: ничего не делать (тот же метод расчета, что и раньше) Пропустить: пропустить вычисление целевого ключа Принудительный сброс: перезапишите в целое число, как в сценарии модификации
Вот полный японский гайд https://note.com/bbcmc/n/n12c05bf109cc , там я переводчиком посидел и конкретно про ФИКС ПРИНУЖДЕНИЯ написано вот отсюда на пике, так что я выбираю форс резет для ПРИНУДИТЕЛЬНОЙ ПЕРЕЗАПИСИ и всё.
>>64405 > Это рандом ошибка вываливающаяся при мердже, > This is an int64 tensor that has the values from 0 to 76, merging will convert these to float and introduce errors. For example in AnythingV3 the value 76 has become 75.9975, which is cast back to int64 when loaded by the webui, resulting in 75
Обычная мерджилка мне такую никогда не выдавала, иногда только памяти не хватало судя по еррору, если бстабер с чем-то миксить. Это с последними обновлениями такие приколы, или чисто фича актуальная для этой мерджилки по блокам?
Я не понимаю почему созданные мной Textual Inversion выглядят как полный КАЛ Потыкал вроде все что есть но результат один Объясните как создавать пиздатые TI для аниме моделек и не сойти с ума от безумия (прикрепил свои результаты) ((для обучения использовал 8 изображений)) (((делаю это все в webui колабе)))
>>64441 >Обычная мерджилка мне такую никогда не выдавала Так она не выдает ее в командной строке, это надо тензоры в готовой модельке ковырять и смотреть какие там значения, типа норм значения пикрел 1, а там вполне может быть шизофрения руинящая промты пикрел 2.
> или чисто фича актуальная для этой мерджилки по блокам? Дисторсии на базовой мерджилке всегда были, их вот этим форс резетом пофиксили просто, наглядная анимация пик3.
Кто-нибудь понимает чем принципиально отличаются img2img от хай рез фикса? Ну если с img2img мы разобрались, то в чём прикол хай реза? Что за крутые алгоритмы интерполирования изображения типа Latent? Очень интересно.
>>64448 > Так она не выдает ее в командной строке, это надо тензоры в готовой модельке ковырять и смотреть какие там значения, типа норм значения пикрел 1, а там вполне может быть шизофрения руинящая промты пикрел 2. > Дисторсии на базовой мерджилке всегда были, их вот этим форс резетом пофиксили просто, наглядная анимация пик3.
Wait a minute... То-есть всё это время разнообразные yoba-boba-super-vasyan228 миксы могли иметь такой огромный недочёт и не реагировать на определённые теги, ну как в примере со смайлинг выше? Ну лол, блядь
>>64492 >То-есть всё это время разнообразные yoba-boba-super-vasyan228 миксы могли иметь такой огромный недочёт и не реагировать на определённые теги, ну как в примере со смайлинг выше? Бинго. Собственно, они и имеют, но всем тупа пахую. Олсо кривые руки от дисторсий тоже еще больше ухудшаются.
>>64489 Оче коротко: то что в автоматике подписано как Latent, не переводит изображения в привычный пиксельный формат с помощью VAE перед апскейлом, а апскейлит как бы само скрытое пространство. Другие "апскейлеры" - условный валар, принимают на вход изображение в пиксельном виде, перед этим прошедшее через декодер VAE.
>>64492 >всё это время разнообразные yoba-boba-super-vasyan228 миксы могли иметь такой огромный недочёт и не реагировать на определённые теги Одно хорошо, что готовые миксы можно через тулкит пофиксить форс резетом. Но большинство похоже ебало этого рот и дальше будет (((((((anus:1.5))))))) хуячить.
>>64524 >>64507 Это нужно ALL_A пресет поставить, альфу 0 и форс ресет, чтобы пофиксить это говно, правильно понимаю? Ну и модель в А поставить соответствующую
>>64523 Предположу что там не новые алгоритмы, в Latent скорее всего применяется линейное масштабирование скрытого пространства, в Latent bicubic - бикубическое масштабирование, в Latent nearest - ... ну ты понел.
>>64548 Так вот это и прикольно. На изображении интерполяция очевидна – она по значениям rgb, то в скрытом пространстве для меня тайна. Как там данные представлены, как они интерполируются и т.д.
>>64583 >Как там данные представлены Я думаю можно вполне себе представлять это как обычную картинку, но только с очень большой глубиной цвета. Интерполируются соответственно так же.
>>64551 Их обучить намного сложнее. Лучше пробовать гиперсеть или лору. Скорость ставил обычно такую для гиперсети. Можешь какую-то другую, но главное не дефолтную. Еще советую из настроек тыкнуть: Choose latent sampling method на random. Shuffle tags by ',' when creating prompts галочку. А так же на Add layer normalization.
>>63553 (OP) Вот бы кто-нибудь объяснил на пальцах в чем разница между embeding lora hypernetwork На примерах, а не в плане реализации. А то заебали уже объяснять про слои, вы на живых примерах расскажите, что в каком случае юзать.
>>64675 Надо клип вытащить из модели с нормальными тензорами (из оригинального сд например) и импортировать его в модель которую надо фиксануть, потом сохранить.
>>64801 Вообще-то есть. Если знаешь как тренировать эмбеддинг и знаешь, что он подходит для твоей задачи, то тебе не придется проводить лишний раз процедуру введения мужского полового хуя в компьютер.
Как бывший противник треда, скажу, что поменял свое мнение, почитав. Вы вполне можете слать меня на три буквы, но я должен был это сказать. И даже личность зачинателя тут нисколько не мешает.
>>64902 Да, ток клип. Сразу заспойлерю: пофикшенная сетка будет реагировать на каждое слово практически идеально, не потребуется никаких скобок и прочих мультиплаеров, если юзаешь эмбединги то они будут сильно влиять на картинку (еще больше чем до этого). И визуал будет интересный так скажем, отличный от оригинального мерджа с говняными тензорами, если там много приколов было смерджено до этого.
>>64936 → >В том и суть, теперь будут срачи что техно а что не техно, да. Ебля с тренингом - техно? Пожалуй да, даже гайд написали которому место в шапке и все. Настройки модели которые тут никто не трогает - техно? Наверно. Использование в тегах автора - техно? Хуй знает, вроде про это уже тред где-то есть, пусть дальше тонет. Отдельные примеры промтов и мажик-ворды что дают нужный эффект, резкость, дофы, глоу, прочее - техно? Ой наверно уже нет мы там пердолимся и лосс измеряем а тут что-то про генерацию нужных результатов, не будем включать. Продолждать можно долго. >Или тащить все без нытья вахтеров про релейтед, или делать отдельный тред про стилистику, куда пойдет восприятие разных стилей написания промтов моделями, отдельные подборки и советы по позам-костюмам (раньше было в шапке), эзотерику типа пустых запятых и кратности.
>>64946 Я тот анон, что предлагал на своих мощностях обучить. С тебя датасет, тогда могу. Датасет - это штук 10-50 протеганных пикч. Сам собирать не буду.
>>64933 Не понял про это, сейчас как раз попробовал зафиксировать сид после этого фикса, там результаты на уровне погрешности искформеров, по чу-чуть меняется что-то на картинке
>>64926 Слушай, господин, ты не против сделать мини-гайд на рентри? В свободной форме. В шапку попадешь, полезная информация. С треда тонна нефти очевидно.
>>64987 Заменил вообще все запятые, кроме начальных тегов на качество, на |. Никакого эффекта опять не заметил, что-то сделал не так при фиксе или это можно считать большими изменениями в картинке?
>>65007 >Заменил вообще все запятые, кроме начальных тегов на качество, на |. Никакого эффекта опять не заметил У тя случаем клипскип не стоит высокий? Просто у меня на рандомном говномердже спокойно меняет генерацию на статичном сиде что с запятыми, что с |. >или это можно считать большими изменениями в картинке? Ну такто измненеия большие, но не настолько большие как на моих шизомерджах где я аниме с реалистиками смешиваю. Тестируй отклик сетки на промпты кароч. Че за модель кста?
>>65024 Ок, будет заебись. Но можешь не тереть старое, оставим в самом низу с предупреждением. >>65028 Я понял. На какой модели тренировать? Могу предложить SD 2.1, мне даже интересно что получится.
>>65028 Если ты сам соберешь датасет, то получится лучше. Потому что ты сможешь сам отобрать пикчи, которые тебе нравятся, и то, что ты хочешь по факту видеть в лоре. А не надеяться, что у вас вкусы сойдутся с автором.
Если будешь пусечкой еще и затегаешь, ускоришь появление лоры раз в 5. Пушто в овервотч я ни разу не играл. В гайде описано как тренировать в зависимости от используемой модели, если что.
>>64795 Не знаю, что именно тебе бы скинуть в качестве сравнения. Сравнения на n количестве шагов, на t затраченном времени или просто самый лучший полученный результат. Самый хуевый, но действенный совет - юзать то, что и другие юзают. Лора самый навороченный. Охуеть быстрый, можно регулировать силу вплоть в минус, чтобы использовать его как негатив. Можно обучать кучу концептов одним разом, одним файлом получить сразу 10 девок из Love Live! School Idol Project, например. Если вернуться к изначальному вопросу, то с Лорой проебатся очень сложно. Гиперсеть требует большего внимания к скорости, контролю превью того, чем она уже обучилась и чтобы вовремя приостановить и возобновить обучение с немного другой скоростью. Поэтому если я сейчас тебе скину пример гиперсети, то гиперсеть-фаги меня засрут за неверные настройки.
>>65030 > У тя случаем клипскип не стоит высокий? Второй
> Просто у меня на рандомном говномердже спокойно меняет генерацию на статичном сиде что с запятыми, что с |. Покажи пару примеров, как по мне тут просто иксформер влияет на картинку, самую малость изменяя детали
> Че за модель кста? Это капустный микс, только на 4.5 эни. Вынул клип от 4.5 и пихнул в него
Собственно, я как раз закончил тестировать 10 эпох лоры на своем датасете. Училось на базовой модели без ввода тематической (фурри) модели. Жертва - оранж base.
Каждый шаг, после первого - это примерно 1300 шагов обучения, одна эпоха. Датасет из 5 концептов (художников) примерно по 50 пикч каждый. Последняя пикча - это натренированный за ночь полновесный dreambooth на 50000 шагов.
Что увидел: одна эпоха дала достаточно хороший результат. Съедобно. 2, 3, 4 и 5 не особо юзабельны - "интеграция пизды". С 6 уже снова съедобно, дальше только сексуализация моделей (отъедаем жопу с сиськами). Dreambooth отличается принципиально в лучшую сторону. Фон сложнее, пальцы не на удачу рисуются, текстура тела и меха лучше всех предыдущих, морда не такая "потерянная".
Но да, на это удовольствие надо примерно 21 гиг VRAM и 8 часов работы 4090.
>>65102 Тегай все, что видишь, не ленись. Фон, предметы на картинке, цвета (волос, кожи, одежды) даже если все это не имеет прямого отношения к тому, что тренируешь. Тогда будет проще потом выбить нормальный фон и предметы в будущем, когда будешь пользоваться лорой.
>>65110 Ничо, ща потестирую разные настройки скоростей обучения и догоню тебя :) Уже выявил что ускорение unet в пару раз даёт общее улучшение восприятия промта.
>>65135 13, но у меня сейчас пука загружена. И хформерс старый, потому что новый мне руинит батчинг: python: 3.10.8 • torch: 1.12.1+cu113 • xformers: 0.0.14.dev • gradio: 3.16.2 • commit: c12d7ddd • checkpoint: ebc7c8b49d
>>65139 >13 Слишком мало, обычно сколько даёт? Просто если так считать, то это вышло бы всего лишь 15 часов на 3060 (и 32 часа если 30 ит/с), если бы у 3060 было столько видеопамяти, и с новым торчем и иксформерсов проблем бы не было, лол.
>>65110 Кстати, что там в дримбузе, какие настройки существуют? Сейчас лору тестирую, и заметил, что у персонажа сигнатурная заколка на волосах вечно какая-то переёбанная. Вот всё нормально, и лицо, и одежда, но вот сраную заколку ровно сгенерировать не может. Потому что она маленькая. У другого персонжа абсолютно такая же проблема: заколка. Хотя в датасете она и протегана везде, и чётко на пикчах видна, её форма, цвет, но при генерациях не то, как будто сеть еще не успела научиться этому "подконцепту". Так вот к чему я: может ты пользуешься какими-то фичами при тренировке типа планировщика скорости обучения? Есть ли смысл тренировать именно долго? Как у тебя обстоят дела с обучением мелким деталям?
>>65172 >Дай промпт, попробую. from behind, 1girl sexy nude woman body, large spread anus hole, semen inside holes, ass close up >Две скобки так-то могут очень сильные изменения дать с запятыми тож самое и с любыми новыми словами >Зачем? На первом с таким промптом на 20 пальцев и полностью находящейся лисой в кадре цирк уродов просто обеспечен я всегда на единичке все делаю >Нет, как проверить? чекнуть через питон очевидно взять клип от оригинального сд и въебенить его в капусту
>>65179 >Кстати, что там в дримбузе, какие настройки существуют? Все те же самые по сути. >Вот всё нормально, и лицо, и одежда, но вот сраную заколку ровно сгенерировать не может. Потому что она маленькая. У другого персонжа абсолютно такая же проблема: заколка. Хотя в датасете она и протегана везде, и чётко на пикчах видна, её форма, цвет, но при генерациях не то, как будто сеть еще не успела научиться этому "подконцепту". Тут я тебе ничего полезного не скажу, потому что учу стилям, а не деталям. >Так вот к чему я: может ты пользуешься какими-то фичами при тренировке типа планировщика скорости обучения? Для dreambooth я использовал constant with warmup, а для lora - cosine. Но полноценного сравнения я не делал, потому что одну и ту же модель обучать по 7 часов ради минорных изменений в результате как-то пока ломает. Но возможно руки дойдут еще.
>>65187 > from behind, 1girl sexy nude woman body, large spread anus hole, semen inside holes, ass close up Ни на первом, ни на втором клипе ничего не меняется в картинке. Ну ладно, на одной из четырех на жопе камшот пропал.
> очевидно взять клип от оригинального сд и въебенить его в капусту А может лучше через питон? Скрипт какой-то для этого есть?
>>65206 Вот это уже куда интереснее, обычная капуста просто не реагирует, в отличии от фикса
>>65236 >А может лучше через питон? Скрипт какой-то для этого есть? надо анаконду ставить, и потом через ее шелл команды ебошить типа cond_stage_model.transformer.text_model.embeddings.position_ids , я не особо в питоне шарю поэтому не занимался чекингом
>>65243 >А что, в миксах какой-то другой clip? Там он просто проебанный из-за десятков и сотен мерджей, поэтому все промпты через жопу написаны (((()))) чтобы сетка среагировала на тег с огромным количеством мультиплаеров
>>65236 >Ни на первом, ни на втором клипе ничего не меняется в картинке. Ну мне кажется дело в клипе энифинга, щас въебеню сдшный в еще одну говномодель чисто для теста все будет меняться инфа сотка
>>65304 к слову это оранж, оригинал непофикшенный недалеко ушел от фикседа, так что там мердж достаточно качественный по тензорам получается, расхождения небольшие
>>65258 Зачем? Что уже обычного интерпретатора мало по какой-то причине и надо обмазываться чем-то?
>>65304 Ну ты читер, промпт меняешь, я думал вообще не меняя промпт такое будет, что нонсенс вообще какой-то с фиксированным сидом. Вот тоже впилил сдшный, промпты как и у тебя, без аниме. Они работают по другому, выборка хуёвая, надо реально на куда большем количестве промптов тестить.
сделал контрольный тест: две модели 1. форс резет аналога вейтедсума в плагине весов 0.5, альфа 0.5 2. мануальная замены клипа от сд в стандартный вейтед сум 0.5 мердж чекпоинт различия в пределах погрешности, причем стандартный вейтедсум насрал в финальную модель моделью Б больше по итогу
>>65340 >Зачем? Что уже обычного интерпретатора мало по какой-то причине и надо обмазываться чем-то? ну вся хуйня мануальная через анаконду делалась всегда, я других способов незнаю >я думал вообще не меняя промпт такое будет ну ты лол кек
>>65372 Ты пилишь эти лоры? Может подумаешь насчёт хф или цивитай, заместо меги? Я не могу через браузер скачать и приложение тоже не работает, приходится под вм запускать это всё дело
Хочу запилить эмбеддинг или что-то подобное, что модель могла нормально рисовать эту расу https://betabooru.donmai.us/posts?tags=au_ra Т.к. довольно малопопулярные персонажи - артов угодило в датасеты моделей мало и все модели в эту расу могут крайне криво. Но если навернуть сверху эмбеддинг или что-то подобное - должно хорошо получиться. Так вот, какие картинки подбирать для обучения? Максимально простые, но отражающие специфику расы? Паттерн чешуек на коже, специфическая форма рогов и хвоста не встречающаяся у других и т.д. И при этом на максимально простом фоне? Пробовал делать собрав прилично картинок одного художника, чтобы были в едином стиле, но там сложные позы, сложные фоны - как не крутил настойки получался эмбеддинг вообще практически не работающий, а промежуточные картинки выдавал при обучении - кривущее говно.
>>65384 Я думал изначально именно с нашей доски сделать репозиторий. Суть в том что тут не только мои лоры должны быть, а аноны должны скидывать свои, просто заполнить страничку и привлечь надо было как-то. А цивитаи неинтересно. Понятно дело что можно и туда сливать.
>>65392 Насчёт эмбедов не скажу, но лоры да, есть смысл. Больше информации = больше деталей. Другое дело что скорость обучения падает в разы, но возможно оно того стоит.
>>65406 Хз кто такой Миша >>65410 У меня например струны на гитаре всегда косые генерировались. Мне кажется большее разрешение могло бы с этим помочь. Плюс хай рез фиксу вряд ли придется так упорно дорисовывать несуществующие детали, ведь у него есть информация как всё должно выглядеть на большом разрешении.
>>65426 Ну в рентри я кинул лору с Хитори, и там 40 изображений с гитарой. И гитару сеть вполне понимает, но как я уже сказал струны и колки это тихий ужас. Сейчас на ночь поставлю тренится подольше, посмотрим че выйдет.
>>65421 Да анон местный, репозиторий с модельками и разной херней по мелочи поднял и держит на одном энтузиазме, зря его из шапки выпилили, там есть старые модельки, которым до сих пор можно найти применение: https://static.nas1.gl.arkprojects.space/stable-diff/ Вроде говорил, что выпилит репу, если в шапке больше её не будет, может это >>65391 он отписал вообще?
>>65421 Кстати с гитарой может немного помочь инпеинт, как ты уже написал, сеть её знает, и в зависимости от расстояния до камеры инпеинт накинет ей деталек и выпрямит струны, не идеально конечно, но хоть как-то
>>65493 Может кривейший, а может и не кривейший. Кто-то проверял? Как это проверить - по-человечески ответить не могут. К хассановским промтам его модели чувствительны.
>>65503 выковыриваешь откуданить клип через экспорт потом загружаешь модель для фикса, кидаешь экспортированный клип в пик, выбираешь в компонентах пик2, жмешь импорт, потом сейвишь
>>65507 Я так и делал, но мне интересно, о какой там опции речь. Явно же не о мануальной замене клипа, тем более так можно наоборот кривой клип вместо цельного вкрячить.
Затестил ИнвокАИ и автоматик. Инвок с тем же промптом качественно отрисовывает задники, но отказывается рисовать фуррей и ДФЦ, рисует дойки. Про ограничение промпта в курсе, укоротил до нужных значений, но результаты пиздец разные на одном и том же сэмплере с тем же промптом. Различия снижаются только если использовать ну прям минимум промпта, чем он сложнее, чем разнообразнее веса, тем сильнее разница на выходе. Но одно точно ясно, Инвок более качественно отрисовывает задники, почему-то. Промпт не скину, съебался на работу.
>>65490 Кому нужна наглядность вот джве картинки - слева хасан обычный, справа хасан фикс через SD1.5 CLIP. Без негативов, без фейсрестора, супер простой промт masterpiece photo | nude woman | cyberpunk, один и тот же сид. Нефикшенный хасан ебнулся и нарисовал киборга с уебанными тенями, фикшенный понял что от него требуется. Если дальше усложнять промт чтобы убрать бабу киборга, а бабу справа наоборот превращать в киборга - у оригинального хасана начнется жопа, а бабе справа достаточно добавить один тег.
>>64999 Ну да, можно. Сделаю либо щас, либо позже.
>>65725 Там ограничение на количество промпта, выше 75 нельзя, батник пишет, что превышен допустимое число и промт обрезается. Конкретики внести не могу, я на работе.
>>65725 в оф доках инвока написано что ВСЕ текущие клиенты для стейблдифьюжен имеют лимит в 77токенов. Но автоматик обходит его не тем что разрешает безлимитный промпт, а тем что сам автоматом блендит 2 токена в 1 используя (токен).blend(токен2). Только при этом не показывает это юзеру и не давая контроля над процессом
>>63553 (OP) Аноны, хочу вкатиться в ИИ и в тоже время обновляю компьютер. Как идеально подобрать комплектующие под эту задачу? Может быть какой-то список топ процессорров и видеокарт есть?
Автоматик подогнал годноту, промтогенератор с тренированными моделями на GPT. Может работать онлайн, но там вроде как долго грузит модельку каждый раз, поэтому бекапнул все три модели и выложил архивом телега/h0rnee/69 Кидать все три папки в stable-diffusion-webui\extensions\stable-diffusion-webui-promptgen\models Сам скрипт https://github.com/AUTOMATIC1111/stable-diffusion-webui-promptgen (можно скачать из вкладки экстеншенов вебуи) Unsafe делает прям как и должен unsafe, пробуйте сами, на пике очевидный safe.
>>65800 >но там вроде как долго грузит модельку каждый раз А нет, он их типа кудато в темп скачивает похоже при выборе, не могу найти куда. Папка для офлайн моделек пустая. Кто найдет куда он скачивает маякните.
>>65876 Удаляй папку экстеншена, ставь заново, кидай модели в models, перезапускай или перезапускай, выбирай модельки из выпадающего списка, смотри чтобы скачивались в кмд -> пробуй
>>65879 Сейчас встану с постели, протещу у себя. Еще неплохо прикладывать коммит или хотя бы дату последнего пулла, ибо автоматик любит пускать в мастер всякое неотдебаганное говно.
>>65752 Нвидиякарточка 12 гигов минимум для комофорта и полного функционала в том числе обучение. С небольшим пердолингом можно комфортно жить на 8 гигах. Уже некомфортно становится на 6 гигах, можно тренить только лору. Ниже 6 гигов только мерджить модельки и делать картинки, иногда отсасывая при использовании хайресфикса.
>>65898 Олсоу оперативы побольше быстрой тоже надо бы. На проц в целом похую. Ну и сосоди под это дело на терабайтник неплохо, а то с жестаком медленноватые сохранения будут.
>>65918 Да бери ченить на AM5 что в бюджет влазит, проц ваще не важен. Самое главное это карточка помощнее, память быстрая че там ддр5 упали в цене или нет еще? и сосоде.
>>65931 Чет слышал в соседнем треде, что однопоток для 4090 важен, типа не раскрывают ее топовые ам4-5 камни, до 20% не хватает по сравнению с топовыми штеудами. Проверить не могу, у самого днопека но вообще не загружен, пока видяха свои 350вт ест
Я чот нихуя вдуплить не могу, как фиксить CLIP через stable-diffusion-webui-model-toolkit. Через Hard way оно ломает его к хуям при попытке импорта в NEW SDv1
>>65965 1. Загружаешь модель из которой будешь брать CLIP (например sd-1-5.ckpt) 2. В поле Class выбираешь CLIP-v1 и экспортируешь CLIP в файл (например sd-1-5-0000.clip.pt) 3. Жмешь Clear и Refresh 4. Загружаешь модель в которой будешь фиксить CLIP 5. Рядом с кнопкой Import выбираешь файл sd-1-5-0000.clip.pt, а в поле Class CLIP-v1 6. Жмешь Import, ждешь, потом выбираешь имя файла, Precision и жмешь Save
>>65965 1. лоадишь модель с точно правильным клипом 2. достаешь клип через экспорт справа 3. лоадишь модель для фикса 4. в компонентах выбираешь пик1 5. в импорте выбираешь экспортированный клип, нажимаешь импорт (пик2) 6. жмешь сейв, ждешь готово
>>65989 > кабель-менеждмента Переоцененная хрень. > нормальной продувки Чет я сомневаюсь, что у прямоугольного гроба за 100К и за 5К продувка прям дико разная все же от корпусных кульков зависеть будет. Или,видимо, в дорогих воздух на магических бафах?
>>65998 >Чет я сомневаюсь, что у прямоугольного гроба за 100К и за 5К продувка прям дико разная все же от корпусных кульков зависеть будет Аэродинамику никто не отменял
>>65998 У прямоугольного гроба за 15к и 5к, разница в том, что в гроб за 5к 4090 может физически не влезть. Ну и по темпрежиму разница может быть до 10 градусов под нагрузкой. Банально из-за разных воздушных потоков.
>>66012 Про размер - это само собой, но это и так понятно. Про температуру - видимо если сравнивать перфорированный со всех сторон гроб с старым офисным алюминиевым ящиком и только так?
Нет, тренировка лоры на миллиард шагов не спасает. Результаты на последних эпохах это пиздец конечно, даже кидать не буду. Зато нашел ну просто охуеннейшую шнягу – tensorboard. Позволяет смотреть логи тренировки в браузере.
>>66119 Ну бля, лосс. Прогнозируемый результат минус полученный = лосс. Но все же маловато графиков. Лосс по степам и эпохам это круто, но надо чтоб по каждой пикче свой график показывало, тогда вообще будет айс.
>>66152 Вот только сейчас тещу эту сетку. Просто реквесты столкнулись с моим желанием поэксперементировать с идеальными настройками для тренировки, но по утру я увидел что получилось какое-то говно, немного задизморален. На пике отобраны имхо лучше эпохи, я не обкатывал еще особо, может она вообще не могёт в теги. 30 изображений в датасете.
Бля, какой же кал все существующие решения по подготовке датасетов, неужели нельзя захуярить ОДНУ мокропиську, в которой можно и теги с дипданбуру накидывать, и с вд 1.4, и копировать теги между файлами, и УДАЛЯТЬ/ДОБАВЛЯТЬ СУКА ФАЙЛЫ, и кропать с возможностью долить фон? Я так многого прошу блять?
>>66152 Лучше ее на оранжмиксах и прочих псевдо 3д моделях не юзать. Я налажал, обучая 2д плоскую модель на псевдо 3д датасете. https://mega.nz/folder/4so2lQJK#SAPABH3ycc42Z9FA2P763g >pers, 1girl, pnik hair, long hair, breasts, nurse cap В прилагаемом текстовике список всех тегов, на которых обучалось.
>>66169 Если бы я умел кодить, уже давно бы запилил. планирую в питон вкатываться
>>66180 Автоматизируй, напиши код для конвеера. Я так и сделал: ноутбук на Kaggle, чтоб скидывать необработанные пикчи. SwinIR + outpainting + remove background + clip
>>65706 Притягиваешь результат под желаемое. При чем тут вообще тени и почему по такому запросу не может быть киборга? Утверждается, что сломанные тензоры хуже чувствительны к промту, вот такие примеры и ищи.
>>66398 А "киберпанк" это что, по-твоему? Что-то, что не влияет на персонажей? Если бы пикчи высрались наоборот, ты бы заявил, родные тензоры ебнулись и рисуют какую-то голую шалаву вместо кибердевы.
>>66411 >А "киберпанк" это что, по-твоему? Что-то, что не влияет на персонажей? Ты сначала изучи что делает оператор | между чанками. >Если бы пикчи высрались наоборот, ты бы заявил, родные тензоры ебнулись и рисуют какую-то голую шалаву вместо кибердевы. Такого бы не было, просто потому что пофикшенный хасан четенко читает чанки, вместо объебанной говнины изначально, которая скорее всего дало киберсреньк деву потому что из-за дисторсий не уловило оператор | и пернуло в лицо кибердевой сплошняком.
>>66418 Ты нихуя не показал эти тенсоры на хассане, ты вообще нихуя не показал, ты не можешь ответить на >>66334 потому что сам нихуя не умеешь, так не строй из себя тут Морфеуса. Пример этот на хассане смехотворный. Но что поделать, если это венец твоих технических достижений, для самоуспокоения хватит. >>66429 Заебись примеры пошли на разных промтах. И что ты этим доказал? Баба с убавлением тега тоже стала менее киберпанкрута. Делайте нормальные гриды, которые покажут именно проебанные элементы, а не трактованные иначе. Или хотя бы не выебывайтесь так яростно, знатоки хуевы.
>>66459 >Заебись примеры пошли на разных промтах. И что ты этим доказал? Давай поясню для тупых. У нас есть промтец masterpiece photo | nude woman | cyberpunk с одинаковым сидом. Хасан с говной вместо тензоров рисует киборга, хасан с норм тензорами рисует бабу в киберпанке. Казалось бы все довольны, но нет: если мне нужна именно баба на хасане, а не киборг, то как сетке уменьшить влияение киборга если чанк между смешивателями не содержит киборга? А никак. Контрпример: как получить киборга, если мне нужен киборг на не хасане? Добавить тег в чанк с голой бабой. Все же логично и очевидно. Очевидно, что фикшенный хасан более гибок и точен. Теперь понятно? Можно было бы сотню примеров накидать, но ты похоже хасан и тебе неприятно.
Продолжаем унижения кривотензорщиков. Пример номер 2. Использование оператора AND. Пик1 - дефолт хасан с говнотензорами, промт nude woman AND cyberpunk, сид фикс. Пик2 - фиксед хасан, тот же промт, сид фикс.
>>66462 Как ты определяешь кривые для начала? Когда другой результат дает? Ну вот разный результат на разном клипе, какие тензоры кривые? А smile и там и там не очень. >>66468 >НОВЫЙ МИР ОХУИТЕЛЬНЫХ РЕЗУЛЬТАТОВ БОЛЬШЕ НИКАКИХ СКОБОК >пук среньк ну вот же баба не такая как я хотел(((
>>66475 > если мне нужна именно баба на хасане, а не киборг Киборга в негативы и роллишь. Я вот сейчас на фикшенном хассане погенерил, часть пикч вышла без намеков на киберпанк в принципе. А на непофикшенном хассане генерит тех же голых баб, которых ты считаешь идеалом. Короче, черрипикнул на 1 сиде и подводишь под это целую теорию.
Я поднял тестовый инстанс файлопомойки для лор. Лимит на файл сейчас 200 мегабайт Сервер дохлый и имеет всего 10 гигов ссд, поэтому после окончания тестов (вероятно, сегодня), я саму файлопомойку перенесу на другой сервер, а этот оставлю проксирующим.
>>66499 >Киборга в негативы и роллишь. Костыли. Если модель не может бескостыльно генерить, то она очевидно кривая, и не надо выдавать это за фичу, просто ты привык к говну, а ведь можно фиксануть и пользоваться как человек.
>черрипикнул на 1 сиде и подводишь под это целую теорию. Да еб твою мать, это рандом сид первый попавшийся. То же самое будет и на любом другом, суть в том что если у тебя ровные тензоры, то работать проще и не нужно костыли выдумывать чтобы обойти кривые тензоры. Пиздец нахуй кем нужно быть чтобы защищать очевидные ошибки мерджера.
>>66491 nude woman AND cyberpunk @ HassanBlend1-4-clip15.safetensors Ой, что это у нас на второй пикче? А если тот же сид на непофикшенном хассане сгенерит бабу? Вся теория по пизде пойдет что ли? Или черрипик всё-таки не ок?
>>66524 >далбаеб роллит сиды чтобы найти где модель обсирается чтобы завизжать врети, хотя ему показывают работу на одном и том же сиде чтобы исключить флуктуации Таблетки.
Ну хочет сруня с кривыми тензорами сидеть пусть сидит, че привязались к дебичу, который понять не может зачем нужны четко прописанные тензорные значения.
>>66513 А я нигде не защищаю. И я вижу логику, почему именно хассана можно считать сломанной моделью. Но это всё еще недоказанная манятеория. И все "пруфы" крайне сомнительные. Может, они соответствуют реальному положению дел, но как пруфы всё равно хуета, потому что с таким уровнем притягивания можно доказать ровно обратное условной истине. А если ты скажешь, что я типа занудствую, это же хуевый хассан, чего его проверять - так я отвечу, а чего тогда ты тут возишься с хассаном этим, надуваешь щеки со своих открытый. Действительно хуета, действительно ненужОн. Ну и тестируй не хуету тогда.
>>66532 >Но это всё еще недоказанная манятеория. >дисторсии литералли существуют и ради их фикса сделали фикс >недоказанная манятеория Ой всё, отъебись шизофреник.
>>66535 Ты так пригорел, что потерял способность воспринимать текст, ну или желание. Вас сто раз спросили, как это чекать НЕ НА ГЛАЗОК, и почему именно хассан, блеать, как частный случай этого вопроса. Это важный технический момент как раз. Я только на него хочу ответа итт, а не ваших манятерий "ну эт наверн хуевая модель". И чтобы не отвечать и не палить свое ламерство, ты теперь записываешь меня в отрицатели всей движухи. Быдлоподсоса еще своего призвал на помощь, "сруня", епт. Такие словечки уже в третьем классе зашквар
>>66553 да не трясись ты сруня, иди вон в аниме тред комментируй работы как ты любишь, напиши как бы ты лучше сделал на своей 4090 но тебе просто лень палить годноту быдлу нутыпоэл
Хорош сраться, лучше скажите какой код в питон писать чтобы эти все матрицы тензоров проверить, ну или хоть какие доки нужно шерстить? Вот на таком промпте прогнал на обычной капусте пик1 и с фиксом клипа из 1.5 пик2: digital cyberpunk effectual girl with mechanical parts
>>66563 >Вот на таком промпте прогнал на обычной капусте пик1 и с фиксом клипа из 1.5 пик2: digital cyberpunk effectual girl with mechanical parts Ну кстати и там и там приблизительно одно и то же, можно сделать предварительный вывод что тензорные расхождения не критичны особо и при мерджинге повезло.
Благодаря Анонам получилось все установить, огромное им спасибо, теперь очередной какиш всплыл. Прогнал пикчи через Preprocess images, пути все верно ввел, разрешение у всех 512, в чем проблема?
Фур-анон, поделись своей фурри дримбуз моделью последней и скажи базовую модель на которой тренил, я хочу провести эксперимент: с помощью скрипта extract_lora_from_models.py выдрать из дримбуза разницу весов между базовой моделью и дримбузом и попробовать применить эти веса к базовой модели. Может получится побороться с неэффективным расходованием места при использовании дримбуза. И скажи мне теги ключевые которые использовать, чтобы объективно сравнить.
>>66692 Ты насколько хорошо питон знаешь? Может лучше напишешь всё-таки? Я то напишу рано или поздно скрипт, просто долго будет, поверхностные познания лишь имею
>66818 >Фур-анон, поделись своей фурри дримбуз моделью последней и скажи базовую модель на которой тренил Там базовая кастомного разлива и я не помню, как я ее мешал. У меня есть с оранжа и есть с берримикса. Могу залить модифицированную базу и dreambooth. Тебе оранж или ягоду? Я в основном пользуюсь вторым.
>>66852 Мне принципиально важно получить именно такие две модели: одна базовая на которой тренировали, вторая дримбуз на основе этой базовой. Любая комбинация из этих двух меня устроит, покуда условие работает. И про теги тренировки не забудь, можешь на пастбин залить.
>>66845 Сам автор пишет >The option Fix broken CLIP position IDs will fix this tensor, which changes the model output slightly (perhaps for the worse). И это речь только о смене конкретных значений, а тебе весь клип сменить придется. Так что меняй, тести, и сам смотри, устроит ли тебя.
Добавил защиту от дурака, добавил проверку на наличие ключа 'state_dict' (у некоторых ckpt он отсутствует) и добавил выбор куда загружать чекпоинт — в VRAM или RAM. Для загрузки в VRAM нужно написать cuda после имени файла, например python check_tensors.py \models\Stable-diffusion\sd-1-5.ckpt cuda Если ничего не указать, то по умолчанию грузит в RAM.
>>67385 Ок Бтв протестировал я свою хрень, сверху furslut, снизу berryfurry + 200 мб лора. Результат, учитывая различия - хуйня. Результат, учитывая экономию в более чем 5 гб - заебись. И еще момент что вроде как из-за моей допотопной видюхи я не смог выставить dim > 256, а он отвечает за размер нетворка и размер выходного файла, соответственно при большем значении должны быть результаты лучше.
>>67407 >Бтв протестировал я свою хрень, сверху furslut, снизу berryfurry + 200 мб лора. Результат, учитывая различия - хуйня. Ну в целом примерно сходится с моими сравнениями: >>65110 Правда у меня там был критикал хит. Я dim оставил стандартным в лоре. 8.
>>67432 >Так я не лору тренирую, ну. Да не важно, что, на самом деле. Датасет может быть один на все. Чем больше ты всякой хуйни протегал на картинке, тем меньше шансов, что твое обучение зациклится на персонаже в целом и начнет забывать детали окружения, одежду фиксировать и прочее.
>>67445 >>67443 Так блять, там же некоторые модели нужно активировать ключевым словом, некоторые - не нужно, как понять какие теги ставить в обоих случаях? Если я сделал эмбеддинг на один концепт, но он мне вместе с этим одним концептом притащил ещё один, то как мне избавиться от него? Что в датасете править, помимо добавления ещё более разнообразных картинок с отсутствующим ненужным концептом?
>>67457 >Так блять, там же некоторые модели нужно активировать ключевым словом, некоторые - не нужно Ембеды и лоры нужно. Гиперы и dreambooth - нет. >как понять какие теги ставить в обоих случаях? Теги в текстовые файлы одинаковые. Лорам еще нужна корректная структура папок, но это не имеет отношения к тегированию, ты можешь слово активации любое поставить, хоть "228". >>67457 >Если я сделал эмбеддинг на один концепт, но он мне вместе с этим одним концептом притащил ещё один, то как мне избавиться от него? Ембединг тренируется по файлам из одной папки, лора и dreambooth тренируются (опционально) по нескольким сразу - это разные концепты. >то как мне избавиться от него? Скорее всего никак, только отдельные тренировки хуярить на каждый концепт отдельно, а потом динамически подключать нужные на генерации. С лорой и ембедом прокатит. >Что в датасете править, помимо добавления ещё более разнообразных картинок с отсутствующим ненужным концептом? Каждый концепт должен в отдельной папке лежать, которая под него. Ембед ты и не обучишь на 5 папках параллельно. Лору - да. Или я не понял этого вопроса.
>>67448 Так а что будет? Ну будут твои лоры, окей, +1. А по итогу все равно я на своем корыте нахерачил больше лор чем все треды сд на доске вместе взятые. Странно, я думал обучать это весело, ажиотаж поднимется, вон на форчке аноны делятся-делятся после появления лорагайда локального. А у нас как-то тухло.
>>67451 А там все равно непонятно как найти соответствие между шагами лоры и дримбуза, под капотом у тренировок движки-то разные. Бтв для лоры 10000 это оверкилл, если у тебя там конечно не 1000 изображений в датасете.
>>67454 Объясни мне конкретно что тебе там непонятно. Скрин. Ссылку. Пальцем ткни, не знаю.
>>67457 >Если я сделал эмбеддинг на один концепт, но он мне вместе с этим одним концептом притащил ещё один, то как мне избавиться от него Смотри, у тебя допустим такие пики в датасете: "photo of red SuperMashinka228, colored" - 10 штук "photo of green SuperMashinka228, colored" - 15 штук "photo of blue SuperMashinka228, colored" - 20 штук "pencil art of SuperMashinka228, monochrome" - 5 штук При обучении сеть находит закономерности: "ага, все пикчи объединены одним тегом SuperMashinka228, теперь я знаю что такое SuperMashinka228", "ага, много пикч объединены тегом green, теперь я знаю как применить этот тег к SuperMashinka228", "ага, пару пикч протеганы как pencil art, теперь я предполагаю как нарисовать SuperMashinka228" и т.д. и т.п.
>>67486 >Странно, я думал обучать это весело, ажиотаж поднимется, вон на форчке аноны делятся-делятся после появления лорагайда локального. Я тебе предлагаю готовые лоры с гридами вбрасывать в наи тред. Тут более техническое обсуждение и обмен опытом, настройками, скриптами, всей этой шнягой. Ну то есть я смотрю на лоры, которые у нас тут выкладывают, но не качаю - мне в целом один жанр интересен, и его никто кроме меня не обучает. А мне не к чему прикручивать ваши лоры, например.
Ну можно будет похохотать над фурри-косплеем геншин персов, но это не прямо сейчас, прямо сейчас мне еще есть чем заняться. Были еще аноны которые лоры тренили. Они их просто никуда не выкладывали, как я понимаю. Ни технотреда, ни куда выкладывать не было тогда еще.
>>67486 >Бтв для лоры 10000 это оверкилл, если у тебя там конечно не 1000 изображений в датасете. С флипами в районе 500, датасет тот же, что и на dreambooth.
>>67521 >Я тебе предлагаю готовые лоры с гридами вбрасывать в наи тред. Хорошая идея, так и сделаю в следущий раз. когда разберусь как сделать не пережаренное говно
>>67474 >лоры нужно Лора на нахиду с форча активируется без ключевого слова. >Или я не понял этого вопроса. Ты не понял этого вопроса. Вот вообще мимо. Читай ниже ответ. >>67486 Принцип и так понятен был. Вот только у тебя какой-то слишком утрированный датасет, даже если так сделать, то работать 100% не будет, и вообще я делаю эмбеддинг, там это не так работает, я так понял. То есть я не могу написать "green SuperMarishka228", потому что эмбеддинг называется "SuperMarishka228", оно выдаст хуйню.
>>67555 >Лора на нахиду с форча активируется без ключевого слова... ...и ничего кроме этого персонажа не сможет нарисовать. Для этого и придуманы ключевые слова, чтобы сеть "цеплялась" за них.
>то работать 100% не будет Почему? Не вижу проблем. естественно он утрирован для примера
>и вообще я делаю эмбеддинг А что, в текстуальной инверсии нельзя подключить файл описания к пикче через [filewords]? Я никогда их не тренил, просто спрашиваю.
>>67564 Если честно выглядит не очень. У меня 1060 выдаёт 0.57it/s. Как бы разница колоссальная, но я ожидал большего от 4090.
Прогнал все модели, которые у меня сейчас есть, на предмет отклонений Единственная модель с которой не получилось animefull-final-pruned — у нее нет ключа cond_stage_model.transformer.text_model.embeddings.position_ids
>>67640 Как понять макс и мин девиэйшон? Там в словаре несколько таких ключей чтоли? Алсо ебать эни говна в жопу заливает дефолтная, вот почему она так плохо слушалась некоторых промптов Попробуй чтоли горыныча пофиксить, там кто-то про соски ныл в мейн треде, что не получаются
>>67620 >Ну ок, а что там объяснять. Постараюсь описать, но мне поэтому и нужен спасательный гайд, ибо спотыкаюсь на каждом шагу. Лично я застрял на моменте Load Diffusers pretrained models. Traceback... Как пример: создание папки (гайд по скрипту "обрывается" на завершении надстройки скрипта); кол-во пикч, сколько можно сколько нельзя, минимум/максимум (хотя это все можно и просто в текстовый гайд залить, хз, относится и к следующему пункту); минимальные уточнения по созданию текстовых файлов с промтами; демонстрация правильного запуска и выполнения скрипта с полученной лоркой. В общем что-то на уровне этого чела для максимально картошкоголовых, как я: https://www.youtube.com/watch?v=A-rDRpXv_qg
Мужички, подкорректировал шапку, но инфы как для технотреда мало. Помогайте заполнять, кидайте полезные ссылки.
Анонам, крутящих-вертящих слои моделей, корректирующих корявые тензоры, подменяющих текстовые энкодеры и прочей шелупони в которой я ничего не понимаю: сделайте гайд на рентри или пастбине! Любой длины, в любой форме. Или здесь напишите на крайняк. Банально нету времени листать тред и выковыривать полезную информацию. Информация полезная, новая, актуальная и обязана быть в шапке.
>>67620 >файл описания к пикче через [filewords]? Где про это можно вообще почитать, зачем оно в принципе нужно? У меня написано в шаблоне "[filewords], [name]". Ну то есть как бы понятно, что оно делает, но это разве особо как-то влияет на результат, особенно с пикрил галкой? Пример того, чем я занимаюсь: ЧТО ХОЧУ? >Мужские трусы с принтом волка. НАЗВАНИЕ ЭМБЕДДИНГА? >"AUF" ТЕКСТ ИНИЦИАЛИЗАЦИИ? >"boxer briefs, wolf" КОЛИЧЕСТВО ВЕКТОРОВ? >6 ЧТО В ДАТАСЕТЕ? >"wolf, AUF, animal, grey fur, white fur, snout, ..." - 5 штук, отзеркалены >"briefs, boxer briefs, boxers, AUF, 1boy, standing, full body, ..." - 10 штук, отзеркалены, на одной картинке есть и отмечен ещё "speech bubble" >"boxer briefs, wolf, animal, 1boy, full body, standing, AUF, ..." - 5 штук, отзеркалены >"1girl, boxer briefs, running, outdoors, ..." - 1 штука, отзеркалена (таки название эмбеддинга я в кепшонах не писал, но писал то что было в тексте инициализации, это нужно писать или нет?) ЧТО В ПРОМТЕ? >"1girl, AUF, topless, blue hair" >"1boy, AUF, muscular, collar, oni horns" ЧТО ПОЛУЧАЮ? >голого по пояс мужика в трусах с волком/волка, стоящего рядом с полностю одетой девочкой с синими волосами в платье >получаю маскулинного мужика в трусах с волком, ошейником и рогами, но почему-то часто со спич бабблом.
>>67761 Всё, увидел в чём проблема. В pretrained_model_name_or_path нужно указать чекпоинт (.ckpt, .safetensors), на основе которого проходит обучение. У тебя указана папка.
>>67755 Ах да, если боишься спич бабла, можешь в датасет добавить спич баблы. И в кепшенах написать "speech bubble". Так ты избавишься от ненужного концепта.
>>67802 >В файле картинка1.txt – описание того, что находится на картинка1.png. Таких пар может быть сколько угодно. Спасибо капитан, очень полезная инфа. Делает ли что-то галка в этом случае - так и не понятно. >Я так понял лучше одно слово слитно. >Опять же Это всё хуйня. Там ничего не написано по этому вопросу, точно так же как в гайде по лоре. И вики автоматика я и без тебя уже догадался прочитать.
>Нахуя я выше распинался если пост не прочитал? У тебя слишком хуевый пример, повторяю, во-первых он слишком общий, а во-вторых на нём нельзя показать всю суть проблемы, которую ты кстати походу так и не понял.
>Именно так. Что именно так? Каким образом "Именно так." мне поможет сделать эмбед волка на любых труселях? >пацталом Пиздец клоунада какая-то.
>>67819 Так это ты мои посты не читаешь, чел. Я же ясно-понятно написал, белым по синему, что в датасете есть как минимум одна протеганая картинка со спич бабблом, однако воспринялось это так, что спич бабл нужно включать, даже если я его не указываю. Ты нейросеть?
> Спасибо капитан, очень полезная инфа. Пожалуйста. > Делает ли что-то галка в этом случае - так и не понятно. У каждого тренировочного образца при его повторении во время обучения будет слегка другой промт = токены в другом порядке Дальше к программистам. > на нём нельзя показать всю суть проблемы, которую ты кстати походу так и не понял Да, ты прав, я тебя не понимаю. Пока у меня хуевые примеры, у тебя отличные результаты, не наоборот, верно? > Каким образом "Именно так." мне поможет сделать эмбед волка на любых труселях? Я ошибся, тебе не "Именно так." поможет, а нормальный датасет. у меня от отмены мозги плывут > Пиздец клоунада какая-то. пацталом > как минимум одна протеганая картинка Ну у меня же хуёвый пример, верно? Нам же не нужно добавлять несколько пикч со спич баблом рядом с другими объектами/людьми, чтобы сеть обучилась понимать этот концепт на фоне других объектов, правильно говорю?
Бля, пацаны, если вы хотите, чтобы у вас что-то не появлялось, то этого не должно быть в датасете. Вы когда няшечку-писечку обучаете, вы ведь не из гачи-боев собираете датасет? Так же и со спич баблами и прочими вотермарками. Всю эту залупонь надо замазывать. Нет ни одной причины учить этому мусору датасет, если только вы не хотите это говно на пикчах повторять.
>>67971 >У каждого тренировочного образца при его повторении во время обучения будет слегка другой промт = токены в другом порядке СПАСИБО БЛЯТЬ, А ТО Я ЧИТАТЬ НЕ МОГУ, КАПСОМ ПИШУ ВОТ ВИДНО ПЛОХО ПОТОМУ ЧТО Пиздец, не высирайся нахуй если сказать нечего.
>Пока у меня хуевые примеры, у тебя отличные результаты, не наоборот, верно? У тебя вообще никаких результатов нет, маня. Опыт с лорами необязательно применим к текстовым инверсиям. Ещё раз, не высирайся, если не знаешь точно с видом будто знаешь.
>Нам же не нужно добавлять несколько пикч со спич баблом рядом с другими объектами/людьми, чтобы сеть обучилась понимать этот концепт на фоне других объектов, правильно говорю? Предлагаешь составлять датасет на спич баблах, ты ебнулся? Во-первых основная модель и так это умеет, и отлично реагирует на этот тег, если его вписать, а во-вторых вот этот вот >>67991 говорит ровно противоположное.
Тьфу блять, никто ничего не знает, самому надо железо жарить, каков пиздец, в технотред зашел называется.
>>68067 > У тебя были люди в датасете, раз выдаёт с персонажем? Это самые удачные тестовые генерации, у меня в основном или шоха или онемедевка, иногда проскакивает на фоне шохи конечно, но от этого шоху пердолит сильно. В датасете людей нет вообще, сам датасет это 28 рандомных пикч шохи из гугла и описание в файлах shoha. Я только вчера лорой обмазался и сейчас просто щупаю.
>Зальёшь куда-нибудь шоху? Да было бы что заливать, я пока даже гриды по эпохам не сделал, но если надо, то залью
>>68105 > Да было бы что заливать, я пока даже гриды по эпохам не сделал, но если надо, то залью Да не, не торопись, просто интересуюсь, поделишься ли результатом тренировки впринципе или нет
>>68152 Лоооол, красава. Случайно не в твиттере чела нашёл который это выкладывает? >Можно ли сделать рисовку теликов не такой реалистичной Ты хочешь именно телики сделать в аниме стиле, правильно понял?
>>68167 На какой модели тренил? Чтобы с полпинка всё работало как ты хочешь, нужен датасет изначально такой, каким ты хочешь видеть результат, т.е. хочешь аниме телики с аниме девками = датасет из аниме теликов с аниме девками. Если этот датасет не такой, то тут только изворачиваться. Либо мне просто в голову ничего не приходит. Но есть пара мыслей как это можно реализовать, но это долго скорее всего и не факт что сработает.
>>68182 > Тренил на AnyV3 Ну тут интересная ситуация когда в датасете два принципиально разных стиля. И для одной части пикчи подходит одна модель, для другой другая. Кстати анив3 не очень хорошо подходит как основа для обучения, многие говорили о том что она сильно перетренирована и даже по промту 1girl выдаёт кучу всего лишнего. Вот тут чел немного затрагивает это https://huggingface.co/JosephusCheung/ACertainThing Касаемо миксов однозначно не скажу, но немало из них включают в себя всякие непроверенные модели, поэтому для тренировки аниме я бы остановился на дефолтном nai. > Я хз, куда заливать Ну сюда можешь https://anonfiles.com/
>>68190 Показывай результаты >>68193 Для тренировки на основе фоток SD (мне очень SD 2.1 последняя нравится, я даже ебло там своё натренил). Для тренировки на основе дефолтных аниме артов (большая часть любой аниме буры) NAI. А вот когда нечто среднее между реализмом рисовкой и реализмом, то тут не подскажу, сам пока не знаю. Может и NAI подойдет.
FastStone photo resizer: прога для винды, чтобы массово применять различные операции к пикчам: кроп, ресайз, переименование, подкрутить или ослабить яркость/контрастность. Гибкая настройка. Подходит чтобы делать квадратные пикчи одинакового размера. Можно добавить белые поля, а можно обрезать изображения чтобы вписались в квадрат по центру (или по верхнему краю, например).
Awesome dublicate photo finder: прога для винды, чтобы находить повторяющиеся пикчи, сортировать по уровню схожести, отображать пары и выбирать вручную, какой вариант оставить. Подойдет для небольших сетов.
Duplicate cleaner pro: подойдет даже для огромных сетов размером в десятки гигабайт, мощный инструмент для винды.
PhotoFiltre: редактор для винды, позволяет открыв пикчу сразу же выделить ее фрагмент одним движением мыши, и тут же сохранить пикчу как этот кроп. Всего пара секунд и два-три клика. Удобно для ручного кропа небольших сетов. Квадратное выделение также возможно.
Clip captioning: различные реализации на основе "машинного зрения", чтобы массово генерировать подписи к любому количеству пикч и сохранять их в том же порядке в текстовый файл (который затем можно разбить по строкам на кучу файлов в той же нумерации). Был удобный ноутбук для колаба/kaggle, но проебался, найдете замену сами.
>>68250 >Awesome dublicate photo finder: прога для винды, чтобы находить повторяющиеся пикчи, сортировать по уровню схожести, отображать пары и выбирать вручную, какой вариант оставить. Подойдет для небольших сетов. https://github.com/qarmin/czkawka получше будет
>>66921 Решил я затестить своего барса на твоем фурслюте. Забавно, что чем больше тэгов на графен, тем ниже качество и наоборот, чем меньше тэгов на графен, тем лучше качество. Но при этом стильные моськи с глазами получаются только при переизбытке тэгов.
есть фикс на автоматик, который переносит "Stop At last layers of CLIP model" из настроек в txt2ing? Я заебался скакать туда-сюда, чтоб смотреть разницу.
>>68718 > заставить лору появиться У нее отдельный выхлоп в интерфейсе под ползунками денойза, если расширение правильно установлено. Ничего дополнительно настраивать не надо.
Не, при тренировке лор лучше выше скорости обучения 1е-4 не лезть, по крайней в мере в моем случае. Думал, почему в последнее время последняя половина/треть эпох угандошивались максимально, а я тогда на время дефолтом поставил 2е-4, сейчас вернул на место и о чудо, вплоть до последней эпохи всё нормально. Лучше поэкспериментировать с планировщиком, unet и te.
>>69159 Блять, чуваки, как вы вообще в интернете сидите, если боитесь, что в картинках могут вирусы? Я бы на вашем месте в /b/ вообще не заходил, мало ли что там за картинки могут быть.
>>64999 >ты не против сделать мини-гайд на рентри? В свободной форме Готово если что https://rentry.co/clipfix (на английском чтобы мало ли кто не из русскоязычных будет читать) Описаны все способы клипфикса + пользование скриптом чекером от анона >>67128
>>69366 >"learning_rate": "1e-6" Это стандартная скорость для дримбуза, ты точно лору тренил? У лоры рекомендуемая скорость 1е-4, и в большинстве конфигов это значение стоит по дефолту
>>69377 >Это стандартная скорость для дримбуза, ты точно лору тренил? Точно, решил никуда не спешить. >У лоры рекомендуемая скорость 1е-4 Могу попробовать поменять, но что-то мне подсказывает, что проблема в другом месте. Сейчас перезапущу.
>>69390 Кароч не подскажу, юзай другой репозиторий, могу единственное сказать что если ты тренишь через скрипт, а не через гуи, то для тренировки именно лоры основной скрипт запускается запускается с аргументом --network_module=networks.lora: accelerate launch train_network.py --network_module=networks.lora [...]
>>69434 >А лора по идее должна триггериться особенно на "tokiame". Пока что по моим тестам трудно выбить стиль с лоры, а tokiame делает только хуже. Продолжу тестировать лору, ещё обучу на этом же датасете, но по своим настройкам и до 16 эпох с чекпоинтом на каждом.
Сделал 4 лоры. На Any, Onangemix и NAI. На Any и NAI нравятся больше. Тянки отрисовываются на экране, но телик все равно реалистичный. В зависимости от модели нужно наваливать весов либо в теги лоры, чтобы тянки были на экране, либо во все остальное, чтобы они были снаружи.
Попробовал с кривой моделью на Алису - тоже работает.
>>69461 Нет, но лично я комплексую, когда у меня выходить калька с художника. Поэтому у меня их несколько и я просто усиляю другого, если выходит ярковыраженный 1. Получается микс стилей, которого я не встречал.
>>69464 Тут еще вопрос, что некоторые модели у тебя в гриде очевидно проще заставить засунуть тян в телевизор. А у некоторых придется яростно крутить рулетку.
>>69468 Да, приходится править веса. Вот грид с увеличенными весами и убраны теги на full body и окружение
>>69475 crt, on screen, VoxsonT302Photomatic Там несколько теликов с разными экранами. На гриде - Воксон, еще есть Филипс и Саба. Надо переделать теги, оставить только crt как общий и название модели для каждого.
>>69472 tokiame реально делает хуже. Судя по всему оригинальную модель на всех его работах обучали, а у него несколько стилей, из-за этого и пиздец, надо первый тег менять на что-то другое для более лучшего результата.
>>69517 Например лора обученная аноном выше на моём датасете хорошо выдает свой стиль при добавлении тега realistic. Подобные особенности я имею в виду.
>>69519 Я думаю, тут много факторов. На каких картинках с этим тегом обучалась изначальная модель, насколько то, что ты пытаешься сгенерить, близко к этому. Тот промпт, который использовался при тренеровке на твоих пикчах, тоже влияет.
>>69539 Но по-моему, куда сильнее влияет, насколько изначальная модель уже была знакома с персонажем/стилем/т.п., потому что если знакома хорошо, остается лишь привязать это к определенному промпту. А вот если плохо, то может понадобиться дольше дотренивать, уменьшать learning rate, собирать более обширный датасет, и т.д.
>>69565 У меня сложилось впечатление, что lr похож на температуру при готовке. Слишком большой сделаешь - подгорит. Слишком маленький - вообще не готовится. По этим признакам ориентируюсь, как его править. И правлю обычно раза в 2 уменьшая или увеличивая. Но если и так работает, то менять смысла нет.
>>69577 > Слишком большой сделаешь - подгорит. Слишком маленький - вообще не готовится. Да, хорошая аналогия, оно примерно так и работает Ты тестировал значения ниже 1е-4? Если да, то каковы результаты?
Мужики, а какой у вас лосс обычно? Сейчас наблюдаю картину доселе невиданную, лосс категорически малый по сравнению с тем, что было раньше (0.12-0.17). Стоит упомянуть что тренирую не просто стиль, а крайне простой стиль, 130 штук изображений в датасете и все очень друг на друга похожи.
>>69600 У меня что-то интерфейс лоры не появляется в т2и, после git clone https://github.com/kohya-ss/sd-webui-additional-networks.git в extensions директорию. Какую версию коммита то вообще нужно или какая версия коммита этого расширения подойдёт под начало-январский автоматик?
>>69640 >Совсем недавно автоматик обновил градио и кохъя сразу выкатил патч. Так что может быть что расширению нужна более новая версия градио Да все проще скорее всего, интерфейс наверное еще в scripts что-то кладет, а git pull в extensions - само-собой, нет.
>>69592 Могу в целом сказать, что более низкий lr дает большую "редактируемость". Модель будет лучше рисовать твой концепт в новых ситуациях, "отклеит" его от изначальных картинок. Вот тут можно почитать про это: https://huggingface.co/blog/dreambooth
Но куда сильнее на мои результаты повлияло использование отдельных промптов для каждой картинки. Это полноценный файнтюн, по сути, а не Dreambooth уже. При этом модель учится разбирать картинки на составляющие, и видит как они могут быть по-разному соединены.
>>69649 >Но куда сильнее на мои результаты повлияло использование отдельных промптов для каждой картинки. А что, кто-то зачем-то учил dreambooth без подробных тегов рядом с ними?
>>69626 С этим тоже есть проблемы, я хз какой аргумент не даёт это сделать, наверное --api, ставлю по ретроградски из-за этого
>>69640 >>69643 > Совсем недавно автоматик обновил градио и кохъя сразу выкатил патч. Так что может быть что расширению нужна более новая версия градио То-есть мне надо на старую версию экстеншена смотреть? С новой версией автоматика прямо совсем пиздец, всё ломается вплоть до генерации, я пробовал перекатиться, в итоге откатывал всё назад, с удалением и полной перекачкой venv
>>69645 По-моему всё что делает установка из вкладки расширений, это гит пуллит в соответствующую папку. Уже внутри папок с раширениями есть папка scripts
>>69649 > Могу в целом сказать, что более низкий lr дает большую "редактируемость" Ух ты блядь, новая информация. Спасибо
>>69660 >я хз какой аргумент не даёт это сделать, наверное --api, ставлю по ретроградски из-за этого Все убирай, ставь, потом добавляй обратно. Делов-то.
>>69655 Dreambooth использует один промпт для твоих пикч (инстанс) и один промпт для более общих пикч, похожих на твою (класс). Всего два промпта. Если я правильно понимаю, это его основное (а может и единственное) отличие от полноценного файнтюна. К слову, это означает, что можно делать полноценный файнтюн на том же железе, что и Dreambooth.
>>69660 > То-есть мне надо на старую версию экстеншена смотреть? Хз, я не погромист. На пике изменения после апдейта градио. Это практически последний коммит
>>69684 Если быстрый пека, можешь как анон выше написал одну сетку натренить на стандартном lr 1e-4, другую на 5e-5, допустим. Очень интересно что получится. Ни разу не видел лоры ниже чем на рекомендуемых настройках
>>69678 Так в смысле свои? Вот у меня 3 телика. Мне надо в каждой папке с картинками иметь один постоянный тег на этот телик и остальные, описывающие картинку, так? Или есть еще какая-то схема?
>>69686 >можешь как анон выше написал одну сетку натренить на стандартном lr 1e-4, другую на 5e-5 >Ни разу не видел лоры ниже чем на рекомендуемых настройках Я видел: >>69328
>>69673 > можно делать полноценный файнтюн на том же железе, что и Dreambooth Можно. https://rentry.org/informal-training-guide >>69691 > у меня 1060 Сейм. Тогда заливай датасет с настройками, а я у себя обучу такую же, но с меньшим lr
>>69699 Кстати, програмиздкая идея пришла, а что если действительно всё из-за некой несовместимости такого размера нетворка и такой низкой скорости обучения? Типа там точность сохранения fp16, и оно каким-то хуем "округлило до NaN" (звучит как бред, в курсе). Просто 1е-6 это пиздецки медленно и крайне непредсказуемо, это скорость в сотню раз меньше рекомендуемой. Не раз видел на гитхабе что конкретно лора выигрывает от большой скорости обучения, не наоборот >>69705 > Попробовал И консоль прям совсем ничего не пишет?
>>69688 Указывать отдельными тегами есть смысл то, что ты хочешь потом убрать, заменить или соединить с другим. Короче, редактировать.
Можно подробно описать каждый телевизор, и тогда ты можешь потом попробовать собрать новый. Но не факт, что трех телевизоров для этого хватит, маловато. Можно, наоборот, каждый телевизор описать одним уникальным словом. Тогда это слово будет ассоциироваться со всем телевизором, и изменить его будет труднее. Все три протегаешь одинаковым словом - скорее всего, будет получаться какой-то рандомный из них, особенно если датасет всего из трех, и у тебя по несколько фотографий на каждый. Т.е. модель запомнит их больше по-отдельности, а не как общую идею телевизора.
Могу еще такой пример привести. У меня был один датасет, где были эти облачка с текстом, которые персонаж произносит. Пока они не были указаны в промпте, было трудно их убрать. После того, как я их протегал, я мог потом при генерации их не указывать, и они почти перестали появляться.
>>69716 Бля, анон, ничем помочь не смогу. Как минимум надо полный лог. У меня на последних коммитах расширения и вебуя работает абсолютно всё. А у тебя походу проблемы из-за несовместимости. Расширение по-моему даже не в 22 было написано
>>69717 >облачка с текстом О, ты тот анон, с которым я вчера срался? Прости за вчерашнее
>>69715 >Кстати, програмиздкая идея пришла, а что если действительно всё из-за некой несовместимости такого размера нетворка и такой низкой скорости обучения? Вот вызов обучения: https://pastebin.com/evZZaDHk lr вернул на 1e-4 Все равно вылетает с лорой, причем если раньше в конце генерации картинки, то теперь вообще сразу: https://pastebin.com/5B5H8QVJ
>>69729 >>69715 О, кстати. Сообщение об ошибке в этот раз дополнилось: >modules.devices.NansException: A tensor with all NaNs was produced in Unet. This could be either because there's not enough precision to represent the picture, or because your video card does not support half type. Try using --no-half commandline argument to fix this.
>>69722 Ну что же ты так, я вот правильно думал насчёт подходящей даты для коммита автоматика, решается достаточно просто, глянул примерно одинаковую дату и в директории экстеншена написал: git checkout 558a6092a6 Может кому пригодится, если будут проблемы, можно подобным способом решать обратную несовместимость. А вообще я рот ебал люблю и уважаю этого автоматика за такие классные обновления с дропом хоть какой-то поддержки старых версий
>>69752 А, все, я разобрался. Ну по крайней мере в первопричине. loss.png на 400 шагу уходил в nan Перезапустил еще раз с теми же настройками, щас буду за ним приглядывать.
>>69688 К слову, если у тебя весь датасет из теликов с аниме-девочками, то ты можешь вообще не указывать ничего про телевизоры. Достаточно натрененная модель, увидев датасете "всегда телевизоры" тоже будет генерировать "всегда телевизоры".
Но если у тебя есть дополняющие картинки в датасете - например, другие телевизоры, но без аниме, то стоит их протегать по-разному. Например, "television with a girl" и просто "television". Чтобы при генерации ты мог сказать модели, что ты хочешь увидеть именно аниме-девочку, а не просто телевизор. А телевизоры из дополняющих картинок могут тоже начать показывать девочек, при этом.
>>69822 Хотелось бы чтоб появилась. Но gyate очень плохо. До конца не понимаю как так произошло. Русская рулетка, а не гены Догадываюсь, что из-за моих очередных выебонов с настройками. Поставил unet lr 1e-4 -> 4e-4. Когда только начинается генерация, пик выглядит нормально, но к концу её переебенивает, смотреть пикрил
Perseus сейчас обкатаю немного, если нормально всё, появится. Если нет, перетренирую
>>69778 Да, они так и протеганы, там есть несколько теликов с пустыми экранами
>>69824 Нет, это кривая дримбут модель. Хочу переделать ее и гиперсетку в Лору, чтобы не было ненужных сторонних эфферктов. Могу выложить на хаггинфейс
>>69861 > Могу выложить на хаггинфейс Выложи самое стабильное что пока получилось, хочу попробовать в телевизоре её сделать Телеки огонь, только частенько черное-белые изображения на экране лезут, как с этим боролся?
Поясните за ошибку, а то я тупой клубок шерсти. Error loading script: additional_networks.py Traceback (most recent call last): File "D:\Neural network\stable-diffusion-webui\modules\scripts.py", line 184, in load_scripts module = script_loading.load_module(scriptfile.path) File "D:\Neural network\stable-diffusion-webui\modules\script_loading.py", line 13, in load_module exec(compiled, module.__dict__) File "D:\Neural network\stable-diffusion-webui\extensions\sd-webui-additional-networks\scripts\additional_networks.py", line 419, in <module> xy_grid = scriptDataTuple.module AttributeError: 'ScriptClassData' object has no attribute 'module'
Штош, можете меня поздравить с первой тренировкой лоры, лол. Неделю вынашивал, наконец нашёл время заняться этим. Правда для первого раза я взял датасет Сильвии из лорагайда, чтобы просто проверить как оно будет работать. На 2060 Super получил производительность 1.84it/s
Кто нибудь, кроме меня, пробовал тренировать на 768x768 Лору? Стоит того? Охуел, когда запустил и у меня жрало всего лишь где-то 8.8гб из 12, а по времени в три раза дольше. Не знаю, почему мне раньше об этом не сказали. Раньше дримбух не мог на 12гб запустить со всеми ухищрениями, а тут вот так. Уже смерился с тем, что надо было брать 16гб.
Есть желание повторить стиль одного художника, около 50 пиков которого могу собрать. Правильно ли я понимаю, что легчайший способ это сделать на данный момент это следовать этому гайду https://rentry.org/2chAI_LoRA_Dreambooth_guide ? Нужен именно общий стиль, не конкретный персонаж.
>>70318 Не знаю, нужно ли тебе будет, что я напишу, ведь ты хотел её переделывать. Задники вообще нещадно при хайрезе с bicubic latent убиваются конечно на чистой модели пик 1-2, с валаром еще норм пик 3. Если замиксить с чем-то сеть начинает её знать "недостаточно", типаж тян стабильно как на пик 4 в основном суёт, но задники нормас. А чтобы активировать модель то теги специальные делал? Алсо что это: > Eta: 0.69 В примере промпта значит?
>>70484 У меня тоже такая хуйня началась сегодня. После loss nan лорки даже не читаются. Буду обратно на dreambooth перекатываться, все равно там результат лучше, а я никуда и не спешу.
>>70544 Я откатывал, просто позже в nan уходит, а результаты все равно не юзабельные прямо с первой эпохи, в то время как на network_dim = 8 все работало нормально прямо с первой эпохи можно было брать лору: >>65110 Я сегодня на ночь поставлю еще раз с dim 8, если будет говно, значит обновление что-то сломало (точь в точь хуйня была с дополнением!). Если будет норм... То я хуй знает даже.
>>70550 >>70562 Так я один раз натренил лору — всё нормально было. После этого ничего не обновлял. Потом с этим же датасетом поменял настройки скорости обучения и планировщик ещё сменил — пошли наны где-то уже на третьей эпохе.
>>70582 Попробую эти теги, у меня ее часто кривит =(
>Тегов у модели, так понимаю, нету всё-таки? Есть AliceDV, но с ним ломается стиль и графика становится уровня спрайтов. Так что не стал указывать, но можешь попробовать.
>>70599 > Есть AliceDV, но с ним ломается стиль и графика становится уровня спрайтов. Так что не стал указывать, но можешь попробовать. Прикалываешься, чтоли? Охуенно начало получаться на миксе через жопу, который я сделал прямо сейчас. Буквально просто четыре первых ролла вот
>>70625 >Прикалываешься, чтоли? Мне важно, чтобы перс выглядел канонично. В половине генераций он не понимал ее киксы и рисовал хвостики вот так. Может действительно мои загоны. Первый пик круто получился. Что ты там намешал? И можно промт?
>>70635 Это бывает особенно на миксах. Теликов нет как объекта на картинке, но появляется эффект типо фильтра, причем меняется в зависимости от тега телика
>>70664 > Мне важно, чтобы перс выглядел канонично. В половине генераций он не понимал ее киксы и рисовал хвостики вот так. Может действительно мои загоны. Ну по таким генерациям уже очень сильно узнаётся персонаж, ну лично для меня
> Что ты там намешал? Ну хрен знает насчёт правильности такого микса, я просто посмотрел что общее между моделью на которой ты тренил Алису и моей и вычел её из неё
kapusta4.5-tensorfix1.5clip + alicebooth - anyv3_fp32 50 diff -- как-то так
> И можно промт? masterpiece, best quality, highly detailed, (AliceDV:1.2), a girl wearing (punk clothes:1.3) playing on electro guitar on a street stage of rock concert, guitar solo, dynamic pose, full body, (windy hair), by ivan aivazovsky Negative prompt: lowres, worst quality, low quality, normal quality, jpeg artifacts, blurry, bloom, messy drawing, amateur drawing, cell shading, (monochrome:1.3), watercolor, bad anatomy, bad hands, missing digits, fewer digits, missing leg, extra leg, broken legs, extra limb, poorly drawn face, disfigured, mutation, censorship, text, error, extra digits, cropped, signature, watermark, username, artist name, title, multiple angles, multiple shots, divided images, out of focus, out of frame, enormous breasts, large breasts, nsfw Steps: 50, Sampler: DDIM, CFG scale: 11, Seed: 1166938083, Size: 640x512, Model hash: 72a6379a, Model: kapusta4.5-fixed-alice-any3_50diff, Denoising strength: 0.6, Clip skip: 2, ENSD: 31337, Hires upscale: 2, Hires upscaler: 4x_Valar_v1
Но фильтр всё-таки прикольно получился. Вот первые два без телеков и фильтра, в самих телеках вроде тоже нормально помещается, только там бекграунд не очень поддаётся, на самом деле он вообще не очень поддаётся на этом миксе, пока что
>>70844 В чем отличие первого грида от второго? Судя по всему сетка её отлично распознает на твоих гридах, как минимум на эни и капусте, если расшаришь будет заебись, не надо будет париться насчёт этих мерджей, или ещё тренить намерен?
>>70849 Левый грид - более "волосатая" прическа, правый - больше похож на спрайты. Да, расшар. Только сначала нужно понять почему ей разносит глаза. Надеюсь это просто от разрешения.
И еще хочу попробовать лору на Any, а не на Nai как сейчас.
>>70851 > Только сначала нужно понять почему ей разносит глаза. Надеюсь это просто от разрешения. Ну попробуй парочку с хайрезом сделать.
> И еще хочу попробовать лору на Any, а не на Nai как сейчас. Всмысле тренить? Я про это ничего не знаю, впервые сегодня лору вообще использовал, в ближайшее время попробую потренить, в чём отличие будет? У эни жи там еще с тензорами не всё порядке, как выяснилось раньше в треде
Еще отмечу, что скрипт .\venv\Scripts\Activate.ps1 нужно запускать из помершелла не самый очевидный момент, правда?, а помершелл соответственно нужно запускать с ключами игнора настроек безопасности: powershell -ExecutionPolicy Bypass
>>70925 Отвалился и пропал, лол. Launching Web UI with arguments: --force-enable-xformers No module 'xformers'. Proceeding without it. Cannot import xformers Traceback (most recent call last): File "D:\Neural network\stable-diffusion-webui\modules\sd_hijack_optimizations.py", line 20, in <module> import xformers.ops ModuleNotFoundError: No module named 'xformers.ops'; 'xformers' is not a package
>>71023 Я хуй знает как у вас так выходит. Чекай апскейлер и Resize width/height to Первый пик я только что сгенерировал, второй — то что генерировал еще в начале ноября. Абсолютно одинаковые пикчи, за исключением совсем незначительных деталей, но это особенность xformers/
>>71056 Первый без апгрейда, второй если поставить апскейлер на <none>, третий, если в настройках дополнительно подрубить Use old karras scheduler sigmas (0.1 to 10). Теперь стало почти похоже. осталось потестить, какой сраный апскейлер надо ставить, чтоб он не мазюкал мне арт ибо латент полная параша и гнида
>>71074 Что тебе не ясно? Десятичное число шагов разгона от 0 до 1. Процент. 0.5 = 50% от общего количества шагов. Оставляй на 0. Эта настройка для тех кто понимает, что делает. Любое число выше 1 сделает твой график lr линейным от 0 в начале обучения до значения learning_rate в конце обучения.
>>71092 >Эта настройка для тех кто понимает, что делает. Думаю, тот кто дал мне эти настройки понимает, что делает. Даже если нет, то мне стоит это проверить, ибо никаких других советов у меня нет. >>71089 >"gradient_accumulation_steps": 1.0, Этого, к примеру, я не отыскал.
>>71100 Я дал тебе эти настройки. Я дал их тем, кто знает, зачем оно ему надо, потому что это один из основных аргументов скрипта, и есть, наверное, в каждом виде обучения и не добавить опцию корректировать это значение было преступлением. В гайде даже есть ссылка, которая даёт понимание где это может пригодиться. В 95% трогать её не надо.
>>71128 >--num_cpu_threads_per_process $max_data_loader_n_workers Как я понимаю >$max_data_loader_n_workers Заменится указанным мною числом выше. >>71127 Или я не прав?
>>71128 Решено было так сделать, потому что человек в эту переменную обычно заносит количество потоков своего процессора. Эту строку > --num_cpu_threads_per_process $max_data_loader_n_workers вообще можно убрать, но я решил её оставить, потому что она была в самом первом скрипте который я нашел. Но основное применение её не для этого. В комментарии описано, что это количество потоков процессора для DataLoader, и её уменьшение в теории может понизить скорость обучения. Но разгрузит RAM и ускорит начало эпохи.
>>71144 Этот скрипт я изначально делал для себя, и заносил настройки только те, которыми я мог в теории пользоваться. И добавлял новые переменные по мере нужды > "stop_text_encoder_training": 0 мне, если честно, вообще нахуй не нужна. Даже не представляю ситуации, когда я бы хотел остановить тренировать текстовый энкодер на определенном шагу. Но если нужно я добавлю
>>71163 Нулями в смысле консоль выдаёт NaN? Я ничего про это не слышал. У меня с 10 числа и по сей день всё тренируется идеально, без каких либо проблем. Обновляю репо kohya-ss каждый его коммит
>>71166 Я хуй знает. Разве в лораскрипте есть такие настройки?
>>71224 >v_parameterization Он не включается, если ты его явно не указываешь. В репо bmaltais в вики сказано что его нужно включать только на sd 2.x 768 моделях
>>71384 > $learning_rate = 1e-5 Очень низкая скорость обучения. Рекомендуемое значение 1е-4 > $unet_lr = 1e-3 Я вчера оттренил стиль на 4е-4, получился лютый пиздец. С тех пор тоже 1е-4 ставлю > "D:\stable-diffusion-webui\models\Stable-diffusion\nai.ckpt" > $vae_path = "D:\stable-diffusion-webui\models\VAE\sd-v1-5.vae.pt" Если уж используешь наи, логичнее и от него ставить вае > "D:\LORA\regularization_images" Реги юзал? Или это просто пустая папка? > $network_dim = 8 Это очень мало. Твоя сетка наверняка весит пару мегабайт, подумай сколько информации в таком размере можно уместить
>>71398 masterpiece, best quality, highly detailed, fujiwara no mokou, beautiful girl, long hair, red pants, silver hair, artstation, deviantart, 8k, hyperrealistic, highres, detailed shadows, (wide angle), from_below, looking_at_viewer, silver, silver_necklace, sexy, 1girl, sitting, table, chair, он работает на лоре от анона из итт(вроде фурфаг)
>>71405 > beautiful girl, artstation, deviantart, 8k, hyperrealistic, detailed shadows Я извиняюсь, а нахуя тут эти теги? Ты пытаешья скопировать стиль автора, или ты пытаешься сделать пикчу с > artstation, deviantart 1 пик твой промт, 2 пик тот же промт без ненужных тегов
>>71429 В любом случае не вижу смысла в этих тегах. Во-первых наи на них не тренировали, они для сд, во-вторых какая-то дурная затея пихать гиперреалистик, когда ты пытаешься сымитировать чернильный стиль художника, верно? Конкретно в твоем случае ген не отзывается на тег художника, потому что (мои предположения) 1) Очень низкая скорость обучения, в десять раз меньше рекомендуемого. Сеть тупо ничему не научилась 2) Маленький нетворк дим = маленький файл = мало новой информации и низкая точность. У меня значение в 16 раз больше, и это не предел, можно хоть 512 ставить
>>71433 Я обычно ставлю меньше эпох и больше повторений, чтобы эпохи были длиннее (меньше эпох = реже стопается обучение чтобы сохранить файл) и чтобы не засиралась папка аутпута. Как я уже говорил, количество эпох не важно, главное количество шагов. С эпохами конкретно в обучении ничего не меняется (по крайней мере пока kohya не завезёт новый функционал)
>>71446 >2) Маленький нетворк дим = маленький файл = мало новой информации и низкая точность. У меня значение в 16 раз больше, и это не предел, можно хоть 512 ставить Я пробовал это. >>71394
>1) Очень низкая скорость обучения, в десять раз меньше рекомендуемого. Сеть тупо ничему не научилась Какая должна быть? Выше 1e-4 ставить?
>>71360 >Анон, ты тут? Скинь свои настройки, мне интересно протестировать Я уже снес папку, и я сейчас на работе. Вот примерные настройки я уже кидал >>71007, но dim был точно 128. Как минимум одно отличие. У меня с тех пор по пизде пошла установка лоры и они трениться перестали. Я еще не разбирался, что там пошло не так.
>>71448 >Я пробовал это. Я не знаю чем помочь. Скачай мой датасет, мой скрипт, внимательно его изучи и оттренируй по моим настройкам. И покажи что получилось > Выше 1e-4 ставить? Не советую
>>71451 > Так? Чем больше повторений, тем больше шагов, линейно > Больше повторений позволяют уменьшить количество эпох, я прав? Эпохи ты регулируешь $max_train_epochs Шаги ты регулируешь количеством изображений и их повторением
>>71529 Пробел в пути Проверь чтоб в скрипте было так --logging_dir=`"$logging_dir`" Возможно я сделал изменения но не выкатил обновление
kohya говорит, что в SD webui добавили поддержку нетворков. Но нетворки, обученные на версии скрипта 0.4.0 пока в вебуи не поддерживаются: https://github.com/kohya-ss/sd-scripts#updates
Но хуй знает, просто все носились по /х, как куры без головы, и психовали, что лоры теперь перетренировывать, хотя они работали во многих смыслах после некоторого пердолинга. Просто доебало все это, хотелось тлдр.
>>69113 >>69324 Слушай, а может ты привяжешь свой скрипт к автоматику, ну отдельной вкладкой в идеале, или хоть как-то? Думаю многим бы это оказало большую помощь при чеке правильности тензоров
>>71638 > *Vae При тренировке сравниваются два изображения: 1. Тренировочный образец с малым количеством шума 2. Тренировочный образец с большим количеством шума, пропущенный через диффузионную модель Если ты не хочешь использовать VAE, встроенный в модель, ты указываешь свой VAE tl;dr какой VAE планируешь использовать, такой и указываешь в скрипте > Что за нетворки? Блядь, ну сеть, лора, всё синонимы
>>71749 > скинь пнг инфо с этого tok, 1boy, astolfo \(fate\), astolfo \(sailor paladin\) \(fate\), white and pink serafuku, purple eyes, pink hair, otoko no ko, single braid, long hair, smile, open mouth, masterpiece, best quality Negative prompt: simple background, multiple girls, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry Steps: 15, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 624412, Size: 768x512, Model hash: 89d59c3dde, Model: NAI, Clip skip: 2, AddNet Enabled: True, AddNet Module 1: LoRA, AddNet Model 1: Tokiame style v1 (lr 1e-4)(209f83a1), AddNet Weight 1: 1, Discard penultimate sigma: True, X Type: AddNet Model 1, X Values: Tokiame style v1 (lr 1e-4) Tokiame style v1 (lr 5e-5), Y Type: Seed, Y Values: "624412,35841348,3419569,1347117,57931654", Fixed Y Values: "624412, 35841348, 3419569, 1347117, 57931654"
Это ж сейчас исследовать, долго, а у меня 1060. Пока сетки тренятся компом толком не попользуешься. И в гайд пихать новую инфу. Бля, а я так заебался сегодня. Ебаный кохъя. Лучше бы ввел в логгинг лосс по каждому отдельному изображению, или пофиксил половину неработающих планировщиков
>>63553 (OP) Вот все модели совмещают, вся хуйня. Как-то добиваются "идеальных" комбинаций. А я вообще ума не приложу, как вы, сука, их совмещаете-то? Ведь если совместить, то в одной модели станет что-то хуже, а что-то лучше. Как регулировать, что именно? И как главное тестировать? Вот я, например, хочу научить модель лучше рисовать руки или ноги, но при этом не хочу ничего другого портить. Где вообще читать гайды? Желательно подробно и с нуля.
>>72336 Годно, анон. Создай просто новый гит, как анон >>72339 выше и предложил, если не хочешь палить основной >>72344 А зачем? Есть же уже много способов, а вот чекера нормального нету, ну или я не знаю о существовании таких для автоматика
>>72360 > много способо Однокнопочного нет же. Ставил сегодня тулбокс в автоматика - там что-то сломали опять, ругается на скрипт при загрузке, таб не появляется.
Внимание лораводов! Гайд обновлен. В самом верху очень важная информация, особенно для тех, кого не устраивают результаты тренировки или консоль выдаёт ошибку, связанную с NaN тензорами при использовании сетей.
>>72407 Недотренированная модель, я извиняюсь, ты в шары долбишься? Впустую потраченное гпу-время, когда нетворки могли в теории быть лучше. У меня их дохуя, учитывая затраченное на них время, и у меня не 4090 чтобы всё моментально исправить. У людей ошибки NaN, на попытки их решить тоже время уходило. Сегодня анон тренировал МОИМ датасетом и МОИМИ настройками, и у него были неудовлетворительные результаты, по сравнению с моими. И на попытку решения этой проблемы тоже ушло много времени, полистай тред.
>>72344 >>72364 >>72372 Ну так однокнопочно и не получится. Во-первых, нужно определить из какого чекпоинта дёргать корректную CLIP модель. sd1.4, sd1.5, NAI — дадут немного разный результат. Во-вторых, нужно определиться с форматом и точностью сохранения исправленного чекпонита. Если всё это реализовать в рамках этого расширения, то получится какой-то недотулкит. Тогда уж проще форкнуть имеющийся тулкит, добавить в него функцию проверки тензоров и запросить пул-реквест.
Если включена функция shuffle_tokens, то при тренировке все теги в описаниях рандомно перемешиваются. keep_tokens N позволяет защитить от перемешивания первые N токенов в текстовом файле, эти токены останутся на своём месте. Поэтому я советую брать отсюда https://github.com/2kpr/dreambooth-tokens/blob/main/all_single_tokens_to_4_characters.txt уникальные однотокеновые выражения и использовать их вместо оригинального длинного имени персонажа/художника. Почему стоит так делать? Потому что если длина текстового описания превысит 225 токенов и все теги перемешаются, то есть вероятность что обрежется имя персонажа при обучении, а это не очень хорошо. Вышенаписанные махинации позволяют защититься от этого. Поэтому и получаются такие коротенькие теги для вызова.
>>72778 Дело говорит -> >>72780 + таким образом ты тренируешь именно новый концепт, а не перезаписываешь старый. >>72782 Когда токенизируется промт, последовательность токенов такая же, как и соответствующих слов до токенизации. Если все пикчи датасета описаны одинаково (с уникальным токеном в самом начале), то и соответственно сеть тренируется таким же образом: в unet всегда отправляется текстовый эмбединг, где токен персонажа/стиля стоит на первом месте. Помогает ли это? Я не знаю. Но всегда стараюсь делать по максимуму то, что не приносит вреда. И плюс это делается моментально, за мнимый бонус к точности мне не жалко одной минуты.
Допустим я натренировал 5 эпох и хочу посмотреть что у меня получилось, я могу каким-нибудь образом остановить процесс тренировки и потом его продолжить? Или придется всё с нуля начинать?
>>72821 Есть такой вариант. Аргументы --save_state и --resume Ты должен тренировать сеть с тегом --save_state, будут сохранены дополнительные промежуточные чекпоинты. В дальнейшем ты можешь продолжить с любого из них, прописав дополнительно аргумент --resume "путь_к_пром._чекпоинту"
>>72834 Есть слова (токены, но мне проще говорить слова), о которых модель знает. Ну ты понимаешь надеюсь что значит "знает". И если ты тренируешь на каком-то слове, о котором у модели нет информации, у тебя получается новый концепт. Если ты тренируешь на слове, о котором у модели есть информация, ты как бы дообучаешь знание модели об уже существующем концепте. Я никогда не тренировал на уже существующих словах. Но могу предположить, что гиперболизированный пример будет такой: ты обучаешь сеть лицом своего друга, назвав его "Van Gogh", но модель уже знает как рисовать Ван Гога или как рисовать в его стиле. И в последствии, когда ты будешь писать в промте "Van Gogh", подключив свою сеть с новыми знаниями о данном концепте, ии может тебе выдать а) кого-то среднего между твоим другом и Ван Гогом б) твоего друга, нарисованного в стиле Ван Гога в) смесь из вышеперечисленного Опять же, дисклеймер, это моё предположение. И скорее всего будет сильно колебаться от следующих вещей: 1) датасет (насколько он хорош субъективно для нейронки, количество изображений, разнообразие изображений) 2) настройки (время обучения, скорость обучения, в т.ч. разные скорости для unet и text encoder) 3) насколько хорошо модель знает концепт, который ты пытаешься дообучить 4) насколько хороша сеть поняла, чему ты пытался её обучить
>>72894 Да, можно. Добавлю в блокнотик Но причина, по которой этого изначально там нет следующая: есть слухи, что это не очень хорошо сказывается на обучении. Я не знаю какая математика происходит в голове у нейронки, но недавно где-то видел, что результаты обучения с начала и до конца и результаты обучения с перерывами разные, и не сказать что в пользу последних. Возможно это не применительно к лоре. Я не захотел рисковать, как минимум учитывая высокую скорость обучения даже на говняном железе
>>72907 >результаты обучения с начала и до конца и результаты обучения с перерывами разные, и не сказать что в пользу последних Они просто другие. Поэтому есть, например, cosine и cosine_with_restarts.
Хватит ли нам такой на тред №2? Если да, то пора бы уже реально перекатить. Потому что возможно до сих пор есть люди, которые этот тред в глаза не видели, что не есть хорошо
>>72931 > Не помню, я один гайд от анона добавил в полезное, я что-то пропустил? Там обсуждение в первых ста постах, их бы в перевариваемый вид превратить для начала
>>72953 > Так что, пока не перекатываем и пилим гайд, выковыривая из постов информацию? Я лично за перекат, тут уже слишком много постов, в следующем запилим но это не точно, на некст перекат, я как раз хотел одну модель поковырять, постараюсь по знаниям из постов это делать
>>72076 Нет, не отбой. Это он пишет, что для имитации старой версии, надо передавать альфу, равную размерности лоры. То есть для 128 надо передавать --network-alpha=128
ОБУЧЕНИЕ
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа или объект.
Обучение своих эмбедингов/моделей - https://wiki.diffai.xyz/training-info
Если модель уже умеет рисовать что-то похожее: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion
Если она не умеет, или нужно делать это на нескольких моделях: https://rentry.org/hypernetwork4dumdums
Гайд по созданию своих моделей: https://github.com/nitrosocke/dreambooth-training-guide
Гайд по файн-тьюнингу (дообучению) SD-чекпоинтов с использованием LoRA и Dreambooth: https://rentry.org/2chAI_LoRA_Dreambooth_guide
Сборник гайдов и технических статей по теме: https://ai-art-wiki.com/wiki/Textual_inversion
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups
Англоязычные гайды с форча:
Hires Fix: https://rentry.org/hiresfixjan23
SD2: https://rentry.org/dummySD2
NovelAi: https://rentry.org/sdg_FAQ
Animation: https://rentry.org/AnimAnon
In/Outpainting: https://rentry.org/drfar
Dreambooth: https://rentry.org/sdg-link
Upscaling images: https://rentry.org/sdupscale
Textual inversion: https://rentry.org/textard
Training: https://rentry.org/informal-training-guide
Hypernetworks: https://rentry.org/hypernetwork4dumdums
---
Что хорошо бы добавить:
1) Как с умом крутить веса модели (см. картинка в шапку 2)
2) Корректная формулировка для защиты от вахтера. Обучаем всему, чему считаем нужным (в рамках правил сайта), делимся результатами. База:
https://c2n.me/4hCvXLF.jpg
https://c2n.me/4hCvX2Y.jpg
3) Мокрописьки для создания датасетов - грабберы, таггеры
*