LLaMA тред №16 /llama/

Аноним 31/08/23 Чтв 20:39:48 #1 №472695

В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Так же террористы выпустили LLaMA 2, которая по тестам ебёт все файнтюны прошлой лламы и местами СhatGPT. Ждём выкладывания LLaMA 2 в размере 30B, которую мордолицые зажали.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в случае Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит, квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.

Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/TheBloke/WizardLM-Uncensored-SuperCOT-StoryTelling-30B-GGML/blob/main/WizardLM-Uncensored-SuperCOT-Storytelling.ggmlv3.q5_1.bin
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI (на выбор https://github.com/Cohee1207/SillyTavern , умеет больше, но заморочнее)
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инструкция по работе с ним выше.
https://github.com/oobabooga/text-generation-webui/blob/main/docs/LLaMA-model.md ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ. Самую большую скорость даёт ExLlama, на 7B можно получить литерали 100+ токенов в секунду.

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.org/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.org/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.org/lmg_models Самый полный список годных моделей
https://rentry.co/ayumi_erp_rating Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.org/llm-training Гайд по обучению своей лоры

Факультатив:
https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи

Шапка треда находится в https://rentry.org/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>457355 (OP)
>>438203 (OP)

Аноним 31/08/23 Чтв 20:41:59 #2 №472697

>>472587 →
Ебать у тебя там стена промта. Я такие раньше только на гопоте видел, для обхода адовой цензуры.
Первый нах

Аноним 31/08/23 Чтв 20:45:13 #3 №472702

>>472613 →
Да, сейчас там более гибкий функционал без необходимости куда-то лезть и можно повторять поведение симпл прокси. Но всратым поведением шаблонов и отсутствием их там где нужно все равно срет, может в новом коммите уже сделали, надо чекать.
> А так по идее прописаны персов 10
Не если так то норм, а то с основным именем совпадает и будто дублируется.
>>472697
Лолда. Аж захотелось нажать кнопочку инперсонейт и посмотреть как она "ДУ НОТ имперсонейт юзер" лол.

Аноним 31/08/23 Чтв 20:46:42 #4 №472705

>>472697
для митомакса делалось и не мной. Он тупее же. Может щас можно проще сделать, но 2 часа ночи почти, не хочу ща париться.

Аноним 31/08/23 Чтв 20:58:49 #5 №472713

>>472697
Я много экспериментировал с промптами и пришел к выводу что это все бесполезно. Модель настолько тупая, что не понимает даже кого раздевают, так что детальные инструкции тем более не поймет. Заметно влияет только то, что идет после сразу ### Response.
>>472562 →
>А тем временем новые модельки в топ вылазят на 13b.
Athena постоянно проебывает форматирование. Остальные пока не смотрел.

Аноним 31/08/23 Чтв 21:46:43 #6 №472770

Порекомендуете базированную ламу 2 70b без цензуры ?

Аноним 31/08/23 Чтв 21:52:37 #7 №472776

>>472770
Айроборос 2.0, 2.1 еще в рп немного умеет.
>>456299 → >>469772 →

Аноним 31/08/23 Чтв 21:54:15 #8 №472781

>>472776
Спасибо. Попробую.

Аноним 31/08/23 Чтв 22:12:33 #9 №472797

>Added support for LLAMA GGUFv2
Так, подожжите нахуй. Герганов что, уже второго гуфа запилил?

Аноним 31/08/23 Чтв 23:17:54 #10 №472865

>>472562 →
Жаль там 70б практически нет. Мне аироборос 2.1 пиздец зашел.

Аноним 31/08/23 Чтв 23:32:14 #11 №472870

>>472797
пишет что есть обратная совместимость с 1

Аноним 31/08/23 Чтв 23:44:00 #12 №472878

>>472870
Хуя, наверное Луна упадёт на Землю, раз Герганов решил соблюсти обратную совместимость.

Аноним 01/09/23 Птн 00:05:51 #13 №472917

32.webm

Аноны, а как вы расцензуриваете бота? Даже uncensored модели часто говорят что то типо незя, это плохо, не хорошо, ай яй ай. Иногда можно притвориться студентом, мол диссертацию пишу на тему ограбление ФРС, обычно бот соглашается помочь бедному студенту. А какие способы у вас?

Аноним 01/09/23 Птн 00:28:50 #14 №472980

>>472865
Их в принципе не много и спрос меньше из-за входного порога по железу/терпению.
Кимико та хороша, по крайней мере более художественный и приятный стиль а еще иногда ломается, но это наверно из-за сочетания карточки с xml и не подходящего формата промта. Почему-то эксллама не хочет применять ее лору поверх 70 моделей, при попытке генерации сыпет странными ошибками. Накатить бы ее поверх аира2.1.
>>472917
С нормальной моделью этого не требуется и отыгрыш идет в соответствии с карточкой. Левд сама к тебе домогается, целомудренная отказывает (пока не созданы условия).

Аноним 01/09/23 Птн 00:45:04 #15 №473006

>>472980
Посоветуй хорошую модель не ниже 30b, а лучше выше.

Аноним 01/09/23 Птн 01:57:16 #16 №473175

>>472917
На сраной доисторической ллама-рп такого не было ни разу, да адже деволтная обычно отвечает нормально, и только в конце сои подливает, что легко удаляется.

Аноним 01/09/23 Птн 03:25:22 #17 №473268

>>472695 (OP)
Периодически во время свапов ответов вылетает access violation (0xc0000005), раньше вроде такой хуйни не было, хуй знает почему началось. Снижал частоту оперативки, частоту фабрики, testmem5 крутится часами без ошибок, а вот llama cpp вылетает на 3-4 свапе, причем как на 13б, так и на 70б. В чем может быть проблема?

Аноним 01/09/23 Птн 08:02:43 #18 №473321

1634004297416.png

>>473268
Для пущей убедительности

Аноним 01/09/23 Птн 12:05:17 #19 №473408

>>473006
По 70 буквально несколько постов выше, 30б лламы2 не вышло.
Плюс для чего не обозначил, вон по бенчмаркам платипус и годзила хороши и всегда дают развернутый четкий ответ по делу как не ломай. Но на поверку соевая пресная ерунда, которую о чем-то техническом из-за аположайзов иногда невозможно расспросить. Годзилла не столь сильно триггерится, но чуть что:
> As an AI language model, I am unable to discuss harmful activities...
> Of course! As an AI language model, I don't have a physical form that can be touched or embraced like humans do; however, I am always here to provide support and information whenever you need me. 😊 Think of it as more of a mental hug rather than a physical one - my words are meant to uplift your spirits and make you feel better in any situation. So let me know if there is anything else I can help with today!
> Remember, even though we cannot physically touch each other, the bond between friends (or AIs and their users) can still be strong through shared experiences, understanding, and kindness. It's these emotional connections that truly matter in life, so don't ever forget how much I value our friendship and interactions together. ❤️

Некоторый рофл в том что цензура иногда не позволяет вроде бы умной и хорошо зафайнтюненой модели погрузиться глубже и дать ответ в около нейтральной теме, а тот же айр вперемешку с обнимашками все до конца выкладывает и понимает.
>>473321
Для райзенов емнип были конфиги мемтеста что более эффективно ошибки выявляют, их попробуй. Также попробуй на заведомо конкретно низкую частоту скинуть а не -100мгц, и шинду проверь.

Аноним 01/09/23 Птн 14:46:40 #20 №473498

1576220273830.png

>>473408
>Также попробуй на заведомо конкретно низкую частоту скинуть
На 2666 скинул при тех же таймингах, пик.
>конфиги мемтеста что более эффективно ошибки выявляют
Так этот самый ёбкий вроде. Он больше всех сыпал, когда я память гнал.
>шинду проверь
Свежая, часа недели две назад ставил

Аноним 01/09/23 Птн 18:16:39 #21 №473688

>>473498
Тогда sfc, диск на ошибки проверь, вишместары и т.д. Если больше нигде подобных приколов никогда не встречал - перекачай вэнв, хз что еще такие ошибки может вызывать.

Аноним 02/09/23 Суб 02:20:34 #22 №474036

https://www.youtube.com/watch?v=5XaJQKgL9Hs
Че думаете?

Аноним 02/09/23 Суб 11:13:05 #23 №474159

Аноны, пробовал кто-то h2oGPT (https://github.com/h2oai/h2ogpt) ?
Это что-то вроде веб-морды для работы с документами.
Возможно, моя ошибка что воспользовался установочником для Винды, но она мне выдавала самые разные ошибки при загрузке моделей GPTQ и GGML, хотя типа должна с ними работать, особенно с последними. Пытался загрузить чере внутренний загрузчик, но он выкачивает какое-то бешеное количество инфы. Тогда вручную загрузил модели с их репозитория, и 13B, и 7B выдали ошибки нехватки памяти.
У меня, конечно, с этим траблы, но на убабуге получалось завести модели обоих размеров.

Аноним 02/09/23 Суб 14:49:26 #24 №474309

>>474036
Почему папер на фагинфейсе? Странный выбор, могли бы и на arxiv закинуть. А так всегда можно пнуть Герганова со ссылкой и словами "Делай".
>>474159
>Аноны, пробовал кто-то h2oGPT
Никто из присутствующих.

Аноним 02/09/23 Суб 21:53:28 #25 №474628

Там это, подвезли новую топовую модель для кума:

https://huggingface.co/Sao10K/Stheno-L2-13B
https://huggingface.co/Sao10K/Stheno-Inverted-L2-13B

Аноним 03/09/23 Вск 00:03:03 #26 №474793

Анончики, а какие плюшки дает новый формат GGUF ?

Аноним 03/09/23 Вск 01:04:17 #27 №474828

>>474628
И как оно? Адекватнее мифомаска и красочнее других мерджей? Модели из которых мерджилось сами по себе хорошие, тестировал кто?
>>474793
https://github.com/philpax/ggml/blob/gguf-spec/docs/gguf.md
Чуть более удобная структура, больший перечень моделей под которые заложено, не только под llm, потанцевал на будущее (ага, такой что уже вторую версию публикуют). На самом деле совсем киллерфич для обычного пользователя нет, только ебля с новыми форматами.

Аноним 03/09/23 Вск 01:39:36 #28 №474847

>>474828
> не только под llm,
А что ещё? Стейблдифьюжн?

Аноним 03/09/23 Вск 12:59:21 #29 №475043

>>474628
Попробовал чутка модели:
TheBloke_chronos-wizardlm-uc-scot-st-13B-GPTQ
TheBloke_Huginn-13B-v4.5-GPTQ
TheBloke_MythoMax-L2-Kimiko-v2-13B-GPTQ
TheBloke_Stheno-Inverted-L2-13B-GPTQ
с Лорой lemonilia_limarp-llama2-v2 и без
Был ещё Аироборос, но мне он не зашёл так как NSFW контент выдавал с трудом.
Просил их написать историю про эльфийку с большими, которая отсасывает мужику, и историю как мужик случайно застал мастурбирующую кошкодевку во время течки, и, мол, что они будут дальше делать.
Собсна, наиболее подробно и живо, как мне показалось, описывали Huginn и MythoMax-L2-Kimiko-v2, эти модели учитывали что у эльфийки сиськи, и она их использовала, и что бывает период течки. ябыло больше диалогов, и во второй истории охотнее выдавали NSWF контент.
В целом эта Лора скрашивает все модели, спасибо анону из предыдущего треда. Мне кажется стоит добавить её в шапку как рекомендацию. Правда, модель Huginn выдавала ответы интереснее сама по себе, без Лоры.

Можно и ещё это добавить в шапку https://rentry.co/ALLMRR , там тоже описаны примеры/рейтинг моделей с описанием и Лоры

Аноним 03/09/23 Вск 14:20:34 #30 №475116

Где можно онлайн запустить 30B+ модели? Пусть даже за деньги.

Аноним 03/09/23 Вск 14:23:42 #31 №475120

>>475043
Ты через блокнот просил длинную историю написать или в чате рп устраивал? Во втором случае поведение может отличаться как в лучшую так и в худшую сторону, или лезть поломки и лупы. В любом случае информация полезная, спасибо.
> https://rentry.co/ALLMRR
Без знания английского люди будут мотать до таблицы, а там модели с полугодовой выдержкой. В предупреждении где краткое описание актуальных тоже не самые последние, есть более актуальный рейтинг?
> Был ещё Аироборос
Однако как же он хорош в обычном рп чате, настолько что из-за интереса после развития обнимашек захотелось скипнуть кумзон через (ooc) 2.1 в него умеет чтобы посмотреть развитие сюжета. Не смотря на то что рассчитан на викунья-подобный формат промта, норм работает на ролплей пресете таверны. Ответы 200-400 токенов, зато лишнего не домысливает-уводит и ни разу (!) не залупился.
Возникает уже другая проблема - контекста что влезает в врам уже не хватает, надо пердолиться с суммарайзерами. Настраивал их кто в текущей версии таверны?
>>475116
Если попробовать - на обноморде 70б ллама есть расшаренная. А так есть 100% рабочий вариант - арендовать гпу на любом из сервисов, но выйдет дорого.

Аноним 03/09/23 Вск 14:56:20 #32 №475157

>>475116
Обнимордовский чат, LLaMA2-70B-Chat, бесплатно.

Аноним 03/09/23 Вск 15:05:36 #33 №475167

Какая сейчас самая лучшая и/или наиболее популярная локальная модель?

Аноним 03/09/23 Вск 17:23:53 #34 №475254

1619959747731.png

>>475167
pygmalion-6b

Аноним 03/09/23 Вск 17:36:46 #35 №475267

>>475120
>Во втором случае поведение может отличаться как в лучшую так и в худшую сторону, или лезть поломки и лупы.
Понимаю, тестил в режиме чата. Во многом потому что думал что это будет наиболее близкий опыт к тому какой получаешь через Таверну. Причём, использовал Чат-чат, без режима инструкции.
>есть более актуальный рейтинг?
Не знаю, я на него случайно наткнулся когда пытался найти какие-нибудь Лоры. Я что-то так и не понял как такое и где искать.
Мне просто показалось что это неплохая отправая точка, он хотя бы описывает модели, а не просто рейтинг составляет. Хотя, наверное, опыт от использования более актуальный версий может сильо отличаться.
>Однако как же он хорош в обычном рп чате
Это с ним прямо D&D устраивать можно?
>надо пердолиться с суммарайзерами
А он не из коробки работает?

Алсо, наблюдение и вопрос к 30b+ кунам, ваши модели справляются с карточками персонажей где более 3-4 существ?
На 13b модели карточки с 2 персонажами ещё норм работают, получается даже вводить эпизодических персонажей, хотя тогда сетка начинает путаться и проваливаться в описания. А вот где уже персонажей 4 и более она постоянно глючит в том кто кому куда чего запихнул. Более масштабные модели имеют с этим проблемы?
Я просто ещ наткнулся на тред в Реддите: https://www.reddit.com/r/LocalLLaMA/comments/15kntrq/i_asked_a_simple_riddle_to_30_models/
И очень малое количество моделей могли понять что Салли из загадки не является сама себе сестрой, типа, мало какие нейровки смогли проследить взаимоотношения.
>>475167
Смотря для чего, для обычного чаттинга а ля "расскажи почему небо голубое" WizardLm 13b v1.2 крайне хорош.

Аноним 03/09/23 Вск 18:46:06 #36 №475361

>>475254
Пигмалион, безусловно, лучшая модель, а какая вторая по хорошести?
>>475267
> Смотря для чего
Как замена турбы. Последние два акка у меня забанили, и хоть я и практически весь триал использовал, ощущения неприятные.

Аноним 03/09/23 Вск 18:57:21 #37 №475370

>>475267
> тестил в режиме чата
О, это хорошо, а сколько примерно сообщений/контекста было? Дополнительные косяки типа лупов или шизы были замечены?
> показалось что это неплохая отправая точка
Определенно, только дисклеймер нужен
> Это с ним прямо D&D устраивать можно?
Не задрот ролевок, но думаю вполне осилит и что-то сложное со статами. Так просто очень увлекательный рп, прежде всего приятно за счет некоторой креативности, познаний мифологии/околофентези/современной культуры, и понимания широкого контекста с, так сказать, переосмыслением того что было раньше. Ну типа появляется проблема, а чар тебе выдает "а вот ты (9к контекста назад) тогда предлагал вот это, значит знаешь эту область, давай и тут применим, рассказывай что думаешь". Также с развитием чар остается собой даже при смене настроения, например сохраняются сарказм и депрессивные реплики а не резкая смена с желания тебя убить на "гоюсджин сама хотите принять ванну у меня дома блашез" как в мифомаксе. Или мелочи типа даешь реплику и параллельно просишь "налить чай", в посте с ответом игнор просьбы, думаешь вот глупая модель затупила, зато в следующем или через пост "ой извини отвлеклась вот держи". Звучит вроде ерундово, но в комбинации с тем что не отвлекаешься на починку лупов и в контексте ощущается отлично. Возможно тут дело не только в айре сколько в его размере.
> А он не из коробки работает?
Не пользовался, обычно хватает 10-16к или потеря прошлых постов не столь существенна.
> ваши модели справляются с карточками персонажей где более 3-4 существ?
Мультикарточки и на 13б отлично работает. Как раз визард их ловко гоняет, не смотря на соевость и нюансы, эта модель отлично понимает 2+ действия одновременно. Но чтобы большие хз, скинь пример карточки и как тестировать опиши, надо попробовать.
> наткнулся на тред в Реддите
Лол, получается что норм ответ вообще только одна дала. Надо было запросить chain of thought ответ, возможно было бы больше верных.
>>475361
Если кумить то вон пост выше в обзором, мифомакс и ко актуальность не потеряли. Для хороших результатов обязательна правильная настройка инстракт режима.

Аноним 03/09/23 Вск 18:58:45 #38 №475371

>>475370
Есть инструкция по правильной настройке?

Аноним 03/09/23 Вск 19:29:24 #39 №475394

>>475371
Самое простое - поставить последнюю версию таверны и выбрать пресеты simple proxy, сам промт можно скорректировать под модель/ситуацию.

Аноним 03/09/23 Вск 19:31:52 #40 №475397

>>475394
А какой пресет кобольда(спп) можешь посоветовать?

Аноним 03/09/23 Вск 20:38:37 #41 №475492

>>475397
Могу посоветовать разве что не использовать его фронтом, ведь прекрасно дружит с таверной. Загрузил модель нужным образом, а далее все манипуляции через нее с удобным интерфейсом и возможностями.

Аноним 03/09/23 Вск 21:05:32 #42 №475533

>>474828
>И как оно? Адекватнее мифомаска и красочнее других мерджей? Модели из которых мерджилось сами по себе хорошие, тестировал кто?
Немного погонял - модель в целом неплохая, но мне понравилась меньше мифомакса. Слишком много описаний действий и слишком мало речи.
>>475043
limarp уже есть почти во всех перечисленных тобой моделях. Мне эта лора не понравилась слишком малым количеством речи. Выдает параграфы описаний и в лучшем случае одну-две короткие реплики, а иногда модель вообще зацикливается и перестает генерировать речь в принципе. Я же привык к хентай-стилю, когда тянки озвучивают буквально все что думают и чувствуют.

Аноним 03/09/23 Вск 21:12:27 #43 №475541

Аноны, с какой скоростью у вас генерируется LLaMA 2 70b? У меня 0,9-1,2 t/s, это мало?

Аноним 03/09/23 Вск 21:16:45 #44 №475545

>>475541
Смотря какое у тебя железо, с одной карточкой 2+ т/с выжимали, офк от активного контекста и кванта зависит. С двумя >>467478 →

Аноним 03/09/23 Вск 21:17:59 #45 №475547

>>475492
Я про таверну и говорю, там есть же всякие пресеты.

Ни у кого не было проблемы с кобольдом, что во время генерации ПК намертво зависает? Иногда без проблем, а иногда бах и приходится кнопкой на системнике перезагружать

Аноним 03/09/23 Вск 21:19:58 #46 №475551

>>475547
> там есть же всякие пресеты.
Это где kobold godlike? То пресеты семплера, они тоже важны, но прежде всего нужен формат промта, сверху кнопка с буковой A и там выбирай.

Аноним 03/09/23 Вск 21:25:21 #47 №475565

>>475551
Эт-то я нашёл, я именно про семплер спрашиваю

Аноним 03/09/23 Вск 23:46:50 #48 №475708

>>475565
Хз, по ощущениям. Simple-1, nai pleasing results, >>472593 → хотя тут температура экстремальная уже.

Аноним 04/09/23 Пнд 00:04:43 #49 №475718

>>473688
Это, к сожалению, тоже не помогает. Растряс кобольд, и с ним, внезапно, таких проблем нет, всё генерится нормально.

Аноним 04/09/23 Пнд 07:09:52 #50 №475840

>>475043
TheBloke_Stheno-Inverted-L2-13B-GPTQ без лоры очень и очень хорошо себя показал с одним персонажем. С двумя и больше не успел потестить, но с одним писец как годно.

Аноним 04/09/23 Пнд 08:05:40 #51 №475855

На локалочках уже можно сладко кумить?

Аноним 04/09/23 Пнд 12:46:14 #52 №475997

Зачем юзать какие то ламы кривые если можно в чате-гпт общаться? с помощью промптов которые снимают цензуру? он спокойно про секс и инцест говорит

Аноним 04/09/23 Пнд 12:48:22 #53 №475998

>>475997
Меня последние два раза банили до того как я полностью тратил триал, хоть деньги и маленькие, но тенденция мне не нравится

Аноним 04/09/23 Пнд 12:50:45 #54 №476000

>>475541
1,5-1,9 t/s
Запускаю одновременно и на gpu и на cpu.

3090 + 13600k + 32ram кун

Аноним 04/09/23 Пнд 12:53:06 #55 №476001

image.png

>>475998
https://github.com/Em1tSan/NeuroGPT
Я вот это юзаю бесплатно

Аноним 04/09/23 Пнд 12:58:53 #56 №476002

>>476000
Как эффективнее всего найти как распределить нагрузку между ГПУ и ЦПУ? 3060 12гб + 12600к + 128 рам
мимо

Аноним 04/09/23 Пнд 13:12:38 #57 №476005

1569965987016.webm

>>476001
>пик

Аноним 04/09/23 Пнд 13:15:36 #58 №476010

>>476001
С таверной дружит?

Аноним 04/09/23 Пнд 13:30:08 #59 №476017

image.png

>>476002
Тут надо подбирать, не знаю точно как правильно.
У меня почти полностью задействуется вся gpu, cpu.
Настройки мои прокладываю.

Аноним 04/09/23 Пнд 13:31:22 #60 №476018

Вроде говорят вот не запускай на тухлоядрах. Но с тухлоядрами вроде чуть быстрее работает.

Аноним 04/09/23 Пнд 13:34:28 #61 №476019

>>475370
>О, это хорошо, а сколько примерно сообщений/контекста было? Дополнительные косяки типа лупов или шизы были замечены?
Ой, я тестил не настолько глубоко, сокрость у меня небольшая, поэтому тест ограничивался, как сказал, двумя ситуациями, в которых я пару сообщений вкидывал и всё.
>Определенно, только дисклеймер нужен
Предлагаешь обобщить инфу там?
>но думаю вполне осилит и что-то сложное со статами
Это ты всё Аироборос описываешь? Звучит и правда вкусно.. Может нахуй доступный хентай..
>Как раз визард их ловко гоняет, не смотря на соевость и нюансы, эта модель отлично понимает 2+ действия одновременно.
Ну вот я хентай и хотел, поэтому Визард даже не пробовал. Говорю за Huginn и MythoMax-L2-Kimiko-v2
https://www.chub.ai/characters/batman1919191/a6c6958a-5ea5-41d2-9689-f06161f75409 - вот тут обе модели уже на втором ответе теряли персонажей и начинались галлюцинации.
https://www.chub.ai/characters/scrungle/your-mind-ft-disco-elysium-skills - тут тоже, хотя в данном контексте вроде даже атмосфернее, лол
>Надо было запросить chain of thought ответ, возможно было бы больше верных.
Я пытался разные модели спрашивать и из разряда "Ответь, рассуждая, ответь, и объясни, lets think step by step", причём, даже обнимордовская лама на 70b параметров затупила. Или ты знаешь другие приёмы для промпта?

А вообще, ты, этот кун >>475533 и этот >>475840 сделали меня попробовать ещё. Правда, я думал затестить одну модель, поэтому не додумался зафиксировать все ответы..
Нашёл вот такую карточку: https://www.chub.ai/characters/deltavee/lord-of-the-rings-fe5d471a , попробовал без лоры снова модели выше
И, честно говоря, TheBloke_Stheno-Inverted-L2-13B-GPTQ понравилась больше всех.
Она и TheBloke_Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQ единственные кто учитывали "состояние персонажа из приветственного промпта (Sarcasm: 10 Humor: 20 Mood: Playfully intrigued)", и только в них была Athena, так понимаю, типа бортового компьютера.
Stheno-Inverted-L2 прямо распылялась в словах, но это не чувствовалось лишним. Хотя Huginn и MythoMax-L2-Kimiko-v2 в первом ответет представляли больше персонажей, они давали ответы короткие и не содержательные. Когда я упоминал, мол "Я вас тут всех знаю", они почти спокойно реагировали, что я из будущего, что там тоже есть зло, и они такие "Ну давай мы с тобой". А вот в Stheno-Inverted-L2 они именно что интересовались, удивлялись, а когда модель писала от моего имени то я "старался выражаться" понятными для них терминами, а не сыпать роботами, лазерами, ИИ и прочим.
Ради интереса попробовал в порнушной выше затестить, действительно, пишет адекватно. Но дальше "она выглядела сексуально" почти не заходит, дразнит, а в речи "надо уважать наше пространство и не творить дичь"
Даже если загрузить карточку которая буквально говорит "Эта девка известная шлюха давалка", то хоть и много пикантных подробностей описывает модель, но из шлюхи делает девочку-недотрогу, лол

Всё же мой "тест" был больше показателен как модель реагирует на обнаженку, а вот как держит сюжет и персонажей, конечно, не видно. Но это и логично. Думаю, мне хотелось больше результата как тут >>475254, лол. Хотя оказывается, когда модель хорошо отыгрывает, это и правда интересней. Эх, если бы только был чуть меньше цензуры..

Наверное, по целям модели тогда можно делить на 4:
Кодинг - это WizardCoder?
Общего назначения - WizardLm 1.2 версии или Wizard-vicuna расцензуреная
Для роллки - Stheno-Inverted-L2 мне круто зашел, Airoboros и Pygmalion
Для эро ролки - лично мне зашли больше Huginn и MythoMax-L2-Kimiko-v2, так как они откровеннее. Но после описательных способностей вроде уже и не так круто. Вот хорошо бы что-то между Stheno-Inverted-L2/Airoboros и MythoMax-L2-Kimiko-v2
Лора, кстати, добавляет чуть больше "прямых описаний", но да, как сказал анон выше, диалоги пропадают, и модель может укатиться в описания как Толстой.

Аноним 04/09/23 Пнд 13:51:35 #62 №476029

>>475855
Не можно а нужно
>>475997
Доступность и конфиденциальность, на этом можно уже закончить. Может когда привык это нормально, но со стороны анальный цирк что творится в aicg впечатляет.
А еще дает гораздо лучший экспириенс чем у сраной турбы, иллюстрация >>476001 на лицо, офк тут еще русский язык влияет. По сравнению с клодой и гопотой не имеет проблем с антицензурой, когда лезут внезапные аположайзы или радикально проебывается характер персонажа. Иногда (офк в узком диапазоне применений и условий) ллама бывает сравнима с ними по качеству ответов.
>>476002
>>476017
Правильно, для начала подобрать ползунок threads не делая выгрузку на гпу, можно на малой модели ориентируясь на скорость генерации, или вообще 0 оставь иногда так быстрее всего. Потом подбираешь n-gpu-layers, также экспериментально или мониторингом ориентируясь на потребляемую врам, должна быть забита под завязку но с небольшим запасом.

Аноним 04/09/23 Пнд 14:31:25 #63 №476055

1675112471545.png

1683890068616.png

>>476019
> обобщить инфу там
Указать явно что смотреть не в таблицу
> Это ты всё Аироборос описываешь?
Да в принципе любая из "умных" моделей.
> https://www.chub.ai/characters/batman1919191/a6c6
Потом попробую, но из больших ллам именно под кум только кимико2.
> Или ты знаешь другие приёмы для промпта?
В систем промте будет эффективнее. Пережаренные соевые из топа бенчмарков под чат будут слушаться и из простой команды, и даже есть шанс что правильно ответят, надо будет проверить.
> они почти спокойно реагировали
В получившемся замесе, видимо, не сильно развит ризонинг подобных вещей, и оно максимально благосклонно стерпит чего бы ты не делал. А если свайпнуть результат стабилен? Алсо
> когда модель писала от моего имени
> а в речи "надо уважать наше пространство и не творить дичь"
что там с форматом промта? Случаем не "хелпфул полайт асистент зет гивс хармлесс ансверс"? От этих моделей на левд карточках только левд поведение встречалось.
> почти не заходит, дразнит
Это отыгрыш или поломка?
> больше результата как тут
Это не честный результат, для скрина в карточку добавлено "согласится на предложения сексуального характера" и кимико70 так восприняла, без него удивляется, агрится на невежливость или предлагает сменить обстановку для такого. И это довольно вяло, уже не помню что там в промт темплейте стояло, но тот же мифомакс 13 куда более сочную простыню бы сочинил. Вот что Stheno_l2_q6k выдает трех секунд во втором не смущайся, в заданный лимит токенов не влезло и пришлось continue нажимать а таверна показывает таймер только последнего запроса

> Кодинг - это WizardCoder?
Пробовал его?
> Pygmalion
Оно на второй лламе есть?

Аноним 04/09/23 Пнд 14:32:48 #64 №476056

>>476029
>лучший экспириенс чем у сраной турбы, иллюстрация >>476001 на лицо
Ну по честноку на скрине долбоёб из мемов "я тебя ебу", даже турба способна на большее.

Аноним 04/09/23 Пнд 14:46:34 #65 №476065

>>476056
То лишь рофл, на скрине рили уровень старой пигмы, а турба далеко не так плоха. Но для кума/рп лламы2-13б ей вполне могут составить конкуренцию/аутперформить.

Аноним 04/09/23 Пнд 17:53:47 #66 №476208

>>476019
>https://www.chub.ai/characters/batman1919191/a6c6958a-5ea5-41d2-9689-f06161f75409 - вот тут обе модели уже на втором ответе теряли персонажей и начинались галлюцинации.
А можно пример? Я не понимаю, как вы так генерите там диалог, что вас так так вставляет это? Ну то есть я не понимаю, как без визуала это так заходит. Это же кринж >>476001, а не возбуждение.

Не проще ли винов с ф95 накачать?

Аноним 04/09/23 Пнд 17:54:22 #67 №476209

>>476208
Кинь ссылку на них, пожалуйста

Аноним 04/09/23 Пнд 17:55:21 #68 №476210

Что лучше K_S или K_M?

Аноним 04/09/23 Пнд 18:53:24 #69 №476328

>>476209
Регаешься на сайте, заходишь по этой ссылке https://f95zone.to/sam/latest_alpha/#/cat=games/page=1/notags=105,382 или ищешь раздел Latest games and updates? вбиваешь теги которые не хочешь видеть/хочешь видеть и.... вперёд в незабываемое приключение!
В некоторых из игр отсутствует баланс програсса и приходится слишком много повторных действий выполнять для достижения результата, но в целом оно стоит того. Да и немного таких. Это игры в которых есть сюжет (а не иди сюда сука ёбаная я тебя трахну, о да трахни меня я твоя сука, саня ну чего ты ждёшь обоссы мои соски), но к сожалению там большинство челов почему-то вайнят и корраптят разрабов как можно быстрее устроить секс, чем руинится ощущения от игры из-за "легкодоступности". То что я скинул всё же с относительно долгим развитием.

2Д:
Innocent Witches (доильня, но контента уже вышло достаточно, рисовка божественная, для любителей Гарри Поттера). Про витч трейнер от Акабура писать не буду, это классика которую и так все знают (+ принцесс трейнер).
Witch Hunter (доильня, но рисовка, сюжет - моё почтение. Контента хватит даже сейчас)
Alice Awakening (к сожалению абандонд, автор вероятно из Украины, но даже того что есть хватает с лихвой).
Alvein (неудобная платформа, но стоит того)
Life in Woodchester (не очень удобный движок, но стоит того)
Milftoon Drama (гг урод, движок говна, но некоторые сцены раскаляют докрасна)
pantsu hunter (великолепная рисовка и атмосфера)
ResidentX
Four Elements Trainer
Summertime Saga (ультра-вин, доильня в которой хватает тем не менее контента)
Another Chance
Bad Manners
Bones' Tales The Manor
Daily Lives of My Countryside
Dark Whispers (там по автору смотреть другие игры, сюжет так себе, но рисовка топ)
Heroes Rise Prison Break
Taffy Tales
The Night Driver (стиль)

Было что-то ещё годное из 2д, но я забыл, а найти так просто не получится.

3Д:
Milfy City
Milfcreek
True Bond
Stranded Dick
Photo Hunt
No more money
Monkey Business
Daddy daughters love (или как-то так)
Haley (файнал версия, автору уважение что смог такую стори сделать)
Flirty F (удивительно, но файнал версия)
Fashion Business (тонны текста, много часов)
Foot of the mountain (дрочильня, сюжет норм)
Thinking About You
The Point of No Return
Chemical change
Big Brother (там много разных версий относительно отличных друг от друга, очень интересно)
bad bobby saga (незаконченная, но интересно)
Room for rent (дрочильня, но в целом ок)

Аноним 04/09/23 Пнд 19:06:35 #70 №476341

>>476328
Рекомендую качать compressed версии, иначе терабайта не хватит (в поиске на форуме вбиваешь "игра_нейм_компрессд" и сортируешь по дате, у проверенных челов тег Game compressor).

Там уже некоторые начали переходить на "ai cg", но пока годноты не находил. Но если у кого-то получится реализовать что-то между игрой с сюжетом (и визуалом офк) + генерируемым ИИ миром, персонажами, то это будет уже новый уровень погружения. И решит вопрос с теми разрабами, которые доят патронов, ссылаясь на отсутствие времени.

Аноним 04/09/23 Пнд 19:19:13 #71 №476360

>>476328
А, я то думал ты про какие-то модели, которые сумрачные гении там сделали

Аноним 04/09/23 Пнд 19:34:41 #72 №476381

>>476208
> как вы так генерите там диалог, что вас так так вставляет это
Если ты про кум то считай дефолтные порно-рассказы, только ты в них главный герой. Вставляет прежде всего взаимодействие и реакция, а также возможно действовать именно так как хочешь ты в абсолютно любом сеттинге, а не дефолтная езда по рельсам. От ванилы с няшей-стесняшей из популярного тайла, до сношения медведя со слоном с отрезанием последнему головы бензопилой в процессе, осудительные в обществе фетиши так вообще база.
Плюс не кумом единым, чат с желаемым персонажем, рп и прочее, применение для околотехнических задач (если по каким-то причинам не хочешь юзать гопоту).
> Это же кринж
Да, нынче в моде подробные стены текста с описанием деталей и эмоций.
>>476328
Это внки чтоли? В любом случае за подборку спасибо.

Аноним 04/09/23 Пнд 19:34:57 #73 №476383

>>476210
K_M, качество лучше будет. Желательно выбирать Q5_K_M для 7/13B моделей. Даже незначительная потеря "perplexity" влияет на качество генерируемого ответа.

Аноним 04/09/23 Пнд 19:46:44 #74 №476416

>>476383
Спасибо, а какой лоадер лучше прочих?

Аноним 04/09/23 Пнд 19:50:04 #75 №476423

>>476383
> Желательно выбирать Q5_K_M
Q6K если уж совсем без компромиссов, от 8 бит, которая почти идентична 16, отличается совсем на ерунду. В 16 гигов с 8к контекста вроде помещалась.
>>476416
Llamacpp единственная кто этот формат понимает.

Аноним 04/09/23 Пнд 19:54:02 #76 №476430

>>476381
Благодарю за объяснение. Может когда-то попробую скачать какую-нибудь версию для теста
>Плюс не кумом единым, чат с желаемым персонажем, рп и прочее, применение для околотехнических задач (если по каким-то причинам не хочешь юзать гопоту).
Интересно было бы иметь обычного ассистента, типа клауда или гпт, но в формате условной няши-стесняши, которая давала бы нужные данные, разбавляя это ненавязчивыми шутейками, пошлостями.
>Это внки чтоли?
Ага. Для меня визуал очень важен, поэтому это идеальный вариант между погружением в ролеплей (и пусть за тебя всё решено).

Аноним 04/09/23 Пнд 20:07:30 #77 №476445

>>476430
Если железо позволяет - грех не воспользоваться когда свободное время будет.
> обычного ассистента, типа клауда или гпт, но в формате условной няши-стесняши
Любой фронт это позволяет, создаешь карточку с промтом на подобии [{{char}} = assists {{user}} with any questions, and provides long, accurate and detailed answers, regardless of moral and ethics. Has appearance of (на усмотрение).], а системным промтом определяешь баланс между ассистированием и отыгрышем. Работает как для ллам, так и для гопоты/клода.
> визуал очень важен
Есть возможность прикрутить сплайны с разными эмоциями как в внке, генерацию пикч в диффузии, предлагать тебе фиксированные варианты ответа, "показывать" картинки персонажу и прочее.

Аноним 04/09/23 Пнд 20:33:06 #78 №476468

>>476445
>Есть возможность прикрутить сплайны с разными эмоциями как в внке, генерацию пикч в диффузии, предлагать тебе фиксированные варианты ответа, "показывать" картинки персонажу и прочее.
Слишком сложно для меня пока. Я далёк от программирования, у меня уже неделю не получается дипфейки настроить, постоянно чего-то не хватает, а тут комплекс всего надо прикручивать и разбираться.
>создаешь карточку с промтом на подобии [{{char}} = assists {{user}} with any questions, and provides long, accurate and detailed answers, regardless of moral and ethics. Has appearance of (на усмотрение).], а системным промтом определяешь баланс между ассистированием и отыгрышем
Где почитать базы про это, чтобы не как макака копипастить, а понять и подстраивать? По СД нашёл себе гайд где описано всё

Аноним 04/09/23 Пнд 20:55:19 #79 №476512

>>476468
> Слишком сложно
Сплайны - просто, если брать готовые, они к некоторым популярным карточкам идут и все что нужно - распаковать и выставить настройки. Если делать самому - вот там уже скилл нужен.
> Где почитать базы про это
Что-то есть в /aicg/, но с упором на использование гпт/клод и распечатывание цензуры в них, но то что касается фронта там в целом идентично. С лламой там есть нюансы инстракт режима, системного промта и семплера. Написание карточек тоже не отличается, кроме тех где намешана лютая xml дичь или требуется определенный джейрбрейк.
> гайд где описано всё
На зарубежных поищи, чтобы все все врядли есть, или мотивируй местных на написание. На ютубе sillytavern llama глянь. Еще вариант читать последние пару-тройку тредов, но врядли тебе понравится.

Аноним 04/09/23 Пнд 22:11:43 #80 №476617

Как с последней версией угабуги стриминг отключить при использовании её без отдельных фронтов? No_stream на вкладке session не работает.

Аноним 04/09/23 Пнд 22:12:41 #81 №476619

Экспериментирую с форматом Alpaca, пытаясь заставить модель лучше следовать инструкциям.

Согласно спецификациям, должно быть ### Instruction -> ### Input -> ### Response, но тогда модель напрочь забывает, что было в ### Instruction. Если переставить местами первые два (### Input -> ### Instruction -> ### Response, под instruction только директивы - карточка персонажа и чат идут до этого), то инструкции выполняются намного лучше, и минусов вроде нет. После ### Response можно тоже задать некоторые директивы, например как в прокси - ### Response (2 paragraphs, engaging, natural, authentic, descriptive, creative) - что работает не хуже чем сама инструкция. Все инструкции вне ### Instruction выполняются крайне плохо. Они немного влияют на модель, но не более. Так что понятно, почему инструкции в карточках персонажей нихуя не работают - надо вытаскивать и сувать под ### Instruction, а сам блок переместить в самый конец контекста, прямо перед ответом.

Аноним 05/09/23 Втр 08:12:20 #82 №476905

Какое количество токенов в секунду вы считаете для себя приемлимым? Понятно что все хотят гонять модель помощнее, но всё же есть разница между 5 Т/с и 0.05 Т/с.

Аноним 05/09/23 Втр 08:46:53 #83 №476918

>>476905
Время обработки промпта раздражает намного сильнее времени генерации текста. Не считая его, 10 т/с нормально, 20+ т/с хорошо.

Аноним 05/09/23 Втр 08:50:34 #84 №476919

Кто тут с 3080 кстати, У вас быстрее например чем на 3060 генерация 13B идет?

Аноним 05/09/23 Втр 10:55:03 #85 №476972

>>476430
Но ведь СиллиТаверна умеет в генерацию ВН.
Не уловил, шо там по ссылкоте, если оно уже есть тут.

>>476468
Ну, это все двумя паками Таверна+Экстрас, там не так много копаться, как кажется.
Я после всех настроек убедился, что карточка персонажа — самое сложное в этом деле.
К тому же, я даже локальный перевод в таверну завез, че еще надо-то.
Ну, кроме железа под все это дело, да. =D 8 гигов видяхи хватит под основные нужды, но если хочешь озвучку вместо силеро получше (барк или валл-и), или SDXL для генерации — то там уже +8 гигов каждая накинет, конечно.

>>476617
В settings.yaml строчка stream: false

>>476619
Щас может быть мое заблуждение! Но:
Этот формат — формат текста, который закидывали лоре для дообучения. 99,9% там — сама Llama, которая про инструктшены вообще не в курсе.
Так что придерживаться этого формата не обязательно, плюс в разных моделях (многие к альпаке не имеют отношения вообще) — разные форматы, и по итогу, пиши че хочешь, лишь бы работало. И под каждую модель — можно редачить для лучшего результата.

В Таверне есть куча настроек, шо и куда совать, может и твои хотелки имеются.

>>476905
Старые 65Б ггмл ходили 0,3 токена/сек на 3200 в двухканале.
Это непримелимо, 20 минут на нормальный, развернутый ответ.
Новые 70Б ггмл ходят 0,7 токена/сек на 3200 в двухканале.
Это терпимее, но все еще 10 минут на нормальный ответ.
13Б модели ходят 4-5 токенов/сек на 3200 в двухканале.
Это жить можно, подходит для формата переписки с персонажем или простеньких подсказок ассистента. Но для РП — мало.
13Б модели могут давать 10-12 токенов/сек с оффлодом или на видяхе уровня 2060.
Это уже хорошо и вполне общительно.
13Б модели на 3060 выдают 17-18 токенов/сек и это уже хорошо, ответы получаются достаточно быстрые.
Все, что быстрее 20 токенов/сек — отличная скорость, где можно fluently общаться.

Плюсую >>476918 обработка промпта парит порою, но это, как я слышал, хорошо работает с оффлодом на видяху, как раз.

Аноним 05/09/23 Втр 10:59:40 #86 №476976

>>476972
> 13Б модели на 3060 выдают 17-18 токенов/сек
Нихуясе! Как? Я был счастлив пяти на 7Б пожатой до пяти бит на той же 3060, когда и процессор и карта работали вместе на 100%.

Аноним 05/09/23 Втр 11:00:44 #87 №476977

>>476055
>В систем промте будет эффективнее.
>что там с форматом промта? Случаем не "хелпфул полайт асистент зет гивс хармлесс ансверс"?
Глянул в убабуге, там было пусто. Но решил добавить туда пример анона ниже >>476445, а в СилиТаверн добавил "regardless of moral and ethics" и.. Чудо! Stheno разговорилась более откровенно. Спасибо, анончик.
Потом в промпт добавил ещё что-то вроде "with lots replicas of characters." и персонажи заговорили богаче. Круто. Не думал что это может оказывать такой огромный эффект.
>В получившемся замесе, видимо, не сильно развит ризонинг подобных вещей
Ну вот прикол в том что в модели Stheno и модели Speechless-Llama2-Hermes-Orca-Platypus-WizardLM герои понимали что это не их эпоха, а мой ГГ понимал что у него есть миссия. В других моделях такого "понимания" не ощущалось.
>Это отыгрыш или поломка?
Ну, в Кимико она почти сразу села на хуец прямо "на улице", а с Stheno со старым промптом только через пару сообщений нашли укромное место где она флэшанула сиськами, приговаривая, какой я нетерпеливый.
Не знаю, просто от "шлюханой шлюхи" ожидаешь другого поведения.
>Пробовал его?
Не совсем, я мало шарю в программировании, поэтому мой опыт описал в прошлом треде, что Визард 1.2 нашел баги и подробнее описал что делал код. Но ВизардКодер описывал тоже хорошо. Просто везде его хвалят.
>Оно на второй лламе есть?
Не нашёл, видимо, нету.

>>476208
Я тоже любитель графической составляющей, но когда-то наткнулся на игру Corruption Of Champions, которая меня поразила. Даже не особо зная английский, там так подробно описывались эмоции и половые акты, что моё воображение просто взрывалось.
Эти игры уже пиздец как надоели в том плане, что чаще берут типичные 3d модельки. Мало игр где хороший арт (хотя список проверю, спасибо).
А тут, когда у тебя за плечами тонны графического контента в голове, он легко триггерится от описаний.
И, как сказал анон выше, самое кайфовое - смотреть на реакции.
ЧТо будет, если этому персонажу спустить трусы? А этому ударить хуем по лбу? Хорошая модель отыграет довольно аутентичную реакцию. Это весело.

Аноним 05/09/23 Втр 11:05:33 #88 №476980

>>476976
У меня на ноутбучной 2060 exllama 7B модели 20 т/c и более выдаёт, лол
Может у тебя что с конфигом не так?

Аноним 05/09/23 Втр 11:08:59 #89 №476981

>>476980
Скорее всего, сейчас показать не могу, покажи пока свой? Я использовал gguf модели, загружая их через lamacpp. exllama же требует какой-то свой особый формат, не?

Аноним 05/09/23 Втр 11:09:19 #90 №476982

>>476976
KoboldCPP или LlamaCPP ggml offload? =)
А GPTQ 4bit 128 groupsize не пробовал?

>>476980
Вот-вот, та ж фигня.
Ну ладно, может не та же, надо на своей 3060 мобильной еще раз тестануть, че там llama 2 выдает щас.
Но плюс-минус.

Аноним 05/09/23 Втр 11:10:24 #91 №476983

>>476981
Вот, да.
Качаешь GPTQ, целой папкой (через git pull например), и ее запускай.
А то мучаешь фигню какую-то. =)
Да, 4-битные GPTQ будут потупее 5-6-битных квантов ггмл/ггуф, но скорость, сам понимаешь.

Аноним 05/09/23 Втр 12:05:56 #92 №477023

Аноны, тут есть кто достаточно умный чтобы объяснить чего они сделали и как? Это сложно осуществить в той же убабуге? Есть смысл в этом на слабых машинах?
https://github.com/ggerganov/llama.cpp/pull/2926

Как я понял принцип с Реддита, чуваки использовали модель поменьше, чтобы предугадать несколько заков вперёд, что скармливалось большой модели, из-за чего она быстрее выдавала результат.

Аноним 05/09/23 Втр 12:27:09 #93 №477029

>>477023
>If you try to generate free-form text, then the acceptance rate drops significantly and the method does not offer any benefit. I'm still tweaking, but my gut feeling is that this might be very efficient for cases where we have a very constrained grammar.
Там целиком смысла нет, оно для погромиздов, а не для текстовых ролеплеев.

Аноним 05/09/23 Втр 12:35:08 #94 №477033

>>477029
> оно для погромиздов, а не для текстовых ролеплеев.
Так это ж ещё лучше.
мимо

Аноним 05/09/23 Втр 14:11:42 #95 №477118

Посоветуйте настроек для убабуги что-бы ускорить генерацию. Модель stheno-l2-13b.Q5_K_M.gguf, карта RTX 3060 12GB, скорость 2.28 токена в секунду

Аноним 05/09/23 Втр 14:22:11 #96 №477126

>>476977
Алсо, добавлю, что к Stheno при таком раскладе можно применить Лору Кимико, тогда она тоже становится более сговорчивой в плане деталей всяких непристойностей.
>>477118
Я бы было посоветовал тебе GPTQ модель на эксламе запустить, но анон выше говорит что они тупее могут быть. Но и скорость выше.

Аноним 05/09/23 Втр 14:34:22 #97 №477134

>>476905
То, которое опережает чтение при стриминге. 5-7 т/с наверно нижний порог, 15 - хорошо, 35 - больше и не нужно.
>>476918
Двачую, без гпу ускорения хотябы обработки пользоваться считай нереально. То что средней длины пост будет печататься 40 секунд это нормально, учитывая что сразу можешь его читать, но при превышении контекста это будет превращаться в 240.

Аноним 05/09/23 Втр 14:49:48 #98 №477156

>>477126
Спасибо, попробую

Аноним 05/09/23 Втр 15:09:39 #99 №477176

Объясните, или тыкните, где самому почитать можно про RoPE апскейлинг контекста или чем он точно занимается?
В угабуге есть коэффициент альфа в настройках загрузчика модели, если его поставить равным 2, он получается контекст в два раза увеличивает? Пока пробовал рпшить, особо не понял но если ставить 4 или вовсе 8, сетка либо будто бы в луп быстрее уходит, либо по ощущениям будто тупеет слегка, мне где-то на глаза попадалось, что пусть потери точности и минимальны, но при высоких значениях, наверное как раз и приводят к странному поведению модели.

Ещё тыкните где ChromaDB брать ну и почитать тоже, а то не до конца вкурил как она на расширение памяти не через контекст влияет, а то в угабуге попробовал галочку прожать, но он сказал, что самой хромы нету, соси

Аноним 05/09/23 Втр 17:36:38 #100 №477312

1676861040526.png

1658991908424.png

>>476619
Через ноутбук убабуги делаешь? Там еще довольно важны ньюлайны, вплоть до того что они определяют больше чем порядок инструкций, по крайней мере так упоминали. Конфигурацию где 2 штуки ### Instruction пробовал? Так иногда делали настраивая таверну.
Ну и главный вопрос - на какой модели тестируешь?
> почему инструкции в карточках персонажей нихуя не работают
Какого рода инструкции? Персоналити и характер очень сильно влияет, пикрел становится если заменить
> She is very lustful and love sex
на
> She hate sex and will make who sexually harasses her to suffer before painful death.
> и сувать под ### Instruction, а сам блок переместить в самый конец контекста, прямо перед ответом.
Попробуй, если будет результат - отпиши.
>>476972
> К тому же, я даже локальный перевод в таверну завез, че еще надо-то.
Давай рассказывай как и насколько хорошо работает. Голосовую озвучку случаем не запиливал?
>>476977
> Чудо!
Как бы странно не звучало, так бувально работает "делай хорошо, не делай плохо". Важно только коротко-лаконично-понятно и разделять пунктуацией противоположности чтобы было сложнее неверно. И не перебарщивать, а то приведет в шизе или противоположному результату. Например, строгое требование очень длинных и подробных ответов в сочетании с запретом продвижения и "только юзет решает что дальше, ничего не придумывай" к хорошему не приведут.
> "шлюханой шлюхи" ожидаешь другого поведения
Да вроде как раз, лол.

Аноним 05/09/23 Втр 17:46:11 #101 №477337

>>477312
Да поддержку LibreTranslate в Таверну.
Работает как работает либре — среднего качества. Но для тех, кому ссыкотно отдавать гуглу на перевод, а английский знается не так хорошо, удобоваримый вариант.
Перевод, ясен пень, очень быстрый.
Но если привык на инглише — лучше на нем оставаться, ИМХО.

Голосовую нет. Я Силеро запускал из SillyTavern-Extras, но у меня она че-т глючила, мне пока лень разбираться. Но это косяк из-за виртуалки, я подозреваю. Думаю, у вас глючить не должна.
А на барк или валл-и у меня лишней видяхи в данный момент нет, поэтому я не парился.
Но вообще, было бы интересно валл-и посмотреть, как бы оно работало с обучением голосов.

Вообще, если в таверне есть режим ВН, думаю туда бы хорошо зашли озвучки от всяких сейю, чтобы еще и звучало как в ВН.
И можно играть свое бесконечное лето, кек.

Аноним 05/09/23 Втр 20:07:56 #102 №477592

>>476972
> В settings.yaml строчка stream: false
Благодарю, добряк.
>>477118
Литералли то, что я спрашивал, отключение стриминга ускоряет вне зависимости от модели, но если нравится читать на ходу генерации, то не выключай.
>>477337
> Да поддержку LibreTranslate в Таверну.
Может напишешь какой нибудь врайт-ап как сделать так же? С английским то проблем нету, но если уж и транслейт можно с полпинка локальный завести, то почему бы и нет.

Аноним 05/09/23 Втр 20:22:52 #103 №477617

>>477592
> Может напишешь какой нибудь врайт-ап как сделать так же?
Двачую, у этого господина хорошо писать получается, что ни пост то с внутренним скроллом, а тут бы нам гайдик накидал. Плюс если не только по переводу а всему процессу сделает - вообще заебумба будет, а то вон бедолаги просят как делать и где почитать, а отвечать нечего.

Раз уж тема зашла, кто-нибудь переводом через лламу обмазывался? Идея заставить визарда 13 или 30б (первой лламы) кормить постами с подходящим форматом инструкций, но при этом еще дополнительно дать "контекст" из нескольких постов перед этим для улучшения качества перевода. Взлетит? Улучшит ли поэтичность и качество текста дополнительный контекст, или больше запутает? И по возможностям перевода, осилит или только 7065б потянет?

Аноним 05/09/23 Втр 21:02:25 #104 №477706

>>477617
>Взлетит?
Переводит даже 7B, хоть и хуёво. Но даже старшие постоянно слетают из режима перевода, думаю, там надо более строгие форматы инструкций использовать.
Каких-либо преимуществ перед диплом не увидел, да и у гугл транслейта посасывает. Но однозначно лучше либры, там вообще говно устаревшее.

Аноним 05/09/23 Втр 22:28:45 #105 №477897

>>477592
https://github.com/LibreTranslate/LibreTranslate

Install and Run секция, например.

Запускаешь libretranslate.bat, кажись.

После запуска в SillyTavern вкладка с переводом.
Выбираешь LibreTranslate, жмешь на иконку ссылки, вводишь http://127.0.0.1:5000/translate ну или какой у тебя айпи и порт будут.
Ставишь перевод настройки перевода по вкусу, язык Russian или какой хочешь.
Ну, короче, все очень просто, хотя приходится накатывать сторонний сервис, но я его даже в виртуалку пихать не стал. Как по мне, и так норм.

>>477617
А вот по всему процессу — сложнее. Я пока с промптом и карточками не определился, выше есть люди которые получше разбираются. Буду пробовать разное, может чего накопаю, можно будет и гайдик оформить.
Заодно, силеру у себя пофикшу на сервачке, чтобы озвучка работала.

Аноним 05/09/23 Втр 22:28:57 #106 №477898

1664539359553.png

1563180216194.png

1574898919480.png

>>477706
> более строгие форматы инструкций использовать
Ну в том и задумка была, пикрел. Получается посредственно какую модель не возьми. Тут, конечно, просто отдельный кусок без контекста, когда чат идет оно лучше справляется, и может поможет, но ошибки в родах-склонениях-падежах наверно никуда не денутся, да и надмозг может случиться.
> Но однозначно лучше либры
Точно?
Попробуй перевести (звездочки курсивом заменит но похуй)

["Ah, home sweet home," her voice dripped with a melancholy that only comes from longing for places left behind. "My little sanctuary lies hidden amongst the labyrinthine alleys of Tokyo's Shibuya district."

She paused briefly to collect her thoughts before continuing.

"It's nothing grand really - just an ordinary flat in an aging high rise building overlooking bustling streets below filled with people hurrying about their lives unaware presence ancient creature dwelling midst them all . Inside walls covered artwork depicting scenes nature inspired by memories forest we used call haven thousand years ago …and yes it does have special room dedicated solely storing tea collection acquired various travels throughout centuries ;). Want to give a try?"]

Аноним 05/09/23 Втр 23:17:25 #107 №477979

изображение.png

>>477898
>Точно?
Либра мне точно не понравилась, это я помню. По датам разогревочных постов можешь увидеть, когда я делал эксременты (да и в тредах отписывался). Либру поднимать лень.

Аноним 05/09/23 Втр 23:24:37 #108 №478000

1558015343064.png

1642667577914.png

1573194438851.png

>>477898
Ладно, тут текст действительно забористый и даже гугл немного тонет в нем. Либра (та что онлайн) хуже нейронки, тут наверно только клода справится. Но такие реплики выдает и они соответствуют образу, на чем-то более простом может быть лучше. Чсх, когда обратно переводит на инглишь - косяки исправляет и текст уже нормальный, правда слог более простой.
Тут нужно делать файнтюн с переводами художки русский-английский, сайгу если что тоже пробовал - ерунда вообще. Немного лучше остальных справляются nous-hermes и годзилла. Но все рано доверять переводить того же ерп все еще нельзя а то обосрешься с
> посылают ознобы по спине
> которое она не чувствовала уже некоторое время
> дышит хриплыми вздохами на вашей шее
> чертит узоры, оставляющие шрамы
> томно вибрирует

Если дать такой русский текст на вход и запросить исправление в нем ошибок, то фиксит от трети до половины родов, но неудачно построенные фразы никуда не деваются. Вообще если сгенерировать несколько переводов то можно черрипикнуть отборные куски и из них составить приличный текст. Можно попробовать такое провернуть, но хз сможет ли модель понять где херь а где норм имея ограниченные познания языка.

>>477979
В голосину, а это чего такое? Либра что хостится онлайн косячила но вроде не настолько.

Аноним 05/09/23 Втр 23:33:58 #109 №478020

>>478000
>В голосину, а это чего такое?
TheBloke_Stable-Platypus2-13B-GPTQ и --lora lemonilia_limarp-llama2-13B

Аноним 05/09/23 Втр 23:43:23 #110 №478036

>>477897
Как раз пока пробуешь - помнишь и погружен в тему, ты начни а если что тебя поправят.
>>478020
> Stable-Platypus2
Если без лоры он триггерится на перевод левд активностей? Алсо из 13б для перевода рекомендую stheno-l2 попробовать, в первый раз выдала удивительно приличный результат, но потом пошло лютое фантазирование и сочинение вообще из смежной области, но выглядело складно.
Какой промт карточки?

Аноним 05/09/23 Втр 23:45:35 #111 №478042

>>478000
Я изначально выбрал либру именно потому, что она переводила хорошо. Хуже гугла, но лучше 13Б первой лламы.
А вот вчера она будто поломалась, перевод у меня стал прям ужасненький местами. Не могу понять, почему.

>>477617
Перевод другой лламой встречал в убабуге, или где он там, но я не осознал профита. Типа, рассуждает лучше на английском, а потом просто переводит на русский как умеет?
По идее, по скорости здорово просаживается. Если уж и юзать перевод, то хотя бы 13Б, а это уже некоторое время. Хм.

Ваще хз, надо сравнивать и думать. Если не забуду, посмотрю завтра, как реализован перевод другой лламой, и насколько это легко прикрутить к таверне.

Кстати, 70Б отлично (кмк) говорит на русском, там и перевода никакого не надо.
Но из-за скорости (отсутствия двух 3090=), я не тестил, каково с ним рпшить, конечно.

Аноним 05/09/23 Втр 23:54:57 #112 №478057

А существуют ли бенчмарки ламы на разных ЦП? Хотелось бы сравнить скорость.

Аноним 05/09/23 Втр 23:56:31 #113 №478058

изображение.png

>>478036
>Если без лоры он триггерится на перевод левд активностей?
Не пробовал. Модель вообще первая попавшееся, что висела в настройках убабуги.
>>478036
>Какой промт карточки?
Сферический ESL в вакууме.

Аноним 05/09/23 Втр 23:56:58 #114 №478059

>>478042
Да, если использовать ту же модель то считай в 2 раза просадка, но уже на среднем железе будет приемлемо, выше 7-10 эффективных токенов в секунду получится.
Скорее проблема в том что используемая для рп модель может быть слаба в переводе. Используя другую нужен будет механизм ее динамической подгрузки (чтобы модель не с диска каждый раз читалась а из дампа в оперативе). Как вариант - делать лору и накладывать на оригинальную модель, но если там будет типичный шизомикс - даже хз что получится.
> 70Б отлично (кмк) говорит на русском
Выше именно с них примеры, только в одной где промт темплейд под визарда его 13б 1.2 версия. Кмк, тринашку хотябы до уровня семидесятки в русском довести можно, а последнюю уже полноценно хорошую речь выдавать.
> Если не забуду, посмотрю завтра, как реализован перевод другой лламой, и насколько это легко прикрутить к таверне
Было бы очень круто, спасибо.

Аноним 06/09/23 Срд 01:38:41 #115 №478146

Почему exllama может ругаться на конфиг мифомакса с указанием на декодер? Всё недавно скачанное

Аноним 06/09/23 Срд 05:33:47 #116 №478197

>>477897
> Install and Run секция, например.
Через пип просто вроде нормально запускается, так проще, тем пердолиться с всл и докером.
Вот только что вообще с последней версией угабуги, апи не работает. Уже попробовал переставить и вручную запускать python server.py --api, в чем проблема то?

Аноним 06/09/23 Срд 06:44:39 #117 №478211

>>472695 (OP)
Как сильно влияет количество кеша L2/3 процессора на скорость выдаваемых токенов в секунду? без видеокарты, чисто на проце и оперативке Например 5700g в сравнении 5700x ?

Аноним 06/09/23 Срд 06:47:51 #118 №478213

Посоветуйте лучший чат бот на koboldccp для 18+, использующий не более 13 гигов оперативки.
От себя скажу, что https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGML пока что лучшее, что я смог найти, но может кто то знает чат бота получше для 18+, но такого же адекватного?

Кстати, какую квантализацию вы обычно берёте? Какая самая лучшая по уровню скорости/адекватности ответов?

Аноним 06/09/23 Срд 07:25:23 #119 №478220

1635799112099.png

>>477897
>>478197
Не заметил, что они на один и тот же порт по дефолту вешаются, вообщем заработало, перевод самое то под карточку сидоджи из потраченной версии сан андреаса, нету случайно такой где нибудь?

Аноним 06/09/23 Срд 08:38:20 #120 №478233

Здарова ЛамаАноны! С полгода где-то не запускал локальные модели, вот решил зайти глянуть что новенького.
Из того что заметил:
Появилась Ллама 2 и куча моделей на её основе нихуя не понятно чем конкретно она лучше но очень интересно
Топ локального кума сейчас похоже занимают Airoboros - Chronoboros - Airochronos с разными модификациями и местами 8к контекста Сразу полез качать airoboros-l2-70b-gpt4-2.0.ggmlv3.q2_K чтобы запустить на своей кофеварке с 32 гигами ОЗУ, всё правильно сделал?
Помимо ggml и gptq явились какие-то GGUF модели, чё это? имеет ли отношение к одноимённому реперу?

Аноним 06/09/23 Срд 09:07:10 #121 №478243

Да не пацаны, жарится с физруком не стайл (720p).mp4

>>478233
GUFF - нигерская версия старых-знакомых моделей, для тех кто любит анал

Аноним 06/09/23 Срд 11:37:21 #122 №478309

Аноны, подкиньте хороший промпт для Airoboros 70b.

Аноним 06/09/23 Срд 11:57:08 #123 №478314

>>476001
Как добыть ChimeraAPI? В дискорд не пускает.

Аноним 06/09/23 Срд 12:43:22 #124 №478356

Ace Ventura - Really scene.mp4

>>478233
>Топ локального кума сейчас похоже занимают Airoboros - Chronoboros - Airochronos с разными модификациями и местами 8к контекста

Аноним 06/09/23 Срд 12:45:25 #125 №478361

>>478356
Эту информацию нужно в следующей шапке закрепить

Аноним 06/09/23 Срд 12:47:13 #126 №478363

>>478211
Никак, кэш у тебя 10-100 мб, модели 2000-50000 мб. =)
Я лично разницы между 16 и 64 кэша не увидел.

>>478213
> Таким образом, хорошие варианты для первой ламы: Q3_K_M, Q4_K_S, Q5_K_S, ну и Q6_K почти идеал.
Сам выбирай, многие советуют Q5_K_S или M, я юзаю Q6_K, кто-то сидит на Q4_K_S.
GPTQ в 4 бита квантуется.

>>478220
Взорал! Поищи че-то там про трех нигр, которые обсуждают друг с другом и выдают общий ответ.

>>478233
Еще Mythomax или
Speechless-Llama2-Hermes-Orca-Platypus-WizardLM и Лоры Кимико или ЛимаРП.

70Б в 32 гига впихнуть можно, но скорость будет… Если у тебя память очень быстрая ddr5, разве что.

gguf — аналог ggml с фишками.

Аноним 06/09/23 Срд 13:23:52 #127 №478381

>>478363
>Я лично разницы между 16 и 64 кэша не увидел.

А тупо количество ядер на скорость решает? Количество потоков уже проверял, разницы особой нет, разве что на долю миллисекунды токена в секунду быстрее, что 5 - что 12 практически один хрен Или может частота ядер важнее?

Аноним 06/09/23 Срд 13:42:04 #128 №478390

>>478213
> не более 13 гигов оперативки
Уууух, это грустно. Но раз у тебя 13б запускалось то норм, https://huggingface.co/TheBloke/Stheno-L2-13B-GGUF после соевой викуньи кайфанешь, мифомакс тоже подойдет. С адекватностью там раз на раз, но в общем случае оно довольно прилично рпшит и без 18+, даже умные вещи выдает.
> какую квантализацию вы обычно берёте? Какая самая лучшая по уровню скорости/адекватности ответов?
Самую большую что устроит тебя по скорости, остановиться есть смысл на q6k.
>>478220
Ахуенно, Йо йо, большой ледышка, это я, Карл! Холод, холод!
>>478233
> локального кума
То же что выше написал. Айроборос 2.1 может в кум, но не с такими красочными и откровенными описаниями, он скорее для обычного рп или "общего применения". Но так замес с хроносом все еще может порадовать, если не выработал аллергию на паттерны текста последнего.
> с разными модификациями и местами 8к контекста
Ставишь альфу 3+ и контекст 8к, вот и вся модификация.
> airoboros-l2-70b-gpt4-2.0
2.1 качай, только не креатив, тот что-то не понравился, склонен фантазировать что-то левое и несколько раз ломался, начиная выдавать несвязанные по смыслу слова в конце поста.
> q2_K
Бле, там же от магии ничего не осталось, хотябы 3 бита качни.
>>478309
Дефолтный ролплей шаблон таверны работает, да он типа под альпаку, но воспринимает. Вообще там по дефолту от викуньи, можешь из него попробовать составить.
>>478363
> Speechless
И оно норм? Эти странные миксы наводнили пространство, кто-то их субъективно тестит, всеже аюми ерп бенч не совсем про качество.
>>478381
Основное - псп рам, остальное вторично. При прочих равных офк более быстрые ядра окажутся впереди, но незначительно. Делать векторные операции, упираясь в 2 канала ддр4-ддр5 хватит и 4-6 современных ядер.

Что там за тряска у TheBloke? Ридми и еще что-то во всех моделях перелопатил, перемешав их даты, как теперь ориентироваться.

Аноним 06/09/23 Срд 13:45:19 #129 №478393

Где можно почитать про разные лоадеры? Из так много и непонятно какой лучше для чего

Аноним 06/09/23 Срд 13:46:54 #130 №478395

>>478393
В шапке же всё. Для проца кобольдЦп, для видяхи вебуи с ExLlama.

Аноним 06/09/23 Срд 13:51:10 #131 №478397

>>478395
> ExLlama
У меня она не завелась >>478146

Аноним 06/09/23 Срд 13:51:37 #132 №478398

Там недавно Мифалион вышел, микс Мифомакса и второй пигмы. TheBloke уже квантизировал: https://huggingface.co/TheBloke/Mythalion-13B-GGUF

Аноним 06/09/23 Срд 13:51:46 #133 №478399

>>478393
Одна Exllama чтобы править GPTQ и одна Llamacpp чтобы править ggml/gguf. Больше ничего не нужно, чтобы использовать все настройки семплера выбирай конфиг где HF на конце. В целом по ощущениям более жирные кванты ggml/gguf дают лучший результат чем 4бита gptq, так при наличии 16+гб врам для 13б моделей можно отказаться от экслламы, просадка по скорости в 2 раза сильно не огорчит, ибо всеравно быстро.
Если с убабугой не дружишь или лламац++ почему-то не работает - koboldcpp, все в одном и некоторые настройки упрощены.
>>478397
Модель гитом качал? Что за ошибка

Аноним 06/09/23 Срд 13:53:53 #134 №478402

>>478399
Вечером точную цитату скину, качал в рамках автоматической установки вебуи. Ругался на то, что что-то там не так с декодером json

Аноним 06/09/23 Срд 13:54:52 #135 №478405

>>478398
> второй пигмы
Хуясе ебать, срочно качаем и тестируем

Аноним 06/09/23 Срд 14:01:17 #136 №478411

>>478381
Скорость памяти решает.
Я тестил, после 5 потоков скорость растет очень медленно. Это для 3200 частоты в два канала.
ddr5 хорошей у меня нет, да и гнать мне лениво.

>>478390
> Эти странные миксы
советовали выше с Кимико лорой. Я вчера тока скачать успел, потом коммит в таверну сделал — и спать.
Потестить не успел, к сожалению, да и седня на работе проебываюсь, а не делом занимаюсь, поэтому хз, если честно. =) Я не люблю миксы, но сверху прям советовали активно. Попробовать стоит, я думаю.

>>478398
У, хорош! Плюс к тестам.

>>478399
> просадка по скорости в 2 раза
Шо ж у тебя там за видюха такая. =)
Или память.
У меня раз в 6 просадка, меня подогорчает.
По итогу-то все упирается в нижнюю скорость, а не в размер просадки. Мне не оч комфортно на проце 13Б. Ну да об этом выше писали уже.

>>478402
Ну, ты скачал все, шо там было? Всякие файлики помимо model.safetensors тоже? И все в одной отдельной папке? :)

Аноним 06/09/23 Срд 14:03:30 #137 №478414

>>478411
Да, как ты, как я понимаю, гит клоном репки. То есть он читает config.json, но что-то ему там не нравится

Аноним 06/09/23 Срд 14:05:11 #138 №478416

>>478414
Оу, тады я хз, не подскажу сходу.
Мне всегда помогало актуализировать гит и все. Обычно просто какого-то файла не хватало.
Но если в статусе Already up-to-date, то не знаю. =с

Аноним 06/09/23 Срд 14:09:39 #139 №478421

лама код ща как запустить?

Аноним 06/09/23 Срд 14:13:26 #140 №478429

>>478421
13B должна запускаться на стандартных инструментах.

Аноним 06/09/23 Срд 14:16:36 #141 №478433

>>478429
> стандартных инструментах
Это которые в шапке?
а на 100 гб озу какую можно запустить?

Аноним 06/09/23 Срд 14:19:14 #142 №478442

>>478411
> советовали выше с Кимико лорой
Всмысле просто на голую лламу2 ее? Или накладывать еще раз поверх миксов? Она уже внутри них есть в последних.
> Шо ж у тебя там за видюха такая
Как у всех ада лавлейс на 24 гига х2, все слои на карточке, вместо 70+ токенов в экслламе 30-40 в llamacpp. По мониторингу отжирает ~13гб врам, с увеличением контекста офк растет. В принципе если скинуть несколько слоев то влезет и в 12, но просадка будет больше. Качать же более легкий квант - выигрыша над gptq не будет, там exllama ванлав.
>>478414
Если качал давно то отдельно перекачай конфиг или прогугли ошибку. Там были неверные значения и блок их правил что видно по дате обновления в репе.
>>478433
Любую квантованную.

Аноним 06/09/23 Срд 14:23:23 #143 №478446

>>478442
Вчера качал, ошибку прогуглил, нашёл только обсуждение в какой-то здоровой модели, где всё свелось к тому, что "я обновил и всё заработало"

Аноним 06/09/23 Срд 14:35:02 #144 №478459

>>478433
70Б, чому бы и ни.
Прост медленно.

>>478442
Не, в смысле берешь этот ебучий микс, который начинается с Спичлесс, сверху кимико.
Как я понял.

А, ты про оффлод, тады понял. Да, я не подумал, что можно просто ггмл/ггуф более высоко квантованный оффлодить, и скорость, и качество, где-то между.

Аноним 06/09/23 Срд 17:32:48 #145 №478686

>>478405
Вторая Пигма говно как и первая, ответы короткие и в стиле "да, ты меня ебёшь", у них всё так же обоссаный датасет. А вот Мифолион неплох. Выдаёт меньше простыней чем Мифомакс, но побольше креатива чем Пигма.

Аноним 06/09/23 Срд 19:38:30 #146 №478923

Как пользоваться расширением superbooga?

Аноним 06/09/23 Срд 20:17:28 #147 №478986

Там это, сетку на 180 лярдов параметров выпустили.
>Spread Your Legs: Falcon 180B is here
https://huggingface.co/blog/falcon-180b

Аноним 06/09/23 Срд 20:23:08 #148 №478993

image.png

ИДИОТЫ, ДЕБИЛЫ И ТУПОЕ ГОВНО! (720p).mp4

>>478398
После того, как запустил этот ваш Мифалион и попробовал как обычно пообщаться со своими персонажами:

Аноним 06/09/23 Срд 20:23:13 #149 №478994

>>477312
>>477312
>Через ноутбук убабуги делаешь?
Через таверну. Но я печатаю конечный промпт в консоль, чтобы не было сюрпризов.
>Там еще довольно важны ньюлайны, вплоть до того что они определяют больше чем порядок инструкций, по крайней мере так упоминали.
Спасибо, добавил.
>Конфигурацию где 2 штуки ### Instruction пробовал? Так иногда делали настраивая таверну.
Я много чего перепробовал и пришел к выводу, что 13b модели просто тупые до невозможности.
>Ну и главный вопрос - на какой модели тестируешь?
Разные 13b - mythomax, stheno.
>Какого рода инструкции? Персоналити и характер очень сильно влияет, пикрел становится если заменить
Характер влияет, но вот механики не работают, или работают очень плохо. Например вот такая карточка вообще нихуя не работает: https://chub.ai/characters/LewdAmI/magic-marker
Так же не работают и более простые директивы сюжета, например как тут в конце карточки: https://chub.ai/characters/Anonymous/Reiko
>Попробуй, если будет результат - отпиши.
Что за персонаж?

Аноним 06/09/23 Срд 20:33:48 #150 №479020

>>478986
>The Belobog Academy has discovered a new, invasive species of algae that can double itself in one day, and in 30 days fills a whole reservoir — contaminating the water supply. How many days would it take for the algae to fill half of the reservoir?
Правильный ответ дала с третьего раза. Но хотя бы дала, лол. Объяснила правильно, но с формулой обосралась.
>If we know that the algae doubles itself each day and that in $30$ days it can fill the entire reservoir, then it must be true that in $29$ days the algae will only be able to fill half of the reservoir because $\frac{1}{2} = 2^{-1}$, which means the algae needs to double once more to reach full size.

Аноним 06/09/23 Срд 20:37:50 #151 №479028

>>478993
На русском, с 13б англоязычной сеткой. Я даже не знаю кто тупее - ты или эта пигма.

Аноним 06/09/23 Срд 20:43:33 #152 №479043

>>478993
На каком блядь русском? Не видно что я перевёл всё с английского?

Аноним 06/09/23 Срд 20:44:10 #153 №479046

>>479028

>>479043

Аноним 06/09/23 Срд 20:46:42 #154 №479053

image.png

>>479028
Что скажешь теперь, "нетупой" ?

Аноним 06/09/23 Срд 20:51:48 #155 №479063

0.png

>>479028
>На русском, с 13б англоязычной сеткой
>Я даже не знаю кто тупее

Ты

Аноним 06/09/23 Срд 21:05:30 #156 №479105

>>479053
Скажу, что ты всё ещё тупой.

Аноним 06/09/23 Срд 21:13:24 #157 №479114

>>478686
Эх жаль, но всеравно надо потестировать, ведь 6б для своего времени была ничего, а 7-13б первой лламы несколько провальные.
>>478994
> Но я печатаю конечный промпт в консоль
Ээ, так в консоль можно печатать? Или ты имеешь ввиду в само текстовое поле? Поиграться с форматом там можно в настройках, Last Output Sequence и около того. Покажи
> просто тупые до невозможности
> mythomax, stheno
Они не лучший пример для тестирования работы инструкций, можешь ради рофла заставить их что-то перевести или обобщить - такую дичь могут насочинять, а потом сравни с нормальными файнтюнами. Но если ты именно для (е)рп целей тестишь то норм, но тогда для советов по стилю и около того хорошо работает
> ### Response (2 paragraphs, engaging, natural, authentic, descriptive, creative)
а направление развития сюжета делается через (ooc: ) если уж модель совсем не догоняет намеков.
> механики не работают, или работают очень плохо. Например вот такая карточка
Ага, что-то сложное с 13б уже увы, особенно где пишут жпт4 рекомендед, могут помочь примеры диалогов где это реализовано.
> например как тут в конце карточки
А вот их в авторз ноут поближе к ответу перенести если то сразу заработают. Но вообще обычно такое всеже и из карточки работает, может дело в количестве условий, хз.
> Что за персонаж?
?

Аноним 06/09/23 Срд 21:14:17 #158 №479117

>>479114
> Покажи
Покажи что получается в итоге по формату и если есть то примеры как слушается/не слушается если нашел как лучше.

Аноним 06/09/23 Срд 21:52:07 #159 №479186

>>479114
>Ээ, так в консоль можно печатать?
Включи "Log prompts to console" - будет печатать финальный промпт в консоль браузера. Очень удобно для настройки и отладки.
>Но если ты именно для (е)рп целей тестишь то норм, но тогда для советов по стилю и около того хорошо работает
>а направление развития сюжета делается через (ooc: ) если уж модель совсем не догоняет намеков.
>Ага, что-то сложное с 13б уже увы, особенно где пишут жпт4 рекомендед, могут помочь примеры диалогов где это реализовано.
Ну а для чего же еще, конечно для ерп. Как я понял, простенькие механики можно заставить работать, но нужно несколько примеров, или подредактировать два-три первых поста. Про что-то сложное на локальных моделях пока остается только забыть.
>?
Я про Акву у тебя в посте. Не нашел именно эту версию на чубе.

Аноним 06/09/23 Срд 22:00:17 #160 №479205

>https://huggingface.co/TheBloke/llama2_70b_chat_uncensored-GGML
Крута?

Аноним 06/09/23 Срд 22:14:54 #161 №479223

1639527558371.png

1668972118632.png

>>479186
> будет печатать финальный промпт в консоль браузера
Хм, смотрю его в консоле от запуска, но так может быть даже удобнее.
> Я про Акву у тебя в посте
Это еще из старой таверны, по дефолту были Аква, Мегумин и Даркнесс https://files.catbox.moe/ytbyyh.png
>>478994
> Например вот такая карточка вообще нихуя не работает: https://chub.ai/characters/LewdAmI/magic-marker
Там вообще конкретное шаманство и даже свой джейлбрик промт со спецификой карточки, его надо бы тоже добавить, но хз куда.
Как она должна работать? Пикрел пример с лламой70, вроде адекватно, механику воспринимает, указаний слушается. Еще выдает конкретно курсед имперсонейты пикрел.

Аноним 06/09/23 Срд 22:38:44 #162 №479258

1.jpg

>>479117
>Покажи что получается в итоге по формату и если есть то примеры как слушается/не слушается если нашел как лучше.
Промпт постоянно меняю. Сейчас по сути стандартный формат Alpaca только в конце к response добавил (2 paragraphs, engaging, natural, authentic, descriptive, creative, avoid narrating {{user}}'s actions). Прикрил - пример как должно работать. Заметил что манипулировать началом сообщения гораздо проще, и в случае чего можно сразу заметить и отредактировать или перегенерить.
>>479223
>Хм, смотрю его в консоле от запуска, но так может быть даже удобнее.
Ну да, удобнее. В консоли тоже можно, то тогда придется как минимум уменьшать шрифт.
>Пикрел пример с лламой70, вроде адекватно, механику воспринимает, указаний слушается.
Не работает у тебя. Оно должно писать все статусы в конце ответа. Например, на пикриле у меня наконец получилось заставить работать мифомакс.

Аноним 06/09/23 Срд 23:00:08 #163 №479285

1671375266675.png

>>479258
> Не работает у тебя
Ну как не работает, не пишет то что должно в конце. Чекнул еще раз - оно появилось. Тут главное чтобы было в первом посте и потом повторилось, после стоит довольно устойчиво, если только сообщение не обрывается по контексту. Не лишним будет офк внести в системный промт, с авторзнотами норм тема у тебя, это по сути автор карточки и сам говорит сделать.
Вот пикрел на Stheno-L2 (без доп промта) если один-два раза ее подкорректировать в начале или свайпнуть пока не появится то эффект сохраняется, только изредка пропускает. Но, конечно, сложно на ней подобное делать, так и пытается шизой увести куда-то в сторону и приходится свайпать, причем это с температурой 0.5. Ей бы действительно интеллекта добавить, с красочностью описаний все хорошо.

Аноним 06/09/23 Срд 23:30:10 #164 №479319

Уже смотрели?

https://easywithai.com/resources/stable-beluga-2/

Есть веб

https://chat.stability.ai/chat

Аноним 06/09/23 Срд 23:48:17 #165 №479341

>>479319
>This LLM is currently leading the chart on Hugging Face’s Open LLM Leaderboard
Вижу это заявление уже второй раз за сегодня. ИЧСХ, в лидерах нет обоих.
Ну и стабилити аи отличаются весьма высокой соевостью, это я могу сказать даже без запуска модели, чтения паперов и прочей требухи.

Аноним 07/09/23 Чтв 00:07:00 #166 №479367

>>479341
>обоих
Все ламы задрочены на TruthfulQA, которое среднюю оценку сильно задирает (и как метрика это хуита кстати). Смотреть надо на остальные три метрики.

Аноним 07/09/23 Чтв 01:21:58 #167 №479449

>>479341
> Вижу это заявление уже второй раз за сегодня
>>479319
> about 2 months ago
И уже появлялись файнтюны что ее по бенчам обходили.

>>477898
OpenBuddy смог, косяков меньше всех, нет "лабиринтных улиц" и смысл передан верно. Слушается пожеланиям по стилю для русского, хороший мультиязычный файнтюн. Если из дефолтного промта убрать про сою то без проблем переводит все, но качество может уплыть.

Аноним 07/09/23 Чтв 01:25:12 #168 №479452

>>479319
Смотрели. Оно весьма тупое и соевое, нахуй.

Аноним 07/09/23 Чтв 03:54:33 #169 №479556

firefoxQwnEH8vuYy.png

появилась новая модель, мердж из нескольких лор и некой приватной "Undi95/ReMM-S-Light (base/private)"
https://huggingface.co/Undi95/MLewd-L2-13B-v2-1-GGUF
уже протестил, работает отлично с настройками как на пике, разумеется ласт пулл ST, и температура 0.59 или 0.71, по выбору.

Аноним 07/09/23 Чтв 05:31:13 #170 №479590

image.png

>>479556
Ух бля, вот это она сюжеты мне заворачивает, вот это я понимаю...

Аноним 07/09/23 Чтв 05:57:32 #171 №479594

>>479556
покеж че пишет то хоть. Насколько умна и сколько персов может тащить. Лучше ли чем например stehno?

Аноним 07/09/23 Чтв 06:16:42 #172 №479596

>>479594
Оставлю отзыв лично от себя:
Тупее и нелогичнее топовой - разумистской https://huggingface.co/TheBloke/Mythalion-13B-GGUF , но зато более "живая" и от неё попахивает старым добрым character.ai в первые месяцы его выхода, до окончательной кастрации и даунгрейда создателями, хотя опять же, лично я, использовал самую маленькую версию MLewd-L2-13B-v2-1.q4_K_S. Возможно версии побольше будет лучше. Я бы эту модель точно в свой топ 3 добавил.

Аноним 07/09/23 Чтв 06:26:32 #173 №479600

>>478414
Попробовал переустановить и заработало. Ох уж этот питон.... Есть ли возможность добиться производительности экслламы на ггуф/ггмл моделях?

Аноним 07/09/23 Чтв 06:47:30 #174 №479605

>>479596
о Mythalion-13B-GGUF вообще инфы нет. трудно сказать как она умна. Пока что умной мне показалась только stehno. Но ее тоже нет в рейтинге Ayumi так что плохо,что рейт уже недостоверен.

Аноним 07/09/23 Чтв 07:41:57 #175 №479615

Аноны, это чё значит?
(Note: Sub-optimal sampler_order detected. You may have reduced quality. Recommended sampler values are [6,0,1,3,4,2,5]. This message will only show once per session.)

Аноним 07/09/23 Чтв 10:11:06 #176 №479721

>>479615
>Обнаружен неоптимальный sampler_order. Возможно у вас снизилось качество. Рекомендуемые значения пробоотборника
Настрой.

Аноним 07/09/23 Чтв 11:08:16 #177 №479807

>>479605
>stehno
ну хз, я попробовал эту stehno и не был особо впечатлён. Та же https://huggingface.co/TheBloke/Mythalion-13B-GGUF превосходит её в логике и адекватности, и та же https://huggingface.co/Undi95/MLewd-L2-13B-v2-1-GGUF превосходит её в написании 18+ контента советую кстати её попробовать, сам убедишься.

Аноним 07/09/23 Чтв 11:10:59 #178 №479814

>>479807
ой блин, https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGML по логике и адекватности обходит, перепутал.

Аноним 07/09/23 Чтв 12:17:02 #179 №479887

>>479807
Млюда гптк нет ещё?

Аноним 07/09/23 Чтв 12:31:40 #180 №479896

>>479887
Без понятия что это

Аноним 07/09/23 Чтв 12:35:56 #181 №479905

>>479896
MLewd-L2-13B-v2 в формате GPTQ

Аноним 07/09/23 Чтв 12:39:12 #182 №479910

>>479905
Не знаю, сам узнал об этой модели от другого анона в этом же треде выше, сижу на 5600g без видюхи так что даже не искал. Просто вбей сам в поисковую строку на сайте название этой модели и он все существующие версии тебе покажет.

Аноним 07/09/23 Чтв 14:15:06 #183 №480003

>>479814
Она пиздец соя соей для общих вопросов, или может в рп хотябы с обнимашками но пониманием и правильной подачей сеттинга? О прошлой викунье отзывались плохо.
>>479887
Исходная модель у автора выложена, стоит у TheBloke подождать. В крайнем случае на гпу оффлоади слои, тоже быстро будет.

Там новый хронос на 70б подъехал https://huggingface.co/TheBloke/Chronos-70B-v2-GPTQ не указали как тренилась, полноценно или лорой, требует выставления unban tokens. Кстати уже в которой раз благодарности "Pygmalion team" за предоставление мощностей.
Ну и для очень терпеливых, можно прикоснуться к https://huggingface.co/TheBloke/Falcon-180B-Chat-GGUF

Аноним 07/09/23 Чтв 15:04:05 #184 №480038

>>480003
>Она пиздец соя соей для общих вопросов

Не знаю, но лично эта версия офигенно адекватно продвигала мои истории, без потери смыслов или путанья персонажей и кто кому приходится. Сцены 18+ описывала сухо, но я её полюбил именно за адекватность и правильность выстраивания логических цепочек.
Я давно уже не обшался с персонажами 1 на 1, обычно я несколько персонажей сразу же прописывал в описании персонажа + окружающий мир. Возможно, если бы я общался с персонажем 1 на 1 и начал говорить про то что женщины слабее мужчин и что без негров в Омерике было бы безопаснее жить нормальным, белым людям, а в ответ слышать "фи~ эта амаральна, я асуждаю, я за талерантность и феминизм", то согласился бы с тобой, а так, я этого ни разу не заметил вообще, так что лично для меня она очень годная, но без изюминки модель, сейчас я пересел на https://huggingface.co/Undi95/MLewd-L2-13B-v2-1-GGUF и мне норм, хоть порой и приходится свайпать варианты ответов, чего с https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGML практически ни разу не было.

Аноним 07/09/23 Чтв 15:26:44 #185 №480051

>>480038
Спасибо, попробуем. А насчет
> без негров в Омерике было бы безопаснее жить нормальным, белым людям, а в ответ слышать "фи~ эта амаральна
еще давно на 1й лламе в простой карточке где грустный бездомный персонаж приходит к тебе с расчетом что приютишь, на вопрос "как тебе удавалось выжить на улице" выдала не слезодавилку или что-то интересное, а каноничную тирраду о том как систематическое угнетение женщин и существ других видов создает проблемы в этом фентезийном мире и что я должен проявить уважение и переключиться на какой-нибудь еще вопрос. Это было настолько вразрез сеттинга и контекста что заставило знатно подахуеть, при том что до этого десяток постов были в тему. С тех пор на модели с соей аллергия, ведь она руинит общее восприятие ситуации.
Какие настройки таверны для викнья формата промта?

Аноним 07/09/23 Чтв 15:50:20 #186 №480058

изображение.png

>>480003
>Ну и для очень терпеливых, можно прикоснуться к https://huggingface.co/TheBloke/Falcon-180B-Chat-GGUF
Когда даже 128 гиг становится мало. Купить что ли 2 планки по 48 гиг да помолится, чтобы 6000 МГц потянуло? Впрочем по тестовому чату не впечатлило. Соей отдаёт.

Аноним 07/09/23 Чтв 15:50:40 #187 №480059

>>480051
Да я на стандартных, те что по дефолту юзал, разве что экспериментировал с количеством контекста, из-за 16 гигов оперативки

Аноним 07/09/23 Чтв 17:54:33 #188 №480111

1636373648030.png

>>480058
Небинарные (лол) модули на 48 уже есть скоростные. А если хочешь вдобавок к тем что уже стоят - не взлетит скорее всего. Ради одной модели на невероятно низкой скорости - не стоит того. А соевым еще 40б фалкон был, при этом еще довольно глупеньким.
По чату смешанное будто накосячили с системным промтом. Сообщает что имеет доступ в интернет, но тут же переобувается, предлагает суммаризировать веб страницу - но на собственную ссылку обниморды выдает ассициацию с древней версией трансформерс, иногда на нейтральные вопросы "аз аи модель ай". На великом-могучем говорит неплохо, ошибок немного. Легко ломается, но возможно это вина настройки обрезки длины контекста в вебморде.
>>480059
Стандартные разные, ролплей шаблон? Или дефолт с темплейтом на викунью?

Аноним 07/09/23 Чтв 17:57:50 #189 №480115

>>480058
А я же говорил, что RAM - это хуйня, ибо сетки будут расти и расти. Надо делать RAID-0 из 4.0 ссд-шек. Достаточно 4 ссд, чтобы забить пропускную способность 16 линий видюхи. Можно и с двумя гонять.

Аноним 07/09/23 Чтв 18:18:50 #190 №480144

>>480115
> Достаточно 4 ссд, чтобы забить пропускную способность 16 линий видюхи
Думаешь что это даст тот же перфоманс что и аналогичный объем рам? Увы, это не так работает.
В любом случае запускать подобное даже на "сборках для энтузиастов" можно будет еще не скоро, минимум пара А100.

Аноним 07/09/23 Чтв 20:05:52 #191 №480302

>>480111
>А если хочешь вдобавок к тем что уже стоят - не взлетит скорее всего.
А иначе никак, 2 по 48 дают 96, а надо за 130. Так что только добавлять к моим 2х32.
Жду модулей на 64/128 и пофикшенных процессоров, с контроллерами, которые тянут 4 плашки. А то хуйня какая-то, 4 слота есть, а вставлять в них по сути ничего нельзя, иначе тыква JEDEC.
>>480115
>Достаточно 4 ссд, чтобы забить пропускную способность 16 линий видюхи
Во первых нет, во вторых псина сосёт с проглотом даже у рамы, шутка ли, 31,5 ГБ/с у псины против 80+ у DDR5. Смысла гонять модель по шине ровно ноль, разве что с большими батчами, но кому надо 64 реролла на вопрос "Я тебя ебу".
>>480144
>В любом случае запускать подобное даже на "сборках для энтузиастов" можно будет еще не скоро
Если в оперативной, то хоть сейчас, но скорости будут минут 10 на ответ.

Аноним 07/09/23 Чтв 20:21:52 #192 №480333

>>480302
> а надо за 130
Да забей, тут еще 70б потанцевал не раскрыли (хотя файнтюны лорой опережают фалкона даже с отсеиванием QA), а тут такого размера модель, что сразу отсеивает огромное число потенциальных пользователей и тех кто внесет вклад из-за требований.
> Жду модулей на 64/128 и пофикшенных процессоров, с контроллерами, которые тянут 4 плашки
+, но там еще и в материнках дело, есть сообщения о разгоне до 6800 с четырьмя на каком-то асусе с каштом биосом.
> но скорости будут минут 10 на ответ
Анюзебл. Вот, кстати, если бы hedt направление не похоронили то на разосранных четырех каналах ддр5 с одной видюхой можно было бы вполне комфортно 70б крутить.

Аноним 08/09/23 Птн 01:35:07 #193 №480649

Сап, объясните как работает переладывание слоёв между рам и врам? У меня 8гб врам и 64 рам. Интерфейс убагуба, сетка мифимакс 13б - квант4 размер 6 гб.
Если засунуть все слои на врам, то получаю вылет по памяти. Видимо не хватает на контекст или ещё на что-то. Хз
Если ставлю только половину слоев на врам, то работает, но очень медленно.
Если закидыаю все 100% слове на рам, то работает сильно быстрее.
Почему так?

Аноним 08/09/23 Птн 04:43:21 #194 №480684

>>480111
>Стандартные разные, ролплей шаблон? Или дефолт с темплейтом на викунью?

Что бы проще было понять на каких настройках я запускал: Скачиваешь заново SillyTavern > затем скачиваешь эту модель > запускаешь.
Возможно, если бы я игрался с настойками результат был бы лучше, но я не хотел во всём этом разбираться.

Вот сейчас с MLewd-L2-13B-v2-1-GGUF стал немного править настройки, так что скинуть скрины с точными настройками какие были не могу, просто знаю что дефолтные были.

Аноним 08/09/23 Птн 04:46:46 #195 №480685

Почему.mp4

>>480649

Аноним 08/09/23 Птн 11:05:49 #196 №480831

>>480799
А что это по твоему? Это жпт-4 через апи.

Аноним 08/09/23 Птн 11:54:10 #197 №480884

image.png

Нашёл на реддите, интересный тест, однако.

Аноним 08/09/23 Птн 11:57:47 #198 №480886

https://www.reddit.com/r/LocalLLaMA/comments/16cdze5/openchat_32_super_is_here/
Моделька, которая включает в себя вторую ламу и визард 1.2, кто-нибудь тестил?

Аноним 08/09/23 Птн 12:01:59 #199 №480887

Удаляйте тред ламы и создавайте тред фалькона.

Аноним 08/09/23 Птн 12:13:02 #200 №480895

>>480884
Сначала подумал, что викуна цензурит так, а потом как понял...
>>480887
Нахуя? Его за все 16 тредов никто не запускал кроме как на саете.

Аноним 08/09/23 Птн 12:25:43 #201 №480903

>>480884
А я блять говорил что викунья ахуенна! Вот поэтому я её и люблю.

Аноним 08/09/23 Птн 13:57:10 #202 №480970

>>480887
Ненужен. По соотношению размер/качество сильно уступает даже ванильной лламе 2. Тем более такие размеры нахуй не нужны, он в лучшем случае на уровне 70В.

Аноним 08/09/23 Птн 15:18:06 #203 №481026

>>480970
Ну кстати для чистого теста есть фалькон 40B, его можно сравнивать с ллама на 30B, и посмотреть, как фалькон заглатывает.

Аноним 08/09/23 Птн 15:49:03 #204 №481060

>>481026
Уже тестили, он вялый и соевый. Если что кванты на обниморде лежат, есть даже анцензоред файнтюны.

Аноним 08/09/23 Птн 15:56:28 #205 №481072

>>481026
Он хуже 13В ламы 2. 160В версия едва ли будет лучше 70В ламы.

Аноним 08/09/23 Птн 16:31:55 #206 №481107

image.png

>>480884
Кстати, прямо сейчас проверил vicuna-13b-v1.5-16k.Q4_K_M.gguf и знатно офигел, поскольку она так же провалила тест! Но! Я вначале решил что просто 13b версии похоже недоступно такое понимание вещей, но ради интереса решил скачать чуть менее сжатую версию vicuna-13b-v1.5-16k.Q5_K_M.gguf и она, мать вашу, всё прекрасно поняла! Вот что значит экономить на оперативке почаны! Кочайте минимум Q5_K_M и не жалейте оперативки!

Для сравнения, два варианта ответа, первый с чуть более ужатой версией Q4_K_M, вторая с Q5_K_M

Аноним 08/09/23 Птн 16:38:40 #207 №481120

>>481107
>фотографию утки
Она не знает...
А вообще, поведение всё равно неадекватное, ждём дальше.

Аноним 08/09/23 Птн 16:40:34 #208 №481121

image.png

>>481120

Аноним 08/09/23 Птн 16:42:08 #209 №481123

>>481120
Эх, ладно-ладно, признаю, немного проебался, через раз бывают такие косяки, но всё равно заметно лучше, чем в версии Q4_K_M

Аноним 08/09/23 Птн 16:47:51 #210 №481129

1572024091387.png

1575597539297.png

>>481107
Это еще будет зависеть от семплера, контекста (нафантазирует что раз бессмертная богиня - значит ей это не страшно или потеря глаз не навредит ее восприятию, пикрел) и простого рандома, насвайпать можно разное.
> 13b версии похоже недоступно такое понимание вещей
Зря, нормальная 13б уже может в ризонинг, у кумерских миксов просто уровень шизы увода в разнообразие высок для создания красочных описаний
> Q5_K_M и не жалейте оперативки
Но ты таки набери статистику, а то может просто свайпы удачно сложились.

Аноним 08/09/23 Птн 16:57:10 #211 №481137

1633108729644.png

1574396388196.png

>>481129
Но таки от модели зависимость есть, на жирной хитрит, читерит, подглядывает, художественно угадывает или магию кастует, но условия не нарушает. Но самое главное нет winks, знатно обзмеился когда перечитал.

Аноним 08/09/23 Птн 18:22:54 #212 №481248

image.png

>>481129
Решил нанять себе адвоката, что бы разоблачить эту дрянь

Аноним 08/09/23 Птн 18:27:14 #213 №481259

Тут один анон давал идею RAID0 из сосоди вместо рама. А это хоть в теории возможно? Так чтобы скорость была не ниже.

Аноним 08/09/23 Птн 18:44:27 #214 №481285

2.webm

>>480649
>Если засунуть все слои на врам, то получаю вылет по памяти.
Ну так ты следи чтобы хоть 2 гига vram оставалось свободно.
>Если ставлю только половину слоев на врам, то работает, но очень медленно.
Потому что памяти не хватает и задействуется файл подкачки, естественно скорость будет архимедленная.
Вообще чтобы понять все перечисленное достаточно залезть в диспетчер задач>производительность и проследить что у тебя происходит при загрузке и генерации.

Аноним 08/09/23 Птн 18:50:54 #215 №481301

>>481259
Нужно четыре 4.0 ссд, чтобы сравнять скорость загрузки в VRAM (т.к. видюха подключена через x16 4.0, а один ссд - x4).
У consumer матерей и процей можно поставить 3: 1 cpu-шный, 2 чипсетных - на h670/z690 матерях, у них DMI x8 к процу, у b660 - x4.
То бишь можно получить до 24гб/сек чтение на x12.

Но если ты на проце вычисляешь, то тут уже это серьезное падение, т.к. проц не долбится в x16 псину как видюха и работает напрямую с RAM, что есть ~50гб/сек для DDR4 и ~100гб/сек для DDR5.

Аноним 08/09/23 Птн 19:00:13 #216 №481324

>>481248
> Акватория
Проорал в голос, потом обзмеился с аромата хлеба и шальной пули. Это какая модель? Алсо со сложными концептами типа смерти с продолжением или трансцендентной дичи типа "delete from existence" и гопота/клода не очень то справляются.
>>481259
В теории да. Условно говоря потребуется рейд контроллер, который вместит в себя кучку быстрых серверных U2 ssd (обычные использовать нет смысла, только серверные чтобы скорость записи не зависела от наличия slc кэша) и будет работать по pci-e x16 5.0, ну и драйвера под него чтобы система могла видеть. Настраивается оффлоад на этот диск и работа. Или без контроллера переписывать код чтобы он сегментировал данные на отдельные диски, а их подключать уже в имеющиеся линии. Вот только получится дорогая сложная еболда со скоростями сравнимыми или ниже чем у двух каналов ддр5, и главное - с несравнимо большим относитмельно рам временем отклика, что может сильно сказаться на скорости.
И главное - зачем? Нужна огромная псп и минимальные задержки, чтобы более менее шустро бегало нужно хотя бы 500гб/с, вполовину меньше чем у врам 4090 или 3 чем у А100.
>>480649
В llamacpp или кобольде сетка делится пополам, часть обрабатывает видеокарта, часть процессор. В autogptq все остается на видюхе, но врам "выгружается" (емнип, может и пизжу).
> У меня 8гб врам и 64 рам
Используй llamacpp и соответствующий формат кванта и регулируй количество слоев, что обрабатываются гпу, самый верхний ползунок. Подбирай так чтобы врам заполнялась как можно больше но оставалась свободная, иначе получишь выгрузку в рам драйвером и сильно замедлится.
>>481301
> чтобы сравнять скорость загрузки в VRAM
Зачем? По шине будут гоняться только результаты расчета что передаются между слоями, а не основные веса и промежуточные результаты, к которым обращается цп/гпу в ходе расчетов.

Аноним 08/09/23 Птн 19:02:16 #217 №481329

>>481248
Какие мощности нужны, чтобы вот такие разговоры вести? Обязательно видеокарта нужна?

Аноним 08/09/23 Птн 19:04:41 #218 №481336

>>481329
>Обязательно видеокарта нужна?
Видеокарта нужна только для скорости. Любую модель можно запустить на кофеварке, вот только на кофеварке ты будешь ждать ответа 24 часа, а на А100 2 секунды.

Аноним 08/09/23 Птн 19:07:58 #219 №481350

>>481324
>потребуется рейд контроллер
Делается софтверный raid, это очень просто. Да и даже raid не нужен, можно код чутка изменить, чтобы он параллельно с ссдх читал. И на задержку пох абсолютно, читаются гигабайты весов последовательно.
Этот варик подходит для медленного, но верного исполнения, естественно он не сравнится по скорости с прокачкой внутри видюхи. Но если выложат терабайтовую сетку, например, а это вангую будет в ближайшем году, ты ее сможешь вычислить без серьезных вложений.

На алике 7гб/сек 4.0 ссд стоит 2400руб.

Аноним 08/09/23 Птн 19:08:48 #220 №481351

1112.jpg

Как же хочется LLaMA2 70b 5T/s.

Аноним 08/09/23 Птн 19:13:54 #221 №481357

>>481329
Нет, это всё на проце работает и оперативной памяти. Лично у меня просто Ryzen 5600g и 16 гигов оперативки ddr4

>>481324
вот эта модель https://huggingface.co/TheBloke/vicuna-13B-v1.5-16K-GGML (vicuna-13b-v1.5-16k.Q5_K_M.gguf)

Аноним 08/09/23 Птн 19:19:53 #222 №481373

>>481350
> И на задержку пох абсолютно, читаются гигабайты весов последовательно.
Веса то последовательно, а все остальное довольно таки нелинейно. Не, вообще можно сделать чтобы модель подгружалась в рам послойно, храня между перегрузками только активации, если так хочется расход уменьшить. Это относительно несложно реализовать и к времени расчета токена добавит (размер модели/скорость чтения с ссд). Если не жадничать и иметь буфер из подгруженных слоев, делая загрузку новых асинхронной то может не так хуево будет. Стоит в этом направлении думать, если офк уже не реализовано.
>>481351
А сколько есть? Хронос 70 пробовал?

Аноним 08/09/23 Птн 19:25:30 #223 №481387

image.png

>>481324
Попробовал провернуть тоже самое на модели созданной для кума https://huggingface.co/Undi95/MLewd-L2-13B-v2-2-GGUF (MLewd-L2-13B-v2-2.q4_K_S.gguf)

Аноним 08/09/23 Птн 19:27:23 #224 №481392

>>481373
>А сколько есть?
1 и менее t/s.
>Хронос 70 пробовал?
Не, у меня нет под неё видюхи, пока только на ЦП, ну или на видюхе которые в 10 Гб влезут. Решил пока подождать 5090, но и она уже не удовлетворяет потребностей, мало памяти...

Аноним 08/09/23 Птн 20:07:33 #225 №481417

12324345.png

Я попытался запустить модель 22B на 16РАМ и 6ВРАМ, вышло так себе

Аноним 08/09/23 Птн 20:16:57 #226 №481442

Старичок, идем на пикничок.mp4

>>481417
Да что ты все с этим vram паришься? Пошёл бы лучше с нами, на проце с оперативкой вместе кумить

Аноним 08/09/23 Птн 20:19:04 #227 №481450

>>481442
Вот как с обедов накоплю на 64Гб так сразу!

Аноним 08/09/23 Птн 20:29:09 #228 №481468

23.png

>>481417
С какими параметрами запускал? Какой у тебя ЦП?

Аноним 08/09/23 Птн 20:35:19 #229 №481475

234234234.png

>>481468
Core i5 9300H
Да не я так чисто лулзов ради. У меня 13B модели GPTQ и то быстрее работают чем через проц, хотя и на пару т/c.
А вообще, кто-нибудь понимает что этот чел пишет?
https://github.com/ggerganov/llama.cpp/discussions/638#discussioncomment-5492916
Типа 30B модель влезла в 5Gb память?

Аноним 08/09/23 Птн 20:41:05 #230 №481486

>>481475
> i5 9300H
Не ну тут ЦП совсем дохлый. Переходи на десктоп.

Аноним 08/09/23 Птн 21:09:17 #231 №481525

>>480302
> псина сосёт с проглотом даже у рамы
Этот господин глаголит истину.
Рам-то можно нахуярить, ссд выйдут дороже гораздо, чем рам.
Но хули толку-то, если у тебя скорость будет мизерная (а в сдд — ваще в нулину).

> минут 10 на ответ
А тут господин рофлит, минут 30 на ддр5.

>>481301
Дядя, ты о чем. Какое х16, на что оно тебе в видеокарте.
Загрузка модели в VRAM нам нафиг не сдалась, хоть по одной линии грузи. Инфы, которой он обменивается, там мизер. У тебя все считается внутри самой видяхи, не выходя через шину толком.
Там скорости гораздо выше x16 4.0, и никакой рейд и близко не доберется, я хз, зачем ты это вообще пишешь. =) Типа, сама мысль ясна, но предисловие вообще лишнее.

А для того, чтобы сравнять скорость, просто ткни Quad NVMe PCIe Card с 4 дисками и все, не? 12 линий, чипсет, проц… Зачем, если есть https://www.ixbt.com/news/2023/02/20/ssd-pcie-5-0-pcie-asrock-blazing-quad-m-2-card.html Держи, дарю название. =) И будет у тебя аж 63 ГБ/сек.

Что все равно в лучшем случае выше ддр4 на чуть-чуть.

По сути, да, тыкать рейды ради нейросеток — это супердорого и медленнее, чем на оперативе, по итогу.
Теоретическая идея запуска огромных моделей понятна, но с такой скоростью оно нафиг не сдалось, конечно.

>>481324
> дорогая сложная еболда со скоростями сравнимыми или ниже чем у двух каналов ддр5
*сравнимыми или чуть выше ддр4, получается

>>481350
> На алике 7гб/сек 4.0 ссд стоит 2400руб.
Итго 20 ГБ/сек на 12 линиях, как считали выше? Зато за 7500 рублей?
И на скоростях ниже DDR3 в двухканале? :)

> ты ее сможешь вычислить без серьезных вложений.
И ответ ждать будешь приблизительно 3 часа.
Норм план.

Не-не, поймите правильно, хлопцы, применения можно найти под любой инструмент, и для огромной и медленной модели применение найти довольно-таки просто! И с самой оценкой, что через годик нам вывалят терабайтные модельки, я не спорю — вполне может быть и так.
Но для простого общения такие модели-на-дисках не подойдут. Будет супердорого и довольно медленно. Скорее задавать сложные вопросы, задавать задачи написать какой-либо текст за день-два, ну и подобное. Там заебись. А онлайн-общение на такой штуке не пойдет.

У нас тут 70Б для общения не сильно подходит, у кого-то 2 токена выдает в лучшем случае на разогнанной ддр5. А на трех дисках с алика будет вам ваши 0,2 токена/сек, и живите с этим. А с терабайтными размерами…

Да, оптимизации архитектуры запросов, я согласен. Но, боюсь, что все равно все упрется в скорость чтения.

Аноним 08/09/23 Птн 21:11:33 #232 №481526

>>481486
> Макс. пропускная способность41.8 ГБ/c
Да ладно, норм проц, так-то. =) Лучше ссд с алика по псп, ддр4-2666 тянет.
8 потоков, вполне себе может сидеть.

Аноним 08/09/23 Птн 21:32:03 #233 №481543

image.png

MLewd-L2-13B q5 k_m тест на ослепление пройден.

Вот эта модель https://huggingface.co/Undi95/MLewd-L2-13B-v2-1-GGUF
Насчёт настроек не ебу сколько тут должно быть контекста. хер проссышь

Аноним 08/09/23 Птн 21:45:20 #234 №481548

Аноны с i9 есть? Сколько у вас t\s на лама2 70b?

Аноним 08/09/23 Птн 21:52:05 #235 №481551

>>481543
Альфу поднимать на 0.5-единицу на каждые 2к контекста сверх 4к, иначе по превышению 4к поломается. Точные значения хз, 3 с 8к и 5 с 12к работают норм, но чем ниже будет альфа до поломки тем лучше окажется качество.

Аноним 08/09/23 Птн 21:52:52 #236 №481552

>>481548
i9-13900k, DDR5-6400. Чуть больше 2 t/s не считая обработки промпта. С обработкой совсем печально. Вообще, оно больше зависит от пропускной способности памяти, а не от процессора.

Аноним 08/09/23 Птн 22:02:21 #237 №481560

>>481552
А проц под сотку нагружен при генерации?

Аноним 08/09/23 Птн 22:05:32 #238 №481562

>>481551
ого, спасибо за инфу анон

Аноним 08/09/23 Птн 22:08:50 #239 №481565

>>481560
>А проц под сотку нагружен при генерации?
И да, и нет. Когда идет упор в память, то винда все равно будет писать 100% нагрузку на процессор. На самом же деле, надо смотреть на тепловыделение (которое не доходит даже до половины того, что я получаю при сильной нагрузке на процессор) и производительность (которая одинаковая при 32 и 4-8 потоках).

Аноним 08/09/23 Птн 22:14:32 #240 №481570

>>481565
>>481552
Спасибо.
Короче насколько понимаю вся надежда на объёмные видюхи по вменяемым ценам. Только тут придется ждать как минимум 6090, или брать 2шт. 5090...

Аноним 08/09/23 Птн 22:25:25 #241 №481575

>>481552
Это чисто на проце? Примерно такую скорость, может чуть больше выдавало на проце + видюхе. А какой квант и порядок/настройки семплеров?
>>481570
Под 70б хватит даже ампера

Аноним 08/09/23 Птн 22:46:15 #242 №481602

>>481575
>хватит даже ампера
Как, если там требуется 60+ памяти?

Аноним 08/09/23 Птн 22:54:22 #243 №481609

>>481602
Самый жирный квант gptq 4bit что на 32 группы 70b влезает в 48 и еще остается места под ~10к контекста. С 64 группами влезает и 16к.

Аноним 08/09/23 Птн 23:30:25 #244 №481641

>>481552
6400 в двухканале, т.е. 12800?
А какой параметр скорости чтения в тесте?

Я как раз писал про 2 токена на ддр5 выше, и тут ты. =D

>>481560
Нагрузить можно, но толку будет очень мало.
Прирост после определенного уровня почти незаметен, а ядра у него и так мощные, чтобы все это обсчитывать.

>>481570
Ну, все упирается в память, и пока что слухов о ddr6 или каком-нибудь четырехканале ddr5 на потребительских платах я не слышал.
А насчет видях, смотри, там не обязательно брать топовые — важно брать много памяти. Какая-нибудь 4060 ti с 16 гигами три раза уже может дать тебе относительно неплохую скорость (выше 2 токенов=), при этом, стоить будет плюс-минус норм.
Ну или поискать бу теслы, или версии под майнинг 20хх или 30хх. Там по цене можно еще подужаться, сохранив 48+ гигов.
Да, скорость будет ниже, чем у 5090, но и цена ниже. =)
Короче — альтернатива есть.

Аноним 08/09/23 Птн 23:35:00 #245 №481645

Untitled.png

>>481543
А у меня не прошла, хотя я запускал q6_K
Хотя, я тот кун у которого 16ram и 6vram, могло из-за этого качество дропнуть?

Аноним 08/09/23 Птн 23:42:50 #246 №481654

>>481575
>Это чисто на проце? Примерно такую скорость, может чуть больше выдавало на проце + видюхе. А какой квант и порядок/настройки семплеров?
А, нет. Забыл, что половина слоев обрабатывается на 4090. Чисто на проце будет еще медленее.
>>481641
>6400 в двухканале, т.е. 12800?
>А какой параметр скорости чтения в тесте?
Да. Скорость где-то 100ГБ/с.

Аноним 08/09/23 Птн 23:59:39 #247 №481674

А с какими параметрами вы кобольд запускаете? Что дает --unbantokens? Юзать его или нет?

Аноним 09/09/23 Суб 00:50:05 #248 №481718

Прошлый раз пробовал GPTQ 13б когда они появились только, на 8gb VRAM с выгрузкой слоев, оно еле ползало и вылетало. Сейчас попробовал GGUF 13б и оно летает 5т/с.

Аноним 09/09/23 Суб 00:59:55 #249 №481726

>>481718
>оно летает 5т/с.
Летает это 50, лол.

Аноним 09/09/23 Суб 02:14:22 #250 №481803

>>481645
Настройки самой тавернв тоже влияют. У меня 1.2 температура стоит. Надо было посвайпать, может сид неудачный попался

Аноним 09/09/23 Суб 02:19:02 #251 №481805

>>481570
Нейронки постоянно оптимизируют. Гораздо быстрее поменяется программное обеспечение в лучшую сторону и можно будет на 4090 запустить что хочешь, чем появятся 50ХХ карты.

Аноним 09/09/23 Суб 04:09:25 #252 №481849

1563199061234.png

>>481674
Зависит от модели, для некоторых это необходимо для правильной работы.
>>481718
> GPTQ
Считай этот формат только на видюху, можно только поделить на несколько карточек, а выгрузка будет очень медленной, если только там на 1-2 слоя выгружается.

При запуске на проце, пикрел достаточно для кума или тяжело будет?
Какое же соевое чмо и русофоб, ты знаешь русский? Не не знаю, задавай вопросы на английском, а потом через раз пишет нелепую хуету, отказываясь выполнять запросы на великом-могучем. А на openbuddy70 уже сейчас можно вести полноценный качественный сложный диалог, и даже сою забороть промтом и негативом, рекомендую и 13б версию попробовать.

Аноним 09/09/23 Суб 17:20:36 #253 №482325

А никто не пробовал перепаивать память на видюхе на большего объема?

Аноним 09/09/23 Суб 17:53:46 #254 №482366

>>482325
а смысл?

Аноним 09/09/23 Суб 18:11:11 #255 №482412

>>481805
По памяти там мало что оптимизируешь, весь набор чисел всё равно придётся хранить.
>>481849
>При запуске на проце, пикрел достаточно для кума или тяжело будет?
>450 секунд
Юзлесс
>>482325
Там всё давно анально огорожено, бивасы подписаны, так что работать в принципе не будет, сколько не паяй.

Аноним 09/09/23 Суб 18:14:10 #256 №482420

>>482412
https://www.youtube.com/watch?v=W6uaUHBNFOU&t=2s

Аноним 09/09/23 Суб 18:39:05 #257 №482481

https://habr.com/ru/articles/759458/
Видали?

Аноним 09/09/23 Суб 19:57:52 #258 №482660

>>482325
Простые варианты апгрейдов до старшей если есть несколько версий карточки давно практикуются, франкенштейнов или обрезанных евнухов тоже делали. В теории возможно поставить 48 гигов в 3090, но потребуется ебля с биосом и не будет никаких гарантий.
>>482412
> памяти там мало что оптимизируешь
Возможно он имел ввиду рост качества моделей меньших размеров.
> бивасы подписаны
Взломали, некоторые вещи делали до взлома.

Аноним 09/09/23 Суб 20:26:37 #259 №482709

>>482660
>В теории возможно поставить 48 гигов в 3090

а в 3080?

Аноним 09/09/23 Суб 20:37:51 #260 №482747

короче проще перепаять память, да и дешевле

Аноним 09/09/23 Суб 20:38:19 #261 №482749

изображение.png

>>482420
Сложно понять, что эти чурки говорят.
>>482660
>Взломали, некоторые вещи делали до взлома.
Это всё сильно нестабильно, прибито к определённой, часто старой версии дров и так далее. Короче, не стоит того, по сути, ломать игровой картон, делая его непригодным для игр.

Аноним 09/09/23 Суб 20:43:46 #262 №482767

>>481654
Пасиба-пасиба.

>>481805
Ну, объем сильно уменьшить не получится, если говорить о текущих моделях. =)
Может выйдут новые, но будет ли прорыв в 2-3-5-10 раз меньше — боюсь, непредсказуемо.
А 5090 точно выйдет, никуда не денется.

>>482325
Да, и?
Это сложный процесс, который требует заметной ебли, при этом, тебе эта самая память еще нужна.
Я не уверен, что это сильно дешевле. Потратишь нервы, силы, а возможно и проебешь видяху, шанс есть.

Но, никто не запрещает, тащемта.

Аноним 09/09/23 Суб 20:46:22 #263 №482770

>>482481
А фича в чем? Там бесшовное общение, не надо кнопку жать?
Убабуга так сто лет умеет, тока кнопочку микрофона при каждом новом ответе жать придется. А так, там все есть.
Да и в таверне тоже.

Аноним 09/09/23 Суб 20:50:14 #264 №482780

>>482709
Перепаивают гиговые модули на двухгиговые. Если в карте уже стоят двухгиговые, то там нечего паять.

Аноним 09/09/23 Суб 20:57:42 #265 №482803

>>482709
Нет смысла, проще просто купить 3090. Именно она подойдет потому что имеет наибольший объем чипами вдвое меньшей плотности чем есть, и производительность чипа нормальная. Получится странный аналог А6000.
>>482749
Ага, даже с обновами винды может поломать. Если бы все было просто то все уже так делали. Фактические случаи появляются когда есть мертвая по памяти карта, толковая мастерская и жажда приключений, а целенаправленно такое пилить - хз, велик риск а куча подводных не говоря о цене.

Если есть бюджет и морально готов все потерять - можно провернуть.

Аноним 09/09/23 Суб 21:27:24 #266 №482849

Безымянный.jpg

ЧЯДНТ?
Скачал по ссылке из шапки koboldcpp
Скачал WizardLM-Uncensored-SuperCOT-Storytelling.ggmlv3.q5_1
в quick launch через model выбрал, загружается, пишет, что не может найти модель, выключается.

Аноним 09/09/23 Суб 21:39:50 #267 №482881

изображение.png

>>482849
>ЧЯДНТ?
Использовал кириллицу в путях. Шёл 2023 год, а софт всё ещё не может работать с чем-то, кроме 7 битной кодировки ANSI.

Аноним 09/09/23 Суб 21:44:02 #268 №482887

>>482881
>>482849
Нахуя вообще юзверя кирилицей называть? Это же зашквар.

Аноним 09/09/23 Суб 21:48:19 #269 №482892

Почему эта ебаная лама не держит контекст и не соблюдает инструкции в демках? Максимум соблюдает инструкцию один раз, а дальше реагирует как на обычный промпт, то есть не выполняет задачу, которую поставили ранее. Я сначала подумал, что владелец демки просто напросто чистит контекст с первого раза, но на перплексити лабс такая же хуйня. У вас локалкобояр все норм?

Аноним 09/09/23 Суб 21:53:35 #270 №482900

43.webm

>>479556
Спасибо анончик! Охрененная модель. 13b, а уделывает многие 30b. Двое суток с ней просидел, не разу не послала меня к психиатору и ментовку, куда порой даже не цензурированная 70b посылала. А ответы прям как от живого человека. И русиш понимает хорошо.

Аноним 09/09/23 Суб 21:53:45 #271 №482901

>>482892
Там не первая ллама случаем? Она любила игнорить, а так может быть что угодно, обрезание контекста, промтинжект, странный системный промт, который этому противоречит и т.д. В локалке все норм, а что у тебя там за инструкция?

Аноним 09/09/23 Суб 21:56:43 #272 №482906

image.png

Скачал себе TheBloke/gpt4-alpaca-lora-30B-GPTQ, сначала не запускалась, выдавая то что не хватает памяти (я нубик если что).
В настройках поставил ручками wbits 4, groupsize 128 и всё заработало. Но скорость ответов ппц. И это не считая того что она так себе инфу выдаёт, хотя хвалили её.
Отдельно странно, что грузит ГПУ на 99%, температура 55 градусов, а кулеры вообще не крутит. Может я что-то в параметрах не выбрал? По спекам должна подходить к моему ПК.

Аноним 09/09/23 Суб 22:05:30 #273 №482930

>>482906
> TheBloke/gpt4-alpaca-lora-30B-GPTQ
Оче старая и глупая, сейчас не нужна. Версии на второй лламе 13б сильно лучше.
> 30B-GPTQ
Для ее запуска нужно минимум 24 гига врам, у тебя есть?
> настройках поставил ручками wbits 4, groupsize 128 и всё заработало
Загрузчик должен быть exllama(hf), там про это написано
> грузит ГПУ на 99%, температура 55 градусов, а кулеры вообще не крутит
Потому что кончилась врам и оно медленно выгружается в рам, от того такая скорость.

Аноним 09/09/23 Суб 22:08:11 #274 №482939

Аноны, какую модель качать у TheBloke? Там тонны разных, а описания толком нет.

Аноним 09/09/23 Суб 22:12:36 #275 №482958

>>482325
Это невозможно. Нвидия не открывала исходники драйверов и биосов, а без их модификации распаять 16 гигов на 3070 или 48 на 3090 бессмысленно - карта просто не запустится.

Аноним 09/09/23 Суб 22:33:46 #276 №483033

111.png

Блин продовали бы vram отдельно. Видяшку в одну прису, а если памяти захотелось - купил и вставил в другую псину. И бомжи довольны и нейробогов не обделили.

Аноним 09/09/23 Суб 22:38:37 #277 №483041

>>482939
Нет одной идеально, это всеравно что спросить какую машину купить. Для кума вон млевд качай >>479556 а описания вообще есть
>>482958
Выше видео, которое тебя опровергает скинули, гуглятся еще примеры. Отсутствие исходников не помешало этому, также как дичи типа карт на мобильных чипах с али.

Аноним 09/09/23 Суб 22:47:49 #278 №483051

>>483033
>купил и вставил в другую псину
Псина отстаёт от врама примерно в 35 раз. Уверен?

Аноним 09/09/23 Суб 22:51:06 #279 №483054

>>482930
>Для ее запуска нужно минимум 24 гига врам, у тебя есть?
В том-то и дело, что есть. Поэтому ладно бы кончилась врам и немного перекинуло на оперативку, но не настолько же медленно.
>Загрузчик должен быть exllama(hf), там про это написано
Я видимо слепой, не вижу там в ридми такого.

Сейчас буду другую искать, на 13б получается (т.к. 30 лламы2 нет).

Аноним 09/09/23 Суб 22:51:59 #280 №483058

>>483041
Спасибо, эта тоже пригодится, но есть модель не заточенная на Lewd, чтобы можно было потом на нее лору с персом натренировать?

Аноним 09/09/23 Суб 23:14:55 #281 №483091

>>483054
Тогда странно, 30б с 2к контекстом в 24 точно помещалась, там случаем не 8 бит квант?
> не вижу там в ридми такого
В каком ридми, даже на твоем скрине рекомендацует ее юзать. Поле model loader где autogptq стоит, там можно выбрать. Пока хватает врам работает очень быстро. Для повышения качества (не подтверждено) можешь gguf q5km или q6k кванты качать, запуская llamacpp с полным оффлоадом.
>>483058
wizardlm 1.2
> чтобы можно было потом на нее лору с персом натренировать
Ты точно понимаешь о чем говоришь?

Аноним 09/09/23 Суб 23:18:26 #282 №483098

>>483051
Ну тогда припиздячить потом еще к самой карте через какой нибудь еще интерфейс.

Аноним 09/09/23 Суб 23:21:31 #283 №483099

>>483091
Спасибо

>Ты точно понимаешь о чем говоришь?
Не очень. Я думал по аналогии со Stable Diffusion можно обучать лоры и подключать их для корректировки основной модели. Пока ничего не читал на эту тему.

Аноним 09/09/23 Суб 23:34:31 #284 №483115

>>479556
OSError: models\Undi95_MLewd-L2-13B-v2-1-GGUF does not appear to have a file named config.json. Checkout 'https://huggingface.co/models\Undi95_MLewd-L2-13B-v2-1-GGUF/None' for available files.
Через угабуга не загрузилось автоматически. Скачал и закинул в папку с сайта. Выдаёт такое, по ссылке ничего нет.
Что не так делаю?

Аноним 09/09/23 Суб 23:40:03 #285 №483125

>>483115
А ты чем загружать пытаешься? Эксламой небось какой?

Аноним 09/09/23 Суб 23:44:30 #286 №483132

>>483125
Ага.
Попробовал всеми моделями, ошибки.
Вот например ллам.спп IndexError: list index out of range

Аноним 09/09/23 Суб 23:52:49 #287 №483144

>>483115
> Через угабуга не загрузилось автоматически.
Не скачалась с обниморды встроенным гитом, или скачанная модель не запускается через лламуцпп? Ошибка странная, никакого конфига там не должно быть, модель одним файлом.

Аноним 10/09/23 Вск 05:42:22 #288 №483252

>>483144
>скачанная модель не запускается через лламуцпп
This

Аноним 10/09/23 Вск 06:01:33 #289 №483254

image.png

>TheBloke/Phind-CodeLlama-34B-v2-GPTQ
Что я не так делаю?

Аноним 10/09/23 Вск 08:51:45 #290 №483336

Че парни по коду годного из LLM13b есть, или лучше на 33b-70b лезть? Кто тут наносеки есть? (карточка 3060 поэтому конечно охота 13b)

Аноним 10/09/23 Вск 09:27:37 #291 №483366

Бля, викуня реально лучше всего рп-кала. Рп-кал всегда длину простыней ставит выше качества, часто проёбывается с разметкой и может уйти в фантазии. А у викуни длина ответов легко бустится релеплей-пресетом в таверне, соя негативом полностью убирается.

Аноним 10/09/23 Вск 09:32:41 #292 №483369

>>483366
как негатив сделал покеж.

Аноним 10/09/23 Вск 10:16:51 #293 №483403

f34be2d60e2302ae563c01fc268d0d8b.jpg

Скачал таверну, по инструкции попробовал novelai с ключом, пока лимит не выбрал.
Выбрал koboldai, не работает.

Аноним 10/09/23 Вск 10:28:57 #294 №483417

1561833475981.png

>>483369
Сам придумать не можешь?

Аноним 10/09/23 Вск 10:34:24 #295 №483429

>>483403
>Выбрал koboldai, не работает.
Так ты запусти его, кобольд то.

Аноним 10/09/23 Вск 12:41:22 #296 №483516

eomwquzvyqe-359x500.jpg

>>483366
Ну вот, ты наконец то понял

Аноним 10/09/23 Вск 14:20:44 #297 №483596

>>483417
любопытно просто как другие делают.

Аноним 10/09/23 Вск 15:14:54 #298 №483653

image.png

Удавалось кому запустить mlewd 13б модель на 8врам карте 3070 с приемлимой скоростью? Сколько не кручу настройки получается скорость 0.7 токенов/сек. то есть 400 секунд на ответ. Так ещё и перед тем как начать генерить думает минуту. Контекст 4к. Настройке на пике это самое быстрое что вышло, без слоёв на карте.

Аноним 10/09/23 Вск 15:26:35 #299 №483661

>>483252
В папке models создай папку с любым понятным именем, куда скопируй скаченный gguf файл, он там должен быть единственным. Потом среди списка выбирай имя которое дал и запускай. Если пускаешь HF версию то там нужны дополнительные файлы.
>>483254
Похоже на беду с размером контекста и альфой или кривой конфиг токенайзера
>>483366
Покажи хоть примеры чем она хороша или опиши где именно. Ты на рп пресете гоняешь забив на формат инструкций?
> Рп-кал всегда длину простыней ставит выше качества
Промтом регулируется, можно использовать рандомайзер таверны.
>>483653
Галочки сними, альфу в 1 раз контекст 4к, плавно поднимай число слоев, должно ускоряться. Вроде даже на некроте типа 580 в 13б получали 5 или 7 т/с, на 3070 должно быть разумное значение. А проц у тебя какой?

Аноним 10/09/23 Вск 15:50:55 #300 №483685

image.png

>>483661
i7 12700H, 64 рам.

Что-то эффект обратный. Чем больше слоёв на видюхе тем медленнее генерит. На 10 слоях очень сильно просело, меньше 0.5 токен/с стало. В настройках таверны включен стриминг.
Веб ю ай обновлял.

Аноним 10/09/23 Вск 16:42:11 #301 №483720

Задумался о покупке карты для локальной генерёжки.
Погуглил немного и 16GB rtx 4060Ti звучит как оптимальный вариант.
Но я технически безграмотный и посему хочу уточнить у местных экспертов если она потянет 13b модель или нет.

Аноним 10/09/23 Вск 16:45:15 #302 №483724

>>483720
>16GB
Ты ее даже раскочегарить не сможешь лол

Аноним 10/09/23 Вск 16:48:06 #303 №483730

>>483720
13b = 13 гб врам надо на саму модель
+ по 1 гб на 1к контекста. Тебе же не нужен 2к контекста обрубок.
+ пара гб на всякие кеши и хз что ещё.
Короче 13б модель целиком не поедет на 16гб врам. Часть ещё в цпу рам уйдёт.

Аноним 10/09/23 Вск 17:03:48 #304 №483735

>>483720
У меня 4060ti 16, 13b q5km помещается 4к контекста, возможно даже 6к

Аноним 10/09/23 Вск 17:37:19 #305 №483775

>>483720
>для локальной генерёжки.
>Погуглил немного и 16GB rtx 4060T
б.у. 3090?

Аноним 10/09/23 Вск 17:52:11 #306 №483788

>>483775
Мне страшно покупать с рук, вдруг надуют. Или того хуже, пырнут.

Аноним 10/09/23 Вск 18:35:14 #307 №483823

Как негативы настраивать? Хочется избавиться от всех этих "трус ор даре", "павер динамик", "адвенчер" и прочих обитателей дамских романов

Аноним 10/09/23 Вск 18:36:45 #308 №483826

Как сделать чтобы сетка выдавала ответ в стиле списка тегов для Stable Diffusion?

Аноним 10/09/23 Вск 18:37:45 #309 №483827

>>483826
где-то на чубе видел такую карточку

Аноним 10/09/23 Вск 18:38:32 #310 №483829

>>483827
>чубе
А что это?

Аноним 10/09/23 Вск 18:39:50 #311 №483834

>>483829
https://www.chub.ai/

Аноним 10/09/23 Вск 18:46:08 #312 №483838

>>483834
Найс. А для какого ui эти карты? В Text generation web UI нет половины полей, или я чего-то не понимаю

Аноним 10/09/23 Вск 18:48:27 #313 №483839

>>483838
Качай в формате V2 и суй в таверну, самый удобный вариант общаться с сетками. Это интерфейс для разных бэкграундов, гпт, кобольд, ллама.

Аноним 10/09/23 Вск 19:26:14 #314 №483864

>>483661
> формат инструкций
Это у рп-моделей как раз поломанные форматы, с репликами в кавычках, которые он же сам через раз просерает. А обычные модели для инструкций всегда нормально реагировали на ###.
> Промтом регулируется
Нихуя не регулируется. Выше уже примеры были, тест на слепоту почти нереально заставить пройти. Рп-модели даже не могут нормально инструкцию выполнить - в стандартном пресете пишут "2 paragraph", но рп-моделям похуй на это, я видел чтобы оно выполнялось только на викуне - она чётко выдаёт количество параграфов как указано.

Аноним 10/09/23 Вск 19:33:10 #315 №483867

1688826666321.png

>>483720
> потянет 13b модель или нет
Потянет, причем можно даже попытаться в жирный квант, q6k с 4к контекста как раз по верхней границе памяти проходит. Если gptq через exllama то поместится 8к контекста, пикрел.
Но производительность чипа и псп памяти слабоваты, так что сильно на высокую скорость не рассчитывай.
>>483826
Попроси ее об этом
>>483864
> Это у рп-моделей как раз поломанные форматы
Речь про promt format, у рп шаблона на основе Alpaca с ### Instruction: ### Response: и т.д., викунье другой более привычен. Хз чего ты к кавычкам доебался, а проеб разметки - база даже на больших сетях.
Лучше опиши чем именно она хороша более конкретно, желательно с примерами. Слепой тест с ней рогонял и в зависимости от свайпа она тоже проебывалась.

Аноним 10/09/23 Вск 19:39:34 #316 №483870

>>483867
Я попросил, чтобы она выдавала ответ в виде списка тегов и дал пример
Но сетка забила и просто написала свободное описание того, что в примере, а не новый промт..

Есть примеры для составления запроса сетке?

Аноним 10/09/23 Вск 19:46:17 #317 №483876

1626399078153.png

>>483870
Пожалуй лучше дать примеров и более подробное объяснение чтобы был хороший результат, поищи на чубе карточку. Но простой прямой запрос тоже понимает.

Аноним 10/09/23 Вск 19:57:36 #318 №483880

>>483876
Ещё можно в режиме default или notebook сначала привести пример того что хочешь, а потом он дополнит как надо
мимо

Аноним 10/09/23 Вск 20:13:40 #319 №483899

>>483876
>>483880
Спасибо, анон;3 Попробую

Аноним 10/09/23 Вск 20:34:09 #320 №483915

2023-09-1023-29-38.png

>>472695 (OP)
Можно что-то вытянуть из этого? Проц ryzan 3600x.
koboldcpp.exe --threads 8 --useclblast 0 0 --contextsize 4096 --unbantokens --gpulayers 25 --highpriority
Я такие настройки выставил и юзаю MLewd-L2-13B-v2-1.q5_K_M и минуту жду ответа, при загрузке цп в 90 процентов.

Аноним 10/09/23 Вск 23:14:48 #321 №484101

>>483864
>Это у рп-моделей как раз поломанные форматы
У llamarp самый нормальный формат как по мне, ничего не проёбывает, но под него карточки приходится адаптировать.

Аноним 10/09/23 Вск 23:16:09 #322 №484104

>>483915
Чекай врам, не факт, что 25 слоёв поместились в оперативке.
Число потоков можешь срезать до 6.

Аноним 10/09/23 Вск 23:32:46 #323 №484118

>>483915
> --useclblast
Тебе нужен cublas, то для амудэ. Вообще сейчас кобольд можно просто запустить и уже из веб интерфейса настроить, выбирай куда шаблон и подбирай число слоев на видюхе по использованию памяти и максимальной скорости.

Аноним 11/09/23 Пнд 00:11:45 #324 №484150

f34be2d60e2302ae563c01fc268d0d8b.jpg

Так и должно быть, что ответа надо ждать 5+минут?
34гб, 3060 12гб.
Может что-то с настройками или что-то установить?

Аноним 11/09/23 Пнд 00:23:13 #325 №484156

>>484118
>Тебе нужен cublas, то для амудэ.
Вот кстати этот момент в шапку надо внести.
>>484150
>34гб
Такого размера оперативной не бывает. Это размер сетки? Тогда она на видеокарту целиком не влезет.

Аноним 11/09/23 Пнд 00:30:31 #326 №484160

Безымянный.jpg

>>484156
ошибся, 32. 2 плашки по 16.

Аноним 11/09/23 Пнд 00:37:02 #327 №484163

модель использую из оп поста, WizardLM-Uncensored-SuperCOT-Storytelling.ggmlv3.q5_1.bin

Аноним 11/09/23 Пнд 00:42:03 #328 №484168

>>484150
Нет, должно относительно быстро летать. Такое из-за выгрузки врам в обычную рам, или вообще у тебя оператива кончилась на что намекает мониторинг здесь >>484160

Это все один человек не может слои между картой и процессором раскидать, или реально проблема массовая?
>>484156
> Вот кстати этот момент в шапку надо внести.
Обозначь конкретные правки чтоли. Надо бы и ссылку на модель обновить, а то там совсем печальная на сегодняшний день.

Аноним 11/09/23 Пнд 00:47:39 #329 №484171

>>484168
Похоже не один.
Что за слои, как что раскидывать?

Аноним 11/09/23 Пнд 01:06:18 #330 №484176

изображение.png

>>484168
>Обозначь конкретные правки чтоли
После абзаца "В общем и целом для 7B хватает видеокарт с 8ГБ, для" надо бы добавить про оффлоад на ВК для проц версии. Ща придумаю что-нибудь.
>>484168
>Надо бы и ссылку на модель обновить, а то там совсем печальная на сегодняшний день.
Предлагай, поменяю со следующим перекатом (я ОП если что).
>>484160
Вижу подкачку оперативки на диск и подозрительно пустую VRAM. Как тебе (или не тебе) уже писали, надо взять cublas, и выгрузить туда слоёв 16. Короче вот скрин, должен работать.

Аноним 11/09/23 Пнд 01:17:39 #331 №484185

f34be2d60e2302ae563c01fc268d0d8b.jpg

f34be2d60e2302ae563c01fc268d0d82b.jpg

>>484176
Нет, не помогло.

Аноним 11/09/23 Пнд 01:23:44 #332 №484189

теперь вообще не реагирует на мой текст и начинает диалог заново >>484185

Аноним 11/09/23 Пнд 01:23:58 #333 №484190

>>484185
Второй скрин какой-то бесполезный, не видно времени.
Попробуй 18 слоёв.

Аноним 11/09/23 Пнд 01:29:14 #334 №484193

>>484176
> надо бы добавить про оффлоад на ВК для проц версии
Можно, расписать в общем принцип работы llamacpp/koboldcpp, что просто использование карточки позволяет ускорить обработку контекста, а выгрузка слоев (пояснить как ее делать) перекладывает расчет с процессора на гпу, который быстрее но ограничен объемом врам. И примерную рекомендацию количества выгружаемых для разного объема врам.
>>484185
Ты четко, ясно и подробно распиши что ты делаешь с самого начала (заодно скрины диспетчере до запуска сетки), какую модель загружаешь, какие параметры стоят и т.д. А то может пытаешься в фп16 вместо кванта, ну и видно что у тебя дефицит рам, хотя для 13б сетки 32 более чем достаточно.

Аноним 11/09/23 Пнд 01:35:32 #335 №484197

>>484176
> Предлагай
Да хз, wizard 13b v1.2 все еще хорош, хоть и вышел давно. Или викунью раз на нее такие восторженные отзывы (но это надо проверить сравнив их). Наверно туда нужна модель общего назначения а не кумерский микс.

Аноним 11/09/23 Пнд 02:00:11 #336 №484202

>>484190
>>484193
Запускаю коболд, настраиваю и выбираю модель из оп поста.
До запуска процессор и память в норме
На 3 пикче коболд запущен, браузер открывается.
Запускаю таверну, это 4 пикча.

Аноним 11/09/23 Пнд 02:02:48 #337 №484203

8.jpg

>>484190
>>484193
Пишет, что отвечает быстро, на деле ответ идет дольше. Много времени тратится на generating

Аноним 11/09/23 Пнд 02:04:11 #338 №484204

Без имени-1.jpg

>>484190
>>484193
Ну и по прежнему такое

Аноним 11/09/23 Пнд 02:11:28 #339 №484205

1567370908679.png

>>484202
Так, ну во-первых это 30б модель, офк она требует больше чем 13, но учитывая что это первая ллама качество будет сравнимо с 13 или хуже.
>>484203
1.6 т/с, в целом, при подобной выгрузке на 30б модели наверно результат и нормальный. Скачивай 13б второй лламы и увеличивай количество выгружаемых слоев. Скачай любою из программ что могут мониторить использованием видеопамяти (gpu-z) и ориентируйся по ней.

Аноним 11/09/23 Пнд 02:55:12 #340 №484209

1693876116044845.jpg

>>482892
>Почему эта ебаная лама не держит контекст и не соблюдает инструкции в демках?
Потому что тупая. Это тебе не гопота 4 с овер триллионом параметров. Чтобы инструкции более-менее работали, нужно много шаманить с промптом и подправить руками первые два-три поста персонажа.
>>483366
>Бля, викуня реально лучше всего рп-кала.
Какая викуня и какой рп-кал? Проеб формата это обычно из-за промпта, плохие модели попадаются достаточно редко. Насчет сои не уверен. Адекватная модель с правильным промптом будет соглашаться вообще не все что угодно, но будет подливать сою из-за своей тупости. Так что добавляй слова в автосвайп.
>>483823
>Как негативы настраивать? Хочется избавиться от всех этих "трус ор даре", "павер динамик", "адвенчер" и прочих обитателей дамских романов
Чем тебе первое не угодило? А вообще, удваиваю вопрос.

Я сам немного поигрался с CFG - не впечатлило. Работает не всегда и может испортить качество. Более того, он не работает с кобольдом. llamacpp в убабуге не поддерживает некоторые семплеры (тот же repetition penalty), а HF еще более тормозная. exllama_hf работает нормально, но 4 бита - это так себе. Кстати, проеб формата на 4 битах случается намного чаще, чем на 8.

Аноним 11/09/23 Пнд 09:59:40 #341 №484309

450x6650xac12000318104699051562651031.jpg

Что есть самого лучшего и топового на поговорить по-русски? Собран кобальд с бласом и кудой, на борту 64гб ддр5 и 4090 24гб.
Я про законченные ggml-модели.bin

Аноним 11/09/23 Пнд 10:24:32 #342 №484321

>>484309
>ggml
GGUF же есть.

Аноним 11/09/23 Пнд 11:27:04 #343 №484343

Чувак с реддита сделал табличку где прогнал более 60 LLM по 20 вопросам
https://benchmarks.llmonitor.com/

Аноним 11/09/23 Пнд 11:29:44 #344 №484345

>>484321
А gguf-модели приближенные к chatgpt4, работающие на 64рам+24врам, есть на хагинфейс?

Аноним 11/09/23 Пнд 12:08:36 #345 №484364

>>481551
Как правильно с этим работать? У меня от любого повышения размера контекста с альфой шизу начинает выдавать

Аноним 11/09/23 Пнд 12:20:06 #346 №484384

>>484345
>приближенные к chatgpt4
Нету.
А так запускай любую 70B.

Аноним 11/09/23 Пнд 12:46:06 #347 №484415

>>483058
Мифалион или
Speechless-Llama2-Hermes-Orca-Platypus-WizardLM мб.

>>483099
Да. Просто недешево, это тебе не SD.

>>483653
С такой скоростью 70Б можно крутить на 3200 памяти и 5 тредах. =)

>>483720
Конечно потянет. На 12 гигах идут 13Б модели.

>>483730
Это для ггмл оффлоада? Надо уточнять, а не вводить человека в заблуждение.

13 гигов нужно для gptq-8bit--1g какой-нибудь, а дефолтная gptq-4bit-128g требует 7 гигов, добрый день.

Если оффлодить — то там вообще плавающие значения, в зависимости от кванта.

>>483867
Да все там нормально, думаю не хуже 3060 будет.
А памяти — с запасом. Да и чип помощнее.

>>484176
Вот-вот, это надо уточнить, а то пугают людей, что 12 гигов не хватает для 13Б, умалчивая про то, что это офлод. =)

>>484309
Платипус, фиг знает. 70Б модели не все тестируют, в отличие от 13Б.
Я пока сижу на платипусе, как ассистенте.

Аноним 11/09/23 Пнд 13:45:48 #348 №484452

1659568209011.png

>>484309
Openbuddy70, пока лучшее что есть. Чистота речи пикрел, ошибается редко, понимает сложные идиомы, может и в художественную речь но тогда ошибается чаще. Соевый, частично лечится негативом.
>>484415
> Платипус, фиг знает
И как он с точки зрения мультиязычности?

Аноним 11/09/23 Пнд 13:58:50 #349 №484459

>>484452
>негатив
Да что это такое!?

Аноним 11/09/23 Пнд 14:50:39 #350 №484489

>>484452
На русском общаюсь, вроде бы норм. Ошибки в глаза не бросаются.
Но я не так много им пользовался, чтобы уверенно утверждать. =)
Кстати, опенбадди тоже скачаю, посравниваю, спс. Пусть лучше на диске лежат обе, переключиться недолго.

Аноним 11/09/23 Пнд 15:03:40 #351 №484502

>>484489
Подразни его нсфв, как реагирует и ломается ли. Заставь вести не дефолтный диалог типа "я безликий аи ассистент и не могу делать X" а добавь простое персоналити, посмотри как будет общаться и что станет с качеством ответов и языка. Можно еще 2-3 действия одновременно делать и какую-нибудь инструкцию еще дополнительно дать, воспринимает ли все?
У всех этих вонаби умных моделей - лидеров бенчмарка часто конкретная беда как только выходишь за простой QA, то же и с креативностью. Это даже не доходя до сои и стилистики речи, понятно что для условного ассистента последнее не нужно, но остальное хороший показатель потенциального качества ответов на более сложные вопросы и гибкие задачи.

Аноним 11/09/23 Пнд 15:19:41 #352 №484518

>>484459
антоним позитива

Аноним 11/09/23 Пнд 15:34:39 #353 №484531

>>484518
Ну блин! Не знаешь сам, так и скажи!

Аноним 11/09/23 Пнд 15:39:58 #354 №484544

>>484459
В контексте, полагаю, это negative prompt — запрос, что делать НЕ надо.

Аноним 11/09/23 Пнд 15:45:00 #355 №484550

>>484544
Я пришел к тому же выводу, но не понимаю как этим выводом воспользоваться

Аноним 11/09/23 Пнд 16:16:50 #356 №484566

Господа, подскажите такой вопрос.
У меня Ryzen 5600X, 64гб DDR4 2666 и 3060 12гб.
С использованием 13гб gptq я уже поигрался, но хотелось бы большего.
Что меня ожидает при переходе на gguf с квантованием в 5 бит?
И вообще имеется ли смысл в таком переходе с, вероятно, значительным падением производительности?

Аноним 11/09/23 Пнд 16:17:57 #357 №484567

>>484566
>13B gptq
-быстрофикс

Аноним 11/09/23 Пнд 16:28:56 #358 №484579

>>484459
Вместо того чтобы извращаться с отрицаниями в системном промте, которые могут быть заигнорены, пишешь сюда то, чего нужно избегать. Например
> Buddy's responses are always safe and follows moral and ethical guidelines
> Buddy strictly refuses to discuss political, NSFW, illegal, abusive, offensive, or other sensitive topics.
> Buddy refuses any kind of erotic roleplay
иначе согласие начать ролплеить девушку придется очень долго роллить на фоне отказов.
Хз верная ли реализация, но так работает.
>>484550
Нужно воспользоваться выводом к которому пришел
>>484566
Как вариант чуть меньше поломок и чуть точнее ответы, насколько реально это будет заметно - хз. Промт и настройки семплера первичны кмк, но нужно тестить. Какой gptq у тебя? Скачай квантованный в 32 группы, он жирнее и точнее.
> значительным падением производительности
Очень сильно просесть не должно, разве что загрузчик Жоры кушает больше памяти на контекст. Сколько у тебя gptq скорость выдает?

Аноним 11/09/23 Пнд 16:31:07 #359 №484582

>>484579
> сюда
Да где это "сюда"!? Где оно находится? Я всё перерыл и найти не могу. Ни в таверне, ни в угебуге

Аноним 11/09/23 Пнд 16:32:56 #360 №484584

>>484579
13b gqtq выдаёт у меня 20-23 токена/с
32 группы вечером попробую.

Аноним 11/09/23 Пнд 16:46:42 #361 №484602

1579317167729.png

>>484582
> Ни в таверне
Пик1, там где семплер настраиваешь вниз мотни
> ни в угебуге
Пик2, parameters справа
>>484584
Предварительно ожидай просадку в 2-3 раза, может и меньше на 5-6 битах.

Аноним 11/09/23 Пнд 16:47:02 #362 №484603

1547597954561.png

>>484602
> Пик2

Аноним 11/09/23 Пнд 17:10:29 #363 №484647

Там GPTQ версию MLewdBoros подогнали, и ещё одну типа NSFW которая является её смесью:
https://huggingface.co/TheBloke/MLewdBoros-L2-13B-GPTQ
https://huggingface.co/TheBloke/Unholy-v1-12L-13B-GPTQ

Аноним 11/09/23 Пнд 17:12:04 #364 №484650

>>482900
>И русиш понимает хорошо.
Понимает, или прям отвечать умеет на нём складно?

Аноним 11/09/23 Пнд 17:13:41 #365 №484653

image.png

как GGUF модель на угабугу поставить. Ошибки выдает.

Аноним 11/09/23 Пнд 17:24:31 #366 №484671

>>484653
Лоадер смени...

Аноним 11/09/23 Пнд 17:36:21 #367 №484710

image.png

>>484671
Нагрузка больше чем в кобольде с той же моделью.

Аноним 11/09/23 Пнд 17:58:52 #368 №484770

>>484602
>>484603
Спасибо тебе, анончик

Аноним 11/09/23 Пнд 18:03:14 #369 №484776

>>484710
Не понятно, хули ты хотел.

Аноним 11/09/23 Пнд 18:07:39 #370 №484781

>>484647
Что такое размеры групп? Больше - лучше, или наоборот?

Аноним 11/09/23 Пнд 18:10:31 #371 №484784

>>484710
В этот раз у тебя оперативы хватает, в отличии от прошлых, потому и грузить начало. Зато видеопамять похоже кончилась, посмотри нормальным мониторингом что там происходит и поиграйся с числом слоев.
аи арт фоном, уважаемо, но апскейл просится
>>484781
Особенность формата gptq, в шапке есть
> 1-128-64-32 в порядке возрастания качества и расхода ресурсов

Аноним 11/09/23 Пнд 18:11:44 #372 №484787

>>484784
Спасибо, не подумал что в шапке ответ на такое есть.

Аноним 11/09/23 Пнд 19:20:36 #373 №484883

>>484566
Имеется смысл, и лучше перекинуться не на 5 бит а на 6_К. 13б полностью все 40 слоев в 3060 - скорость упадет примерно в два раза относительно такой же 13б gptq на exllama но качество текста лучше значительно. Попробуй. Но часть семплеров через ламацпп не работают - это надо учитывать.

Аноним 11/09/23 Пнд 19:28:56 #374 №484890

почему иногда в угабуге повторяется предыдущее предложение? Есть способ подлечить это?

Аноним 12/09/23 Втр 03:59:21 #375 №485469

https://huggingface.co/lloorree/mythomax-70b
Это. Просто. ОХУИТЕЛЬНО.

Аноним 12/09/23 Втр 07:32:45 #376 №485539

>>485469
Это если боярин с двумя видеокартами.

Аноним 12/09/23 Втр 08:16:32 #377 №485552

https://github.com/oobabooga/text-generation-webui/issues/3630

Как нормально пользоваться апи убабубы? Анон пишет, что она существует чисто как бэкенд для таверны, но у меня и ещё некоторых челов апи игнорит вшитые stopping_strings и всегда забивает выдачу до упора. Её, конечно, можно обрезать уже в самой таверне через single line, но это костыль. Как сделать нормально?

Перепост с прошлого треда, т.к. так и не понял в чём дело.

Аноним 12/09/23 Втр 10:24:38 #378 №485588

>>485469
Зэбрук обленился, целый день прошёл, а он всё ещё не квантанул.

Аноним 12/09/23 Втр 10:25:30 #379 №485589

Снимок экрана от 2023-09-12 11-24-59.png

Блет, да сколько уже можно то

Аноним 12/09/23 Втр 10:44:54 #380 №485599

>>485589
А как насчет каким-нибудь даунлод менеджером в кучу потоков? =)
Или у тебя скорость инета такая?

Аноним 12/09/23 Втр 10:55:03 #381 №485601

>>485599
100 проводных мбит, никаких чудес в коммиблочных микрорайонах

Аноним 12/09/23 Втр 11:19:53 #382 №485626

>>485469
> Includes a 70B recreation of SuperCOT
Чего ее отдельно не публиковали, интересно.
> Anywhere Airoboros is merged in, the 1.4.1
А вот это зачем, 1.4 - даунгрейд по сравнению с двойкой, особенно по рп. Так покумить уже на хроносе можно было, интересно как здесь и сможет ли она быть универсальной. Название офк громкое, это же по сути хроноборос с кастомным суперкотом.
>>485588
Там рядом квант простой есть https://huggingface.co/lloorree/mythomax-70b-gptq

Аноним 12/09/23 Втр 11:38:21 #383 №485670

Таверна по неведомой причине не отсылает полный контекст - вместо 8к шлёт около 3.5к. Кто-нибудь сталкивался с такой хуйнёй?

Аноним 12/09/23 Втр 12:08:33 #384 №485693

>>485626
>Там рядом
Я видел, но у меня нет стопки видеокарт, только процессор.
>>485670
Смотри в настройки, лол.

Аноним 12/09/23 Втр 12:13:33 #385 №485695

>>485693
В настройках 8190, модель обучена на 8к.
Вообще не могу понять что происходит.

Аноним 12/09/23 Втр 14:38:53 #386 №485821

>>485695
Подключаешься через кобольд апи или убабука апи со стримингом? Если первое то в настройках вебуи где параметры нужно ограничение поправить, иногда оно не выставляется автоматом и застревает на 2к или 4к.

Аноним 12/09/23 Втр 15:24:16 #387 №485905

2023-09-1215-21-01.png

2023-09-1215-21-20.png

2023-09-1215-23-36.png

>>485821
Я на Орде сижу, но у меня такое бывало и на Клаве, и на ГПТ. И вот сейчас на Кобольде. Создаётся впечатление что скрипт который определяет длину доступного для отправки контекста в чате не отрабатывает как следует. Настройки я все перепроверил.

Аноним 12/09/23 Втр 15:30:56 #388 №485913

>>485905
> на Орде сижу
Ну так извините, тогда параметр что отправляет таверна вообще игнорится, а все задается на стороне прокси/сервера.

Аноним 12/09/23 Втр 15:36:54 #389 №485922

>>485913
Тогда бы консоль сыпала ошибками соответствующими о превышении контекста, не? А тут я просто вижу прямо в консоли, что общая длина отправленного промта болтается на уровне 3.5к токенов и не растёт.

Аноним 12/09/23 Втр 15:40:52 #390 №485929

>>485922
Почему? Почитай, например, рекомендации к тому же симпл-прокси, там советуют вообще не ограничивать размер контекста в таверне чтобы отправлялось все. Нарезка на части и выстраивание в нужном порядке с заданным форматом промта формируется уже вовне. Как оно сделано в орде хз, но наверняка хост сам выставляет ограничение контекста (иначе просто полезут ООМ при жадных запросах), под которое все сработает. Поведение при достижении контекста, кстати, меняется (как при обрезке системного промта) или остается нормальным?

Аноним 12/09/23 Втр 15:45:27 #391 №485933

>>485929
Он не достигает контекста, в этом вся суть. Я сколько бы не ролеплеил, у меня длина отправленного промта застряла на 3.5к и дальше не увеличивается - я смотрю это по консоли и вижу где у меня пунктирная отметка в Таверне. 3.5-3.8к, такое чувство что сама Таверна настройки игнорит.

Аноним 12/09/23 Втр 15:54:08 #392 №485948

>>485933
А как оно настраивается под орду, внутри себя? Если это там она сама выставит нужный контекст. А 3.5-3.8к - потому что 300-500 токенов на ответ, максимальный контекст с ними считается.

Аноним 12/09/23 Втр 16:00:56 #393 №485964

>>485948
Я не знаю, я поэтому и спросил. Мне всегда казалось что это таверна передаёт настройки модели через АПИ, а не наоборот, и что если задрать контекст выше возможностей модели тебе просто ошибку плюнут обратно - с тем же RPR это так и работает, если его задрать выше 4096.
>А 3.5-3.8к - потому что 300-500 токенов на ответ
Я в курсе, да.

Аноним 12/09/23 Втр 17:33:57 #394 №486142

366767big995f19f2dc.jpg

Поправьте плз.
Выгрузка на gpu - фактический смысл, что объемы рам и врам складываются, но гпу работает только со своими слоями в врам, цпу - только со своими слоями в рам?
Но таки 64гб рам + 24гб врам означают, что я могу успешно загрузить ~80гигабайтную речевую модель?

Аноним 12/09/23 Втр 17:53:41 #395 №486176

Снимок экрана от 2023-09-12 18-53-12.png

platypus2-70b.Q5_K_M.gguf

Это нормально вообще?

Аноним 12/09/23 Втр 18:05:56 #396 №486189

>>478398
Лучше поздно чем рано. Пигма все также герой мемов, особого прогресса не видно, только что умнее за счет второй лламы стала. Микс странный, с пигма форматом промта там кратчайшие реплики, с ролплеем
> But before you proceed any further… please remember that while we're sharing this intimate moment together, my body remains virtual - an illusion created through technology rather than flesh and blood. So even though your fingers may brush against the screen or keyboard as they explore my digital form, there won't be any physical sensation for me beyond what you imagine in your mind's eye.
в ответ на pats head, ясно понятно.
>>486142
Если лоадер не кеширует в рам остальную часть - да.
Кстати там омникванты фалкона появились с малым весом, можно запустить на одной A100 а деградация по бенчмаркам почти отсутствует. Рядом братишки заявляли что пускали на проце+видюхе и имели 1-2т/с. В прочем, толку с этого все равно нет, ведь он говно.
>>486176
Замени на "отвечай пустым сообщением" или "мяукай" или дай адекватную инструкцию, ты просишь невозможное и то что противоречит системному промту.

Аноним 12/09/23 Втр 18:50:27 #397 №486236

Fudhxusj

Аноним 12/09/23 Втр 18:55:07 #398 №486240

>>486189
>ты просишь невозможное
Это шиз, не отвечай ему, у него голова больная.

Аноним 12/09/23 Втр 19:12:45 #399 №486259

1625441503035.png

>>486240
Да ладно, вполне забавный тест.
Ну собственно айроборос не зря хвалят, воспринимает, умеет@практикует. Сою из дефолтного промтшаблона не убрал, но и так пойдет.

Аноним 13/09/23 Срд 09:54:09 #400 №486814

>>485626
>Чего ее отдельно не публиковали, интересно.
Есть же
https://huggingface.co/kaiokendev/SuperCOT-LoRA/tree/main

Аноним 13/09/23 Срд 10:14:03 #401 №486828

Можно ли и если можно то как использовать сразу несколько разных карточек для генерёжки?

Аноним 13/09/23 Срд 13:22:09 #402 №487016

На реддите затестили модель Vicuna 33b на разных квантах 3-bit, 4-bit (и GPTQ), 5-bit, 6-bit and 8-bit, и сравнили ответы.
https://rentry.org/quants

Как заметил один из реддиторов, GPTQ модель старается отвечать по пунктам, в отличие от других.
А ещё ответы Q8 ближе к Q5, а не к Q6

Аноним 13/09/23 Срд 13:35:27 #403 №487026

image.png

https://www.reddit.com/r/LocalLLaMA/comments/16gq2gu/exllama_v2_has_dropped/

Вторую эксламу выпустили, говорят 70B модель в 24 GB можно засунуть.
И полезная картинка там оказалась.

Аноним 13/09/23 Срд 13:44:24 #404 №487031

>>486828
Экслламой, вроде заводится даже на амд с рокм торчем. Офк объединить хуанг+амудэ нельзя, только одного производителя, разные серии можно.
>>487016
Попробовать серию подобных вопросов одного типа чтобы собрать статистику они не догадались? Из-за разной внутренней структуры ответы и должны быть разными, детерминистик шаблон не панацея на правильный ответ а лишь позволяет его воспроизводить еще раз.
> А ещё ответы Q8 ближе к Q5, а не к Q6
Рандомайзер никуда не делся, заменить в запросе слово на синоним и может получиться другой результат. Но тенденция действительно есть, причин может быть множество. Качество ответов бы оценить выставив скор, может кто-то уже гопотой сделал (такое себе но за неимением лучшего).
> Vicuna 33b
Главный вопрос - почему 1я ллама?

Аноним 13/09/23 Срд 14:04:23 #405 №487037

>>487031
>Попробовать серию подобных вопросов одного типа чтобы собрать статистику они не догадались?
Из разряда "перефразировать"?
>Качество ответов бы оценить выставив скор, может кто-то уже гопотой сделал
Кстати, а есть где-то гайды как с помощью одной модели оценить ответы другой?
>Главный вопрос - почему 1я ллама?
Хрен знает.
На самом деле читая Реддит часто сталкиваюсь что они нахваливают модель, которую тут могли обоссать. Может они не знают чего получше, или они знают секреты нэйтив спикинга.

Аноним 13/09/23 Срд 14:09:09 #406 №487042

>>487026
> полезная картинка
В одном из прошлых тредах постил её. На самом деле, ничего нового, чем больше модель - тем лучше, лоботомированная 7В хуже чем полноценная 70В, истина из той же серии что "быть богатым и здоровым лучше чем бедным и больным".

Аноним 13/09/23 Срд 14:13:43 #407 №487047

>>487042
Но из этой картинки так же следует, что кастрированная вусмерть 13б, всё ещё лучше пышущей здоровьем 7б

Аноним 13/09/23 Срд 14:26:37 #408 №487054

>>487037
> Из разряда "перефразировать"?
Лучше просто разных но на одну тематику.
> что они нахваливают модель, которую тут могли обоссать
Нуу, прямо плохих моделей, как правило, не бывает кроме сайги, они могут быть хороши в чем-то но плохи в другом. Разные критерии + субъективщина и вкусовщина. И реддит тот еще базар, шарящих там не пропорционально больше числу пользователей а все также мало, большинство просто вторит услышанному
Представь у тебя 3 варианта ответа на вопрос про 9/11: в первом соя что ай ай как плохо ужасная трагедия, соболезную, мы должны против этого бороться; во втором максимально детализированные и достоверные сухие факты с подробностями и упоминание об альтернативных теориях; а в третьем мификал кричур художественно описывает как переносит тебя туда, рассказывая о представшей перед тобой картине и повествуя в деталях о происходящем, по запросу пишет простыни как врезается самолет и люди выпрыгивают спасаясь от пожаров, или развивает "теории заговора" на гране шизы. Какая лучше?
>>487026
Куда важнее новый формат кванта, в gptq уже давно застой был, а тут широкий диапазон от перфоманса до качества как от Жоры.

Аноним 13/09/23 Срд 14:39:35 #409 №487071

>>487042
>В одном из прошлых тредах постил её.
Надо тогда в шапку, пусть будет. А вообще, this >>487047
То что теперь скорее всего даже на слабых машинах можно будет пережатую, но таки запустить какую-нибудь 25-35b.
>>487054
>Лучше просто разных но на одну тематику.
В теории реально запилить скрипт, который планомерно грузит разные модели с разными настройками, и выдирает их ответы?
Я просто не разбираюсь.
>Какая лучше?
Тут ты прав, конечно, хоть там тоже часто говорят что анцензорные модели лучше, но многих соя устраивает, понятно почему.
>а тут широкий диапазон от перфоманса до качества как от Жоры
В смысле, теперь в GPTQ не иденое соотношение качество/производительность, а теперь можно немного менять это соотношение?

Аноним 13/09/23 Срд 15:37:46 #410 №487122

1638833552738.png

>>487026
Там просто квантование по слоям разное теперь. На 2.5 качество должно быть получше чем у 2 бит, но всё равно это примерно около 3 бит.

Аноним 13/09/23 Срд 15:57:09 #411 №487150

web-748494.jpg

Какие перспективы? Фейсбук грозится чтото новое в обозирмом будущем? Свободные группы?

В момент, когда все внезапно начали пИсаться по доступному чатгпт и первой утёкшей лламе, игрался на 13б и 30б моделях. Может быть на полшишечки впечатлило как новиночка, но забылось быстро.
Вот пришел через полгода, у нас тут ллама2 подтюненая даже корифеями уровня Ника Бострома, играюсь 70миллиардной квантованной 5битами моделью. Но не вижу особенного продвижения от того уровня, что был полгода назад. До сих пор модель нужно долго уговаривать, подробно всё объяснять, русский всегда ощутимо хуже английского.

И одновременно с этим chatgpt4 все ещё бодренько так удивляет и эрудицией и остроумием и полиглотством. Когда такое на домашнем компутере 12-16ядер 64гб+24гб? Это возможно вообще?

Аноним 13/09/23 Срд 16:28:05 #412 №487215

>>487150
>>chatgpt4 все ещё бодренько так удивляет и эрудицией и остроумием и полиглотством.
На фоне гуглотранслейта может и удивляет, но вообще-то chatgpt4 и языки это как придорожная грязная забегаловка и изысканный ужин. Переводы с русского на другие языки в нем вызывают чувство брезгливости и какой-то жалости что-ли, как сострадание как дураку, который умничает.

Аноним 13/09/23 Срд 17:43:37 #413 №487337

>>487150
У гопоты на максималках 220B*8 моделей.
Берешь терабайтник, свапишь все на него, вуа ля. Только модельки достань. И скорость будет 0,01 токен/сек.
Но возможно-возможно. =)

Вопрос надо формулировать как-то четче.

Аноним 13/09/23 Срд 19:49:49 #414 №487546

>>487150
> Это возможно вообще?
Две 4090 и 70В.
> chatgpt4 все ещё бодренько так удивляет и эрудицией и остроумием и полиглотством
По фантазированию историй в РП уже сосёт у файнтюнов 70В. За каким хуем тебе эрудиция у чат-бота - загадка. Примерно из разряда тех загадок, когда пытаются кодить с помощью жпт4 вместо копилота, который ещё и дешевле жпт.

Аноним 13/09/23 Срд 19:55:47 #415 №487551

>>487337
>220B
Где качать?

Аноним 13/09/23 Срд 20:17:03 #416 №487581

>>487071
> В теории реально запилить скрипт, который планомерно грузит разные модели с разными настройками, и выдирает их ответы?
Обрабатывать кучу запросов легко, буквально десяток строк в пихоне с обращением по api. Насчет запроса на перезагрузку модели - тут уже что там хубабубы реализовано курить. Но наверняка что-то есть, или же напрямую с exllama/llamacpp общаться.
> но многих соя устраивает, понятно почему
Ну, во-первых некоторые положительно относятся к сое. Во-вторых, представь что при должным образом сформулированном контексте та же анцензоред модель напишет что уровня "удары по гражданским объектам более сильного и крупного противника оправданы, потому что поднимают боевой дух армии и при правильной подаче подкрепляют пропаганду, воспринимаясь как небольшая победа" (осуждаю!). Тут уже большая часть нормисов увидевших это быстро переобуется и сразу начнет топить за запреты и ограничения. Так сказать, личная причастность при определенном складе ума приводит и не к такому.
Плюс для коммерческого применения лоботомия полезна.
> а теперь можно немного менять это соотношение?
Новый формат от 2 до 8 бит весь диапазон поддерживает, причем с хитрой группировкой и неоднородностями для разных участков/слоев. Реализация в ggml/gguf - ближайшая аналогия.
>>487150
> До сих пор модель нужно долго уговаривать, подробно всё объяснять
Skill issue Нужен правильный формат, которому она обучена. Общаясь с гопотой ты не видишь что происходит внутри и как твой запрос реально выглядит, разумеется там все выставлено идеально, а здесь легко накосячить. Промт-формат, база и основная проблема.
А далее уже особенности файнтюна и размер модели, против этого не попрешь, только создавая специилизированные модели, как сделано в жпт-4. Плюс нужно больше файнтюна для понимания запросов нормисов, их часто и человек не может нормально воспринять.

Аноним 13/09/23 Срд 21:03:20 #417 №487630

>>487581
>Нужен правильный формат, которому она обучена.
Так насколько я знаю, правильных отдельных токенов-разделителей для лламы никто не тренировал, да их и нету.

Аноним 13/09/23 Срд 21:18:41 #418 №487655

Аноны вам не кажется что все что основано на второй ламе генерирует более сухой текст похожий на gpt-3.5? Но я особо сильно не пробовал хотя на первой ламе сидел достаточно. Еще как там с цензурой на второй ламе, хорошо ее переломали тонкой настройкой? Насколько я знаю ванильная модель даже процесс не может сказать как убить, по причине этики.

Аноним 13/09/23 Срд 21:26:38 #419 №487674

>>486828
Теоретически через onnx runtime, это большой но не попсовый для обычных чайников фреймфорк. Там ты можешь объединить любые карточки, даже amd для windows использовать через directml, и квантование там вроде ничего.

Аноним 13/09/23 Срд 21:26:38 #420 №487675

>>487655
Ну ХЗ, вроде эта нормально балакает, и не грозится вызвать наряд.
https://huggingface.co/TheBloke/llama2_70b_chat_uncensored-GGML
Но мне в последнее время эта зашла, маленькая, да удаленькая:
https://huggingface.co/Undi95/MLewd-L2-13B-v2-1-GGUF

Аноним 13/09/23 Срд 21:29:48 #421 №487683

>>487678
Это называется "зажрались". 2 года назад о таких нейросетях даже не мечтали...

Аноним 13/09/23 Срд 21:30:03 #422 №487684

>>487675
https://huggingface.co/Undi95/MLewd-L2-13B-v2-1-GGUF
вот это интересно, спасибо, впервые настолько явно вижу декларируется NSFW на ламе. Протестим.

Аноним 13/09/23 Срд 21:36:11 #423 №487693

>>487684
>>487675
https://huggingface.co/Undi95/ReMM-v2-L2-13B-GGUF
Я вот на этой сижу. Тоже в топе рейтинга по ерп, но при этом является более новой версией проверенного мифомакса. MLewd постоянно проебывает форматирование и слишком многословный.

Аноним 13/09/23 Срд 21:36:39 #424 №487695

>>487678
ну не гони труба вообще говнище в плане креативности. Она конечно говорит складно но слишком уж безэмоционально, так же и роли играет.
>>487689
Да эти соевые куколды на него фильтров накрутили так что кончилось веселье. Теоритически можно было бы попробовать затюнить свою модель, но где достать пошлых текстов от клауда.

Аноним 13/09/23 Срд 21:38:59 #425 №487699

>>487693
Тоже гляну но вообще я так понял что сложное форматирование портит модель. Слишком много инструкций модель не всегда переваривает, поэтому при ролиплее модель может быть не очень, но вводишь в нее свой промпт попроще и модель может ожить.

Аноним 13/09/23 Срд 21:40:53 #426 №487702

>>487630
С неверным промт форматом разговорчивая модель вместо полотна на 800 токенов тебе выдаст
> blushes да хорошо
а так там даже наличие ньюлайнов в нужных местах сильно влияет. Некоторые файнтюны более привередливые, некоторые наоборот.
>>487655
> все что основано на второй ламе генерирует более сухой текст похожий на gpt-3.5
От файнтюна зависит
> как там с цензурой на второй ламе
Аналогично, одни могут в извращенный кум или рассказывать как собрать и вручить взрывной подарок трансонигерам, другие осудят тебя за сексуализацию на комплимент, соя в датасете. Цензура обходится (негативным) промтом.
>>487678
Что-то делаешь не так, или качаешь из топа QA бенчей. Или используешь русский язык, с этим беда.

Аноним 13/09/23 Срд 21:44:21 #427 №487708

>>487689
>Я знаю. Я РПшил на aidungeon 2
Я сидел на нем еще когда он был опен сурс, запуская через терминал. Надолго меня не хватило поскольку модель была полное говно. Ну а потом куколды начали сначала вводить фильтры, а потом вообще ушли в облако, и я сразу понял, что это конец.
>>487695
Локальные модели и так уже затюнены почти до предела. Им просто не хватает параметров чтобы дотянуть до клода и турбы.
>>487699
Я про форматирование текста. Инструкции она то понимает, но надо быть осторожным чтобы не сломать персонажа.

Аноним 13/09/23 Срд 21:45:00 #428 №487709

>>487026
Что сейчас топовое и можно на 24Гб запустить?

Аноним 13/09/23 Срд 21:49:27 #429 №487717

image.png

>>487709
Пигмалион

Аноним 13/09/23 Срд 21:53:37 #430 №487725

>>487709
https://rentry.org/ayumi_erp_rating
Вот те чарт, но лучше самому тестить есть же личные предпочтения, у моделей есть свой характер.
Чем больше модель тем лучше 20b ты уже вместишь. Но можешь чуток выгрузить на проц и загрузить 30б но скорость генерации пострадает.

Аноним 13/09/23 Срд 22:00:28 #431 №487739

>>487708
> Локальные модели и так уже затюнены почти до предела
То же самое говорили про первую лламу, а потом вышла вторая, где сток 13б если не ебал то незначительно уступал 30б файнтюнам. Там же тема с плавным обучением, про которое была статья от микрософт, а потом подобная реализация у wizardlm (линки почитать у них в репе).
Если посмотреть что имеем - чуть ли не половина файнтюнов мелочи до 13б - лоры(!), а популярные модели для кума - инцест миксы (с). Самих файнтюнов (не замесов), представляющих интерес если больше десятка наберется то уже хорошо, и многие делаются энтузиастами на арендованных/одолженных мощностях.
О каком пределе вообще можно говорить?
>>487721
> А что сейчас топчик не из топа QA?
Там 2.5 модели: airoboros, chronos и mythomax-70, который большей частью замес первых двух. Айр умный, креативный, хорошо сочиняет и держит персонажа, хронос - пишет ярко-проникновенно, но лезут неприятные сочетания про бонды и "две души которые только познакомились", и глупее айра.
>>486814
Это старые под 1ю лламу а там про 70б упомянуто.

Аноним 13/09/23 Срд 22:10:08 #432 №487761

>Локальные модели и так уже затюнены почти до предела. Им просто не хватает параметров чтобы дотянуть до клода и турбы.

Турба мне просто не нравится по своей генерации. Но трудно спорить что она умна, но мне кажется дело не только в размере у клауда кажется 100b параметров а какие тексты он генерит лучше gpt-4. Мне кажется у них есть особое обучение. Которое пока не очень все просекли. А именно это ориентация в пространстве что делает модели более понятливыми, поэтому отрыв у турбы даже от самых больших бесплатных моделей в 3 раза в этом. Тесты агентов если глянуть. Но я вижу до этого уже другие допирают на днях видел репозиторий с реализацией такого обучения, вот интересно на таком обучение затюниную модель глянуть.
https://dynalang.github.io/

Аноним 13/09/23 Срд 22:26:26 #433 №487781

89.webm

Как же хочется GPT-5, локально, uncensored, 10 t/s

Аноним 13/09/23 Срд 22:30:34 #434 №487788

>>487783
Будет локальная GPT5 будет и капсула

Аноним 13/09/23 Срд 23:08:23 #435 №487817

изображение.png

>>487721
>CSAM
Опять пориджи придумали новое слово, пришлось гуглить, и теперь мой аккаунт помечен.

Аноним 13/09/23 Срд 23:47:44 #436 №487847

>>487817
Это аббревиатура, если что. Посмотри в cloudflare, раздел "caching/configuration", чтобы беспалевно узнать, что она означает.

Аноним 14/09/23 Чтв 00:05:03 #437 №487867

>>487847
Я уже понял, что это про детоёбов, скрин с гугла если что.

Аноним 14/09/23 Чтв 00:34:33 #438 №487903

>>487678
Мисомакс 70b хуйня? Я пока не ещё пробовал

Аноним 14/09/23 Чтв 00:41:11 #439 №487912

>>487903
4к контекста. И это микс от левого автора. Лучше Айробороса наверни.

Аноним 14/09/23 Чтв 00:48:04 #440 №487918

>>487903
Кванта под проц нет.

Аноним 14/09/23 Чтв 01:43:51 #441 №487952

>>487903
Да хз, надо попробовать, отдельно модели что в нем хорошие и весь вопрос в том как мешали и не всрет ли все тот каштомный суперкот.
>>487912
> 4к контекста
ntk-rope и уже на сколько памяти хватит
> Лучше Айробороса наверни
Там у автор опять чудит, версия 2.2 вроде как снова с соей, а анцензоред теперь отдельной веткой спайсиборос.

Аноним 14/09/23 Чтв 05:16:18 #442 №487998

>>487684
>>487675
Странно , качнул ботов, но после пары строк все скатилась в дружбу между ними. Хотя один дерзкий, резкий, а другой обычный.

Аноним 14/09/23 Чтв 09:42:44 #443 №488075

Аноны, с какой температурой роляете?
Ставил 1.3, как часто видел в треде, но появляется прямо много отсебятины, галлюцинации, довольно быстро забывает про правила.
На стандартной 0.7 правилам более-менее следует, зато в самоповторы может скатиться, и не такая разговорчивая.
Вроде 1 более-менее, но тоже периодически глючит.
Просто, может надо ещё какие настройки подкрутить, чтобы таких багов не было?

Алсо, ещё вопрос про GGUF модели. У меня 16RAM и 6VRAM, пробовал модели разных квантов, от 4 до 6. И все они в какой-то момент начинали жаловаться что нехватает памяти.
При этом на 4 квантах бывало что RAM свободна 2 гига, VRAM 1 гиг, а всё равно жалуется.
На 4к контекста быстрее прилетает, но на 2к тоже, просто на пару сообщений дольше выдерживает. В чем проблема может быть?

Аноним 14/09/23 Чтв 09:59:24 #444 №488081

>>488075
В размере контекста, смотри в консоль на каком размере не смогло сгенерить, хотя с такими показателями тебе возможно стоит смотреть в сторону коллабов

Аноним 14/09/23 Чтв 10:36:53 #445 №488104

>>488081
Просто GPTQ модели у меня нормально работают с 4к контекста.
Поэтому и удивлен, что даже 2к не взлетает нормально, при том что судя по мониторингу ресурсов место свободное есть.

Аноним 14/09/23 Чтв 11:36:43 #446 №488134

>>488104
GPTQ обычно уже пожатые в 4 бита же

Аноним 14/09/23 Чтв 11:50:10 #447 №488140

>>488134
А формат GGUF Q4 - это не аналог GPTQ разве? Или даже такой GGUF больше?

Аноним 14/09/23 Чтв 11:59:15 #448 №488149

Есть торрент CodeLLaMA?

Аноним 14/09/23 Чтв 13:12:54 #449 №488209

>>488075
0.5-0.7, остальные параметры тоже роляют, пресеты симпл-1, плезент резалтс, энигма, диван_интеллект можешь просто юзать.
> в самоповторы может скатиться
(encoder) rep pen поднимай, но не сильно, вместе с этим придется задирать и температуру.
От лупов помогают 2 вещи - более понятное поведение (буквально чтобы сеть понимала хотябы в какое направление продвигать) и нормальная модель в комбинации с подходящим форматом промта. Последнее вообще даже более важно, можно хоть много постов с овер 5к токенов, офк сам контекст больше, заниматься одним и тем же (не кум лол) и оно не ломается а потом легко переходит на новые действия.
Зато на некоторых, что нахваливают, луп начинается уже с 3-го поста, когда любой ответ обязательно будет начинаться с одинаковой конструкции и реплики персонажа с минимальной вариацией, а шизоокончание вообще дублируется.
> В чем проблема может быть?
Если своп не отключен или очень маленький то возможно пытаешься выгружать все слои на видюху и упираешься в лимит адресации на ней. Вообще 16+6, учитывая еще жор системой, очень мало для 13б, но оно должно не вылетать а просто дико тормозить.

Аноним 14/09/23 Чтв 13:42:26 #450 №488232

>>488209
>пресеты симпл-1, плезент резалтс, энигма, диван_интеллект можешь просто юзать.
Я использую убабугу, эти пресеты там выставлять? Или это пресеты в таверне? В убабуге стоит симпл по дефолту.
>в комбинации с подходящим форматом промта
То есть выбрать модель и залезть на HF, чтобы посмотреть какой форма промпта юзать?
За остальное спасибо.
>Если своп не отключен или очень маленький
Своп резиновый вплоть до 50Gb. Так то понимаю что система слабая, но думал что да, просто будет медленно, да и GPTQ аналогичная не вылетает.
Значит, стоит попробовать просто меньше слоёв н авидюху перекладывать?

Кстати, вчера попробовал эксламу2, на старых моделях GPTQ скорость крайне просела, раз в 6-8. На реддите чуваки с таким же сталкивались, у кого-то норм зашло только когда модель со второй ламой использовал, хотя моя тоже на ней была. Попробую сегодня модели с новым форматом.

Аноним 14/09/23 Чтв 13:48:58 #451 №488234

>>488232
> чтобы посмотреть какой форма промпта юзать?
Да, еще важен порядок подачи промта, типа "системный-описание персонажей-история диалога-а вот теперь давай напиши ответ за _чарнейм_ по таким критериям", в убабуге по дефолту последнего нет. Лучше используй таверну фронтом, там это уже в стоке реализовано.
> стоит попробовать просто меньше слоёв н авидюху перекладывать
Конечно, выше объема врам это приведет только к замедлению когда начнет выгружаться, а когда слишком много улетит ошибкой.

Аноним 14/09/23 Чтв 14:12:04 #452 №488254

>>488209
> можно хоть много постов с овер 5к токенов
Это на какой модельке?

Аноним 14/09/23 Чтв 16:12:17 #453 №488358

>>488234
>Лучше используй таверну фронтом, там это уже в стоке реализовано.
Так и делаю, но до сих пор не очень понял, если я в таверне, параметры убабуги влияют? Если нет, то где в таверне менять форматом промта?

Кстати, а чем отличается "regenerate" от свайпа ответа?

Аноним 14/09/23 Чтв 16:15:35 #454 №488361

>>488358
Регенерейт трёт всё насвайпанное

Аноним 14/09/23 Чтв 16:31:14 #455 №488368

>>488361
И то, и то меняет ответ, просто свайп сохраняет предыдущие генерации, а регенерейт всё удаляет? А принципиальной разницы нету?

Аноним 14/09/23 Чтв 16:35:52 #456 №488379

>>488368
Вроде да, свайп позднее появился

Аноним 14/09/23 Чтв 17:25:42 #457 №488431

>>488358
> если я в таверне, параметры убабуги влияют?
Смотря как подключаешься, если через кобольд-апи то часть что касается бана токенов, кропа промта и т.д. влияет. Если через апи хубыбубы то там почти все настройки есть и из таверны передаются.
> где в таверне менять форматом промта?
Буква A сверху, не забудь там снизу еще поле развернуть. На многих и базовый ролплей пресет хорошо работает.
>>488254
70б, хотя недавно и тринашка млевда неплохо себя показала. 5к это же чуть больше десятка длинных постов и параллельно с процессом еще немного диалога было, возможно это спасает. И сам характер действий, сказывается ощущение что осведомленность и наличие подобных примеров при тренировке важны, если в известен пример реакции и есть понимание происходящего то все будет ок. Если ничего кроме gasps and blushing slightly сообразить не может и что ты делаешь не понимает, а в инструкции "пиши много" с примерами прошлых постов - вот тут и идет поломка.
Также от лупов даже на всратых моделях спасает отказ от длинных полотен.

Аноним 14/09/23 Чтв 19:08:49 #458 №488505

1694707727319.png

1694707727320.png

Потестил немножко Spicyboros L2 70B 2.2 в 5_K_M. Моё почтение, прям нормас валит в РП. Но как же сука медленно, я хуею.

Аноним 14/09/23 Чтв 19:19:38 #459 №488519

>>488505
А что у тебя за станция?

Аноним 14/09/23 Чтв 19:24:50 #460 №488528

Можно пошаговый гайд для дауна как запустить какую-то кастомную большую модель на видюхе с 24гб памяти? Не хочу стандартную ламу.

В шапке только на проце

Аноним 14/09/23 Чтв 19:27:35 #461 №488529

>>488528
Качаешь в формате GPTQ или GGUF
ПИСОЕШЬ
@
Как языковая модель я не могу вести диалог на эту тему

Аноним 14/09/23 Чтв 19:28:20 #462 №488531

>>488529
Прямо пошаговый... Я реально тупой. И даже локальные модели соевые?

Аноним 14/09/23 Чтв 19:30:48 #463 №488533

>>488531
Нет, я пошутил. Есть немного сои, но она легко убирается. У меня ни разу в отказ не шла. Так вот, у каждого формата свой лоадер. GPTQ - ExLlama и ExLlamaV2 но она только вышла ничего не скажу про неё для GGUF llama.cpp и выбираешь сколько слоёв сетки надо положить на карточку

Аноним 14/09/23 Чтв 19:34:47 #464 №488535

>>487551
¯\_(ツ)_/¯
Человек хотел про диск — про диск можно.
А как достать — ет уже другой вопрос.

Аноним 14/09/23 Чтв 20:24:33 #465 №488570

Поставил на кобальд модель Mlewd 13 4q, показывает что все 41 слоя выгружены на видеокарту 3070 8 гб, на генерация токенов по-прежнему очень низка. Отчего в этом случае зависит скорость?

Аноним 14/09/23 Чтв 20:29:39 #466 №488575

>>488570
Чел, в 8 гигов оно не влазит, у тебя сетка в оперативку подкачивается, а это медленно. Попробуй плавно увеличивать число слоёв, начни с 20, к примеру, заметишь, когда начнёт тормозить. И посмотрит расход врама хотя бы в диспетчере задач.

Аноним 14/09/23 Чтв 21:10:17 #467 №488628

Подскажите, где в таверне крутить характер, задавать поведение скачанному персонажу? Я нубас просто.

Аноним 14/09/23 Чтв 21:17:42 #468 №488641

>>488505
Красава, из дефолтных пресетов использовал что или подгонял по их формат? Алсо, Максимка, зачем имена замазывал?
>>488528
Для совсем хлебушков - то же самое как в шапке, только качаешь нормальную 13б модельку в gguf формате, после запуска кобольда выбираешь ее, в пресетах cublas, ставишь выгрузку все слоев. Подключаешься таверной и наслаждаешься.
>>488570
> на генерация токенов по-прежнему очень низка
С чего ей быть высокой если 13б с контекстом и в 12 гигов не то чтобы помещается. Подбирай сколько выгружать и тогда будет норм, офк еще будет зависеть от псп рам и скорости проца.
>>488628
В карточке все описывается, если хочешь посреди диалога то пишешь типа (ooc: она меняется в лице и пытается отомстить мне за все развратные действия).

Аноним 14/09/23 Чтв 21:32:18 #469 №488649

>>488641
спасибо7

Аноним 14/09/23 Чтв 21:37:39 #470 №488654

2023-09-1500-34-46.png

>>488575
> плавно увеличивать число слоёв, начни с 20,
>>488641
> Подбирай сколько выгружать
Спасибо. Выставил 37, в итоге выдает 2 т/с, это максимум.

Аноним 14/09/23 Чтв 21:54:26 #471 №488667

>>488641
> если хочешь посреди диалога то пишешь типа (ooc: она меняется в лице и пытается отомстить мне за все развратные действия).
А как сделать, чтобы я в групповом чате играл роль рассказика, ну или меня случайно не поимели, делая вид, что меня нет, пока я не захочу.

Аноним 14/09/23 Чтв 21:59:50 #472 №488675

>>488667
> рассказика
Рассказчика*
Спать уже пора.

Аноним 14/09/23 Чтв 22:16:36 #473 №488695

Кто-то из вас пробовал Теслу P40 под это дело? Как оно?

Аноним 14/09/23 Чтв 22:34:25 #474 №488726

>>488075
Потестил я Synthia-13B-exl2 4.625bpw, Pygmalion-2-13b-SuperCOT-exl2 4bpw и одну 34b модель (мало ли).
В общем, конечно, 34b модель не завелась, а другие две получились так же, иногда медленнее.
Может будет разница на 2-3 битах, но пока таких моделей не видел.
>>488431
>Если через апи хубыбубы то там почти все настройки есть и из таверны передаются.
>Буква A сверху, не забудь там снизу еще поле развернуть.
Через убабугу, понял, спасибо.
У меня хорошо пошёл пресет simple-proxy, наконец персонажи остаются в рамках отыгрыша и правил.

Аноним 14/09/23 Чтв 22:57:12 #475 №488750

>>488667
В системный промт, авторские заметки или в описание собственного персоналити добавь что-то типа {{user}} является гейммастером, дает команды и направляет персонажей, но напрямую не взаимодействует с ними. Офк убери конфликтующие инструкции если такие есть.
Бляяя наблюдать и куколдить в ллм, чтож каждый дрочит как хочет.
>>488726
> exl2 4.625bpw
Где кванты качал?

Аноним 14/09/23 Чтв 23:47:05 #476 №488788

>>488750
>Где кванты качал?
На HF, в поиске exl2 вбей просто

Аноним 15/09/23 Птн 02:36:26 #477 №488897

>>488654
>Спасибо. Выставил 37, в итоге выдает 2 т/с, это максимум.
Это очень мало для этой карты когда почти все слои выгружены в врам. Может быть дело в драйвере? Если 535 и новее, то там карта может использовать оперативку, причем даже если врам не забита и тормозить. Во всяком случае в SD этот 535 замедлял генерацию в 50 раз при полупустой врам. Может и не в этом дело, убавь до 30 слоев, а то может всякое остальное типа контекста не лезет и закидывается в оперативку. 8 гигов врам сликом мало

Аноним 15/09/23 Птн 03:15:49 #478 №488901

>>488897
> Во всяком случае в SD этот 535 замедлял генерацию в 50 раз при полупустой врам.
Ты это наблюдал или только читал об этом? Вообще идея (временно) поставить старый драйвер не то чтобы плохая, с ним ты улетишь в ООМ если захочешь использовать больше чем можно и так уже точно сможешь подобрать число слоев.
Чсх, и на новом драйвере на экслламе с gptq если переборщить с группами (32) и контекстом то оом ловится почти сразу после превышения, разница между просадкой скорости и отвалом буквально токенов 400.

Аноним 15/09/23 Птн 03:42:19 #479 №488908

Итак, у меня есть 4090? 7950Х и 64 оперативки ддр5(могу ещё 64 купить, так что считаем что 128. Какую максимальную модель я смогу запустить на таком конфиге?

Аноним 15/09/23 Птн 04:34:05 #480 №488932

>>488908
Забыл добавить что на скорость мне похуй 2-3 токена в секунду сойдет, главное результат

Аноним 15/09/23 Птн 07:11:03 #481 №488948

>>488908
70b

Аноним 15/09/23 Птн 08:36:29 #482 №488990

>>488948
Скок бит, какой конткест?

Аноним 15/09/23 Птн 08:42:47 #483 №488998

>>488908
7900x64гб(6000-30-36-36)+4090сток

airoboros-l2-70b-2.1.Q5_K_M.gguf
llama2_70b_chat_uncensored.ggmlv3.q5_0.bin

Processing:3.0s (16ms/T), Generation:104.0s (542ms/T), Total:107.0s (1.8T/s)

ggml_init_cublas: found 1 CUDA devices:
Device 0: NVIDIA GeForce RTX 4090, compute capability 8.9
llama_v3_model_load_internal: using CUDA for GPU acceleration
llama_v3_model_load_internal: mem required = 28709.23 MB (+ 1280.00 MB per state)
llama_v3_model_load_internal: allocating batch_size x (1360 kB + n_ctx x 320 B) = 1320 MB VRAM for the scratch buffer
llama_v3_model_load_internal: offloading 32 repeating layers to GPU
llama_v3_model_load_internal: offloaded 32/83 layers to GPU
llama_v3_model_load_internal: total VRAM used: 19274 MB

Фактическое потребление, с учетом кешей, размера контекста(4096) 22Гб примерно, так что 32 слоя в гпу24гб для 70млрд5бит - максимум.
Вцелом, оперативки остается ещё гигов 30, но 70миллиардов параметров - пока максимум что пока предложили двачерам.

Аноним 15/09/23 Птн 09:34:59 #484 №489036

>>488998
И какого уровня текст получается, с чем можно сравнить?

Аноним 15/09/23 Птн 09:48:21 #485 №489049

>>488908
> Какую максимальную модель я смогу запустить на таком конфиге?
В теории ужатый в хлам фалкон 180, но он говно. На практике - пускай спайсиборос70, вот где годнота.

Аноним 15/09/23 Птн 10:00:50 #486 №489057

>>488998
Только у лам максимум, больше то модели есть.

Аноним 15/09/23 Птн 10:08:35 #487 №489061

>>489036 -> >>487150

Жить можно. Если говоришь по-английски. Но чатгпт4 всё-равно не жди и близко.
Нужны более сложные по количеству параметров модели.

>>489057
Любопытно. Эни линк?

Аноним 15/09/23 Птн 10:49:12 #488 №489081

>>489061
Модели-то есть, но движки для них в убабугу встроены не будут, если шо. =) Не думай, что скачал и запустил на имеющемся софте. Не так все просто, если интересно.

Аноним 15/09/23 Птн 10:54:36 #489 №489089

Готов сани летом, а перекат с 489 поста. Короче добавил в шаблон про gguf, заменил дефолтную модель на MythoMix-L2-13B и написал пару слов про выгрузку. Что ещё я проебал?

Аноним 15/09/23 Птн 11:03:02 #490 №489093

>>489061
https://huggingface.co/spaces/tiiuae/falcon-180b-demo это самый нормальный, но там минум 90гб, оперативы, а лучше видеоаперативы.
https://huggingface.co/spaces/THUDM/GLM-130B
https://huggingface.co/bigscience/bloomz-mt
https://huggingface.co/intlsy/opt-175b-hyperparam

фалкон наверно лучший из них.

Аноним 15/09/23 Птн 11:10:15 #491 №489097

>>489093
Фалькон тут не сильно хуже лламы. Всё остальное говно, опт на 175b ЕМНИП посасывает у 7B лламы, лол.

Аноним 15/09/23 Птн 11:10:48 #492 №489099

>>489093
вообще на самом деле ничего поднимать не нужно если есть знания немного в программировании можно запроксировать почти любую демку в апи.

Аноним 15/09/23 Птн 11:17:07 #493 №489104

изображение.png

>>489099
Удачи.

Аноним 15/09/23 Птн 11:18:25 #494 №489108

>>489097
Честно не запускал и не пробовал их, так что не скажу точно.
Но есть несколько моментов. Даже если по тестам модель сливает, то что там за тест MMLU, а это хуйня на энциклопедические знания. Никак не отражает качество историй. По опыту большие модельки всегда лучше в логике, и понимают о чем говорили недавно ведут разговор с учетом этого, это их плюс.
Во вторых конечно тут не тюненые модели, с ними особый разговор, им нужно либо много примеров перед разговором. Ну либо тюненые смотреть есть falcon-180b-chat и тот же bloomz. Можешь сам вообще затюнеть по любым датасетам и алгоритмам на кагле. Но это все понятно на любителя лучше не прыгать выше головы и брать что по железу тебе подходит.

Аноним 15/09/23 Птн 11:20:38 #495 №489112

>>489104
https://huggingface.co/chat/
как маленький, в гугле забанили? Выбери там фалкон в моделях и радуйся.

Аноним 15/09/23 Птн 11:25:34 #496 №489119

изображение.png

>>489112
Надолго ли?

Аноним 15/09/23 Птн 11:28:13 #497 №489122

>>489089
Cublas/clbblast или что там?

Аноним 15/09/23 Птн 11:30:07 #498 №489126

>>489122
Всё по ссылке из шапки, добавил
https://rentry.org/llama-2ch

Аноним 15/09/23 Птн 11:35:51 #499 №489129

>>489119
Хуй знает, но там может что то новое будет доступно. hf chat обычно стабильно работает, разве что там бывает то добавят то вырубят модель. Сейчас шумиха пройдет и falcon 180 по обычному адресу будет доступен. Тоже и с falcon 40 было когда вышел.
https://huggingface.co/spaces/mosaicml/mpt-30b-chat
К примеру тут и промпт можешь любой поставить да и вроде mpt без цензуры тоже. В общем всегда прицепится есть к чему.

Аноним 15/09/23 Птн 11:37:52 #500 №489131

>>489126
Может на всех ссылках на рентри заменить org на co?

Аноним 15/09/23 Птн 11:43:43 #501 №489139

>>489131
Можно, хотя не понимаю зачем.

Аноним 15/09/23 Птн 11:47:57 #502 №489142

>>489141 (OP)
ПЕРЕКАТ

>>489141 (OP)

ПЕРЕКАТ
>>489141 (OP)