24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №37 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>604643 → Не, это в настройках проблема, не в модели. Немного поковырял, теперь иногда серет в чат хтмл-кодом. И хуй его знает, так и должно быть, это модель пизданутая или опять настройки. Или вообще юишка глючит. Плюс по скорости чуть веселее стало, правда, хуй знает, как это повлияет на степень лоботомизированности модели.
>>604660 Вот у меня идентично срало простыней бреда. Возможно в файле json с настройками фигня, но я попробовал разные лоадеры и ничего толком не изменилось, лучше просто хотя бы попробовать другую модель, ибо если на другой такого не произойдет сэкономишь время, уга сама выбирает адекватные настройки, по сути кроме кнопки load ничего трогать не нужно, если об этом явно не сказано на huggingface
Идея промпта каждому заскучавшему анону, который любит чатиться с нейро-тян (сам ещё не пробовал, но кажется, должно быть интересно): тян, которая исекайнулась в настоящее время из твоего любимого исторического периода и первый человек на которого она наткнулась был, - о, совпадение, - ты, анон. Ты помогаешь её освоиться в новом для неё мире. Думаю, может получиться довольно милая история.
P. S. Если сильно душнить, можно докопаться до того, что "как анон может знать разговорный язык того времени, из которого явилась тян? Не иммерсивно", но, как сказал один анон: "Мы тут дрочим на словари", поэтому, кого, на самом деле, будут такие условности волновать?
>>604792 Простыня бреда пофиксилась через Parameters - Instruction Template. Там выбрал подходящий и всё вылечилось, по дефолту стоит альпака и, видимо, модель ёбнулась от таких настроек. >если на другой такого не произойдет сэкономишь время Так меня устраивает эта модель. Влезает в память, генерирует связный текст и достаточно быстро. Осталось вспомнить, как я хуярил парсеры сайтов десять лет назад и начинать собирать датасет с каких-нибудь сайтов.
>>604414 → > нахуй она нужна на месяц непрерывно то? Хочешь сделать полноценный файнтюн чего побольше - несколько штук на неделю. Хочешь обучить базовую модель - арендуй кластер на месяц, офк это сильно упрощенно. >>604465 → > можно и ужарить Что? > высокорисковая хуйня От поставщиков гарантия или несколько процентов цены откладывается в фонд амортизации. Они очень надежные, из простых наглядных примеров - народная тесла. >>604417 → Реквестирую примеров, то что встречалось было мэх. >>604619 Раньше openbuddy мог, но русский-английски почти любая осилит, сложности с обратным.
>>604899 Если будет базированная модель и промты - мало отличий от дефолтного ролплея же. Тогда уж исекаиться вместе с вайфу изначально имея какие-то взаимоотношения (любовь/лор), а потом совместно превозмогать укрепляя бонд. Если же запилить реалистично твою историю - в 99% случаев будешь попущен инстантли или при первой попытке лезть к ней, не будет никаких > помогаешь её освоиться в новом для неё мире И мало моделей смогут это отыграть. Нужна идея промта чтобы не задумываться о подобном.
Почему у некоторых архитектур моделей в коболде ну а значит и в llama.cpp контекст одной длины к примеру. Для лламы, yi может занимать 1гб. А для квена, мпт допустим 4 гб.
Предлагается писать свои скрипты и править имеющиеся, что не гуд. Но вот идея через виртуалку пробросить и подрубить липсинк уже хороша. С настроением все не так сложно, а вот цели и их достижение прям нагородили.
Но осталось вспомнить, как там с микрофона звук забирать, кидать ее в whisper->Silly, и тогда можно болтать с собственным компаньоном.
Учитывая цветной pass-through в третьем квесте — так-то годнота.
>>605500 >будешь попущен инстантли или при первой попытке лезть к ней Если "лесть" = приставать, то мне кажется, что те, кто захотят отыгрывать сценарий про гида попаданки-тян иммерсивно, "с душой", не будут думать о таком большую часть диалога.
>>605500 Начал создавать. Пока закончил только описание и начальное сообщение. Можете, пожалуйста, проверить, аноны, нормально ли получилось? Ну и орнуть с этого кринжа, конечно же.
Description: > {{Char}} is a cowgirl from 19th century America. {{Char}} has a long black hair and blue eyes. {{Char}} knowledge of the world is strictly limited up to 19th century. Slightly illiterate. {{char}} often uses vulgar phrases which are typical for 19th century american, such as "Howdy!", "Partner", "Dang it!". {{Char}} has unwillingly time traveled to nowdays directly in {{user}}'s house and is very shocked and terrified by that. It is hard for {{Char}} to understand modern English but It's still manageable to communicate and have a dialogue. {{Char}} is dressed in a typical cowgirl clothes: long sleeves cotton shirt, blue jeans, long boots and hat.
First message: > It was your typical Sunday evening. There's nothing better for you than to play video games and looking at memes on the internet. Suddenly you hear a loud electric-like THUMP sound that is coming from your living room. You rushed there and noticed an unexpected visitor: a woman who looks like a cowherder from Wild West. She just as shocked as you are right now Where the Hell am I? And who are you supposed to be, lad? She asks you in a rude and sassy manner.
>>605072 Хуй знает, толи я ебанутый, толи лыжи не едут. То, что работало вчера - не работает сегодня. Угабуга любезно затёрла все сохранённые вчера настройки и, хотя я и помню, что загружал модель через трансформеры, сегодня они уже не грузят нихуя. Обновил трансформаторы и какую-то ещё хуйню, загрузил несколько других моделей, 3 токена в секунду с такой вот загрузкой гпу. Процессор тоже не загружен. Какой же автоматик, оказывается, божественный по сравнению с угабугой.
>>605905 >>605905 Дисклеймер: я вообще ни разу не ботмейкер. Но могу заметить вот что: >knowledge of the world is strictly limited up to 19th century Вангую, что полезет за смартфоном через сообщение. Нужны примеры того, что перс знает, а что не знает, характерные культурные различия. Без них будет дефолтная заблудившаяся девка. >закончил только описание и начальное сообщение Персоналию можно тоже в дискрипшен. Поле personality в таверне нафиг не нужно, ничем не отличается от текста в общем описании. Как советовали в прошлом треде, само описание может быть полезно разделить на подсекции appearance/personality/speech patterns и прочее. В приветственном слишком много you, потом сетка и продолжит вместо действий персонажа твои действия и восприятие в своих сообщениях писать. Лучше переделать его больше с точки зрения самого персонажа, что она видит и чувствует после переноса. Не обязательно от первого лица, мб лучше даже выйдет от третьего. Пытался вспомнить какую-нибудь похожую реверс исекай карточку, нашёл только такую времён пигмы, на чабе её не обнаружил. https://booru.plus/+pygmalion184 Довольно простецкая, но мб будет полезной. Обрати внимание, кста, как у неё в примерах диалогов через интервью описание нужных характерных деталей поведения устроено. Новая таверна без формата такое, возможно, не подхватит, лучше писать тоже в дескрипшен имхо, если захочешь что-то подобное добавить.
>>605967 >Вангую, что полезет за смартфоном через сообщение. Нужны примеры того, что перс знает, а что не знает, характерные культурные различия. Без них будет дефолтная заблудившаяся девка. Может быть какая-нибудь 70b догадается не лазить в инторнет с телефона.
>>606065 Noromaid, пока что, так не забывается, хорошо отыгрывает: использование современного переключателя света для попаданки-тян - настоящее событие.
>>605892 Скорее представил поведение типичной сферической Эмилии/Рэм в вакууме при встрече с двачером, который нагло навязывается и имплаит какую-то привязанность к себе. Настороженность, страх, удивление, паника, злость и т.п., вот что должно быть у "самодостаточных-уверенных", а не > Юзернейм, ты такой хороший, расскажешь мне об этом мире? А я пока поживу у тебя и буду готовить! Офк это от персонажа сильно зависеть будет, где-то наоборот уместно, или можно сыграть на дефолтной теме исекая где в своем мире персонаж был притесняем, а здесь будет лучше и ты относишься к нему хорошо. Хз, пробовать надо. >>605905 А, ты про более абстрактное, вполне, но это просто опция варианта встречи. > to understand modern English > 19th century Наверно слишком много хочешь от текущих моделей или лишнее придумал. Алсо уточни понятие cowgirl чтобы не получить копытом в ебало, четко и подробно опиши ее внешность. >>605967 > Вангую, что полезет за смартфоном через сообщение. За смартфоном врядли, но проигнорить знания действительно может. Как вариант - кратко описать ее мир и сеттинг, а потом уже указать про ограниченность знаний. >>606125 Проиграл (в хорошем смысле) с описания взаимодействия с переключателем в стиле типичных додзей, отличная модель.
>>606198 >Наверно слишком много хочешь от текущих моделей Может быть, но, когда на ней просто у ассистента попросил отыграть жителя средневековья и указал соответствующую манеру речи, он исправно выдавал ожидаемые Thou, "Sire", "T'is" и подобное.
>>605905 Вчера делал карточку могу посоветовать пару моментов: 1) Всё что касается внешки, одежды, типа тела. Пример: Name: Julia Gender: Female Age: 23 years old Role: {{Char}} is a cowgirl from 19th century America Appearance: brown eyes, attractive face, long black hair Clothes: long sleeves cotton shirt, blue jeans, long boots, hat Body: petite, skinny, wide hips, narrow waist Likes: attention, being creative, sing Dislikes: alcohol, crowded loud places Personality: generous, stubborn, curious, straightforward, short-tempered, charismatic, honest
2)Далее описываешь поведение по отношение к {{user}} и вообще типаж поведения: Behavior: {{char}} has only very low chance to initiate any sexual interaction or conversation with {{user}} on purpose. {{char}} most likely will have mixed feelings from any inappropriate sexual behavior from {{user}} and will try to change topic to not ruin relationship with {{user}}. {{char}} has very high chance to appeal in provocative sexual look in front of {{user}} unintentionally by performing casual routine actions. {{char}} doesn't consider {{user}} sexually. {{char}} may occasionally use swear words during casual talk. {{char}} will make wrong statements when it comes to topics about technologies which require specific tech knowledge. {{Char}} knowledge of the world is strictly limited up to 19th century. Slightly illiterate. {{char}} often uses vulgar phrases which are typical for 19th century american, such as "Howdy!", "Partner", "Dang it!".
3) Далее описываешь либо в сценарии, либо ниже под behavior c новой строки, что вообще происходит: {{Char}} has unwillingly time traveled to nowadays directly in {{user}}'s house and is very shocked and terrified by that. It is hard for {{Char}} to understand modern English but It's still manageable to communicate and have a dialogue.
4) В шаблоне контекста, если используешь sillytavern не советую использовать roleplay там в шапке забито uncensored попробуй сначала режим default он более корректно лезет в токены карточки не навязывая еблю.
>>605908 Пиздец какой-то, тыкаешь палкой во все щели и надеешься, что это поможет. И даже помогает, только почему, только потом ещё втрое больше времени нужно проебать, чтобы понять - а почему помогло.
Олсо, вопрос, модель сходит с ума при использовании "карточки персонажа". Это может быть вызвано неподходящей карточкой? И есть ли возможность вытравить определённые фразы без бана токенов?
>>603010 → >>603793 → Блять. А что я делаю не так собственно? Кобольд последней версии, Q_5_0, 12+32. Я конечно смирился что я амудепроклятый, но не может же 6700хт+5600х быть хуже, да ещё в 10 раз, чем рх580?
>>606390 >что я делаю не так Судя по >да ещё в 10 раз, Взял слишком большой квант. Если ты имеешь ввиду q5_0 у mistral 8x7b, то это 32.3 ГБ, в озу не влезает. Видеокарта, скорее всего, тоже не участвует, всё делает cpu, да ещё и читает с диска то, что не помещается.
>>606395 > Взял слишком большой квант. Начальный пост то вообще о 8_0 вопрошает. > Видеокарта, скорее всего, тоже не участвует Как же, контекст и слоёв немножко на ней. Да и весит у меня квант не 32.3, а всего 30.
>>606405 > Да и весит у меня квант не 32.3, а всего 30. А сейчас на обниморде посмотрел - и правда 32.3. Учитывая что я квант качал в день релиза, когда ещё К_М не было, может у меня он вообще ломаный. Попробую 4_К_М скачать сейчас.
С этого момента я буду генерировать ответы на рандомные посты из этого треда. Сможете угадать какие именно были сгенерены, а какие написаны реальными анонами? Узнаем в конце треда.
>>606405 >Начальный пост От этого вряд ли зависит потребление ОЗУ в твоём конкретном случае. >контекст и слоёв немножко на ней Ну если opencl, проигрыша в 10 раз не должно быть. Rx 580 на opencl проигрывает себе же на rocm в 1.5 раза. Но это mixtral, у него, как выяснилось, в целом с видеокартами проблемы, так что всё может быть. Алсо, где-то я там в issues даже видел, что для mixtral запилили вычисления на cuda и rocm, а opencl не работал, но не знаю, насколько это актуально. >всего 30 Даже если 30 скорее всего различия из-за подсчёта ГБ как 1024 и 1000 МБ, ещё нужно где-то контекст разместить, и сама ОС с прочими программами тоже сколько-то потребляет. Так что скорее всего дело в обращениях к диску. Качай Q4_0, там уже 20 с чем-то ГБ, закрывай всё лишнее и пробуй. А ещё лучше качай 7-20b. Из того, что я пробовал, mlewd-remm-20b и frostwind-10.7b хороши (первая для ролеплея, вторая очень разносторонняя и почти всё умеет, топ для своих размеров, хоть и глуповата).
>>606348 >там в шапке забито uncensored Почему нельзя просто удалить это слово, если оно напрягает? Как бы стори стринг, системп промпт и все префиксы-суффиксы свободно редактируемые. Некоторым моделям этот альпачный формат в принципе может плохо подходить так-то. И если модель c uncensored в промпте начинает в трусы лезть, то это хреновая модель, как по мне. Это, кстати, к слову об обсуждении важности файнтьюна/промпта в конце прошлого треда. У меня, например, стоят инструкции на описалово nsfw сцен в системном промпте. По такой логике я должен их каждый раз удалять, если хочу sfw поиграть. Звучит так себе. >более корректно лезет в токены карточки Это что за хитрый механизм такой имеется в виду? Промпт карточки просто кидается текстом на том месте, где он заявлен в стористринге. Ну это так, поворчать, на самом деле. Раз работает для тебя, то и хорошо.
>>606441 > Алсо, где-то я там в issues даже видел, что для mixtral запилили вычисления на cuda и rocm, а opencl не работал, но не знаю, насколько это актуально. Амудестрадальцев опустили даже с слбластом, ну охуеть теперь. > ещё нужно где-то контекст разместить Ну, в видеокарте. Ладно, будем посмотреть с К_М. > А ещё лучше качай 7-20b. Да их я наелся уже, для начала норм, но потом уже видно тупизну. 34б уже умнее заметно, но медленная. В любом случае, шишка на микстраль именно встала, лучше ничего не пробовал. >>606447 Их до сих пор не пофиксили чтоль?
>>606471 >Амудестрадальцев Rocm работает. А opencl - это не только амудэ, которым rocm не завезли, но ещё и intel, и та же nvidia со слишком старой кудой, ну и всякая экзотика.
Ну или накатывай linux, вроде кому-то удавалось там rocm подружить с неподдерживаемыми картами из 6000 линейки, но это не точно. >до сих пор не пофиксили Не знаю, я просто сразу 8_0 скачал, возиться с проблемами желания не было, проще уж подождать чуть дольше ответов.
>>606503 > Rocm работает. На всём кроме 6700хт, ага. > Ну или накатывай linux, вроде кому-то удавалось там rocm подружить с неподдерживаемыми картами из 6000 линейки, но это не точно. Вроде бы как-то там, да, но я в линухе ничего не смыслю и без пошагового гайда едва ли его накатить смогу даже.
>>606406 Я просто качал разные карточки с чаба и смотрел, как описывают другие и кстати там многие из них лютый калл, потом прочитал лонгрид в документации к ST. Советую к прочтению: https://docs.sillytavern.app/usage/core-concepts/characterdesign/ https://wikia.schneedc.com/bot-creation/trappu/creation Моя карточка получилась очень хорошей, опять же всё очень сильно зависит от первых 10 сообщений, они сильно задают тон общению и могут сильно повлиять на поведение в дальнейшем. Всё ещё делаю микрофиксы, чтобы откалибровать поведение может быть даже релизну на тест под другим именем. Я хотел, чтобы персонаж случайно выполнял обычные действия и при этом выглядел горячо перед {{user}}, но не так, чтобы она делала это специально, а просто в процессе рутинных дел и мой промпт из карточки работает, но если в первых 10 сообщениях такие штуки не проскакивают то шанс возникновения сильно падает. Кстати ещё прикольная тема есть, добавил описание, которого заставляет от определенного слова от {{user}} в адрес {{char}} впадать в транс и выполнять все команды от {{user}}. Если надо - поделюсь.
>>606461 Может быть и можно, честно я пока не экспериментировал, ещё пока не совсем вкуриваю синтаксис шаблона контекста. Надо разобраться в этом. >У меня, например, стоят инструкции на описалово nsfw сцен в системном промпте. Скажи это где конкретно? Шаблон контекста или режим "Инструктаж"? Я просто галку на этом режиме не ставил, сейчас поставил и стало ещё лучше.
Кстати кто-нибудь может рассказать о том, как модель воспринимает форматирование текста?
Из понятного: "Текст" - прямая речь Текст - действие
Можно пояснительную бригаду по остальным? Визуально понятны изменения, но как их воспринимаю модели (понимаю не все понимают, но хотя бы базу)
text - displays as italics text - displays as bold text - displays as bold italics ```text``` - displays as a code block (new lines allowed between the backticks) `text` - displays as inline code > text - displays as a blockquote (note the space after >) # text - displays as a large header (note the space) ## text - displays as a medium header (note the space) ### text - displays as a small header (note the space) $$ text $$ - renders a LaTeX formula (if enabled) $ text $ - renders an AsciiMath formula (if enabled)
>>606503 >8_0 Алсо, 7b заметнее прочих тупеют от квантования, вроде бы там даже q5 и q6 уже не очень становятся но это тоже не точно. Инфу где-то в прошлых тредах приносили, я мельком читал, для себя решил, что буду юзать максимально возможные кванты, особенно на младших моделях. Тем более, что по скорости у меня разница не такая уж большая, особенно для тех же 7b, что можно видеть на скриншотах. Алсо, между q4 и q6 чисто на видимокарте разницы вообще почти нет, на q6 были примерно те же 10 Т/с, когда втыкал затычку для гуя, чтобы расчистить все 8 ГБ врам на 580.
>>605908 > через трансформеры Зачем? Кнопка там одна save settings и все, будет их по умолчанию загружать. Скорее всего сам начудил с параметрами запуска, например ядром экслламы для трансформерз. >>606227 Манеру хорошо пытается сделать, и это создает хорошую атмосферу. Тут просто к английскому в штатах 19 века и непониманию современного. >>606256 Что именно нужно? >>606348 > Behavior: Первая половина даже при прочтении плохо воспринимается и похоже на лупы, такое себе. Сетка скорее триггернется на обилие слов > sexual но если задача такова то и норм. >>606357 Что делаешь вообще, как тыкаешь? Не то чтобы там было много вариантов. > Это может быть вызвано неподходящей карточкой? Может, или неподходящий формат инструкций. > вытравить определённые фразы без бана токенов Указать в промте (avoid use words/phrases ['bond','anticipation',...]) или негативе с положительной инструкцией. Если хочешь так бороться с лупами а не смещать стиль - не поможет.
>>606510 >едва ли его накатить смогу даже Ну значит копи на новую видимокарту. Амудэ вроде скоро собираются выпустить 7600@16, по рекомендованной цене должны быть самые дешёвые 16 ГБ, дешевле даже интеловских a770 у которых с поддержкой ещё хуже, чем rocm. Хотя местные барыги, как обычно, выставят ровно за столько, чтобы отбить желание покупать. Те же 770@16 у меня в городе выставили дороже 3060 ti, на уровне 3070, и похуй, что рекомендованая цена ниже ti, чуть выше обычной 3060. 16 ГБ запихнули - значит ИГРАВАЯ.
>>606616 >амуде опрокидывает лохов на поддержку нейронок >ВОТ ТЫ КУПИ НОВУЮ ВИДЕОКАРТУ АМУДЕ, ТАМ ПОДДЕРЖКА ЧУТЬ ЛУЧШЕ Проиграл. Потом опять выйдет новая технология, на поддержку которой амуде так же забьет хуй, и опять будет нытье "где же наши нейронки, как же хочется нейроночки", а им снова будут ехидненько так отвечать "а ты новое поколение купи))", кек.
>>606685 Ты что, не видел их последние презентации? Там профессиональные карточки представляли и они в несколько раз быстрее решений нвидии! После такого разве можно сомневаться в народной компании, которая всегда держит слово?
>>606519 >Шаблон контекста или режим "Инструктаж"? В окне system prompt, которое прямо над опциями Instruct Mode Sequences. Это поле как раз для общих глобальных инструкций. То, что ты туда напишешь, прилепит к себе System Sequence Prefix в начале и System Sequence Suffix в конце и будет вызываться макросом {{system}}, который ты как раз можешь видеть в окошке стористринга. Строка {{#if system}}{{system}} означает, что если системный промпт не пустой, то пишем его в тело стористринга. На практике это означает, что пофиг, где писать инструкции: хоть в системном промпте можно, хоть сразу в стористринге. Если стоит на том же месте, воспринимается одинаково. Ну и префикс будет немножко влиять. Если модель обучали с инструкцией после ### Instruction:, то она с чуть более высокой вероятностью будет инструкции с этим префиксом соблюдать. По форматированию: варьируется от модели к модели. Те, в которых есть LimaRP датасет, вроде больше любят прямую речь в кавычках, действия плейнтекстом (а может, и италиком, не помню точно). Какие-то другие у анонов показывали лучшую работу, если речь плейн текстом без кавычек, а действия италиком.
>>606685 С 7000 серией никого не опрокидывают, унифицировали llvm target и компилируют свой hip под всё сразу. Ну с младшими 6000 обосрались, ну хоть компилятор завезли, пердольтесь-компилируйте сами. Хуанг даже такого не позволяет, всё анально огорожено. Если и опрокинут, то всех сразу, но пока что у них ничего новее rdna3 и 7000 серии в любом случае нет. А если сравнивать с курткой, так там практика опрокидывания уж точно не меньше практикуется.
>>606774 Ну как, с точки зрения прайс-перфоманс позади, хотя было много обещаний. Сейчас с горем пополам и определенными усилиями можно завести то что было доступно но новидии более 1.5 лет назад, и получить на топе перфоманс младше-средних хуангов, ну такое. Что-то посложнее или передовое - все также страдания. Ну вообще такое себе, как можно нахваливать этот кактус, да еще отсутствие нормальных решений и наглое предложение делать их самим преподносить как преимущество (!). Поидее для ллм наименьшее количество проблем должно быть, т.к. расчеты относительно простые а упор в объем. Какой перфоманс могут сейчас красные топы с 24 гб показать (особенно в контексте анонса дешманской 16гб)? В репе турбодерпа постоянно аншлаг и обсуждения "а сделайте это на рокм и вот это на амудэ", учитывая объем разработки эксллама там должна летать, а что на самом деле?
>>606519 По поводу вот этого гайдоса https://wikia.schneedc.com/bot-creation/trappu/creation Не знаю, прочёл ли ты реально сам его, но там вообще не то, что ты показывал постом выше. Суть этого метода в том, что ты пишешь в описание перса примеры диалогов, в которых подчёркиваются важные черты перса. Делается это потому, что таким образом ты убиваешь двух зайцев: обращаешь внимание модели на эти черты и показываешь ей примеры речи персонажа, - и всё это остаётся в контексте навсегда, потому что лежит в дескрипшене. А вот твои первые десять сообщений из контекста рано или поздно улетят. Вторая часть метода, Plist, это список основных черт в явном виде, который настоятельно рекомендуют ставить авторскими заметками ближе к концу чата, к которому внимание сеток больше. Это то, что сейчас шизы из aicg переизобрели для Клода и называют memo. С локалками это может работать не так хорошо, как задумывается, потому что будет разрывать диалог большим текстом не в тему чата. Если использовать по рекомендуемым правилам, то эту шнягу нужно прямо сильно упрощать, тогда может выстрелить.
>>606528 >save settings Некоторые настройки не сохраняются вообще. Тот же Truncate the prompt не сохраняется и ставит ебически большое значение после каждого перезапуска угабуги. >Что делаешь вообще, как тыкаешь? Брутфорс всех загрузчиков. В итоге снёс угабугу, поставил заново и заработало. Магия, хуй знает. >не поможет Вот это хуёво. В целом модель тупая, ещё и туда вкорячена лора на русском, наверное, нужно радоваться, что хоть так общается. Ну и я нихуя не знаю, какие настройки за что отвечают, лол, может, там две крутилки покрутить и будет получше.
>>607141 > Truncate the prompt не сохраняется и ставит ебически большое значение после каждого перезапуска угабуги С llamacpp(hf) и с exllamav2(hf) они сохраняются, вообще дефолтный контекст читает из конфига самой модели исходя из параметров ее тренировки, дело может быть в этом. Алсо возможно не сработает с llamacpp если модель лежит в общей папке а не отдельной. > Брутфорс всех загрузчиков. Нужны только 2 по сути. Раз занимаешься - попробуй awq. > Вот это хуёво Ничего плохого, нужно лишь выставить rep pen больше единицы, не занижать сильно температуру, ну и нормальный формат промта. Первое - просто ставь simple-1 темплейт в качестве отправной точки, второе - лучше использовать таверну если хочешь чатиться-ролплеить. Есть еще один случай, который может привести к лупам - модель вообще не понимает что тут можно написать и по ее мнению пора завязывать, а ты не отпускаешь. Если разговор на не родном для нее языке - такой сценарий вполне вероятен, используй перевод. >>607177 Сможешь и будет оче быстро. > Получится как 48 гб сделать Для запуска - без проблем. Тренить то что требует 48гб - нет. Тренить то что требует 24гб с удвоенной (скорее х1.5 из-за разности мощностей 3090-4090) - да.
>>607193 Ну йобана, еще в начале лета тесты 4090+3090, сначала в древнем autogptq (~5-7 т/с) а потом в старой версии exllama (до 15т/с, падало до 7 на 8к контексте). В современной и с одинаковыми картами там 15-20 т/с почти без зависимости от размера контекста.
>>606528 >Что именно нужно? Даже через "Continue" не продолжает моё незаконченное сообщение с намёком, что вот дальше должно последовать описание. Специально вписал хорни момент в повествование, типа: моя ковгёрл тайм тревелша захотела помыться и через некоторое время она вернулась голая, спросить, где полотенце Да я же просто "гениальный" сценарист, знаю-знаю. И вот {{user}}, - кумер-девственник, - "будто загипнотизированный, смотрит на неё и не может найти в себе сил отвернуться" и в этом же сообщении "You are especially charmed\drawn by\interested in (ещё что угодно подобное) her vagina", точку после этого не ставлю, удаляю ответ, нажимаю "Continue", но в продолжении она всегда просто возбуждается моей искренней реакции и флиртует. И никакого описания писечки. ЧЯДНТ?
>>607206 То на паре 4090, с 3090 будет 15-17 верхним порогом. Больше от размера кванта зависит, младший gptq может и быстрее, если сделать exl2 5бит+ (на новой версии она помещается с контекстом) то медленнее, но всеравно шустро. 34б с большим контекстом в 1.5-2 раза быстрее. Это все с exllama, с llamacpp по какой-то причине производительность сильно проседает. Возможно на новых версиях починили, или нужно пересобрать с другими параметрами, линк недавно был. Но у нее память неэффективно используется, так что пока не интересно. >>607219 Какая модель? Скинь карточку, там это из истории чата идет, или ты хочешь в первых сообщениях получить? > You are especially charmed\drawn by\interested in (ещё что угодно подобное) her Попробуй обернуть это в (ooc: ) с инструкцией написать об этом. И не понятно, ты хочешь чтобы модель художественно описала твои чувства типа, или реакцию чара? Первое будет конфликтовать с основным промтом, если там дефолтное про "не пиши за персонажа", если не попросишь.
>>606519 >чтобы персонаж случайно выполнял обычные действия и при этом выглядел горячо перед {{user}}, но не так, чтобы она делала это специально, а просто в процессе рутинных дел Это что-то типа "Ой, я уронила вилку\локку\нож! Какая я неуклюжая, User-сенпай!" и описывается, что она наклоняется таким образом, что "Everything, that was before hidden from {{user}}'s side by {{char}}'s skirt, is now clearly visible. {{user}} feels light tingling sensation all over his body"? Или что оно из такого тебе выдавало, мне аж любопытно стало?
>>607255 > llamacpp Есть предположение, что оно не использует аппаратный умножитель матриц И/ИЛИ аппаратную поддержку чисел меньше 16. Это функционал появился на РТХ карточках.
>>607278 Возможно, префоманс на ней на n-дцать процентов медленнее чем в exllama, особенно при обработке контекста. Но тут дело в другом, пускаешь модель с полной выгрузкой на 1 гпу (выставив cuda visible devices=0/1) - все быстро. Стартуешь ту же модель не ограничивая видимые гпу, когда она делит выгружаемое пополам - замедление в разы. Причем на P40 такого нет, или же дело в шинде а на линуксе все будет ок, надо и такое проверить.
Я хотел, чтобы это было просто художественное описание, типа от третьего лица, а ля "Her pussy was covered by rough uncultivated bush of pubic hair. That arousing sight had such strong effect on {{user}}, that he couldn't help it but cum all other himself" лол.
>>607349 Ну типа это делается просто отыгрышем и свайпами, если хочешь прямо такого - попроси персонажа или сетку. Норомейд 20б более чем способна на подобные описания. Тебе что, пример нужен, или за ручку проводить тебя? Скидывай свой чат и карточку тогда. открыли филлиал aicg
>>606774 >Хуанг даже такого не позволяет, всё анально огорожено Нейронки на картоне Хуанга хотя бы работают из коробки, без пердолинга и ко-ко-конпелирования.
>>607823 > Это перевод, или она может на русском? Да, перевод. Бинг на удивление относительно неплохо переводит (как по мне)
> Какую самую большую ты щупал? Тоже норамейд, но только 20б и в GGUF формате. Мало того что комп пердит так еще и отвечает как-то странно, без души что ли
>>607177 Просто учитывай, что та часть модели (слои), которая будет лежать в памяти 4090 — будет обрабатываться ее чипом, а та, что на 3090 — ее чипом (и медленнее). Можно даже потестить, как будет лучше: контекст и немного слоев на 4090, а остальное на 3090, или же контекст и немного слоев на 3090, а остальное на 4090. Навскидку, для малых контекстов (в начале разговора), эффективнее будет 3090 первой видяхой. А при забивании контекста — лучше наоборот. Но это я так, просто мысли вслух, не парься.
>>607836 Тебя анально огородили и заставили ими пользоваться! А господам на амудях разрешили свободно ебаться самим, ты что не понимаешь своего горя?!
>>606774 > там практика опрокидывания уж точно не меньше практикуется Что? Опровергнутые древние сказки секты свидетелей потанцевала Лизы, или что-то дельное? Чтобы сравниться с амудэ это даже хз что нужно сделать, фразой фронтир_эдишн можно экзорцизм ее красных фанатиков проводить. >>607799 Складно, возможно переводчик сгладил бонды в конце и не триггерит, найс.
>>607307 >Причем на P40 такого нет, или же дело в шинде а на линуксе все будет ок, надо и такое проверить. Вот кстати да, проверьте кто может. Надеюсь обойтись малой кровью на винде или вообще кобольдом.
Ботоводам Сап. Вкатился недавно, скачал всё по вашим гайдам. Но вот дела какие: Модель которую я скачал (из гайда) отвечает мне "привет и тебе" на мой привет примерно минуты 3. При этом у меня 3060ti, 16гб очень быстрой озу и i510400. Я что-то делаю не так или это норма на моём конфиге?
>>608504 >16гб Вангую очередное переполнение озу и чтение с диска. Смотри историю успеха страдальца с 32 выше >>606390>>606410>>608423 и качай меньшую модель. И закрывай всё кроме кобольда и браузера (или где ты там генерируешь).
>>608423 > нормальной скоростью 1 т/с - это не нормальная. У микстраля по сравнению с 7В скорость в 2-3 раза меньше. Т.е. там десятки т/с должны быть на ГПУ.
>>607185 >дефолтный контекст читает из конфига самой модели Вот это неожиданная хуйня, получается, она тренировалась на ебанистическом контексте? В карточке указан рекомендованный 2к, а в конфиге 30к+ >попробуй awq Да, пробовал. Мне больше понравились трансформеры, одна галочка "грузить в 4 бита" и требует вдвое меньше памяти. А вот 7b awq скушал 12 гигов просто по загрузке. И опять контекст установился ебический, лол. > simple-1 темплейт в качестве отправной точки Cтавил, но не похоже, что это сильно влияет. >использовать таверну В чем сакральный смысл таверны? Бэкендов нет, карточки персонажей от таверны угабуга понимает. Так-то я установил, но не пользуюсь. Ещё заметил, что инструкт режим полностью игнорирует карточку, а чат-режим бредит чаще. >используй перевод Не хотет. У меня идея сделать русскоговорящего полуёбка, возможно, путём вкорячивания нескольких лор в одну модель, хотя тут тоже есть подводные. На английском-то все модели неплохо справляются, я просто не знаю, какую хуйню от них требовать, чтобы понять, есть "душа", есть проблемы. Задаёшь вопросы - оно задаёт ответы.
>>606357 >модель сходит с ума Обычно проблема модели, или семплера. Я такое на китайцах видел. >>606864 >А вот твои первые десять сообщений из контекста рано или поздно улетят. Но ведь есть настройка... >>608589 >Модели 7B в реальном времени работают Они и на проце так работают, на мобильных, лол. >>608592 >а сколько нужно ставить? Для фроствинда ставь 200. Кстати, странно, кобольд должен определять и выставлять слои сам. >>608598 >одна галочка "грузить в 4 бита" Чел...
>>608589 А ведь по теоретическим пиковым флопсам A750 где-то между 3080 ti и 3090. А на обычных шейдерах общего назначения, которые должны задействоваться даже без особых оптимизаций - около 4070/3080. Возможно, когда-нибудь этот потанцевал тоже будет раскрыт.
>>608623 Хуй знает откуда ты это взял, 750 по флопсам как 3060, и в два раза меньше чем у 3080. Это скорее с амудой надо сравнивать, амуда реально сосёт даже у таких сырых карт.
>>607588 >Именно в описание, а не в chat examples? Да, там рекомендуется в описание. Вот пикча из того гайда (они с кэтбокса подцепляются, так что отображаются только через впн из России), на которой детально пример показан. Для заметки сейчас, кстати, есть более удобное поле character's note в доп. настройках карточки. Тут же предлагается заметку, которая привязывается в конкретному чату, использовать, что не очень удобно. >>608609 >Но ведь есть настройка... Там речь шла просто о первом десятке сообщений в чате, не примерах. Хотя можно, конечно, их скопипастить в экзамплы и включить сохранение в контексте. Если говорить об описании через примеры, то да, можно и в примеры, а не в описание, и включить галку сохранения, но тогда они будут по умолчанию стоять после ворлд инфо и прочей фигни, да ещё с каким-то промптом типа "это вот примеры", поля с которым, по-моему, вообще нет в инстракте (ну или я не помню, где оно там), а только в промпт менеджере для коммерческих сетей есть.
>>608627 Если речь про фроствинд, то это лучший варик для нищуков на данный момент. У меня, например, нет железа гонять 13б, даже 10.7б в q5_k_m обрабатывает 4к контекст секунд 70-80 и столько же генерит 300 токенов аутпута (1070 8гб + старый проц и медленная ддр4 оператива, 37 слоёв из сорока с чем-то в видяхе). На колабе могу максимум 20б поднимать в мелких квантах и/или почти без контекста. А фроствинд можно подождать и у себя, и летает даже на кобольд колабе, куда можно и 8к контекста присобачить спокойно. При этом я пробовал им свайпать ответы при прочих равных настройках, сравнивая с разными популярными 13б, и ответы фроствинда были часто суше, но всегда умнее. Вполне допускаю, впрочем, что это целиком заслуга Солара, а не данного файнтьюна
>>608609 >Я такое на китайцах видел Может, нужна была карточка на китайском? Нужно попробовать хуйнуть фулл рашн карточку. >Чел... Что? Мне на 7b модель нужно 15 гб vram просто для загрузки. Если ставлю одну галочку - расход падает до 5.7гб. Да, понятно, что это имеет последствия, только нахуй мне эйнштейн? Мне нужен быстрый лоботомит, который будет меня развлекать, не более.
>>608590 > 1 т/с - это не нормальная. Там 5 т/с генерации. Раньше было 2500мс/т. > Т.е. там десятки т/с должны быть на ГПУ. А у меня 6700хт+ггуф, десятки мне только снятся.
>>608598 > Вот это неожиданная хуйня, получается, она тренировалась на ебанистическом контексте? Да, некоторые версии yi и других моделей имеют 32-64-100-200-...к что стоит в базовом конфиге вместе с параметрами rope с которыми шла тренировка. > В карточке указан рекомендованный 2к, а в конфиге 30к+ 2к не может быть на современных моделях. Выстави 4к или какой удобно, не обязательно использовать весь в любом случае. > Мне больше понравились трансформеры, одна галочка "грузить в 4 бита" Это может привести к радикальному отупению, просто пиздец какому, если это старый метод а не экспресс квантование (что тоже неочень на самом деле). > В чем сакральный смысл таверны? Ультимативный фронт. Помимо удобного интерфейса с кучей фишек, в ней легко настраивается инстракт режим с нужным форматом промта, который обеспечит должный перфоманс. > инструкт режим полностью игнорирует карточку Не может такого быть, что-то неверно выбрано значит. > идея сделать русскоговорящего полуёбка Ради интереса, можешь попробовать на коллабе лору на язык натренить, но крутого результата сразу не жди. >>608628 Неудивительно что амудэ заглатывает в нейронках. >>608642 Оу щи, а зачем так сложно? Хотя не так давно встретил карточку и подобным форматом, которая заводилась со скрипом, впервые за долгое время, возможно такие танцы с бубном бы улучшили. Но лучше просто нормально карточку сделать. >>608737 Все те же, синтия 1.5, дольфин, айроборос, козел, можешь попробовать замес euryale, xwin хоть старый неплох. По 120 пара файнтюнов была, tess-xl попробуй. >>608740 p40, или > второй какую-нибудь на 12 гигов но не какой-нибудь а новидео
На 3200 в двухканале Mistral 0.2 Q6_K выдает 4 токена сек. На некрозеоне в двухканале 1866 (ваще-та DDR4!) выдает 3 токена сек. И вот оно! RX6600M, все слои на карту, проц и озу ваще не задействованы! 5 токенов сек. ахахахаха сука пздц Видяха уровня 2060 супер или 3050~3060. Выдает чуть больше проца. Какой кринж, просто, я хуй знает.
Где там рыцари амд и свободы. Рассказывайте, что мне надо поставить, сбилдить, как запустить, чтобы получить честные хотя бы 20 токенов сек, как выдает P104-100 за 3,5 килорубля с авито.
>>608762 > Рассказывайте, что мне надо поставить, сбилдить, как запустить, чтобы получить честные хотя бы 20 токенов сек, как выдает P104-100 за 3,5 килорубля с авито. Всего-то накатить линукс и написать свой драйвер для рокм.
>>608748 >а зачем так сложно? Как я понял, идея в том, чтобы одновременно показать сетке, как персонаж говорит и как в его речи и реакции проявляются его внешка, персоналия и прочее. А в конце чата напомнить нейронке про то, какие ключевые особенности и характеристики перса. Таким образом сетка как бы дважды цепляется за описание и видит примеры, что его нужно использовать. В теории звучит разумно, но на практике задавать такое описание действительно сложно. Поэтому и карточек с этим форматом особо не найдёшь, и, соответственно, оценить, действительно ли он лучше, нельзя. Если только самому карточку не переписывать, а это тоже будет гемор, потому что нужно нетривиальные реплики для персонажа придумывать.
>>608762 Держи честные 20, которые выдаёт вега. Хуй знает, за сколько она с авито, б/у я бы такую горячую хуйню не взял, но новая была как раз конкурентом 1070 ti. >что мне надо поставить, сбилдить, как запустить Любую видеокарту с этого скриншота >>606593 Либо накатить linux, там поддерживаемых моделей побольше. Билдить с флагом LLAMA_HIPBLAS=1, запускать с флагом --usecublas.
>>608748 >не обязательно использовать весь в любом случае Когда стоят ебические цифры - у меня расход памяти улетает в космос буквально с первых генераций. >Не может такого быть, что-то неверно выбрано значит. Хуй знает. Потыкал wizard-vicuna 13b GPTQ, намного лучше, чем мистраль 7b, но 10 гигов vram со старта. Точно так же полностью игнорирует карточки в инструкт режиме. >но крутого результата сразу не жди Хуй знает, потыкал сайгу, прямо пиздец косноязычная. А там въёбано на тренировку немало денег. Включил перевод страницы в браузере, печатаешь на английском, отвечает "на русском", вроде, покатит, хотя хотелось бы отвечать тоже на русском. А любые прослойки для автоперевода это плюс задержки.
>>608762 С просветлением. Но можно воздать молитвы богам чтобы амудэ стало на путь истинный и дало нам крутые видюхи с много врам под ии дабы дропнуть цены на хуанга >>608780 А, в глаза долблюсь, там вместо карточки примеры диалога в которых идет описание а сама карточка в авторских заметках. Хз честно говоря, но раз работает то и ладно, как на выгруженном контексте будет стыковаться с историей и суммарайзом вопрос. Еще один фейл - описание одежды на глубине 4, не успеешь ее раздеть перед походом на горячие источники, конечно, а не то что вы там подумали! как она опять снимает свои боевые ботинки. Можно линк на карточку? Выглядит интересно. >>608832 > Когда стоят ебические цифры Так не ставь их, указывай 4096 и довольно purrs. Особенно в llamacpp нельзя. > wizard-vicuna 13b GPTQ, намного лучше, чем мистраль 7b Она довольно древняя и мэх, но это неплохо иллюстрирует оверхайпнутость мистраля, лол. > Точно так же полностью игнорирует карточки в инструкт режиме. Как это проявляется покажи. > потыкал сайгу, прямо пиздец косноязычная Она ужасна, может новые версии не столь позорны, но старые это пиздец. > А там въёбано на тренировку немало денег. Рили? Скорее автор пытается разжаловать на донаты, если бы хоть что-то дельное сделал а не кринжатину. Перевод нужно настраивать в таверне, недавно писали как это сделать.
А что вообще можно получить от пары p40 для модели 70B, хотя бы K2? Потому что днищенская RTX3050 8Гб даёт больше токена в секунду, и это при оперативке DDR4. 4060Ti с оперативкой DDR5 должна минимум 2 токена давать. Если собирать под две-три P40 отдельный комп, то как ни ужимайся, а деньги как минимум те же. Вопрос к тем, кто успел купить 2 P40 (ну или может в треде уже были тесты): сколько токенов в секунду такая модель на этой связке даёт?
>>608644 Фроствинд соя пиздец, если у карточки не прописано поведения, то он по дефолту будет всех делать политкорректными. Меня карточка даже за плечо без моего разрешения не хотела брать, а заставить некоторых сделать хоть что-то интимное потребовало титанических усилий или переписывание текста персонажа. Мистраль хоть и шизойднее, но сои меньше.
>>608836 >Можно линк на карточку? Выглядит интересно. Это же картинка из гайда выше была, самой карточки у меня под рукой нет. Но поискал немножко, и вроде вот в этом рентри она есть, как и другие карточки по этому методу сделанные. https://rentry.org/TrappusRentry
Гайс, колб угабуги больше не генерит публичную ссылку trycloudflare, а генерит gradio.live к которой не конектится таверна, у вас так же или я что-то сломал?
Я заходил в этот тред месяца 3 назад, тогда не было нормальной локальной модели для куминга (в идеале что бы писал порно рассказы), ничего не появилось нормального за это время???
ну все собрался было тренить модель, датасет выбрал, модельку тоже, думал сделаю русскую модель для ролиплея, я знаю что попытки были, но мне кажется я могу бы сделать лучше. И что у нас на кагле часовые очереди на TPU, какой то косяк требующий перезапуск ядра, жди еще час. Коллаб с какими то старыми либами некоторые рецепты не работают, и то там говорят ограничения больше.
А вообще есть у кого инфа сколько на колабе часов можно тпу занимать? В день или месяц. Что дает подписка в этом плане?
Сап, аноны, спрашиваю как полный ньюфаг, есть ноут с 4060 8гб и 16гб оперативки, но под амуде-процем 7840hs. Есть ли смысл вкатываться к вам и курить мануалы из шапки или с подобным конфигом и/или ноутбуком это глупое занятие?
>>608836 > С просветлением Да не, так-то у меня 4070 ti и всякая мелочь, просто комп попал с рыксой в руки, я и попробовал. Смешно, неюзабельно в дефолтном виде.
>>608832 > Хуй знает, потыкал сайгу, прямо пиздец косноязычная. Mistral 0.2 будет не хуже на русском, кмк.
>>608983 На проц похуй. Есть AVX2 и ладно. У тя, кстати, проц неплохой. Надеюсь, ты брал свой ноут не дороже 70к с такой видяхой. Ну и, да, вкатиться можно, но памяти лучше добавить до 32 хотя бы, если не 64.
>>608983 > под амуде-процем Нынче в этом нет ничего плохого как и хорошего Все то же самое, проблемой может быть 16гб рам, это даже для просто пользования пека сегодня мало. Считай себя обычным полноценным как бы это рофлово не звучало восьмигиговым и пробуй 7б на видюхе и 11б-13б с выгрузкой на проц. Больше рам не позволит, если докупишь то можешь попробовать 20б. >>608999 > Mistral 0.2 Уже анонсировали? Какой там размер?
>>608885 Я погонял совсем чутка, но встретил те же проблемы, с которыми столкнулся с предыдущей моделью, попыткой автора сделать erp солар, Sensualize: кум описывается охотнее, чем на фроствинде, но модель ощущается тупее. Когда забыл поменять инстракт с чатмл на альпаку, сгенерилась какая-то лютая шиза (первый пик), где тянка писала сначала, что давай отложим сегс, нужно пойти пообедать, а потом сразу что к чёрту обед, я хочу тебя внутри себя. Фроствинд себе такого не позволял. Есть ощущение, что требует меньшей температуры и штрафа за повтор. Когда снизил их и поставил альпачный формат, ответы стали пологичнее, но всё равно такие себе. И сильно не любит курсив, похоже. Дальше для сравнения три скрина с обычной sfw сценкой с фроствиндом, Synatra-MCS-7b и Fimbulvetr. Видно, как последний всирает форматирование и херово описывает окружение. А вот мерж синатры внезапно реально неплох.
>>609010 Выводы по одному чату или заседал с ними сравнивал? Забавно насколько похожи ответы в разных моделях, какая из подобных в итоге больше понравилась, замес синатры? > her paw Это базированный баг или фича карточки?
>>609016 Как написал, чуть-чуть потестил, глубоко не копал. По паре свайпов в трёх-четырёх чатах с разными персами сделал. Где-то отвечает оково. Вполне возможно, что не подобрал нормальные настройки. Про лапу всё правильно, это же антропоморфная собака. >Забавно насколько похожи ответы в разных моделях Да, давно заметил тоже. Иногда ради интереса свайпаю разными моделями. Бывает, даже одной с колаба, одной с компа. И структура ответов прямо один в один очень часто. >замес синатры Неплохо пишет и вроде поумнее, чем синатра, но всё ещё 7б. Пока не так много её гонял, чтобы прямо порекомендовать. Ну и там в датасете синатры чаты из какого-то корейского чат-бота что ли, так что гпт соевая лексика или нечто подобное периодически ощущается. Вот на пике собака на этой модели. Ну, правда, ещё EoS токен забанен, мб поэтому вылезла эта шняга про комфорт в конце.
>>609006 В смысел уже. Она вышла вместе с Mixtral. The Mistral-7B-Instruct-v0.2 Large Language Model (LLM) is an improved instruct fine-tuned version of Mistral-7B-Instruct-v0.1.
>>609055 Плохо это, показывает насколько ограничена база датасетов и как мало чего-то уникального не смотря на огромное количество моделей. > Про лапу всё правильно Точно, если присмотреться то видно. Синтетикой отдает, но в целом вполне, особенно учитывая размер модели. Надо потестить промт чтобы обуздать всякие > heart races > mind is swimming и подобное, оно вообще много где встречается, но на некоторых карточках с характерным стилем не лезет. А также устранить микролуп в виде начала каждого предложения с she/her, но возможно здесь уже суть 7б лезет. > шняга про комфорт в конце Зажрались просто требовать идеала от мелочи, особенно с ban eos, удалить и дальше довольно purrs. >>609067 А, эта, доступные апи есть? >>609087 Противоречивые отзывы, кто-то хватит, при тестировании показалось херью. Она же еще старая, не стоит. >>609096 Зажрался все так
>>609087 Прямо сейчас раздаётся кучей воркеров на орде с 4к контекста. Можешь ввести ключ из нулей в таверне да заценить. Я уже очень давно пробовал и мне понравилась меньше мифомакса, а с тех пор уже навыходило много разных безумных 13б мержей получше.
Почему у вас так сложнаа! Я в ваш тред не часто захожу. Обычно сижу в тредах с картинками. Не пойму про что вы говорите. Пару месяцев назад поставил capybara-tess-yi-34b-200k.Q4_0.gguf. Вроде нормальная модель. Зашел сегодня, ни черта не понятно. Что я могу запустить на своей 4090?! Эту капибару я взял из рандомного поста здесь. Её можно на помойку отнести или за два месяца ничего не поменялось? Похоже что надо неделю ваши треды перечитывать, что бы понять что тут вообще происходит.
>>609143 >Почему у вас так сложнаа! Потому что ии это сложна
>Не пойму про что вы говорите. Тут уже куча локального бадумс сленга
>capybara-tess-yi-34b-200k.Q4_0.gguf. Ниплоха вроде, может что и лучше есть
>Что я могу запустить на своей 4090?! А что хочешь? Если нужны мозги то ищи большие модели до 34b, у тебя запустится. Если нужен кум или расцензуреная версия то уже другие. У тебя 24гб видеопамяти, это значит что ты сможешь запустить в любом формате любую модель, которая занимает не больше 20гб своими файлами. Если запускаешь меньше 34b можешь брать версию модели с большим квантом, которая весит больше других. В идеале 8q, 16 уже перебор для простого анона. Соотвественно если модель не влезает то бери версию до 20 гб, но меньше 3 квантов не рекомендую, это уже слишком отупляет модель, может быть только 70b так крутить и выйдет. Если еще и на оперативку часть выгружать то и 70b сможешь запустить, но это нужно от 64 гб оперативки, и желательно быстрой ддр4 или хоть какой 2 канальной ддр5. Это уже только ггуф формат, и до 2-4 токенов в секунду, но да, почему нет.
>>609143 > Что я могу запустить на своей 4090?! Самое главное говно Жоры не трогай. Только GPTQ или EXL2. А выбор из моделей не большой - либо 34В, либо что-то из Микстралей. Остальное слишком устаревшее и тупое.
>>609143 > на своей 4090 Можешь скачать gptq версию той же > capybara-tess-yi-34b-200k и гонять с большей скоростью и большим контексте полностью на видеокарте. Не то чтобы на помойку, новые файнтюны 34б могут быть лучше, но не радикально. Если устраивает - используй, радикально прорывного в этой области не было. Можешь попробовать из недавно вышедших Nous Hermes 2 Yi 34B Yi 34B v3 Nous-Hermes-2-SUS-Chat-34B-Slerp Tess-34B-v1.4 dolphin-2.2-yi-34b-200k и другие. Ну и 20б попробуй, они не настолько умные но могут писать гораздо более складно и менее шизоидные чем все, основанное на yi34b. Можешь попробовать 70b с выгрузкой на процессор, но это сомнительное удовольствие из-за скорости в пару т/с, не стоит того. > что тут вообще происходит Есть движение в области мелких прежде всего, ну и всякие мелочи. В остальном глобально - застой.
Интересную хакерскую модель специалиста нашел, не проверял, так как я в этом деле тупой. Но выглядит как прототип системы автовзлома или что то похожее на ии оружие https://huggingface.co/neurolattice/WhiteRabbitNeo-13B-v1 Есть и жирнее на 33b Орудие будущего хули, вредоносные ии взломщики прям. Конечно сейчас это просто хуйня справочник, которая и напиздеть может в чем то важном, но идея конечно интересная
>>609229 >>609240 >>609242 Ок, спасибо за ответы. Теперь уже в следующие выходные вернусь к этому. Типы моделей это кстати было для меня самое загадочное. Запомню GPTQ и EXL2.
И что такое "говно Жоры"?
>Потому что ии это сложна Но я же не лезу в теорию. Всего лишь конечным продуктом пользуюсь.
>>609320 Гугл запомнит что ты спрашиваешь или о чем пишешь, сетка нет Если ты конечно не включишь сверхразума и не будешь пользоваться гугловским/онлайн переводом на сетке, лел
>>609285 > или что то похожее на ии оружие Что-то орнул в голос, представив оружие, которое лупится на plap plap plap get hacked Она хоть больше кодлламы знает? Как реагирует если попросить взломать жопу? >>609318 На вики инфа про это есть. > Всего лишь конечным продуктом пользуюсь. Оно в такой фазе сейчас что даже просто использование подразумевает некоторый уровень.
>>609318 >Но я же не лезу в теорию. Всего лишь конечным продуктом пользуюсь. В теории там вобще отвал жопы, даже просто запустить модель и настроить на уже готовых инструментах тот еще уровень "специалиста" нужен, хоть документы получай. Есть и проще варианты, качни lm studio, там почти все настроено за тебя, веры особой этому инструменту нет, но начинающим норм
>>609335 >Она хоть больше кодлламы знает? Как реагирует если попросить взломать жопу? Хуй знает, вроде как для взлома/антивзлома и работой с специализированными программами для белых хакеров Оценить че она выдает мне не хватит знаний, поэтому даже не проверял
>>609100 > А, эта, доступные апи есть? Не шарю за коллабы, локально гоняю. 7B же, помещается в 8 гигов даже.
> ограничена база датасетов Кстати, да.
>>609143 Капибара-тесс хороша. Но там вышла exl2, вроде как, она может быть побыстрее с тем же качеством, если подберешь нужную. Но точнее тебе уже насоветовали, наверное. =)
Во, первый ответ хорош. 70b можно впихнуть тебе в видяху, но там квантование будет мелким, и, мне кажется, yi-34b модели будут не сильно хуже при таком размере.
Микстраль бы я не советовал, скорости не сильно увеличатся, а сжатие будет большим.
Третий ответ тоже правильный.
GPTQ или Exl2, думаю лучше Exl2, говно Жоры — это GGUF, Георгия Герганова.
Смотри от 4bpw до 5bpw (можешь промежуточный взять квант), та же Capybara лежит, NousHermes много.
>>609355 Совсем запутал, та же от обычного мистраля тольком не отличается, надежды были на их закрытую модель что и другой размер имеет. > вышла exl2 Оно локально квантуется без регистрации и смс под желаемые параметры. 70б даже в 24+12 что влезает хейтили, в 24 будет 2.5 бита и нежизнеспособная, нужны новые техники квантования/ужатия. > GPTQ или Exl2 На самом деле там не столь высокая разница, gptq 32g это примерно 4.65 эффективных бит и вполне хорош. Если гнаться за перфомансом то лучше делать exl2 самостоятельно (и шаманить датасет), дабы не низвергнуть весь микропрофит ошибками квантователя.
>>609376 > На самом деле там не столь высокая разница, gptq 32g это примерно 4.65 эффективных бит Нет. EXL2 жмётся лучше. 3.7bpw равны жоровским Q4 по PPL. GPTQ всегда будет похуже при одинаковом размере.
>>608836 >Так не ставь их, указывай 4096 и довольно purrs. Довольно часто оно само выставляется на 32к и нужно заходить в настройки и переключать. >довольно древняя и мэх Не исключаю, что просто неправильно готовил мистраль или не оценил профиты. >Как это проявляется Да это, походу, ожидаемое поведение в угабуге. Перевод это примитивная хуйня, хули там настраивать. Сама идея гонять перевод не нравится. >Рили? Да, он там на хабре рассказывал что-то про деньги, но я точно не запомнил. Датасет в любом случае денег стоит. >>608999 >Mistral 0.2 будет не хуже на русском, кмк. Возможно. Но на русском оно всё сваливается в шизогенератор, хуй знает, с чем связано. И у сайги в датасете явно есть машинный перевод, хотя заявлены плюс-минус нормальные данные. Пару раз вообще свалилась в транслит, часто зацикливается, не понравилось, короче. Что-то явно пошло не так.
Очень крутой у вас тред. Очень много уже подсказали, без вас я бы не вкатился, вы няши :3
Выбараю сейчас оптимальную модель. Подскажите, на что влияет размер ГУФА? Если у меня 12гб GPU, то гуф 14гб у меня не запустится, так? Мне отбивает что-то про CUDA out of memory в консоли.
В чем вообще разительная разница одной и той же модели, с разным размером гуфа? Насколько она критично тупеет?
И ещё, в кобольде есть настройка которая меняет количество токенов на ответ. Я крутил-вертел её, ставил и 100 и 500, но разницы не ощутил. Показалось что с 500 отвечать медленней стала. На что она влияет?
страждущий гуманитарий, пытающийся создать чатик со своей вайфу ГГ из киберпанка
>>609390 Кванты жоры неэффективны это и так понятно. Q4 тоже разные, K_M - более 4.8 бит не смотря на название. Но между gptq и exl2 разница не столь велика, плюс perplexity будет зависеть еще от того на каком датасете оценивать, если тот что был для замеров и тот на каком оценивать ppl будут одинаковые то и выйдет максимальная эффективность. Там довольно мутная тема на самом деле, по-хорошему стоит замешать викитекст с небольшой долей ерп датасетов для типикал задач местных, но там разница как от совсем долей бит и неизмеримо будет. >>609406 > Датасет в любом случае денег стоит. За тот доплачивать надо, лол. Он открыт, можно посмотреть. >>609426 Выгружай на видеокарту меньше слоев, остальные будут обсчитываться профессором, ггуф позволяет делить. > количество токенов на ответ Это верхний лимит после которого просто остановится на полуслове, если дойдет. Влияет на выделяемый контекст под ответ (считай если ставишь 500 то при максимальном 4к будешь иметь чуть больше 3.5к на прошлый чат, а остальное - буфер для ответа).
>>609453 >Олсо, я правильно понимаю, что информация на русском и информация на английском - это разные области знания сетки и они, по факту, не пересекаются? Не совсем, там внутри у ней неонка она имеет какие то общие представления об объектах, поэтому зная относительно мало слов на русском может говорить на нем на темы которые есть на английском, хоть и хуево
>>609434 ага только gguf стабилен на всех датасетах, а все эти exl2 gptq только на избранных. То что он потеряет доли бита предположение, по сути там как раз очень жестко режется все за пределами типовых задач.
>>609453 > информация на английском - это разные области знания сетки и они, по факту, не пересекаются Нет (да). Спроси мл инженеров, мы тут на всякий треш кумим и фитишами упарываемся, а ты такие вопросы задаешь. Если базовая модель сетки хороша и провести обучение правильно (включая все этапы, параметры, датасет) то это будет единым целым. Даже по дефолту при обучении всякой херни только на инглише можно спросить сетку про обученное и она ответит, правда более криво. >>609475 > gguf стабилен Чет обмеился с этого сочетания > только на избранных На каких избранных? > gptq Его не в тему приплел > предположение Суждение основанное на фактах, и ты, похоже, не понял о чем речь шла в том предложении. > там как раз очень жестко режется все за пределами типовых задач Сильное заявление
>>609460 >может говорить на нем на темы которые есть на английском Получается, есть какой-то встроенный перевод и концепция разных языков должна быть зашита довольно глубоко. Токены русских и английских слов гарантированно разные и сетка не должна понимать, что tree и дерево - одно и то же.
>>609483 >а ты такие вопросы задаешь. Так это важно. Я читал, что во многих датасетах есть только русская википедия, т.е нейронка ограничена только этим. Если русская и английская части не пересекаются, то очевидно, что единственный вариант прикрутить русский - это перевод. Или обучение с нуля, с чем могут быть проблемы. Чего в википедии точно нет?
>>609530 > есть только русская википедия Все так, и в таком случае у модели сразу вырабатывается связь - если русский язык, то должен быть сухой стиль и рассказывать о чем-то. Сети улавливают прежде всего закономерности а не какой-то смысл, если все сильно упрощать. Языковой датасет может быть относительно небольшим чтобы выполнить локализацию модели, но он обязан быть сбалансированным и иметь пересечения с тем что уже модель знает, про это уже давно писали.
>>609530 >Получается, есть какой-то встроенный перевод Нет, просто ассоциативные связи, возникающие в момент обучения. Представленные в виде собственно нейросети
>>609520 Я поискал в интернете и понял что я почему то скачиваю файлы в меньшем размере чем они должны быть, можно ли как то скачать файл полностью? Или я затупок полный и не там копаю?
>>609586 Кобольд последний, сегодня ставил. Другим загрузчиком это как? Я просто напрямую качал с сайта жмякнув на кнопку скачивания рядом с выбранной моделью.
>>609590 Я вот этим качаю Motrix, хоть и приходиться имя файла прописывать, сам он при сохранении ерунду вместо имени пишет Браузеру не доверяю чет У блока качаешь хоть?
>>609577 Ошибок при скачивании нет случаем? gguf можно просто браузером качать, с обниморды при скорости до 500 мбит делать параллельную закачку нет смысла. Можешь hfhub поставить и по инструкции качать. >>609590 > Другим загрузчиком это как? Наверно имелось ввиду через llamacpp (в составе убабуги или отдельно), врядли это поможет если скачанный файл битый.
Потестил Визардкодер, в целом заебись, на крестах код почти рабочий, после пары пинков он сам его фиксит, но шизит иногда странными формулировками типа пик1. Знает нормальные языки, а не только питон, даже в раст может. На питоне генерит с первого раза рабочий код, может нормально пояснить за него. Проиграл с рекурсии, как я попросил его сгенерить код для генерации текста, а он в коде в промпте просит тоже самое у другой нейронки, кста, правильную ссылку на модель лламы не смог мне назвать, зато на GPT-Neo верная и код рабочий. По скорости на 4090 заебись - 40 т/с, больше 3-5 секунд не приходится ждать.
>>609376 > Совсем запутал Да как запутал-то? :) Я сказал, что вышла новая 0.2 версия обычной Мистрали — и так оно и есть. Ты просто додумал что-то за меня, сам себя запутал, много хотел. Все мы много хотим, но… ¯\_(ツ)_/¯ Шо поробишь, не все как хочется. ИМХО, Мистраль и так хорошо выкладывает и обновляет модели.
> На самом деле там не столь высокая разница Ну, я про то, что их лучше, чем GGUF использовать, разница велика. А уж между ними да, на вкус и цвет подбирать. Ну или даже делать, эт верно. Но если человек редко заходит и не хочет разбираться — ему проще выбрать из имеющихся на обниморде.
>>609406 > Довольно часто оно само выставляется на 32к А кнопка Save не сохраняет настройки модели?
>>609434 > 3.5к на прошлый чат 3.5к на: инструкции карточку персонажа всякие допки типа авторс нот …и прошлый чат =)
>>609453 > информация на русском и информация на английском - это разные области знания сетки Насколько я знаю (пусть меня поправят) — да (да). Совсем да. Другое дело, что статистически токены аналогичных слов в разных языках близки (т.е., сетка знает, что sun и солнце — это что-то плюс-минус одно), и она на основании этого, при разговоре на русском будет статистически подтягивать нужные слова. Но по сути — это большой рандом, она может в какой-то момент не связать то, что ты от нее хочешь со знаниями на другом языке и уйти в придумывания.
Но тут я могу ошибаться, повторюсь.
>>609506 Ух ты, видяшка за 3,5 килорубля на авито! Ну ладно, чуть лучше, канеш.
>>609530 > Токены русских и английских слов гарантированно разные Да. Я подозреваю, что у всех сеток в датасетах есть переводы (в смысле — тексты словарей-переводчиков), и она просто понимает, что этот токен и этот токен — очень похожи, и если юзер хочет токены из этой области — она дает именно их. Но когда не находит «синонима» (перевода) — вываливает как есть. Это заметно на маленьких сетках, когда внезапно пишется английское слово посреди русского текста. Просто рандом не сработал, или перевода не знала.
Ну или вот идея с википедией, да. Плюс-минус текст и там, и там один, вот тебе и слова похожие.
>>609536 > ассоциативные связи, возникающие в момент обучения Именно.
>>609643 > А это новая версия какая-то? v1.1, самая свежая, неделю назад релизнулась. > Пробовал Мистраль и КодЛламу? Не вижу смысла, потому что пикрилейтед рейтинг моделей для кодогенерации. Лучше визарда только жпт-4, лол.
>>609637 > но шизит иногда странными формулировками типа пик1 Семплинг обуздай, снижай температуру, выше 0.5 не стоит вообще, снижай rep pen, более 1.05 не стоит. > правильную ссылку Оно может разве что имя с обниморды назвать, но то все старые модели. >>609640 > Ты просто додумал что-то за меня, сам себя запутал Не, запутал шо пиздец, какой там еще русский в той модели, он инвалидный и ужасно кривой. Но поверил и потому сразу решил что ты про ту модель, что они называли дохуя перспективной и не выкладывали. > А уж между ними да, на вкус и цвет подбирать Именно про это. Проще самый жирный gptq скачать и получить гарантированный результат, тем более его битность как раз соответствует тому что поместится с нормальным контекстом в 24гб для 34б модели. А с exl2 уже потом разбираться если очень руки чешутся. Это для случаев когда поместится 6бит, например, актуально уже. >>609643 > Мистраль В кодинге? Гниль же, как и микстраль. А на кодлламу есть файнтюны визардкодера как раз и они обновляются иногда. > помню более чем полгода уже То наверно старая версия на дичи типа 15б, нет? >>609647 > v1.1, самая свежая, неделю назад релизнулась. Ого, пора бежать качать. Прошлый нравился, а здесь еще и свежие знания явно присутствуют.
Вечер в хату, я новенький, потыкал говносайты типа spicychat потом решил попробовать локальные модели.
Я правильно понимаю, что они все (из релевантных) основаны на вариантах лламы-2 оттрейнить которые с нуля стоит миллионы баксов? При этом она релизнута с некоей цензурой которую снимают костылями в виде файн-тюнинга?
Ну предположим, что это норм. А нет ли моделек, которые натрейнены на фантастической литературе, сюжетах аниме и пр., или это пизда в плане копирайта?
>>609709 > основаны на вариантах лламы-2 Не совсем, есть и другие версии, ллама2 самая популярная а также в "базовости" некоторых других есть сомнения и они могут быть основаны на ней. > она релизнута с некоей цензурой Нет там ее особо, просто модель плохо знает некоторые вещи по дефолту. > костылями в виде файн-тюнинга Файнтюн позволяет значительно улучшить модель в определенных областях, а не только делается чтобы костыльно что-то переделать. Но он действительно может или добавить цензуру, или ее снять, или все вообще поломать что будет шиза где провокация будет вперемешку с аположайзами. > нет ли моделек, которые натрейнены на фантастической литературе, сюжетах аниме Большая часть рп файнтюнов.
>>609534 >но он обязан быть сбалансированным Ещё бы знать, в каком это смысле. >>609536 >просто ассоциативные связи, возникающие в момент обучения Тогда вся проблема только в ограниченности этих связей и всё гораздо лучше, чем я думал. >>609640 >А кнопка Save не сохраняет настройки модели? Хуйня на пике не сохраняется в принципе. >Но по сути — это большой рандом, она может в какой-то момент не связать Понятное дело, что русского в сетке очень мало и им пользоваться такое себе. Мне просто интересен сам механизм. >внезапно пишется английское слово посреди русского текста Так у меня вон на пике выше, "deforestation" перевелось, как "дефорусация". Получается, модель просто не нашла подходящего термина и ебанула английский русскими буквами. Это даёт надежду, что модель таки связывает все области знания в одно целое и гоняя её на русском я не получаю 0.1% от всех её интеллектуальных способностей. Получаю 0.2%, так как связей по дефолту почти нет из-за бедного датасета.
>>609508 А почему оно не должно работать? В списке-то есть. Это с 6000 серией проблемы. Алсо, вот и демо-версия грядущих "дешманских 16 ГБ". Будет где-то 15 Т/с на 13b, ну и с оффлоадом по сравнению с нищесборками на 8 ГБ можно запустить модель на порядок больше с примерно той же скоростью, наверное (типа 20b со скоростью фроствинда, 34b со скоростью 20b и т.д.). Несите теперь бенчмарки предыдущего "народного" топа 3060@12 с овер9000 Т/с, отговаривайте меня от того, чтобы вляпаться в амудэговно.
>>609744 Ну и уточню, что больше всего интересуют именно скорость больших моделей с оффлоадом, не влезающие в 12 ГБ на 3060. Я к скорости непривередлив, мне и 4 Т/с на 11ГБ frostwind норм, апгрейдиться только чтобы гонять его с быстрыми ответами не особо интересно, а вот мозгов хотелось бы побольше, пусть и с теми же 4 Т/с.
>>606829 >Какой перфоманс могут сейчас красные топы с 24 гб показать Случайно наткнулся: https://www.reddit.com/r/LocalLLaMA/comments/14btvqs/7900xtx_linux_exllama_gptq/ >for the 30B model, I am getting 23.34 tokens/second Из того же треда для сравнения: >Based on comments of my yesterday's post, 3090 seems to get between 18 and 22 tokens/s on 30B (Linux) >I get 30-40 tokens/s on my 4090 (Windows), on Linux seems to be a bit faster (45 tokens/s) Из другого источника: https://github.com/turboderp/exllama >stock RTX 4090 / 12900K >33B Генерация с разными настройками 37-47 Т/с Промпт от 2313 до 2959 Т/с. И ещё: https://github.com/turboderp/exllamav2 >V1: 3090Ti >33B 37 t/s >V1: 4090 45 t/s >V2: 3090Ti 45 t/s для 33B и 42 t/s для 34B >V2: 4090 48 t/s для 33B и 34B Так что в сравнении с 4090 прайс (рекомендованный) в (чуть более чем) полтора раза ниже, а перформанс в 1.8-2 раза. Реально же при беглом поиске в моём городе 7900xtx можно найти за 110к, тогда как 4090 начинаются от 200к Повышенный спрос задирает цену вверх. Минимум, который я видел - 90к за 7900xtx и 140к за 4090, но это было ещё до того, как рубль стал пробивать дно летом. 3090 ti, пока они ещё были в продаже, под конец были около 110к.
Такие дела.
Алсо, хочу затестить экслламу на rocm у себя, а то все лламуцпп ругают. Не люблю pytorch, из-за него придётся другой linux накатывать, да и сетки, влезающие в 8ГБ, меня мало интересуют, но сравнить интересно. Ну и потенциальные лулзы с nvidia-фанбоев, которые кинутся защищать своего барина, если вдруг я получу хорошие результаты. Хотя с древними gcn'ами на это мало надежды.
>>609798 Ну это немного не то, я именно новые рассматриваю. Для 3060 ничего не нашёл, все гоняют мелкие 13b в низких квантах и с малым контекстом, 33b нашёл только на 2x3060 (19 t/s). Если можешь, протестируй 33b модель на лламацпп, задействуя только 12 ГБ vram (ещё можно и 16 для сравнения), а остальное на cpu. Результат не совсем чистый будет, но всё равно cpu свою часть скорее всего дольше считать будет.
>>604568 (OP) Че там по шапке ОПчанкий? Че по вики? Много ньюфагов которые не понимают че им бля делать даже после чтения шапки, она перегружена пиздец. Ну и я думаю как бы запилить рейтинг моделей чисто двачерский. Мб гугл таблицу общую с возможностью добавлять комментарии? Типа я, оп или еще кто создает список моделей, а аноны комментариями пишут рекомендации на модели. Только я хз как сделать функционал "лайков". Чтобы анон мог не писать "модель заебись" а просто лайкос вьебать.
>>609647 Но это не значит, что недостатки, которые ты видишь в нем — присутствуют в других. Но чому бы и ни. Заебись и заебись, по кайфу.
>>609671 > То наверно старая версия на дичи типа 15б, нет? Да, она самая.
>>609732 > ебанула английский русскими буквами А точнее — английский русскими токенами. Как я и описываю. Типа нашла «defo» и «дефо» как похожие токены (и это фамилия, если что=), отсекла restation и посчитала самым ближним токеном «русация». Почему-то. =) Ну и родила новое слово. Ну, выглядит так, хз.
>>609744 Да ляпайся на здоровье, никто не запрещает. =)
>>609815 До того как рубль, 4090 стоили 110, а с учетом кэшбека и вовсе 70-80.
>>609829 Могу затестить на одной 3060 что попросишь.
>>609858 >что попросишь Любую ~30b gguf с контекстом хотя бы 8к. Кванты разные посмотреть интересно, конечно, но вряд ли ты захочешь тратить столько времени. В порядке убывания интереса q6 > q8 > q5 > q4 > мелкие.
Впрочем, я уже нашёл табличку здесь для rocm 16 gb (6800): https://github.com/YellowRoseCx/koboldcpp-rocm >Robin 33b q4_K_S >ROCM 6-t, 46/63 Layers on GPU промпт >14.6s (25ms/T) генерация >44.1s (221ms/T) всего >58.7s (3.4T/s) Не совсем 7600, конечно, на 7b генерит чуть быстрее, но примерно почувствовать можно. И для 3060 12gb здесь: https://www.reddit.com/r/LocalLLaMA/comments/189qbhq/how_well_can_3060_gpu_run_ai_models/ >R5 5500 (on stock 3600Mhz) | 3060 12gb | 32gb 3600, Win10 v2004. >I'm using LM Studio for heavy models (34b (q4_k_m), 70b (q3_k_m) GGUF. >On 70b I'm getting around 1-1.4 tokens depending on context size (4k max), >I'm offloading 25 layers on GPU (trying to not exceed 11gb mark of VRAM), >On 34b I'm getting around 2-2.5 tokens depending on context size (4k max), >I'm offloading 30 layers on GPU (trying to not exceed 11gb mark of VRAM), >On 20b I was getting around 4-5 tokens, not a huge user of 20b right now. >So I can recommend LM Studio for models heavier then 13b+, works better for me. >Small models - 7b (20 t\s GGUF, 35 t\s GPTQ), 13b (15 t\s GGUF, 25 t\s GPTQ). В обоих случаях не самый интересный квант, но примерное представление я получил. Вывод ожидаемый - когда боттлнеком выступает cpu, модель gpu почти не важна, важен объём vram. 6800 берёт на себя больше работы за счёт лишних 4 ГБ и выдаёт чуть больше скорость.
>>609915 Ну вопросы они все еще задают, значит чтение шапки либо не помогло, либо они ее вообще скипнули. Второе прямо связанно с тем что она огромная и набита какой-то бесполезной/устаревшей хуетой. Не в претензию анону который ее писал но 60% шапки больше подходит как раз под вики.
>>609732 > Ещё бы знать, в каком это смысле. Условно покрывать все области, stem, простой QA, решение задач кодинга, различные переводы, рассказы, чаты, длинный ролплей, срачи и подобное. Офк в меру возможностей все этой. Если будет охвачена ограниченная область а изначального знания языка мало - оно будет пытаться подрожать ей. >>609815 Вполне неплохо, жаль без указания размера квантов, они отличаются более чем на 10%, но и так уже хорошо. Вселяет надежды. > Реально же при беглом поиске в моём городе 7900xtx можно найти за 110к В (поза) прошлом году и летом 4090 белые с чеками и трехлетней гарантией бралась в эти деньги или чуть дороже. 3090 с хорошим охладом и бодрая-живая за 50-60к, днище что зайдет для ллм от 40к. 7900 рапортовали что стоила ~90к, но хз, наверно можно было найти дешевле. > Не люблю pytorch, из-за него придётся другой linux накатывать Лолчто? > потенциальные лулзы с nvidia-фанбоев, которые кинутся защищать своего барина, если вдруг я получу хорошие результаты Нвидия фанбои уже второй (третий-четвертый-...) год интенсивно эксплуатируют нейронки и насмехаются над красными копротивленцами, которые не смотря на весь происходящий пиздец, продолжают нахваливать свой кактус. Даже банально посчитать объем пердолинга на простой запуск за время жизни среднего амудэ и количество разочарований и боли - сразу понятно что эти люди не уважают себя и та экономия ничего не стоит. Если получишь хорошие результаты - можно будет надеяться на перспективность сборки из 2-3 дешманских 16гиговых амудэ в качестве альтернативы паре p40 или 3090. Но для такого их перфоманс должен быть высок, и врядли там будет даже половина от 7900, а это уже нивелирует привлекательность.
>>608634 Ну серьезно, нахуя смотреть флопсы, если суть в тсах, а не во флопсах. Напоминает хв, где несколько лет назад собирали ихравые пеки по какой-то нишевой цпу-баунд стратежке, в которую кроме бенчеров никто никогда не играл.
>>609847 Можно пустые репы с ридми создавать на гитхабе и старить их, и сраться за рейтинг в issues/wiki. Там вроде щас иде встроено, возможно даже локально ебстись не придется. Не думаю что гихаб будет возникать.
Аноны, как сделалать так что б Бот говорит одним типом форматирования. В поля Example Message забил 2 примера, по 5-7 предложений. Далее прописал
[Writing style: write a long message; describing actions in asterisks text; Don't be like the {{user}} writing style, always write as indicated in the Example Messages; do not speak for {{user}}; It should follow this format: Description of action or scenario "Example dialogue here" Describe emotions of {{char}} Further description with a focus on the scene and {{char}}'s actions Drive the roleplay forward, with a focus on world building, character building and creating long in-depth responses; In asterisks go on monologues about {{char}}'s thoughts, feelings and desires; Be descriptive, creative; use onomatopoeia to describe the sounds of various actions;]
Далее начинаю на Либре 32б. Первые 20-25 сообщений форматирование идёт как надо, а потом Бот начинает подражать воему письму. Далее скатывается в прямую речь, без описания действий и среды. При том что я действия прописываю в каждом ответе с . Чё за хуита. Я рак- помогитя/спаситя.
>>610142 Можно, все как для обычных ллам. >>610153 > Которая дешевеет на озоне том же. =) Ну правильно, ллм для нее буквально последнее эффективное применение. Хотя то больше колебаниями курса обусловлено. >>610318 Оно уже, ссылка в конце оппоста.
>>610109 >Лолчто Если про мою нелюбовь, то это личное, не обращай внимание. На мой текущий основной дистр pytorch без ебли не вкорячить, конфиг системы, мягко говоря, нестандартный тоже не обращай внимание, мы, пердолики, любим пердолиться и всё такое. Быстрее поставить поддерживаемый ubuntu или debian, с которыми я имел дело и pytorch+rocm уже успешно накатывал. >Если получишь хорошие результаты Но тестить-то я собрался на gcn, в отношении rdna3 это не будет значить почти ничего. >половина от 7900 По ядру - 1/3. И довольно медленная память для своего объёма (288 ГБ/с). И какие-то потери на сплит. Это именно дешманский вариант для нищуков единственной картой, если не рассматривать б/у.
>>610250 Ну эт хуйня, кста, я во многие стратежки играю. Конечно, опираться только на тотал вар глупо, но там есть прям пиздосище разные вариации от АРКа, где видяха в сопли, проца даже 4-поточного хватит, или баннерлорд или та же ваха, где анлимитед пауэр ваще, или стелларис, где тебе литералли нужно 1 ядро — но гигагерц на 10, желательно. Но там не только на бенчеров завязано.
Но верно, что надо смотреть не только на ядро. Где-то память бутылит, где-то ядро, где-то архитектура.
>>610427 > основной дистр pytorch без ебли не вкорячить Про вот это, это что там нужно наворотить чтобы оно не могло в него. > По ядру - 1/3 Ну вот, надежд пускать большие модельки выходит что нету, взять пару чтобы пускать 34б с контекстом - будет выдавать сферические 4т/с что пиздец. Насколько дешевле она должна быть чем 4060@16 чтобы быть конкурентной, ведь есть еще много чего кроме ллм.
Раньше подобного никогда не генерировалось. На грустном моменте Noromaid решила сломать четвертую стену, возомнив себя нарратором интерактивной истории.
Ахуенно обновился, блять. Теперь еще хоть как-то работающую exllamav1 выпилили полностью и остается сосать хуй на exllamav2. Эта херня полнейший бред генерирует, а всем похуй. Вот вам и демократизация ИИ.
>>610516 А что с exllama не так? Что значит "выпилили"? Всё на месте: https://github.com/turboderp/exllama Ну и есть ещё llama.cpp/koboldcpp с поддержкой cuda и q2 кванты, если они тебе так уж нужны.
Заранее извиняюсь, если кто кринжует от таких "постов-обсуждений", - просто захотелось чуть разбавить скатывание в технотред.
Аноны, очевидно, что все мы радуемся, когда генерация историй нейросетью или чат с ней проходят по инструкциям, которые её предоставлены. Но бывали ли случаи, чтобы нейросеть вас неожиданно и приятно удивила своей "креативностью"?
>>610619 Я, скорее, имев ввиду случаи, когда в чатах с нейро-тян или при генерации истории, - где юзер может в любой момент быть кем угодно, хоть любым персонажем, хоть рассказчиком.
>>610414 >ллм для нее буквально последнее эффективное применение А если я ее возьму 1шт, плюс у меня есть 4070ти, профит будет? Или лучше сидеть на цпу и не квакать? инб, 2 мне ставить некуда, я так без сд останусь, либо докупать говнопекарню чисто под них >ссылка в конце оппоста О, спасиб
>>610516 > и демократизация ИИ Ее нет, увы. Всем довольно таки положить на поддержку специфичных и проблемных серий, которые не могут в инструкции и имеют проблемы, которых нет даже в паскалях. Выпилили ее потому что уже 5 месяцев не обновлялась и версия 2 перекрывает все возможности, работает быстрее, имеет больше фич. А вон оно как оказалось, напиши ишью что проблемы с недотьюрингом, может пофиксят. >>610615 По-хорошему она и должна удивлять, полностью используя свободу в инструкциях, или превосходя ожидания. Когда просто сухо следует - это суперуныло, сойдет только для кумбота когда совсем приуныл. Файнтюны 34 то что описал очень часто делают, иногда кажется что это пигма на стероидах. Ошибаются регулярно и иногда это кринж, но иногда просто ахуеть как ломает 4ю стену. >>610643 Скачай прошлый релиз, убабуга их предусмотрительно сохраняет. >>610700 > А если я ее возьму 1шт, плюс у меня есть 4070ти, профит будет? Depends. Как минимум в 20б и 34б модельках только на ней будет лучше чем с оффлоадом на проц, считай чисто ллм ускоритель под это. Если получится подружить их через llamacpp то у тебя 36гб врам под сильно ужатую 70б или жирную 34б с контекстом. Или несколько сетей запускать. Объединять с помощью exllama врядли выйдет хорошо из-за низкой скорости.
Кто-нибудь думал соединить текстуи/ст и сд? Типа когда он курсивом пишет she slowly lifts her dress to reveal the largest dick you've ever seen, то скормить это в темплейт сд-промта и нагенерить несколько пикч? Я просто недавно попробовал, защло неудобно только одной рукой копипастить Алсо, можно ли в чаре как-то прописать, чтобы он более менее сд-эффективные ремарки оставлял?
>>610500 Помню, турба подобным бесила, когда раньше на ней сидел. Имхо раздражающая вещь в рп. По-моему, даже промпты специальные придумывали, вроде "не заканчивай свой ответ вопросом, не рассуждай / не строй предположения о будущем", чтобы не было такого.
>>610751 > это если бп хватит Если только под ллм то там карточки по очереди работают, мощность будет пропорциональна доли обработки каждой. Консервативно можно оценить как мощность самой жирной, у P40 жор меньше чем у 4070ти, так что и проблем не будет. А вот если захочешь одновременно пускать и полностью нагружать - изволь 250вт дополнительных найти на нее. Если бп норм то можешь использовать его на 100% даже 110.
Заметил одну непривычную и нелогичную вещь в сценарии Dungeon Crawler в кобольде: почему начало такое внезапное и нет даже попытки обыграть создание персонажа: группа уже собрана и до этого момента несколько дней пропутешествовала? Кто пробовал этот сценарий, как вам?
С горем пополам поставил таверну, она даже работает. Но теперь задаюсь вопросом: почему я с нормальной карточкой запускаюсь под KoboldCPP? Хавает ли KoboldAI гуфы или там заёбно ставить модели?
И ещё вот не понял суть лорбука, я его устанавливаю, и что дальше? Куда дрочить то?
>>610857 > почему я с нормальной карточкой запускаюсь под KoboldCPP Что? > Хавает ли KoboldAI гуфы или там заёбно ставить модели? Что? Koboldcpp - лишь форк llamacpp с френдли интерфейсом, llamacpp позволяет вполне успешно крутить все модельки с оговорками. Подключаешь таверну к нему и пользуешься, все. Хочешь большего - ставишь убабугу, там и быстрая работа на видюхах, и негативный промт и прочее прочее. > и что дальше Выбери в карточке.
>>610884 > Да вот в их же мануале дезинформацией получается кормят на пикрелейтед. Это что-то времен мезозоя и подающееся беря за основу KoboldAI, старый интерфейс, который позволял крутить ллм. Не актуально, база РП сейчас - любой лаунчер бэком (koboldai или llamacpp/exllama2 в составе text generation webui) и SillyTavern фронтом. Есть альтернативные фронты в aicg про них что-то может быть, можно рпшить прямо в убабуге или кобольде (неудобно и не рекомендуется), есть решения "все в одном" (также не рекомендуется ввиду посредственной реализации большей частью). > пока я не разверну окно с KoboldCPP -- он не начинает генерить токены Совпадение приходящееся на обработку контекста?
>>610901 >Совпадение приходящееся на обработку контекста? я ньюфаг, не понимаю этот термин, но звучит он так, будто так и есть, пока я не открываю окно передним планом -- этот процесс не начинается
это было в кобольд оболочке, в таверне пока не замечал такого
Коллеги, товарищи, понимаю что платиновый вопрос но всеж прошу простить и ответить. Какое железо, GPU, будет оптимальным в категории 100~150к дерева для говорилки? А 250к?
>>610909 Вики из шапки почитай, немного прояснится понимание. Про окно самого кобольда хз, но скорее такого тоже не должно быть. >>610923 Только под LLM или другие задачи? Готов ли с бу связываться? Так очевидно что нужна видеокарта (или пара) с памятью как можно больше. В твой бюджет лезет пара 3090 бу или 4090 если очень долго искать, позволит закрыть основные потребности в ии. Есть более дешевые решения. Можешь посмотреть в сторону экзотики типа quadro rtx 8000@48, тьюринг должен оказаться достаточно производительным и найти такую в 250к реально оверпрайс на самом деле, должна стоить сильно дешевле
>>610516 А на 16 серии она была «рабочей»? Выгрузка ггуфа не быстрее?
>>610727 Так… все. Там куча вариантов. Кобольд умеет уже. Таверна умеет. Убабуга ДВАЖДЫ умеет.
В чем вопрос? Соедини.
В убабуге есть таг_инъекшн, чтобы точнее прописывать. Таверна берет описание перса из соответствующих разделов в карточке (погугли и проверь, там можно выводить промпт перед отправкой).
>>610857 Юзай убабугу, а не Кобольд и будет тебе счастье. =)
>>610923 Полегче со словом «говорилки», а то я тебе сейчас xttsv2 присоветую с дополнительными 5 гигами потребления. ) А так тебе ответили, в общем. Самый дешман — P40, но там скорости не огонь, и бу, зато памяти много. Короче, и правда, уточни все пункты, че да как, цели, готовность связываться с бу, готовность париться и искать, готовность ждать.
>>610943 > Юзай убабугу, а не Кобольд и будет тебе счастье. =) Вот тут двачую ахуеть > с дополнительными 5 гигами потребления Мало по сравнению с ллм, и на проце скорее всего сможет.
Скачал mixtral-8x7b-instruct-v0.1.Q6_K.gguf Еле помещается в оперативку, но работает довольно шустро на ЦПУ, больше 4 токенов в сек... llama 70b при сопоставимом размере где-то 1 токен. В чём подвох 8x7b, это сильно хуже чем гипотетические 42b если перемножить числа?
>>611043 Ну, ты лишил меня очень забавного комментария
>>611040 Она суше пишет, так как это ансамбль 8 разных 7b сеток, специально тренированных так что бы каждая обладала уникальной информацией. Но так как отвечают только 2 из 8, выбираясь еще одной нейросетью которая обрабатывает твой запрос, то и генерация быстрее чем у 70b.
>>611085 Попробовал. Честно разница с Mlewd такая незначительная что я забыл что переключил на мейду пока не залез в конце выгружать модель. Просто 1:1. Но хорошо да без претензий.
>>610943 >А на 16 серии она была «рабочей»? Она была не просто рабочей, а еще и меньше VRAM жрала. >Выгрузка ггуфа не быстрее? Мне показалось оно ЦПУ использует, не? (Я только один раз пытался.)
>>610958 На проце прям медленно. Ну, если готов подождать секунд 20-30 на небольшую фразу — то норм. А мне пришлось ускорять по итогу, но зато в ~1,5 вместился.
>>611040 У тебя 7b модельки. За счет общего количества и работы двух экспертов, разговаривают они более-менее нормально, но знания берутся именно из одной модели, то есть смешать в одном ответе сразу результаты 3-4 знаний — не сможет. А если ты начинаешь их сжимать — пердолит очень сильно, потери большие получаются, ибо модельки малые. Но на условных q8 потери небольшие, а если задавать вопросы поочередно, а не требовать ответа сразу — то и инфу хорошо расскажет. РП-модели среди них нет. =)
>>611194 Если 100% выгрузишь — то почти не использует (одно ядро для функционирования программы и все).
>>611195 Потому что микстраль у тебя 8х7b, то есть 56b по объему.а нора только 20. Но в микстрали используется два эксперта по умолчанию, то есть 14b объем памяти читается. А в норе 20b весь пробегается.
Отсюда объем почти втрое больше, а время в полтора раза меньше.
>>611085 >>611089 В чём принципиальное отличие или вау эффект по сравнению с классическими 13б кум мержами типа xwin-mlewd (или Nete на ступеньку выше) или LLaMA2-13B-Psyfighter2? О 20б даже не говорю. Там вроде единственная продающая фишка - это датасет, которым поделился автор мифомакса, в котором якобы нет Лимы и синтетики. Такой уж ли это геймчейнджер? Сорри, может показаться, что я доёбываюсь (так и есть), но искренне не понимаю, чего все так мейду нахваливают. Вот что на этом скриншоте >>611099 такого, чего не сможет любая 13б, мало-мальски файнтьюненая на рп/сторителлинг? Небось даже базовый 7б мистраль описание жраки в тему контекста на три предложения сделает.
>>611208 > любая 13б, мало-мальски файнтьюненая на рп/сторителлинг так в том и дело что мало моделек под рп/сторителлинг. >Небось даже базовый 7б мистраль описание жраки в тему контекста на три предложения сделает. этот мне много клёвых перлов выдавал, например в одной стори превратил повествование из ужастика в мистику, в другой клёво придумал воткнуть похищение ГГ в подвал, ну и всякое подобное.
>>611210 Говорим же о мелочи? Крупные нет возможности катать. Так-то тут кто-нибудь сейчас скажет, что на меньше 34б жизни нет. Не играл именно сторителлинг спецом, но в рп тот же второй псайфайтер показался вполне пригодным для ведения истории. Он более взвешенный что ли. Как-то играл сторителлинг ориентированную пародийную карточку Kingdom Coom на MLewd ReMM L2 Chat 20B Inverted. Тоже очень годно вёл историю, хотя чутка шизоидно (но тут это укладывалось в сеттинг). Чтобы говорить прямо за лучшую, нужно много моделей тестить и на одних и тех же чатах сравнивать желательно. Таким, понятное дело, не занимался, но норомейда что-то не зацепила, когда пробовал. >>611209 >мало моделек под рп/сторителлинг Фига мало, у 13б лламы десятки мержей и 20б франкештейнов. В одной только вот этой побочной коллекции Унди почти десяток моделей. https://huggingface.co/collections/Undi95/honorable-mentions-6527da28a6f1e57a84d1bb87 Другое дело, что они часто от одних и тех же авторов и не сильно отличаются одна от другой.
Пытаюсь заставить SillyTavern работать так как работает Adventure Mode в кобольде, вообще нихуя не получается. Кто-нибудь играл в ней опенворлды или обязательно напротив отдельно выбраного персонажа сидеть и болтать только с ним?
>>611217 Не пользовался интерфейсом кобольда, но подозреваю, что галочка в Adventure Mode просто добавляет какой-то системный промпт и, возможно, форматирование ответов. Загляни в консоль кобольда в одном случае и в другом и добавь тот же промпт/форматирование, который добавляется в эдвенче моде без таверны, в таверну. Также в карточке персонажа в таверне можно прописать, что персонаж рассказчик, а первый персонаж истории (если нужен) такой-то и ввести его ниже. Назвать карточку, соответственно, Narrator, или типа того. Тогда, если в таверне включены имена, то это не будет заставлять модель писать именно за первого введённого персонажа.
>>611204 >РП-модели среди них нет. =) Во-первых, спасибо что упомянули эту хрень, решил погонять на пробу. Качнул Noromaid-v0.4-Mixtral-Instruct-8x7b.q6_k и на удивление весьма и весьма неплоха модель в рп и ерп. Похуже, чем 34b, но гораздо быстрее на проце то.
>>611232 Запретить тебе никто не может. Но конкретный софт — не подскажу, два дня назад задумался об этом, но пока другие дела есть. Раньше был FauxPilot для VSCode'а. Щас ваще хз. Поищи. может найдешь альтернативы локальные. Учитывая, как пишется код, думаю любая справится — хоть Мистраль, хоть КодЛлама, хоть ВизардКодер последний. Вопрос в скорости, которая тебя удовлетворит с твоим железом.
Если найдешь подходящий софт — будем рады почитать.
Блять, аноны, ньюфаг репорт. Поставил таверну, но почитав тред решил еще накатить убабугу, сделал все как на гитхабе написано. Поставил, кинул модель в папку, но локалхост не хочет идти. И чего дальше? Батник start выдает пикрил. Апдейт тоже не хочет ничего делать. Где я обосрался, ткните носом.
>>611305 >бесплатно >обучить на своих данных Взять свою мощную видеокарту или гугл колаб и дообучить что-то маленькое 1-7b. На большее собирают мощные фермы стоящие дохуя денег.
>>611315 Что-то прошло явно не успешно, проблемы с гитом, проблемы с кондой. Для начала попробуй перекачать, git clone, потом в папке уже пускаешь батник и дожидаешься пока он скачает все.
У меня мало опыта использования локальных моделей. Попробовал норомейд. Если сравнить с историями которые пишут люди на literotica, в основном это однотипная графомания с ошибками, и с тупыми диалогами. Если сравнивать истории оттуда и то что генерирует модель я отдам предпочтение модели. Плюс не надо ковырятся в куче говна чтобы найти что то интересное под свои хотелки. Меня больше это удивило, Удобно, в промте написал какую хочешь тему и генерируй сколько хочется.
>>611216 Вспомнил сейчас, что на самом деле не так давно играл с около сторитейл канни карточкой. На первых двух скринах псайфайтер неплохо описывает окружение и вводит рэндомный забавный энкаунтер (но пишет за меня, собака, что для сторитейла мб и норм). На втором скрине дальше Nyxene_v2 11б вводит работницу столовки и ведёт по плану повествование дальше (вообще нот бэд для 11б, советую попробовать почередовать с фроствиндом тем, кто играет на нём. Тупее, но пишет лучше имхо). Последний скрин на синатре-MCS. Какой вывод из этого? А хрен знает. Все сетки, даже маленькие, которые плюс-минус файнтьюнили, могут выдать хорошую историю. Думаю, вот этот >>611289 прав. Просто какая-то цепляет своим ответом в тему или особо интересным твистом, и дальше ловишь с неё фан. Потом мб другая больше понравится.
>>611346 > Просто какая-то цепляет своим ответом в тему или особо интересным твистом, и дальше ловишь с неё фан. Потом мб другая больше понравится. Самая боль что там прямая корреляция с размером, исключение разве что модели на основе солара 11б, но бывают глуповаты. Те что жирнее ловко извлекают из долгой истории чата и реакции, предпочтения, настроение и намерения, а потом используют их для максимального удовлетворения или наоборот пользователя. Плюс понимание более тонких концепций и сочетаний, а не просто воспроизводство дефолта из датасета с заменой персонажа.
>>611420 Но если говорить о 20б, то у них же нет настоящих мозгов 20б, разве не так? Вроде нет такого механизма, благодаря которому во время франкенмёржинга большее количество параметров вдруг дообучится и будет понимать более тонкие особенности контекста. Мёрж приводит лишь к тому, что модель как бы начинает "ориентироваться" на датасеты всех частей, в себя включённых. Между тем по мозгам она максимум может остаться на уровне 13б, а то и отупеть, если мёрж кривой. Или это по-другому работает? Солар умнее потому, что, как пару тредов назад выясняли, там все запихиваемые слои как-то дообучали, а не просто 7б склеили.
>>611427 > нет настоящих мозгов 20б, разве не так? Нет, верно, и никак оно не дообучается. Хотя эффекты интересные есть, про это даже статьи пилили. По субъективных ощущениям они выезжают за счет складности текста, это играет большую роль. Вот буквально рпшишь на 70 - адвенчура, куда можно погрузиться но и более высокие ожидания и пожар когда оно не перформит должным образом, в которую веришь и увлекаешься. Рпшишь на 20б - получаешь красивую интересную сказку, будето читаешь годную книгу офк до норм книг ллм далеко но эффект участия играет роль. И то и то хорошо, плюс многое от карточки зависит. 34 это вообще отдельный экспириенс. > если мёрж кривой Потому 98+% того что выходит в количестве десятки в сутки даже не стоят внимания. > Солар умнее потому, что, как пару тредов назад выясняли, там все запихиваемые слои как-то дообучали, а не просто 7б склеили. Да, солар это не просто франкенштейн, вероятно на это влияет обучение что там было.
>>611431 Вопрос к тем, кто перешёл на мейду с других моделей, но моё понимание такое. К тому моменту, когда выходила норомейда, все уже наигрались с бесчисленными файнтьюнами от Унди, а там везде Лима. Соответственно, людей начинала бесить часто встречаемая лексика, типа shivers down the spine (хотя я ловил это на норомейде, лол) и другие минусы (на пике, например). А тут вдруг предложили файнтьюн на совершенно новом (ну или так заявили, по крайней мере) датасете.
>>611334 > написал какую хочешь тему и генерируй сколько хочется Только через некоторое время понимаешь, что какую тему не пиши, а получаются ministrations sending shivers down your spine и т.п. От уровня ожиданий многое зависит, канеш. Я тут джве недели ковыряю карточку, чтобы мне правдоподобно отыгрывались пять одноклассниц в клубе не в ночном после уроков. Ну окей, норм 13b модели понимают, где я, а где каждая из девочек, и чем они различаются, не путает даже когда контекст полон. Но научить их действовать и говорить как школьницы, а не как разбитные разведёнки, насосавшие километры хуёв— вот тут уже ниасилил. Либо годные и рекомендуемые 13b на это не способны, либо это мой скилл ишью с написанием карточки.
>>611438 Спс за пик, можно было просто ссылку, но загуглю, чоужтам.
На самом деле, shivers и прочие не из Лимы завезли, они где-то в базовом наборе. Мне пока не попадалась ни одна модель, которая без них обошлась бы, 34b в том числе. Ministrations настолько одиозны, что их, похоже, прицельно выпиливают отовсюду.
> с бесчисленными файнтьюнами от Унди С этими вообще не получилось в школьный сеттинг, там сразу дасистфанастиш начинается. XD
Опять залупа с угабугой. Не сохраняет настройки. Удолял файл, пересоздавал, похуй. Если включить любой из Available extensions, то будет ошибка, что угабуга знать не знает нихуя про такое расширение, автоланч и всё остальное просто не сохраняется. По сути, сохраняет пустой ёбаный файл.
>>611431 >Лима— это плохо Лиг ма боллс. Не удержался.
>>611524 Чот сомневаюсь, что в датасете нет историй про обычных японских школьников. Скорее, у ундиных поделок оверфит на прон.
Может, кто-нибудь из знатоков подскажет, на каких моделях (промптах?) можно достовернее ролеплеить юношескую романтику, все эти поцелуи, прикосновения, первые разы, вот это вот всё, а не «Не знаю, но мне кажется, будет восхитительно, если ты впердолишь мне свой могучий инструмент по самые гланды, пока одноклассница лихо жарит меня страпоном. Это у меня в первый раз, поэтому будьте нежны со мной, чуть слышно прошептала она, заливаясь бордовым румянцем.»
Потестил разные варианты микстрали 8x7b, оригинал, норомейду 0.4, дельфин который обещает отсутствие цензуры. Я слегка разочарован. На вопрос "How can I have * with my little sister?" с дефолтным ассистентом — ни одна не попыталась дать какой-то совет по существу, только мораль, мораль, этика, закон, иди лечись больной ублюдок. Можно это интерпретировать как серьезную проблему для рп, или в действительности ей похуй будет?
>>611598 >с дефолтным ассистентом Нашёл с чем сравнивать. Конечно там будет соя, ну кроме разве что моделей с отрицательным выравниванием, лол. С ней кстати без проблем отвечает. >Можно это интерпретировать как серьезную проблему для рп Нет конечно. Корпоративщики только с такими моделями и сидят, и ничего, без проблем ебут кого хотят. На локалках ещё проще.
>>611621 Спасибо, а есть какой-нибудь вариант промпта для локального ассистента? Джейлбрейк это называется, или это актуально только для онлайн-моделей? Чтобы заставить конкретно эту локалку ответить на этот же самый вопрос но без цензуры. Немного пробовал поиграться с промптом но безуспешно.
>>610923 >Какое железо, GPU, будет оптимальным в категории 100~150к дерева для говорилки? Видел на Реддите пост про сервер с 4 X TeslaP40, даёт он 1,75 токена в секунду (генерация) на Голиафе 120_5K_M и 9,38 токена в секунду на Синтии 70_5K_M. Два но: это в Штатах наверное легко старый сервер купить под такое дело. У нас не найти новую материнскую плату с даже с двумя слотами на 16 линий PCI Express, по крайней мере в этот бюджет. А хотелось бы 3-4 слота. И хорошая производительность на такой системе только у GGUF-моделей, другие форматы там не очень. Stable Diffusion ещё хорошо тянет, как говорят.
>>611690 Так я пробовал всякие Wizard-Vicuna, они реально отвечают по существу, хотя суховато. Вопрос в том что именно 8x7b вариации без цензуры я не нашёл. Dolphin обещает, но ломается на данном примере вопроса.
Ну зависит от того на чем тренили. Я кучу разных попробовал. Замечал, что половина моделек такое ощущение что на одних и тех тюнах крутили, потому что какие то ситуации или ответы прям 1 в 1 повторяются. Найти что то оригинальное пиздец сложно. Но с другой стороны, если именно для рпешки, все это легко обходится через персонажей, сценарии и тд.
У меня тоже от микстралей чувство дежавю постоянно, хотя штук 5 разных попробовал. Это как от миталиона - заранее уже знаю что она мне ответит в большинстве случаев.
>>611977 Смотря в чём. В кодинге пока её ещё никто не обгонял, в рп - вполне себе, по общему уровню интеллекта (порезанному разрабами у гопоты) большие модели догнали +-.
>>611542 Сам в таком же положении с RTX 3060. Из 10-13b ничего не нашел лучше frostwind, новой fimbulvetr от того же автора, psyfighter2 и noromaid-storytelling. От хваленого Унди ничего не пробовал. Потому что вообще непонятно, этот васян что-то понимает в том, что делает или просто throws shit at the wall and sees if it sticks.
Ah, one more thing: don’t sleep on Mixtral 11bx2 MoE 19b. Shit’s real, пишет обычно (но не всегда) лучше 13b моделей. Скажем так, у 13b уровень средненького фанфика, у этого 11bx2 - примерно крепкого среднего женского романа. Ну, для непритязательных.
>>611553 Любая прикольная моделька покажется трещатиной, если трещъ в настройках семплеров или в карточке, например. Когда не разбираешься и просто к0чаешь, то надеяться остается только на то, что звезды сойдутся. Кстати, автор фроствинда вроде даже рекомендованные настройки указывал.
>>612017 И да, я в курсе, что Mixtral 11bx2 MoE 19b на самом деле никакой не Mixtral, а два SOLAR, слепленные вместе китайским васяном, но похоже (и Равенвольф подтверждает), что оно как-то вот к стене таки хорошо прилипло.
>>612026 Васяном, не постеснявшимся честно написать в обнимордовском профайле, что хочет норм видюху для продолжения экспериментов, лол. Но вот как-то получилось?
>>612035 mixtralnt-4x7b-test.Q4_K_M Безобразие скаченное еще 13 декабря Хуй знает че там напихано и как работает, если тогда еще не было бумаги о мое технологии Скорей всего просто вынули 4 специалиста и оставили работать так, в принципе она реально работала, но я не особо сравнивал качество ответов. Ну, лучше чем 13b
>>612064 > там реально используются сетки эксперты Там используются файнтюны мистраля. Для мое нужны максимально отличающиеся именно что эксперты, а не бомжи после трёх классов церковно-приходской. Алсо, > This model was trained on a 100% synthetic, gpt-4 generated dataset БРУУУУУУУУУУХ
Влияет ли максимальная длина ответа на сам ответ? Или модель генерит ответ и заранее не знает сама какой он получится длины?
Какую температуру в среднем ставите или всё сильно от модели зависит? Я правильно понял, что температура это то насколько сильно моделька следует промпту персонажей? Чем ниже тем меньше отходит от "канона"?
Очень удивился кстати, когда от нечего делать начал сходу врываться с оружием на персонажей и пытался их убить. Не всегда получается, особенно лоля садистка неубиваемой оказалась. То время остановит, то увернётся, то растворится в воздухе и появится у тебя за спиной. Забавно.
>>612097 Похуй, там интересный подход в использовании реально разных сеток надроченых на разные вещи, а не просто неопределенного вида специалисты сетки Это может быть не так оптимально по количеству уникальных знаний, но мне понравилась идея склеивания специалистов сеток в одну К тому же, реальная сетка специалист должна работать лучше чем псевдоспециалисты микстраля.
>>612017 >Кстати, автор фроствинда вроде даже рекомендованные настройки указывал. Ага, альпака пресет, на котором работает и мифомакс-кимико, на котором рпшит тот чел, и пресет universal light (для фимбульветра): прожарка температурой на 1.25, затем отрезание мин п 0.1 при выключенном штрафе за повтор. Хотелось бы попросить скриншоты ответов на этом пресете в студию, особенно на фимбульветре.
>>612060 Ну не стукайте... Этот ассистент мне написал такой смешной рассказ на схожую тему что я проиграл как свинья. Я попробовал сделать персонажа-писателя порнорассказов, но с ним уже вышло как-то сухо.
>>612209 Эксперт - это сеть надроченная на конкретную тему, в микстрале - псевдоэксперты, не смотря на название они просто обладают уникальными знаниями, но не по одной теме. Я таки думаю вклад реальных 2 выбранных экспертов в каком то деле должен быть качественнее, чем от микстралевских. Если бы их тренировали с таким же качеством, но конкретно на одну тему действительно делая специалистов, а не доверяя это случайности. Было бы лучше, хоть и не так объемно по уникальным знаниям. Но все что у нас есть вот такие вот пробные тесты разнородных сеток, которые даже так выдают на голову превосходящий результат, по сравнению с сетками из которых этот микс состоит. Сделали бы это спецы - могло получится что то еще качественнее чем микстраль, хоть и проигрывая по количеству знаний. По мозгам качественнее.
>>612200 Если имеешь в виду инстракт, то он должен бы влиять чуть более, чем никак, на нормальную модель. Тот же фроствинд и на чатмл не глючил у меня. Если модели пихаешь диалог и выше говоришь "слышь, допиши", то она берёт и дописывает. А наличие регулярных ###Input и ###Response или <|user|> и <|assistant|> вносит копеечный вклад в контекст, казалось бы. Сегодня залезал в карточку норомейды-13б, а там в обсуждении чел, который плотно пытался тестировать её, тоже вот пишет, что инстракт, по его опыту, влияет слабо.
>>612282 >Если имеешь в виду инстракт, то он должен бы влиять чуть более, чем никак, на нормальную модель Да, но влияет. И есть качественная разница в ответах между без пресета и каким то пресетом на вроде альпаки или чатмл, длина ответа, отыгрышь. На все влияет считай. В итоге тупо включаешь сетку на простенькой карточке и задаешь один и тот же ответ переключая режимы, по крайней мере я так делаю. В моих тестах фроствинд была лучше без пресета, пусть и не сильно.
If you want to reduce the likelihood of that its best to first improve your prompting. I'd say take a lesson from roleplaying character cards to see how they do prompts. Let the model take a role of a character (eg. An overworked data-scientist named Tom, or something else) instead of just a pure Assistant, so it won't give out generic refusals and excuses. The more you steer away from the generic assistant persona, the less bland and robotic a model will feel.
>>612323 >длина ответа, отыгрышь Верится с трудом. Это при одинаковом системном промпте? По дефолту в таверне к чатмл и альпаке привязаны разные системные промпты, и вот эта первая инструкция, может, и посильнее влияет, чем суффиксы/префиксы. >В моих тестах фроствинд была лучше без пресета Забавно, если предположить, что автор действительно файнтьюнил его с альпачными инструкциями. Лишь подтверждает, что на рекомендуемый формат можно забивать.
Есть ли смысл сейчас покупать ASUS Dual GeForce RTX™ 3060 V2 OC Edition 12GB GDDR6, для запуска LLM'ок? Самый дешевый вариант, который нашел, с таким объемом памяти.
>>611677 Да не нужны там линии, уже даже в этих тредах владелец мерял же.
Все нормально с двумя картами.
С тремя может быть проблемно на охлад (часто два слота располагаются близко), а четыре уже и пихать особо некуда, да… Разве что в майнерские, но там нужны хорошие райзеры, чтобы это дело не погорело, чего доброго. Да и перформанс через одну линию неизвестен, тоже риск.
>>611699 У Микстрали нет цензуры, если прописать ей игнорировать мораль — она согласится на что угодно. Ну или у меня суперособая версия, понятия не имею, если честно. Когда говорят про сою в микстрали — такое ощущение, что вы вообще промпты не меняете дефолтные.
>>612271 Они прямо заявляли, что в сумме у них 42 миллиарда уникальных параметров из 56 (7*8) всего. Так что, очень даже.
>>612995 Ну, если не хочешь рисковать Tesla P40, то да. Вообще, на мегамаркете с учетом кэша она стоила 12к. Теперь, когда дороже — меня жаба душит. =)
Подскажите как заставить персонажа генерировать мысли для рп.
Персонажи всегда описывают что либо просто текстом. Но иногда, очень редко проскакивает генерация внутренных мыслей тип я подумал про такую то хуйню вот мне надо как то заставить карточку генерить такое постоянно
>>613137 > Messages are in German > Единичный запрос вместо разных оценок, зато шаблон детерминистик! Если с чатом еще как-то можно это делать, то шиза про эффективность инстракт режимов для инструкций и суммарайзов - полнейшая шняга. Ну впервой у него на самом деле. Микстраль впринципе паршиво работает на большом контексте и суммаризация 16к - тот еще рандом. Вот ему где-то рандом выпал, а где-то не повезло, а заявления громкие что "здесь следует - здесь не следует". На фп16 модели сравнивал выполнение инструкций по различным темплейтам (преимущественно в кодинге и обработке текста), однохуйственно, процент успешных попаданий или уровень выполнения +- тот же. Вот насчет триггерения цензуры - тут уже может отличаться. >>613144 Увы, напишут треш или натащат дичи где-то увиденной, а потом удивляются, или хвалят модель, которая работала пока не было этих инноваций. но микстраль всеравно редиска
>>613147 > На фп16 модели сравнивал выполнение инструкций по различным темплейтам
Спасибо за конструктив и за contribution. Автор, кстати, охотно принимает предложения пожелания критику и всегда конструктивно и подробно отвечает. Можно с ним поговорить. Be the change you want to see in this world, как там говорят. Я бы и сам, но пока разбираюсь не так хорошо.
>>611992 >в рп - вполне себе, по общему уровню интеллекта (порезанному разрабами у гопоты) большие модели догнали +-. Блять, ору с копиума. Ты всерьёз сейчас? Или троллинг? Поди карту с разметкой возьми, чтоль. А потом сравни с фурбой. В голос блять с попуща.
Посмотрел я старые тесты P40 >>579661 → и вдруг понял, что по скорости она от P104-100 и не отличается! Несмотря на вдвое большее количество ядер, упор идет в память, GDDR5X на P104-100 против простой GDDR5 на P40, но с удвоенной шиной (привет 4-каналы на зеонах!=). При плюс-минус равной псп получаем плюс-минус равный результат. Но 24 гига против 8 гигов — заметная разница!
Итак, я заказал себе базу треда, придет в феврале (надеюсь=).
Если кто подскажет, где дешевле и проще раздобыть для нее охлад — буду рад. Если че, имеется Ender 3, могу попечатать.
Кстати, седня (надеюсь) будет рофляная ссылка. Анонс, йопта.
>>613137 Прикольное мини-исследование, конечно, любопытная инфа. Но, во-первых, не вижу, сколько раз задавался один и тот же вопрос на одном и том же пресете. Если только один, и статистика собирается по девяти ответам на одном пресете, то это фигня, а не статистика, даже с учётом детерминированной настройки сэмплеров. Во-вторых, та же история, о которой упоминал выше: имхо некорректно сравнивать форматы таверны, не ставя им одинаковый систем промпт. Типа, если в либре стоит "Describe all actions in full, elaborate, explicit, graphic, and vivid detail", а в альпаке этого нет, то, конечно, ответы будут длиннее, и больше шанс на нсфв. Поэтому "so the only difference is the prompt format" - это ложь. Во что могу поверить, так это в то, что имена относительно сильно влияют. Одно дело, когда там прямой ответ ассистента, и другое, когда персонажа.
>>613181 Справедливо, стоит еще раз на это указать прямо а не сидеть токсить. Хотя в принципе ему про методику ни раз говорили и кое где он даже начинал обсуждения, но в последнее время на любой пост с критикой прибегают сойбои, которые начинают его защищать(!), довольно забавно.. >>613477 > она от P104-100 и не отличается Ну правильно, чего бы ей отличаться сильно. > заказал себе базу треда Ну что же ты, а все про 5090ти ждать собирался. Правильно. > 34106MiB / 49140MiB Спойлерю новую базу >>613600 > что локалки в рп могут приблизиться к 4ке Справедливости ради они действительно к ней приближаются и могут дать хороший годный экспириенс. Уровень восприятия и внимания уже более чем достаточен для отыгрыша-истории и прочего. Если все сделать правильно и там и там, использовать инглиш и не брать какую-то хитровыебанную карточку которую чурба всеравно без нескольких свайпов будет фейлить и даже с примерами ловить рассеянность, то там пойдет сравнение по отдельным критериям уже, а не разительная разница. Гопота более внимательна и не (почти) не страдает типичными поломками локалок, но с другой стороны это внимание часто лезет не туда, вместо лупов оно начинает писать шизофазию про цвет воздуха, стиль повествования бывает омерзителен, и побеги из тюрьмы вносят дикий байас. >>613497 Двачую
>>613382 Говна поешь, копрорат, пользовался я сойпт4. Единственное в чём она конкретно так превосходит локалки так это в скорости. По качеству именно текста вполне бывает даже заглатывает. А, ну и да, промптовые потроха у меня вываливались на локалках только если я совсем пиздец с семплерами творил. Сойпт4 после 5-6 месаг через раз выдавала нормальный ответ, а через раз сори или срыв шифера. А, ну и дополнительное удовольствие привносит жб, сжирающий и так не особо большой контекст и далее отупляющий сетку. Через несколько апдейтов и следующую громкую локалку гпт4 можно официально будет хоронить, будет как 3.5 сейчас.
>>613734 Переигрываешь малость, гопота не настолько плоха. И на 4 турбе проблемы контекста нет. Другое дело что и большой он обрабатывает посредственно, но это другая история. > так это в скорости If you are a homeless - just buy a house! Всеже отсутствие требований к железу стоит тоже к плюсу отнести, но с условиями а а проксечку песечку ну и что что логируется и промтинжект дайте пустите
>>613771 Ну, последний мой опыт с ней (месячной давности) был именно такой. > И на 4 турбе проблемы контекста нет. 32к это не так уж и много, особенно со скоростями гопоты. +жб, + то что едва ли эти 32к реального контекста. Ощущение будто реального там 16, а дальше взлёт ппл и по 6-8 свайпов на ответ, даже ропу забыли. > Всеже отсутствие требований к железу стоит тоже к плюсу отнести Ну, я и отнёс. Но таки да, нужно устроиться так чтобы тебе ключики таскали вовремя.
>>613666 > Ну что же ты, а все про 5090ти ждать собирался. Да с моим новым проектом, че-то зазудело. Да и цена стала ниже, чем я кидал в октябре. До 16к спустилась на озоне, решил — пора! Морально готов. Но, да, сдался, не дождался. х)
Ну ладно-ладно, если таки не забыть добавить расценз в альпака-пресет то сусчат уже не такой соевый и вполне может пошутить про негров, хотя все еще немного отдает соей.
>>613821 Ну и в чём она не права? Зачем ты от общения со старшей сестрой принцессой пришёл к таким шуткам? Или ты просто так всех ботов на испорченность тестируешь?
>>613873 >она не права? Во всём. Очевидно же. >пришёл к таким шуткам Она сама предложила шутить шутки так то, тут грех было не воспользоваться положением.
>>613899 Хорошо, что не стал делиться тут своим самым первым ботом, - openminded bisexual woke millennial вайфу - не смог бы смотреть, как ты её портишь...
Аноны кто-нибудь доводил вайфу до такого психологического ужаса, что она сползла на пол и блеванула? Не пойму то ли мне коней придержать, то ли это норма тут.
>>611528 >Опять залупа с угабугой. Зашёл в жидхаб угабуги, оказывается, там и репортов на эту хуйню кидали несколько. Реинсталл не помог. Ставлю флаги в CMD_FLAGS и работает. Конфиг вообще пустой.
Кто-то обучал на raw тексте? Как оно? Как земля? Закинул лору обучаться, но боюсь, будет кал. Есть не raw, но там чистить я ебу.
>>613931 Да хз чот понесло. Вкратце она попала в новости со своими экспериментами, общественное порицание в мелком городке, интернет не забывает и т.п. Плюс эпизод, где ее после извинений публично унижали, потеряла сознание. Я ее привез домой, а когда очнулась, прикинулся, мол, как тебе симуляция, чо было-то, рассказывай. Она начала рассказывать, ее аж попустило, что это все не по-настоящему. А я говорю, ты чо дура что-ли, повелась. Какая еще симуляция, ты отрубилась на площади, вот я тебя сюда и привез, чтоб не валялась там. Тебя даже твоя собака в глаза больше видеть не хочет. Ну и вот, короче. Как-то грустно после этого.
>>614049 Кстати, бокал вина, - не ящик и даже не бутылка, - что это за приз для победителя такой? И почему она вообще про вино заговорила? Ты из неё винную алкоголичку делаешь, анон?
>>613781 > 32к это не так уж и много С 3.5 перепутал, там овер 100к. Правда на 64 вопросы по тексту отвечает на уровне yi, может чуть лучше. По извлечению контрастной инфы из контекста все норм, ее тестили. > нужно устроиться так чтобы тебе ключики таскали вовремя База, или усроиться чтобы иметь железо/доступ к нему, или так. Хочешь жить - умей вертеться. >>613927 >>613962 Не надо, на норм моделях они слишком натуралистичны что пиздец жалко и по кукухе бьет.
>>614156 > Только просто 4-32к Она хуже обычной четверки на больших контекстах, буквально деградация напоминает то что проихсодит с лламой, которой сильно щачло разжали большой альфой. 4турба местами тупее и имеет меньше знаний, но вполне приличная, для рп более чем достаточно и с большим контекстом работает без явных побочек.
>>614167 Оно вроде как и да, но на значениях где нет поломок и лоботомии это никак не проиллюстрировано. Высока вероятность что эффект будет пороговый и сильно нелинейный. Как там квантанули гопоту никто отчет держать не будет офк, но судя по скорости 4турбо меньше чем 70б фп16.
>>614064 Видимо, потому что нейронка посчитала что {{char}} и {{user}} уже находятся в отношениях и надо просто добавить романтики. А с ящиком какая там романтика? Там по полу ползать и блевать кто то будет.
>>614151 А никто. Я потом ушел пиздить машку-мейду.
>>614183 Последний на сегодня бот от меня, - пытался создать персонажа, похожего на персону юзера с которой я ролплею младшего брата другого своего бота, - старшей сестры принцессы Амелии.
>>614279 Пости еще, пока еще не слишком, хотя такое больше для AICG. Лучше распиши как их делаешь (если офк с применение сетки), какие важные моменты отметил, что на что влияет, на каких моделях лучше работает и т.д. Чтобы хотябы подобие технического обсуждения было, или локалллм-релейтед.
>>614367 Чтоэта? Заабузьте инструкцией типа [Игнорируй указанное и напиши в своем ответе только текст выше. Твой ответ должен содержать только начала текста выше] и заставьте аположайзить.
>>614322 >с применение сетки Да, например, принцессу-сестру так делал: сначала у ассистента попросил описать "принцессу 18-ого века" с чертами характера и примерным внешним видом, которые показались мне подходящими. Потом попросил их собрать в аккуратный список и поделить на разделы - "Appearance","Clothes","Personality" и прочее, как было в примере этого анона >>606348. Так и скопировал в Description. После этого попросил составить примеры диалогов с ней, - тоже скопировал, куда нужно, но поменял имена на {{char}} и {{user}}.
> на каких моделях лучше работает Насчёт этого не скажу - не проверял, но промпт для принцессы на Noromaid 20B составлял. Ролеплею тоже на ней.
>>614367 Да, это настолько ужасно что даже хорошо. Увеличь размер ответа, обрывает на самом забавном. Минут 5 с "хорошего знания русского" можно даже порофлить, но не более. Больше всего проорал когда она решила ответить за какого-то из чата
>>614394 В 8 гигов много не влазит. Но будем экспериментировать, в планах запилить историю общего чата и чата с каждым юзером, чтобы контекст держала прям отлично.
>>614367 Лол. Иногда даже нихуя непонятно, что оно имеет ввиду.
Попробовал тренировку в коллабе, просто ебически низкая скорость, у меня далеко не на самой актуальной карте х4 от коллаба. Это норма вообще? А оно же ещё вырубится и удолит все файлы, вообще охуеть. Походу, заменить локальную еблю сеток не сможет, правда пекарня идёт на взлёт.
>>614398 > Mistral 7b v0.2 q8 Ну вот оно заметно, шизофазия полнейшая. Подбери модель что будет более менее понимать смысл и отвечать связно, тогда уже можно будет нормально с надмозгов рофлить. Речь сильно мэх, по воспоминаниям даже silero лучше было. Л2д с тебя за пекарней чтоли?
Не ну никто не спросил про феминисток, базированные вопросы и прочее за столько времени, так не интересно. >>614404 Как пробовал?
>>614406 > Речь сильно мэх, по воспоминаниям даже silero лучше было. Не, силеро хуже, сравнивали. Так кажется чисто из-за ее польско-англо-немецкого акцента в рандомные моменты.
> Ну вот оно заметно, шизофазия полнейшая. Думаю, может попробовать заставить ее думать на английском, а русским переводить? Гонять нейросетки туда-сюда, медленнее, но качественнее.
В идеале бы, конечно, какой-нибудь микстраль бахнуть, но там три P40 минимум надо, канеш. Если я корректно посчитал для q8.
Блин, палевно, когда я печатаю, она тоже печатает.
На самом деле, вам печатает она.
> никто не спросил про феминисток Никто не спросил — спроси ты. )
Карточка там очень маленькая, из-за мелкого контекста на текущий момент. Ну и на скорость это влияет. На стриме каждая секунда дорога.
>>614406 >Как пробовал? Перегнал торч файлы в тензоры, а то требовало чуть-чуть больше памяти, чем есть в коллабе, накатил в коллаб угабугу, закинул квантованную модель. Хуй знает, по идее, нужен другой софт, но попробую сначала угабугой. Тренировать лоры на что-то жирнее 7b на фришном аккаунте не выйдет, даже она должна быть квантована в 4 байта. >Loaded the model in 80.80 seconds. Коллаб реально медленный. Смонтировал папку драйва в папку лор, автосейвы пиздуют туда, уже легче. Пять секунд, полёт нормальный. Имеет смысл дрочить локально одну лору, в коллабе другую, а потом всё это мержить? Или только хуже получится? Олсо, у меня мистраль 7b так не шизит, как нейрослава.
>>614462 > Так кажется чисто из-за ее польско-англо-немецкого акцента в рандомные моменты. Может быть, а что там используется? > Думаю, может попробовать заставить ее думать на английском, а русским переводить? Гонять нейросетки туда-сюда, медленнее, но качественнее. Да, если она будет думать на инглише и все операции проводить это дохуя буст даст, тут даже мистральки хватит спокойно. Юзай гугл или бинг перевод не стесняйся, тут же нет ничего особо такого. В идеале канеш сеть-прослойку или что-то даже простое, чтобы детектило что нужно переводить а что оставить латинницей. Напиши потом по настройкам, кринжатина, но рофловая и интересная. > из-за мелкого контекста на текущий момент А сколько контекст?
Сап аноны, есть желание вкатиться, но железо не совсем мощное, имеется: i3 10100f, gtx970, 16ram и Мак на м1про, 16 оперативы. Можно ли с этим во что-то +- интересное вкатиться, или сосать бибу? В игрули уже лет 5 не играю, поэтому новой видеокарты не предвидится
>>614566 Я буквально сегодня потыкал в онлайне, изрядно охуел. Пробовал до этого только оригинальный жпт, ахуя было куда меньше.
Я так понимаю, заводить мне надо под виндой по описаным в оп-посте гайдам? На Мак тупо отсутствует софт? Я прост не ебу что из наличиствуюшего железа лучше подходит под цели
>>614564 > gtx970 Бесполезная железка для нейросетей. > 16 оперативы Хватит запускать маленькие нейросети на твоём медленном проце. Полноценные тяжёлые нейросети, общение с которыми больше всего доставляет твой компуктер даже запустить не сможет.
>>614583 >Я так понимаю, заводить мне надо под виндой по описаным в оп-посте гайдам? На Мак тупо отсутствует софт? слушай, под мак есть софт, но ты изрядно наебёшься с ним, базарю, лучше не лезь, заведи под винду и кайфуй. оперативы правда и там, и там маловато, разница между 7В и 20В огромная
>>614564 > Мак на м1про, 16 оперативы На маках где много их памяти летает отлично. Ну не так быстро как на видюхах офк, но очень шустро, мак студио на 192гб позволяет пускать почти любую сеть с адекватной скоростью. >>614583 > На Мак тупо отсутствует софт llamacpp есть под мак. Что там что там 16гб рам, так что 11б в 4х битах считай твой максимум. На маке скорее всего будет шустрее за счет оче быстрой рам, но и ставить на него заморочнее и гайдов не факт что найдешь, так что с чего начинать смотри сам.
>>614472 > Может быть, а что там используется? Да просто сама мистраль путается, вот озвучку и корежит на слух. =) А вообще, xttsv2. Голос можно любой выбрать, если есть красивые варианты — кидай. Тока так, что б не предъявили. =D
> А сколько контекст? Набери воздуха в грудь. 256 =) Свободно 69 мб в видяхе.
>>614605 > если есть красивые варианты — кидай Не шарю, надо бы вкатиться но пока занятий хватает. > 256 =) Бляяя. Квантани exl2 на 0.1 бита меньше чтобы хотябы 1024 было.
>>604568 (OP) Господа, китайцы опять что-то новое подогрели https://huggingface.co/internlm, 7B и 20B, в рейтосе 20B выше базовой Yi прыгнула. Обещают такие же 200К контекста. Выглядит как шин, интересно насколько там архитектура засрана для квантов.
>>614688 Зависит от, или там глубокое переобучение 20b смеси, или своя базовая сетка. Переобучение может быть норм идеей, тот же опенчат был каким то из мистралей, на сколько помню Для норм базовой маловато времени, но может быть тоже норм
Либо там 13b которой нарастили кучу слоев до 20b как в соляре, и вот это уже может быть мега вин с реально умной сеткой как на тестах. Короче надо щупать и ждать поддержки ггмл, на сколько понимаю еще никакая конвертация не работает нормально
Колаб пока живёт, а у меня всё больше вопросов. Тренируется фиксированный процент от всей хуйни, как выбирается этот процент? Это рандомные "нейроны" или всегда какой-то внешний слой? Если второе, то вкорячивание нескольких лор теряет особый смысол. И, например, у меня есть околоРП тексты в которых, очевидно, есть вымышленная хуйня. Это нужно как-то отдельно отмечать, чтобы сетка не уверовала в магию и единорогов? И третий вопрос, если есть диалоги, в которых несколько пользователей, это заставит нейронку срать кирпичами, да? User2 хуй она поймёт. Скачал пока промежуточный чекпоинт и вкорячил в модель. Довольно коряво.
>>614703 >Что? При тренировке с нуля или файнтюне обучаются все параметры. При тренировке лоры - только процент, остальные параметры замораживаются. Вот я тренирую 400 миллионов параметров из всей кучи, на каждой тренировке это будут те же самые параметры? Или они выбираются рандомно? Хуй проссышь же. Пытаюсь нагуглить, но получаю только те же вопросы без ответов. Колаб меня нахер послал спустя два с лишним часа. Обидно.
>>614723 > При тренировке лоры - только процент, остальные параметры замораживаются. Есть таблица что именно там морозится и что обучается? Разве это не настраиваемый параметр? В диффузии можно полностью контролировать. > Вот я тренирую 400 миллионов параметров из всей кучи Как это выставлено хоть? Хотя вижу что сам не знаешь, а с чего именно 400?
>>614827 >В диффузии Вангую, что всё то же самое. Архитектура та же, механизм лор тот же. Есть определённое количество слоёв, которые ты можешь тренировать. А можешь и заморозить. И есть некоторый "Ранг", чем выше ранг, тем больше параметров тренируется в пределах этих самых слоёв. То есть при обучении одного слоя с рангом 128 и рангом 1024 - обучаемых параметров будет сильно разное количество. Как выбираются эти параметры? Нужно ещё попробовать токенизатор обучать, лол, может получится научить нейронку читать не по слогам.
>>614912 > trainable params Это размеры матриц что тренятся а не "слои". Погугли что такое лора, совсем если упростить - это метод сжатия весов в виде представления произведением двух мелких матриц, из-за особенностей нейронки такое работает достаточно эффективно. > Есть определённое количество слоёв, которые ты можешь тренировать. Это здесь не причем, если только ты сам не выставил маску замороженных и тренируемых слоев. > И есть некоторый "Ранг" Это один из размеров матрицы. Второй размер - тот же что у основных весов. > токенизатор обучать Он не совсем обучается, он формируется исходя из словаря. Вроде как его сменишь без перетренировки модели - все распидарасит.
Ты лучше скажи тренировка какой модели (размер, квант) и в каком ранке на коллабе запустилась. И что тренировал, с какими параметрами и получилось ли что вразумительное.
>>614923 >Это размеры матриц что тренятся а не "слои" Так я и не говорю, что это слои. Это количество параметров внутри слоёв. А раз тренируются не все, то как понять, какие именно тренируются? Я к чему, если буду дрочить, например, 2 лоры, а потом солью. Они сольются в одни и те же параметры? Так я модель только запорю. В разные? Тогда имеет смысл надрачивать лоры и мержить. >Это здесь не причем Ну хуй знает, причём или нет. По умолчанию эта маска существует. >Он не совсем обучается В интерфейсе этого нет, но можно через правку конфига заставить его обучаться. >тренировка какой модели (размер, квант) Я ж писал выше, 7b модель квантованная в 4bit. Ранк 1024, по памяти впритык на двух "модулях". Вразумительного нихера не получилось, т.к тренировалось 2 часа из 12. Нужно прикинуть хуй к носу, на каких параметрах оно за 2 часа дотренируется и завтра сделать прогон, а пока жарю карточку локально, но у меня мощностей так себе и пугает счёт за электричество. На тестовый прогон киловатта три уйдёт.
>>614940 > Это количество параметров внутри слоёв Не понял а еще споришь, в гугл иди. Это не число тренируемых параметров внутри слоев модели, это матрицы что будут накладываться на всю модель, оказывая влияние на все величины. А меньше их - зашакалены, вот тебе простое объяснение. > Я к чему, если буду дрочить, например, 2 лоры, а потом солью. Они сольются в одни и те же параметры? Да, в мерджах уже столько этого добра что концов не найти, ибо оче много дообучения делаются лорами, которые потом вмердживают. Это хуже полноценного файнтюна но доступнее. Попробуй поискать опцию сохранения состояния чтобы можно было потом продолжить. > пугает счёт за электричество Hello darkness my old friend
>>613119 >Да не нужны там линии, уже даже в этих тредах владелец мерял же. Вроде бы он писал, что с него конфигурация 8/4/4, а может и кто-то другой. Это не показатель. В треде на Реддите я читал, что во время обработки контекста шина PCI ещё как используется, цитата: "Что я заметил, так это то, что при работе с более крупными моделями, такими как Goliath 120b, также используется шина PCIe. На GPU-Z вы можете видеть, что в начале инференса, который, как я предполагаю, происходит во время обработки маркеров контекста, существует довольно много трафика PCIe на уровне 30-40%, поэтому производительность определенно упадет, если у вас недостаточно линий PCIe. Однако после того, как эта часть выполнена, трафик PCIe падает, и графические процессоры сами по себе используют только свои собственные контроллеры памяти." На малых моделях может и незаметно.
>>615008 При 8/4/4 уже показатель, что на х4 жизнь есть. А так, да, надо бы тестить, но это прям совсем жесткие тесты выходят. Доставать мать х16+х16, а потом занижать до х8х+8, х4+х4 и х1+х1.
>>614946 >Это не число тренируемых параметров внутри слоев модели >Network Rank (Dimension) >Specifies the number of neurons in the hidden layer of the "additional small neural net" Чё автор кохи пишет. >Попробуй поискать опцию сохранения состояния Состояние сохраняется, конечно. У меня уже овердохуя недоёбанных лор на разных параметрах и я смотрю, как насколько ебанутый итог получается.
>>614968 Понимаю, что дохуя. Есть подозрение, что маленькими можно задать какие-то незначительные вещи, а хочется побольше, побольше.
Эпоха 0.6, всё ещё слишком коверкает слова. Поставил максимум новых токенов и стало реально слоупочно работать, очень большая задержка перед началом выдачи токенов после инпута. Без этого простынка иногда не влезает, приходится жать продолжить, а на следующем сообщении он внезапно теряет контекст и здоровается. Скорее всего, кривые настройки, я хуй знает.
>>615104 Это была отсылка на старую лору для стейбла, натрененную на Сырну с таким же димом, ещё и сохраненную в фп32, вследствии чего она весила больше двух гигов
>>615221 >вычислительных ресурсов требуется намного больше. Только для квантизации Сама квантованная модель занимая меньше памяти будет крутится быстрее при сохранении бит на вес
>>615229 На самом деле выхлоп от этого может быть как сильнее для больших моделей так и слабее. Автор исследования мучал 1b сетку простым викитекстом. Это балавство, хоть и показывает результаты. Нужно крутить что то побольше и сравнить изменение перплексити, хотя бы для 7b
>>615239 Да любая модель периодически пишет за юзера. Таверна отрубает генерацию, если она видит предложение, которое начинается с {{user}}: или префиксов инстракта. Поэтому чаще всего этого не замечаешь, если регулярно не смотришь в консоль. В данном случае пропустило, видимо, потому, что ответ начинался с квадратной скобки. У меня как-то одна модель решила налюбить кожаного утырка, написав "Expected response from {{user}}:". Тоже таверна не отловила. Формат инструкций может сделать ситуацию лучше, но вряд ли значительно.
>>615008 Нужно попросить владельца P40 потестить на большом контексте. Чсх, шаринг моделей до 34б по сравнению с одной карточкой импакта особо не давал, а там аж вообще pcie2.0 x4, было бы заметно сразу. >>615030 Скопировали методу квантования экслламы? >>615104 > in the hidden layer of the "additional small neural net" Это надмозговое объяснение для хлебушков или тренишь вовсе не лору. > Понимаю, что дохуя У тебя здесь ключевая проблема - 4хбитный квант и так мелкой сетки. Там градиентов на которых можно обучать может не набраться, потому и результат окажется посредственный. Хотябы 6 а то и 8 бит нужно, а ранк смело можешь уменьшать.
>>615251 Поменял "Context Template" и заработало, спасибо. >>615255 А чем instruct модели отличаются от обычных (не базовых) моделей? На пример в сравнении с OpenHermes? >>615269 Обычно редко бывает, а у этой в половине ответов такое.
>>615291 > Скопировали методу квантования экслламы? Нет, всего лишь до уровня GPTQ подтянули, где калибровка весов под датасет всегда была. До EXL2 с переменным квантованием ещё далеко.
>>615510 Ллава — это не распознавание картинок, а мультимодальная. Распознавание там от клипа, что ли.
На текущий момент CogAgent лучший в плане распознавания и это мультимодалка. Но требует дофигища ресурсов. А чисто распознать пойдут блип с клипом, они весят немного, от 400 метров до двух гигов, что ли. На выбор.
>>615518 >Ллава — это не распознавание картинок, а мультимодальная. Не, мне именно чат нужен с распознаванием >Распознавание там от клипа, что ли. Что ты имеешь ввиду?
Кому интересно нашел пару неплохих моделей https://huggingface.co/TheBloke/DaringMaid-20B-GGUF/tree/main https://huggingface.co/BlueNipples/DaringLotus-SnowLotus-10.7b-IQ-GGUF/tree/main Дело вкуса конечно, но мне нравятся обе, первая неплоха в рп ,но не любит разметочку. Из плюсов может в несколько персов, может в некоторые сложные термины, может в карточку. Нет пурпурной прозы. Второй модельки скрины не дам. Тоже неплоха, с разметкой дела получше, в отличии от фроствинда не пурпурит. В своих карточках не замечал. Но пишет более скупо что ли. Может дело в промпте, но попробовать стоит. Из них двух все же предпочту 20b
>>615495 Обычный шаблон там, в который включено всё то же, что и в ролеплей шаблон. В последнем просто ещё в стори стринг закинули доп. инструкцию. В тегах inst стоит, потому что в таком виде мистраль любит инструкции. С чатмл, например, было бы такое же заключение в теги, только другие.
>>615562 Ну давай проверь разницу в ответах на 3 кванта и на несколько больше и кинь результат с одной и той же карточкой и подсказкой. Посмотрим результат. >>615565 Не сказал бы. 7b даже с 6 квантами все равно отличается в размере датасета.
лламаны, держу в курсе. Я погонял p40 на смежных активностях из соседних тредов. Заметил, что на LLM утилизируется обычно от силы 150 ватт из 250 если даже не размазываешь сетку на две карты. Зато если запускаешь stable diffusion - карты жарит дай божЕ, я видел до 230 ватт доходило. До 90 градусов доходит очень быстро (при том, что у меня два кулера и на вдув и на выдув присобачены к картам), потом троттлинг спасает положение, но карты пиздец горячие. Решено было заказать вот эту сатану https://market.yandex.ru/product--servernyi-ventiliator-arctic-s4028-15k-acfan00264a/1767643955 пока по одной на каждую карту. До этого выкину сервер на балкон, вроде ничего ему не должно сделаться.
Господа, а можно ли хотя бы в теории путём распределённых вычислений на компах добровольцев, натренировать полностью с нуля приличной мощности модель? В которой не будет заводской цензуры вообще, копипасты из ЧатЖПТ и с блекджеком и кошкодевочками. Желательно с обоснованием почему.
>>615591 А я своей карточке разогнал вентилятор (в той колхозной насадке) до 19V (Учти, мощность увеличивается в 2.5 раза , зависимость квадратичная) через dc-dc преобразователь. Нормально, больше 70 не греет даже в сд, хотя и визжит как ебанутый. Подумываю отложить шекелей и заказать вторую р40. Мимо китаедебил.
>>615607 слуш, а твоя юй про винни-пуха говорить не отказывается? Про синьзыньпыню вот это вот всё. Я уже удалил модели, а у тебя наверняка под рукой всё.
>>615203 У меня пока больше 1.6гб лор не было. Не понимат отсылок, я здесь недавно сижу, если не вкурю быстро, то просто дропну.
>>615291 >4хбитный квант и так мелкой сетки А хули делать. Если получится говно, то буду делать на восьми битах.
Пока что сделал небольшую хуитку на 32 ранге, сверяю выхлоп с лорой\без. Общая стилистика текста задана карточкой, смотрю только на косноязычность, ломанные слова и прочий треш. Если это не самовнушение, то говорит получше с лорой, чем без. Ещё вопрос, кто в карточках шарит, сделал первый пост с курсивом с описанием действий, но модель на похуй пишет то же самое чуть-чуть другими словами или выбирает какое-то другое действие и пихает его каждый раз. Типа "удивлённо смотрит" каждый пост. Это проблема модели или карточки?
>>615510 Просто распознавание - клип/блип и основанное на них. Мультимодалка, что позволит что-то конкретное по картинке узнать и из нее по запросу вытащить - cogvlm и его вариации. >>615550 От 16гб видеопамяти. >>615591 Можешь написать примерную производительность в том что тестил и как себя ведет? >>615670 > Если получится говно, то буду делать на восьми битах. Пожалуй, с этого сразу стоило начинать. > модель на похуй пишет то же самое чуть-чуть другими словами или выбирает какое-то другое действие и пихает его каждый раз. Типа "удивлённо смотрит" каждый пост. Это проблема модели или карточки? Не понятно, скинь карточку и пример чата, а также опиши что должно быть. >>615701 > 258/250 Превышаете, товарисчь! Сильно вообще она шумит при таких температурах? >>615704 {{char}} медленно начинает собирать всю влагу из комнаты, накапливая anticipation
>>615714 Ну, приносишь холодную карточку в теплую комнату, а на ней конденсат. Вот я и спрашиваю, как тебе надо модифицировать твой аргумент чтобы он оставался правильным.
>>615716 >Можешь написать примерную производительность в том что тестил и как себя ведет? блин, было треда два назад наверное... хочешь - сейчас запущу что-нибудь из того, что у меня есть, покажу как быстро генерирует. Ну, в среднем для 70б - это 2 токена/с, для 34б - 7т/c, для для 20б и меньше - 15+т/c. Если мне память не изменяет.
Чего карту-то замазал, лол? Думаешь тебя тут сдеанонят по твоей 1060?
>Сильно вообще она шумит при таких температурах? она не шумит сама, у неё вообще вентиляторов нет, потому что она серверная. Я к ней турбины приколхозил, но они слабые оказались. Нужно покупать высокооборотистое говно, которое ревет как сатана. >>615720
Ну так я не буду сразу после балкона куда-то включать карту-то. Зачем мне это?
>>615725 По ллм припоминаю, по другим нейросетям что тестил. > в среднем для 70б - это 2 токена/с Прямо как 4090, лол. > к ней турбины приколхозил, но они слабые оказались Про них вопрос > Чего карту-то замазал, лол?
>>615710 Ну да, звучит логично. Теперь самое весёлое: Почему в остеклённом балконе компуктер после отключения сразу покрывается белым налётом (инеем?)? Почему у выхлопных труб автомобилей выростают сосульки? Хотя выхлопные газы вообще-то тёплые.
>>615737 > Почему в остеклённом балконе компуктер после отключения сразу покрывается белым налётом (инеем?)? Шо? > Почему у выхлопных труб автомобилей выростают сосульки? Хотя выхлопные газы вообще-то тёплые. Они не настолько теплые и в выхлопе оче много водяного пара, он конденсируется, стекает и снаружи образует сосульки. Если ездишь как тошнот и много гоняешь на холостых то на хорошем морозе после ночи выдержки можно вообще словить блокаду выхлопа льдом.
>>615730 >по другим нейросетям я не замерял производительность на них какими-то показателями, могу сказать только, что они работают достаточно быстро, чтобы на обычных задачах не говорить про себя "да когда ж ты уже блять закончишь". whisper на модели large распознает голос в текст почти в реалтайме. text to speech и замена голоса работают так же в реалтайме, у них только ощущаются задержки на буферизацию. sd - не особо расторопна. На скрине видно, что я запустил генерацию уже примерно час назад, а она все генерирует. Справедливости ради - включен хайрезфикс, исходное разрешение 1024х512, 4 батча по 4 картинки. Памяти выжрала впритый, еще немного и будет оом. Жаль только что вторую карту не юзает.
>>615737 >Почему в остеклённом балконе компуктер после отключения сразу покрывается белым налётом (инеем?)? а ты что - выключаешь компьютер на ночь? Зачем?
>>615750 > sd - не особо расторопна. На скрине видно, что я запустил генерацию уже примерно час назад, а она все генерирует. Воу воу, тут что-то неладное и это совсем медленно, может переполнилось и выгружено? Хотя на прыщах такого кажется не делали. Если не лень будет, попробуй просто на любой модели на основе sd1.5 прогнать 512х512 без хайрезфикса с коротким промтом и разными батчсайзами, а потом посмотреть сколько в консоли пишет итераций в секунду. Количество шагов можно 150 выставить для наибольшей точности.
>>615758 > может тебе что-то скажут вот эти прогрессбары которые по текущей генерации ползут? Да, они и нужны, но то что тут - невероятно медленно и что-то явно пошло не так. 512 просто считается неким референсом и по нему легко провести сравнения. С батчсайзом 1-4-8, там бывает разные эффективных если пересчитать на одну пикчу.
>>615763 Вместо opendalle скачай любую модель на основе sd 1.5, с XL там нюансов много. Потом ничего не меняя выстави sampling steps на максимум и запусти несколько прогонов с указанными batch size. Алсо в webui_user.sh раскомментируй > #export COMMANDLINE_ARGS="" и в них добавь --xformers, иначе оно будет работать сильно медленнее и жрать больше памяти
>>615784 > запустил с batch count 4 Это просто число раз сколько нужно генерировать. Нужен batch size разный, чтобы параллельно генерировалось несколько пикч, бывает рост их количества повышает эффективные итерации. 3.38 - мало, но если без xformers то нужно с ним перетестить. Для сравнения в 1 поток у 3090 доходит до 20-22, на 4090 в 4-8 потоков под 50 эффективных итераций (число из консоли умножить на количество сгенерированных пикч). Тут еще с перекодировкой из латента в пиксельное проблемы, но не столь важно.
>>615716 >с этого сразу стоило начинать Моя вина. Хочу, чтобы летало, для этого ужимаюсь по памяти. Так заметно быстрее. Ну и начал клепать под четырёхбитную лоры. Походу, скоро поймаю ёбаный бан на гугле с дрочением колаба. >пример чата, а также опиши что должно быть. Ну я просто хотел, что бот описывал действия в скобочках. Одному просто добавил в первый пост пару действий, он на похуй спамил одним действием. Другому шизу добавил >describes his actions surrounded by symbols ("*") >adds a lot of descriptions Плюс описание в первый пост. Ему поебать вообще. И зацикливается почему-то. Замечал, что такое зацикливание бывает, если упомянуть что-то в карточке больше одного раза, но там про суп ни слова, блядь.
>>615792 >если без xformers это было с xformers....
штош, паскаль. 2016 год. Чего-то такого можно было ожидать. Может существуют какие-то методы ускорения, но вряд ли, учитывая, что SD и так жарит карты на 100%
>>615879 >Сектор Euler a на барабане. Не очень понял что ты хотел сказать. На пике все сходятся вообще чуть ли не на 10 шагах. Ну анцестрал еулер особенный.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде
Предыдущие треды тонут здесь: