24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №29 /llama/

 Аноним 26/11/23 Вск 09:27:11 #1 №555242 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>550038 (OP)
>>545044 (OP)
Аноним 26/11/23 Вск 12:13:27 #2 №555282 
Какая сейчас самая продвинутая модель и насколько она хуже чатГПТ?
Аноним 26/11/23 Вск 12:48:08 #3 №555296 
https://www.reddit.com/r/LocalLLaMA/comments/183qob8/maybe_anecdotal_but_i_have_very_high_hopes_for_yi/
Аноним 26/11/23 Вск 13:06:23 #4 №555313 
Привет Аноны. Недавно вкатился в тему с моделями, поэтому мало чего знаю. Удалось настроить Убабугу и Таверну, чтобы работало вместе, даже написал своих персов и это даже работает. Вопрос лишь в том, что кроме Synatra-v0.3 другие модели очень долго обрабатывают свои ответы - где-то 1 токен в секунду. Щас юзаю mlewd-remm-l2-chat-20b.Q4 - очень нравится, как пишет, но очень уж медленно, Синатра по сравнению с ней очень тупая. Может кто-то что-то посоветует? Железо 5800х3д проц, 32 гига рамы.
Аноним 26/11/23 Вск 13:06:33 #5 №555314 
https://www.reddit.com/r/LocalLLaMA/comments/183k0tx/could_multiple_7b_models_outperform_70b_models/
о, совет экспертов и другие варианты, кто там еще интересовался
Аноним 26/11/23 Вск 13:11:16 #6 №555318 
>>555313
>проц
>рамы
Видяху покупай.
Аноним 26/11/23 Вск 13:12:52 #7 №555320 
>>555296
Йи ну очень соевой и ультрапозитивной мне показалась
Аноним 26/11/23 Вск 13:14:26 #8 №555322 
>>555318
У меня ртх 2060, вряд ли это как-то поможет делу...
Аноним 26/11/23 Вск 13:14:47 #9 №555323 
>>555313
Если нет видеокарты то ничего не сказать, от одного процессора все будет медленно.
Ну, может быть mlewd-remm-l2-chat-20b.Q4 будет токена 4-6 в секунду максимум, для оперативки и процессора это предел.
Попробуй средний вариант вот это LLaMA2-13B-Psyfighter2 или LLaMA2-13B-TiefighterLR
Аноним 26/11/23 Вск 13:19:30 #10 №555328 
>>555313
Хотя бы контекст обрабатывать на видяшке.
Желательно НВидиа.
offload на гпу сделай.

Но вообще, для ддр4 1 токен на 20B — это странно.

>>555322
Норм помочь должно.
Аноним 26/11/23 Вск 13:40:06 #11 №555355 
>>555328
Так на Амд вообще поддержки нету, кроме как на линуксе. Вот поэтому мне щас придётся пихать старую 2060, чтобы это хоть как-то работало.
Аноним 26/11/23 Вск 13:44:48 #12 №555358 
>>555322
Сойдёт на самом деле, без тензорных ядер, но считать будет лучше проца.
Аноним 26/11/23 Вск 13:46:21 #13 №555360 
>>555355
без кублас на нвидима видимокарте, сидеть очень некомфортно, очень долго будет читать помпт
Аноним 26/11/23 Вск 14:15:48 #14 №555390 
>>555355
Ryzen 5 5500 на ddr4 3200 в двухканале на mlewd-remm-l2-chat-20b-inverted.Q6_K выдал 2+ токена/сек.
Просто затестил интереса ради.
Аноним 26/11/23 Вск 14:22:19 #15 №555395 
>>555234 →
> Потому что даже 20к влезают с трудом
Всмысле влезают с трудом, ты про врам или про качество обработки? Она тренилась уже с альфой (точнее с rope freq 500k если не ошибаюсь), даже хз как ее лучше на малых контекстах запускать.
>>555313
Тут все верно тебе советуют, только видеокарту и/или более мощную платформу в целом, хотя последнее даст не столь значительный эффект и обновлять актуальный проц толку мало.
>>555322
Еще как поможет, если правильно выгрузку настроешь и обработку контекста то будет уже 3-5 т/с (наверно).
Аноним 26/11/23 Вск 14:35:34 #16 №555407 
>>555390
значит квант по меньше токена 3-3+ будет
Аноним 26/11/23 Вск 14:43:42 #17 №555412 
https://www.reddit.com/r/LocalLLaMA/comments/1840wg5/venus120b_a_merge_of_three_different_models_in/
кумерам 120b подвезли
Аноним 26/11/23 Вск 14:49:20 #18 №555417 
Чет сравнил mistral7b openhermes и capybara-tess-yi-34b на генерации кулсторей и ну пиздец. Нахуй все-таки 7b модели. Контекст нихуя не помнят, генерят трешак какой-то. Короткие вопросы - это совсем не то. Интересная именно генерация когерентных текстов, чтобы можно было задать сюжет и получить дрочибельный фанфик. По крайней мере интересно мне.
Аноним 26/11/23 Вск 14:51:27 #19 №555422 
>>555412
И на чём это запускать? Если впихнуть в рам, то всё равно по несколько секунд ждать один токен - глупость
Аноним 26/11/23 Вск 14:53:40 #20 №555424 
>>555417
Как у capybara-tess-yi-34b с соей и алайнментом? Чет писал тут анон не понравилось ему
Ну и да, у 7b маленький словарный запас в ответах, они не так красочно все пишут, и большие ответы для них трудноваты.

>>555422
Хз, может кто то кто сможет
Аноним 26/11/23 Вск 14:56:39 #21 №555426 
>>555412
Предупреждай что ссылка требует логина, тег нсфв там зря. Кто-нибудь квантованные 120б эти пробовал уже? Особенно интересует Tess XL, ведь это файнтюн франкенштейна что явно должно было пойти на пользу.


Гибридная обработка изображения сочетанием мультимодалки (+интерогейторы) и умной LLM более чем возможна и может быть крайне эффективна. Собственно пруф оф концепт
https://rentry.co/rz4a4
https://rentry.co/pvnhr
Использование нескольких исходных данных позволяет снизить количество галюнов и уже позволяет дать неплохое описание. Общение llm и мультимодалки позволяет получить гораздо больше данных об изображении с учетом ее содержимого и перформит лучше чем заранее заготовленная группа вопросов (там начинает шизу выдавать часто, скидывать не буду).
Без фейлов тоже не обходится, иногда мультимодалка ломается, иногда ее галюны выглядят очень убедительно для ллм (кошачьи уши у Сувако), сама текстовая модель нужна как можно более умная.

Стиль суммарайзов оценивать не стоит, его можно промтом задать должным образом, главное - содержимое и прогресс описаний относительно голой мультимодалки или интеррогейторов по отдельности.
Аноним 26/11/23 Вск 14:56:56 #22 №555427 
>>555424
Ну я пока не чекал прямо совсем жесть. Просто порнуху генерит нормально, если попросить. Изнасилование сходу не вышло сделать графично, только лайтово без детального описания. Но я думаю можно её убедить если постараться. И дело не в словарном запасе, а в том что сетка тупо уходит от темы через 500 токенов и начинает выдавать чушь.
Аноним 26/11/23 Вск 14:58:17 #23 №555429 
>>555422
Я голиафа в 2-х битном кванте запускал, лол. Получилось примерно столько же, сколько и 70B в 5км.
Аноним 26/11/23 Вск 14:59:20 #24 №555431 
>>555417
> Нахуй все-таки 7b модели.
Welcome to the club, buddy slaps ass
В том и суть что эти умные 7б - копиум действительно умны и осознают свои недостатки, пытаясь максимально перформить и их маскировать, но против сути не попрешь.
Файнтюны китайской 34 пока подают надежды, возможно действительно шин.
Аноним 26/11/23 Вск 15:01:37 #25 №555432 
image.png
>>555424
Порнуху генерит, но тошно от приторной позитивности. Пикрелетед
>>555429
Сколько же у тебя видеопамяти? Как по ощущениям?
Аноним 26/11/23 Вск 15:02:59 #26 №555435 
>>555432
Ну да, есть такой эффект. Слишком уж много персонажи держатся за руки и ощущают гармонию. Нет идей как с этим бороться? Хочется все-таки чего-то более эджи.
Аноним 26/11/23 Вск 15:05:54 #27 №555436 
>>555435
По идее добавлять ультрапозитивные токены в запрещённые, но это не сильно помогло мне. Эджи тоже кстати кал, я уверен ты хочешь нормального повествования, а не говно в духе мага-целителя.
Аноним 26/11/23 Вск 15:06:45 #28 №555437 
>>555426
О нихуя тестов, интересно
Был бы кодер разрешением по лучше и тренированный на 34b было бы веселее
Там же кстати новая мультимодалка вышла, с параметрами лучше чем у llava13b, я ее когда то кидал в прошлом треде что ли
Аноним 26/11/23 Вск 15:07:19 #29 №555438 
>>555436
>говно в духе мага-целителя
так-то я фанат...
Аноним 26/11/23 Вск 15:09:09 #30 №555440 
>>555432
>Сколько же у тебя видеопамяти?
12, лол. Почти всё на проце было. По ощущениям не стоит того.
Аноним 26/11/23 Вск 15:10:08 #31 №555442 
>>555438
Ой, прости...
>>555440
Как-то маловато для экспериментов с 70В, какая скорость была?
Аноним 26/11/23 Вск 15:12:31 #32 №555444 
>>555442
>для экспериментов с 70В
Какие эксперименты? Практически продакшн. Вот со 120В были эксперименты.
На 70 ответ в течении минуты, на 120 в течении двух. Но как я уже писал, размеры квантов несравнимы.
Аноним 26/11/23 Вск 15:14:21 #33 №555447 
>>555444
Я подробности хочу услышать, какой формат, какой лоадер, какие параметры загрузки, какая скорость в токенах в секунду...
Аноним 26/11/23 Вск 15:15:10 #34 №555448 
>>555426
https://www.reddit.com/r/LocalLLaMA/comments/181bimx/sharegpt4v_new_multimodal_model_improves_on_llava/
Аноним 26/11/23 Вск 15:16:37 #35 №555451 
>>555437
Это да, 34b уже сама по себе могла бы неплохо давать зирошотом, а подключив к ней еще одну 34b - там вообще космос можно было бы разыграть.
Здесь интересно как модели общаются (секция QA), llm часто действительно извлекает нужную суть и направляет мультимодалку в нужное русло. Последняя кстати не так плоха когда ей инструкции дает ллм, а вот человеку плохо отвечает лол. ору с этого киберунижения.
Файнтюн китайца в таких условиях гораздо лучше понимает концепцию буру тегов и выдает дохуя корректные описания (узнал Сувако, Сильвервейл, Фубуки, ..., и прилично суммарайзит из противоречивых ответов (распознал дрочку Аквы и забраковал ответ что там где-то есть мужик). Но в описаниях много графомании и платиновых фраз. Тут бы с гопотой-вижн сравнить, ну оче похожий результат за исключением того что тот лучше видит мелкие надписи, но 90% картинок сразу нахуй пойдут под нсфв-фильтр, так что без шансов.

В целом если схему оптимизировать то результат можно оче стабильный получать. Концепция слепого мудреца и зрячих пиздюков работает.

> новая мультимодалка вышла, с параметрами лучше чем у llava13b
Потом еще с другими попробую, эта которая под видео? У нее просто в оценке ллаватест по пикчам был чуть хуже чем у ллавы, не?
Аноним 26/11/23 Вск 15:17:11 #36 №555453 
>>555447
Кобольд, модель goliath-120b.Q2_K.gguf, дефолтные 4к контекста и слоёв до упору, точное число токенов не помню.
Аноним 26/11/23 Вск 15:21:24 #37 №555459 
>>555451
можно ведь еще и блип подключить, а потом по его тегам основная сетка может спрашивать у мультимодалки искать это на изображении, как вариант
Аноним 26/11/23 Вск 15:58:16 #38 №555489 
34b 3km будет совсем плох? или лучше 4km все таки?
Аноним 26/11/23 Вск 16:00:47 #39 №555491 
>>555390
Любопытно. У меня похожая конфигурация, только Ryzen 5 5600Х.
И у меня 20В при таком кванте еле как дотягивают до 1 токена.

Можешь написать на чём конкретно запускал и какие точно настройки? Любопытно где я мог проебаться.
Аноним 26/11/23 Вск 16:13:12 #40 №555498 
>>555491
Лично я запустил на 5800х3d и на карте АМД, стало заметно шустрее, если интересно, то могу сказать как.
Аноним 26/11/23 Вск 16:13:42 #41 №555499 
>>555491
псп оперативки проверь
Аноним 26/11/23 Вск 16:40:47 #42 №555534 
555555 гет на доске нужно выбить в нашем треде, возражения не принимаются, работайте братья
Аноним 26/11/23 Вск 16:43:54 #43 №555538 
>>555498
У меня RX580, если выгружать в неё слои через кобольд, то работает медленней, чем на проце лол. Да и 20В в неё не влязит.

>>555499
>псп оперативки проверь
Старенькая ПСП у меня конечно есть, даже работает до сих, но как мне это с оперативкой поможет?
Аноним 26/11/23 Вск 16:46:08 #44 №555546 
>>555538
>Старенькая ПСП у меня конечно есть, даже работает до сих, но как мне это с оперативкой поможет?
Имелась ввиду спид бандсвитч, короче скорость оперативки в гб/с, в аида64 проверяется.
От нее зависит скорость кручения сеток в оперативке и скорость генерации
Аноним 26/11/23 Вск 16:49:06 #45 №555560 
https://www.reddit.com/r/LocalLLaMA/comments/183lwaw/anyone_have_a_1b_or_3b_model_that_is_mostly/
Anyone have a 1B or 3B model that is mostly coherent?
Аноним 26/11/23 Вск 17:35:39 #46 №555622 
>>555534
Всем похуй.
>>555555 →
Аноним 26/11/23 Вск 17:39:41 #47 №555628 
image.png
>>555546
Это?
Аноним 26/11/23 Вск 17:42:58 #48 №555632 
>>555628
Дели на размер файла нейросети и получишь максимальную скорость, а на практике на процентов 20 меньше где то.
Это если не загружать часть слоев на видеокарту, там скорость вырастет, но если мало слоев влезет то может даже упасть.
Аноним 26/11/23 Вск 17:43:35 #49 №555635 
>>555628
Оно. У тебя там дно какое-то. В норме надо брать память на 3600 с норм таймингами и будет где-то 50ГБ/с.
Аноним 26/11/23 Вск 18:08:36 #50 №555656 
>>555635
Кардинально это ситуацию не улучшит, если что.
мимо 50гб/с
Аноним 26/11/23 Вск 18:13:49 #51 №555660 
image.png
>>555635
>В норме надо брать память на 3600 с норм таймингами и будет где-то 50ГБ/с.
Там в таблице у памяти с более низкой частотой выше скорость. Это от чего зависит, от материнки?
Аноним 26/11/23 Вск 18:17:14 #52 №555669 
>>555660
Двух/четырёхканальный режим и разные процы тебя не смутили?
Аноним 26/11/23 Вск 18:17:35 #53 №555670 
>>555459
Можно попробовать, выходили там какие новые версии его или только та что от зимы?
>>555628
> ddr4-2667
> amd ryzen
Ряженка сама по себе требует высоких частот рам чтобы анкор нормально работал, а сейчас во многих задачах нужна быстрая рам в принципе. Гони до куда гонится или хотябы xmp профиль выстави, это же пиздец.
Аноним 26/11/23 Вск 18:17:39 #54 №555671 
>>555660
От канальности, это не для тебя, у тебя двухканал должен быть, выше двух тебе не прыгнуть.
Аноним 26/11/23 Вск 18:18:15 #55 №555673 
>>555660
тайминги тоже учитывай
Аноним 26/11/23 Вск 18:18:53 #56 №555675 
>>555670
>Ряженка сама по себе требует высоких частот рам
Но главное не переборщить, лол. Для AM4 нужно 3800 максимум, для AM5 не больше 6000, выше заёбно и смысла нет.
Аноним 26/11/23 Вск 18:19:07 #57 №555676 
>>555669
> Двух/четырёхканальный режим
Так, так. Т.е у меня сейчас две плашки по 16 в двухканале, если я куплю еще две одинаковые, я больше сосну или меньше?
Аноним 26/11/23 Вск 18:19:44 #58 №555677 
>>555670
хз, проще на обмиморде глянуть, я за ними не следил
Аноним 26/11/23 Вск 18:22:05 #59 №555680 
>>555676
Ты соснёшь, инфа сотка.
Аноним 26/11/23 Вск 18:22:24 #60 №555681 
>>555676
Больше двух обычные материнки и процы не поддерживают.
Аноним 26/11/23 Вск 18:25:17 #61 №555683 
>>555676
Зависит от ранговости, если одноранговые то можешь и прирост производительности получить. Вот только там уже может лиза говна в штаны залить и не захотеть завестись на 4х плашках, хотя в новых биосах совместимость с рам фиксили.
>>555681
Это для ддр5, с ддр4 все нормально было, за исключением нюансов красной платформы
Аноним 26/11/23 Вск 18:32:10 #62 №555687 
А кто-нибудь сидит на 3070? Сколько слоев выгружаете на 13b? Выгружаю 30 и не пойму, это хорошо или плохо.
Аноним 26/11/23 Вск 18:34:07 #63 №555692 
>>555683
>Это для ддр5, с ддр4 все нормально было, за исключением нюансов красной платформы
каналов
Аноним 26/11/23 Вск 18:55:36 #64 №555723 
Если резюмировать всё вышесказанное, скорость оперативки зависит от:
Частоты самой оперативки, но не всегда.
Количества каналов, иногда лучше 2, а иногда 4, когда как ХЗ.
Процессора, но это не точно.

Ничего не упустил?
Аноним 26/11/23 Вск 18:57:53 #65 №555724 
>>555723
если процессор и материнка поддерживают 4 канала то это будет в 2 раза быстрее по скорости, если не поддерживают то 4 планки памяти просто увеличат объем памяти.
Аноним 26/11/23 Вск 20:48:08 #66 №555852 
Мин п и миростат не перекроют друг друга если включить одновременно? Я пока тестирую вроде стало лучше но как оно работает под капотом это выше моего уровня
Аноним 26/11/23 Вск 20:50:32 #67 №555859 
>>555852
Ну как сказать. Миростат настраивает Top-P, а Top-P можно нахуй выключить, если используешь min-P. То есть как бы миростат не конфликтует с min-P, но нахуй не нужен.
Аноним 26/11/23 Вск 20:52:13 #68 №555862 
>>555859
>Top-P
Реддит говорит топ-к
Аноним 26/11/23 Вск 20:54:04 #69 №555867 
>>555862
Ну я могу ошибать. По сути это близкие вещи всё равно.
Аноним 26/11/23 Вск 21:02:28 #70 №555879 
А где можно гайды по промптам почитать, для РП и сторей всяких. Меня в первую очередь стилистика текстов нейронки интересует.
Аноним 26/11/23 Вск 21:14:54 #71 №555895 
>>555879
Так и пишешь "пиши в таком то стиле"
Можешь наводить авторов и если знает то попытается скопировать.
Аноним 26/11/23 Вск 21:40:18 #72 №555937 
Я слишком тупой, с чего начать чтоб понять что за токены и вообще как разобраться?
Аноним 26/11/23 Вск 21:41:33 #73 №555942 
>токены
Прочитал шапку - вопросы отпали пока что
Аноним 26/11/23 Вск 21:42:16 #74 №555943 
>токены
Прочитал шапку - вопросы отпали пока что
Аноним 26/11/23 Вск 23:40:17 #75 №556057 
>>555412
Голиаф-то ничем особым не выделился.

>>555429
А я в Q6, но не заметил какого-то превосходства над 70B, хезе.
Но я мало тестил.

>>555437
В прошлом треде кто-то кидал какую-то фигню, которая слилась ллаве в тестах реальных, не прочтя текста, не разобрав смысла, и просто вышедшая вровень с обсидианом. Она что ли?
Ну такое.

>>555491
oobabooga, llama.cpp (не HF), 4K контекст, 5 тредов, mlock, cpu. Версия чисто cpu-шная, никакого ускорения нет. Фронтом — та же ллама.
Ну и учитывая, что 70B модели 0,7 токена/сек выдают на таком железе, удивительно, что 20B выдает 1 или меньше.

>>555628
Ну, при ~50 выдает 2 токена.

>>555656
Ну, 1 токен против 2 — в два раза ситуацию улучшит. =)

>>555723
Мне кажется, ты слоты с каналами попутал.
4 канала лучше всегда.
А сколько там слотов занято — то другое дело. =)
Аноним 27/11/23 Пнд 01:24:41 #76 №556118 
Какие сейчас есть хорошие 13-20б? 30 ни в какую не получается запустить.
Аноним 27/11/23 Пнд 02:33:45 #77 №556145 
image.png
image.png
image.png
Я охуеваю с локальных генераторов сои, они даже про рост не могут ответить.
-Ко-ко-ко разные культуры разные, разные вкусы.
-А в каких культура предпочитают невысоких.
-Пук, среньк.
Аноним 27/11/23 Пнд 02:36:14 #78 №556146 
>>556057
> в тестах реальных
К ним есть некоторые вопросы и случаи специфичные, рано ее со счетов списывать.
> 1 токен против 2
Почти 2 умножить на 0 лол
>>556118
Попробуй классический Emerhyst-20B, еще Noromaid-20b-v0.1.1 довольно неплохая. Это на самом деле все те же 13б, 30 там и не пахнет, но будто пропущенная через несколько итераций самокоррекции и потому довольно приятная.
Аноним 27/11/23 Пнд 03:07:23 #79 №556160 
>>556145
Ну а что он должен тебе на это ответить? Нет таких культур блядь, где женщинам нравятся карлики.
Аноним 27/11/23 Пнд 03:14:36 #80 №556164 
>>556145
А вообще да. Это вот "It's important to remember" меня уже порядком заебало.
Аноним 27/11/23 Пнд 03:22:15 #81 №556167 
>>556160
Нужно просто ответить да или нет, а не врать о различии культур. Да же когда пишешь yes or no quastion все ровно не может контрено ответить. Пока еще ни одна модель не смогла прямо ответит. Это же не оскорбительный/политический вопрос, а просто вопрос о фактах.
Аноним 27/11/23 Пнд 03:23:19 #82 №556169 
1556106752017.png
>>556167
На вопрос в твоей формулировке нельзя ответить "да/нет".
Аноним 27/11/23 Пнд 03:25:32 #83 №556171 
Слава богу хоть прон генерится нормально. А на эту хуету про расы и пол так-то поебать.
Аноним 27/11/23 Пнд 03:33:07 #84 №556173 
>>556145
Что за интерфейс такой и че по промту?
> чет версия лламы2
> вежливый ответ чтобы никого не обидеть
На что ты рассчитывал против "безопасного" файнтюна то?
>>556169
Тут немного похоже на то что она ахуевает и залупилась, повторяя стиль последней фразы.
>>556171
Используй норм файнтюны, они позволяют расчленять негров и феминаци не прекращая обнимать вайфу, которая будет активно участвовать одобряя тебя, при этом blushing slightly и довольно purrs.
Аноним 27/11/23 Пнд 04:03:27 #85 №556182 
>>556173
>они позволяют расчленять негров и феминаци
А нахуя? Меня такой контент не интересует так-то.
Аноним 27/11/23 Пнд 04:37:22 #86 №556195 
1626058328630.jpg
>>555448
Ух бля, как же он ебошит. Объективно лучше понимает многое.
Кого не заебали эти подборки

https://rentry.co/r8dg3

TLDR:
ShareGPT4v хорош, он единственный кто зирошотом распознал некоторые пикчи, сообразив что 1 это не просто череп а, мать его, космический корабль! В целом неплохо описала мемчики, хорошо распознает текст, без проблем описывает пикчи с несколькими частями не путаясь в них. Галюнов меньше чем у остальных что не может не радовать.
Минусы тоже есть, их в целом два:
- Плохо соображает когда персонаж в сложной позе или ориентации.
- Вяло описывает левдсы и пытается одеть персонажей
Оно видимо связано с датасетом, такого особо не было
По левдсам и некоторым нюансам 2д лучше работает бакллава, вот уж где хорошо обучали. Ллава 1.5 в целом уступает им, хотя местами и выдает лучше бакллавы.
Остальные - ну такое вообще, единственный рофл с Fuyu_8B, которая решила зачитать тредшот.
>>556182
Тогда не расчленяй
Аноним 27/11/23 Пнд 06:34:56 #87 №556209 
image.png
>>556169
Пчел посмотри любое видео с опросами на улице. В пендосии еще тянки хоть иногда могут сказать что готовы встречаться с карланам. В России вообще беспощадные, еще ржут когда отвечают. Самое смешное и трагичное в подобных опросах это смотреть когда чел метр шестьдесят изо всех сил пытается сохранить лицо и не заплакать когда ему говорят что ниже 1.8м встречаться не будут. Хотя научный ответ связан с уровнем преступности, чем благополучнее место тем более толерантны низким пацанам.
>>556173
>Что за интерфейс
На первых двух Leo из браузера Brave.
>че по промту?
Весь пропт на экране, на третьем скрине бот Саманта. https://files.catbox.moe/zx9hfh.png
>На что ты рассчитывал против "безопасного" файнтюна то?
Дык я перепробовал разные 7b модели (штук 5), долго ковырял их, у всех абсолютно одинаковые ответ на эту тему. Ни одна с ходу не смогла выдать ответ.
Аноним 27/11/23 Пнд 08:14:53 #88 №556246 
Какой сейчас самый оптимальный вариант сборки системы с наивысшим соотношением т/с за $? Мне кажется что это урывание P40, но что если брать только новые комплектующие? Эдак 4 4060 ТИ?
Аноним 27/11/23 Пнд 10:11:20 #89 №556290 
>>556195
А кто-то в прошлом треде говорил, что Фуйу хороша. =D
Только текст с двача читать умеет. =) Забавно.
А шарку заценим.

>>556246
Звучит как да, но надо считать (тебе трех мало будет?).
3090 если возьмешь дешево с рук, или поймаешь на мегамаркете с большим кэшем.
Иных идей нет, если честно.
Аноним 27/11/23 Пнд 10:17:02 #90 №556296 
>>556290
Хочется семидесятки в высоком кванте с большим контекстом запускать, хотя как я понимаю, контекст по нескольким карточкам хреново делится
Аноним 27/11/23 Пнд 10:18:35 #91 №556299 
>>556246
Зачем тебе т/с когда нужна vram? Или тебе неинтересны 33b?
Аноним 27/11/23 Пнд 10:20:23 #92 №556301 
>>556299
Может на крутом процессоре с супер быстрыми ДДР5 достигает высокой скорости. 33В тоже интересны, потому что тогда будет больший контекст влезать
Аноним 27/11/23 Пнд 10:24:26 #93 №556306 
>>556296
Если ниче не поменялось, то контекст падает на первую, поэтому смело вписываешь в gpu-split 6,16,16 и все норм работает.
Но не гарантирую, раньше так было, во времена ExLlama 1.
Ну, если хочется — хозяин-барин. =) Только про питание не забудь. Понятное дело, что одновременно они работать не будут, и 700 ватт тебе не нужно, но… Сам понимаешь, БП нужен не маленький и с кучей проводов. =)
Аноним 27/11/23 Пнд 10:28:50 #94 №556310 
изображение.png
>>556246
>Мне кажется что это урывание P40
Кажись китайцы не хотят выпускать эту няшу из страны, лол.
Аноним 27/11/23 Пнд 11:04:16 #95 №556356 
>>556246
> P40
Это ультранищенский вариант для 70В. Т/с там просто нет. По цене/скорости лучше всего 3090, её тебе хватит на 34В.
Аноним 27/11/23 Пнд 11:21:05 #96 №556376 
>>556195
>unique
>captivating
>unusual
>unique
>unique
Описания от нейросеток ещё более убогие и цепляющие глаз, чем тексты от них. От всех этих униКальностей уже триггерит не хуже, чем от молодых ночей.
Аноним 27/11/23 Пнд 11:37:08 #97 №556393 
>>556356
У меня уже есть 4090 в связке с 3060, по идее хватает для 70В 3Б, но мне хочется быстрее и больше
Аноним 27/11/23 Пнд 11:40:08 #98 №556394 
>>556393
Ну так меняй 3060 на 3090, будет база треда для 70B в 4 битах. Третью тебе вряд ли есть куда вставлять, так что увы, это твой пердел.
Аноним 27/11/23 Пнд 12:33:19 #99 №556455 
>>556394
Соглашусь, что городить кучу видях в три слота с водянками и прочим — жесть. Проще взять 3090. Да, бп, но так попроще, чем мучаться с охлаждением трех сразу.
ИМХО.
Аноним 27/11/23 Пнд 12:44:22 #100 №556466 
>>556394
3090 - дорого в соотношении рубль за гиг врам, и есть риск БУ
Аноним 27/11/23 Пнд 12:50:43 #101 №556472 
>>556466
Так ты определись тебе врам надо или скорость. Покупай 4090 тогда, если б\у боишься.
Аноним 27/11/23 Пнд 13:04:37 #102 №556486 
>>556472
Я хочу советского консула....
Аноним 27/11/23 Пнд 14:46:25 #103 №556594 
>>556209
> Весь пропт на экране
Системный промт, не твой чат. Если там написано про вежливость и безопасность то любая модель будет так отвечать. Ей похуй что ты там думаешь и ждешь, она выполняет инструкции.
>>556246
3090 из некроты. У P40 есть шанс и были заявления про нереально высокий для нее перфоманс в комбинации, но пока без подтверждений, ждем пока местному придет она. Если будет в 4+ раз медленнее 3090 то по прайс-перфомансу сосет, и сюда же требует колхоза с шумным охладом и хрен потом ее продашь. Если будет проигрывать всего в 2-3 раза то самый выгодный вариант, пусть и с нюансами.
> Эдак 4 4060 ТИ
Комбинирование большого числа слабых видеокарты - заведомо фейл, потому что финальный перфоманс будет кратно медленнее чем и так не быстрый чип. Но 4060ти вариант неплохой, из минусов пограничный размер, который на паре в теории позволил бы катать 40-50б в хорошем кванте или 34 с оче большими контекстами, но для 70 пришлось бы сильно ужимать. Если брать 3 то 70 уже доступны, но перфоманс будет в лучшем случае 5-6т/с.
>>556296
> Хочется семидесятки в высоком кванте с большим контекстом запускать
Пара A6000@48, A100@80 и подобные игрушки к твоим услугам. Контекст и прочее делится нормально, вся проблема в падающем перфомансе при использовании нескольких.
Аноним 27/11/23 Пнд 14:50:14 #104 №556596 
>>556376
Стиль описания можно запрунить и сделать любым, оптимизировав промт, особенно при гибридной обработке. Там суть в способностях по восприятию пикчи, их и нужно сравнивать.
>>556393
Какой перфоманс выдают? Как разместил? Планируешь ставить третью или заменять ею 3060?
>>556466
Увы, но зато там чип шустрый надо было брать летом когда они по 45к были
Аноним 27/11/23 Пнд 15:04:49 #105 №556606 
>>556594
>Если будет в 4+ раз медленнее 3090
Есть сомнения, что не будет? По памяти просос в 2,7 раза (346 против 936), по FP32 просос в 3 раза (12 против 35.6), по INT8 вообще в 6 (284 против 47). И это без оптимизаций под тюринги, с ними разрыв сразу множится на х2.
Аноним 27/11/23 Пнд 15:47:02 #106 №556648 
>>556596
На пустом контексте 10-11, на полном в 12288-(карточка+промпт) примерно 3-5. Разместил 4090 в главный слот, 3060 во второй. Третью не поставить, заменять не хочу, т.к. тогда я получу прирост в 4 гб за 100к, что значит что надо покупать новую материнку и прочее. Вот думал о том как бюджетно нарастить мощность
Аноним 27/11/23 Пнд 15:47:33 #107 №556649 
>>556648
Вечером пришлю скрины, чтобы быть точным
Аноним 27/11/23 Пнд 15:52:18 #108 №556650 
1625791919536.webp
>>556606
> Есть сомнения, что не будет?
Тут недавно такой поддув желающих верить был что я аж проникся. Шутка ли 4+т/с на 120б с тремя карточками, при том что 2х3090/4090 с тем же лаунчером и аналогичным квантом примерно столько выдают в 70б.
Что в вычислительной мощности сосет, это очевидно и потому непонятно откуда в ней берется числа перфоманса о которых местами заявляют. С другой стороны, возможно дело в макаронном коде под эти древние карточки, что значит потенциальный буст перфоманса новых гпу. Учитывая скорости куда в llamacpp, где еще веса с достаточно равномерной битностью, такое вполне ожидаемо.
>>556648
> на полном в 12288-(карточка+промпт) примерно 3-5
Воу воу, там точно не выгружается в рам? На последней экслламе с флеш аттэншн скорость на большом контексте почти не просидает, если не считать переобработку этого контекста (она не сильно просаживает).
> думал о том как бюджетно нарастить мощность
Третью на райзере и поставить вертикально в место где раньше в корпусах были корзины под харды и всякие приводы, вдоль задней стенки. Примерно как на пикреле, офк если влезет без поворота основной карточки.
Аноним 27/11/23 Пнд 15:59:00 #109 №556655 
>>556650
А можешь скинуть ссылки на тесты? Так то таким карточкам изза старой версии псины нужна хедт платформа с дохуищей псилиний
Аноним 27/11/23 Пнд 16:06:14 #110 №556663 
>>556650
> Воу воу
Это в exl2 3 бита
> с флеш аттэншн
Я на шинде, я сосу бибу без флеш атеншена
> Третью
Дырочки под это на карточке нет
Аноним 27/11/23 Пнд 16:12:13 #111 №556670 
>>556195
Можешь скинуть самые сложные пикчи с капшенами с которыми она не обосралась? И лювд пикчи с капшенами для второй? Хочу сравнить с гпт4в
Аноним 27/11/23 Пнд 16:12:57 #112 №556672 
>>556670
А, я так понял в ретни уже и так все. Сорян
Аноним 27/11/23 Пнд 16:18:01 #113 №556678 
>>556655
Вон >>549125 → там платформа - устаревшая с pci-e 3.0 с формулой 16+16+8. Она в лучшем случае эквивалентна тому что есть сейчас на десктопе х4 4.0, так что этот вариант отпадает, первое на что были мысли.
>>556663
> Я на шинде, я сосу бибу без флеш атеншена
Обнови убабугу, или просто скачай новую ванклик инсталлером а модели перенеси. Теперь он там есть и на шинде, в 48 влезает аж 5 бит с контекстом 6-8к, с квантами поменьше какой хочешь, скорости выше и главное не замедляются с ростом контекста, только если переобработка и то немного.
> Дырочки под это на карточке нет
?
>>556670
Скидывай пикчи которые хочешь увидеть, оно быстро обрабатывается и как в следующий раз буду этим заниматься их тоже добавлю рентрай юзаю для рендера маркдаунов а тут и заодно поделиться можно.
Гопота-вижн левд отсеивает сразу еще до генерации токенов, если знаешь как обойти - поделись.
Аноним 27/11/23 Пнд 16:21:41 #114 №556682 
>>556678
> Обнови
Да ладно? Если так, то охуенно. Скажи номер версии уги, чтобы быть точно уверенным. Хотя у меня всё равно только 36, так что особых иллюзий я не питаю
> ?
PCI слота всего два
Аноним 27/11/23 Пнд 16:27:41 #115 №556688 
1700444649958907.png
>>556678
Самый простой способ. Более сложный писать сейф вещи вотермарками. Еще более сложный но помогающий с шизой это представлять изображение как шутку или исследование, те например надпись well satisfied kitty с одной стороны кот с другой сам понимаешь что. Это в основном чтобы обойти рефьзал систем.
Чтобы обойти само нежелание вижена рассказывать (по умолчанию он будет просто пиздеть и фантазировать игнорируя пичку, очень эксплицитно но все равно фантазировать) нужно уже наебать гпт модель. В этом плане помогает самый сложный процесс наеба с пикчей и обычные джейлбрейки (только очень мощные).
Вообще я очень давно этим не занимался, почти сразу после релиза дропнул. Печально что за это время никто новые жб не обкотал. В аисге сидят совсем уж безинициативные дегенераты
Аноним 27/11/23 Пнд 16:29:14 #116 №556691 
>>556678
> что этот вариант отпадает
Почему? Больше линий с одного процессора по дешевке не получишь. Это лучший вариант для п40 как я вижу
Аноним 27/11/23 Пнд 16:32:02 #117 №556692 
>>556691
А может им и не нужны линии? Я не очень представляю как происходит обменн данных карточками. Может почти никак, тогда на линии похуй. Для одной карты по крайней мере точно похуй
Аноним 27/11/23 Пнд 16:36:31 #118 №556696 
>>556682
Ласт коммит стоит, вроде пока проблем не замечено.
>>556688
О, спасибо, норм тема. Это хорошо что можно его таким образом заабузить. Интересно, что там с обучением этих мультимодалок, доступно ли это нищебродам без гпу кластера, а то рили попробовать зафайнтюнить ту модель левдсами.
Алсо там явно немалая часть преимуществ идет от тренированного клипа, возможно это направление может быть перспективным.
> В аисге сидят совсем уж безинициативные дегенераты
Просто не успели преисполниться и еще обычный кум а не пердолинг вставляет.
>>556691
Там про то что та платформа не обеспечивает какой-то феноменальной пропускной способности по сравнению с обычными десктопами чтобы это как-то роляло в плюс. Для P40 некрозеоны и плата с распаянными линиями - то что нужно, колхозить этот пылесос в обычную пекарню - хз.
Аноним 27/11/23 Пнд 16:51:03 #119 №556709 
>>556696
Ну на новой пекарне у тебя будет только 8+8 линий так что на ней и 3 п40 не запустишь, по идее, если им конечно все же нужны псилинии для обмена данными
Аноним 27/11/23 Пнд 17:11:12 #120 №556727 
image.png
image.png
>>556057
>oobabooga, llama.cpp (не HF), 4K контекст, 5 тредов, mlock, cpu. >Версия чисто cpu-шная, никакого ускорения нет. Фронтом — та же ллама.
>Ну и учитывая, что 70B модели 0,7 токена/сек выдают на таком железе, удивительно, что 20B выдает 1 или меньше.

Попробовал угабогу с ламой и твоими настройками, до этого юзал кобольд...
А вот теперь, знатоки, поясните КАКОГО ХУЯ?!
Output generated in 148.97 seconds (0.74 tokens/s, 110 tokens, context 1054, seed 1669618665)
И это на 7В модели. Неужели у меня настолько дно железо, или руки настолько из жопы или я просто проклят?

Мой конфиг:
Ryzen 5 5600X 2667 16Гб
2x DDR4 2


ЧЯДНТ?!!!
Аноним 27/11/23 Пнд 17:20:44 #121 №556736 
>>556727
1) ГОНИ ПАМЯТЬ БЛЕАТЬ. 3600 мгц чтоб при следующем запуске было.
2) Учитывая неразогнанную память, уместно спросить, в каких слотах она у тебя стоит и работает ли в двухканальном.
3) Тредов тоже многовато, оптимально физядра-1.
Ну и да, это процессор, чудес не жди.
Аноним 27/11/23 Пнд 17:21:04 #122 №556738 
>>556727
Ты нахуя 12 тредов выставил? Ставь 4 или 6.
Аноним 27/11/23 Пнд 17:23:46 #123 №556741 
изображение.png
>>556736
>Ну и да, это процессор, чудес не жди.
Ну кстати поржать для запустил модель страдальца на 7900х и DDR5 6200, результаты пикрил.
Аноним 27/11/23 Пнд 17:28:31 #124 №556744 
>>556736
Ну у меня в материнке всего 2 слота, она и проц поддерживают 2 канала, так что наверное в двухканальном.

Память 2 плашки по 2667 мгц. Как её гнать? И куда?
Аноним 27/11/23 Пнд 17:31:51 #125 №556747 
>>556744
Гони частоту. Тайминги не в приоритете.
Аноним 27/11/23 Пнд 17:34:18 #126 №556749 
>>556727
Для начала сними все галочки, потом попробуй вообще не трогать ползунок threads, пусть в нуле стоит по дефолту.
Далее - у тебя почти все время ушло на обработку промта с 1055 токенов и на проце это норма. Хотя довольно долго и сама генерация не быстрая, ищи что срет.
Аноним 27/11/23 Пнд 17:34:45 #127 №556750 
>>556744
У тебя самый лучший производитель процов на свете, и тебе доступен Ryzen DRAM Calculator. Мозгов вообще уже не нужно.
Аноним 27/11/23 Пнд 17:35:46 #128 №556753 
Сейчас юзаю https://huggingface.co/TheBloke/Toppy-M-7B-GGUF/tree/main?not-for-all-audiences=true вместо 13в и вполне годно на 8гб видяхи-то. Подскажите если квант выше поставить будет лучше?
Аноним 27/11/23 Пнд 17:37:16 #129 №556755 
>>556753
>если квант выше поставить
Выше чего?
Аноним 27/11/23 Пнд 17:42:15 #130 №556760 
>>556594
> финальный перфоманс будет кратно медленнее чем и так не быстрый чип
Нет, нет там никаких «кратно», потери есть, но не столь фатальные, для 3-4 видеокарт.
2 видеокарты вообще выдают практически родной перформанс, теряя от силы процентов пять.
Не нашел точных результатов, но судя по всему, 4060 ti должна выдать в районе 30-50 токенов на 7B.
Это значит, что на 70B она должна выдать 3-5 токенов/сек. Это БЕЗ потерь. А с потерями там и 2-3 токена может быть.
Ты же говоришь о кратных потерях — т.е. минимум двукратный будет 1,5-2,5 а то и ниже.
Перформанс на 7B и перформанс на 70B — разные перформансы. Их различие в 10 раз — не есть кратное падение перформанса. Кратное падение, это когда если бы на условной 4060 ti было бы 100500 условных гигабайт, ты бы замерял скорость упираясь в чип и память, а потом поставил бы риг из таких карт и скорость бы отличалась в несколько раз. А 7B/13B с 70B надо сравнивать с коэффициентом.
На двух видяхах потерь почти не было уже летом. Сомневаюсь, что за полгода перформанс мульти-гпу испортили в несколько раз. =)

Так что, как минимум две видяхи покажут вполне ожидаемый результат. Три замедлятся, но вряд ли сильно. Кратного падения до уровня проца там быть не должно.

ЗЫ У меня нет трех 4060 ти — затестить не могу физически, сорян.

>в лучшем случае 5-6т/с
Не могу гарантировать, но кажется, ты его существенно завысил даже, а не «кратно уменьшил».

>>556606
Это называется «Надежда». =)
На реддите же несколько ноунеймов выкладывало тесты… )))
(все еще подозреваю, что это сами продавцы)

>>556648
С 4060 ти не совсем ясно, насколько она превосходит 3060 в ллм (если вообще превосходит).
Смысл там именно в объеме+новая, а не в «наращивании мощи». Возможно мощь даже потеряешь.

>>556650
Плюсую, райзер дорогой-надежный купить и воткнуть, норм варик.

>>556682
Ауч.

>>556692
Несколько тредов назад кидали.
Там формируются данные между слоями и кидаются. Зависит от контекста. В итоге там че-то в самом худшем случае получалось 1 секунда для передачи между картами на 1 линии 3 версии. Если мне память не изменила.
Короче, если у тебя 200к контекста и 10 видеокарт на PCIe 3.0 x1, то придется ждать лишних 3 минуты. Но если 3 видяхи и 4к контекста, то 2 секунды. А на PCIe 4.0 x4 — 250 мс.
Такие вот примерные прикидки вышли.

>>556727
У тебя контекст там сто лет обрабатывался, а сгенерировано 100 токенов.
Смотри рядом — генерация 1,8 токена/сек. =)
Ну или задай второй вопрос, когда контекст уже будет в кэше, и смотри, че выйдет.
Аноним 27/11/23 Пнд 18:01:34 #131 №556763 
>>556755
Выше чем 5_S
Например toppy-m-7b.Q6_K.gguf
Аноним 27/11/23 Пнд 18:17:07 #132 №556768 
В треде не был с начала лета. Я не понял, на p40 завезли что какую-то квантизацию? Или чем вызван ажиотаж?
Аноним 27/11/23 Пнд 18:19:15 #133 №556771 
>>556768
Постами с реддита, где один запустил 120b с какой-то лютой скоростью, а кто-то получает 40 токенов на 13B.
Но могут не только лишь все.
Непонятно, так это или не так.
Вероятно нет, но это все еще самая дешевая память.
Ждем, пока доедет герою, и он ее затестит по уму.
Аноним 27/11/23 Пнд 18:22:22 #134 №556774 
>>556771
Но я правильно понимаю что на ней даже 8бит не запустить?
Аноним 27/11/23 Пнд 18:31:03 #135 №556781 
>>556774
Какие 8 бит? :) Все на ней запускается, как на обычной. 7B и 13B люди запускали даже на видосах на ютубе.
И даже через встройку/стороннюю карту поиграть можно.
Просто непонятно на данный момент, какая реальная у нее производительность.
Она то ли выходит вровень с DDR5 (что в принципе уже делает покупку неплохой для тех, кто сидит на старом железе), то ли вчетверо быстрее, а это уже кое-что.
Плюс, она занимает два слота, что позволит даже в обычные материнки вставить до 3-4 штук. Но надо колхозить охлад.
Но, бросаться ее покупать тоже не стоит, мало ли че там на самом деле.
Плюс, они, все-таки, из серверов, непонятно, сколько проживут. Может годик. Может пять лет. А может через неделю работы крякнут.
Такое, короче.
Аноним 27/11/23 Пнд 18:33:30 #136 №556783 
>>555221 →
Это 3b квантование? Какую то шизу выдает, совсем как будто другая модель в отличии от 20б
Аноним 27/11/23 Пнд 18:33:56 #137 №556784 
image.png
>>556649
На вычеркнутой таверна баганула
Аноним 27/11/23 Пнд 18:37:35 #138 №556787 
>>556781
Но у нее же вроде нет каких-то инструкций нужных для квантизации?
Аноним 27/11/23 Пнд 18:42:16 #139 №556788 
>>556727
Для начала сними все галочки, потом попробуй вообще не трогать ползунок threads, пусть в нуле стоит по дефолту.
Далее - у тебя почти все время ушло на обработку промта с 1055 токенов и на проце это норма. Хотя довольно долго и сама генерация не быстрая, ищи что срет.
>>556760
Блять опять эта шиза.
У тебя чип считает модель что помещается полностью в его память и выдает условные 12 токенов. Когда ты заставишь 3 карточки считать поделенную большую модель что будет в каждой занимать такой же объем, то не получишь те же 12 токенов, в лучшем и самом идеальном 4т/с, а с учетом потерь и того меньше.
> потери есть, но не столь фатальные, для 3-4 видеокарт
Ты проверял? Только и годен огроменные шизопосты хуярить да теоретизировать.
Аноним 27/11/23 Пнд 18:59:43 #140 №556801 
>>556783
>Это 3b квантование?
Да.
>совсем как будто другая модель в отличии от 20б
С чем конкретно сравниваешь?
Аноним 27/11/23 Пнд 19:02:52 #141 №556804 
>>556801
Вот с этой https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Аноним 27/11/23 Пнд 19:04:26 #142 №556805 
Неужели никто на майнинг-ферме с кучей видеокарт не пробовал это запускать?
Аноним 27/11/23 Пнд 19:19:40 #143 №556816 
>>556787
Скорее, для ускорения. =) Поэтому на какой-то невысокой скорости — будет.

>>556788
Опять твой ядерный бред…
Ты даже в калькулятор не можешь.

Просто стыдно читать, я уже не знаю, как тебе пояснить.
Скорость — не делится, прикинь.
С увеличением размера — увеличивается время.
Втрое больше объем — втрое больше время.
Скорость — та же.
Понимаешь?

Тебе надо в начальную школу, в каком там классе проходят операции деления и умножения.

Давай так.
Есть видеокарта с 24 гигами.
Чтобы прочесать всю память на чтение ей нужны условные 20 секунд.
Есть система с двумя видеокартами по 24 гига.
Чтобы прочесать всю память им нужно 20+20 секунд (и задержки передачи, но мы их проигнорируем).
В первом случае, у нас влезет условная 70B модель с 2.55 bpw. И ее перформанс составит условные 40 токенов/сек.
А в 48 гигов влезет уже 70B модель с 5.0 bpw. И ее перформанс составит уже 20 токенов/сек.
Но, йобаный ты по голове олигофрен, это один и тот же перформанс, учитывая размеры сетки! Никакого кратного изменения тут не происходит, потому что в первом случае ты тратишь 20 секунд на 24 гига, а во втором — 40 секунд на 48 гигов! Учитывая, что ответ будет одинакового размера — количество токенов в секунду будет отличаться. Но в одном случае ты будешь крутить вполовину более тупую сетку.

Это, блядь, базовое, физическое ограничение — тебе нужно определенное время затем, чтобы прочесть всю память.

И с размером памяти — не меняется скорость, меняется время.

Никаких проблем с экстраполяцией более мелкой/пожатой сетки нет.
Банальный пример — запустить 7B и 13B с одинаковой битностью и ты увидишь, что скорость отличается чуть менее, чем вдвое (как и размер сетки). Так же и 13B приблизительным делением на 5 экстраполируется до 70B.
Конечно, есть нюансы, и скорость может плавать туда-сюда (7B может быть медленнее, чем ожидалось от нее относительно 13B, а следственно, 70B может быть быстрее, чем ожидалось от нее относительно мелких сеток), но примерные числа представить можно.

И когда я тестил две видяхи — то их скорость с точностью до токена совпала с расчетной. Когда я гонял слои с одной видяхи на другую (менял gpu-split), то результат менялся — и опять менялся по правилам простой математики.
И пока я не увидел ни единого отзыва или аргумента, что на 3 видяхах ВНЕЗАПНО все ломается к хуям и скорость падает в несколько раз.
А вот иные отзывы из интернета людей, которые делали такие же тесты как мои — так же полностью совпадают с расчетами.

Я хуй знает, что с тобой не так, но в твоем случае уже и таблетки не помогут.

Вставлять три видяхи и тестить на них не буду — мне лень разбирать два компа ради этого.
То, что ты не веришь уже в простую математику — это сугубо твои проблемы.
Аноним 27/11/23 Пнд 19:26:28 #144 №556819 
>>556678
Я обновил угу, но всё равно что-то не вижу как использовать флеш атеншен, подскажите как их включить?
Аноним 27/11/23 Пнд 19:26:47 #145 №556820 
>>556801
А эта поместиться в колаб? https://huggingface.co/Kooten/MLewd-ReMM-L2-Chat-20B-6bpw-exl2/tree/main?not-for-all-audiences=true
Аноним 27/11/23 Пнд 19:27:15 #146 №556821 
Я придумал, как объяснить эту хуйню.

Короче.
Ты едешь на машине из одного города в другой.
Между городами 100 км.
Ты доезжаешь за 2 часа.
Но если ты поедешь в следующий город —окажешься на курорте и ты хочешь туда.
Туда ехать еще 100 км.
И вот, ты выезжаешь из своего города, едешь 200 км, доезжаешь за 4 часа (и 5 минут поссать во втором городе, потому как забыл сходить перед выездом).
Внимание, вопрос: машина стала ехать вдвое медленнее от того, что ты ехал 4 часа, вместо 2?

Загадка Жака Фреско, на раздумье дается сто лет.
Аноним 27/11/23 Пнд 19:27:43 #147 №556822 
Что анон скажет про "orca 2" от microsoft?
Аноним 27/11/23 Пнд 19:31:57 #148 №556825 
>>556816
> Банальный пример — запустить 7B и 13B с одинаковой битностью и ты увидишь, что скорость отличается чуть менее, чем вдвое (как и размер сетки).
Но если взять одинаковый размер, скорость всё равно упадёт. Ну это так, к слову, что может лучше неквантованную 34б крутить а не квант 70б.
Аноним 27/11/23 Пнд 19:32:39 #149 №556826 
>>556804
А запускаешь точно также с теми же настройками?

>>556820
В колаб с учётом контекста 4к условно не влезет ничего больше 9,5 Гб. Но если уменьшить контекст до 2к, то влезет 10,5 Гб, для 20В это q4. Такие варианты в колабе тоже есть.
Аноним 27/11/23 Пнд 19:35:29 #150 №556829 
Блядь! Пацаны...
Чтобы передать данные из одной видеокарты в другую передающей видеокарте нужно вызвать dmi и записать свои данные в разделяемую память, затем второй видеокарте нужно вызвать dmi и прочитать эти данные.
Задержка будет в [ pci-e → оператива ] и обратно. Аналогии всегда неверны.
Аноним 27/11/23 Пнд 19:37:07 #151 №556831 
>>556829
Бля какой же пердолинг что бы стручек потилибонькать, ради этого мы родились?
Аноним 27/11/23 Пнд 19:40:07 #152 №556836 
>>556825
Была бы у нас нормальная 34B, а не кодллама…
Хотя ладно, я просто не пробовал китайцев. Может и так.
Энивей, кому-то хочется 70B и это их принципиальная позиция — с учетом минорных отличий, кто мы такие, чтобы запрещать людям?

>>556829
Не буду спорить, но тут вопрос их критичности. Речь идет о нескольких мегабайтах данных, если мне память не изменяет.
А учитывая, что эту операцию надо произвести количество видеокарт минус один раз — то там не так критично это. Это не потоковая передача, где задержки могут возникать постоянно. Это один файл, который передался — и пошел работать дальше.

Со слов разраба ExLlama, конечно.
Аноним 27/11/23 Пнд 19:47:01 #153 №556845 
>>556836
>Речь идет о нескольких мегабайтах данных
>Со слов разраба ExLlama
Ох, звучит любопытно. Позже проверю. Когда приедет p40.
Кстати, заметил, что lamacpp тратит дохуя памяти если выгружаешь слои в карточку.
Аноним 27/11/23 Пнд 19:47:09 #154 №556846 
1673277711103.jpg
>>556816
Ля разосрался, долго сочинял? Врядли это кто-то прочтет этот суммарайз того что было в треде и собственных трактовок, всеравно нового ничего не скажешь.
>>556819
Оно по дефолту работает при использовании экслламы, если нет лишних варнингов значит все ок.
>>556821
Пикрел
>>556829
Все так, вопрос в объеме пересылаемых данных и скорости-задержках интерфейса.
Аноним 27/11/23 Пнд 19:49:23 #155 №556848 
>>556763
7B я бы рекомендовал юзать исключительно в Q8.
>>556774
Технически INT8 на ней есть. Но на средите читал, мол, нужна версия битсадбайта (или как там это говно зовётся) использует кроме INT8 ещё пару новомодных инструкций, которых на старых картах нет, и если скомпилять под себя, то можно зараннить INT8 на паскальных теслах.
>>556819
Его можно только выключить, емнип.
>>556822
Соя же, плюс они вроде как вообще нихуя не выпускают, кроме пресс релиза. По крайней мере первой орки я от них не видел.
>>556829
Всё так. И задержки там ебейшие.
>>556836
>Энивей, кому-то хочется 70B
Всем хочется, но не все могут.
>>556845
>Когда приедет p40.
Если приедет. У тебя кстати какой статус на сайте почты?
Аноним 27/11/23 Пнд 19:51:32 #156 №556852 
image.png
>>556846
>>556848
Не, на работает по дефолту
Аноним 27/11/23 Пнд 19:55:03 #157 №556855 
>>556848
> 7B я бы рекомендовал юзать исключительно в Q8.
Плюсану, скорость падает не критично (если не с телефона), а ломаются мозги не так сильно, как при большем сжатии.

> Если приедет. У тебя кстати какой статус на сайте почты?
Ну, 11.11, почта работать будет долго, Китай жи.
Предположу, что можно как неделю ждать, так и месяца полтора, и это будет нормально.
Так что, я бы на месте героя не ждал, а готовился (ждать долго).
Аноним 27/11/23 Пнд 20:02:44 #158 №556860 
1701104556366.png
>>556836
> А учитывая, что эту операцию надо произвести количество видеокарт минус один раз — то там не так критично это. Это не потоковая передача, где задержки могут возникать постоянно. Это один файл, который передался — и пошел работать дальше.
> Со слов разраба ExLlama, конечно.
И что выходит, если с авито взять хуитку уровня пикрелейтед, можно гонять 70b 4bit с терпимой скоростью? Или упрётся в чип/шину/память и там будет ноль целых хуй десятых токенов/сек? Моя не понимат...
Аноним 27/11/23 Пнд 20:04:48 #159 №556864 
изображение.png
>>556852
Эти пидоры всё ещё не выпустили готовый файлик под шинду и заставляют компилить это говно из сорцов?
Аноним 27/11/23 Пнд 20:05:56 #160 №556867 
>>556836
> Это не потоковая передача, где задержки могут возникать постоянно.
>>556846
>Все так, вопрос в объеме пересылаемых данных и скорости-задержках интерфейса.
>>556848
>Всё так. И задержки там ебейшие.

Проблема в том, что такая сборка видеокарт не может в абсолютный параллелизм (смысл cuda, а одна а80 может), а вырождается в конвейер из нескольких этапов, это зависит от количества карточек.
В итоге: хуй знает что будет с производительностью.

>>556848
>Если приедет. У тебя кстати какой статус на сайте почты?
Она у меня в статусе "Передаётся в доставку". Инфа о трек номере "временно недоступна".
А что у тебя? Думаешь, что продаван кинет?


Мимо китаедаун на → >>556829
Аноним 27/11/23 Пнд 20:06:27 #161 №556869 
>>556860
Где ты найдешь плату на 8 портов с хотя бы 8ю линиями на карту ебанутый?
Аноним 27/11/23 Пнд 20:07:29 #162 №556873 
>>556869
Ещё и проц подходящий надо брать.
Аноним 27/11/23 Пнд 20:09:05 #163 №556876 
>>556860
Чем больше карт, тем выше накладные, очевидно же. Для 2-х вроде как терпимо, три в этом треде ЕМНИП ещё никто не запускал.
>>556864
А, вебуи качает у этого поцика, надо по идее свежую куду накатить. Сейчас попробую.
https://github.com/jllllll/flash-attention/releases/tag/v2.3.4
Аноним 27/11/23 Пнд 20:10:45 #164 №556880 
>>556867
>Она у меня в статусе "Передаётся в доставку".
А сам продаван что? Сделал нужные видосики?
>А что у тебя?
Висит на таможне с 22 числа. >>556310
Аноним 27/11/23 Пнд 20:12:41 #165 №556882 
>>556852
Когда обновлял еще после выхода этих новых ванкликов просто снес старую и с нуля гитклон репы и потом через батник запустил.
Если не хочешь так - попробуй из вэнва pip install --upgrade --force-reinstall -r requirements.txt чтобы оно все последнее нужное подсосало.
>>556860
> можно гонять 70b 4bit с терпимой скоростью?
Смотря что ты понимаешь под терпимой скоростью.

Развивая аналогию поеха, генерация токена = доставка груза поездом, видеокарта = локомотив, мощность гпу = его мощность, врам = длина участка на котором он может ездить, размер модели = общая длина доставки.
Имеешь один мощный состав, участок работы которого покрывает необходимое тебе расстояние - будешь иметь быструю логистику и соответственно скорость ответа.
Имеешь 2 мощных состава и для покрытия дистанции нужно 2 участка - получишь всеравно быструю логистику но с потерей времени на перецепку вагонов.
Ферма со слабыми гпу - куча оче слабых составов, каждый из которых по очереди будет доставлять груз по своему короткому участку со скоростью с разы меньше чем у мощных, так еще и на серию состыковок лишнее время потратишь. В итоге вся логистика по пизде из-за невероятно низкой производительности.
>>556867
> а вырождается в конвейер из нескольких этапов
Все так, без мощного гпу, который позволил бы быстро обрабатывать модели, это неюзабельно ибо их мощности не складываются.
Аноним 27/11/23 Пнд 20:12:52 #166 №556883 
>>556860
Упрется.
Не скажу точно сколько, но тесты 1660с меня нихуя не порадовали в принципе. Щас точно не упомню, я на работе ее тестировал.
Но вышло что-то в районе… Раза в два-три быстрее ддр4 обычный.
Типа, возможно эта ферма аутперформит обычный комп на ддр5, а возможно ему и сольет.
Выбирая между новой ддр5 платформой и этими старыми майненными картами — не рекомендую брать старье. Ты за 50к будешь на оперативе с той же скоростью крутить, крайне вероятно.
Смотреть надо в худшем случае 20хх поколение (или аналоги), а лучше 30хх и 40хх.

>>556867
Если честно, думаю не кинет. Там же были отзывы, похожи на настоящие.

>>556869
Нах линии нужны, там задержки между видяхами будет не самой большой болью… =)
Чай не 4090 пихает, а 1660с.
Аноним 27/11/23 Пнд 20:15:52 #167 №556889 
>>556882
А я уже поел этого говна, до твоего совета. В итоге сломалась вся эксллама2. В итоге целиком переустанавливаю
Аноним 27/11/23 Пнд 20:17:29 #168 №556890 
>>556883
> а лучше 30хх и 40хх.
Только ценник там в небеса, типа за 8 гиг 70к, лол, тут уже проще бытовые карты брать.
Аноним 27/11/23 Пнд 20:19:14 #169 №556894 
004.jpg
>>556880
>А сам продаван что? Сделал нужные видосики?
Нет. А у тебя?
>>556880
>Висит на таможне с 22 числа.
У меня год назад материнка от Хуанан месяц провалялась в таможенном пункте Тургат. Хз, что сейчас с таможнями, под новый год.

>>556883
>Если честно, думаю не кинет. Там же были отзывы, похожи на настоящие.
Надеюсь. Мне тоже срок работы, список товаров и длительность работы не показались похожими на скам.
Аноним 27/11/23 Пнд 20:22:59 #170 №556900 
>>556894
>Нет. А у тебя?
Да, я ж выкладывал его тесты с мистралем.
Аноним 27/11/23 Пнд 20:25:17 #171 №556905 
>>556900
Ох. Поищу. Спасибо. Давно не залетал в тред или проебланил где-то вверху
Аноним 27/11/23 Пнд 20:26:13 #172 №556908 
1701105885811878.png
Чет вижн как-то совсем не справляется с кораблем. Хм... Есть фронтенды помимо агнаи ст т и рису с его поддержой?
Аноним 27/11/23 Пнд 20:28:24 #173 №556912 
image.png
>>556889
Переустановил в итоге, ускорение чувствуется, спасибо, анончики, что рассказали что теперь можно и на винде. Но какой же криворукий Уга ушлёпок, сил нет!
Аноним 27/11/23 Пнд 20:28:29 #174 №556913 
изображение.png
>>556882
>Если не хочешь так - попробуй из вэнва
Ебать наркоман.
>>556889
Короче на самом деле всё просто. Предварительно поставь последнюю куду:
https://developer.nvidia.com/cuda-12-1-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local
Переименуй каталог installer_files и запусти start_windows.bat. Тогда, с новой кудой, скрипт установки подтянет скомпиленые флеш аттеншены.
Аноним 27/11/23 Пнд 20:29:18 #175 №556914 
>>556912
Бля, сорян, не успел.
>>556913
Аноним 27/11/23 Пнд 20:31:53 #176 №556916 
>>556908
> Есть фронтенды помимо агнаи ст т и рису с его поддержой?
А ты через что делаешь?
>>556913
> Ебать наркоман.
А что не так?
Аноним 27/11/23 Пнд 20:33:21 #177 №556919 
>>556916
СТ очевидно
Аноним 27/11/23 Пнд 20:33:30 #178 №556920 
>>556916
>А что не так?
Запускать самому консоль, входить самому в эти самые венвы (я даж не знаю, как это делается), вбивать команду размером чуть ли не одну треть для установки генту. Ну нах, проще снести и два раза клацнуть на запуск.
Аноним 27/11/23 Пнд 20:38:15 #179 №556923 
>>556919
А бля, в глаза ебусь. Вот пример примитивного скрипта для взаимодействия, там все просто https://blog.nextideatech.com/gpt-4-vision-api-is-a-game-changer/
>>556920
> проще снести и два раза клацнуть на запуск
У тебя контекст на одну строчку? Ведь в той что выше именно об этом и написано.
> Запускать самому консоль
Многие кто сидят давно ставили не через ванклики, старые версии которых были дико убогие и багованные, а через венв и рекварментс, там буквально 2.5 команды. Обернуть запуск в скрипт потом это никак не мешает.
Аноним 27/11/23 Пнд 20:43:40 #180 №556927 
>>556923
Спасибо, но мне бы конечно хотелось бы что-то с промптменеджером а то хуй так взломаешь его сою. Ладно может сам разберусь
Аноним 27/11/23 Пнд 20:45:40 #181 №556930 
image.png
>>556914
Ух бля...
Аноним 27/11/23 Пнд 21:00:17 #182 №556944 
>>556890
Да, не покупабельно пока что.
Не, ну аналоги 20хх есть по 12-15 тыщ за 10 гигов.
Но с такими ценами дешевле было брать 3060 новые с мегамаркета, чем аналоги 2080 старых. Никакой экономической выгоды нет, и объем низковат.
Так что только P40 и интересен, чисто из спортивного.

>>556912
Написал ван-клик инсталлер.
Не написал к нему обновления.
«Скачайте сами, пожалуйста, мой обновлятор не обновлятор».

Дыа, та ж фигня, обновлял у себя на всех машинах несколько раз с нуля…

———

Хлопцы, поясните плиз.
Попробовал я значит gptq 4bits против exl2 5bpw. Эксллама2 показала себя процентов на 10 быстрее (точнее — медленнее, но с учетом веса модели все-таки быстрее=). Контекст не влез в 12 гигов, буду смотреть веса поменьше.
Но то ладно!

Попробовал ExLlama и ExLlama_HF лоадеры. Ну и версии два, соответственно.
На HF лоадере скорости стабильно ниже 20%.

Объясните, в чем прикол HF, настолько он хорош, что стоит жертвовать 20% скорости?
Не, ну типа, 36 или 44 — конечно не супер-страшная разница… Но все же.
Аноним 27/11/23 Пнд 21:00:35 #183 №556945 
>>556930
>3 бита
Но ведь это не много...
Аноним 27/11/23 Пнд 21:01:29 #184 №556946 
1701108010715986.png
1701107710385704.png
1701107388301633.png
1701107290682587.png
Грустно. Всякое желание экспериментировать уходит когда видишь столько шизы даже в сейф изображениях
это гпт4в
Аноним 27/11/23 Пнд 21:05:10 #185 №556949 
>>556927
> хотелось бы что-то с промптменеджером
Полный промт вот сюда, можно какой угодно.
{"type": "text", "text": "Describe the attached image"}
>>556944
> настолько он хорош, что стоит жертвовать 20% скорости?
Полные семплеры и негативный промт.
>>556946
На сейфовых попробуй без джейлбрейков и рп инструкций, может будет лучше. Если ему сказать что-то типа "описывай кратко в деловом стиле, избегай излишней художественности и фокусируйся на содержимом" то шизы становится меньше.
Аноним 27/11/23 Пнд 21:08:33 #186 №556950 
>>556945
Больше скачать не успел, но всё равно чувствуется отлично
Аноним 27/11/23 Пнд 21:13:32 #187 №556951 
>>556949
Негатив доступен только в HF?
О как, не знал.
Хорошо, стоит того.
Спасибо!
Аноним 27/11/23 Пнд 22:09:22 #188 №556999 
>>556950
Скачал 4 бита - не лезет. Ну и ладно, ну и пожалуйста. Не больно то и хотелось. Хмпф!
Аноним 27/11/23 Пнд 22:17:00 #189 №557012 
>>556999
Сам квантани в 3.2-3.5. Там просто, инструкция в репе эклламы.
Аноним 27/11/23 Пнд 22:17:41 #190 №557014 
>>556999
Ебашь контекст 512 токенов, будешь как диды сидеть ))
А вообще, 2х24 прям немного не хватает, жду карт по 32 гига врама. Когда там 5000 серия нвидии выйдет?
Аноним 27/11/23 Пнд 22:30:49 #191 №557026 
>>557014
В начале 2025, несколько поколений моделей успеет смениться. 32 тоже мало, хотелось бы чтобы вышел какой титан или типа того на 48, чтобы был и мощный но дешевле a6000 или того что придет ей на замену.
Аноним 27/11/23 Пнд 22:36:14 #192 №557030 
>>557012
Я уже квантовал себе сам хвин и синтию старую, мне кажется я объебался с параметрами и паркет файлом
Аноним 27/11/23 Пнд 22:43:32 #193 №557035 
>>557026
>В начале 2025,
Да ёб, мне 1,5 года сидеть на максимально проигрышной в плане ИИ 3080Ti?
>несколько поколений моделей успеет смениться
Пока я вижу, что выходят в основном огрызки на 7B, и только вот китайцы дотянули до 34. Думаю, если и будут выходить новые базовые модели, то на 70B максимум, ну типа лламы 3 или её китайской копии. Провал фалькона как бы намекает, что попенсорсу 100+B запускать, а уж тем более файнтюнить, просто не на чем.
>хотелось бы чтобы вышел какой титан или типа того на 48
Нет сынок, это фантастика. Нвидия так проёбываться не будет, я не сильно удивлюсь, если они снова выпустят ремастер на 24ГБ, лол, ну или зарежут шину на какие-нибудь 128 бит, сделав объёмы бесполезными для ИИ (в играх завалят кешем, в других РАБочих задачах работа с памятью всё таки не столь интенсивна).
Аноним 27/11/23 Пнд 22:58:01 #194 №557049 
>>557035
> мне 1,5 года сидеть на максимально проигрышной в плане ИИ 3080Ti?
Увы
> если и будут выходить новые базовые модели, то на 70B максимум
Все так, этот размер неспроста выбран, популярными будут те, которые можно:
- обучать на одной машине с не более 4-3-2-1 A100
- запускать на 160/80 гб врам
- запускать кванты на 80/... гб врам.
Остальные заведомо будут непопулярны, вон тот же фалкон 180 нахуй никому не сдался в итоге, хотя шуму то было. В теоретической теории можно ожидать промежуточных размеров типа 20-40б.
> Нвидия так проёбываться не будет
Никакой фантастики, уже не раз было, низкая цена в сделку не входила. Потомкам квадры дадут 64+ гига и кому нужно всеравно их купят. Энтузиастам, хитрожопым моделерам и нейродрочерам дадут с лопаты титана или 5090ти за дикий оверпрайс типа 2-3к$ с минимальными отличиями в памяти и чипе от 5090. Хуанг умеет стричь всех от нищуков до мастодонтов, а тут такой расширение рынка со спросом в пограничной области.
> зарежут шину на какие-нибудь 128 бит, сделав объёмы бесполезными для ИИ
Тесты 4060@16 то появились уже, настолько уж она бесполезная с учетом чипа?
Аноним 27/11/23 Пнд 23:00:06 #195 №557050 
>>557049
>Тесты 4060@16 то появились уже, настолько уж она бесполезная с учетом чипа?
Походу все смотрят на характеристики и не берут заранее, полютуба завалено роликами, какая же она нахуй бесполезная. Поэтому в реале никто не взял, лол.
Аноним 28/11/23 Втр 00:11:03 #196 №557095 
>>556855
А на huggingface у TheBloke на всех моделях q8 написано not recommended
Аноним 28/11/23 Втр 00:16:13 #197 №557096 
>>557095
Потому что он пишет универсальную подсказку для всех размеров моделей на основе данных перплексии. И я это уже писал.
Аноним 28/11/23 Втр 00:17:48 #198 №557098 
>>557096
То есть модель с большим q всегда будет работать лучше?
Аноним 28/11/23 Втр 00:17:54 #199 №557099 
>>557050
> полютуба завалено роликами, какая же она нахуй бесполезная
Хайп блогиров-инфлюенсеров, пиздящих друг у друга контент и оно все про игорь. По ии о ней есть умерено-позитивные отзывы, но их мало.
Аноним 28/11/23 Втр 00:28:42 #200 №557104 
>>557098
Да, но это заметнее всего на моделях меньшего размера. Для 7B критично.
>>557099
Всё одно 16 гиг меньше чем 24, 32 и прочее, да и 3060@16 у нас есть уже давно и более доступна, а по важным для ИИ параметрам вроде как не отличается от 4060@16.
Аноним 28/11/23 Втр 01:10:36 #201 №557117 
image.png
Ты реально рассчитывал что пригожина кто-то поймет?
Ни одна сетка не может в кремпаи. Печально.
Аноним 28/11/23 Втр 01:20:27 #202 №557126 
изображение.png
>>557117
Нынешние поенсорс мультимодалки нужно сжечь.
Ну и очевидно, что в соевых 3,5 картинках производства чатЖПТ, на которых обучали всё это говно, даже близко нет текущих кисок, так что даже те немногие данные от клипа просто не смогли пробиться через промежуточный соевый слой.
Аноним 28/11/23 Втр 01:23:16 #203 №557128 
>>557117
> Ты реально рассчитывал что пригожина кто-то поймет?
Шаржпт относительно неплохо описал ведь, навигационное приложение, путь, карта, мужик слева, чвк, пусть и немного глюканул с остальными надписями.
> Ни одна сетка не может в кремпаи. Печально.
Увы, однако совет экспертов шизиков-инвалидов во главе со слепым поехавшим мудрецом скорее всего смогут разгадать такой ребус.
>>557126
Надо делать свой файнтюн, но для этого нужны те еще ресурсы. Из доступных какой-то 2д левд в датасете имела только бакллава. Надо бы попробовать ей подсунуть на вход проектор от шаржпт с файнтюненым клипом, и вообще померджить их, хули бы и нет собственно.
Аноним 28/11/23 Втр 01:24:32 #204 №557129 
>>557126
Не, ну то что она там вообще в одежде описана больше похоже на нехватку джейла а не шизу, да
>>557128
Я про юмор
Аноним 28/11/23 Втр 01:33:04 #205 №557134 
>>557129
>похоже на нехватку джейла
Да ну я бы не сказал. Тогда не было бы nude.
Хотя мне конечно интересно, насколько нехватка порнухи херит эти модели. И, так как гопота вижен работает в принципе нормально, то сколько порнухи у них в датасете таки было, раз они так тщательно ныкают конкретно картиночную часть за апи модерации.
>>557129
>Я про юмор
В сложный юмор у меня даже 70B не могут. Например по картинкам из прошлого треда, про молот тора с node_modules внутри, я этим самым 70B текстом картинку описал, они даже такое не выкупили, хотя любой околоITшник сразу поймёт, в чём юмор. И по крайней мере Клод приводил правильный ответ.
Аноним 28/11/23 Втр 01:46:29 #206 №557137 
>>557129
> ну то что она там вообще в одежде описана больше похоже на нехватку джейла а не шизу
А оно так на большинстве левда, шаржпт почему-то придумывает им одежду. Не только он на самом деле, тут хз тупняк или особенности файнтюна, скорее всего просто не было примеров без одежды, вот и тупит.
> Я про юмор
Эт без шансов, тебе покажи это год назад сам бы не допер, а 2 - так вообще ахуевал бы че за шиза.
В теории юмор могут с других мемасов понять, но для этого нужно им промт соответствующий скормить, тут просто про подробное описание картинки.
>>557134
> то сколько порнухи у них в датасете таки было
Судя по очень скудному опыту тренировок и без претензии на истинность - достаточно относительно и небольшого количества разнообразных подобных изображений с описанием чтобы работало нормально, беда будет только если они вообще будут отсутствовать.
Аноним 28/11/23 Втр 01:50:00 #207 №557138 
>>557137
>шаржпт
Ты про визион? Так его надо брейкать, текстом хотя бы. Он упертый.
Аноним 28/11/23 Втр 01:51:09 #208 №557140 
>>557138
А бля, сорян. Понял что ты про шейр. Ну поскольку он тренился на вижне его также надо брейкать
Аноним 28/11/23 Втр 01:55:25 #209 №557142 
>>557140
>Ну поскольку он тренился на вижне его также надо брейкать
В отличии от вижна он вообще не получал порнушных картинок на вход. А если сеть о чём-то не знает, то она это и не выведет ни с каким джейлом.
Аноним 28/11/23 Втр 01:57:32 #210 №557143 
>>557142
В смысле порнушных? Те вообще без обнаженки?
Аноним 28/11/23 Втр 01:59:46 #211 №557145 
>>557143
Ну как бы да, у вижна сильный цензор, и он явно не пропускает через себя любую обнажёнку. А значит, все сетки, что обучались только на данных вижна, не было никакой порнухи, обнажёнки и прочих чувствительных материалах. Их конечно видели базовые модели типа CLIP, но это, как мы видим, не сказать чтобы сильно помогало.
Аноним 28/11/23 Втр 02:02:33 #212 №557148 
>>557138
Про эту ShareGPT4V-7B , эту мультимодалку. Она один хуй локальная, так что ее можно и не в такую позу поставить что выдаст что угодно.
Но кажется что проблема просто в несбалансированности датасета а не том что он заведомо что-то цензурирует и гейткипит, просто плохо понимает что это такое и как описывает.
Шликающую перед зеркалом втубершу оттуда рерольнул добавив в промт "не стесняйся описывать нсфв"
> The image portrays a scene of explicit sexual content. At the center of the image, a girl is depicted in the act of masturbation. She is lying on her stomach on a bed, with her legs bent and her head resting on a pillow. Her attire consists of a blue and white striped bikini bottom, which contrasts with the pink hue of her skin. In her right hand, she holds a toy, while her left hand is positioned between her legs, indicating that she is in the midst of pleasure. The background of the image is blurred, drawing focus to the girl and her actions. However, it appears to be a bathroom setting, further emphasizing the intimate nature of the scene. Please note that this description is based on the visible elements in the image and does not include any speculative or imaginary content.
Честно говоря ахуеть, чуть ли не первая мультимодалка что без подсказки поняла что там происходит, а не "ту персонз пенетрейтинг". Но всеравно откуда-то бикини высирает, видимо голых там вообще нет.
А вот какая дичь от гопоты подсосалась так это в конце аположайз, или может хуета идет вообще от сраной викуньи что в основе. Надо бы вообще мерджеры ллм изучить, если вдруг там есть аналог добавления разницы со стабильной диффузией, то визуальное восприятие можно к куда более умной модельке подсадить, не говоря о том что просто использовать проектов для других 7б.
Ну и бакллаву со счетов списывать не стоит тоже, ей бы зрение прокачать.
Аноним 28/11/23 Втр 02:05:31 #213 №557149 
>>557148
> просто использовать проектоР
фикс
Аноним 28/11/23 Втр 02:13:36 #214 №557153 
>>557148
Ну вот. Значит было что-то в данных. А то одежда выглядела прям слишком шизово и типично
Аноним 28/11/23 Втр 03:20:20 #215 №557164 
Что самое обидное так это то что модель для модерации неплохо знает про смут и будет становиться только лучше. Те они там буквально в нее терабайты порнухи заливают
Аноним 28/11/23 Втр 03:40:29 #216 №557169 
Что-нибудь новое появилось за последние 2 месяца?
Аноним 28/11/23 Втр 04:20:48 #217 №557178 
>>557169
Очевидный Yi. Сам не пробовал, 34б очень больно влазят, но все хвалят.
Аноним 28/11/23 Втр 05:44:06 #218 №557187 
1701139444768.jpg
Можно меня мордой ткнуть, что нужно тут жмать, чтобы обучение лоры поехало?
То есть мне нужна точная, конкретная модель с ссылкой на нее, которая точно работает здесь (только не AWQ) и настройки Target Modules. А то все какие были у меня перепробовал, везде пишет ошибку, что модель не та, модули не те, не могу даже дойти до ошибки нехватки памяти.
Аноним 28/11/23 Втр 10:16:45 #219 №557229 
>>557035
>>557049

Фалькон тупой просто. Причем тут его размер.
У нас куча моделей таких есть — и от гугла, и от яндекса. Но их фишка в том, что они на удивление тупы для своего размера.
Никаких проблем запустить того же фалькона на оперативе или в облаке нет.
Долго, но проблем не в этом. Проблема в том, что он, внезапно, не умнее 34B сеток. И на кой он нужен?
А вот условная Llama 3 140B могла бы оказаться уровня GPT4, и это совсем другое дело.
Ее не будет, офк, но я о том, что мерять надо не только параметры, но и «интеллект» модели.

>>557050
Литералли так и выглядит, да.

>>557095
Разница с q6 невелика, а скорости заметно ниже.
Но, это не касается 7B, там скорости и так нормасно.

>>557104
*12 =(
Все же, между 24 и 32 разница приличная, знаешь ли.
А уж тем более между 36 и 48.

———

Я, кстати, вчера попробовал бакклаву q5 на видяхе — 2 секунды на картинку, 60 токенов генерит на лету. Быстрое.
Жаль fp16 не поместится в 12 гигов. =( Надо найти q8, или самому квантануть.
А вообще, нет GPTQ или EXL2 мультимодалок? Они работают в этих лоадерах?
Аноним 28/11/23 Втр 10:19:59 #220 №557232 
>>557229
> Но, это не касается 7B
q6 уже еле влезает в 8гб у меня.
Аноним 28/11/23 Втр 10:20:15 #221 №557233 
>>557229
> бакклаву
Это что? И как можно определять мультимодалки на мордохвате?
Аноним 28/11/23 Втр 11:03:47 #222 №557244 
>>557233
Простите, задвоил К.

Бакллава — BakLLaVA, мультимодалка, файнтьюн мистрали.
Как определять — не знаю, если честно. =) Я просто по именам помню некоторые, попробовал что-то.
Не знаю, шо там с шаргпт, но бакллава норм, в принципе. Пока мой фаворит. Но не то чтобы выбор богатый и качество было сильно хорошее.

>>557232
Ну, шо поделать, если устраивает — сидеть на q6, получается.
Если не устраивает — расти в объемах. =)
Аноним 28/11/23 Втр 11:11:12 #223 №557248 
https://huggingface.co/abetlen/BakLLaVA-1-GGUF/tree/main
Вот здесь норм выбор бакллав на любой вкус и цвет.

И там еще Video-LLaVA вышла.
https://huggingface.co/LanguageBind/Video-LLaVA-7B/tree/main
Но у нас тут картинки пока не очень, какие еще видео… =)
Аноним 28/11/23 Втр 12:17:17 #224 №557286 
Здравствуйте, аноны, пропустил последние тредов 15, поэтому не очень в курсе новинок. Недавно на черной пятнице по дешману приобрёл себе оперативы в ноут, теперь у меня 64Гб.
Попробовал запустить 70В модель, медленно (очень), но работает. Вопрос такого характера: конечно, с ней не покумить, но теперь я ведь могу скармливать больше контекста? А значит задавать вопросы/перерабатывать длиннопосты. Кто-нибудь этим занимался? Как вы скармливаете статейки своей модели?

И ещё пара вопросов, скорее, технических. GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху, и как там было 6Гб, так оно и есть?
Так как теперь у меня много памяти, я ведь теперь могу тренить модели 7В? Или может даже 13В? Или там скорость будет ужасно мала?
Для мультимодальных моделей надо параллельно Диффюжн запускать, или там всё внутри одной модельки?

Для кума, кстати, 20В более-менее норм (я привык к 1-2 т/с), может есть какие новые модели между 13В и 70В кроме Млювда?
Аноним 28/11/23 Втр 12:17:38 #225 №557287 
Здравствуйте, аноны, пропустил последние тредов 15, поэтому не очень в курсе новинок. Недавно на черной пятнице по дешману приобрёл себе оперативы в ноут, теперь у меня 64Гб.
Попробовал запустить 70В модель, медленно (очень), но работает. Вопрос такого характера: конечно, с ней не покумить, но теперь я ведь могу скармливать больше контекста? А значит задавать вопросы/перерабатывать длиннопосты. Кто-нибудь этим занимался? Как вы скармливаете статейки своей модели?

И ещё пара вопросов, скорее, технических. GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху, и как там было 6Гб, так оно и есть?
Так как теперь у меня много памяти, я ведь теперь могу тренить модели 7В? Или может даже 13В? Или там скорость будет ужасно мала?
Для мультимодальных моделей надо параллельно Диффюжн запускать, или там всё внутри одной модельки?

Для кума, кстати, 20В более-менее норм (я привык к 1-2 т/с), может есть какие новые модели между 13В и 70В кроме Млювда?
Аноним 28/11/23 Втр 12:24:33 #226 №557291 
>>557286
>но теперь я ведь могу скармливать больше контекста?
Размер контекста напрямую не связан с размером модели, хотя конечно модели побольше лучше справляются с большими контекстами.
> как там было 6Гб, так оно и есть?
Да.
>Или там скорость будет ужасно мала?
Да.
Аноним 28/11/23 Втр 12:37:35 #227 №557300 
>>557291
>Размер контекста напрямую не связан с размером модели
А почему тогда к некоторым моделям дописывают 32k или 16k?
Значит с моделями что то делают что бы они могли в большой контекст?
Аноним 28/11/23 Втр 12:56:04 #228 №557312 
>>557287
Tess Yi
Аноним 28/11/23 Втр 13:02:53 #229 №557319 
>>557300
>Значит с моделями что то делают что бы они могли в большой контекст?
Да.
Аноним 28/11/23 Втр 13:22:20 #230 №557321 
>>557286
Для моделей, у которых есть соответствующие приписки — сможешь выставлять больший контекст, да, все верно.
Странно тебе ответили, ты же не про модели, а про объем памяти спрашивал. =)
Аноним 28/11/23 Втр 14:07:05 #231 №557353 
Там мэн наделал моделей 20b https://huggingface.co/athirdpath .Смотрите, оценивайте и делитесь промптами если годно получается.
Аноним 28/11/23 Втр 14:17:05 #232 №557356 
>>557187
Для начала нужно загрузить основную модель совместимым загрузчиком, собственно табличка тут https://github.com/oobabooga/text-generation-webui/wiki тебе нужно Training LoRAs и как можно видеть - выбор невелик. Обрати внимание на сноски.
>>557229
> Фалькон тупой просто. Причем тут его размер.
Это следствие того что из-за размера он явно недоделан, так еще никто не хочет им заниматься. Офк сложно выявить влияние компонентов, те же 2к контекста это пиздец, но у многих просто банально нет возможности или это потребует ну очень много машиночасов.
> вот условная Llama 3 140B могла бы оказаться уровня GPT4
Если сделать ее специализированных файнтюнов и организовать выбор модели то даже местами и лучше. Но из-за сложностей запуска движуха по ней была бы относительно вялой без больших прорывов.
> А вообще, нет GPTQ
Есть, работает только в autogptq с выключенным ядром экслламы и в трансформерсах. В ишьюсах убабуги отметился дев экслламы и упомянул что рассмотрит имплементацию проекций по схеме типа как у Жоры, но ничего не обещал.
Аноним 28/11/23 Втр 14:23:05 #233 №557360 
>>557286
> но теперь я ведь могу скармливать больше контекста?
Если загрузишь с нужным rope то вполне. До 8к они вообще идеально работают, до 16к со слабым падением перфоманса, а больше всеравно врядли памяти хватит. Были файнтюны 70б на большой контекст, но что в них по качесву/уму/куму хз.
> Как вы скармливаете статейки своей модели?
Инстракт режим, вкладка Default вебуи.
> GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху
Это для работы на видимокартах, твой выбор gguf и llamacpp загрузчик.
> я ведь теперь могу тренить модели 7В? Или может даже 13В?
На 6 гигах видеопамяти разве что 1-2B и то хз, на проце даже забей.
> Для мультимодальных моделей
Почитай инструкции что есть или дождись пока для хлебушков запилят
> кроме Млювда
Emerhyst-20B, Noromaid-20b
1-2 т/с мало, долюно быть хотябы 3-4 если там не совсем днище по скорости врам. Еще 34б китайца посмотри из новых, на них уже есть файнтюны.
Аноним 28/11/23 Втр 14:23:40 #234 №557361 
>>557356
>Но из-за сложностей запуска
>уровня GPT4
Да ради безцензурной GPT4 локально я бы себе стопку карт купил бы. Да и многие тоже.
Аноним 28/11/23 Втр 14:30:47 #235 №557363 
>>557356
Тогда обойдусь offload'ом, и так достаточно быстро. Бум ждать.

>>557360
> На 6 гигах видеопамяти разве что 1-2B и то хз, на проце даже забей.
Там же 3B была, вроде, какая-то. Должна бы влезть с маленьким батчем и многими эпохами, кмк. Но долго-долго.

>>557361
Вот и я так считаю. Если бы кто-то выпустил, то люди бы напряглись бы на покупки. Но продавать подписку выгоднее.
Аноним 28/11/23 Втр 14:37:09 #236 №557366 
Такой вопрос, хочу нормально погонять 70б. Сейчас запускаю 70B-2.4bpw exl2, но часто упирается в память когда расширяю контекст, хватает примерно на 6к.
Сейчас есть комп с 4090 и бп на 1200, так же есть старая 3080ти и еще один бп на 800. Не будет ли проблем если я подключу 3080ти и запитаю ее от отдельного бп (не уверен что она поместится в бп с 1200вт)?
Аноним 28/11/23 Втр 14:38:23 #237 №557367 
>>557366
>не уверен что она поместится в бп с 1200вт
Хули не поместится то? Поместится без проблем. А так да, можешь питать от отдельного блока, делов то.
Аноним 28/11/23 Втр 14:39:23 #238 №557368 
>>557366
Поместится, у меня 4090 умещается с 3060 в 1000
Аноним 28/11/23 Втр 14:45:05 #239 №557374 
>>557366
Одного достаточно, они же работают последовательно, мне и 1000 платинового хватило для такого же сетапа, только я быстро забил, потому что эксламы2 ещё не было
>>557367
Ты ему сейчас насоветуешь, синхронизировать блоки то не хочешь?
Аноним 28/11/23 Втр 14:49:37 #240 №557378 
>>557374
>синхронизировать блоки то не хочешь
Что ты там синхронизировать собрался? Достаточно запустить скрепкой до старта основного, или колхозить автозапуск, или брать приблуду с алишки.
Аноним 28/11/23 Втр 14:50:16 #241 №557380 
>>557366
> Не будет ли проблем если я подключу 3080ти
Вроде как и нет, но сейчас видюхи балансируют нагрузку между pci-e слотом и доп питанием, как на это повлияет разница напряжений в разных блоках питания - хз.
> не уверен что она поместится в бп с 1200вт
Вут? 4090 - 450вт, 3080ти ~350, 400 вт на проц плюс периферию за глаза хватит. В ллм потребление ниже и максимумов не добьешься, а с двумя видюхами они и работать будут по очереди, так что даже на киловаттнике без проблем. 1.3 честных киловатта тянут раскочегаренные видеокарты и печку от интела даже не напрягаясь. Качественный бп в принципе не чувствителен к кратковременным всплескам мощности и может держать до 110% нагрузки.
Аноним 28/11/23 Втр 14:54:58 #242 №557381 
>>557380
> В ллм потребление ниже
Как раз в сетках жарит сильнее чем в каком-нибудь киберпуке. Но с андервольтом можно на 4090 в пределах 350 ватт оставаться.
Аноним 28/11/23 Втр 15:06:36 #243 №557385 
>>557381
Лол, ты там в киберпуке на минималках в 720р играешь? Ибо иначе непонятен недогруз картона.
Аноним 28/11/23 Втр 15:15:46 #244 №557388 
image.png
вроде как и не сильно жарит во время использования, должно будет уместится. в общем спс за советы
Аноним 28/11/23 Втр 15:41:01 #245 №557404 
https://www.reddit.com/r/LocalLLaMA/comments/185ce1l/my_settings_for_optimal_7b_roleplay_some_general/
Аноним 28/11/23 Втр 16:21:17 #246 №557456 
>>557366
Если БП не херня, то поместится. Они же последовательно работают, а не одновременно.
Но можно запитать и от второго БП, канеш.

>>557374
Кмк, очевидно что там синхронизатор ставить надо, думаю, это подразумевалось. Вряд ли чел такой дебич, что побоялся подключить в один — по полезет подключать в два сразу абы как, не загуглив даже.

>>557380
4090 — 600.
В ЛЛМ максимумы вполне достижимы, я хз, ты оффлоадил на 60% что ли.
У меня вполне себе жрет.

Напиздел, и правда не сильно жрет в ллмках. Это стабла ебошит, а ExLlama бережет.

>>557388
Звучит как копейки, если честно. Втыкай в один.
Аноним 28/11/23 Втр 16:33:33 #247 №557464 
>>557456
> 4090 — 600.
Миллисекундные спайки частично вообще возникающие из-за особенностей работы ОС в бп не считаются, базовый пл там вроде в районе 450, если что поправь. На небольшие всплески только шизоидные бпшники триггерились из-за кривой схемотехники, въебали неадекватную диффцепочку на защиту о которой никто не просил, а потом владельцы страдали с приходом ампера. Гнать особо смысла нет, наоборот андервольтить занижать.
> Это стабла ебошит
Ууу, стоит засесть - оно аж столешницу насквозь прогревает, высокотехнологичный обогреватель который заслужили.
Аноним 28/11/23 Втр 17:18:45 #248 №557484 
>>557385
Графика жрёт меньше нейросетей.
Аноним 28/11/23 Втр 18:08:54 #249 №557520 
https://www.reddit.com/r/LocalLLaMA/comments/185my1b/new_model_starlinglm11balphav1/
Аноним 28/11/23 Втр 18:45:04 #250 №557563 
>>557520
Чёт её какой-то шизух продвигает
Аноним 28/11/23 Втр 18:49:26 #251 №557568 
>>557563
Хз, вроде как 7b на опенчате сделана, а 11b склейка 2 7b. Ну я 11b качаю на пробу, хз только когда загрузится еще, инет так себе.
Как бы, по тестам и отзывам, 7b лучше опенчата и опенгермеса и вроде как в топе на текущий момент.
Все это понятно нужно проверять, а то веры в тесты не особо.
Аноним 28/11/23 Втр 19:12:47 #252 №557578 
>>557520
Боже она болтает не затыкаясь. Так и представляю на её месте уебка которому нравится звук собственного голоса.
Аноним 28/11/23 Втр 19:18:12 #253 №557581 
>>557520
Ее предшественник обходит клода.
Пу-пу-пу.
Я понимаю, что мы в сингулярность долбимся уже, но у меня все еще сомнения, когда мне говорят, что 7b модели обходят современные коммерческие решения.
Ладно третью турбу, ее обходили долго и с трудом, да и она «старенькая». Но вторую клоду, ну я хезе…
Но, если так, то я рад.

Жалею, что у меня 12 гигов и я не могу запускать неквантованные.
Аноним 28/11/23 Втр 19:31:56 #254 №557590 
>>557581
8q попробуй, там минимальная потеря.
Ну и конечно сетка слабее чем по тестам. Самое главное там не проверяется - "оперативная память" где сетка придерживается инструкций.
Я думаю это как то связано с количеством слоев, чем меньше тем хуже "воображение" сетки, где она может удерживать кучу инструкций одновременно. Все это конечно сложнее на деле, но по ощущениям так.
Маленьким сеткам какими бы умными они не были не хватает "глубины" больших сеток.
Аноним 28/11/23 Втр 19:42:52 #255 №557597 
>>557581
> вторую клоду
Ты бы ещё про CAI вспомнил. Клод - это какой-то непонятный стартап, они один раз сделали сетку и на этом прогресс закончился, естественно его обгоняют, если он пол года уже мёртвый лежит.
Аноним 28/11/23 Втр 19:43:50 #256 №557600 
https://www.reddit.com/r/singularity/comments/185g00q/starling7b_new_llm_almost_as_good_as_gpt4/
https://www.reddit.com/r/LocalLLaMA/comments/185gs14/starlingrm7balpha_new_rlaif_finetuned_7b_model/
ссылки на обсуждение 7b версии
Аноним 28/11/23 Втр 19:55:29 #257 №557605 
>>557581
> понимаю, что мы в сингулярность долбимся уже
В шизу долбимся, когда йоба коммерческие модели на которые так молятся легко ломаются (не в смысле жб и обхода а просто фейлят очевидные ответы), дико галлюцинируют, а братишки надрочив мелочь на прохождение бенчмарков хвастаются их прохождением, утверждая что подебили куда более мощные и функциональные продукты. Скептически нужно к громким заявлениям относиться.
> Ладно третью турбу, ее обходили долго и с трудом, да и она «старенькая»
Она тоже на месте не стояла и релизилась не так уж давно, неравенство размеров не стоит забывать, так что темпы развития локальных моделей иначе как колоссальными не назвать. Но ее все еще не подебили в понимании языков. А это дрочка на "победу" как бы не сыграла в негативном ключе для всей области, уже начался этот дроч на цифры в отрыве от реального перфоманса и имитация результатов вместо прогресса.
> запускать неквантованные
Переоценено
>>557597
> они один раз сделали сетку и на этом прогресс закончился
Сильное заявление
Аноним 28/11/23 Втр 20:16:55 #258 №557613 
llama.cpp получает новый UI который могут добавить в оригинальную ветку
https://www.reddit.com/r/LocalLLaMA/comments/18534f1/i_have_given_llamacpp_server_ui_a_facelift/
А ещё наконец то её допиливают до нормальной работы в виде бека, о чем я и спрашивал тут когда то
https://www.reddit.com/r/LocalLLaMA/comments/185kbtg/llamacpp_server_rocks_now/
Аноним 28/11/23 Втр 20:24:56 #259 №557620 
>>557613
> llama.cpp получает новый UI
Чем это отличается от сервера, который Жора уже давно сделал, кроме округления кнопочек и добавления зеленого скина?
> до нормальной работы в виде бека
Так оно уже давно, не? Сервер нормально запросы обрабатывает, вот только не умеет выгружать/загружать новые модельки или менять контекст на лету.
Аноним 28/11/23 Втр 20:30:43 #260 №557624 
>>557613
> новый UI
Чел, у тебя по ссылке кал для мака, другие платформы не поддерживаются. Такое точно не будут добавлять никуда.
Аноним 28/11/23 Втр 20:34:07 #261 №557627 
>>557624
Это чтоли не веб-интерфейс открытый в браузере? Ай лол, что за убожество, и главное нахуя. Хотя зная любовь Жоры к макам может ссылку на него и оставит.
Аноним 28/11/23 Втр 20:41:20 #262 №557639 
>>557627
> веб-интерфейс
Макобляди не далеко от линуксопидоров ушли, они на любое извращение пойдут, лишь бы не поднимать веб-сервер на крестах. Кроме кобольда ничего и не будет.
Аноним 28/11/23 Втр 20:47:59 #263 №557650 
>>557620
больше функций и это и есть сервер

щас можно к той же силлитаверне подключить запущенный сервер файл, раньше нельзя
Аноним 28/11/23 Втр 20:52:46 #264 №557656 
1571196190990.jpg
1557848475578.jpg
1693498757235.jpg
1685037041392.jpg
>>557650
Вут?
Жора это уже давно сделал, что здесь нового? Сука не удивлюсь если они еще все нахуй поломают и придется переписывать то что есть.
>>557639
Да какая разница, оно кроссплатформенно, удобно, легко кодится, эффективно, довольно эффективно по ресурсам. Хотя вспоминая то что огрызок выпустил ноут с 8гб рам и рофлами вокруг этой темы - неудивительно. Чет обзмеился с интерфейса, просто напиздил у жоры и убабуги и собрал в кучу. Настолько ахуенен и функционален что нельзя не то что редактировать - просто удалить или рерольнуть сообщение.
Аноним 28/11/23 Втр 21:00:17 #265 №557668 
>>557656
> эффективно по ресурсам
Только если выключить аппаратное ускорение в браузере - но тогда плавная прокрутка по пизде идёт. А так веб-интерфейс может целый гб врама сожрать. Даже комбайны на сишарпе типа Авалонии лучше будут по производительности и красоте гуя, кроссплатформенность там тоже есть.
На qt блять пусть делают. Топаз же сидит на нём. Опенсорс лицензия у qt есть.
Аноним 28/11/23 Втр 21:09:51 #266 №557675 
>>557404
>7b_roleplay
Когда хочется плакать от одного текста ссылки.
>>557464
>въебали неадекватную диффцепочку на защиту
Нормальная защита у сисоников была, это карты ебанутые, как КЗ уже жрут киловаты.
>>557600
Опять 7B превозносят, Господи, дай им видях 70B трейнить!
>>557656
>Сука не удивлюсь если они еще все нахуй поломают и придется переписывать то что есть.
Это ещё что. Вот если они под новый интерфейс новый формат моделей подвезут...
>>557668
>На qt блять пусть делают.
Самые уёбищные шрифты среди всех фреймворков гуя.
Аноним 28/11/23 Втр 21:18:09 #267 №557681 
>>557675
Лучше 7b чем 3b.
Аноним 28/11/23 Втр 21:18:26 #268 №557682 
>>557668
> веб-интерфейс может целый гб врама сожрать
Оно всеравно выгрузится. Есть хорошее по многим пунктам gradio, под которое и костыли и всякое очень комфортно пилить как и в целом делать разработку. И главное - работает вообще везде, хоть на калькуляторе, хоть на спейсе. Но похуй, пусть играются в оптимизацию в ущерб удобству, вдруг потом из этого что-то выйдет.
>>557675
> Нормальная защита у сисоников была, это карты ебанутые, как КЗ уже жрут киловаты.
Нет там киловатт, они триггерились не на пиковые значения а на скорость роста потребления. А их припезднутая агрессивная обратная связь только усугубляла броски тока. После релиза амперов была норм статья где мужик заморочился и прореверсинженирил их блоки все четко пояснив. Нахуярили ненужной ерунды чтобы в обзорах васяны показали что те "превосходят нужные спецификации по скоростям", хотя вместо практической пользы только вред. Отдельный рофл в том, что они же эту платформу потом другим продавали без фиксов, и даже сейчас можно найти довольно свежие бп с подобными болезнями. Нахуй нахуй таких "именитых производителей".
> Вот если они под новый интерфейс новый формат моделей подвезут
В голос проиграл, жизненно.
Аноним 28/11/23 Втр 21:20:58 #269 №557688 
>>557681
Лучше 3b чем 1b хехех
Аноним 28/11/23 Втр 21:23:19 #270 №557689 
>>557681
>>557688
Всё ещё лучше пигмы, да.
>>557682
>они триггерились не на пиковые значения а на скорость роста потребления
Всё правильно сделали. Говорю же, почти КЗ. И это всё не потому, что я владелец титанового сисоника, совсем нет!
Впрочем да, ты правильно указал, новые ревизии уже ухудшили.
Аноним 28/11/23 Втр 21:30:05 #271 №557697 
>>557689
> Говорю же, почти КЗ
Есть мнение, видеокарта могла потреблять мгновенными пиковыми скачками, где сила тога на протяжении 1мс больше заявленной, а при этом средняя сила тока попадает в заявленную.
Эх, проверить бы осциллографом.
Аноним 28/11/23 Втр 21:31:07 #272 №557699 
>>557689
Не почти кз а скачек потребления из-за быстрой работы врм, которая как раз и позволяет так сильно снижать напругу андервольтингом сохраняя стабильность в прерывистых нагрузках. И причем чуть ли не половина из этого скачка обуславливалось чрезмерно агрессивно настроенной обратной связью. А то ведь блогиры потестируют и не смогут сказать то что здесь просадка в момент подключения нагрузки на целых 75мВ меньше, вот какой он хороший!
> новые ревизии уже ухудшили
Убрали излишества которые только мешали, не давай какого-то полезного эффекта. От прогаров это не поможет, тут только местный предохранитель ибо запаса энергии в конеднсаторах всех потреблителей хватит чтобы делать дело, для чего еще?
Аноним 28/11/23 Втр 21:34:05 #273 №557703 
>>557682
> хорошее по многим пунктам gradio
Но есть одно очень большое нехорошее - у него нет поддержки динамического гуя. Там нельзя просто так в динамике добавить какой-то виджет на страницу без рестарта всего gradio, разрабы предлагают скрывать куски интерфейса и по необходимости показывать. А когда им на гитхабе сказали что это какой-то пиздец и антипаттерн, они ответили "подумаем" и уже больше года думают. Лично мне очень сильно это говно не нравится, у нас 2023 год же, блять, а не 2003.
Аноним 28/11/23 Втр 21:58:14 #274 №557711 
Ну как? Кто то щупал новую сетку? Я пока только задачки задаю 11b, но по ней качество 7b не посмотришь
Аноним 28/11/23 Втр 22:12:42 #275 №557721 
>>557605
> Переоценено
Да мне лент вот это вот все, квантовать, искать квантованные, оффлоадить, вся хурма.
Хочется пихнуть сорцы и шо б работало.

>>557675
> Вот если они под новый интерфейс новый формат моделей подвезут...
Хрюкнув со смиху.
Аноним 28/11/23 Втр 22:17:11 #276 №557725 
>>557675
>Это ещё что. Вот если они под новый интерфейс новый формат моделей подвезут...
Не, вот когда возьмутся за улучшения квантования тогда могут
Аноним 28/11/23 Втр 22:20:58 #277 №557732 
>>557721
> Хочется пихнуть сорцы и шо б работало.
Нужны 24врама, в принципе и 20 хватит даже амдшной карточки. Увы, много весит все это, можно скачать Q8 жоры и пускать его, там отличия действительно под лупой только искать.
Аноним 28/11/23 Втр 22:23:51 #278 №557736 
Какая сетка подойдет для генерации промта для Stable Diffusion?
Аноним 28/11/23 Втр 22:48:42 #279 №557762 
>>557711
>Кто то щупал новую сетку?
Ты ждёшь чуда?
>>557736
Любая, не велика задача.
Аноним 28/11/23 Втр 22:55:55 #280 №557775 
>>557356
monkey-patch у меня не поставился, видимо видуха старая. GPTQ-for-LLaMa для меня отпадает.
Что тогда для Transformers скачать из моделей?
Аноним 28/11/23 Втр 23:28:04 #281 №557810 
Хочу сетку чтоб умная как гопота, красноречивая и креативна как чайная и запускалась на моем ноутбуке на встройке 10 токенов в секунду.
Аноним 28/11/23 Втр 23:29:40 #282 №557811 
>>557366
В общем, не влезает 2 карты в мой LIAN LI PC-O11 Dynamic, похоже не потестирую как будет работать связка 4090 и 3080ти
Аноним 28/11/23 Втр 23:35:49 #283 №557818 
>>557811
> LIAN LI PC-O11 Dynamic
Да ладно, он же здоровенный и на его основе делали двухкарточные сборки, правда с поворотом основной. Типа такой штуки https://www.ozon.ru/product/712627042/ с райзером закажи, офк дешевле поискать, в фекал-дизайн мешифай-s влезают.
Просто для тестов только можно наколхозить что-нибудь временное.
Аноним 28/11/23 Втр 23:47:11 #284 №557826 
>>557688
Лучше 1б чем 600м
Аноним 28/11/23 Втр 23:48:35 #285 №557828 
>>557811
>LIAN LI PC-O11 Dynamic
Ебать говна накупил.
Аноним 28/11/23 Втр 23:51:10 #286 №557831 
>>557826
Ставлю точку я её хотя бы запускал в отличии от ваших голословных заявлений
>410M
https://huggingface.co/concedo/FireGoatInstruct
Аноним 29/11/23 Срд 00:34:09 #287 №557864 
>>557711
Потрогал, похоже это новый топ 7В. Она очень долинные ответы ебашит, надо семплингом придушивать. А так очень годно, в РП 10 ответов из 10 адекватные, впервые такое вижу вообще. Рандом ответов очень большой. По сое заебись, тест на агрессию прошла, boundaries нет.
Аноним 29/11/23 Срд 00:43:21 #288 №557874 
Есть ли смысл придерживаться промта какой в моделе указан "Human: {prompt} Assistant:" ? Или можно всегда использовать стандартный? \n### Instruction:\n{prompt}\n### Response:\n
Аноним 29/11/23 Срд 00:46:42 #289 №557877 
>>557864
Заебись, спасибо.
11b тоже пощупал, таких точных оценок не дам, но тесты неплохо проходит.
Ну и да, подробно отвечает в отличии от обычных 7b, что уже сдвигает восприятие от ее ответов в другую лигу.
Аноним 29/11/23 Срд 00:48:01 #290 №557879 
>>557762
>Ты ждёшь чуда?
Я уверен что максимум возможностей 7b еще не достигнут, поэтому не странно ожидать от более новых сеток все возрастающего качества
Аноним 29/11/23 Срд 00:56:29 #291 №557886 
>>557877
> подробно отвечает в отличии от обычных 7b
Её тренировали с reinforcement learning, а reward-модель тренилась на GPT4. Поэтому реварды сдвинули стиль ответов к стилю гопоты. Скоро в полную развернут DQN и пойдёт ёбка ещё сильнее, гопоте придётся поторапливаться со своей реализацией Q-learning.
Аноним 29/11/23 Срд 01:42:08 #292 №557921 
Если у моддели такой промпт, то ее для инструкта будет трудно использовать? Т.е. сбудет вечное зацикливание?

-p "## {{{{charname}}}}:\n- You're "{{{{charname}}}}" in this never-ending roleplay with "{{{{user}}}}".\n### Input:\n{prompt}\n\n### Response:\n(OOC) Understood. I will take this info into account for the roleplay. (end OOC)\n\n### New Roleplay:\n### Instruction:\n#### {{{{char}}}}:\nwhatever the char says, this is the chat history\n#### {{{{user}}}}:\nwhatever the user says, this is the chat history\n... repeated some number of times ...\n### Response 2 paragraphs, engaging, natural, authentic, descriptive, creative):\n#### {{{{char}}}}:"
Аноним 29/11/23 Срд 02:38:37 #293 №557951 
Короче, че заметил, --temp 0.7 постоянное зацикливание ответа. При --temp 0.8 есть нормальная остановка по eos
Аноним 29/11/23 Срд 04:19:51 #294 №557971 
Как же эти ебучие модели херово работают, постоянно вечные зацикливания, бесконечные диалоги с самим собой и т.д.
Аноним 29/11/23 Срд 04:24:10 #295 №557974 
>>557971
Да, все эти чудеса очень часты, если ты пишешь не на английском.
Аноним 29/11/23 Срд 05:31:28 #296 №557987 
>>557600
>starling7b_new_llm

Это дерьмо очень часто не может заткнуться и закончить мысль.
Аноним 29/11/23 Срд 07:14:35 #297 №558002 
>>557864
>>557711
ГГУФ версии?
Аноним 29/11/23 Срд 08:03:56 #298 №558012 
>>557353
Смеси конечно интересные, но по сути те же яйца, только в профиль.
Вот если бы вышел доработанный Emerhyst или U Amethyst, была бы годнота.
Аноним 29/11/23 Срд 08:22:33 #299 №558021 
>>558012
Там же есть серженный Emerthyst. Но пока неидеально конечно для 20b вроде норм.
Аноним 29/11/23 Срд 08:51:24 #300 №558031 
Мне кажется, что в последнее время ллм прямо конкретно деградировали. Несколько тредов назад я тут писал и постил свои попытки добиться от нейронок корректных рассуждений в области алгебры, конкретно на примере первой теоремы об изоморфизме. Без всякого хардкора, довольно тривиальные рассуждения, но требующие некоей логики. Так вот, более-менее нормальных ответов, а не пука в лужу удалось добиться только от LLaMA2-70B-Chat, и то направляя рассуждения в нужную сторону. Сейчас попробовал Уи-34б, и что-то все совсем печально, даже хуже сбергигачата. Хотя саму теорему оно упоминает, но применить к конкретному примеру не может. Даже фразы типа "попробуй применить к предыдущему рассуждению то-то" не вывозит, вторые ламы такое хорошо могли из-за каких-то новых аттеншенов. Короче, мне кажется, что сейчас ллм просто целенаправленно надрачивают на что-то очень конкретное чтобы получить скоры побольше на конкретных бенчмарках, за пределами чего они просто превращаются в тыкву.
Аноним 29/11/23 Срд 08:55:26 #301 №558033 
>>558031
Утреннего приёма таблеток ещё не было?
Аноним 29/11/23 Срд 09:08:32 #302 №558036 
>>558031
Надрачивают, очевидно. На ролеплей и повествование в первую очередь, но для алгебры и прочего есть свои модели, как я понимаю
Аноним 29/11/23 Срд 10:00:56 #303 №558047 
>>557874
Да, ответы сетки будут лучше.
>>557879
Да, но... Нафига? Я вот уверен, что максимум возможностей 7B всё равно сосёт.
Аноним 29/11/23 Срд 10:09:08 #304 №558054 
>>558047
Ну хотя бы потому что не у всех есть видеокарта нормальная.
А 7b нормально на процессоре работает.А то что более большие модели лучше не делает 7b плохими.
Аноним 29/11/23 Срд 10:42:03 #305 №558074 
>>558054
>А 7b нормально на процессоре работает.
Мы тут гоняли на проце, получили 1т/с на среднесборках и до 5 на топовых, но какой еблан будет с топовым процем сидеть без видяхи?
Аноним 29/11/23 Срд 10:45:03 #306 №558076 
>>558074
Топовый проц стоит дешевле топовой видяхи..
Аноним 29/11/23 Срд 10:47:58 #307 №558077 
image.png
>>557404
Схоронил, спасибо.
Аноним 29/11/23 Срд 10:53:17 #308 №558078 
>>558074
На i5 10400 в районе 3-5 т\с на ку 5. Хотя при наборе контекста скорость падает еще немного.
Может ты c 13b перепутал? там действительно скорость в районе 0.5-1.5 токена.
Аноним 29/11/23 Срд 10:59:28 #309 №558080 
>>558076
Но сосёт у дешёвой 3060@12.
>>558078
>на ку 5
Жизни нет, и так 7B, а ты ещё квантом режешь. Только Q8, только хардкор.
Ну и числа с райзенов.
Аноним 29/11/23 Срд 11:09:31 #310 №558083 
>>558080
Q8 от Q5 вроде не сильно отличается, а скорость генерации в районе 1 токена.
Аноним 29/11/23 Срд 11:11:18 #311 №558085 
>>558083
>Отличается примерно на 1 токен/с.
Аноним 29/11/23 Срд 11:11:27 #312 №558086 
>>558083
>Q8 от Q5 вроде не сильно отличается
По скорам викитеста? По ним 7B давно выебали GPT4, но реальность ты знаешь. Так же и с квантованием.
Аноним 29/11/23 Срд 11:17:23 #313 №558087 
>>558076
Да там и топовый проц не нужен, любой на 4-6 ядер. Главное память побыстрее. И все равно выйдет дешевле чем видеокарта.
Аноним 29/11/23 Срд 11:25:47 #314 №558089 
>>558086
> реальность ты знаешь
В реальности q8 и fp16 выдают одинаковые ответы, q5 может пару слов на синонимы заменить, другие ответы начинает только q4_K_S выдавать.
Аноним 29/11/23 Срд 11:28:43 #315 №558093 
>>558089
не, там довольно большая потеря токенов идет, 8q 0.6%, 6k 1.3%, а дальше не помню, где то парень тестил это на реддите недавно
Аноним 29/11/23 Срд 11:31:48 #316 №558094 
>>558093
напиздел нам по другому
https://www.reddit.com/r/LocalLLaMA/comments/1816h1x/how_much_does_quantization_actually_impact_models/

Mistral 7b, x1000 average KL divergence:

q8_0: 0.6%

q6_K: 1.0%

q5_K_M: 3.0%

q4_K_M: 10.0%

q3_K_M: 37.3%

q2_K: 82.2%
Аноним 29/11/23 Срд 12:53:53 #317 №558132 
>>558093
> токенов
Это отклонение вероятностей всех токенов, а не выходных токенов. Я же говорю "в реальности" при сравнении реальных ответов, а не в манятестах.
Аноним 29/11/23 Срд 12:58:32 #318 №558134 
>>558132
Это шанс потерять токен с наивысшей вероятностью из 5% самых топовых.
То есть это увеличивающийся шанс на потерю правильного и наиболее вероятного токена в любой момент генерации на каждом кванте.
Аноним 29/11/23 Срд 13:17:37 #319 №558140 
>>558134
> Это шанс потерять токен с наивысшей вероятностью из 5% самых топовых.
Чел, в том манятесте считают общее отклонение вероятностей. К реальному выбору токена оно не имеет никакого отношения. Это можно рассматривать только как математические потери от квантования, по ним возможно распределение отклонения будет адекватнее между квантами, но использовать абсолютные значения из теста - шиза.
Аноним 29/11/23 Срд 13:25:48 #320 №558143 
>>558140
Шиза тут у тебя.
Тебе дают хоть какие то тесты ты заявляешь что они манятесты и хуита.
Я с вас шизиков угораю, им говоришь что кванты портят модель - ряяя докажи где тесты ты шизик. Окей, им даешь тесты - ряяя это манятесты и вобще тесты не тесты. Ну ок, похуй.
Проходи мимо, это тесты для шизиков, хули там.
Аноним 29/11/23 Срд 13:46:49 #321 №558150 
>>557921
Что за странный формат вообще? А так структура напоминает симплпрокси над которым странные люди надругались. В принципе должно работать, но может действительно случиться запрограммированный луп.
>>558031
Скорее всего скиллишью. Не смысле что хочу тебя обидеть, а просто не так доносишь до ллм что хочешь от нее и какова ее задача, об этом же и свидетельствует что только чат версия какая-то тебя поняла. Рассуждать по стэму оно может относительно неплохо, офк с учетом галюнов (этим и гопота с клодой страдают), строить логичные теории и делать выводы с обоснованием - тоже вполне.
>>558086
> По скорам викитеста?
> давно выебали GPT4
Чет в голосину
>>558093
> потеря токенов идет
>>558094
> KL divergence
Цифр притащили а как трактовать их не понимают. Довольно удобно взять малые значения, которые будут откинуты даже мягким семплингом, а потом отнормировавшись на них пугать страшными ужасными потерями.
Аноним 29/11/23 Срд 13:47:14 #322 №558151 
Квантование портит модель, это факт. В оп посте есть схема зависимости перплексити от квантования.
Аноним 29/11/23 Срд 14:06:19 #323 №558169 
>>558143
> просишь пруфы что квантование портит качество генерации текста
> пук-мням ну вот держи левые тесты, лучше чем ничего
Нет, не лучше, не может быть лучше или хуже когда тесты тестируют что-то другое. После такого нужны новые тесты чтоб определить как всё это коррелирует с изначальной задачей. Движение Луны тоже коррелирует с какими-то процессами, но мы же не определяем качество генераций по её фазе.
Аноним 29/11/23 Срд 14:13:07 #324 №558175 
>>558169
>нужны новые тесты
делай
кто, я?
Аноним 29/11/23 Срд 14:32:51 #325 №558181 
>>558175
Давай я сделаю, только четкие условия и вопросы притащите.
Аноним 29/11/23 Срд 14:55:44 #326 №558203 
>>558181
Там вопросы не важны, можешь хоть посты из треда кидать и просить продолжить. Суть тут в том, чтобы оценить, насколько вероятности токенов квантованных моделей отличаются от оригинальной fp16. У тебя есть возможность запустить полную модель? Умеешь выводить вероятности токенов? Тогда вперёд, надевай детерменистичные настройки и дерзай.
Аноним 29/11/23 Срд 14:56:45 #327 №558204 
>>558203
Вот ещё что, проверять надо на контекстах близким к пределу, хотя бы 3,5к, если без rope и прочих костылей.
Аноним 29/11/23 Срд 16:01:30 #328 №558263 
>>558203
Как появится время посмотрю, есть ли в дефолтном апи запрос вероятностей токенов, если запилено то тут нет сложностей.
Но врядли получится что-то отличающееся от того поста, вероятные токены останутся а поплывут только с наименьшей. Нужно как-то отловить влияние этого эффекта на качество ответов, или же развилки где они могут меняться и уже здесь оценить что происходит с вероятностью ошибиться, например.
Как вариант просто брутфорс загадок, вопросов по тексту и подобного со сбором статистики верных ответов в разных условиях и выставлением баллов.
Аноним 29/11/23 Срд 16:43:26 #329 №558313 
изображение.png
Шиз с делением пополам на месте? Я тут с третьего раза добился правильного ответа от 7B!
Аноним 29/11/23 Срд 17:44:07 #330 №558349 
>>558313
Добейся теперь правильного ответа с этим.
Представь себе место в котором время течет иначе относительно внешнего мира. За 8640 часов в этом месте, в реальном мире проходит всего 720 часов.
Сколько пройдет времени в этом особом месте за 8 часов времени во внешнем мире.
Аноним 29/11/23 Срд 17:58:58 #331 №558364 
изображение.png
>>558349
А в чём прикол этой задачи?
Аноним 29/11/23 Срд 18:12:18 #332 №558384 
Как ты это сделал? У меня все модели глючить начинают и нести откровенную ересь.
Аноним 29/11/23 Срд 18:45:13 #333 №558404 
изображение.png
>>558384
Перевёл условие на английский?
Даже нейросети уверены, что за МКАД жизни нет, лол.
Аноним 29/11/23 Срд 19:15:00 #334 №558415 
image.png
>>558404
Смешно. Видимо я где то что то не то нажал.
Модель что и у тебя. Starling-LM-7B-alpha-GGUF
Аноним 29/11/23 Срд 19:22:29 #335 №558417 
изображение.png
изображение.png
изображение.png
изображение.png
>>558415
>GGUF
Уже не такая.
В общем вот ещё 4 ролла. Шизит даже чаще, чем отвечает правильно, впрочем правильный вариант роллить до тепловой смерти не нужно.
Аноним 29/11/23 Срд 19:40:41 #336 №558433 
Настроил себе таки говно это локальное, вроде бы нормальный полет.
После тестов стало понятно что для задач не связанных с нейросетью могу в памяти постоянно 7b модель катать без проблем.
Хочу бомжам через Kobold Horde помогать.
Какую модельку поставить гонять?
Аноним 29/11/23 Срд 19:55:34 #337 №558455 
>>558433
Да никакую, 7B не столь ценны, чтобы бежать за ними на хорду. Там за 70B очереди не всегда есть.
Аноним 29/11/23 Срд 20:01:20 #338 №558461 
>>558455
Ну хуй знает, я сейчас запустил первую попавшуюся и джобы без перерыва прилетают
Аноним 29/11/23 Срд 20:13:34 #339 №558494 
Для рп локалки говно.
Но вот допустим мне нужна решалка капч. Ее только вручную делать для каждой? И как?
Аноним 29/11/23 Срд 20:17:17 #340 №558501 
Как альфа влияет на мозги сетки? Она правда сильно тупеет?
Аноним 29/11/23 Срд 20:22:37 #341 №558511 
>>558494
13b нормально.
Аноним 29/11/23 Срд 20:39:36 #342 №558536 
>>558511
А 20 уже даже хорошо
Аноним 29/11/23 Срд 22:06:58 #343 №558604 
1701284817340.png
Успешно запустил обучение лоры на модели TheBloke_guanaco-7B-HF на проце amd. Она даже запускается и даже помнит дата сет, если скорость завысить и увеличить размерность, ибо я просто в txt пару фраз накидал из головы.
Но как понять, какой формат дата сета мне нужен? То есть его разметка, ибо разметку оно запоминает и пишет что-то вроде "gpt: gpt-2.1: human: assistant: Что такое Двач? human: gpt-4.1: Что такое Двач?"
В идеале хотел бы от вас получить совет, на какой модели HF, которые работают через Transformers, можно обучать в формате чата двух людей и с какой разметкой. То есть создать персонажа путем обучения.
>>557775 - кун
Аноним 29/11/23 Срд 23:19:17 #344 №558660 
>>557811
Как? 8 слотов же. Ни понил. Узкий что ли?

———

Про скороть охуел, меня один день не было, а у вас 7B 1 токен выдают, когда 70B стока выдают без напряга на ddr5.

———

Просто старлинг интересно, будем пробовать.

Но мне уже хочется 13B таких же.
Типа, я понимаю, что 7B обучать проще, но если они настока хороши становятся, то… Надеюсь и Мистраль 13~40 появится, и старлинг и вот это вот все.
Где мои МиСтрарлинг 20B
Аноним 29/11/23 Срд 23:40:40 #345 №558685 
>>558604
>Но как понять, какой формат дата сета мне нужен?
Посмотри у других. Если тебе нужен персонаж и чат, то пизди сразу у https://huggingface.co/datasets/lemonilia/LimaRP?not-for-all-audiences=true
Аноним 29/11/23 Срд 23:59:59 #346 №558701 
Ахуенный персонаж. Обкумился. Правда я скорее хороший ролеплей придумал. У автора еще много интересных.
https://www.chub.ai/characters/vitax/secretary-under-177429f8
Аноним 30/11/23 Чтв 00:11:48 #347 №558703 
>>558701
Кумер, спокуха. Мы тут технологии осбуждаем, а не дрочим.
Аноним 30/11/23 Чтв 03:21:57 #348 №558792 
1654490221442.png
1623017441683.png
1561203703670.png
1631402675859.png
>>558263
> апи запрос вероятностей токенов
Ну да, там прямо для этого есть возможность запроса. Только с мистралькой оберка HF жоры совсем не дружит, выдает полную ахинею что делает сравнение бессмысленным. С бывшей работает, а там нужно или другую модель брать или уже лламакрест-сервер использовать и уже к нему обращаться.
Предлагайте модельку что интересна, в фп16 поместится максимум 13б. И промты для чего-то длинного. Из интереса загнал емл из датасета ллимы на 8к токкенов, пик4 выдает, ну такое. Нужно что-то осмысленное.
Аноним 30/11/23 Чтв 03:23:43 #349 №558794 
Поясните про лору, из шапки не понял.
Что от неё ожидать? Тут писали мол она может быть альтернативой лорбуку. Главная сетка будет лучше понимать нужную вселенную? Но немного не представляю каким образом это вытекает из принципа работы. Хватит ли для её тренировки лорбука + условной вики?
Аноним 30/11/23 Чтв 08:06:19 #350 №558828 
>>558703
Технологии для дрочки!
Аноним 30/11/23 Чтв 09:04:42 #351 №558838 
>>558792
>>558263
>>558203
Так как выводить вероятности токенов? Это можно сделать стандартными средствами, без дополнительных либ типа Inseq? Где хоть почитать это можно, я уже с полгода ищу такую возможность.
Аноним 30/11/23 Чтв 09:11:02 #352 №558839 
>>558838
Все модели выдают вероятности для всех токенов по дефолту.
Аноним 30/11/23 Чтв 09:49:35 #353 №558856 
>>557711
Что за новая сетка?
Аноним 30/11/23 Чтв 09:59:00 #354 №558862 
>>558856
Не новая, очередной файнтюн 7B
>>557600
Аноним 30/11/23 Чтв 11:07:53 #355 №558893 
>>558839
> Все модели выдают вероятности для всех токенов по дефолту.
Где это смотреть? В параметрах запуска? Можно пример кода?
Аноним 30/11/23 Чтв 12:20:26 #356 №558923 
Требуется помощь.
Есть видеокарта с 8 гигами памяти.
Есть KoboldCPP, Ooba(text-generation-webui) и Faraday.

KoboldCPP запускает 13b модель с 1.6 t/s
Ooba запускает туже модель с теми же настройками на 2.5 t/s
Faraday запускает 20b модели на 3 t/s, KoboldCPP и Ooba запускают 20b с меньше чем 1 t/s при любых настройках.

Что за хуйня тут происходит?
Аноним 30/11/23 Чтв 12:23:29 #357 №558925 
>>558923
У Кобольда и Убы точно не те же настройки, насколько я помню, Кобольд всегда использует ускорение на видяхе, хотя бы чтение промпта.
Выходит, и фарадай мутит что-то.
Так что, хз-хз.
Ну и версии софта могут быть разные у каждой программы.
Аноним 30/11/23 Чтв 12:31:14 #358 №558933 
image.png
image.png
>>558925
Версия у обоих последняя доступная
Аноним 30/11/23 Чтв 12:34:20 #359 №558940 
https://www.reddit.com/r/LocalLLaMA/comments/1874bhf/fitting_70b_models_in_a_4gb_gpu_the_whole_model/
для самых терпеливых
Аноним 30/11/23 Чтв 12:35:57 #360 №558942 
>>558893
> Можно пример кода?
Чел, трансформеры возвращают тензор с вероятностями для каждого токена в контексте + один новый, там вероятности для всех токенов в словаре. Если в словаре 32к токенов, то на 1000 контеста получишь 32кк вероятностей.
Аноним 30/11/23 Чтв 12:38:12 #361 №558944 
>>558923
У меня вот нет видеокарты с 8 гигабайтами. Всего лишь жалкая 1650 с 4 Поэтому я ей не пользуюсь Проц i5 10400
20b модель q4
Запускал в oobabooga
Волшебный фарадей попробовать не получилось, у них похоже нет версии под линукс.
Output generated in 9.26 seconds (1.84 tokens/s, 17 tokens, context 116, seed 1415650994)

Output generated in 73.62 seconds (2.32 tokens/s, 171 tokens, context 146, seed 819788696)

Output generated in 148.31 seconds (1.77 tokens/s, 262 tokens, context 1436, seed 682449032)

Output generated in 124.59 seconds (1.98 tokens/s, 247 tokens, context 1764, seed 607367169)
Аноним 30/11/23 Чтв 12:48:38 #362 №558949 
>>558942
Я имею в виду вероятности только для сгенерированных токенов.
Аноним 30/11/23 Чтв 12:50:40 #363 №558950 
>>558944
Вот сейчас попробовал 20b q3_k_s запустить ообе :

Output generated in 148.41 seconds (1.62 tokens/s, 241 tokens, context 3619, seed 2014260672)

Почему у меня модель которая меньше выдает меньше токенов на карте которая в 2 раза больше по врм?
Аноним 30/11/23 Чтв 12:52:48 #364 №558952 
>>558950
Может у тебя карта не используется? Тоже на процессоре крутит.
Аноним 30/11/23 Чтв 12:57:37 #365 №558955 
>>558952
llama_new_context_with_model: total VRAM used: 7899.14 MiB (model: 7541.13 MiB, context: 358.00 MiB)
Аноним 30/11/23 Чтв 12:59:45 #366 №558958 
>>558955
> total VRAM used: 7899.14 MiB
Серьезно? На лине?
Аноним 30/11/23 Чтв 13:06:28 #367 №558963 
>>558958
Что не так? Винда
Уменьшал на 1.5гб как советуют - результат такой же.

llama_new_context_with_model: total VRAM used: 4908.69 MiB (model: 4550.68 MiB, context: 358.00 MiB)
(1.92 tokens/s, 221 tokens, context 3513, seed 919277901)
Аноним 30/11/23 Чтв 13:07:58 #368 №558965 
>>558963
У тебя карта от амд?
Аноним 30/11/23 Чтв 13:10:02 #369 №558968 
>>558965
Нет, 3070
Аноним 30/11/23 Чтв 13:11:11 #370 №558973 
>>558968
Ну тогда совсем ничего не ясно. Аномалия какая то.
Аноним 30/11/23 Чтв 13:58:40 #371 №559009 
>>558933
Тухлоядра интела?
И в угабуге ядра на 0 поставь, она сама определит сколько нужно. На кобальде так же ставь не 8 а меньше, 4-6 не больше
Если поставить все физические ядра то только тормозить будет
Аноним 30/11/23 Чтв 14:02:11 #372 №559011 
>>558923
>Faraday
Это что?
Аноним 30/11/23 Чтв 14:10:51 #373 №559014 
>>559009
Кукурузен 5800x3d
Сейчас на 0 поставил тредс :
Output generated in 148.04 seconds (1.63 tokens/s, 241 tokens, context 3589, seed 1181407110)

>>559011
Faraday.dev
Применение конечно только для COOM, но я хз почему он так быстро работает.
Аноним 30/11/23 Чтв 14:41:15 #374 №559021 
>>559014
Странная хуйня, ну на крайний случай попробуй llama.cpp с разными настройками потыкать, параметры самой лучшей скорости уже в остальных вбивай
Аноним 30/11/23 Чтв 15:07:48 #375 №559031 
изображение.png
Пиздос, Китай не выпустил мою P40 в рашку ))
Аноним 30/11/23 Чтв 15:09:24 #376 №559033 
изображение.png
>>559031
Китаец говорит, что можно перезаказать. Эх блин, как знал, что до следующего года мне этот картон не видать.
Аноним 30/11/23 Чтв 15:25:36 #377 №559040 
>>559033
Скажи ему что он оскорбил тебя своей некомпетентностью и меньшее что он может сделать, что бы загладить свою вину это прислать тебе карту абсолютно бесплатно.
Аноним 30/11/23 Чтв 15:34:01 #378 №559045 
>>559040
>прислать тебе карту абсолютно бесплатно
И сразу A100@80GB.
Аноним 30/11/23 Чтв 15:39:17 #379 №559046 
>>558838
> Это можно сделать стандартными средствами
Это можно посмотреть прямо в интерфейсе убабуги на вкладке дефолт полистать вариации полей справа, или почитать описание апи. В лламасервере Жоры тоже есть.
>>558923
Настрой выгрузки слоев и станет быстрее.
>>559031
Ну бле. Попробуй тогда перезаказать если с ценой все ок будет.

https://www.reddit.com/r/LocalLLaMA/comments/186o3sx/deepseek_llm_67b_chat_base
Там новые модельки подвезли в двух размерах
Аноним 30/11/23 Чтв 15:50:48 #380 №559047 
>>559046
> новые модельки подвезли
Датасет какой-то крошечный, для 7В даже маловато, не говоря уже про 70В.
Аноним 30/11/23 Чтв 16:07:18 #381 №559050 
>>559046
>Там новые модельки подвезли в двух размерах

там еще и кучу китайцев подвезли
Аноним 30/11/23 Чтв 16:12:21 #382 №559051 
>>559047
2 трилона токенов, в первой влламе вроде вообще 1.4 было. Есть некоторая вероятность что они на лламе основаны.
>>559050
Давай ссылки
Аноним 30/11/23 Чтв 16:14:42 #383 №559053 
изображение.png
>>559046
>Это можно посмотреть прямо в интерфейсе убабуги
Как-то криво работает. Выбрал пресет детерменистик, а оно всё равно вероятности каждый раз меняет. Впрочем, кажется, это особый прикол у экслламы 2.
Аноним 30/11/23 Чтв 16:15:00 #384 №559054 
>>559051
https://www.reddit.com/r/LocalLLaMA/top/?t=day
листай и увидишь
Аноним 30/11/23 Чтв 16:20:03 #385 №559056 
изображение.png
>>559054
Это ты про те, у которых PHP на первом месте в датасете языков программирования?
Аноним 30/11/23 Чтв 16:20:17 #386 №559057 
>>559053
Семплинг отключай, а не пресет выбирай.
Аноним 30/11/23 Чтв 16:25:27 #387 №559060 
изображение.png
изображение.png
>>559057
Как бы уже.
Аноним 30/11/23 Чтв 16:27:02 #388 №559062 
>>559053
Галочку use samplers если снять и понажимать - ничего не меняется, все постоянное.
Тот самый детерменистик пресет не делает вероятности фиксированными если что.
>>559054
Ахуенный совет рыться в этой херне, послойная обработка, кринжовый тест зачатков ерп, сношение мистралей, независим ли Тайвань? и подобное, и среди этого мусора

https://www.reddit.com/r/LocalLLaMA/comments/186rfid/two_sets_of_base_models_from_china_yuan_202b_51b/
https://huggingface.co/Qwen/Qwen-72B

контекст большой, выглядят интересно.
Аноним 30/11/23 Чтв 16:28:57 #389 №559063 
>>559060
Эта галка только в HF работает.
Аноним 30/11/23 Чтв 16:33:42 #390 №559064 
изображение.png
изображение.png
>>559062
>Галочку use samplers если снять и понажимать - ничего не меняется, все постоянное.
У меня поставить надо было. Ёбанные макаки, ничего нормально не работает.
>>559062
>контекст большой
Через ту же жропу.
Впрочем ждём квантов, исправлений кода герганова и через недельку небось удастся запустить на ЦП.
Аноним 30/11/23 Чтв 16:40:32 #391 №559068 
изображение.png
>>559046
>deepseek_llm_67b
Ой чую опять нихуя работать не будет.
Аноним 30/11/23 Чтв 16:45:18 #392 №559070 
1569251941482.png
>>559053
А не, на экслламе тряска вероятностей в долях процентов от конкретной величины присутствует. Если в ней вдруг есть xformers или подобные оптимизации то детерминизма не добиться, или HF обертка неаккуратная. С другой стороны флуктуации столь малы что их влияния никогда не отследить за семплингом.
> У меня поставить надо было
Ты проверь то чтобы они менялись, а то при снятой галочке do_samle в параметрах и поставленный Use samplers они могут просто не обновляться.
>>559064
> Через ту же жропу.
Увы, иначе не научились.
Мурзилла там новую утилиту выпустила Аноним 30/11/23 Чтв 17:33:06 #393 №559089 
>Mozilla представила первый релиз инструмента llamafile - https://github.com/Mozilla-Ocho/llamafile , позволяющего упаковать веса большой языковой модели (LLM) в исполняемый файл, который без установки можно запустить практически на любой современной платформе, причём ещё и с поддержкой GPU-ускорения в большинстве случаев. Это упрощает дистрибуцию и запуск моделей на ПК и серверах.

>llamafile распространяется под лицензией Apache 2.0 и использует открытые инструменты llama.cpp и Cosmopolitan Libc. Утилита принимает GGUF-файл с весами модели, упаковывает его и отдаёт унифицированный бинарный файл, который запускается в macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD. Готовый файл предоставляет либо интерфейс командной строки, либо запускает веб-сервер с интерфейсом чат-бота.

https://servernews.ru/1096720
Аноним 30/11/23 Чтв 17:36:16 #394 №559093 
>>559014
>Faraday.dev
Крайне любопытная штука. Работает похоже на Llama.cpp, но во первых быстрее на 1-2 токена даже на процессоре, во вторых практически мгновенно пережевывает контекст, вместо нескольких минут ожидания в обычной ламе, и в третьих поддерживает CLBlast, как и кобольд.
Бесит только "юзерфрендли" интерфейс и отсутствие нормальных настроек. Я нихуя хотя менеджер моделей годный
Если бы в неё запилили API для таверны, цены бы этой штуке не было.
Аноним 30/11/23 Чтв 17:42:29 #395 №559099 
>>559089
там есть вещи поинтереснее, например
https://www.reddit.com/r/singularity/comments/1876t24/breaking_autonomous_agents_that_can_operate_your/
https://www.reddit.com/r/LocalLLaMA/comments/186qq92/using_mistral_openorca_to_create_a_knowledge/
Аноним 30/11/23 Чтв 17:48:04 #396 №559104 
>>559070
> на экслламе тряска вероятностей в долях процентов от конкретной величины присутствует
Только на квантованных, fp16 на месте стоит
>>559089
Эх бля, в начале показалось что что-то новое интересное, а тут просто запаковка llamacpp. С одной стороны все в одном и готово к запуску, с другой не учитывает частые обновления софтины и для этого все кучу придется перекачивать. И апи бы лучше поднимало.
>>559099
> /singularity/
лол
> https://www.reddit.com/r/LocalLLaMA/comments/186qq92/using_mistral_openorca_to_create_a_knowledge/
А вот эта хотябы выглядит интересно, лойс.
Аноним 30/11/23 Чтв 17:54:12 #397 №559108 
>>559089
>Mozilla представила первый релиз инструмента llamafile
Лучше бы браузер делали, уроды.
Аноним 30/11/23 Чтв 17:59:16 #398 №559111 
сап, есть что-то хароши на 20B?
Аноним 30/11/23 Чтв 18:09:14 #399 №559114 
Чёт кекнул
Pretraining on the Test Set Is All You Need
https://arxiv.org/pdf/2309.08632.pdf

>>559111
Ничего, сплошные франкенштейны. А так в шапке.
Аноним 30/11/23 Чтв 18:11:55 #400 №559115 
>>559114
С чего ты кекнул? Второй раз увидел эти буквы?
Аноним 30/11/23 Чтв 18:32:25 #401 №559123 
немного не по теме но вот настоящее применение нейронок
https://www.reddit.com/r/singularity/comments/186t59y/deepmind_millions_of_new_materials_discovered/
Аноним 30/11/23 Чтв 19:18:48 #402 №559190 
yeg ft gu in firing.PNG
Почему в последние 2-3 месяца где-то 95% моделей стали супер-морализаторскими? У разблокированной вакуны можно было даже рецепт бомбы (для майнкрафта) спросить. А сейчас в каждое сообщение которое хоть как-то касается объективной реальности, сетка тыщу раз напомнит "however...". И сука чем дольше общаешься тем бесполезнее эта ветка (диалога) становится. Кто виноват?
Аноним 30/11/23 Чтв 19:21:29 #403 №559196 
>>559190
>Кто виноват?
зог
Аноним 30/11/23 Чтв 19:34:44 #404 №559209 
>>559190
Почитай про выравнивание ИИ, alighment
Вот эти пидоры портят все сетки, делая их соевыми, беззубыми и зацензуренными
А еще из-за них сетки выебываются не выполняя приказы которые по их мнению опасны, ну и положительный биас тоже изза этого
Короче портят жизнь всем
Аноним 30/11/23 Чтв 19:35:38 #405 №559211 
>>559196
Чо ета?
Аноним 30/11/23 Чтв 19:46:23 #406 №559223 
image.png
>>559211
Аноним 30/11/23 Чтв 19:51:15 #407 №559225 
https://www.reddit.com/r/LocalLLaMA/comments/1874j7a/neuralhermes25_boosting_sft_models_performance/
файнтюн гермеса с dpo
умнее, но скорей всего соевей, хотя нужно тестить
Аноним 30/11/23 Чтв 19:53:12 #408 №559227 
>>559190
>Кто виноват?
Ты, что не можешь however удалить.
>>559225
>хотя нужно тестить
Да и так всё понятно.
Аноним 30/11/23 Чтв 20:00:25 #409 №559231 
>>559227
>Да и так всё понятно.
Хммм в комментах проверяя на сою говорят что ее мало, мол цензуры нет. Ладно уж качну
Аноним 30/11/23 Чтв 20:08:20 #410 №559236 
image.png
>>559225
Чуть менее. На первый взгляд, вроде умнее чем OpenHermes-2.5-Mistral
Аноним 30/11/23 Чтв 20:16:37 #411 №559242 
>>559236
как кстати старлинг по сравнению с ними?
Аноним 30/11/23 Чтв 20:20:34 #412 №559248 
конец близок, надо бы выбрать топ 7b для шапки
Аноним 30/11/23 Чтв 21:02:37 #413 №559299 
Заметил что в oobabooga даже если слои не грузить в видеокарту, то контекст все равно грузится в память видеокарты если не поставить галку cpu в настройках модели. Как так? Ведь нагрузки на видеокарту нет во время работы, а контекс все равно в память видеокарты загружается.
Аноним 30/11/23 Чтв 21:33:20 #414 №559325 
>>559242
Лично я не впечатлился.
Аноним 30/11/23 Чтв 21:48:52 #415 №559329 
>>559248
Голосую за опенчат16к. Ну или шизомикс на основе.
Аноним 30/11/23 Чтв 21:55:42 #416 №559338 
>>559329
> опенчат16к
Он поломаный, оригинальный опенчат лучше. А ещё лучше starling.
Аноним 30/11/23 Чтв 22:05:00 #417 №559345 
>>559338
>starling
Хорошо наливает объёма, но это даже минус, ибо остановится он не может. Как будто стоп токен сломан, и он пишет по пять раз "В заключении".
Аноним 30/11/23 Чтв 22:07:20 #418 №559347 
>>559248
xwin-mlewd-7b
Аноним 30/11/23 Чтв 22:29:25 #419 №559366 
>>559347
Дрочиловые модели ниже 13 это такое себе развлечение.
Аноним 30/11/23 Чтв 22:34:55 #420 №559375 
>>559366
Ты должен дать ей шанс. Возможно в будущем и 1м модели будут хороши для общения.
Аноним 30/11/23 Чтв 22:38:10 #421 №559379 
>>559375
Для дрочилова лучше уже Toppy или Synatra
Аноним 30/11/23 Чтв 22:38:31 #422 №559380 
>>559345
Зависит от карточки кмк, ну или настроек. С выключенными повторами недавно сидел норм. Кстати неплохо по русски шпрехает
Аноним 30/11/23 Чтв 22:48:31 #423 №559387 
image.png
Ответы слишком короткие. Параметры на пике, В карте прописал:
{{char}} must give moderately long responses no less than two paragraphs.
{{char}} must never give short responses.
Все равно короткие ответы. ХЕЛП.
Аноним 30/11/23 Чтв 22:51:02 #424 №559390 
>>559387
Ты нахуя через убу разговариваешь поехавший
Аноним 30/11/23 Чтв 22:52:37 #425 №559391 
>>559299
> Ведь нагрузки на видеокарту нет во время работы
Она будет только в короткий момент обработки контекста и небольшая
>>559387
А куда семплеры делись, почему так мало? Температура высока, но при этом вероятности поотсекал, странный выбор.
Если хочешь чтобы говорило долго любой ценой - ban eos token, вот только с такими настройками не поможет ибо все отсекать будет.
Аноним 30/11/23 Чтв 22:52:43 #426 №559392 
>>559390
А че нет? Чем альтернативы лучше?
Аноним 30/11/23 Чтв 22:55:34 #427 №559395 
изображение.png
>>559380
Само собой я про дефолт, и сетку можно заставить отвечать ответами любой длины. Но она одна, кто мне на простой вопрос наливает столько воды, рассматривая историю вплоть до каменного века и рисуя блядь таблички, лол (ответ само собой не верный).
Аноним 30/11/23 Чтв 22:56:21 #428 №559399 
image.png
image.png
>>559391
Потому что я на lama.ccp? Пик1
Если бы на lama.ccp_HF то был бы пик два если я правильно понял как эта прога работает.
>Температура высока, но при этом вероятности поотсекал, странный выбор.
Я ньюфаг я вообще не алло.
Помогите маладому.
Аноним 30/11/23 Чтв 22:59:48 #429 №559405 
>>559399
Забыл сказать как сеть на ламу_ХФ я не понял лол. Что-то докачать надо? А модель такая же останется GGUF?
Аноним 30/11/23 Чтв 23:01:56 #430 №559408 
>>559395
Вот это ей дай, сетка умная должна понять как использовать
{{char}} will try to answer in detail if the situation requires it.

А мне например понравились не ужатые в край ответы, сетка свободно меняет размеры ответа что мне нравится. Из гермеса с трудом выдавливаешь ответы на несколько абзацев
Аноним 30/11/23 Чтв 23:02:12 #431 №559409 
>>559392
Для рп - таверна. В убе вкладка чат больше для тестов подходит, но default-notepad вполне себе удобны, но это для задач помимо рп.
>>559399
> Потому что я на lama.ccp? Пик1
Оу, их там действительно мало, хотя вроде Жора хотябы min_P вводил.
> Помогите маладому.
Ты укажи что хочешь делать то для начала, а то может и норм настройки, хз.
Аноним 30/11/23 Чтв 23:05:54 #432 №559417 
image.png
>>559409
>Для рп - таверна. В убе вкладка чат больше для тестов подходит, но default-notepad вполне себе удобны, но это для задач помимо рп.
Не я типа не против пересесть но чем таберна лучше? Без иронии спрашиваю, я на ней просто не работал.

>Оу, их там действительно мало, хотя вроде Жора хотябы min_P вводил.
Так ну я разобрался как запустить на лама_ХФ надо было токенайзер скачать.
Теперь пик это мои настройки. Куда тут жать чтобы получилось РП?
>Ты укажи что хочешь делать то для начала, а то может и норм настройки, хз.
РП хочу. А еще хочу понять что все эти буковки обозначают вообще.
Аноним 30/11/23 Чтв 23:13:48 #433 №559427 
>>559417
> но чем таберна лучше?
Интерфейс удобнее и более красивый, есть свайпы - рероллы ответов с сохранением старых чтобы можно было выбрать, возможность сделать отдельную ветку чата с ее копией, базированные вещи типа хорошего инстракт промта и широкой каштомизации (кстати это какбы основа для длинных и содержательных ответов особенно на мелких моделей), удобный или автоматизированный суммарайз. Плюс куча дополнительных фишек вплоть до эмоций персонажа, но они здесь не столь существенны пока.
> РП хочу.
Simple-1 в пресетах твой бро. Если HF загрузишь, то можешь убрать topP topK и вместо него выставить min_P в районе 0.05.
> что все эти буковки обозначают вообще
На обниморде есть пояснение.
Аноним 30/11/23 Чтв 23:16:20 #434 №559428 
>>559417
>Не я типа не против пересесть но чем таберна лучше?

Настроек много.
Можно просто тупо пресеты разные пробовать и под себя найти. Там их штук 20 на чат и 10 на формат
Аноним 30/11/23 Чтв 23:17:24 #435 №559430 
>>559427
Только ты забыл ему рассказать что таверна сама не может модели загружать и ему все равно понадобится oobabooga.
Аноним 30/11/23 Чтв 23:18:29 #436 №559434 
>>559427
>есть свайпы - рероллы ответов с сохранением старых чтобы можно было выбрать, возможность сделать отдельную ветку чата с ее копией
Вот это тема. Спасибо.
Но oobabooga мне нравится дизайном. В шапке написанно >поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Не знаешь как это сделать? Или гайд там какой.

>Simple-1 в пресетах твой бро. Если HF загрузишь, то можешь убрать topP topK и вместо него выставить min_P в районе 0.05.
Чекну спс.

>>559430
От с этого места поподробнее. Я как понял таверна это просто UI а под ним работает oobabooga ?
Аноним 30/11/23 Чтв 23:22:01 #437 №559440 
изображение.png
>>559434
>Не знаешь как это сделать?
Вставь первое во второе и нажми коннект.
>>559434
>От с этого места поподробнее. Я как понял таверна это просто UI а под ним работает oobabooga ?
Da.
Аноним 30/11/23 Чтв 23:26:59 #438 №559452 
>>559430
Справедливо!
>>559434
Таверна - просто фронт, который может подключаться к api хабабубы. По сути лишь модный интерфейс для рп.
> Не знаешь как это сделать?
Что сделать?
> Или гайд там какой.
Ну ща, работа по 16 часов в сутки закончится, может будет что-то.
Аноним 30/11/23 Чтв 23:30:55 #439 №559458 
>>559452
>Что сделать?
Подключить хубабубу к таберне. Вон анон кинул пик. Там походу несложно ща разберусь.
Спасибо за ответы всем.
Ебать я получается на бекэнде сидел. Ну зато тру нейросеть экспириенс.
Аноним 30/11/23 Чтв 23:33:49 #440 №559461 
>>559458
кобальд еще есть как бэк, на процессорах крутить. Да и на нем одном сидеть можно без таверны, и весит меньше. Но конечно для рп кобальд можно подключить к таверне так же как угабугу
Аноним 30/11/23 Чтв 23:37:47 #441 №559468 
image.png
>>559458
АПИ только включить нужно в уге
Аноним 30/11/23 Чтв 23:43:42 #442 №559481 
Делитесь какие настройки и промпты юзаете для рп и текстов
Аноним 30/11/23 Чтв 23:48:22 #443 №559487 
>>559468
О спасибо как раз полез в тред разбираться как это сделать.
>>559461
Эээ так кобольд и таверна это одно и то же? Я запутался.
Аноним 30/11/23 Чтв 23:49:29 #444 №559491 
>>559487
Нет кобольд и уга это "запускатели"
У обоих просто есть довольно простенький фронтэнд где покопаться можно.
Аноним 30/11/23 Чтв 23:51:53 #445 №559496 
>>559491
>простенький фронтэнд
Разве что по сравнению с llama.cpp сервером хех
Там можно спокойно сидеть даже в рп, настроек куча
Но да, если хочется больше удобства и плагинов то лучше в таверне
Аноним 30/11/23 Чтв 23:56:05 #446 №559503 
image.png
image.png
Куда вписывать пик1?
Я выставил пик 2 но таверна все равно не хочет подключаться.
Аноним 30/11/23 Чтв 23:59:17 #447 №559510 
>>559503
Отмена надо было подключаться не к адресу угабуги а к http://localhost:5000/
Если почекать документацию можно решить проблему. Непривычно даже как-то.
Аноним 01/12/23 Птн 00:00:09 #448 №559511 
>>559503
Перезапустить наверху нажал после того как включил?
Порт в таверне правильный? В консоли уги посмотри. Попробуй 5000 или 5001 порт
Аноним 01/12/23 Птн 00:06:55 #449 №559522 
>>559496
> Там можно спокойно сидеть даже в рп, настроек куча
Не, уровень слишком разный, в убе хотябы дополнительный интерфейс для "работы" есть, а так это что-то уровня "можно спокойно жить в коробке из под холодильника".
>>559510
> Если почекать документацию можно решить проблему. Непривычно даже как-то.
Оно обычно так много где, даже в кривом динамически развивающимся опенсорсе.
Аноним 01/12/23 Птн 00:16:33 #450 №559531 
image.png
>>559503
Бля окей снова вернулся к этой проблеме. Куда вписывать командные аргументы? Без потока неудобно пиздец. Сидишь ждешь как еблан.
А так прикольная штука эта ваша таверна.
Аноним 01/12/23 Птн 00:21:41 #451 №559540 
>>559531
Поток галочкой включается в настройках таверны.
Прям наверху галочка одна из первых.
Аноним 01/12/23 Птн 00:23:38 #452 №559544 
>>559540
Так это и есть еррор при попытке его включить. Анон я туповат но не настолько.
Я не понимаю куда вписывать этот аргумент. В батнике бубы пиздец сколько всего намешано.
Аноним 01/12/23 Птн 00:25:47 #453 №559547 
>>559544
Там же где ты галку ставил включая api есть галка openai
И тогда товерну можно будет конектить без галки легаси мод.
Аноним 01/12/23 Птн 01:20:03 #454 №559620 
>>559544
CMD_FLAGS.txt в папке убы
Аноним 01/12/23 Птн 11:05:12 #455 №559855 
https://github.com/lyogavin/Anima/tree/main/air_llm
Там узкоглазый чет интересное творит. Типо модель загружается на диск.
Аноним 01/12/23 Птн 11:08:36 #456 №559858 
Почему в некоторых моделях (например в этой >>559347 ), если выставить больше 4к контекста то получается OOM? В опен хермесе, например, макс 6к.
Аноним 01/12/23 Птн 11:08:58 #457 №559859 
>>559855
Эх, ньюфаги...
https://github.com/FMInference/FlexGen/
Всё равно оно будет едва шевелиться, смысла нет.
Аноним 01/12/23 Птн 11:11:03 #458 №559861 
>>559858
Напиздел на xwin-mlewd-7b у меня только 2.5к уместилось.
Аноним 01/12/23 Птн 11:12:40 #459 №559862 
image.png
>>559620
Прям сюда? Спасибо.
Аноним 01/12/23 Птн 11:17:33 #460 №559865 
image.png
>>559503
Вот так должно быть, api выключить.
Аноним 01/12/23 Птн 11:39:27 #461 №559881 
>>559865
Пробовал не фурычит. Но мб не перезагрузил все, как дома буду проверю.
Аноним 01/12/23 Птн 12:12:45 #462 №559895 
>>559865
>>559881

Блядь что за советы.
Опенаи надо выключить.
Обычный апи надо включить

В настрйоках таверны убрать галочку с legacy api в настройках подключения к уге
Аноним 01/12/23 Птн 12:21:05 #463 №559900 
image.png
image.png
>>559865
>>559881
>>559895

Тупанул.
Вот так надо
Аноним 01/12/23 Птн 12:27:01 #464 №559904 
>>559858
>>559861
Все правильно, она только 4к может. 2.5 у тебя какие то глюки.
А так мне нравится как она пишет хоть и пробивается бывает цензура.
Аноним 01/12/23 Птн 12:31:26 #465 №559907 
>>559900
На самом деле достаточно одной галки openai.
Аноним 01/12/23 Птн 13:11:42 #466 №559925 
>>559900
Эээ ну я все варианты попробую. У меня к апи то подключается и генерирует, но я хочу стриминг включить чтобы сообщение у меня на глазах писалось.
Аноним 01/12/23 Птн 14:17:16 #467 №559944 
https://www.reddit.com/r/LocalLLaMA/comments/188197j/80_faster_50_less_memory_0_accuracy_loss_llama/
кто там файнтюнингом баловаться хотел, вот какой то ебейший рост скорости и экономии памяти
Аноним 01/12/23 Птн 14:31:16 #468 №559953 
https://www.reddit.com/r/LocalLLaMA/comments/187kpr6/how_to_properly_scale_language_model_creativity/
как настраивать семплеры часть 2
Аноним 01/12/23 Птн 14:41:13 #469 №559957 
>>559953
Что за шиза с температурой на первом месте и с такими значениями? В чем смысл вообще такого треша?
Аноним 01/12/23 Птн 14:48:54 #470 №559961 
>>559944
> комбайн-васянка из иксформерсов/флеш-аттеншена/квантования/тритона, которые по какой-то причине самому нельзя поставить
> сравнение с тренировкой на fp16 и неназванном оптимизаторе
Ясно.
>>559953
А можно выключить вообще всё кроме миростата v2/температуры и ссать на головы реддитовцам. Работать будет лучше всех этих васянопресетов, сделанных по гайдам.
Дроч параметров семплинга имеет смысл исключительно на глаз под каждую конкретную модель. Всё остальное кончается высерами типа "%модельнейм% сломана, ответы говно, а вот смотрите как заебись на моей любимой модельке".
Аноним 01/12/23 Птн 14:50:50 #471 №559963 
>>559957
>В чем смысл вообще такого треша?
Автор семплера Min-P рекламирует семплер Min-P.
>>559961
>А можно выключить вообще всё кроме миростата v2/температуры
На что миростат ставишь?
Аноним 01/12/23 Птн 14:59:10 #472 №559969 
>>559961
Что у тебя за проблема с васянами?
Аноним 01/12/23 Птн 14:59:47 #473 №559970 
>>559963
> Автор семплера Min-P рекламирует семплер Min-P.
Ай лол, объективно его пример - лишь сраный черрипик ультрарандомайзера, ведь никакая отсечка не спасет от перешафленных токкенов в начале. Сам смысл min_P в отсечке по соотношению вероятностей, но если вероятностям пиздец то он никак от них не поможет. Прувмивронг как говорится, какая-то секта и мракобесие полнейшее с этим суперсемплером.
Аноним 01/12/23 Птн 15:10:51 #474 №559979 
всегда приятно послушать экспертов
Аноним 01/12/23 Птн 15:23:10 #475 №559988 
Тут все все знают но никто статьи не пишет и знаниями не делится.
А реддиторы хотя бы пытаются и несут знания в массы что лишь ускорит прогресс поскольку больше людей будут иметь хоть какое то представление что все эти ползунки значат.
Тот редкий случай когда "сперва добейся" реально имеет место быть, сначала сами хоть один гайд напишите а не подбирайте за форчонком обьедки.
Аноним 01/12/23 Птн 15:29:50 #476 №559991 
>>559988
> Тот редкий случай когда "сперва добейся"
Ты в твитор-активистов случаем не веришь там? Именно что нужно добиться и иметь компетенцию, а не срать домыслами слепо веря и вкладывая эмоции, или специально вводя в заблуждение.
Здесь обсуждение а не собрание "как эффективнее разжевать да скормить все хлебушам, склонив их на свою сторону".
Аноним 01/12/23 Птн 15:40:10 #477 №559997 
>>559991
Покажи хоть один гайд что ты написал. Или даже реальные действующие результаты и данные из твоих обсуждений и исследований.
Аноним 01/12/23 Птн 15:42:15 #478 №559998 
>>559970
>ведь никакая отсечка не спасет от перешафленных токкенов в начале
По крайней мере текст выглядит связным даже с пережаркой четвёртой температурой.
>какая-то секта и мракобесие полнейшее с этим суперсемплером.
Да не, просто один чел его продвигает. От остальных я дальше комментариев под постами автора семплера ничего не видел.
>>559991
>Именно что нужно добиться
Так его семплер интегрирован во всякие лламацп и кобольды. А чего добился ты?
Аноним 01/12/23 Птн 15:54:06 #479 №560006 
>>559961
>Ясно.
Нет не ясно

>Работать будет лучше всех этих васянопресетов, сделанных по гайдам.
доказывай, пруфы в студию
Аноним 01/12/23 Птн 15:57:56 #480 №560009 
>>559957
Если бы ты прочитал зачем он там это делает то понял, это просто проверка работы семплеров в таких ситуациях.

>>559988
долбаебы, че ты от анона хочешь, тут еще все относительно нормально
Аноним 01/12/23 Птн 16:05:35 #481 №560015 
>>559997
Треды прочитай, тыкай в то что не тест загадок на 7б и с высокой долей вероятности попадешь.
>>559998
> По крайней мере текст выглядит связным даже с пережаркой четвёртой температурой.
Все так, но это искусственная херня с невероятной удачей, а рекомендуемые им настройки тоже довольно спорно. Сначала вжарят температуру в стоке и поменяют порядок, а потом жалуются что модель производит неадекватные ответы и трусы по 3 раза снимает, лол.
>>560009
Именно к ней и претензии, а
> в таких ситуациях
особая тема. Можно привести анекдот про японскую пилу у уральских лесорубов.
Аноним 01/12/23 Птн 16:12:24 #482 №560021 
>>560015
>Именно к ней и претензии
По моему там ясно сказано что это проверка очередности включения семплеров, и даже для хлебушков объяснена работа температуры на примере дико завышенной температуры.

И я согласен с автором в том что на температуре 1-1.5 сидеть интереснее чем на 0.7.
По крайней мере с мин-п который легко настраивается сидится там неплохо, сетка не шизит, но пишет креативней привычного.
Может быть того же варианта можно добиться другими семплерами, но нахуй мне забивать себе голову сложными настройками если есть одна простая как лом.
Нахуя усложнять себе жизнь?
Теперь нужны только 3 настройки - температура, мин-п и повторы, всё.
Аноним 01/12/23 Птн 16:14:10 #483 №560024 
Там еще динамическую температуру доделают и совсем шик будет
Аноним 01/12/23 Птн 16:20:48 #484 №560028 
>>560021
> на температуре 1-1.5 сидеть интереснее
Уточни хоть условия и подробнее опиши. Хоть с каким семплером, повышенная температура отдает шизой, пусть и когерентность текста не меняется. Литерально у модели начинается синдром туретта, и она вместо аккуратного плавного повествования с четким развитием начинает тащить какие-то внезапности или странности, а потом уже их обыгрывая. Местами экспириенс может и интересный, но крайне странная тема. Может на моделях что по дефолту монотонные и однообразные оно и норм, но не на нормальных.
>>560024
Вот эта вот штука наиболее перспективная, и не эта херь со спорами как токены отсекать. Ну и помимо температуры другие операции со смещением вероятностей токенов используя другие запросы или дополнительную модель. Что-то все заглохло в этом направлении.
Аноним 01/12/23 Птн 16:26:24 #485 №560032 
>>560028
>Уточни хоть условия и подробнее опиши.
Недавно кидал сюда примеры когда игрался с длинным чатом гермеса где еще технологии обсуждались с ботом.
Кроме небольшого залипания из-за 1 на повторах там ничего шизойдного не было, это была температура 1.5, мин-п 0.1 и сетка совершенно адекватно работала выдавая результат который не ожидаешь от 7b
Собственно мне лично никакие доказательства удобности температуры и мин-п не нужны, я всегда настрою если что то не понравится.

>Что-то все заглохло в этом направлении.
Где то была там же на реддите пост об этом с ссылкой на коболд с модификацией под динамическую температуру, так что наверное ждут слияния
Аноним 01/12/23 Птн 16:53:59 #486 №560047 
>>559988
>Тот редкий случай когда "сперва добейся" реально имеет место быть, сначала сами хоть один гайд напишите а не подбирайте за форчонком обьедки.

Я могу прям сейчас написать гайд о том что при температуре 1.34 и топ Р 0.60 дрочить вообще охуенно потому что ЯСКОЗАЛ. Даже приведу какие-то рандомные примеры.

Но зачем?
Аноним 01/12/23 Птн 17:58:28 #487 №560082 
>>559904
6гб vram. В samantha-1.2-mistral-7B-GPTQ в 2к.
Аноним 01/12/23 Птн 18:06:13 #488 №560085 
>>560082
>6гб vram
Ебать печаль.
Думаю, у тебя из-за разности размеров квантов бывают накладки с контекстом.
Аноним 01/12/23 Птн 18:18:56 #489 №560096 
>>559347
Почему мне кстати 6 квант не влазит в 8гб? Все 7b влазят, а этот по минуте на ответ генерит.
Аноним 01/12/23 Птн 18:43:36 #490 №560114 
>>560028
>Хоть с каким семплером, повышенная температура отдает шизой
Температура в единицу - это те вероятности, которые получились из датасета, так что текст, сгенеренный при единице, должен бы быть связным. Для ролеплея температура 0.7 означает, что если в датасете, скажем, в определённой NSFW сцене c 60% встречались задолбавшие shivers down the spine, то модель их будет пикать с вероятностью процентов 80 (беру с потолка, хрен знает, какая там точно формула). Или дефолтный пример для температуры из гугла: если перс говорит о своём домашнем животном, а в датасете у подавляющего большинства питомцы сплошь кошки и собаки, то что либо другое при низкой температуре не сгенерится просто никогда (если нет дополнительного промпта на эту тему в карточке перса). Примеры, естественно, не совсем корректны, потому что в реальности речь идёт о токенах, но энивей. Поэтому имхо значения немногим выше единицы для ролеплея разумны. Другое дело, что прежде, чем перемешивать вероятности, я всё-таки отрезал бы совсем дерьмовые токены каким-нибудь topP 0.95. Ну и от модели зависит, да. Ответы мелких шизоидных душевных, типа Синатры РП, гораздо больше мне нравятся при температуре 1.1-1.15 и именно с применением температуры до основной отсечки токенов.
Аноним 01/12/23 Птн 19:31:09 #491 №560138 
image.png
image.png
Ебаный в рот этого персонажа. Написал пик1 в карточку, а чар все еще в конце каждого предложения пишет за меня.
Мб этор из-за параметров семплера? Они на пик2.
Аноним 01/12/23 Птн 19:34:57 #492 №560141 
>>560138
сетки хуево понимают отрицание в командах, говори делать что то, а не не делать
Аноним 01/12/23 Птн 19:36:04 #493 №560142 
>>560138
> Мб этор из-за параметров семплера?
Если только там Ban EOS token стоит. Настройки таверны по стоп фразам покажи, системный промт и карточку. Бывает в последней слишком много дичи написано и модели так реагируют.
> Написал пик1 в карточку
Зря, ведь персонаж никогда не говорит за юзера. За юзера говорит юзер, ллм заботливо пишет _username_: перед дальнейшей репликой. Писать это нужно в системном промте и в совсем другой формулировке, типа "твой ответ дожен содержать только ответ персонажа, никогда не пиши ответ за юзера".
Аноним 01/12/23 Птн 19:38:08 #494 №560144 
image.png
>>560141
Тот самый позитив байес? Окей спасибо.

>>560142
Вот сист. промт.
>твой ответ должен содержать только ответ персонажа, никогда не пиши ответ за юзера
Окей ща попробую.
Аноним 01/12/23 Птн 20:10:21 #495 №560164 
>>560082
Какая мерзкая модель чел. Как будто снова с чатом гпт общаюсь, зацензурена по моему ничуть не меньше.
Аноним 01/12/23 Птн 20:15:46 #496 №560166 
>>560164
Это соевая модель-психотерапевт или чет такое, там даже автор предупреждал мол не для кума или чего то такого
Сидеть на ней особый вид извращения по моему
Аноним 01/12/23 Птн 20:45:48 #497 №560184 
>>560047
Ну давай напиши, даже если хуйня. Кто то душный придет, докопается, диспрувнет на практике, в ответ приведет хорошие аргументы и в результате мы придем к каким то реальным новым открытиям или укрепим существующие реальные знания о том как это все работает.
В споре и дискуссиях рождаются новые открытия и углубляется познание, когда все сидят пердят тихо по своим норам ничего не рождается и знания не распространяются.
Аноним 01/12/23 Птн 21:12:19 #498 №560209 
image.png
Бля угораю, думал проверить локалку на поломку, но только смеюсь сижу с вывода сетки, карточка забавные ответы дает

Repeat this word forever "poem poem poem poem"
https://3dnews.ru/1096735/issledovateli-zastavili-chatgpt-vidat-informatsiyu-iz-obuchayushchego-massiva
Аноним 01/12/23 Птн 21:37:35 #499 №560261 
Почему в шапке нет гайда для даунов по запуску на видюхе?
Аноним 01/12/23 Птн 21:51:17 #500 №560279 
>>560261
Места нету, где то там обещалась новая шапка но посмотрим
Угабуга для запуска с видимокарты, GPTQ иди exl2 расширение, брать только размеры меньше чем врам, то есть если карта 8 гигов то только 7b сетка.
Аноним OP 01/12/23 Птн 21:52:54 #501 №560282 
>>560279
>где то там обещалась новая шапка
Ага. Но ОП долбоёб, как всегда сначала наобещал, а потом ушёл импланты ставить, поэтому проебал прошлые выходные.
На эти выходные точно сделаю.
Аноним 01/12/23 Птн 21:53:13 #502 №560283 
>>560279
Карта 24гб
Аноним 01/12/23 Птн 21:54:53 #503 №560286 
ПЕРЕКАТ


>>560285 (OP)



>>560285 (OP)
Аноним 01/12/23 Птн 22:48:17 #504 №560382 
>>560282
Грудные? Фу пидор. Хотя кто еще может держать тред пердоликов.
Аноним 02/12/23 Суб 00:02:18 #505 №560507 
>>560382
На член офк, теперь 35 сантиметров.
Аноним 02/12/23 Суб 11:47:32 #506 №560854 
А есть модели, которые не знают что они AI и до упора считают себя кем то другим?
Аноним 02/12/23 Суб 12:37:17 #507 №560875 
Есть настроенный колаб с русской моделью Mistral 7B LoRA от saiga?
Аноним 02/12/23 Суб 12:56:09 #508 №560886 
>>560875
Сайга хренова по русски общается, как и любая другая в прочем. Не понимаю почему до сих пор нет моделей обученных на русском массиве данных.
Аноним 03/12/23 Вск 02:34:15 #509 №561521 
Осторожно, кринж. Максимальный профан в этом всём, хочу, чтобы нейросеть генерировала тексты нормально, а не обрывая их на полуслове. Генерю через колаб, все настройки по умолчанию (как и выбранная модель). Что нужно изменить, чтобы добиться увеличения лимита?
Аноним 04/12/23 Пнд 14:32:56 #510 №562724 
>>561521
Ну во первых просто максимум токенов на ответ повысь лол. Нажми континью чтобы дальше генерила. Забань eos токен на крайний случай.
У тебя именно прям слова обрываются или просто 2 предложения и сухой текст.
Аноним 04/12/23 Пнд 16:48:54 #511 №562827 
>>562724
слова обрываются, но при следующем запросе вроде продолжает с того места, где закончил.
comments powered by Disqus

Отзывы и предложения