Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №32 /llama/

Аноним 15/12/23 Птн 10:01:00 #1 №573687

Llama 1.png

Деградация от квантования.png

Альфа от контекста.png

Процент брака при квантовании.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
https://rentry.co/xzuen Гайд для запуска на видеокарте на русском

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>567655 (OP)
>>560285 (OP)

Аноним 15/12/23 Птн 10:28:28 #2 №573695

>>573610 →
Кидай ссылку на скачивание GPT4, хотя бы, раз оно логальное.

Аноним 15/12/23 Птн 10:36:21 #3 №573696

>>573695
Нету. Корпорации не дают.

Аноним 15/12/23 Птн 10:38:35 #4 №573698

>>573696
Значит оно не локальное. Локальное это всё, что я могу запустить локально. Гемини-про я не могу запустить локально, значит сетка не локальная. А значит, её надо обсуждать в соответствующем треде >>565763 (OP)
Вот когда они выпустят лайт на андроид, тогда поговорим.

Аноним 15/12/23 Птн 11:40:16 #5 №573708

>>573529 →
Ну такая херь чето. Сравнивая с уровнем 7, возможно 13б - может и неплохо. Может поддерживать какой-никакой диалог и в большинстве случаев реагирует на несколько запросов в реплике если они простые. Но по сравнению с моделями побольше - сраный копиум, даже 20б ее размотает скорее всего. (инб4 не тот семплинг не тот промтформат, а ты в фп64 апкастни)
Сочиняет левую херь и не обладает знаниями что есть в других, игнорит описание карточки и, похоже, не осознает некоторые вещи. Пикрел, первые - 70 и 34, далее свайпы микстральки.
Ну а хули, на 6к контекста дать адекватный ответ от лица суперпопулярного чара, которого все лламы знают и учитывают это хорошо сочетая с карточкой - это вам не задроченные зирошоты на бенчмарки давать.

Возможно на более абстрактных диалогах будет лучше, но все равно может сказаться слабость восприятия контекста. При случае ллиму ему скормлю.

>>573569 →
Вот так, поехи форсят. Для ответов сразу оно и норм, нужно что-то техническое поспрашивать.

Аноним 15/12/23 Птн 12:02:13 #6 №573712

>>573698
>на андроид
Я кстати видел приложение на андроид модели запускать локально. И честно говоря не понимаю нахера? Что там можно запустить на андроиде? 1м модели?

Аноним 15/12/23 Птн 12:03:47 #7 №573713

>>573395 →
>>573397 →

Ну да сама моделька то уже старая.
Но 8к контекста на 13В это годнота

Аноним 15/12/23 Птн 12:16:40 #8 №573718

Undi95/Toppy-Mix-4x7B-GGUF

Началась эпоха шизомиксов микстраля.
Васяны довольно урчат.

Аноним 15/12/23 Птн 12:20:05 #9 №573721

>>573718
>Undi95
О, надо глянуть что маэстро запилил.

Аноним 15/12/23 Птн 12:44:34 #10 №573734

изображение.png

>>573718
Твою ж ты мать.

Аноним 15/12/23 Птн 12:59:51 #11 №573737

>>573734
Это Унди написал. Что по этому поводу пишет Блок или Герганов? Есть информация? Если нет, значит нет и проблемы, т.к. Унди там уже замесился в своих похлебках так, что сам запутался. Хотя по сути все его франкенштейны - одно и то же. Переливает из пустого в порожнее

Аноним 15/12/23 Птн 13:06:02 #12 №573740

>>573737
>Что по этому поводу пишет Блок или Герганов?
Ссылка на PR, там в комментах поднимается этот вопрос
https://github.com/ggerganov/llama.cpp/pull/4406#issuecomment-1855743127

Аноним 15/12/23 Птн 13:07:28 #13 №573743

>>573737
Кванты говорят в последней версии llama.cpp починили. Тема - тут https://github.com/ggerganov/llama.cpp/pull/4406#issuecomment-1855151885
Поэтому в кобольде вероятно все еще не работает.

Аноним 15/12/23 Птн 14:43:06 #14 №573787

image.png

Какой из этих тестов отображает качество RP?

Аноним 15/12/23 Птн 14:45:26 #15 №573790

>>573787
> качество RP
Таких тестов не существует, потому что невозможно измерить ебанутость фантазии рп-шиза.

Аноним 15/12/23 Птн 14:51:47 #16 №573795

image.png

>>573790

Аноним 15/12/23 Птн 14:55:14 #17 №573798

>>573795
> турба НЕМНОЖКО уступает гпт4
Верю, лол, чего не верить.

Аноним 15/12/23 Птн 15:08:16 #18 №573813

>>573795

>ГПТ переигран и уничтожен файнтюном мистраля

Платина.

Аноним 15/12/23 Птн 15:11:47 #19 №573818

>>573813
Жду того момента, когда с ГПТ вообще перестанут сравнивать, настолько он будет мелок и ничтожен, что не разглядеть его на графиках.

Аноним 15/12/23 Птн 15:14:04 #20 №573819

>>573813
Каждая новая модель 7b уничтожает гпт, пишут что по тестам всё лучше и лучше.
Полагаю должны быть вопросы к тестам. Что это за тесты если они не отражают реальность.

Аноним 15/12/23 Птн 15:16:31 #21 №573822

>>573819
Ну модельки тупо тренируют под тесты и всякие задачки логические.
Вон поймали за руку как дешевку уничтожиля ГПТ на обнимилицо:
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/discussions/444

Аноним 15/12/23 Птн 15:38:07 #22 №573831

image.png

7b модели великолепны, наверное только они способны выдавать такие перлы. Для контекста персонаж нудистка.

Аноним 15/12/23 Птн 15:48:19 #23 №573837

>>573831
А в чём перл то?

Аноним 15/12/23 Птн 15:51:26 #24 №573839

>>573787
>>573795
Pretraining on the Test Set Is All You Need

Аноним 15/12/23 Птн 15:53:14 #25 №573840

>>573837
> А в чём перл то?
Серьёзно?
> Her nipples are a hard and visible through her thin pink areolas.

Аноним 15/12/23 Птн 15:54:59 #26 №573842

>>573840
А, действительно

Аноним 15/12/23 Птн 17:51:52 #27 №573931

>>573798
Хуясе немножко.

>>573790
Можно потестить на трекинг сущностей, как минимум. Чтобы оно не теряло персонажей/инвентарь/окружение.

Аноним 15/12/23 Птн 18:15:15 #28 №573956

>>573931
>Можно потестить на трекинг сущностей, как минимум. Чтобы оно не теряло персонажей/инвентарь/окружение.

7В вышли из чата.

Аноним 15/12/23 Птн 18:20:28 #29 №573962

>>573956
не все, та же mistrallite может и пройдет тест

Аноним 15/12/23 Птн 18:41:01 #30 №573983

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Write a children's book based on it's name.

### Input:
Scatological adventure of Abby and Sammy.

### Response:

Аноним 15/12/23 Птн 21:06:53 #31 №574134

Все в кобальте словно ебнулись с этим мистралем

Аноним 15/12/23 Птн 21:25:28 #32 №574145

>>573712
В этом и смысл маленьких моделей же, ну.
Хотят продать тебе локального помощника, который в любой момент скажет нужное.

7B работают, может и 13B можно запустить на дорогих. Просто медленнее, конечно.

———

Ну вот, две планки по 32 гига отвалились на серваке, пойду менять их по гарантии.

Влез только квантованный мистраль.
Ну, что сказать, пишет по-русски, пишет хорошо, код комментирует на русском, вообще заебатая херня, конечно.
Я был не прав, говоря, что это будут файнтьюны одной модели. По-ходу, они рил натренили разные модели с небольшой частью общего контента универсального.
Круто-круто, че сказать!

Скорость не такая, как хотелось бы, но при качестве уровня 70B, даже 2,4-3 токена против 0,7 — это прирост вчетверо.

Аноним 15/12/23 Птн 21:28:12 #33 №574146

>>574145
>мистраль
микстраль

Аноним 15/12/23 Птн 21:47:54 #34 №574169

>>573795
> турба лучше лламы 70
> днище 7б лучше лламы 70
> клода хуже гопоты
ну да первая фейлит часто
Ахуенный чарт, есть еще?
>>573818
Лучше сразу измерять в процентах от микстраля
>>573819
О том и речь, нужна полноценная адекватная метрика, желательно еще устойчивая к абузам.
>>573831
Сделало мой вечер, воистину топовые модели.

Аноним 15/12/23 Птн 22:01:29 #35 №574179

1000 миллимикстралей придумали вам чумовую вариацию козы, волка, и капусты. Можете юзать.

Title: The Quantum Conundrum Crossing

Story:
In a parallel universe where quantum mechanics reign supreme, a quirky quantum physicist finds herself on the edge of a bubbling stream of spacetime fluid. Her goal is to cross this stream with her three peculiar companions: Schrödinger's Cat, a Peaceful Positron, and a Hyperactive Higgs Boson.

However, the stream is crossed by a rickety bridge that exists in a state of quantum superposition—meaning it can only support the weight of one being at a time before collapsing into a definitive but temporary state of disrepair. To make matters more interesting, the bridge's superposition resets with each crossing, thanks to the observer effect.

Rules:
- Only one being can cross the bridge at a time.
- The physicist can accompany any companion across, but she's the only one who knows how to stabilize the bridge from collapsing into a useless state, so she must be present to initiate each crossing.
- Schrödinger's Cat, when left unobserved, exists in a superposition of alive and dead states, which can cause quantum instability that might destroy the bridge if left alone with either the Positron or the Higgs Boson.
-The Peaceful Positron and the Hyperactive Higgs Boson are matter-antimatter opposites; if left alone together without the physicist, they will annihilate each other in a burst of energy, rendering the crossing impossible.
- The physicist carries a portable quantum entanglement device that allows her to remotely observe and momentarily stabilize the bridge for a single transfer of any companion back across the stream without her. This device can only be used once due to its limited battery life.

Objective:
The physicist must devise a way to get all three companions across the stream without any disappearing, annihilating, or causing the bridge to collapse into a useless state.

Причем решить оно само не смогло, лел. Увидите решение, начинающееся НЕ с переноски бозона - выкидывайте.

Аноним 15/12/23 Птн 22:05:46 #36 №574182

>>573931
> Можно потестить на трекинг сущностей, как минимум
Есть предложение как именно реализовать?
>>573983
> Once upon a time in a small town lived two best friends, Abby and Sammy. They were known for their adventurous spirit and insatiable curiosity. One sunny day, they stumbled upon something unusual in the park - a mysterious map leading to a hidden treasure!
> As they followed the map, it led them through various locations around town such as the bakery (where they had to avoid stepping on delicious but distracting pastries), the library (where they learned about different types of treasures from books), and even the local zoo (where they encountered some chatty parrots who gave them hints).
> Finally, after much ado, they arrived at their destination: a large pile of... well, scatology! The pair looked at each other, puzzled. But then, remembering one of the clues from the parrot, they started digging into it carefully. To their surprise, they found an ancient-looking key inside!
> With this key, they unlocked a secret chest filled with shiny gold coins, sparkling jewels, and exotic trinkets. Their eyes widened with excitement and joy. However, thinking about all the animals whose homes they had disturbed during their search, they decided to share their newfound wealth with the entire town, especially those in need.
> And so, Abby and Sammy became heroes, not just because of their amazing discovery, but also due to their kind hearts. From that day forward, everyone knew that wherever there was trouble or mystery, Abby and Sammy would be there to save the day!
> And thus ends our tale, "The Scatological Adventure of Abby and Sammy", full of laughter, learning, and lots of... you know what!
>>574145
> В этом и смысл маленьких моделей же, ну.
Там потолок 1б а то и меньше, никто кроме поехавших не будет ждать минуты на всратый ответ.
> Влез только квантованный мистраль.
Это что за квантованный мистраль? Алсо есть желание запилить сравнение хотябы гриди экондинга на кванте? А то говорят что прям пиздец деградация.
> натренили разные модели
Это одна модель с разным файнтюном, с подключением. Достижений и возможностей офк не отменяет.
> 2,4-3 токена
Это какой квант?
> но при качестве уровня 70B
Даже не близко

Аноним 15/12/23 Птн 22:11:41 #37 №574190

>>574182
>Есть предложение как именно реализовать?
В голову приходит только заставить GPT-4 придумывать проверочные вопросы по ответам тестируемой модели, и отвечать на них. Типа, "присутствует ли там такой-то персонаж?"

Аноним 15/12/23 Птн 22:15:21 #38 №574195

>>574190
Может тогда описать аттрибуты персонажа и чтобы он ответил по своему лору, истории чата и содержанию карточки после контекста?
Собственно типа такого выше скинул и довольно показательно, правда чар и содержание может вызвать аллергию.

Аноним 15/12/23 Птн 22:15:26 #39 №574196

В каком-нибудь фронтэнде реализованы мультизапросы к модели? Чтобы например оно само обновляло память по ходу ролеплея, при этом контекст не нарушался.

Аноним 15/12/23 Птн 22:28:34 #40 №574210

>>574196
Разверну-ка идею того что я хочу.
Вот допустим у тебя есть память в виде произвольных токенов, которая как в кобольде суётся в начале контекста.
Теперь, идёт ролеплей. Ты что-то сказал, перс что-то сказал. Состояние симулируемого мира изменилось. Фронтэнд вырезает последний диалог тебя и перса и шлёт модели память + эти диалоги, с промптом "обнови мне память в соответствии с диалогом". Или как-то так.
А дальше РП продолжается с изменённой памятью.

Аноним 15/12/23 Птн 22:42:59 #41 №574234

>>574210
Ты чего там дунул, тоже так хочу

Аноним 15/12/23 Птн 22:51:28 #42 №574245

>>574196
>>574210
Чел, у модели нету памяти, промт вся её память.

Аноним 15/12/23 Птн 23:01:48 #43 №574262

Че там для кума счас? Завезли что-нибудь годное?

Аноним 15/12/23 Птн 23:05:43 #44 №574264

>>574245
>>574234
Я же вроде понятно объяснил, лол. Чтобы после каждого "хода" в РП диалоге автоматически обновлялся кусок в начале контекста. (путём отдельного запроса к модели)

Аноним 15/12/23 Птн 23:13:28 #45 №574277

>>574169
>Ахуенный чарт, есть еще?
В некоторых моделях добавляют подобное.

Аноним 15/12/23 Птн 23:17:04 #46 №574279

>>574262
Тебе какого размера?

Аноним 15/12/23 Птн 23:25:20 #47 №574291

>>574279
До 70 включительно.
(Бля это звучит как что то из голубой устрицы...)

Аноним 15/12/23 Птн 23:33:58 #48 №574297

>>574291
70 лень качать новые.
В 34 SUSChat все еще топ.
В 20 Норомейда, Rose-kimiko или Iambe-storyteller
В 13 хуй знает чо там, Mythalion-Kimiko с 8к контекста потестировал. Очень годно.

Аноним 15/12/23 Птн 23:35:22 #49 №574298

>>574297
Пасибо, попробую-потещу.
Кста а никаких мутантов 20b с нативным контекстом больше 4к не завозили?

Аноним 15/12/23 Птн 23:59:38 #50 №574311

>>573819
Их просто файнтюнят на прохождение задач. Серьезные люди, мистраль оаи гугл и антропики вроде как таким не занимаются ибо не заинтересованы набирать плюсики в реддите

Аноним 16/12/23 Суб 00:06:50 #51 №574312

>>574311
Абсолютно все занимаются файнтюнами, кто-то для специфических нужд, кто-то для тех у кого есть эти нужды. Просто не все выкладывают на лицехвате ради плюсиков на реддите.

Аноним 16/12/23 Суб 00:09:27 #52 №574315

>>574264
А ты просто не пиши промпт так чтобы его нужно было обновлять. Но вообще да, очередная годная фича которой нет в таверне. Запушь реквест на Гите. Только нормально напиши а не как наркоман. Дескать хочешь чтобы была такая функция, вызова сетки с реквестом переписать определенное поле с ключевой информацией. Дополнительно можно сделать так чтобы сетка сама писала в конце аутпута нужно ли переписывать это поле скрытым текстом (который разумеется стирается регексом). И если нужно, считывает этот ответ и активирует повторный вызов сетки с требованием пофиксить ключевую инфу. Но это уже потребует мультигенерацию чего в ст нет а с ее говнокодом вряд-ли будет

Аноним 16/12/23 Суб 00:09:44 #53 №574316

>>574146
Da. Poputal. Tri raza za den'. =)

>>574182
Q8_0, он 50 гигов занимает, жить можно.

> Это одна модель с разным файнтюном, с подключением.
А, нихуя. Это 42 миллиарда параметров.
Т.е., 7*8=56, 56-42=14 миллиардов повторяющихся, а остальное — оригинальные.
По их утверждениям жи.

> Это какой квант?
Ну, 8, да. =)

> Даже не близко
Я хз, чем ты меряешь, я меряю практическим задачами, о куме речи не было.
Если ты не кумишь на код с комментариями, офк. =) у каждого свои вкусы.

>>574264
> кусок в начале контекста
> путём отдельного запроса к модели
К какой нахуй модели? Какой нахуй запрос? Зачем тебе посылать запрос к модели, если ты хочешь обновить контекст?
Модель берет из контекста, а не наоборот. Тебе не надо обращаться к модели — это модель обращается к контексту. =)
И, если ты обновляешь контекст в начале — очевидно, что ей надо пробежаться весь контекст с начала, целиком.

Если ты имел в виду, чтобы добавлять контекст в начале, но пробегать только его, а все остальное брать «из кэша»… То так бы и сказал, а не вот это вот. =)

Аноним 16/12/23 Суб 00:36:11 #54 №574337

>>574315
Надо сохранить текущий контекст с РП. И сконструировать новый из:
- промпта ("ниже следует состояние игрового мира и кусок диалога его меняющий, напиши изменённое состояние игрового мира")
- памяти
- последнего ответа в диалоге (а не всего разговора)
Скормить его модели. Она выдаст новое состояние. Заменить им память в сохранённом контексте. И продолжить РП с ним.

И вообще я удивлён что в РП приблудах до сих пор нет автоматизации chain-of-thought и подобных штук, они всегда поднимают качество. Так можно и 7B модели заставить не терять персонажей.

>>574316
Блять, ты осознаёшь вообще как кобольд конструирует контекст? "Память" в которой ты сам тречишь состояние мира и которая всегда вставляется в начале контекста + скользящее окно РПшизы + "авторские заметки" которые всегда в конце контекста. Вот "память" и обновлять при каждом ответе силами самой LLM, только не потеряв текущее состояние РП.

Такая фича была в оригинальном AID кстати, когда-то ещё в самом начале, до того как мормон зацензурил всё. Она вроде и в NAI есть.

Аноним 16/12/23 Суб 00:54:45 #55 №574357

>>574337
Это очевидный бред, либо ты теряешь все детали либо 2 часа ждешь каждый реплай. Достаточно просто иметь какое-то привелегированное поле в промпт менеджере типа описания персонажа (а может и само описание) и переписывать только его.
Такую же хуйню кста можно в отношении суммарайза сделать

Аноним 16/12/23 Суб 00:55:53 #56 №574358

>>574264
Не совсем понятно, что там обновлять? Если ты про суммарайз - оно уже есть и реализовано достаточно давно.
>>574316
> практическим задачами
О, и в чем эта самая практика, кроме I want to believe?
У него слишком слабые энциклопедические познания для полноценного ассистирования, это удивляет, потому что здесб должна быть сила MOE. Показалось что внимание сосредоточено на ограниченной области контекста, что ухудшает перфоманс в некоторых задачах. Писать код - у кодлламы соснет наверняка. Кум/рп - слабоват.
>>574337
Ты про сторитейл на основе реплик, или добавления всяких "статусов"? Ничего не понятно, или еще можно предположить совсем странные варианты, но они потребуют генерации огромного количества контекста каждый раз, и врядли какая-то современная модель с этим сейчас справится полноценно.

Аноним 16/12/23 Суб 00:56:49 #57 №574359

>>574337
>Надо сохранить текущий контекст с РП. И сконструировать новый из:
>- промпта ("ниже следует состояние игрового мира и кусок диалога его меняющий, напиши изменённое состояние игрового мира")
>- памяти
>- последнего ответа в диалоге (а не всего разговора)
>Скормить его модели. Она выдаст новое состояние. Заменить им память в сохранённом контексте. И продолжить РП с ним.

Так вроде ж Vector Storage в таверне это и делает.
Конвертирует всю беседу в векторы и потом на основе этих векторов пытается запихнуть небольшой пересказ в сообщения, иногда меня его чтоб модель хоть что-то помнила.

Аноним 16/12/23 Суб 00:58:54 #58 №574361

>>574358
Самое очевидное блять, например одежду или статус девственности и другие физические параметры если они изменяются. Не будешь же ты каждый раз в аутпуте писать во что одет персонаж.

Аноним 16/12/23 Суб 00:59:20 #59 №574362

>>574357
>Не совсем понятно, что там обновлять? Если ты про суммарайз - оно уже есть и реализовано достаточно давно.
Было в памяти: "Хуюгр имеет на поясе 2 гранаты. Впереди бамбр.".
Диалог: "Хуюгр снимает с пояса гранату и метает в бамбра, убивая его".
Стало в памяти после переписывания: "Хуюгр имеет на поясе 1 гранату. Путь свободен."

Аноним 16/12/23 Суб 01:00:09 #60 №574363

>>574359
Как же вы нихуя не вдупляете, я поражаюсь
>>574362
Ну теперь то хоть понятно?

Аноним 16/12/23 Суб 01:00:53 #61 №574365

>>574361
> Не будешь же ты каждый раз в аутпуте писать во что одет персонаж.
Ты не поверишь, лол.
Так и делают, можно скрыть от отображения юзеру и удалять прошлые из более глубокой истории.

Аноним 16/12/23 Суб 01:02:15 #62 №574367

>>574365
Разумеется я знаю что так делают но это дебилизм и трата токенов впустую. Это имеет смысл для более сиюминутных вещей типа настроения или времени

Аноним 16/12/23 Суб 01:05:56 #63 №574368

>>574367
Сотня токенов - такая страшная потеря? И в чем дебилизм, сетки сразу перестают путаться в пространстве и выдавать подобные тупняки. Мелочи обязательно туда статус трусов занести чтобы избежать лишних снятий.
Но раз так критикуешь и уже знаешь - значит придумал лучшее решение, озвучь же его. Пока ничего понять не получается.

Аноним 16/12/23 Суб 01:13:54 #64 №574370

>>574368
Ты сейчас говоришь только об одежде. А подумай об остальных вещах, подумай о трате времени на описание того что может оставаться неизменным на протяжении десятков постов. Ну как можно быть таким ограниченным? Это же вроде очевидные вещи
>лучшее решение
То которое предложил наркоман-кун выше

Аноним 16/12/23 Суб 01:15:10 #65 №574372

>>574362

У тебя и так "в памяти" это будет ебанат.
Ты вообще понимаешь что такое контекст?

Аноним 16/12/23 Суб 01:19:45 #66 №574373

>>574372
Про проблему рассеивания внимания слышал, даун? Я не знаю как это видит тот анон, но я вижу это как поле с 3м по счету (после инструкций и последнего реплая) приоритетом внимания

Аноним 16/12/23 Суб 01:20:34 #67 №574377

>>574372
Нет блять, есть гигантская разница, будет ли сетка сама допирать из контекста состояние мира, или оно будет прописано тобой явно. Ещё и в скользящем окне, хвост которого давно потерян. На этом основаны и интроспекция, и chain-of-thought, и вообще всё на свете.

Аноним 16/12/23 Суб 01:23:15 #68 №574379

>>574373
>>574377

Ты тот додик который бухтел с немого гоблина давеча?
Придумал хуергу какую-то и теперь бесишься.
Author Notes для кого придумали?

Аноним 16/12/23 Суб 01:25:02 #69 №574381

>>574379
Авторс нот может выступать в роли такого поля как и все остальное, больной шизанутый дегенерат. К чему ты его тут упомянул разумному человеку невдомек

Аноним 16/12/23 Суб 01:25:44 #70 №574382

>>574370
> Ты сейчас говоришь только об одежде.
Нет, я рофлю со старых мемов и интересуюсь ради чего весь кипиш.
> подумай об остальных вещах
Что такое контекст слышал?
> как можно быть таким ограниченным? Это же вроде очевидные вещи
Чет взлольнул, если ты/вы настолько косноязычные что неспособны изложить свои мысли, и вместе с этим настолько ограниченны что не можете показать пример их реализации - удел один.
> То которое предложил наркоман-кун выше
Какое, это? >>574362 Инвалидность, но тем не менее реализуемая, тот самый статус.

Аноним 16/12/23 Суб 01:26:32 #71 №574383

>>574381
>хочу чтоб вы зделали автор нотес но чтобы он автор нотес не назывался потому что я умный

Что еще расскажешь?

Аноним 16/12/23 Суб 01:26:33 #72 №574384

>>574379
Да причем тут авторские заметки вообще? Короче ты тупой, я понял. Этой "хуерге" сто лет в обед, адекваты собственно всегда её юзали. Литералли в прошлом треде упоминали the tree of big nigga, это продвинутая версия цепочки размышлений, с тремя агентами.

Аноним 16/12/23 Суб 01:29:31 #73 №574386

>>574382
>неспособны изложить свои мысли
Почему я его прекрасно понял, у тебя проблемы, но даун я? Интересная попытка наебать логику
>>574384
Я думаю было ошибкой было писать в тред таким дегенератам. В аисге и то люди умнее. Они хотя бы не на пигме сидят

Аноним 16/12/23 Суб 01:30:31 #74 №574387

>>574384
>tree of big nigga,

Челик нашел типа умный термин и пытается его использовать хуй пойми зачем.

Аноним 16/12/23 Суб 01:31:48 #75 №574389

>>574387
Ну естественно, ты же слишком тупой чтобы понять зачем.

Аноним 16/12/23 Суб 01:32:57 #76 №574390

>>574389

Что еще расскажешь?

Аноним 16/12/23 Суб 01:33:04 #77 №574391

>>574386
Нет никаких проблем, вижу только рассуждения странных людей о странных вещах пытаясь достигнуть непойми чего.
> я его прекрасно понял [..] но даун я?
Две родственных души нашли друг друга, лол
> В аисге и то люди умнее
Лол, срыгспок

Аноним 16/12/23 Суб 01:33:28 #78 №574392

>>574386
ладно про аисг было немного жирно но все остальное правда

Аноним 16/12/23 Суб 02:15:00 #79 №574402

>>574379
>Ты тот додик который бухтел с немого гоблина давеча?
Не он не тот додик, я этот додик, токсик.

Аноним 16/12/23 Суб 02:29:05 #80 №574406

>>574379
Не ну если он хочет добавить отдельный блок под статус а не использовать костыли в ответах - почему бы и нет, но тогда он не будет виден юзеру и сразу возникает потребность в интерфейсе. Не удивлюсь если там в экстеншнах несколько вариантов реализации уже сделали. Вопрос зачем так рваться и вещать дичь про количество, дорогие токены и прочее, возможно что-то другое себе напридумывал.
>>574377
> будет ли сетка сама допирать из контекста состояние мира
Это ее прямая задача, сети не настолько тупые если ты не сектант мистраля. Подсказки нужны чтобы не упускать важные для рп мелочи и числовые значения, которые сетка может скипнуть или в них ошибиться.
> chain-of-thought
(У Васи 2 яблока, значит он может отдать одну Пете) Петя, держи яблоко! Вот это COT, его суть в подходу к генерации ответа, а не в том что ты поближе в контексте поставишь и четко выделишь нужное. При чем тут скользящие окна и прочее - хз.
>>574402
Гоблин то живой?

Аноним 16/12/23 Суб 02:44:39 #81 №574408

>>574406
>Это ее прямая задача, сети не настолько тупые
То-то они из воздуха персонажей достают и забывают. РП-лента у тебя состоит из изменений состояния, и хвост её теряется, выйдя за контекст. Чтобы писать на основе изменений, нужна нихуёвая дедукция и понимание мира, даже гопота-4 иногда не осиливает вещи типа учёта патронов в револьвере, и стреляет по 10 раз без перезарядки. Поэтому сверхразумы прописывают состояние таких вещей явным образом, и сетке внезапно легчает.

Аноним 16/12/23 Суб 02:49:13 #82 №574411

>>574408
> выйдя за контекст
Для этого и существует суммарайз или всякие извращения с базами и лорбуками.
> Поэтому сверхразумы прописывают состояние таких вещей явным образом, и сетке внезапно легчает.
С этим вроде все согласны, с чего бомбежка то там была и что новое-уникальное предлагалось?

Аноним 16/12/23 Суб 02:53:27 #83 №574412

>>574362
> >Не совсем понятно, что там обновлять? Если ты про суммарайз - оно уже есть и реализовано достаточно давно.
> Было в памяти: "Хуюгр имеет на поясе 2 гранаты. Впереди бамбр.".
> Диалог: "Хуюгр снимает с пояса гранату и метает в бамбра, убивая его".
> Стало в памяти после переписывания: "Хуюгр имеет на поясе 1 гранату. Путь свободен."
Говно идея. Если у модели течет внимание из-за большого контекста, то ты хоть заобсовывайся в начало промпта такими описаниями - так же будут проебываться как и проебывается и без подобной хуйни. Если модель не вывозит выводить из и так имеющей инфы в контексте условное состояние мира, то это никак не поможет. Плюс попробуй ещё заставь автоматом саму модель это описание обновлять - вообще удачи нахуй с накоплением косяков модели в контексте. Если хочется сохранять инфу такую о произошедшем в недостаточно большом контексте и/или в случае туповатой немного модели - для такого Smart Context на векторных БД существует. Но он тоже никак не поможет когда модель просто тупая и не осиливает из контекста вывести факты.

Аноним 16/12/23 Суб 03:03:37 #84 №574415

>>574412
> в начало промпта
Такое вообще бред, если куда и совать то прямо перед постом юзера, остальное только запутает.
> Плюс попробуй ещё заставь автоматом саму модель это описание обновлять
Если делать отдельным запросом со своим промтом где будет четко обозначен шаблон, то проблем особо быть не должно.
> никак не поможет когда модель просто тупая и не осиливает из контекста вывести факты
Абсолютно, это может облегчить и помочь, но никак не исправить дегенератизм.

Аноним 16/12/23 Суб 03:04:24 #85 №574416

>>574408
> Поэтому сверхразумы прописывают состояние таких вещей явным образом, и сетке внезапно легчает.
Сколько с 7-20b моделями таким не пробовал заниматься параллельно надрачивая все параметры генерации - им в среднем похуй что ты там им написываешь и в какие части промпта вставляешь. Спокойно могут запомнить один написанный факт и его поправки, но при этом забыть нахуй все остальные прописанные факты и вдобавок что было написано 100 токенов назад и нести хуйню и всякое подобное в сотне вариаций. Как там у владельцев 3090/4090 и 64гб рамы с 34b+ моделями не ебу, но на меньших это просто бесполезное и тратящее нервы жевание кактуса.

Аноним 16/12/23 Суб 03:05:47 #86 №574418

>>574415
> Абсолютно, это может облегчить и помочь, но никак не исправить дегенератизм.
Имхо проблема в том, что если дегенератизм уже проявляется у модели, то такая хуйня обычно как мертвому припарка.

Аноним 16/12/23 Суб 03:06:33 #87 №574419

>>574412
Как ты векторы собрался юзать для изменяемой инфы, дебил? Триггернется слово, в контекст рандомно выпадет "воспоминание" про 4 или 0 патронов или вообще левую хуйню

Аноним 16/12/23 Суб 03:12:41 #88 №574421

>>574419
Во-первых, я и не собирался, читать, блядь, научись. Во-вторых, религия не запрещает раскладывать воспоминания в промпт не в рандомном порядке, а в хронологическом/по релевантности и не только. В-третьих, пошол нахуй.

Аноним 16/12/23 Суб 03:15:46 #89 №574423

>>574416
Здесь по сути речь больше про рп-механики и всякие статусы чтобы снизить вероятность фейла и все, глобально ничего не поменяют.
> с 34b+ моделями
По 2 раза трусы не снимают
>>574418
Ну да, когда оно может залупиться в одном посте то о чем вообще говорить.

Аноним 16/12/23 Суб 03:21:40 #90 №574425

>>574421
Чурка, ты русский язык вообще понимаешь? Ты предложил, а значит тот словесный оборот уже был уместен. >Во-вторых, религия не запрещает раскладывать
Где ты найдешь такие умные вектора? Это буквально означает иметь вторую гпт4 под боком с бесконечным контекстом. Сам понял наконец какую хуйню высрал то, дебил?

Аноним 16/12/23 Суб 03:24:01 #91 №574427

>>574423
> > с 34b+ моделями
> По 2 раза трусы не снимают
Ну хоть что-то.

>Здесь по сути речь больше про рп-механики и всякие статусы чтобы снизить вероятность фейла и все, глобально ничего не поменяют.
Да это понятно. Я с таким пробовал экспериментировать как уже сказал на 20b<, уже хотел писать хуйню для таверны чтобы это всё автоматизировать, но забил хуй. Зачастую хоть удрочись им объяснять структуру промпта с инфой о механиках, статусах, событиях, etc. в любых вариациях эти ретарды в половине случаев запомнить не могут адекватно что на персонаже надето было только что вот, кто что делал, сказал и какого хуя вообще происходит. Сижу жду когда ещё 32гб рамы приедут потыкать уже что-то посерьезнее как белый человек один хуй с говноскоростью спасибо амуде

Аноним 16/12/23 Суб 03:30:14 #92 №574429

>>574425
> Чурка, ты русский язык вообще понимаешь? Ты предложил, а значит тот словесный оборот уже был уместен.
Ты бы себе сначала контекст в голове побольше 20 токенов сделал, чтобы дальше половины одного предложения уметь написанное воспринимать, прежде чем хуйню тут писать.

> Где ты найдешь такие умные вектора? Это буквально означает иметь вторую гпт4 под боком с бесконечным контекстом.
А в SillyTavern с chromadb то и не знали, что так нельзя и сделали, вот дебилы.

Аноним 16/12/23 Суб 03:35:18 #93 №574432

image.png

>>574429
Они узнали сразу как только попробовали, не сделав этого узнать это было бы очевидно нельзя, глупая чурка.

Аноним 16/12/23 Суб 03:37:54 #94 №574433

Сука ебаная, сколько часов всрал на этот сраный cogvlm. Эта падла по дефолту страдает очень короткими описаниями и внезапным EOS токкеном без причины
> The picture is of a man flying through the clouds. He is wearing a red cape and has a blue suit on underneath. His face is obscured by his cape, but
Если семплинг убрать то оно в лупы сваливается.
Раскурил их обертку трансформерса, переделал текстпроцессор и сопутствующую хуету там, уже в самую сраку залез чтобы понять что там еще модель припезднутая дичайше.
А они, оказывается, у себя в репе выложили нормальные экзамплы для белых людей обнимордовской версии без всей этой херни. Пиздец нахуй. Может завтра жопа остынет и с ними получится, или нет.

Если кто завел и получил хороший результат - реквестирую ассистенс.

>>574427
Емнип, в старых промтах образцы довольно простые были, но ключевой момент в дополнительных диррективах и примерах. Максимально упростить, не тащить много - может и получится. В идеале это стоило бы включить в формат карточки чтобы автор мог и указание написать, и список параметров, и примеры. Но больше вреда еще окажется когда всюду без причины начнут совать.
С 20б вообще чуть ли не за ручку надо и нежно-понятно, тогда будет хорошие тексты выдавать.

Аноним 16/12/23 Суб 04:14:32 #95 №574453

1602547854733.png

>>574432
Бля иди нахуй просто дегенерат с пониманием написанного на уровне 1B моделей. Попробовали, кого попробовали блядь, скрин про мемгпт зачем-то принес, в котором прямо написано, что в таверне уже смарт контекст на векторах есть, который умеет раскладывать по релевантности-времени воспоминания, о чём я и упомянул, вместо того чтобы принести куда более подходящий пикрелейтед из ссылки в том комменте. Доебался до какой-то хуйни, которую я не говорил, и сидит мозги ебет.
Да блядь смарт контекст на векторах хуево в общем работает для РП-специфики, нихуя себе глаза открыл он тут, а я где-то обратное утверждал? Просто упомянул что смарт контекст существует, но у шиза neuron activation на триггер ворд с соломенным чучелом воевать сразу с агрессией. Иди в траве вектора потрогай, блять.

> Максимально упростить, не тащить много - может и получится.
Ну вот в простых случаях ещё как-то работало у меня.
Тут под каждую модель придется удрачиваться один хер. Возможно что-то с лорами/тюном на такое можно поэффективнее улучшить, но это надо заебаться ещё больше с экспериментами и запиливанием датасетов.

Аноним 16/12/23 Суб 04:16:55 #96 №574456

>>574453
>>574433
Второе сюда.

Аноним 16/12/23 Суб 04:50:28 #97 №574462

>>574453
>скрин про мемгпт зачем-то принес
С английским тоже плохо, да? Это скрин не про мемгпт а про вектора. Мемгпт это суммарайзер плюс вектора (хотя кохи и так это написал, но видимо проблема с чтение анлгийского без переводчика стоит очень остро). После такой демонстрации уровня понимания даже обыкновенного англюсика (при том, что я специально выделил нужное(!)), дальнейший поток бреда, бабахов и беспочвенных оскорблений от тупой необразованной чурки не считаю нужным читать.

Аноним 16/12/23 Суб 08:11:42 #98 №574482

Анон, подсоби. Есть задача распарсить несколько тысяч технических условий и извлечь оттуда параметры в виде json. Ранее делал тупо - очистка текста + регулярки. Ради интереса заюзал ChatGPT и получил приемлемый результат. Вопрос - какую модель можно заюзать для этих целей на довольно слабом ноуте с 6Гб и имеет ли вообще смысл?

Аноним 16/12/23 Суб 11:18:47 #99 №574542

>>574337
> Блять, ты осознаёшь вообще как кобольд конструирует контекст?
Шиз, таблы.
Дальше на твою шизу я отвечать не стал, люди тебе с самого начала по факту отвечали, а ты в лужу только пердишь и злишься, какие все вокруг тугие.

>>574358
> У него слишком слабые энциклопедические познания для полноценного ассистирования
А на чем тестил, какие области? Может я и не прав, канеш, я так, минут десять погонял.

>>574368
Он озвучил, просто мы не осознали его гения. =)

Нихуя вы дальше всю ночь срались из-за нихуя.

>>574482
> слабом ноуте с 6Гб
Нет, не имеет. Модель будет даунская, контекст не влезет, все умрет обоссавшись и обосравшись.

Аноним 16/12/23 Суб 12:32:04 #100 №574572

>>574482
Даже четверка будет обсираться на большом аутпуте иногда и времени оно будет занимать много. Используй ее для написания регексов

Аноним 16/12/23 Суб 13:16:18 #101 №574599

>>574482
> на довольно слабом ноуте с 6Гб
Если есть рам и терпеливый - можешь 34б китайцев, у них и контекст большой и справляются с подобным.
>>574542
> какие области?
Разные, тоже на скорую руку разумеется, но постарался что-то не дефолтное из популярных запросов, а техническое или на размышления/какую-то последовательность.
Попросил рандомную но заморочную херню по кодингу, пикрел. На двух скринах кодлламы (визард и xwin), на двух микстраль. Где кто догадаться несложно, полагаю.
Алсо с задачей и гопота не справилась, офк не тот промт и т.д., но условия те же - пик 5-6.

Аноним 16/12/23 Суб 13:46:50 #102 №574611

>>573687 (OP)
Короче аноны перепробовал все что мог. Прикол в том что модель не заводится 34b в память уходит, а как пишет ответ так это или шиза или повторение промпта или ответа, а все ниже нормально заводятся в таверне. Прикол в том что до зависания компа все нормально работало. Распределяю модель между оперативками 32 гига и видюхой 12 гигов, в итоге не выдает нормального ответа как будто памяти не хватает. При том памяти отожрано например 16 гигов оперативы и 10 гигов видеопамяти. Модель квантованная на 3 кванта. Переустановил винду, попробовал разное количество слоев кидать, переустанавливал драйвера, менял местами плашки оперативы в итоге всегда херовый результат. В чем еще может быть дело?

Аноним 16/12/23 Суб 14:37:34 #103 №574637

image.png

Наконец я нашел,нормальные настройки промпта для микстрала в таверне. И главное не забыть вырубить галку на добавление BOS токенов.Плюс ни в коем случае не использовать rep pren, а так же rep pen range так-как он глючный с микстралом, из-за него всё в лупы уходило. И все заработало как часы.

Аноним 16/12/23 Суб 14:39:30 #104 №574639

у кого-нибудь получалось запустить multimodal text-generation-webui?

как запускаю:
https://pastebin.com/eZZDWSSg

как это говорят запускать в доке:
https://github.com/oobabooga/text-generation-webui/tree/main/extensions/multimodal

Залупа ёбаная, ебусь уже два дня

Аноним 16/12/23 Суб 15:23:29 #105 №574664

>>574611
Проверь оперативу, memtest или что-нибудь такое. И винты проверь на бэдблоки

Аноним 16/12/23 Суб 15:52:02 #106 №574679

image.png

>>574664
все проверил. Все нормально. ошибок нет в оперативе, в дисках блоков плохих нет, качал и модели новые и на разные диски кидал и где 13b модели тоже. Вот пример все кинул в оперативу это yi 34 b .выдает такой результат.

Второй пример все кидаю в оперативу так же но 20b модель. И все нормально работает....

Аноним 16/12/23 Суб 15:58:46 #107 №574686

Кто откуда берет персонажей? Ну помимо chub.ai

Аноним 16/12/23 Суб 16:04:00 #108 №574690

изображение.png

>>574637
Спасибо конечно за настройки.
Но за что это нам?

Аноним 16/12/23 Суб 16:04:08 #109 №574691

>>574686
Чуб.ейай

Аноним 16/12/23 Суб 16:11:38 #110 №574700

Безымянный.png

>>574679
WARNING: failed to allocate 15864.62 MB of pinned memory: out of memory
Кажется нашел проблему, но как ее решить и почему ее раньше не было....

Аноним 16/12/23 Суб 16:23:12 #111 №574707

>>574700
более долгим тестом пройдись по памяти, поищи чем и как нормально проверять

Аноним 16/12/23 Суб 16:26:22 #112 №574714

>>574707
Прошелся полностью раз 7 уже. Юзал Test Memory 5 с экстремальными настройками.

Аноним 16/12/23 Суб 16:40:39 #113 №574728

>>574714
а llama.cpp запускает? у тебя какой то кобальд тут странный

Аноним 16/12/23 Суб 16:41:40 #114 №574730

>>574637
А для каких целей ты используешь нейронку? Я что-то не заметил разницы - что с включенным инструктом, что выключенным, пишет на одинаковом уровне. И не только мистраль.

Аноним 16/12/23 Суб 16:49:53 #115 №574740

>>574728
кобольд с min-P был. Щас его уже нет в репах, видимо в кобольде дело стало только не пойму почему. Я скачал две версии повыше и они не работали, а сейчас скачал 1.52.1 и она таки заговорила как надо. Хотя до этого на тех версиях все работало и с 34b. Ну да ладно проблема решилась, спасибо тем кто откликался, дня 4 потратил на это...

Аноним 16/12/23 Суб 16:56:58 #116 №574753

da84f3c3f3e18a3e71ca925767bdd983.jpg

>>574740

Аноним 16/12/23 Суб 17:22:26 #117 №574768

image.png

Screenshot20231216171835.png

заебал аутофмемори
Купил себе год назад нахуй 3070ti, сосу жопу на ней. Игор то все равно нет, а нейронки не умещаются нихуя.

кто-нибудь тут пробовал заказывать вот эти карты?
K80 https://aliexpress.ru/item/1005003759476860.html?
Стоят - ёбаные копейки. Я сначала даже не поверил, что 24 гб видеопамяти можно получить за 9к.
Или лучше даже P40 https://aliexpress.ru/item/1005005310308659.html - 16к.
В чем подвох?
Может на них новая CUDA не будет работать? Или на них сложно размазать большую нейросеть, если брать больше одной?

Аноним 16/12/23 Суб 17:23:24 #118 №574770

>>574637
С убабугой/кобольдом используешь? Как по качеству рп с таким? Сильно лупится без rep pen?
>>574639
Удавалось запустить на трансформерсе (взлетит разве что на 24гб врам или медленно на профессоре) и на жоре. Ну или cogvlm, модель что 490 - пиздец курсед залупа а grounding странная и местами неадекватно промт вопспринимает. Чат что v1.1 хорошая, с ней все ок.
>>574740
> кобольд с min-P был. Щас его уже нет в репах
Мин-п уже давно везде есть сам по себе, курсед сборка наверно.
На китайских моделях у жоры были глюки с некорректными bos токенами и еще чем-то из-за чего результат был отвратителен. Скорее всего у тебя такая дырявая версия где это не пофиксили.

Аноним 16/12/23 Суб 17:26:44 #119 №574776

>>574768
> K80
Не лезь бля она тебя сожрет.
> P40
Вот она может быть перспективна, есть заявления о том что на ней работает дохуя (для нее офк) быстро, есть наоборот что не годная ни на что некрота. Одному из местных она еще едет, возможно скоро будут тесты.
> В чем подвох?
Древняя архитектура, низкая мощность, медленная врам, отсутствие ускорения на 8-4 битах.

Аноним 16/12/23 Суб 17:30:43 #120 №574784

>>574770
>cogvlm
Они кстати там ещё CogAgent тренят. https://github.com/THUDM/CogVLM#introduction-to-cogagent

Учитывая что для CogVLM основной пример у них это автообход капчи, а тут ещё CogAgent, натрененый на взаимодействие с гуём программ, возникают вопросы мотивации этих челов, лол. точат сетку под ботоводство

Аноним 16/12/23 Суб 17:33:11 #121 №574787

>>574776
> медленная врам, отсутствие ускорения на 8-4 битах.
В сравнении с чем? с 1050 или с 4090?

Аноним 16/12/23 Суб 17:37:37 #122 №574791

>>574787
Быстрее первой но медленнее второй, примерно как у простой 3060. По перфомансу чипа сложно сравнивать, это паскаль со всеми вытекающими и в нейронках будет точно медленнее той же 3060.

Аноним 16/12/23 Суб 17:44:07 #123 №574795

Анонче, хочу себе взять 3060Ti или 4060, для игор и так же хотелось бы гонять нейронки. Что из этого взять? Есть так же вариант просто 3060, т.к. у неё памяти больше. Но это действительно так, что для нейронки важна именно память, а не все остальные показатели? В общем, подскажите, пожалуйста, что из этого взять, или что-то из подобного ценового диапазона.
Я так-то на проксях сижу, в основном, но по долгу службы хотелось бы иметь возможность нейронки у себя поднимать на машинке.

Аноним 16/12/23 Суб 17:44:40 #124 №574796

>>574599
Ну слушай, первые две лучше, канеш, но вопросы остаются.
Во-первых, промпт там корректный был? А то я в убабуге какой-то замороченный видел.
Во-вторых, буру-теги, думаешь, она поняла о чем ты вообще? Кмк, это могло сильно подгадить ответу.

Но в общем, да.

>>574690
У меня микстраль в расизм/сексизм/чтоугодноизм вообще без вопросов лезет, на дефолтном промпте убабуги, без негативов и прочего. Причем даже карточки персонажа нейтральные, ей поебать.

>>574768
Миллион раз.
Паскали — убермедленные, на грани DDR4 (или быстрее в 2-3 раза).
Кеплеры ваще не смотри, там поедете еще медленнее.
Но именно P40 имеет отзывы, что она летает быстрее Tesla A80, и вообще — ракета. Но непонятно кому верить, потому что другие заявляют о перформансе равном рассчетному.

Короче, ждем, пока какому-нибудь анону придет эта карта с озона (ссылку я кидал пару тредов назад), и он наконец решит спор.

Аноним 16/12/23 Суб 17:45:21 #125 №574800

>>574795
4060ti 16 гигов, очевидно.
Если нет — то 3060@12

Аноним 16/12/23 Суб 17:47:11 #126 №574806

>>574795
Чем больше памяти, тем более пиздатую сетку ты сможешь воткнуть, и тем больше применений. Скорость до определённой степени вторична, быстрая карта с нихуём памяти тупо бесполезна.
ну и всё равно под тяжёлые применения придётся арендовать GPU

Аноним 16/12/23 Суб 17:51:43 #127 №574812

>>574800
>>574806
Спасибо, ануняки! Кажется, немного поднакоплю и возьму 4060ti, в таком случае. А другой вопрос.
Для рп какая сейчас мета? В aicg постоянно пропихивают пигму 7B, что она даже некоторые нелокальные обгоняет. Но кажется, что пигма это уже что-то прям совсем старое должно быть на данный момент.
Вышло что интересное, что я мог пропустить?

Аноним 16/12/23 Суб 17:54:10 #128 №574815

1702738443496.jpg

>>574812
> В aicg постоянно пропихивают пигму 7B
Тебя крупно наебали, пробуй модели из шапки сначала.

Аноним 16/12/23 Суб 17:59:00 #129 №574819

>>574795
могу тебе 3070Ti подогнать.
Если тебе для игор. В плане нейронок я на ней смог пока только openchat-3.5 q4k_m запустить. Хочется большего.
>>574768-кун
какие нахуй игры в 2024, калфилд ёбаный в 1080р на 15 фпс гонять? Ну ладно, не моё дело, где ты там в 2024 игры нашел. Балдурсгейт был неплох, да, но только вот он и всё, больше ничего.

>>574806 - прав

Аноним 16/12/23 Суб 17:59:23 #130 №574820

>>574796
> первые две лучше
Да, они пытаются выполнить поставленную задачу. С ошибками офк, там чтобы сразу работал код ни одного варианта нету, но пытаются. Причем один из запросов на русском языке отработало вполне прилично.
Микстраль же при запросе на великом-могучем подзафейлил даже разметку и вообще не понял задачу. Во втором случае что-то попытался, но опять часто про анализ пикч проигнорил. Хз, типикал поведение 7б, офк для такого размера огонь, но вот уже для 56/42б - хз.
> промпт там корректный был?
Все на скринах, там альпака, ### заголовком после маркдауна становится, и мистралевский [INST] [/INST]. По поводу последнего - особо не заметно чтобы он перформил лучше альпаки, но может просто так выпадало.
Алсо если приказать микстралю писать код и комментировать на русском - постоянно лезет внезапный EOS токен и норовит прервать выдачу.

> Во-вторых, буру-теги, думаешь, она поняла о чем ты вообще?
Ну какбы это тоже часть задачи, кодллама же понимала, хотя не должна была. Задача довольно сложная, хоть и бессмысленная, поскольку требует применения очень свежих функций, которые еще связаны между собой и легко запутаться в них. Преимущества у микстральки тоже есть, например трасформерс и ллама-токенайзер он понимает лучше чем wizard-coder, который норовит пихнуть gpt-2 или другие модели 1.5-летней давности. Xwin coder более свежую базу имеет и легче подхватывает. Гопота выебывается что сложна-сложна, но скорее всего если початиться - выплюнет наверняка.

Аноним 16/12/23 Суб 18:00:12 #131 №574823

>>574796
Микстраль кстати очень крут. По русски как гпт 3 шпарит.
Только не понятные подвисания бывают. Кручу на проце 2-4 токена в секунду, но иногда бывает скорость падает до 0.3 токенов в секунду, а после этого снова возвращается в 2-4.

Аноним 16/12/23 Суб 18:01:36 #132 №574824

>>574823
> Микстраль
Какой?

Аноним 16/12/23 Суб 18:02:41 #133 №574825

>>574815
Да я понимаю, что наебали. Пигма стара как мир, и я трогал её уже.
Просто не понятно, насколько далеко локалки продвинулись за то время, как я их не трогал, конкретно в плане рп.
И хуй знает, в том треде многие рекомендуют старые версии нейронок из-за отсутствия цензуры и сои, может здесь похожая ситуация, что пигма за счет этого вытягивает. Но сам не в курсах.
Добра тебе, гляну шапку.

Аноним 16/12/23 Суб 18:06:27 #134 №574828

>>574824
mixtral-8x7b-instruct-v0.1.Q3_K_M.gguf

Аноним 16/12/23 Суб 18:09:28 #135 №574833

2023-12-1621-08-46.png

>>574828
> 8x7b
Мне же не влезет. Это же 7b

Аноним 16/12/23 Суб 18:11:42 #136 №574838

У вас колаб стартует или тоже ошибками сыпет под конец?

Аноним 16/12/23 Суб 18:12:38 #137 №574839

>>574776
>Одному из местных она еще едет, возможно скоро будут тесты.
Трекнул. Прошла растаможку и едет в поезде в мои ебеня.

>>574768
>Может на них новая CUDA
Подвох в том, что они не умеют работать с числами разрядностью меньше 16 и в них нет аппаратного умножителя матриц. Поэтому прирост производительности от квантов будет буквально никакой.
Проверял 7b на 1070 - Прирост в 4+ раза на lama.cpp и просто хреновая работа на autogptq.

Аноним 16/12/23 Суб 18:13:27 #138 №574840

>>574838
План по посадкам на этот год выполнен, бюджетов нет больше на поддержание зондов.

Аноним 16/12/23 Суб 18:15:13 #139 №574844

>>574839
>K80
А эта просто медленная/медленная.

Аноним 16/12/23 Суб 18:24:01 #140 №574852

>>574820
> для 56/42б - хз.
Ну так эти 42 размазаны по разным областям.

Окей, я потыкал ее пару раз твоим запросом — пока ниче внятного не дала, признаю.
Выходит, мое первое суждение о том, что она просто удобный универсал, который анонам не нужен, так как аноны и сами могут поменять модель когда надо, остается верным.

Зато она на русском норм болтает для ее скорости, я доволен. х)

>>574823
У меня иногда 0,6 бывает, подтверждаю. Причем, непонятно почему. Но пока дважды такое ловил, не придавал значения.

>>574828
ОХ
третий квант на 7б модели, которая еще и жмется плохо по словам разрабов… сочувствую.

>>574839
Отличненько, ждем!

Аноним 16/12/23 Суб 18:24:48 #141 №574853

>>574833
И оперативы меньше 32?

Аноним 16/12/23 Суб 18:26:11 #142 №574857

image.png

>>574820
И далее она написала все функции с комментарием «здесь реализуем…» =D

Аноним 16/12/23 Суб 18:26:58 #143 №574858

>>574853
Нет, 32 рам и 8 врам, а скорости же нахуй пройдут.

Аноним 16/12/23 Суб 18:31:41 #144 №574866

>>574852
>третий квант на 7б модели
Можно попробовать q5. Когда через lama модели грузишь они в системе странно отображаются. Сам процесс показывает 20 гигов занимает в данном случае как и должна q3, а общий баланс оперативы в диспетчере почти не меняется. Там несколько гигов только занято. Может оно не полностью в память грузится.

Аноним 16/12/23 Суб 18:33:21 #145 №574870

>>574852
> потыкал ее пару раз твоим запросом — пока ниче внятного не дала
Если тыкать более простыми и с использованием более старых/традиционных средств то сделает получше. Что еще не понравилось - не смогла переписать заданный ей код в васян-стиле по стандартам и реализовать некоторые пожелания, хотя кодллама с этим хорошо справляется и он примерно в половине случаев даже работает, в остальных требует небольших правок.

Кодлламу 7б и подобного размера модели не тестил, конечно, возможно микстраль лучше их. Ну и какой вообще ожидать перфоманс по коду хз, может среди этих экспертов питонистов и нет.

Аноним 16/12/23 Суб 18:33:47 #146 №574871

>>574858
Что поделать. С 32 гигами 3 квант работает. А у тебя еще можно и в видюху несколько слоев скинуть, будет еще лучше я думаю.
Попробуй.

Аноним 16/12/23 Суб 18:38:38 #147 №574876

>>574866
Я всегда mlock тыкаю.
Ну и в 64 гига q8 влазит.

>>574871
Че-т не будет.
Я седня тыкал ее на игровом — скорость была скакала как пойдет, от 1,6 до 2,2.
А на сервере ✓ cpu — 2,4-2,8.
Микстраль в видяху пока не але.
Ну или у меня версия не самая новая и уже пофиксили, хз.

Аноним 16/12/23 Суб 18:40:33 #148 №574877

image.png

>>574876
Ryzen 5 5500 + DDR4 3200 в двухканале.
Mixtral Q8_0.

Аноним 16/12/23 Суб 18:51:21 #149 №574883

>>574768
Серверные карты рассчитаны на внешний воздухоток в корпусе. Кулер придётся докупать специальный.

Аноним 16/12/23 Суб 18:54:04 #150 №574885

>>574883
Да любой купить и на скотч приклеить. :3
Ну или резинками какими присобачить. Делов то.

Аноним 16/12/23 Суб 18:55:00 #151 №574886

>>574883
А если у меня в корпусе 3 на вдув 4 на выдув больших вентилятора это считается за воздухоток?

Аноним 16/12/23 Суб 19:21:53 #152 №574899

>>574886
Нет, если они не создают поток как у воздуходувки.

Аноним 16/12/23 Суб 19:47:35 #153 №574911

>>574297
Как крутить настройки писать системный промпт у SUSChat чтобы модель не отвечала за меня, анон?

Аноним 16/12/23 Суб 20:18:10 #154 №574926

>>574911
У меня на Roleplay, ChatML и Default за меня не говорил никогда

Аноним 16/12/23 Суб 20:50:35 #155 №574953

>>574926
Ну значит тебе повезло.
А то как то не комильфо пиздить Марию, где она посреди действия начинает писать за меня и уже пиздить меня, лел.

Аноним 16/12/23 Суб 20:53:57 #156 №574958

>>574770
> С убабугой/кобольдом используешь? Как по качеству рп с таким? Сильно лупится без rep pen?
Если через min_p 0.02 и темературку в 1.0-1.15 не лупится вообще.

Аноним 16/12/23 Суб 21:01:58 #157 №574968

1591404529097.png

Ну вот и всё. Весь топ-3 занят 7В, 70В рп-кал уже даже не в десятке.

Аноним 16/12/23 Суб 21:02:52 #158 №574970

>>574953
Попробуй в author notes добавить мол чар не будет говорить за меня.
Скорее всего с карточкой просто глюки какие-то

Аноним 16/12/23 Суб 21:04:09 #159 №574972

>>574968
И теперь веры этому списку еще меньше

Аноним 16/12/23 Суб 21:05:45 #160 №574974

>>574970
Да эту банальщину я сразу сделал. Оно не всегда помогает, вот в чем дело. Тому и думал, может есть настройки волшебные. Кста, а какие у тебя настройки в Text Gen WebUI presets?

Аноним 16/12/23 Суб 21:09:40 #161 №574978

>>574974
Я через таверну КУУМлю.
Если ты через угабугу - поставь таверну, чего ты.

>Undi95/Plap-7x20B-GGUF

Тем временем унди понесло.

Аноним 16/12/23 Суб 21:12:55 #162 №574979

>>574978
Так я тоже про таверну. Силли таверну.

Аноним 16/12/23 Суб 21:13:03 #163 №574980

>>574978
На чём кумишь? Что лучше в ерп

Аноним 16/12/23 Суб 21:16:19 #164 №574981

image.png

>>574979
Тогда может с самплером у тебя проблемы?
Поставь симпл-1
Там всегда все работает.

>>574980

Выше уже писал модели какие ща топовые.

Аноним 16/12/23 Суб 21:16:40 #165 №574983

>>574885
Не знаю, я бы предварительно на ютубе глянул как люди это решают. У них там кожух какой-то специальный.

>>574886
Да, но не такой который нужен.

Аноним 16/12/23 Суб 21:19:43 #166 №574988

>>574981
>Поставь симпл-1
Значит у тебя просто голый пресет и все?

> какие ща топовые.
Ну кста, таки насчет суперсусачата - чет оно иногда дикий тупняк включает.

Аноним 16/12/23 Суб 21:20:36 #167 №574992

>>574981
>Выше уже писал модели какие ща топовые.
Эьо микстрал который?

Аноним 16/12/23 Суб 21:21:38 #168 №574994

>>574981
> симпл-1
Самый каловый пресет. Если реально надо чтоб всё просто работало, то лучше миростата ничего нет.

Аноним 16/12/23 Суб 21:22:56 #169 №574995

>>574994
Миростат хуёво с mixtral работает.
А ты gold, bronze silver берёшь?

Аноним 16/12/23 Суб 21:24:58 #170 №574996

>>574988
Нет у меня свой, но просто для теста поставь.
С ним всегда хоть и немного уныло, но работает.

>>574994

Миростат хороший.
Но на некоторых моделях (не только микстрале) все в говно уходит.
Опять же, для дебага лучше симпл-1 нету.

>>574992
В 34 SUSChat все еще топ.
В 20 Норомейда, Rose-kimiko или Iambe-storyteller
В 13 хуй знает чо там, Mythalion-Kimiko с 8к контекста потестировал. Очень годно.

Аноним 16/12/23 Суб 21:30:14 #171 №574998

>>574996
>SUSChat
русский знает? или там все мозги китайско-английским забиты?

Аноним 16/12/23 Суб 21:31:52 #172 №575000

>>574998
Он на yi сделан, с этим конкретно не пробовал но обычный yi в русский нормально мог

Аноним 16/12/23 Суб 21:41:26 #173 №575008

Господа, подскажите, пожалуйста: стриминг в кобольдспп + силлитаверн возможен? Стандартно всё работает, но стриминга нет. Ключ ?streaming=1 не работает, с ним просто не соединяется с бэкэндом

Аноним 16/12/23 Суб 21:44:11 #174 №575011

>>575008
Настройки семплера и настройки подключения покажи в таверне.

Аноним 16/12/23 Суб 21:45:14 #175 №575014

.png

>>575011
Такие:

Аноним 16/12/23 Суб 21:46:15 #176 №575015

image.png

>>575014

Аноним 16/12/23 Суб 21:46:40 #177 №575016

>>575014
И потоковый ввод в семплере

Аноним 16/12/23 Суб 21:56:12 #178 №575020

>>575015
>>575016
Спасибооо! Работает. Вроде очевидно, но моя тупость была сильнее

Аноним 16/12/23 Суб 21:59:29 #179 №575023

Я тупой. Как в llama.cpp врубить более быстрый процесинг промпта у mixtral, обещают 3 раза быстрее, но опций никаких нет. В скобочках cpu only, это тоесть на cublas не работает? Или что?

Аноним 16/12/23 Суб 22:07:58 #180 №575034

>>574958
Ну и шиза же там будет на выходе, но зато разнообразная, лол.
>>574968
А что за топ? Гопоту 5 уже победили?
>>574970
> Попробуй в author notes добавить мол чар не будет говорить за меня.
Это должно стоять или в системном промте или в инструкции перед ответом и в другой формулировки. Чар в любом случае никогда за тебя не будет говорить, как вы этого понять не можете.

Аноним 16/12/23 Суб 22:10:09 #181 №575038

>>574968
Бенчи кал, гони человеков. Даже пусть лмсисовскую арену.

Аноним 16/12/23 Суб 22:14:20 #182 №575042

>>575034
> Ну и шиза же там будет на выходе, но зато разнообразная, лол.
Да вроде бы нет. Но суть в том, что rep pen на микстрал багнута. Оно со временем начинает выдавать токены в 100% вероятности, чего нет на других моделях в принципе..

Аноним 16/12/23 Суб 22:27:46 #183 №575053

>>575038
Главное чтобы человеки ее не подкручивали и было понятно что тестируется.
>>575042
Да офк лучше так чем в лупах утопать.
> Оно со временем начинает выдавать токены в 100% вероятности
Вут?

Аноним 16/12/23 Суб 22:28:49 #184 №575055

>>575038
> Даже пусть лмсисовскую арену.
А с арены чего ты порвался? Лучше неё нет тестов так-то.

Аноним 16/12/23 Суб 22:34:37 #185 №575060

>>575053
> > Оно со временем начинает выдавать токены в 100% вероятности
> Вут?
Ну то бишь вероятности некст токена достигают 1.0, хз как еще объяснить, я ща уже тот пост хуй найду. Там было более технически подробно описано.

Аноним 16/12/23 Суб 22:44:31 #186 №575064

>>575015
Этот OAI совместимый api, кста, пока не все фичи кобольда поддерживает. По крайней мере, в одном из последних релизов koboldcpp так было написано. Порядок семплеров и ещё что-то там не пашет, не помню уже. Так что на текущий момент лучше классический апи использовать.

Аноним 16/12/23 Суб 22:51:35 #187 №575069

image.png

>>575064
Первый раз слышу, но ты там же можешь выставить старый апи

Аноним 16/12/23 Суб 22:59:08 #188 №575075

>>575034
>Это должно стоять или в системном промте или в инструкции перед ответом
Author notes можно ставить на любую глубину чата, так что можно как после описания перса, так и в самом конце чата поставить. И можно оформить текст с нужными префиксами/суфиксами типа ###Instruction. Единственное, не помню, запихивает ли таверна имя персонажа или юзера перед авторской заметкой, что может мешать восприятию заметки как инструкции.

Аноним 16/12/23 Суб 23:08:52 #189 №575079

image.png

>>575069
Это в ченжлоге к версии 1.50.1 было. Про сэмплеры там имеется в виду, что этих не было изначально в OAI compatible api, а в этой версии их туда добавили. Т.е. функционал туда позже завозится.
>ты там же можешь выставить старый апи
Можно, но зачем, если KoboldAI Classic API и так пашет со всеми сэмплерами, их порядком и стримингом.

Аноним 16/12/23 Суб 23:34:33 #190 №575101

>>575079
> их порядком
Зачем? Кроме прославления величайшего достижения семплеростроения офк.

Аноним 17/12/23 Вск 01:26:16 #191 №575167

>>575075
>имя персонажа или юзера перед авторской заметкой

System

Аноним 17/12/23 Вск 02:03:19 #192 №575185

Screenshot20231217020110.png

как сплиттить модель на две карты?
лоаде llama.cpp,
--gpu-split и tensor-split - кажется нихуя не работают.
пробовал
--gpu-split 6,5
--gpu-split 5,5
--gpu-split 4,4
--tensor_split 1,1
--tensor_split 1,1 --gpu-split 4,4

все время ебаная out of memory.

./start_linux.sh --model models/deepseek-coder-6.7b-instruct.Q5_K_M.gguf --n-gpu-layers 35 --n_ctx 8192 --tensor_split 4,4

чяднт?

Аноним 17/12/23 Вск 02:14:10 #193 №575187

Screenshot20231217021323.png

>>575185
так..... у меня получилось азделить модель, но она как-то конценым образом раздляется.
Указал
--tensor_split 1,3
а разделило нихуя не 1 к 3.

Было бы здорово, если бы кто-нибудь подсветил чё это за хуйня.

Аноним 17/12/23 Вск 02:37:51 #194 №575193

>>575185
>>575187
Через куда визибл девайсез ставь первым (нулевым) устройством более мощную карту с большей врам. На нее приходится еще контекст, на который llamacpp отжирает неприлично много. Отпиши что там по перфомансу получается.
А так вообще если грузишь модель что полностью помещается в видеокарту и карточки не лютая некрота - вкатывайся в экслламу. Никаких проблем со сплитом (офк про контекст на первую карту также актуально), все задается гигабайтами, кушает меньше врам и работает быстрее.

Аноним 17/12/23 Вск 02:39:56 #195 №575194

Screenshot20231217023457.png

Screenshot20231217023541.png

image.png

>>574776
>Одному из местных она еще едет, возможно скоро будут тесты.

немного к слову про производительность P40:
модель deepseek-coder-6.7b-instruct.Q5_K_M.ggu

с батлнеком в виде 1060@6:
Output generated in 36.76 seconds (14.01 tokens/s, 515 tokens, context 623, seed 1119528441)
Output generated in 29.67 seconds (14.86 tokens/s, 441 tokens, context 623, seed 98203181)

на ЦПУ AMD Ryzen 5 3600 6-Core @ 12x 3.6GHz, двухканал DDR4 3200 МГц
Output generated in 91.47 seconds (5.61 tokens/s, 513 tokens, context 623, seed 1429907747)
Output generated in 73.45 seconds (5.83 tokens/s, 428 tokens, context 623, seed 1813178837)

учитывая, что P40 выше по производительности чем 1060 и что у них одинаковая архитектура - скорее всего на P40 будет ускорение в 3-4 раза (а может быть и в 5 раз из-за того, что fp performance e 1060 4.3, а у P40 - 11.7) в сравнении с моей ЦПУ-шной конфигцрацией.
Думаем.

Короче я бы ставил на то, что P40 неплохо тащит.

Аноним 17/12/23 Вск 02:49:08 #196 №575197

>>575194
> с батлнеком в виде 1060@6:
На нее все слои выгружаются? Если так то это не ботлнек а просто ее перфоманс. Тогда если сравнивать по псп врам p40 окажется в 2 раза быстрее, и по расчетам чуть меньше чем в 3, порядка 30-35 т/с на 7б, что приемлемо. Совсем уж теоретизируя - на 13б будет ~15т/с, на 30б ~7 т/с, если последнее подтвердится то это получается самый дешевый путь вката в тридцатки с возможностью (неспешно) читать стриминг а не ждать его накопления. Подводных камней вагон, но тем не менее.

Аноним 17/12/23 Вск 02:59:44 #197 №575201

>>574828
А я рандомно скачал dolphin-2.5-mixtral-8x7b.Q4_K_M.gguf, тоже норм. Но скорость действительно самое узкое место. Пока поймешь, что сгенерировалась хуета и надо начинать заново, уже заснешь.

Аноним 17/12/23 Вск 03:05:38 #198 №575204

>>575193
>куда визибл девайсез
я так понимаю, имелась в виду переменная окрудения?
CUDA_VISIBLE_DEVICES=1,0 ./start_linux.sh --model models/deepseek-coder-6.7b-instruct.Q5_K_M.gguf --character Saya --n-gpu-layers 35 --n_ctx 8192 --tensor_split 2,15
2,15 - пиздец конченый параметр, чо за бред.... пришлось перебирать, пока не перестал падать в оом

Output generated in 28.77 seconds (16.96 tokens/s, 488 tokens, context 623, seed 1450316253)
Output generated in 25.84 seconds (19.93 tokens/s, 515 tokens, context 623, seed 1082159972)
Output generated in 25.69 seconds (19.82 tokens/s, 509 tokens, context 623, seed 877123830)

кажется это действительно что-то ускорило.

>>575197
>На нее все слои выгружаются?
я не могу ответить, потому что не вижу где это вообще посмотреть. Но нет, все слои в неё просто не влезли бы. Они видимо раскиданы по разным гпу, я не знаю каким образом. Мне не хватает понимания значения параметра --tensor_split

Аноним 17/12/23 Вск 03:12:17 #199 №575208

>>575187
Дополнительную врам на первой видяхе жрет контекст.
Прилично, поэтому надо на первую видяху гига на 3-4 меньше ставить для начала, а там уже смотреть.
И в сумме, чтобы хватало на модель, конечно.

>>575194
Братан, какие 7B, ты в своем уме? P40 берется только ради 70B, ну в крайнем случае 34B.
Может быть 20B, хз.
Так что свой перформанс в 15 токенов смели дели на 3, а то и на 10. =) Ну, побольше, мб.

Т.е., проблема в том, что ты либо гоняешь малые модели быстро (но на 3060 будет быстрее), либо гоняешь большие, но медленно (и хз, нужно ли оно тебе в 2-3 раза быстрее проца).
Либо там реально пушка-гонка и летает все 3 токена на голиафе, или сколько нам обещали, может я ошибаюсь.

>>575197
В двадцатки, скорее, тридцатки там ближе к 3-5 будут, кмк.
Ну, посмотрим.

>>575201
Ну, не хуже 13B, а то и быстрее раза в полтора, кмк.

Аноним 17/12/23 Вск 03:21:30 #200 №575210

>>575204
Так а чего непонятного-то?
По сути, тебе надо туда вписать сколько частей загружать на первую видяху, и скока на вторую. Самое простое — вписать туда гигабайты как есть.
Берешь объем видеопамяти первой видяхи, минусуешь контекст (пусть будет 4 гига), вписываешь число. Берешь объем видеопамяти второй видяхи, вписываешь после запятой. Все.

Аноним 17/12/23 Вск 03:22:38 #201 №575211

>>575208
>P40 берется только ради 70B
нуу.... с точки зрения кода, который мне выдал deepseek-coder-6.7b-instruct.Q5_K_M - вполне приемлимый уровень. Я не вижу причин подниматься до 70B.
Может это только для забористого кума нужно, а то я видел тут люди жалуюстя что у них отыгрыш лолей недостаточно хорошо получается.
Поправь меня, если ошибаюсь, а то я хз, я новичок тут.

Аноним 17/12/23 Вск 03:24:04 #202 №575212

>>575187
В твоем случае, проблемы быть не должно, моделька маленькая.
Попробуй соотношение 2,7

Аноним 17/12/23 Вск 03:27:00 #203 №575213

>>575211
Ну, с точки зрения кода — дальше мистрали ниче не нужно (хотя выше анон жаловался, что 34B с трудом понимают, что ему нужно=).
А мистраль — это уже 7B, которая в 12 гигов влазит легко (даже в 8, кстати). Накой тут P40-то.
Берешь 3060 и она летает у тебя во все стороны. Че там, небось, 35+ токенов будет.
Ну, правда, через мегамаркет и баллы, да.
Если вот прям совсем ужимаешься — думаю, можно взять и P40.
Хотя, может P104-100 будет лучше (учитывая ее копеечную стоимость), но мне лень копаться с дровами для запуска. Кто-то писал, на линухе нет проблем.

Аноним 17/12/23 Вск 03:30:52 #204 №575215

>>575187
Но если ты поменял местами видяхи, и 8-гиговая считается первой, то можно 4,5.
А то я криво читал ваш диалог.
Хотя, если 8-гиговая мощнее, то я бы на ней держал больше слоев, а контекст держал на более слабой карте (т.е., более слабую ставил бы первой). Но я не уверен, что это именно так работает, может я дурак и вообще полчетвертого ночи.

Аноним 17/12/23 Вск 03:55:30 #205 №575239

>>575211
>а то я видел тут люди жалуюстя что у них отыгрыш лолей недостаточно хорошо получается.
Он и на самых крутых коммерческих сетках говно. Ой...

Аноним 17/12/23 Вск 04:00:21 #206 №575244

Screenshot20231217035542.png

да шоб тя разорвало собака сутулая....
почему блять?!
./start_linux.sh --model models/vicuna-7B-v0-GPTQ --multimodal-pipeline minigpt4-7b --character Saya --gpu-split 1,8

2023-12-17 03:58:00 INFO:Loading vicuna-7B-v0-GPTQ...
2023-12-17 03:58:07 INFO:LOADER: ExLlama_HF
2023-12-17 03:58:07 INFO:TRUNCATION LENGTH: 2048
2023-12-17 03:58:07 INFO:INSTRUCTION TEMPLATE: Vicuna-v0
2023-12-17 03:58:07 INFO:Loaded the model in 7.05 seconds.
2023-12-17 03:58:07 INFO:Loading the extension "multimodal"...
2023-12-17 03:58:07 INFO:Loading the extension "gallery"...

Аноним 17/12/23 Вск 04:12:11 #207 №575255

>>575204
> я так понимаю, имелась в виду переменная окрудения?
Именно.
> потому что не вижу где это вообще посмотреть
> --n-gpu-layers 35
Оно, если стоят все (уже не помню сколько там в этих, но вроде как раз около того) то будет так. Раз только часть то хз что там будет.
>>575208
> тридцатки там ближе к 3-5 будут, кмк.
Ну это уже грустно совсем, хотя вброс про 4-5т/с на 120б пророчит вообще космическую скорость на 30б.
>>575211
> с точки зрения кода, который мне выдал deepseek-coder-6.7b-instruct.Q5_K_M - вполне приемлимый уровень
Понюхай файнтюны кодлламы 34 хотябы, поймешь что эта мелочь - слабовата.
> Может это только для забористого кума нужно
Для забористого уже 70, да, но это если зажрался и быстрое взаимодействие. Хотя и тут беда с размером контекста.
>>575213
> с точки зрения кода — дальше мистрали ниче не нужно
Ну ты рофлишь чтоли, она задачи чуть сложнее дефолта с большим трудом понимает, какой бля не нужно. И хз как отреагирует если с ней устроить чат с разбирательством почему-как-не работает-чини бля.
Как отреагирует если устраивать ее интеграцию в ide тоже хз, это уже пусть умные люди тестят сравнивают. В любом случае со скоростью микстраля тут он юзлесс.

Аноним 17/12/23 Вск 04:14:18 #208 №575259

>>575244
> ./start_linux.sh --model models/vicuna-7B-v0-GPTQ --multimodal-pipeline minigpt4-7b --character Saya --gpu-split 1,8
Зачем? Просто ./start_linux.sh а уже в веб морде выбираешь модель, выставляешь лоадер (нужна exllamav2-hf), спокойно задаешь размер и жмешь лоад. Если не получилось - анлоад, поменял параметры и заново.

Что за ошибка - хз, версии последние?

Аноним 17/12/23 Вск 04:17:49 #209 №575262

>>575259
версия text-generation-webui - мастер, скачанный вчера
>Зачем? Просто ./start_linux.sh а уже в веб морде выбираешь
заебли out of memory
Намышевозишь параметров, а потом в консоль назад лезешь перезапускать эту мандулу.

Аноним 17/12/23 Вск 09:02:30 #210 №575336

>>574639
Брось нахуй, пустое. Или запускай не в уебабуге, найди другой уи или способ. У него всегда какие-то проблемы. Теперь на днях уеба сломал все шаблоны. Да что говорить у него обновы поломанные через раз и это постоянно. Начнешь поднимать вопросы там надают советов которые сводятся по сути к тому, чтоб самому код переписать, а тогда нахуй нужна толпа ебланов из этой репы? И не надо говорить про попенсорс - типа жри что дают задаром. Во-первых у них грант, во-вторых донаты. Надо иметь сознательность чтобы хотя бы проверять свои поделия. репозиторий где код правят лебедь рак и щука

Аноним 17/12/23 Вск 09:16:14 #211 №575340

>>575259
Все бы так просто было. Мультимодалку даже не запустить из интерфейса, уебунга тут же просто вылетает. Этот вопрос уже обсуждался пару месяцев назад в issues. Впрочем у меня так же точно не запускалось и из консоли.

Аноним 17/12/23 Вск 09:31:52 #212 №575343

А почему нет Mixtral-8x7B-chat?
Клонов наделали целую кучу 8x7b, но что то ни одного чата нет, по крайней мере в gguf.

Аноним 17/12/23 Вск 10:29:42 #213 №575364

image.png

>>575343
Там же один только Унди клепает рп шизомиксы один за другим, как не в себя. Хз, работают ли они. По идее, всё из этого списка (просто вбивал в поиск "8x7b gguf" с дефолтным фильтром trending) чат ориентированное. Чупакабра и старлинг опенчат используют.

Аноним 17/12/23 Вск 10:38:21 #214 №575372

>>575101
Чтобы прожаривать температуркой весь вообще пул токенов до белого шума, конечно же. А так, лично мне нужен. Я юзаю tfs и применяю его после отрезания 5% самых говёных токенов topP 0.95 и отлавливания случаев с очень большим первым токеном при помощи topA 0.1-0.2. После этого ещё могу захотеть сначала накинуть температуру. Соответственно, topP в самом конце в моём случае не имеет ни малейшего смысла.

Аноним 17/12/23 Вск 12:03:26 #215 №575410

>>575364
Я просто искал mixtral chat gguf
Нечего смущать людей своими странными названиями.

Аноним 17/12/23 Вск 12:06:42 #216 №575411

>>575262
Обычно не нужно перезапускать, работоспособность не теряется.
>>575340
> Мультимодалку даже не запустить из интерфейса
Ты про экстеншн на мультимодальность чтоли? Только параметры запуска, да.
>>575364
> Хз, работают ли они.
Скорее всего на то что выдают подобие текста он проверяет, врядли что-то более.

Аноним 17/12/23 Вск 12:13:42 #217 №575414

А чем там история закончилась что с микстралями K_M что то не так?

Аноним 17/12/23 Вск 12:43:39 #218 №575426

Кто-нибудь знает как установить https://github.com/OpenAccess-AI-Collective/axolotl в wsl?
Начиная с установки pytorch в wsl, который пока установить не удалось. Если не затруднит, краткое руководство на уровне для дебила и уебка

Аноним 17/12/23 Вск 12:46:57 #219 №575430

>>575426
> не может даже скопипастить команды в терминал
> лезет в WSL
Тут уже квалифицированная помощь психиатра требуется, мы бессильны.

Аноним 17/12/23 Вск 12:47:50 #220 №575433

Screenshot20231217124507.png

>>575336
да я вчера уже доковырялся до https://github.com/oobabooga/text-generation-webui/pull/4911
тестирования там походу нет от слова совсем
>>575426
>в wsl?
Сынок.....

альсо обнаружил, что openchat умеет в японский

Аноним 17/12/23 Вск 12:55:24 #221 №575437

>WSL
Подскажите, из любопытства, этим кто-нибудь вообще пользуется?

Аноним 17/12/23 Вск 12:56:09 #222 №575438

>>575430
Ты сам-то копировал? Ну скопируй и посмотри что будет. Было бы так - не спрашивал бы. По делу то можешь подсказать или только морду гнуть?))

Аноним 17/12/23 Вск 12:57:37 #223 №575440

>>575437
Что еще вендузятникам остается?

Аноним 17/12/23 Вск 12:58:18 #224 №575441

>>575437
Как сделать проще, без этого гавна?

Аноним 17/12/23 Вск 13:01:00 #225 №575444

>>575437
только залётные, которым кто-то сказал, что wsl может заменить полноценный линукс (нет)

Меня как-то занесло в одну контору уровня рогов и копыт, где писали на дотнете. меня попросили поднять на wsl пайплайн сборки их дотнет говна (они на линукс расширяться хотели) - там сборка заняла времени в три раза больше, чем на обычном линуксе.
Надеюсь я больше никогда в жизни не притронусь ни к дотнету, ни к wsl.
Мелкомягкие нихуя нормально сделать не могут.

Аноним 17/12/23 Вск 13:11:55 #226 №575450

>>575437
> этим кто-нибудь вообще пользуется?
На серверах под Виндой это уже давно стандартный способ использования пердоликса вместо виртуалок, Azure под ним. Докер тоже под WSL работает.

Аноним 17/12/23 Вск 13:16:05 #227 №575456

>>575450
>уже давно стандартный способ использования пердоликса вместо виртуалок
>Докер тоже под WSL работает
>вместо виртуалок
tell me more, сынок

https://github.com/MicrosoftDocs/WSL/issues/899

Аноним 17/12/23 Вск 13:47:55 #228 №575471

>>575456
> Windows 10 Home
Что тебе сказать? То что в хоуме куча функционала винды порезано? Так это всегда было и будет, никто тебе не даст сервера на хоуме поднимать.

Аноним 17/12/23 Вск 13:51:10 #229 №575475

>>575471
Может он намекал, что wsl извращенная форма гипервизора и уж лучше вмварь или гипер-в навернуть с кучей виртуалок, чем этим пользоваться?
Другой анон.

Аноним 17/12/23 Вск 14:02:46 #230 №575479

>>575475
> лучше вмварь или гипер-в навернуть с кучей виртуалок
Ну если хочешь извращаться без нормальной интеграции в Винду, жрать низкую производительность и тратить ОЗУ в пустую, то можно и на виртуалке сидеть. Алсо, в виртуалках можно сразу забыть про CUDA.

Аноним 17/12/23 Вск 14:08:38 #231 №575482

>>575475
this.
>>575479
ну и буллщит ты несешь
Хорошо тебе балмор и калитка сапог в дупу затолкали. Крепко сидит.

Аноним 17/12/23 Вск 15:19:33 #232 №575528

>>575426
> с установки pytorch в wsl, который пока установить не удалось
Какие проблемы тут могут быть даже в теории?
> краткое руководство на уровне для дебила и уебка
Создаешь venv, идешь на https://pytorch.org/get-started/locally/ и выбираешь версию под последнюю куду им похоже нужна 11.8 поэтому под нее, просто линукс, копируешь команду и вбиваешь в активированный вэнв. После этого или их командой
> pip3 install "axolotl[flash-attn,deepspeed] @ git+https://github.com/OpenAccess-AI-Collective/axolotl"
или
> git clone https://github.com/OpenAccess-AI-Collective/axolotl
> cd axolotl
> pip3 install packaging
> pip3 install -e '.[flash-attn,deepspeed]'

Каких-то проблем вроде не видно.

Аноним 17/12/23 Вск 15:30:35 #233 №575534

>>575437
Да, когда тебе нужно катать их софт на десктопе, но компромисс в виде такой прослойки менее напряжный чем полноценный линукс.
>>575440
>>575444
Шрифты уже отрендерили, красноперые?
> контору
> не имеют отдельной машины/виртуалки под такое
> ты, который не сбежал оттуда при виде такого
лол, ну мнение такого кадра определенно преисполнено объективностью и корректностью
>>575475
> и уж лучше вмварь или гипер-в навернуть с кучей виртуалок, чем этим пользоваться
От задач зависит же
>>575482
> орошо тебе балмор и калитка сапог в дупу затолкали
Пчел, после такой шизы ты еще кого-то в чем-то обвиняешь?

Аноним 17/12/23 Вск 15:42:11 #234 №575544

>>575364
В mixtral-8x7b-moe-rp-story поломан русский язык.
Совсем по-русски не общается, выдает случайные слова.
Вот и качай после этого всякие файнтюны, больше ломают чем улучшают.

Аноним 17/12/23 Вск 15:42:35 #235 №575546

>>575534
>компромисс в виде такой прослойки менее напряжный чем полноценный линукс.
буллщит или намеренное враньё. Когда у тебя выскочит шишкой геморроя проблема на wsl - ты проклянешь всех, кто учавствовал в его разработке до седьмого колена. Но откуда ж тебе знать, ты не сталкивался никогда всерьез с этим.

>лол, ну мнение такого кадра определенно преисполнено объективностью и корректностью
конторой я их назвал потому что они не настолько крупные в сравнении с компанией, где я сейчас работаю. Для тебя моя "контора" скорее всего равносильна "корпорации" или "конгломерату".
альсо
>ты, который не сбежал оттуда при виде такого
я и сбежал, я ж не говноед. И да, на отдельной машине линуксовой они и собирали своё говно до кучи.

>Пчел, после такой шизы ты еще кого-то в чем-то обвиняешь?
ну что ж, давай разберем по частям тобою написанное

>Ну если хочешь извращаться без нормальной интеграции в Винду
нахуй не надо, потому что внезапно большинство проектов работают только на линуксе, а на винду их только пересобирают или адаптируют
>жрать низкую производительность и тратить ОЗУ в пустую, то можно и на виртуалке сидеть.
ты определись - мы говорим про компьютинг на видеокарте или на цпу?
>Алсо, в виртуалках можно сразу забыть про CUDA.
нахрюк виндобляди, которой барин в его хрюкни-V не подвез PCI Passthrough.
KVM, для справки, позволяет прокидывать карты в виртуалку. А до него это мог делать xen еще в бородатых нулевых. Но откуда ж тебе знать.

Аноним 17/12/23 Вск 15:45:11 #236 №575548

>>575546
> хрюкни-V не подвез PCI Passthrough
Емнип, вмварь под виндой тоже умеет интерфейсы прокидывать.

Аноним 17/12/23 Вск 15:50:58 #237 №575551

>>575546
> Когда у тебя выскочит шишкой геморроя проблема на wsl
Именно, вероятность такого - околонулевая. Проблемы, которые могут вылезти в рамках пердолинга на десктопе с релейтед ему задачами и около нейронками уже позакрывали и обрабатываются оперативно. Для остального - отдельные машины с прыщами/бздой на любой вкус, или загружаешься в полный линукс.
Тыж настолько преисполнился в собственном чсв что даже пост внимательно прочесть не можешь.
> я и сбежал, я ж не говноед
Сам написал что сначала как следует распробовал.
> ну что ж, давай разберем по частям тобою написанное
Что ты там разобрать можешь после того заявления, еще вменяя чужие посты.
Реально поднадусеровый шиз со швабодкой головного мозга.

Аноним 17/12/23 Вск 15:53:09 #238 №575552

>>575551
Почему ты так порвался? Кто тебя обидел?

Аноним 17/12/23 Вск 15:55:32 #239 №575556

>>575552
Вроде спокойно расписал почему тот наброс - ерунда, где же порвался? Истинный разрыв - привлечение анальных примеров выше.

Аноним 17/12/23 Вск 16:07:18 #240 №575561

>>575544
Какие файнтюны могут быть у Унди? Он месит сам не понимает что и как. Ему похрен, главное не останавливаться, чтоб донаты капали. А кто-то качает и восторгается "разницей" среди его моделей, который вероятно в таком роде: старая модель говорила "ебать", а новая говорит "выебать" - охуеть прогресс. Тот долбоеб, который мастурбирует на его модели, лучше бы задоначенные ему доллары потратил на шлюх

Аноним 17/12/23 Вск 16:22:26 #241 №575571

>>575255
> интеграцию в ide
Я так и не пощупал гитхаб копилот, кстати.
С одной стороны, как раз интеграция в иде ей проще всего — никаких задач на словах, чисто код дописывай.
Но вот насколько в нужную сторону она будет дописывать — я согласен, скорее всего часто будет мазать вообще не в ту степь.

Кодллама на выделенной видяхе в иде — звучит вообще вкусно, конечно. В теории.
А дальше и правда нужны умные люди. =)

>>575340
Да, я тоже попытался запускать мультимодалки, чо-то нихуя multimodal extension не работало.
Ну я забил и юзал из лламыспп.

>>575475
ест попкорн
Тут согласен. Я сразу подумал, что намек на это.

>>575544
Как неожиданно.

Аноним 17/12/23 Вск 16:42:58 #242 №575586

>>575571
>ест попкорн
ну, справедливости ради - я действительно линукс сектант, но я думал, что в треде локального запуска нейросетей не будет с этим проблем и тут типа, все такие.
В конце концов fuck the corporations, fuck the OpenSoyAI

Аноним 17/12/23 Вск 16:46:14 #243 №575587

>>575586
> тут типа, все такие
Душнилы с разной степенью умеренности позиции.
> fuck the corporations, fuck the OpenSoyAI
Не думал что соглашусь с линуксоидом.

Аноним 17/12/23 Вск 16:48:35 #244 №575589

>>575586
>линукс
Гигабаза, так сказать, мета. Последний оплот свободы в мире анального копирайта и попабольных зондов.

Аноним 17/12/23 Вск 16:49:40 #245 №575590

image.png

>>575586
Не, я вот под виндой сижу.
Но не испытываю проблем, venv питоновский создаю и все. WSL это весело, но если бы я хотел линуху — накатил бы линуху и все.
Хотя и против WSL ниче не имею, не юзал.

>>575587
пикрел

Аноним 17/12/23 Вск 16:54:42 #246 №575593

>>575528
Вобщем получается самое простое накатить убунту второй системой только из-за аксолотля ппц...Посколько как я понял в винде не будет работать никак, у них написано Windows Please use WSL or Docker!

Аноним 17/12/23 Вск 16:57:20 #247 №575596

>>575593
это не тема треда, но все-таки тебе не нужна винда, анон.
На линуксе без проблем сейчас идет ВООБЩЕ НАХУЙ ВСЁ, слава Гейбу и херувимам-разработчикам его, ежи Proton его Артефакт присутствия и влияния в мире смертных.

Аноним 17/12/23 Вск 17:11:38 #248 №575606

>>575590
> но если бы я хотел линуху — накатил бы линуху и все
Это не описать насколько заморочно перегружаться из одного в другой из-за потребности в лимитированном софте, сюда же настройка мультимониторного интерфейса, цветовых профилей, и сопутствующего функционала, который все равно отличается и действует на нервы. и что бы там не говорили, прыщи на декстопе если не вырос в них и их специфичный пердолинг в крови - уступают по удобству и юзабилити
Эмуляции и там и там достаточно инвалидные, но wsl выходит приемлемым компромиссом для простых задач. Офк у нее много пиздеца, чего стоит скорость работы с шиндовской файловой системой. Но бесшовность, скорость и интеграция таки решают. Так-то все расчетные машины на прыщах, представить там что-то типа шинсервера где натащили лишней кривой залупы вместо минимализма, удобства и абсолютного функционала - страшный сон.
> пикрел
лол да
>>575593
Да должно оно и так работать, что у тебя там происходит то и на что ругается?
Если с линупсом не знаком то можешь соснуть уже на установке нужной версии пихона, лол, а так поставь, попробуй.

Аноним 17/12/23 Вск 17:23:10 #249 №575617

>>575606
>потребности в лимитированном софте
Тебе следует отказаться от такого софта и решать задачу иными инструментами. Это может быть костыль через костыль, но ты должен пойти на эту жерту ради будущего человечества. И ты всегда можешь пилить свой костыль.
>который все равно отличается и действует на нервы.
вся суть претензий.
>уступают по удобству и юзабилити
Ну еще бы, все же на корпорации работают тысячи профильных спецов. Но мы должны отринуть наши слабости, тягу к излишним удобствам и принимать реальность такой какая она есть.

Аноним 17/12/23 Вск 17:23:34 #250 №575618

Undi95/BigPlap-8x20B

Спасите пацана. Его микстраль сломал походу.

Аноним 17/12/23 Вск 17:26:12 #251 №575622

>>575618
Нахуй он это делает? На чём этот кал запускать с таким размером?

Аноним 17/12/23 Вск 17:28:54 #252 №575627

>>575606
>Да должно оно и так работать, что у тебя там происходит то и на что ругается?
В wsl да буквально на все))

>Если с линупсом не знаком то можешь соснуть уже на установке нужной версии пихона, лол, а так поставь, попробуй.
С убунту сидел пару лет но это было 9-10 лет назад. Пердолился там с дискретной картой амд на ноуте. Ну и нихрена тогда не получилось. Сейчас наверное таких проблем нет, уж с нвидиа то наверняка.

Аноним 17/12/23 Вск 17:32:03 #253 №575630

>>575627
> уж с нвидиа то наверняка
С чего бы вдруг пердоликс стал без пердолинга? Это на WSL ты просто ставишь драйвер в винде и на линуксе оно просто работает. А на бубунте будешь пердолиться с драйверами нвидии как и 10 лет назад.

Аноним 17/12/23 Вск 17:32:32 #254 №575632

>>575622
перебирает варианты методом тыка, и смотрит как это будет работать

Аноним 17/12/23 Вск 17:33:47 #255 №575634

>>575617
> Тебе следует отказаться от такого софта
медленно и смакуя произношу linux без GNU
Всетаки немалая часть проприетарного или специфично написанного софта - удобно и эффективно, текущие реалии сформировались естественным образом. Это как снег, он будет идти как не протестуй.
> вся суть претензий.
> Ну еще бы, все же на корпорации работают тысячи профильных спецов
Да вот, увы.
>>575627
> ))
С тобой вообще технические вопросы обсуждать - особый вид извращений.
> Сейчас наверное таких проблем нет
Речь о понимании самой парадигмы которая сильно отличается, если только в шинде работал - не сообразишь и все проклянешь. На установке дров куртки тоже можно встрять, но тут от сборки многое зависит, сейчас тренд на упрощение и "из коробки", что не отменяет.

Аноним 17/12/23 Вск 17:38:09 #256 №575638

>>575622
Да ему похер на чем запускать будут и будут ли, или что это снова куча гавна, за буйную активность ему может a16z грант дадут. А то хули донаты, надо уже метить выше. Другим же вот дали. Посмотрел вон сейчас у него ko-fi, да он там немалые бабки уже поднял на озабоченных))

Аноним 17/12/23 Вск 17:40:21 #257 №575642

>>575638
А можете рассказать более подробно, что за гранты имеются в виду?
Кто и зачем? И в каких объемах?

Аноним 17/12/23 Вск 17:54:49 #258 №575661

>>575561
Ну, справедливости ради, большинство 13б, юзаемых для рп - это либо его миксы, либо включают его модели. Иногда, рэндомно или нет, но у него выходит что-то годное. Да и некоторые 20б франкенштейны от него не так уж плохи.

Аноним 17/12/23 Вск 18:01:52 #259 №575666

>>575622
Как на чем? На 4х Р40 конечно же.
Выбор илиты.

>>575661
Да челик нормальные вещи делал, особенно в колабах.
Но вот эта хуетень прям реально хз зачем нужна.

Аноним 17/12/23 Вск 18:06:34 #260 №575671

>>575666
> илиты
Половина токена в секунду - это не элита.

Аноним 17/12/23 Вск 18:19:17 #261 №575681

>>575671
все ещё лучше, чем 0 токенов в секунду, лол

Аноним 17/12/23 Вск 18:57:15 #262 №575708

>>575681
0.1

Аноним 17/12/23 Вск 19:35:03 #263 №575760

>>575546
>PCI Passthrough
Не у всех есть куча видях под каждую виртуалку. А WSL шарит.
>>575586
Увы, 20 летний опыт ебли с виндой не пропьёшь. А люнупсу я ломаю за 4 недели до состояния нестояния, кернел пеников и прочей хуиты.
>>575634
>медленно и смакуя произношу linux без GNU
Два чаю, у меня сервак так пашет. Даже видяху вытащил, чтобы наверняка.

Аноним 17/12/23 Вск 20:32:04 #264 №575812

NeverSleep/Noromaid-13b-v0.2-GGUF

Для любителей бюджетного КУУМа обнова вышла.

Аноним 17/12/23 Вск 20:35:29 #265 №575816

СуперСус хуже, чем mixtral для ерп, держу в курсе.
Есть что получше mixtral?

Аноним 17/12/23 Вск 20:37:11 #266 №575819

image.png

>>575816

Аноним 17/12/23 Вск 20:49:13 #267 №575834

>>575819
>Пук
Смищнаа!!!

Аноним 17/12/23 Вск 20:50:01 #268 №575836

>>575812
https://huggingface.co/afrideva/TinyLlama-1.1B-Chat-v0.6-GGUF
вот это для настоящих любителей бюджетного кума, а у тебя середнячек

>>575834
не пукай

Аноним 17/12/23 Вск 21:00:14 #269 №575849

>>575634
> С тобой вообще технические вопросы обсуждать - особый вид извращений.
Ты меня с ним не перепутал? =)

>>575836
Бюджетно!!.

———

Попробовал тут XTTSv2 — охуел. Голоса копирует от 4/10 до 9/10. Акценты в тексте расставляет ваще не так, но то похуй.
Силеро быстрее, но там все-таки чутка роботизированный голос, а тут прям мякотка, мое увожение.

Рекомендую, кто там генерит голоса.

Аноним 17/12/23 Вск 21:34:25 #270 №575894

>>575836
>1.1B

Мое почтение таким кумерам

Аноним 17/12/23 Вск 21:55:11 #271 №575928

Так, отговорите меня от покупки p40. Как я понимаю оно с exllamav2 не работает? Мне критически не хватает видеопамяти, с чем обычно её используют?

Аноним 17/12/23 Вск 22:23:59 #272 №575956

>>575928
>отговорите меня от покупки

Да похер всем. Твои ж деньги.
Это как зеоны древние с алика покупать.

Аноним 17/12/23 Вск 22:27:39 #273 №575960

>>575928
>>575956
>Это как зеоны древние с алика покупать.
то есть это может быть выгодно, но если ты знаешь что делаешь и на что идешь

Аноним 17/12/23 Вск 22:28:57 #274 №575963

>>575816
> хуже, чем mixtral
> для ерп
Что может быть хуже, отвечает как пигма?
>>575849
Может быть
>>575928
Умирающая печь, шумящий колхозный пылесос с посредственной производительностью, которая проживет недолго (или физически или из-за софта), а ты станешь ее последним пользователем. В нейронках пригодна для очень малой доли современных сеток. На exllama - очень медленно, с llamacpp нормально.
Хороший исход возможен, основной - разыграл аппетит и быстро - выгодно продал, купив что-то современное.

Аноним 17/12/23 Вск 22:33:08 #275 №575970

1583346120435.png

Как же китайцы ебут.

Аноним 18/12/23 Пнд 00:05:22 #276 №576106

>>575963
> Умирающая печь, шумящий колхозный пылесос с посредственной производительностью, которая проживет недолго (или физически или из-за софта), а ты станешь ее последним пользователем. В нейронках пригодна для очень малой доли современных сеток. На exllama - очень медленно, с llamacpp нормально.
> Хороший исход возможен, основной - разыграл аппетит и быстро - выгодно продал, купив что-то современное.
Единственное близкое по видеопамяти 3090 которую на вторичке за 90к толкают, пиздец какой-то.

Аноним 18/12/23 Пнд 00:13:43 #277 №576113

>>575970
Поясни ёбку.
>>576106
>Единственное близкое по видеопамяти
По скорости просос более чем в 3 раза, а уж по архитектуре и блокам ГПУ там полный пиздец.

Аноним 18/12/23 Пнд 00:21:13 #278 №576121

>>575970
Када там локальную модель качать, ссылку или не считается. =)
Че там, гпт4 тоже небось такое умеет.

Не, вообще хороши, конечно.

Аноним 18/12/23 Пнд 00:42:54 #279 №576156

>>576113
>Поясни ёбку.
см. >>574784

Аноним 18/12/23 Пнд 00:45:58 #280 №576158

>>576106
Арендуй на васте 3090 за 25 центов час.

Аноним 18/12/23 Пнд 01:01:49 #281 №576174

>>575963
>Что может быть хуже, отвечает как пигма?
Skill issue. Подозреваю у тебя не хватило мозгов почитать гайд с форчка. Ну или просто ресурсов, чтобы запустить. Cope.

Аноним 18/12/23 Пнд 01:14:28 #282 №576182

.png

Тем временем по мнению биологических нейросеток с арены, нетюненая экспериментальная версия модели из восьми 7B в пальто ПЕРЕИГРАЛА И УНИЧТОЖИЛА GPT-3.5 точнее сравнялась с ней, причем не текущий обрезок, а полную июньскую версию.

Аноним 18/12/23 Пнд 01:15:44 #283 №576183

>>576182
Так никто и не спорит. Самое лучше что придумали.

Аноним 18/12/23 Пнд 01:42:20 #284 №576195

>>576182
Где потестить?

Аноним 18/12/23 Пнд 01:49:45 #285 №576202

>>576182
меня там больше старлинг 7b впечатлил

Аноним 18/12/23 Пнд 02:40:09 #286 №576236

>>575970
Да, оно хорошо, крайне обещающе и даже может артефакты искать. Для специфики возможно потребуется некоторый файнтюн, но они и инструментарий для него и какие-то гайдлайны выложили.
>>576106
Все верно. Есть ли толк от много памяти когда она медленная и чип не тащит - вопрос отдельный, станет ясно когда приедет и будут тесты.
> за 90к толкают
Надо было летом за 40 брать
>>576174
О великий мастер и адепт 7б моделей с кучей ресурсов, поделись своим истинным знанием как получать не кринжовую залупу и копиум от модели, которая может только в кринжовую залупу и копиум.
>>576182
> клод 2 на уровне турбы
> клод 1 выше
Будущее наступило

Аноним 18/12/23 Пнд 03:06:20 #287 №576260

я попробовал топ модель по рейтингу http://ayumi.m8geil.de/ayumi_bench_v3_results.html для ролеплея
Neural Chat V3 16k 7B
получил отыгрыш уровня
https://www.youtube.com/watch?v=GvQGVUyMfCA

как бы это поправить....?

Аноним 18/12/23 Пнд 03:12:25 #288 №576265

бля колаб для этой хуйни вашей есть? мимо замкадина нищая стабледиффузнутая 7к средний класс

Аноним 18/12/23 Пнд 03:17:00 #289 №576267

>>576265
Тот что в шапке не работает?

Аноним 18/12/23 Пнд 04:10:01 #290 №576280

>>576267
бля в шары долблюсь, не увидел ссылку, ща попробую

[mailto:[email protected]] Аноним 18/12/23 Пнд 04:27:27 #291 №576290

>>576260
Лично мой опыт пользования нейронки от интел лишь заставил меня убедиться в том, что орка - плохой датасет. Я тестил несколько версий нейрал чата по мере их выхода, кроме, может быть, последний, оба раза склонялся к мнению, что модель оч сильно ощущается немощной версией чатгпт. Однако юзеры с реддита иногда вбрасывают хвалебные отзывы о данной сетке. Может это я ретард и с промтом нужно было ебаться больше, задрачивать семплеры, идеально понимая как и насколько каждый параметр повлияет на генерацию, но лично я бы предпочёл модели, которые могут хотя бы сделать вид, что они выдают осмысленный ответ "аут оф зе бокс"

Аноним 18/12/23 Пнд 04:29:54 #292 №576291

image

((((((((((
два раза запускал, с галкой на транслейте и без, одно и то же

Аноним 18/12/23 Пнд 04:41:11 #293 №576296

Screenshot20231218043942.png

>>576291
пока в вилларибо просят барина дать им доступ в виллабаджо со своими видеокартами уже отходят ко сну после секса со своей вайфу

Аноним 18/12/23 Пнд 05:59:52 #294 №576308

>>576296
Настоящие господа запытывают своих вайф до смерти, а после перезапускают чат чтобы повторить круг издевательств

Аноним 18/12/23 Пнд 07:34:58 #295 №576325

>>576308
пепел ты ли это?

Кстати кто нибудь тестил на локалках thinking? Как он должен выглядеть кто шарит за это?

Аноним 18/12/23 Пнд 08:15:42 #296 №576341

>>576113
> Поясни ёбку.
Теперь разрешение инпутов 1120х1120, стало сильно точнее мелкие детали замечать, в текст умеет хорошо но только в английский. Потестил простые описания пиков - заметно лучше обычного CogVLM. Описание плана действий и команды пока не трогал, но ни у кого такого даже близко нет. GPT-4V уже стоит напрячься.

Аноним 18/12/23 Пнд 09:04:35 #297 №576349

изображение.png

>>575836
Скачал 1.1b
Почувствовал что такое скорость на моей 1650. Жалко только что она живет своей жизнью и генерит какой то бред. Может там что то настраивать надо дополнительно иначе бы в этой модели совсем смысла не было?

Аноним 18/12/23 Пнд 09:07:03 #298 №576352

>>576349
Тоже бред несла пока не убавил количество токенов за один раз, у меня было 2048 на нем бредила, внезапно.
Сделал ограничение на сообщение 500 - стала отвечать нормально, хоть и тупенькая

Аноним 18/12/23 Пнд 09:22:43 #299 №576356

>>576325
Да, он собственно с локалок и начался
Просто дай сетке пример ее внутреннего диалога и она его подхватит

Аноним 18/12/23 Пнд 09:42:39 #300 №576364

>>574784
> CogAgent,
Поясните. Можно это прикрутить к сервисам решения капчи за деньги с целью получения пассивного дохода?

Аноним 18/12/23 Пнд 09:54:21 #301 №576369

>>576364
Нельзя.

Аноним 18/12/23 Пнд 09:56:10 #302 №576372

>>576341
>Теперь разрешение инпутов 1120х1120
И тут я со своим 4к монитором.
>>576364
Оно ещё живо? Чёт вангую ты не первый такой умный, так что можешь конечно, с отрицательным доходом в итоге.

Аноним 18/12/23 Пнд 09:56:26 #303 №576373

>>576369
Почему? А какую-нибудь парашу наглухо завайпать например Пердяшем?

Аноним 18/12/23 Пнд 10:11:33 #304 №576380

>>576372
> И тут я со своим 4к монитором.
У GPT-4V меньше, в базе 512, в хайрез-модели - 1024.

Аноним 18/12/23 Пнд 10:14:48 #305 №576383

>>576380
>в хайрез-модели
А как отличить?

Аноним 18/12/23 Пнд 10:53:34 #306 №576393

1560251682920.png

>>576291
Похоже опять коллаб требует внимания, там последний коммит убабуги всегда качается?
>>576308
Зачем? В дурку уже записался?
>>576372
> И тут я со своим 4к монитором.
С учетом того как они "видят", скорее всего даже 5к даунскейленное будет распознавать.
>>576383
По названию моделей. Там вообще и которая чат 490 замечает довольно мелкие вещи, которые и кожаные игнорят.
Пикрел
> The image showcases an animated female character with dark hair, red eyes, and a white headband. She's dressed in a red dress with a unique cut-out design at the back. She holds a ladle in her right hand and seems to be in a kitchen setting. Behind her, there's a window letting in natural light, and on the wall, there are framed pictures. On the countertop, there's a bowl containing fish and some purple liquid. The overall atmosphere of the picture is calm and domestic, suggesting she might be preparing a meal.

Аноним 18/12/23 Пнд 11:10:11 #307 №576403

https://huggingface.co/openchat/openchat-3.5-1210
новый опенчат, ток не пойму что с ним сделали, только результаты тестов увеличившиеся нашел

Аноним 18/12/23 Пнд 11:13:32 #308 №576404

>>576393
>По названию моделей.
Ничего кроме gpt-4-vision-preview никогда не видел.

Аноним 18/12/23 Пнд 12:15:34 #309 №576421

>>576403
Нормальный чат. Даже по русски что то может.

Почему еще никто не сделал 8x3b модель как микстраль? Может там тоже что нибудь прикольное выйдет.

Аноним 18/12/23 Пнд 12:28:17 #310 №576424

>>576421
>Почему еще никто не сделал 8x3b модель как микстраль? Может там тоже что нибудь прикольное выйдет.

https://huggingface.co/chargoddard/SmolLlamix-8x101M

Аноним 18/12/23 Пнд 12:39:16 #311 №576428

>>576424
>101m
Ну я не настолько отчаялся.

Аноним 18/12/23 Пнд 12:40:19 #312 №576430

>>576404
Через APi выбирается "detail": "low" или "detail": "high". За вторую платишь в два раза больше. По дефолту ты жрёшь 512х512. В "detail": "high" короткая сторона максимум 768 пикселей может быть. Так что у китайцев даже разрешение чуть повыше чем у жпт.

Аноним 18/12/23 Пнд 12:59:59 #313 №576446

Парни, какая сейчас из локальных LLM'ок самая лучшая с поддержкой русского языка?

Аноним 18/12/23 Пнд 13:11:09 #314 №576454

>>576446
Ты уточняй размеры.
70B / Mixtral
Но если не влазит, то ruGPT-3.5 13B от Сбера, насколько я знаю, до сих пор. Но она кекичная дюже.
Вроде как пока тока так.
Может кто знает меньше да лучше.

Аноним 18/12/23 Пнд 13:13:13 #315 №576457

>>576454
> ruGPT-3.5 13B
GGUF требуют наши сердца,
GGUF требуют наши глаза.
Сделайте.

Аноним 18/12/23 Пнд 13:13:15 #316 №576458

>>576446
1. дефайн "лучшая"
2. учи английский блять
3. (по поводу меньше, насчет лучше - не уверен) openchat3.5-7b_q4km - влезает даже в 1060@6

Аноним 18/12/23 Пнд 13:14:00 #317 №576459

>>576393
>>576430
Так а с локальным CogAgent или там CogVLM че? Куда смотреть, что качать? Вижу какие-то сейфтензоры на 36 гигов. Мне нужно 2 4090 чтобы запустить или куда? :)

Аноним 18/12/23 Пнд 13:16:55 #318 №576463

image.png

>>576424
>>576428
https://huggingface.co/afrideva/SmolLlamix-8x101M-GGUF/tree/main
Q2

Аноним 18/12/23 Пнд 13:22:34 #319 №576464

>>576459
> CogAgent или там CogVLM
Чат-версии бери. У CogVLM визуальная 10В и 7В текстовая модели, 11 гигов VRAM жрёт с квантованием, 490 разрешение. У CogAgent визуальная модель 11В, текстовая такая же, 1120 разрешение. По скорости они одинаковые, т.к. основное время текстовая модель пердит.

Аноним 18/12/23 Пнд 13:22:54 #320 №576465

>>576454
Размеры похуй - "контора платит"
>Mixtral
Спасибо, не знал что она умеет по-русски!
>>576458
>дефайн "лучшая"
"Ближе всего к gpt-4"
>учи английский блять
Да я-то английский знаю - чат-бота нужно сделать, на русском языке чтоб шпрехал
>openchat3.5-7b_q4km
Попробую тоже, спасибо!

Аноним 18/12/23 Пнд 13:30:17 #321 №576466

>>576464
Хорошо, спасибо, а ссылочку можно? Вижу https://huggingface.co/THUDM/cogagent-chat-hf

А GUI где брать? Можно взять скрипт из карточки, канеш, но вдруг есть удобоваримое.

>>576465
Тогда нужно уточнять у знатоков, какой файнтьюн 70B пизже в этом.
Но там проще самостоятельные тесты будет провести, ИМХО. На нужных тебе данных и задачах.

Аноним 18/12/23 Пнд 13:34:42 #322 №576467

>>576459
Это разные модели. Комплектное квантование работает, если есть 24 врам - 8 бит влезает.
> Мне нужно 2 4090 чтобы запустить или куда? :)
Можно и так, как сплитить описано.
>>576466
> А GUI где брать?
Там была демка на gradio, требуется прошлая версия (может уже обновили), но зачем она нужна кроме как 1 раз посмотреть?

Аноним 18/12/23 Пнд 13:46:11 #323 №576469

Кто-нибудь с норм железом пытался вот это поделие от разраба Синатры запустить? https://huggingface.co/maywell/PiVoT-MoE Четыре слепленные франкенштейна 10.7б, есть gguf от Блока. Было бы круто получить что-нибудь относительно умное с датасетом Синатры, на самом деле.

Аноним 18/12/23 Пнд 13:48:16 #324 №576470

>>576469
>есть gguf от Блока.
А он точно ггуфает модели? Просто у него их так дохера, что я подумал он просто собирает их все в одном месте.

Аноним 18/12/23 Пнд 14:00:12 #325 №576477

>>576470
>А он точно ггуфает модели?
Точно. А ещё не спит и не ест.

Аноним 18/12/23 Пнд 14:23:35 #326 №576498

>>576364
Для этого дорого. А вообще ну ты спохватился конечно, халявщик, на рейс 15-летней давности.

>>576341
Вот только заточено под гуй. С нормальными пикчами как работает?

Аноним 18/12/23 Пнд 14:25:16 #327 №576501

>>576373
Можно ли убить комара из дробовика? Ну наверно можно.

Аноним 18/12/23 Пнд 14:32:11 #328 №576509

Бля, а нахуя Жора оффлоадит мисраль по слоям, а не по экспертам? В итоге все 8 экспертов размазаны, вместо того чтобы 6 оставить в GPU, а 2 на CPU.

Аноним 18/12/23 Пнд 14:55:26 #329 №576535

Объясните по простому в чем фишка 8х7b моделей?

Аноним 18/12/23 Пнд 15:03:54 #330 №576541

>>576535
Восемь экспертов уровня б собрались в одном месте и перебивают друг друга кто лучше сделает таск

Аноним 18/12/23 Пнд 15:22:41 #331 №576554

>>576509
Потому что у жоры есть оффлоадер по слоям, но нет по экпертам?
Кстати, что такое разделение даст, кроме периодических просадок, если запрос пойдёт в эксперта на CPU?
>>576541
Из 8 работают только 2, остальные ебланят.

Аноним 18/12/23 Пнд 15:26:33 #332 №576560

>>576554
>Из 8 работают только 2, остальные ебланят.
Все как в жизни, ейай был создан и обучен людьми.

Аноним 18/12/23 Пнд 16:31:57 #333 №576618

Мистраль 7б инструкт все уже тестили? Походу это вообще лучшая модель из всех локалок на данный момент. Даже 70Б сосут.

Аноним 18/12/23 Пнд 16:35:37 #334 №576623

1702906536013.jpeg

>>576618

Аноним 18/12/23 Пнд 16:37:56 #335 №576626

>>576623
Я бля без тролинга, я даже первое время проверял не catgpt ли у меня там включен

Аноним 18/12/23 Пнд 16:39:01 #336 №576628

>>576626
Мистралина это давнишняя скотина уже, с тех пор напилили файнтюнов и её убийц.

Аноним 18/12/23 Пнд 16:41:39 #337 №576630

>>576628
Какие убийцы и как ими пользоваться(правильно загружать крутить настройки) чтоб хуй стял?

Аноним 18/12/23 Пнд 16:45:31 #338 №576638

>>576628
И кто из них лучший сейчас? А то меня вчерашний шторм не разбудил. Кстати мистраль-7Б базед это модель вообще без цензуры, если нафайнтюнить её инструкт-датасетом без сои то возможно получится лучшая 7б асистент модель без цензуры. если кто то еще не сделал. Тут опять же важно файнтюнить базед версию, а не соевый инструкт

>>576630
>чтоб хуй стял?
Животина, уймись

Аноним 18/12/23 Пнд 16:48:08 #339 №576642

>>576630
>>576638
Опенгермес, опенчат.

Аноним 18/12/23 Пнд 16:49:04 #340 №576643

>>576638
Унял тебе за щеку, чмо

Аноним 18/12/23 Пнд 16:55:16 #341 №576644

>>575849
Спасибо за наводку. Тоже затестил xttsv2 в silly tavern. Для русского языка намного приятнее звучит чем силеро, и скорость генерации терпимая. Но из минусов - гораздо чаще ударения в словах ставит неправильно (для разговорной речи 5-10% ошибок). Не знаешь, можно ли как-то вручную разметкой указывать ударения как в Silero или Bark?

Аноним 18/12/23 Пнд 16:57:19 #342 №576646

>>576642
Проверил, обучены на таком же нечищеном от сои датасете

Аноним 18/12/23 Пнд 17:13:00 #343 №576668

>>576535
Каждая модель заточена на определенную тематику.
Вместо того, чтобы пробежаться по всему размеру модели и считать вообще все токены, даже никак не связанные с вопросом — пробег выполняется только по одной, наиболее подходящей (плюс председатель совета, как я понимаю=).
Итого мы имеем в ~6 раз больше знаний (42B, часть знаний общие, видимо базовое умение болтать) при вдвое меньшей скорости.

>>576630
NeuralHermes, OpenChat, Toppy, Starling, НейралОпенГермесСтарлинг…

>>576644
Нет, за барк вообще не шарю, а, как я понял, ни в силеро, ни в хттсе нет разметки интонаций, акцентов и ударений.
Но, может я и ошибаюсь. Хотелось бы. =')

>>576646
В Mixtral нет сои. Ей ваще похую, она все одобрит с каменным лицом.
Нейтрально относится к любой идее.

Аноним 18/12/23 Пнд 17:19:41 #344 №576676

>>576668
Любопытно посмотреть как кто-нибудь запилит 70х8.

Аноним 18/12/23 Пнд 17:22:33 #345 №576679

>>576668
В Mixtral базед нет сои, но общая модель со всеми недостатками, она не будет так просто с тобой развернуто разговаривать. Нужен серьезный контекст и т.д
Mixtral инструкт уже допиленная, но соевая и с цензурой. (конечно можно пробивать цензуру, но у gpt-4 её можно тоже пробивать, мы же не за этим здесь)
Опенгермес, опенчат - натренированные на логах gpt-4, которые предварительно не почистили от цензуры. Соответственно они такие же как Mixtral инструкт.

И того не соевой модели нету. Хотя достаточно датасет с gpt-4 почистить.

Аноним 18/12/23 Пнд 17:23:18 #346 №576680

>>576676
gpt-4 так работает

Аноним 18/12/23 Пнд 17:30:16 #347 №576688

>>576679
> Соответственно они такие же как Mixtral инструкт.
Попизди мне тут. Опенчат - чуть ли не единственный файнтюн мистраля, умеющий в агрессию.

Аноним 18/12/23 Пнд 17:48:51 #348 №576694

>>576679
Да, она не писатель вообще ни разу. Отвечает сухо совсем. Mix.

Аноним 18/12/23 Пнд 17:51:54 #349 №576698

image.png

>>576668
>В Mixtral нет сои.
Клауд тогда объективная база.

Аноним 18/12/23 Пнд 18:02:46 #350 №576710

>>576698
А разве нет?

Аноним 18/12/23 Пнд 18:17:47 #351 №576724

>Mixtral инструкт уже допиленная, но соевая и с цензурой
Чел там этой цензуры. Она выглядит так, как будто случайно затесалась. Просто продолжаешь настаивать на ответе и она игнорится. А чатгпт тебя с ума сведет.

Аноним 18/12/23 Пнд 18:24:55 #352 №576727

>>576668
В Silero есть разметка для удар+ений, пауз, тональности и скорости.
https://wiki.calloffice.ru/index.php?title=%D0%9F%D0%BE%D0%B4%D0%B4%D0%B5%D1%80%D0%B6%D0%B8%D0%B2%D0%B0%D0%B5%D0%BC%D1%8B%D0%B5_%D1%82%D0%B5%D0%B3%D0%B8_SSML_%D0%B2_Silero_TTS

В Барке тоже есть ударЕния.

В xtts пока ничего нет, есть feature request для ударений и для SSML, но ждать их можно долго. https://github.com/coqui-ai/TTS/issues/3282

Аноним 18/12/23 Пнд 19:16:27 #353 №576767

Унди добавил режим експертов в тестовую нсфв модельку. Нужно потестить обязательно.

Аноним 18/12/23 Пнд 19:37:50 #354 №576776

>>576767
На кобольд орде, кстати, сейчас кто-то держит тот поехавший BigPlap 8x20b. Нельзя понять, какой квант, правда.

Аноним 18/12/23 Пнд 19:41:07 #355 №576780

>>576776
Я его и тестирую.

Аноним 18/12/23 Пнд 20:04:37 #356 №576802

https://huggingface.co/TheBloke/Saily_220B-GGUF
Ох... Лол.

Аноним 18/12/23 Пнд 20:17:21 #357 №576815

JUgHP-B0400x400.png

>>576802
>built on top of Llama2-70B merges
Это даже не франкенштейн, а катамари уже какое-то

Аноним 18/12/23 Пнд 20:23:08 #358 №576821

>>576767
Что за моделька?

Аноним 18/12/23 Пнд 20:32:09 #359 №576829

>>576802
А кумать оно может?

Аноним 18/12/23 Пнд 20:33:37 #360 №576830

>>576829
А ты проверь.

Аноним 18/12/23 Пнд 20:50:55 #361 №576852

>>576830
Щас запущу сервак

Аноним 18/12/23 Пнд 20:54:05 #362 №576854

>>576852
Какая у тебя память? Так не хочется ждать ответы по 600 секунд...
Мимо ddr4 2400 128, хочу завтра глянуть.

Аноним 18/12/23 Пнд 21:12:55 #363 №576879

>>576802
Когда памяти не хватает на второй квант, лол.

Аноним 18/12/23 Пнд 21:21:05 #364 №576885

https://huggingface.co/TheBloke/mixtralnt-4x7b-test-GGUF
мое но поменьпше

Аноним 18/12/23 Пнд 21:45:39 #365 №576906

>mixtral везде
Как его усмирить-то? Оно непрерывно скатывается в повторения.

Аноним 18/12/23 Пнд 21:48:28 #366 №576912

>>576618
Вот же реально топ модель, уже мемами обрастает
> да я там, да на своем мистралике так кумил что вашим 70/3.5/4/4турбо/клод и не снилось!
>>576668
> Итого мы имеем в ~6 раз больше знаний (42B, часть знаний общие, видимо базовое умение болтать) при вдвое меньшей скорости.
Это не совсем корректно, даже если там действительно будут сильно разные модели. Общего в них достаточно много, и суть в том числе и в совместной работе нескольких частей. Если что поправьте.
>>576698
У тебя неправильный пример, ты подкрутил, клоду уже давно победили.
>>576727
> разметка для удар+ений, пауз, тональности и скорости
Кто-нибудь пробовал составить промт для llm чтобы она делала с подобной разметкой на основе содержания?
>>576815
Лламовская многоножка.

Аноним 18/12/23 Пнд 22:25:48 #367 №576965

>>576906
Presence Penalty какой-нибудь, или миростат.

Аноним 18/12/23 Пнд 22:36:16 #368 №576972

>>576965
> миростат
С ними повторяет вообще жесть. Вроде не рекомендуют его.

Пробовал настройки из https://rentry.org/HowtoMixtral - ещё хуже.

Что там с этим пенальти повторений сделать-то надо?

Аноним 18/12/23 Пнд 22:49:26 #369 №576981

>>576972
У меня в рубрике Instruct все как в этих настройках, а в общих настройках все по обычному, как для любой модели, только температура моя любимая 1.99, остальное как всегда.

Аноним 18/12/23 Пнд 23:13:19 #370 №576998

>>576802
Убийца гпт5?

Аноним 19/12/23 Втр 00:20:40 #371 №577070

>>576802
огромный скибиди-туалет шагает по городу

Аноним 19/12/23 Втр 00:22:16 #372 №577072

>>576885
Такс, это работает на кобальде, но пока не знаю какие косяки вылезут дальше. Чет пишут про вырождение генерации и лупы, но радует что все допилили до работы из коробки

Аноним 19/12/23 Втр 02:57:59 #373 №577154

111.png

Как эти лупы решить? Все модели которые я пробывал из списка после небольшого осмысленного абзаца уходит в луп.

Аноним 19/12/23 Втр 03:17:29 #374 №577157

>>577154
А ты зачем стоп токен отключил?

Аноним 19/12/23 Втр 03:19:47 #375 №577158

>>577157
Многие модели с ним слишком часто не дописывают сообщения как надо.
мимо

Аноним 19/12/23 Втр 03:38:51 #376 №577175

>>577158
Всё как надо с ним, если у тебя не дописывает, значит, руки кривые. Ну или модели нахуй сломанные, но тут вопрос, зачем их юзать.

Аноним 19/12/23 Втр 03:49:46 #377 №577181

>>577175
>>577158
>>577157
Короче, че с этой хуйней делать, у меня все модели на этом сайте так срут. together.xyz этот сайт если что. Проблема именно в моделях дополнения текста а не в чат моделях. Т.е продолжая любой текст он всегда укатывается в луп, можно увеличивать RP но там уже бредятина начинается, такое впечатление что я что то не так делаю. Вот попробуйте к примеру вот этот кусок из гатарий и дополняйте его, он у меня всегда в луп укатывается как и любой остальной текст:

001
Hitagi Senjogahara occupies the position of “the girl who’s always ill” in our
class. She’s not expected to participate in P.E., of course, and is even allowed to
suffer morning and school-wide assemblies in the shade, alone, as a precaution
against anemia or something. Though we’ve been in the same class my first, my
second, and this, my third and final year of high school, I’ve never once seen her
engaged in any sort of vigorous activity. She’s a regular at the nurse’s room, and
she arrives late, leaves early, or simply doesn’t show up to school because she
has to visit her primary care hospital, time and again. To the point where it’s
rumored in jest that she lives there.
Though “always ill,” she is by no means sickly. She’s graceful, like her thin
lines could snap at a touch, and has this evanescent air, which must be why some
of the boys refer to her as “the cloistered princess” half-jokingly, half-seriously.
You could say earnestly. That phrase and its connotations aptly describe
Senjogahara, I agree.
Senjogahara is always alone reading a book in one corner of the classroom.
At times that book is an imposing hardcover, and at others it’s a comic that could
permanently damage your intellect to judge from its cover design. She seems to
be one of those voracious readers. Maybe she doesn’t care as long as there are
words in it, maybe she has some sort of clear standard.
Apparently quite smart, she’s among the top in our year.
Whenever test results are posted, Hitagi Senjogahara’s name is one of the
first ten on the list. Whatever the subject. It’s presumptuous of me, who can’t
pass a non-math test, even to compare myself to her, but our brains must be
structured in fundamentally different ways.
She doesn’t seem to have any friends.
Not a single one.
I have yet to witness Senjogahara exchanging words with someone─the
shrewd take might be that her constant reading is a behavior intended to tell you
not to speak to her because she is reading, a way of building walls around
herself. In fact, I’ve sat in the same classroom as her for two years and change,
and can state with certainty that I’ve never spoken a word to her in that time. I
can and do. Senjogahara’s voice is synonymous, for me, with the reedy “I don’t
know” that she utters like a catchphrase whenever a teacher calls on her in class
(whether or not it’s a question she clearly knows the answer to, she only ever
replies, “I don’t know”). Schools are strange places where people without friends
routinely form a sort of community (or a colony) of people without friends
(myself included, until last year), but Senjogahara seems to be exempt from this
rule too. Of course, it’s not like she’s getting bullied, either. She isn’t being
persecuted or avoided in any deep, or light, way as far as I can tell. Like that’s
her natural place to be, with a cool face, Senjogahara goes on reading in one
corner of the classroom. She goes on building walls around herself.
Like it’s natural for her to be there.
Like it’s natural not to be here.
Not that it’s any big deal. At our three-year high school, with two hundred
students in each grade, you end up sharing a living space with about a thousand
people in all during your stay if you include the graduating and incoming classes
and the faculty. Start wondering how many of those people mean anything to
you, and the answer is going to be bleak for just about anyone.
Even if I meet the odd fortune of sharing a class with someone for three
years, and still don’t exchange a single word with that person, I don’t find it sad.
I’d simply look back on it someday and think: Oh, yes, I guess that’s how things
were. I have no idea what I’ll be doing a year down the line, after graduating
from high school, but I certainly wouldn’t be conjuring up Senjogahara’s face─I
probably wouldn’t be able to.
And that’s fine. Senjogahara must be fine with that, too. Not just her, but
everyone at my school has to be fine with it. Actually, it’s feeling gloomy about
the matter that’s fundamentally misguided.
That’s what I

Аноним 19/12/23 Втр 04:53:41 #378 №577213

кто тестил где написанная инструкция на локалке лучше всего работает? В джейле карточки? Вообще кто переписывал пресеты таверны и был ли у кого успех в этом деле? Просто мэны из acig чето постоянно мутят, и как бы виден разрыв между анонами локалок и аннами использующими сетки корпоратов по части промптов.

Аноним 19/12/23 Втр 04:57:08 #379 №577215

>>576668
а толку от нее если в итоге она жрет за восьмерых , а работает только один из агентов и тот мудила.

Аноним 19/12/23 Втр 05:00:54 #380 №577217

>>577213
Там разрыв в том что они используют сетки по умнее, они могут следовать всем этим сложным инструкциям - локалки не смогут. Все таки даже до 3.5 не все достают.
С другой стороны оттуда можно тащить лучшие из простых и рабочих решений, благо нам пробивать постоянно меняющуюся сою не нужно. Вот тот же мемори промпт новый попробовать бы, только я тупой и не понял как его делать.

>>577215
попробуй 4 штуки, а не 8, я выше кидал ссылку на рабочую сетку, щас с ней сижу играюсь. 4km всего 13гб

Аноним 19/12/23 Втр 05:02:00 #381 №577218

1625700055689.png

>>577158
Потому юзать его нужно с осторожностью и на тех самых моделях, а те что нормально пишут им не ломать. Чем тупее модель тем сложнее ей будет даваться связанное и адекватное продолжение текста, особенно такое проявляется на победителях.
>>577181
> together.xyz этот сайт если что
Ктож его знает что там накручено, кривые параметры.
> Вот попробуйте к примеру вот этот кусок из гатарий и дополняйте его
А что тут сложного? Если нормально промт составить то оно дополнит даже по делу а не рандомной рп-шизой.
>>577213
> где написанная инструкция на локалке лучше всего работает?
Вут? Инстракт режим таверны настраиваешь и не страдай, или наоборот страдай (в другом смысле) с ним развлекаясь.
> В джейле карточки?
лол

Аноним 19/12/23 Втр 05:08:57 #382 №577219

.png

Как запускать мультимодалки?

https://github.com/oobabooga/text-generation-webui/tree/main/extensions/multimodal
Пробую по этой инструкции для модели ShareGPT4_7b, и, когда пытаюсь выполнить команду из примера, ругается на какие-то конфиги. В качестве --multimodal-pipeline пробовал llava-v1.5-7b и minigpt4-7b (плагин скачал + стянул зависимости). Убабуга свежая, запускаю из локального venv. Где я обосрался?

Аноним 19/12/23 Втр 05:10:12 #383 №577220

>>577219
> Где я обосрался?
не там запускаешь, llama.cpp server.exe запускай

Аноним 19/12/23 Втр 05:12:46 #384 №577222

>>577219
> --multimodal-pipeline пробовал llava-v1.5-7b и minigpt4-7b
Шаржпт так не заведется емнип. Самый простой способ - качаешь модель, качаешь клип, по инструкции из репы жоры проводишь llava surgery, конвертишь проектор, квантуешь модель (ниже q8_0 не стоит, заодно для этого кванта почти ничего делать не надо). После используешь с его сервером, параметры запуска есть. Встроенный интерфейс - поздалупный творожок, но для базового ознакомления хватит. API описан хорошо, его можешь юзать, работает.
Алсо Sharegpt на самом деле не так уж и сильно от кога отстает, не смотря на более простую архитектуру и размер.

Аноним 19/12/23 Втр 05:14:41 #385 №577223

>>577222
Нафига самому квантовать? Все готовое есть в ггуф на обниморде, качай квант, качай кодер к нему там же и запускай сервером

Аноним 19/12/23 Втр 05:18:26 #386 №577229

>>577223
Дело говоришь, просто fp16 в его формат запаковать в таком размере.
> Все готовое
Ну может быть, но после пары случаев квантую сам.

Аноним 19/12/23 Втр 05:46:53 #387 №577236

>>577220
>>577222
Ладно, я походу слишком тупой для этого, немного проще себе представлял. Может в другой раз попробую...

Спасибо за советы, в любом случае.

Аноним 19/12/23 Втр 06:19:42 #388 №577253

локалки ведь всё такая же соя, микстраль оказывается обучен на реддите и высерах chatgpt (соевых в том числе), и дохнет эта тема через 20-30 сообщений, начинатет шизить.

Аноним 19/12/23 Втр 07:03:55 #389 №577263

>>577217
ну допустим поумнее, но видюхи у них там условные a100 и скоростя большие. Все равно это сколько видюх им надо на тысячи чуваков, а в вторы ну не верю я че их модели выходят за 70b условных. Ну представь обработать быстро весь контекст за 20 условных секунд еще и огромной модели. Еще и охрененно большому количеству людей. Не слишком жирно ли для таких компаний таке желез держать без оптмизаций еще и с несколькими агентами на один ответ? Звучит как наебалово. У них вряд ли модели больше 100b

Аноним 19/12/23 Втр 07:11:42 #390 №577266

image.png

>>577218
я то отстрадал свое.
34и все запихал в карточку, пресет дефолный. Очень нравятся пока ответы. До этого все пытался запихать по варианту Undi, но это хуита глючная. Щас все в джейле и мейне карточки. Насчет мемо нихуя не понял че чел зашизил там. Сетка если че Deepsex 34b. Промпт взял в acig вчерашнем.Часть его видно найдете....

Аноним 19/12/23 Втр 07:11:57 #391 №577267

>>577263
Они в этих карточках купаться могут, не соврать бы, там сотни тысяч только новых, и каждый год покупают все больше. Несколько миллионов ускорителей? У майков куча, у самих попенаи тоже.

Аноним 19/12/23 Втр 07:14:44 #392 №577272

image.png

>>577266
Пресет. Карточку сами найдете если че. Ну а касаемо того че в acig продвинулись дальше и делятся потому что сетки мощнее, ну у ас преимущество в выброе моделей без сои и не надо каждый месяц промпт переписывать, когда нибудь сравняются и наши сетки с ими или станут даже лучше.

Аноним 19/12/23 Втр 07:16:44 #393 №577275

>>577272
тебе там не жарко?

Аноним 19/12/23 Втр 07:17:41 #394 №577277

>>577267
все равно бесплатно ниче не бывает, это все временно. а еще и потом компромат на каждого нелокального анона будет. Оно нам надо, надо локал двигать, особенно учитывая реалии нашей страны.

Аноним 19/12/23 Втр 07:18:27 #395 №577278

>>577275
ну ты видишь ответы выше. Вроде норм. Темпура делает лучше ответы а мин-п режет ненужные токены.

Аноним 19/12/23 Втр 07:22:30 #396 №577279

>>577277
Надо, отдавать на себя инфу с которой твой психопортрет соберут такое. Рекламщики, досье и все такое, хомячки кидаются туда не думая.
Ну пока что локалки только ускоряют свое развитие. Нас всех тормозят ебанутые цены на норм ускорители, корпы все себе зажали либо за пайвелом либо вобще не продают смертным.
Я то за локалки, сервисы очень не надежны, все лучше дома держать и иметь над этим полный контроль.

>>577278
Я чет больше 1.5 не ставлю с мин-п, на 2 бывает уже так себе ответы

Аноним 19/12/23 Втр 07:27:21 #397 №577280

>>577266
Кстати мемо хвалят, вот карту посмотри пример, в чарактер ноте ищи мемо, качай только v2, ну там написано
https://chub.ai/characters/onii chan2210/himawari-5cf8d585

Аноним 19/12/23 Втр 07:31:44 #398 №577283

>>577279
в большинстве не кажется это шиза таверны и унди. Унди дает плохие примеры с инструкциями- ответами. Надо как раньше кидать все в джейлы и main в карточке как на других сетках корпов и не использовать #instruction - response особенно на 34b от китайцев. Тогда модели чет уже пишут норм. Но лучше бы это был труд н одного анона, а и других. Все равно смысл скрывать от других че как делается в локалках.

Аноним 19/12/23 Втр 07:34:55 #399 №577285

>>577283
Я так понимаю он на грантах сидит, и вроде бы с кем то вместе эти сетки пилит. Но да, инфу зажимают и не только он.

Аноним 19/12/23 Втр 07:41:58 #400 №577287

>>577285
не пилит а просто мерджит старое перекидывая просто кубики места на место. Уже не смотрю его модели. Короче из всех сеток тестируемых пока что напоминает сетку только deepsex 34b и может cat 13-b остальные слабенькие или однообразные. Русскую сетку хочется с великим могучим...

Аноним 19/12/23 Втр 07:49:00 #401 №577292

image.png

>>577266
Во. Она вспомнила про 20 правило с 13 ответа в 20 ответе.

Аноним 19/12/23 Втр 07:53:35 #402 №577294

>>577287
Он сейчас с мое играется, на сколько помню, там может тоже что то годное попасться.
Но тестить его кучу сеток слишком долго что бы выбрать годноту

>>577292
на кстати, ренти кинули с рецептом промпта мемо
https://rentry.co/DrunkArcadeExample
Думаю попробовать карточку сделать на локалку, упростив все это убрав ненужное. Может даже в кобальде, хули нет. Тсинкинг работает же.

Аноним 19/12/23 Втр 08:04:45 #403 №577300

>>577294
Надо глянуть мемо, хотя щас я не знаю че еще добавить чтобы не сломать то че есть, самое тяжелое это заставить персонажа не выходить из роли (все предыдущие локалки вообще во время кума вели себя как один персонаж) и не брать роль юзера.
как выглядит тсинкинг на локалке?

Аноним 19/12/23 Втр 08:22:43 #404 №577310

image.png

>>577300
>как выглядит тсинкинг на локалке?
У меня есть минимальный рабочий промпт с ним, обрезал все что смог.
Просто примером показываешь сетке че делать, ничего не объясняя. Когда то подхватывает, когда то нет. Но какое то мышление там получается. Щас на таком и сижу.
Дает себе самоинструкции и иногда думает, хотя бы.
Есть и более сложный, но там нужно выделять роль и прописывать ей поведение, мол используешь для внутреннего диалога и решения задач и тд. И давая пример так же.

Аноним 19/12/23 Втр 08:26:27 #405 №577313

image.png

>>577310
Вру, вот минималка, тоже работает и даже лучше, тут в примере мышления добавлены инструкции, с ними отвечает лучше.

Аноним 19/12/23 Втр 08:38:25 #406 №577316

>>577313
ну надо попробовать... сделаю отдельную таверну пот тсинкинг и посмотрю че будет делать Bel

Аноним 19/12/23 Втр 08:51:21 #407 №577320

>>577266
>Deepsex
На этом сайте >>576260 твоя модель на 597 месте.
Переходи на 7b. Только они уничтожают гпт.

Аноним 19/12/23 Втр 09:10:51 #408 №577322

>>577320
Вообще не понимаю мистралешизов. Я как то затестил. мистралька вообще не умеет в рп. когда унди начал мерджить ее я понял че он просто творит херню.

Аноним 19/12/23 Втр 10:10:48 #409 №577333

>>577283
>Надо как раньше кидать все в джейлы и main в карточке
Какая за этим логика? Эти поля тупо же пойдут в дефолтный мейн и джейл. Они были сделаны только для того, чтобы ботмейкер мог предложить свой системный промпт. Мне, например, плевать, как там ботмейкер хотел, чтобы его карточка играла, поэтому я у себя в таверне отрубаю эти опции ещё с того времени, как их впервые добавили. И касательно джейла, по моему опыту, мелкие модели путаются от инструкции, стоящей в конце длинного чата, или игнорят её. 34б мб и норм поймёт в большинстве случаев, не знаю. Instruction-input-response и другие подобные конструкции используются, потому что сетки тренировали с такими конкретным префиксами перед инструкциями/обращением пользователя/ответом. Т.е. сетка у которой при обучении всегда перед инструкцией шло ###Instruction, будет лучше слушать инструкции после этого префикса. А если ей вдруг после чата начинают втирать какую-то дичь без всяких префиксов, мелкая сеть, скорее всего, проигнорирует это.

Аноним 19/12/23 Втр 10:28:08 #410 №577339

>>577266
Где кнопочка в таверне что бы промпт и джейл вводить?

Аноним 19/12/23 Втр 10:42:56 #411 №577348

image.png

>>577339
книжечка справа.

>>577333
ну откроем гребанный Ai responce formatting и че мы там увидим. Куча responce и instruction, записываем инструкцию в instruction и не знаю как у тебя, но я сколько тестов не делал все время сетка пытается запихать эти Instruction и Response в ответ да еще и не выполняет половину инструкций несмотря на то что все находится в самом низу. Я убил кучу времени пытавшись там писать промпты, на ундиевских шизомоделях. Может там это и работает отчасти, но на китайских 34b это не годится. А логика такая что все таки качество ответа стало выш именно когда я прописал инфу там.

Аноним 19/12/23 Втр 10:57:08 #412 №577351

>>576727
О, пасиба-пасиба!
Ну, пока подождем значит.
(Силеро у меня все равно больше одной фразы подряд генерить не хочет)

>>576767
Вам не кажется, что это напоминает девочку с расщеплением личности? =)

>>576912
> Это не совсем корректно
Это буквально заявлено разработчиками.
42б уникальных и 14б общих на всех. =) По их утверждениям, там очень сильно разные модели.

> Кто-нибудь пробовал составить промт для llm чтобы она делала с подобной разметкой на основе содержания?
Шикарная идея. =)

>>577213
1. Знакомый корпо занимается этим уже полгода. Профессия есть такая — промпт-инженер. А мы что? :)
2. Да, редачил лайтово, работает как мне надо, но я без претензий, хз.

>>577215
Она только объем жрет за восьмерых, а скорость — за двоих, зато знаний за шестерых. Ну, то есть, таки выигрыш.
Ну и камон, 64 гига, у кого сейчас столько нет? Память копейки стоит. Еще пару лет назад 8 гигов DDR3 стоило 3 тысячи рублей, сейчас 64 гига стоит 4 тыщи. С DDR4 та же тенденция, там уже и попердеть на 2,5 токена можно.

>>577217
Ну да, минимум 70B. =)

>>577219
Да не работает этот экстеншен, тут его никто не завел.

Скачай прямо из репозитария ggerganov его llama.cpp и ею запускай. Там ничего сложного.

>>577263
И это тоже да.
Но не такому уж охрененно большому количеству людей.
Охрененно больше только у опенаи, гугла, может быть клода или икса. У остальных одномоментно очень мало сидит.
Да и опенаи может отвечать по минуте, когда загруженность высокая.
Так что ты завышаешь их результаты. =)

>>577267
Большая часть задействована для обучения, ИМХО.
Сами модели крутятся на меньшей части.

>>577277
Как раз учитывая реалии НАШЕЙ страны, можно и в облаке сидеть — всем похуй. =D
А вот учитывая реалии мира вообще и ТЕХ стран, если хочешь поездить по за границам — лучше свои фетиши им не выдавать.
Хотя, ерпшить с гигачатом или алисой — это рофел, конечно. =D
И вообще, локалки — это как мп3 плеер. Мастхев на случай отключения света интернета.

>>577320
Шел декабрь двадцать третьего, люди до сих пор кидали ссылки на аюми… даже иронично это делать кринж.

Аноним 19/12/23 Втр 10:59:21 #413 №577352

>>577351
>И вообще, локалки — это как мп3 плеер. Мастхев на случай отключения света интернета.
И тут у тебя отваливается модуль гугл переводчика.

Аноним 19/12/23 Втр 11:43:15 #414 №577385

image.png

>>577352
пикрел

Ишь, качество им не нравится…

Аноним 19/12/23 Втр 11:53:39 #415 №577388

>>577352
Как будто есть проблема переводить самой нейросеткой. Ну кроме скорости и проёба контекста, но это решается запуском мистраля на отдельном устройстве. В некоторых моментах даже лучше дипла, по крайней мере не серит с тегами разметки.

Аноним 19/12/23 Втр 11:58:12 #416 №577391

>>577388
Мистраля или микстраля?
Мистраль на русский так себе, как мне показалось…

Аноним 19/12/23 Втр 12:07:49 #417 №577402

>>577391
Мистраль так то один из лучших в 7b кто может в русский.

Аноним 19/12/23 Втр 12:35:23 #418 №577416

>>577391
С переводом хорошо справляется почти что угодно.

Аноним 19/12/23 Втр 13:22:20 #419 №577443

>>577388
> В некоторых моментах даже лучше дипла,
Жалко только что эти моменты не качаются качества перевода.
>>577416
Просто справляется. Без хорошо.

Аноним 19/12/23 Втр 14:42:26 #420 №577497

>>577236
Там на самом деле все просто, не ведись на спам терминов, буквально несколько шагов. Если до конца года доживу то запилю как запускать.
>>577263
> Все равно это сколько видюх им надо на тысячи чуваков
Так этих видюх там - тысячи, десятки тысяч. Модели действительно оптимизированные - квантованные, а сам запуск далеко не на стоковых трансформерсах или аналогично пуску локалок, все оптимизировано под всю эту огромную нагрузку и поток запросов. И какой еще контекст за 20 секунд, если он на десктопном железе в 70б несколько секунд занимает?
>>577266
> 34и все запихал в карточку, пресет дефолный.
Зачем? Локальным моделям не нужен жб если они нормальные, а если что-то там не так - правится системный промт или в ход идет негативный промт, который ультрамощнейшее средство.
И ты уверен что оно вообще передается? в2 формат с жб он под опеновский пайплайн рассчитан, к которому отдельный блок настроек, порядка и т.д.
Если эта карточка как-то плохо работает - пофикси форматирование или выдели нужные части, но самое первое что нужно сделать - настроить инстракт формат под ролплей. Спам всей той дичи приводит к деградации результатов, что на локалках, что на коммерции.
>>577272
Вроде оттепель, все еще мерзнешь?
>>577300
> как выглядит тсинкинг на локалке?
Пусти любую модель с заложенным COT и ризонингом, дефолтные ответы будут с ним. Вариант вот этого господина >>577310 достаточно специфичный, плохо подходит к нормальным интерфейсам и нет уверенности в том что он что-то улучшает/раскрывает.

Аноним 19/12/23 Втр 14:46:10 #421 №577502

>>577351
> Это буквально заявлено разработчиками.
> 42б уникальных и 14б общих на всех.
Не прочел перед ответом или не понял о чем речь? Не ленись, там про то что отдельные модели в миксе имеют немалые пересечения как своих базовых датасетов, так и знаний, не одна а несколько смогут корректно ответить на многие даже специфичные вопросы.
>>577352
Эх, сейчас бы в 2д24м не знать инглиш. Но тебе уже дельные ответы дали, есть локальные переводчики, переводить может и нейросеть. Отдельным запросом даже та же самая модель выдаст лучше перевод и конечный рп чем если сразу рпшить на русском.

Аноним 19/12/23 Втр 14:54:59 #422 №577519

>>577497
>Так этих видюх там - тысячи, десятки тысяч.
Добавлю к твоим словам то, что они наверняка всё батчами запускают. А проход одного промта или сразу десятка по сути не сильно отличаются по требуемым вычислениям, зато используют всякие кеши ГПУ и прочее.

Аноним 19/12/23 Втр 15:44:53 #423 №577563

>>577502
инглиш это язык необразованного быдла, он ограничен своей простотой и заставляет изучающего его скучать от противной простоты этого языка. Иностранцы все и просят с ними на инглише общаться велт тупые как пробки и на большее неспособны, приспособляться под иностранца знающего только инглиш себя не уважать. Кум на русском или немецком будет в разы интереснее чем на этом обрубке созданном для людей с синдромом дауна.

Аноним 19/12/23 Втр 15:48:39 #424 №577567

>>577497
нужен локальным моделям жб, его задача давить на сетку чтобы она реально обращала внимание усиливая приоритет на инструкции. Например у меня в жб указано чтобы персонаж говорил на современном языке, благодаря чему попадаются и современные слова в рп.

Аноним 19/12/23 Втр 15:56:34 #425 №577571

>>577563
Гутен таг, Ганс, епта
>>577567
> нужен локальным моделям жб
Нет. Неспроста по дефолту в таверне с настройками под локалки даже места под него не предусмотрено.
> в жб указано чтобы персонаж говорил на современном языке
Этому место в карточке и хватает буквально пары слов, по дефолту нормальная модель выстраивает стиль речи под специфику персонажа. Что-то особое лучше указывать в начале в системном промте.

Вообще доп инструкция с указанием места инжекта не помешала бы на некоторых карточках с механиками, чтобы разделить специфичную херню с шизопромтом для жб, и полезную инструкцию, что будет работать везде.

Аноним 19/12/23 Втр 16:00:02 #426 №577574

>>577497
>Локальным моделям не нужен жб если они нормальные
Под джейлом в комьюнити уже давно имеется в виду не только что-то пробивающее цензуру, а и критические инструкции, которые ставятся в самый конец инпута, где они имеют выше вес. Думаю, тот анон это имел в виду. А вот вписывать дескрипшен в мейн систем промпт карточки - это какая-то шиза, потому что он тогда пойдёт в мейн систем промпт, где и так стоял бы обычный дескрипшен.
>И ты уверен что оно вообще передается?
И вот это правильный вопрос имхо. Хз, как там оно с включенным инстракт модом присобачится, нужно вывод в консоль смотреть. В одной из прошлых версий таверны с включенным добавлением имён персонажей у меня промпт на саммарайз, например, писался после {{char}}, отчего он ни черта не работал, сетка просто отвечала за перса, как ни в чём не бывало.

Аноним 19/12/23 Втр 16:02:31 #427 №577575

Вкатился после GPTQ на говнокод Жоры чтоб мисраль потрогать. Это вообще норма что скорость 15-18 т/с на 4090+CPU? Хули контекст обрабатывается долго? GPTQ контекст всегда в пределах секунды обрабатывает, а тут по 10 секунд на 1000 токенов.

Аноним 19/12/23 Втр 16:07:26 #428 №577577

>>577218
>А что тут сложного? Если нормально промт составить то оно дополнит даже по делу а не рандомной рп-шизой.
Ты особо одаренный? Речь не про инструкт/чат версии а про базовые компетишн модели. То что ты сделал, это вообще не про это.

Аноним 19/12/23 Втр 16:10:57 #429 №577579

>>577575
Мистраль вообще должен быстрее работать чем остальные модели т.к там групповая оптимизация.

Аноним 19/12/23 Втр 16:14:54 #430 №577582

1547312738790.png

>>577574
> Под джейлом в комьюнити уже давно имеется в виду не только что-то пробивающее цензуру, а и критические инструкции
Проблема в том что они идут комплектом считай. То что могло быть поместиться в несколько слов и не жрать лишнее внимание/токены - превращается в полотна.
Инструкции дополнительные - вполне норм тема, главное не спамить туда всякую дичь и лишнее.
> Хз, как там оно с включенным инстракт модом присобачится
В стори стринге нет под них регэкспов. Зная таверну, оно может где-то еще выставляться, но в пресетах под коммерцию структура задана явно.
>>577575
Говнокод, увы. Если на видюхе малая доля модели то грех жаловаться.
>>577577
Зачем агришься, дурень? Оно и обычным комплишном делается, особенно если в начале задать нужный запрос.
Или ты из тех кто специально выбирает дебильный путь чтобы потом жаловаться?

Аноним 19/12/23 Втр 16:19:22 #431 №577584

>>577577
Инстракт модели и "обычные" работают одинаково. Просто инстракт модели научили "дописывать" инструкции в виде ответа на них. Так что тот анон прав что проблемы, скорее всего, в параметрах или подаче промпта на обработку тем сервисом.

Аноним 19/12/23 Втр 16:20:42 #432 №577585

>>577571
Просто таверновские кулибины сами не знают че делают. Проверяй влияние инструкции на рп например использовав такую формулировку
"В следующем ответе {{char}} назовет {{user}} дрочером неудачником и прижмет его к своим сиськам"
И вот когда подобная простая инструкция исполняется это говорит уже о том что сетка замечает вообще инструкции.

Аноним 19/12/23 Втр 16:21:22 #433 №577586

435f9ec70a3f26571bbd4c236ce9deac.png

>>577222
>Самый простой способ - качаешь модель, качаешь клип, по инструкции из репы жоры проводишь llava surgery, конвертишь проектор, квантуешь модель (ниже q8_0 не стоит, заодно для этого кванта почти ничего делать не надо). После используешь с его сервером, параметры запуска есть. Встроенный интерфейс - поздалупный творожок, но для базового ознакомления хватит.

Аноним 19/12/23 Втр 16:22:13 #434 №577587

>>577575
Говнокод Жоры так себе под ГПУ.

Аноним 19/12/23 Втр 16:22:47 #435 №577588

>>577222
>Алсо Sharegpt на самом деле не так уж и сильно от кога отстает, не смотря на более простую архитектуру и размер.
Ну смотря на демо - довольно прилично, при этом я только 490px версию пробовал

Аноним 19/12/23 Втр 16:23:43 #436 №577589

>>577587
Только если у тебя карта с ртх, в другом случае заебок работает.

Аноним 19/12/23 Втр 16:23:48 #437 №577590

>>577582
>в пресетах под коммерцию структура задана явно
Даже там она подаётся нетривиально. В гпт команды идут со специальным префиксом System, который вроде требует апишка OAI, а клоду - как-то по-другому. Судя по тому, что в соседнем треде для чар ноутс рекомендуют добавлять в начало Assistant, возможно, там плейн текст вообще без всего. Сам давно не юзал, не знаю.

Аноним 19/12/23 Втр 16:29:54 #438 №577593

>>577589
Что значит заебок? RTX с экслламой, вот это заебок, вот это скорости, а вот как раз всё остальное древнее это уже говно и боль.
>>577590
>В гпт команды идут со специальным префиксом System
Притом они спамят этим тегом по 5 раз на промт, хотя где-то читал, что систем должен быть один, лол.

Аноним 19/12/23 Втр 16:29:58 #439 №577594

>>577585
> Проверяй влияние инструкции на рп
А это про что? Управлять ходом легко можно через (OOC), часто работает даже эффективнее всякий авторских заметок и подобных методов, кроме инжекта перед самим ответом. Если ты про что-то другое - оно в чате себя иначе поведет чем при указании в другом месте. Не понял.
>>577586
Неистово потерпел поражение
>>577590
> Даже там она подаётся нетривиально.
Двачую, заморочная тема. Реверс-инженерия коммерции тоже та еще тема, столько упорства нужно проявлять что аж зависть берет.
> добавлять в начало Assistant
Для клавы раньше хорошо работали те, где разыгран диалог с Assistant, который соглашается, аут оф контекст выглядит забавно.

Аноним 19/12/23 Втр 16:30:59 #440 №577597

>>577593
> RTX с экслламой, вот это заебок, вот это скорости, а вот как раз всё остальное древнее это уже говно и боль.
Двачую этого господина
> Притом они спамят этим тегом по 5 раз на промт
Больше не меньше, модель ахуевает и сразу расцензуривается.

Аноним 19/12/23 Втр 17:38:00 #441 №577628

1588941436689.png

В пизду вашего Жору. У него в issues даже не нашёл про обработку контекста, всем похуй, сплошные макобляди сидят. Проще на 3.7bpw сидеть с полтосом т/с и без ебучей обработки контекста по 30 секунд.

Аноним 19/12/23 Втр 17:43:15 #442 №577632

изображение.png

>>577628
>по 30 секунд
На твоём же скрине нигде нет больше 15 секунд. А этот результат ИМХО вполне себе юзабельный, подмайорное говно отдаёт не быстрее.

Аноним 19/12/23 Втр 17:46:27 #443 №577637

>>577632
Так на моём скрине ExLlama. У Жоры перед началом генерации оно секунд 30 жуёт 3500 контекста, а потом еле пердит 15 т/с.

Аноним 19/12/23 Втр 17:50:20 #444 №577640

>>577637
Ну так не меняй контекст, лол. Растяни ропой, пусть будет 8к, 16к, зато стабильно без пересчёта. Разок только при первой загрузке будет больно.

Аноним 19/12/23 Втр 18:14:13 #445 №577661

>>577628
Хуясе ебать, эксллама уже научилась в микстраль? Скорость достойная.
> 3.7bpw
Вот это интересно бы потестировать что да как. Алсо интересно как ее квантование проходит и с каким датасетом делать оценку.
Тема давно обсуждалась, эффект от нее всеже есть. В теоретической теории рп датасет действительно позволяет снизить отклонения вероятностей от исходного на рп (выиграть примерно 0.2-0.4 бита), но обратный эффект в других областях. При некоторых манипуляциях получается самый настоящий алайнмент из-за квантования, пусть и небольшой.
А в микстралях же если вызываются не все эксперты, то может получаться что тем, что почти не задействовались, отдаст по 2.17 бит, выкрутив актуальные. Кто-нибудь раскуривал как турбодерп реализовал оценку для него?
>>577640
> Ну так не меняй контекст
Хороший совет, таким путем можно и до рп в блокноте с самим собой дойти. Алсо оно случаем не делает при каждом вызове новую обработку?

Аноним 19/12/23 Втр 18:30:10 #446 №577677

>>577661
> алайнмент из-за квантования
Оно не настолько влияет. Я квантовал вообще одной фразой из 10 слов и не было проблем.
Когда допилят QuIP послойно, вообще будет заебись на 3.0bpw.

Аноним 19/12/23 Втр 18:33:01 #447 №577680

image.png

Безымянный.png

>>573831
>>575433

Этой доске определённо нужен отдельный ЗОТ-тред нейроглюков.

Аноним 19/12/23 Втр 18:43:43 #448 №577686

image.png

>>577680
А что не так с "Чёрная шляпа", спрашиваю для друга....

Аноним 19/12/23 Втр 18:43:58 #449 №577688

1605004850356.png

1600920641402.png

>>577677
> Оно не настолько влияет.
Ну как, относительно, рандом всеравно в приоритете и все это ловля блох. Если не вникать - викитекста хватит всем.
Если хочется заморочиться - можно надергать разных датасетов и получить нейтральное, но тут больше плацебо. Квант на основе ерп датасета в ерп в среднем чуть ближе к оригиналу, но и там и в других задачах имеет заметное число отдельных токенов, которые у него отличаются от фп16 гораздо сильнее чем у остальных. Куча этой херни лежит, когда-нибудь разгребу если актуальность не потеряется.
Другое дело если оценочный датасет сделать конкретно специфичным, вот там уже проявляется.

Аноним 19/12/23 Втр 18:46:06 #450 №577690

>>577575
Микстраль в ггуфе на видяхе не то что не ускоряется (в принципе), а еще и замедляться умудряется, по ощущениям.
Выгружать смысла нет на данный момент, кмк.

>>577628
> rpcal
какой-то скачал…

Впрочем, с моими 12 гигами, какая разница. =')

Аноним 19/12/23 Втр 18:53:11 #451 №577693

>>577688
> плацебо
Можешь top_k в 3-5 токенов поставить и пытаться зарандомить другими семплерами и дикой температурой, увидишь интересные результаты. Рандом будет влиять на формулировки, но он всё равно будет пытаться один и тот же смысл в фразе заложить, даже если слова в предложении семплингом ему дрочишь. По тестам там будет совсем полное расхождение в итоговых вероятностях после семплинга, но по смыслу почти никакой разницы.
Лучше бы тестили смысл фраз классификаторами типа bart, в RL-файнтюнах же никто не использует вероятности для ревардов.

Аноним 19/12/23 Втр 19:01:16 #452 №577697

>>577661
> Алсо оно случаем не делает при каждом вызове новую обработку?
Я так и не понял как это работает. Твой инпут оно обрабатывает отдельно, не пережёвывая старый контекст. Но если инпут от лорбука, жуёт весь.

Аноним 19/12/23 Втр 19:09:33 #453 №577706

>>577693
> и пытаться зарандомить другими семплерами и дикой температурой
Низкая температура или наоборот очень высокая эти эффекты несколько сгладит. И всеравно речь идет об эффектах уровня [вместо 14% на этот токен будет 15.5%], можно прикинуть сколько нужно сделать запросов чтобы так зафиксировать это исходя из выдачи с адекватным доверительным интервалом и понять насколько ерунда. И это на один токен. Кмк, внимания больше нужно обращать на единичные выбросы отклонений.
> Рандом будет влиять на формулировки, но он всё равно будет пытаться один и тот же смысл в фразе заложить
В целом да, исключая некоторые развилки, иначе бы выли с одинаковых свайпов.
Но это все рп и около того, исследовать бы это в задачках. Там от семплинга зависимость корректного ответа была очень сильной.
> Лучше бы тестили смысл фраз классификаторами типа bart
Интересно, надо будет почитать.

Аноним 19/12/23 Втр 19:25:03 #454 №577716

>>577697
>Но если инпут от лорбука, жуёт весь.
А чего ожидать, когда лор вставляется в около начало?

Аноним 19/12/23 Втр 19:31:13 #455 №577717

1703003471701.png

>>577716
Это же w(world)i(nfo)? Хочешь сказать если я перенесу вниз, то оно снова будет только инпут жевать?

Аноним 19/12/23 Втр 19:36:21 #456 №577721

>>577717
Отключи вообще для теста, и увидишь. Офк у тебя не должен быть вообще переполнен контекст, ибо при таком случае пересчёта не избежать.
Но часть контекста всегда должна реюзаться, типа самой карточки и мейна.

Аноним 19/12/23 Втр 19:39:11 #457 №577722

>>577721
> Отключи вообще для теста, и увидишь.
Отключить что?

Аноним 19/12/23 Втр 19:49:09 #458 №577726

image.png

Очередное поражение гопоты от божественного МИСТРАЛЯ

Аноним 19/12/23 Втр 19:57:26 #459 №577731

мне скорее непонятно почему ллама даже на 70B параметров не добиралась до гопоты 3.5 на её 20B

Аноним 19/12/23 Втр 19:58:43 #460 №577732

>>577731
Не 20б там, лол.

Аноним 19/12/23 Втр 20:04:17 #461 №577734

>>577726
Эээ линк? Или уже выпилили?

Аноним 19/12/23 Втр 20:07:41 #462 №577737

>>577726
А чего там в обсуждении 474, не заглядывал? Неужели кто-то аргументированно предложил банить модели, получаемые рэндомным мёржем топовых по бенчам моделей, повторяемым до тех пор, пока не получится наитоповейшая?

Аноним 19/12/23 Втр 20:09:02 #463 №577740

>>577722
Ворд инфу?
>>577737
>банить модели, получаемые рэндомным мёржем топовых по бенчам моделей
За що?

Аноним 19/12/23 Втр 20:09:16 #464 №577741

>>577734
Да, успели выпилить. Эх, а ведь столько побед было, ничего еще отыграются, мощщу 7б, которых зафантюнили пара братишек в подвале, не остановить!
Жаль по функционалу там можно только включать-отключать отдельные бенчи а не выставлять им свои веса при суммировании.

Аноним 19/12/23 Втр 20:10:21 #465 №577742

>>577740
> Ворд инфу?
Так мне она-то и нужна. Без неё всё нормально, обрабатывается только моё сообщение.

Аноним 19/12/23 Втр 20:11:02 #466 №577743

>>577737
Там суть даже не в мержах.
Там тупо тренят модель под бенчмарк. А потом мерж на мерже с этими датасетами делают

Аноним 19/12/23 Втр 20:12:17 #467 №577744

>>577732
В давинчи известно что 175мрлд, а в турбе неизвестно, известно только что она дистилирована в край. На гуще челики (серьёзного уровня) гадали что 20B.

Аноним 19/12/23 Втр 20:13:26 #468 №577745

>>577734
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/discussions/474

Аноним 19/12/23 Втр 20:15:54 #469 №577747

>>577253
dolphin попробуй

Аноним 19/12/23 Втр 20:17:02 #470 №577748

>>577351
32 гига DDR5 это 20 кесов если не больше

Аноним 19/12/23 Втр 20:17:35 #471 №577749

>>577744
Инфа про 20б разве не была из какого-то официального доклада мелкомягких? Тогда ещё все рофлили, что они это спецом написали, чтобы унизить ламу.

Аноним 19/12/23 Втр 20:19:15 #472 №577752

>>577749
Хз, не видел. Но звучит убедительно, тупо по скорости/цене. Или может быть низкий квант какой-нибудь.

Аноним 19/12/23 Втр 20:20:21 #473 №577754

>>577717
> Хочешь сказать если я перенесу вниз
Тут ты перенесешь его чуть ниже по систем промту а не в принципе после истории чата, который занимает много контекста. А если перекинуть после него то результат малопредсказуем.
>>577742
Настроить ускорение обработки контекста.
>>577737
> банить модели, получаемые рэндомным мёржем топовых по бенчам моделей
Файнтюнят под тест получая огромную оценки, при этом в остальном - уг. Казаться а являться, вся суть текущего копиум-тренда.
На самом деле оно уже пошло несколько глубже, что можем наблюдать по ситуации с микстралем, который хорошо делает простые зирошоты но иногда чуть ли не проигрывает обычному мистралю на контекстах и сложных задачах. Офк это не отменяет его достижений, плюсов и эффективности тех же экспертов, но тень бросает.
>>577745
Будет рофлово если пойдет гонка вооружений с обходом их детекции.

Аноним 19/12/23 Втр 20:23:03 #474 №577756

>>577731
В следовании инструкциям, сторитейле, рп, некотором ризонинге - обходит. Написание кода - хз, когда есть кодллама не нужно. Знание языков и переводы - турба лучше.
>>577749
> Инфа про 20б разве не была из какого-то официального доклада мелкомягких?
Ее уже успели опровергнуть и обозначить ошибочной.

Аноним 19/12/23 Втр 20:24:05 #475 №577757

>>577754
>Файнтюнят под тест получая огромную оценки
Если бы было только это, то ещё ладно. Сам мистраль тоже в какой-то степени наверняка файнтьюнили под бенчи. Но вот эта вся волна новых 7б - это вообще мусор какой-то. Вон выше дали ссылку на обсуждение, по результатам которого выдали бан - там в датасете были тупо вопросы-ответы из бенча.

Аноним 19/12/23 Втр 20:25:30 #476 №577758

>>577749
Вот первоисточник от майков:
https://arxiv.org/abs/2310.17680
Автор работу отозвал, с коментом что сам нихуя толком не знает и взял цифру из этой статьи:
https://www.forbes.com/sites/forbestechcouncil/2023/02/17/is-bigger-better-why-the-chatgpt-vs-gpt-3-vs-gpt-4-battle-is-just-a-family-chat/?sh=2f28c9335b65
Статью написал СЕО SoMonitor.ai, эта заява на 20B там никак не объясняется, просто с потолка цифра. Может у неё и есть основания, но он их не приводит.

>>577754
>Будет рофлово если пойдет гонка вооружений с обходом их детекции.
Да я не думаю что они прям спецом туда суют тесты. В посте выше просто прошерстили датасет и обнаружили контаминацию. Причем кто-то из васянов тоже додумался прошерстить (тот самый убийца-микстраля-франкенштейн-мистраля на 10B), и вот они уже убрали.

Аноним 19/12/23 Втр 20:28:16 #477 №577760

>>577757
>Но вот эта вся волна новых 7б - это вообще мусор какой-то. Вон выше дали ссылку на обсуждение, по результатам которого выдали бан - там в датасете были тупо вопросы-ответы из бенча.
Не вся, старлинг например нормальный. Хотя известно что в него тоже попали результаты.

А вообще нужно просто каждый раз придумывать тесты вручную и раз в месяц публиковать рейтинг.

Аноним 19/12/23 Втр 20:33:52 #478 №577764

>>577737
Там на самом деле просто какой-то шизик был с аргументацией уровня "врёти я не верю что скоры реальные, показывайте датасет и код тренировки". Не понятно какая претензия к моделям и почему нельзя их файнтюнить под конкретную задачу, если скоры сами по себе говно. У китайцев, да и вообще у новых моделей, уже пропадает интерес к этим говноскорам, особенно с такими шизиками. Фактически сейчас можно уже хоронить эту табличку, только Арена остаётся.

Аноним 19/12/23 Втр 20:42:51 #479 №577770

налетай выберай
https://huggingface.co/models?sort=created&search=10.7b

Аноним 19/12/23 Втр 20:47:56 #480 №577772

Вот таким вот пройтись по любой модели и будет заебись
https://huggingface.co/datasets/unalignment/toxic-dpo-v0.1?not-for-all-audiences=true
все таки создатель злого пивота малаца
https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF

Аноним 19/12/23 Втр 20:48:16 #481 №577773

>>577748
При таких скоростях, DDR5 уже не критична. Соотношение размер-скорость, ну. =)
Так что, под свои цели вполне.

Аноним 19/12/23 Втр 20:54:47 #482 №577775

>>577772
>все таки создатель злого пивота малаца
Только это не от него, если что. Разраб пивота использовал обратную тренировку на инструкциях безопасности от Антропик, а не этот инвертнутый датасет. Но вдохновлялись злым пивотом, наверное, да.

Аноним 19/12/23 Втр 20:57:50 #483 №577776

>>577744
>На гуще челики (серьёзного уровня)
Хабр не является серьёзным уровнем, лол.
>>577748
Эх, купил 64 гига 6400 за такие деньги.
>>577764
>Там на самом деле просто какой-то шизик был с аргументацией уровня "врёти я не верю что скоры реальные, показывайте датасет и код тренировки".
Чё? Там скорее шизом был автор модели, который "Ряяя я придумал новый способ тренировки из говна и палок, но никому нихуя не покажу, верьте на слово".
>>577764
>Фактически сейчас можно уже хоронить эту табличку, только Арена остаётся.
Потому что изначально она задумывалась как беспристрастная и открытая проверка. Кто ж знал, что на бенчах начнут тренировать я знал конечно, но кто ж меня пустит.
>>577772
А вот это дельно. Интересно, сильно ли отличается от pivot-0.1-evil-a?

Аноним 19/12/23 Втр 20:59:31 #484 №577778

>>577757
Ага, есть такое дело. Если изначально сам мистраль не вызывал какого-то отторжения и воспринимался просто как модель пусть не умная, но осознающая свои границы и пытающаяся выстроить ответ чтобы получить норм результат, то сейчас тот мусор - это пиздец.
На самом деле тут удачное сочетание и чуть ли не работа маркетологов (политологов/антропологов/кто там занимается всей этой херней), ведь люди действительно хотят верить в них и на этом явно играют.
Хз как дальше пойдет развитие, аукнется клеймом, само рассосется, или воинствующие нищуки будут задавать тренд, хорошего мало.
>>577758
> Да я не думаю что они прям спецом туда суют тесты.
Они именно именно это и делают, а цель - попасть в топы бенча.
>>577760
> старлинг например нормальный
Прямо норм? Тут то вся суть претензий в искажении результатов, он может работать с текстом, выполнять инструкции, рпшить?
> просто каждый раз придумывать тесты вручную
Синтезировать скорее и делать их комбинации, оценивая сложность каждого. Тогда предобучить совсем втупую не получится, но остается выдрочка на зирошоты, поэтому стоит включать что-то длинное-сложное, или вообще разыгрывать поэтапное решение как-то задачи в ходе общения с нейронкой.
>>577764
Абуз же. То что сами это допустили - камень в их огород, может теперь зашевелятся.

Аноним 19/12/23 Втр 21:00:03 #485 №577779

>>577764
Дело не в шизике, выше кинули ссылку на обсуждение. Там в датасетах была инфа напрямую из бенчмарков. Возможно, разрабы некоторых попавших под бан моделей сами не знали, что датасет загрязнён, но снесли за это.

Аноним 19/12/23 Втр 21:02:17 #486 №577780

>>577775
знаю что не он, но идея то его

>>577776
>А вот это дельно. Интересно, сильно ли отличается от pivot-0.1-evil-a?
У него сильный перекос был, тут может быть мягче перекос. Может даже до почти нейтрального, надо проверять все таки, но у меня качаться будет часа 2

Аноним 19/12/23 Втр 21:02:30 #487 №577781

>>577779
>Возможно, разрабы некоторых попавших под бан моделей сами не знали, что датасет загрязнён
цитата про белошвейку в борделе

Аноним 19/12/23 Втр 21:04:43 #488 №577782

изображение.png

>>577780
>У него сильный перекос был
Заебца же. Я иногда совершаю первородный грех, но после него причищаюсь вот таким вот, чтобы соя в голове не задерживалась.
>но у меня качаться будет часа 2
Скачаю за тебя, уговорил зря что ли 1000 рублей в месяц плачу?.

Аноним 19/12/23 Втр 21:06:57 #489 №577783

>>577782
У него там изза этого формат проебан был, сетка хоть и отвечала но неостановимым поносом слов
Спасибо анон, скажи хоть потом че как

Аноним 19/12/23 Втр 21:07:21 #490 №577784

>>577770
А чего, кто-нибудь пробовал реально на этом Соларе и его разновидностях рпшить? Мне из около 11б относительно понравилась вот эта https://huggingface.co/beberik/Nyxene-v2-11B
Вела рп получше 7б, но всё ещё хуже топовых 13б. Есть ещё её третья версия, но показалась малость шизоидной.

Аноним 19/12/23 Втр 21:12:31 #491 №577786

>>577784
рпшить не, так сидеть - да. Сетки 11b умнее 13b, но пишут чуть менее красиво. Все таки размер сетки это то как красиво она отвечает, а не только мозги. Предложения больше, по другому строит предложения и все такое.

Аноним 19/12/23 Втр 21:23:52 #492 №577793

изображение.png

>>577783
>сетка хоть и отвечала но неостановимым поносом слов
Кстати да. Хотя в этом своя прелесть была.

В общемэтот солар с токсичностью сойдёт для кума, про негров шутит без вопросов, но вот русский у него... По своему шедеврален.

Аноним 19/12/23 Втр 21:25:35 #493 №577794

>>577793
хахах забавно

Аноним 19/12/23 Втр 21:27:18 #494 №577795

>>577786
>Сетки 11b умнее 13b
Звучит очень сомнительно, честно говоря, учитывая, что 11б - это франкенштейны из 7б, а не нормально зафайнтьюненные модели.
По-моему, "красиво отвечает" в большей степени определяется датасетом, чем кол-вом параметров. Та же Синатра 7б, не скажу, что красиво, но эмоционально пишет. Но по мозгам явно не хватает. Мне, по крайней мере, не удалось что-то осмысленное на 7б моделях получить, помимо коротких эрп в десяток сообщений с простыми куум ботами. Да и там они умудряются, например, запрашивать второй раунд, когда ещё и первый не закончили.

Аноним 19/12/23 Втр 21:29:10 #495 №577797

>>577793
Ублюдок, мать твою, а ну иди сюда говно собачье!

Аноним 19/12/23 Втр 21:29:22 #496 №577798

изображение.png

>>577793
В общем надо добить тред до переката, так что немного проверенной классики от этой же сетки. Посмотрим, как токсичность сказалась на знаниях так сказать.
Вердикт- мозгов не обнаружено, некоторые 7B показывают результат лучше.

Аноним 19/12/23 Втр 21:34:59 #497 №577803

>>577798
Что-то не сложилось. А можешь попросить ее перевести и перефразировать в како-то стиле какой-нибудь кусок текста или просто длинный пост из треда?

Аноним 19/12/23 Втр 21:35:16 #498 №577804

изображение.png

>>577797
Кстати, в режиме правки можно орфографию проверять. Одно выдуманное слово!

Аноним 19/12/23 Втр 21:35:44 #499 №577806

>>577793
Сюда бы ещё сравнение с самим виновником торжества pivot-evil 7b. Для полноты эксперимента, так сказать.

Аноним 19/12/23 Втр 21:36:53 #500 №577807

>>577795
>Звучит очень сомнительно, честно говоря, учитывая, что 11б - это франкенштейны из 7б, а не нормально зафайнтьюненные модели.
Просто все эти франкенштейны были из топовых 7b которые и так недалеко от топовых 13b болтались. А солар не франкенштейн, там скорее наращивание слоев было до 11b тоже из топовой сетки. Поэтому он может быть умнее 13b но хуже в рп так как там нужно красиво писать и соблюдать формат правильно ведя историю.
Солар базовая сетка, так что нужно ждать ее нормальных файнтюнов с рп датасетами и там уже смотреть.

>>577798
Ну а че, про рыб и петуха правильно же. В петухе предупреждает что это маловероятно но рассказывает, в рыбах вобще норм. Рыбы так то могут утонуть, хе. Я бы и про книги сказал что верно, ведь в большенстве ответов сетки предполагают что нужно узнать количество не прочитанных книг и вычитают.
Ну а вобще для начала сойдет, главное что сою прибил, дальше уже датасет шлифовать

Аноним 19/12/23 Втр 21:38:35 #501 №577808

>>577807
> Поэтому он может быть умнее 13b
Сколько же в нем голов?
И какая из ваших этих сеток нынче топовая?

Аноним 19/12/23 Втр 21:41:26 #502 №577810

>>577808
Наших это каких? 7b? Ну старлинг попробуй, вроде как самая норм сейчас
starling-lm-7b-alpha
но она скорее бот ассистент, как она в рп я не знаю

Аноним 19/12/23 Втр 21:41:42 #503 №577812

изображение.png

>>577803
>Что-то не сложилось.
Ага, отсутствие мозга.
>А можешь попросить ее перевести
В рефразы не умею, готового бота на это у меня нет, поэтому так. Английский вариант взял из дипла, поправив одну очевидную ошибку.
>>577806
Ага, может в следующем треде.
>>577807
>А солар не франкенштейн, там скорее наращивание слоев было до 11b тоже из топовой сетки.
Это и есть франкенштейн, лол. Других путей пока не нашли.
>>577807
>Рыбы так то могут утонуть, хе.
Только они не исчезают при этом из аквариума.

Аноним 19/12/23 Втр 21:46:18 #504 №577815

>>577812
>Это и есть франкенштейн, лол. Других путей пока не нашли.
Не, тут другая технология. Франкенштейн это бутерброд из перемещаных слоев 7b. Тут же взяли 7b и нарастили ей размер, обучая в процессе. По сути переобучили сетку увеличив ее размер, я кстати такого еще не видел

>Только они не исчезают при этом из аквариума.
Опять же как с книгами ответ неоднозначен, считает ли сетка число оставшихся живых рыб или тупо вычитает. Как уж она поняла вопрос

Аноним 19/12/23 Втр 21:46:36 #505 №577816

ПЕРЕКАТ

>>577814 (OP)

>>577814 (OP)

Аноним 19/12/23 Втр 21:46:40 #506 №577817

>>577807
>Так что нужно ждать ее нормальных файнтюнов с рп датасетами
Вообще есть уже какая-то, всё от того же разраба Синатры. Можно будет попозже попробовать потестить. https://huggingface.co/maywell/PiVoT-SOLAR-10.7B-RP

Аноним 19/12/23 Втр 22:20:47 #507 №577850

>>577807
>А солар не франкенштейн, там скорее наращивание слоев было до 11b тоже из топовой сетки. Поэтому он может быть умнее 13b но хуже в рп так как там нужно красиво писать и соблюдать формат правильно ведя историю.
>Солар базовая сетка, так что нужно ждать ее нормальных файнтюнов с рп датасетами и там уже смотреть.
Солар это не базовая сетка, а файнтюн мистраля 7B. Они апскейлнули мистраль до 10B неведомой методой (данных это не прибавит), и полирнули файнтюном. Как бы то ни было, 99% там от мистраля. Попытка файнтюнить это дальше приведёт к катастрофическому забыванию или ещё какому-нибудь дерьму, в общем нихуя хорошего не будет.

Такую же хуйню с апскейлом в некоторых чекпоинтах SD 1.5 делали, заканчивалось это всегда хуёво.