24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №31 /llama/

 Аноним 08/12/23 Птн 23:11:14 #1 №567655 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
Процент брака при квантовании.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>560285 (OP)
>>555242 (OP)
Аноним 08/12/23 Птн 23:21:29 #2 №567673 
>>567588 →
> Оно в mini-ITX корпус не влазит
Сам себя обрек на такое, mini-itx это всегда компромисс. У p4 исполнение предполагает продувку курпусными кулерами сервера, как ты это в мелким корпусе будешь делать, да еще чтобы не шумело?
> еще тянет все игры
Понятие тянет достаточно растяжимое и с играми в разы проще. Чсх, в новых тайтлах все что старше тюринга уже начинает сдаваться.
А тут с того момента значительные изменения прошли, паскаль в гпу расчетах сейчас очень слаб.
>>567629 →
https://nitter.net/MistralAI
Авторизация нужна похоже
>>567637 →
Еще до заказов срачи лезли. Там никаких продвижений нет, китаец же обещал переотправить? И вроде пара человек ее заказывали, вторую тоже развернули?
>>567641 →
> sep 27
Аноним 08/12/23 Птн 23:30:44 #3 №567683 
image.png
>>567657 →

Хуй знает что у этого додика со светлой темой не так
Аноним 08/12/23 Птн 23:31:17 #4 №567684 
>>567637 →
У P4 преимущество в виде цены. За 6к ты сейчас ничего больше не найдёшь, что могло бы хоть как-то запускать модели.
>>567673
> Сам себя обрек на такое, mini-itx это всегда компромисс. У p4 исполнение предполагает продувку курпусными кулерами сервера, как ты это в мелким корпусе будешь делать, да еще чтобы не шумело?

Народ пишет, что простого 40 мм карлсона с напечатанным на 3д-принтере переходником хватает для неполностью загруженной карты. Кушает она всего 70 ватт, греется соответственно.

> Понятие тянет достаточно растяжимое и с играми в разы проще. Чсх, в новых тайтлах все что старше тюринга уже начинает сдаваться.

Сливают потихоньку, само собой. Но сам факт того, что современная CUDA еще поддерживается даже на максвеллах, позволяет утверждать, что несколько лет в запасе у паскалей еще есть.
Аноним 08/12/23 Птн 23:32:41 #5 №567687 
>>567673
>Авторизация нужна похоже
Гейткип по аккаунту.
>>567673
>Там никаких продвижений нет, китаец же обещал переотправить?
Вроде появилась в продаже опять, так что по идее в этот раз должно поехать другим путём. Но я немного выгорел с заказом.
>>567683
У нас с ним нет анальных пробок регистрации.
Аноним 08/12/23 Птн 23:36:19 #6 №567692 
>>567683
Все просто, с августа этого года СЖВиттер без авторизации в нем сортирует посты как хуй на душу положит. Официальная позиция - "мы предлагаем вам более релевантные посты на основе ваших интересов и рекомендаций пользователей". Если же ты залогинен, то посты сортируются, как и раньше, по дате.
Аноним 08/12/23 Птн 23:39:44 #7 №567695 
Моя P40 трекается как покинула китайскую границу.
Мимо второй чел заказавший P40 (китаедебил).
Аноним 08/12/23 Птн 23:43:21 #8 №567699 
>>567695
Тогда я жду твоих выводом.
первый китаедебил
Аноним 08/12/23 Птн 23:43:43 #9 №567700 
>>567684
> У P4 преимущество в виде цены.
Это справедливо, но подобный аргумент работает только когда речь идет о сравнении чего-то равного и обладающего теми же функциями. Проперженные рваные штаны у бомжа можно купить за сотню рублей, за эти деньги больше ничего не найдешь, но есть ли смысл в этой покупке?
Вот и у тебя, всрать 6к за +2гб врам а потом колхозить охлаждение, при этом все равно не получить быструю работу с ллм. Стоит брать только если хочешь именно с ней пердолиться и не жалко сумму потратить именно на такие специфичные развлечения.
> что простого 40 мм карлсона
Чтобы обеспечить нужный уровень воздушного потока потребуется не просто мелкая сороковка, а длинный-жирный или турбинку. Там хоть малый тдп, но радиатор тоже одно название.
> несколько лет в запасе у паскалей еще есть
С точки зрения принципиальной возможности запуска - скорее всего да, с точки зрения перфоманса - увы.
>>567692
Илон, ты должен был бороться со злом а не примкнуть к нему! Сука, а ведь сейчас же еще платную регистрацию введут, надо бы наделать там аккаунтов если еще можно.
>>567695
До нового года есть перспектива что доедет?
Аноним 08/12/23 Птн 23:44:41 #10 №567701 
изображение.png
>>567692
>мы предлагаем вам более релевантные посты на основе ваших интересов
>без авторизации
Не паляться, что трекают всё и вся. Не зря я там JS отключил.
Аноним 08/12/23 Птн 23:51:44 #11 №567704 
>>567700
> У P4 преимущество в виде цены.
У P4 откровенно игрушечная память. Что-то тяжёлое ты на ней не запустишь.
Стакать их бесполезно, так как нейросеть выполняет слои последовательно, а значит это выродится в конвейер. Короче,это не суммирование объёма и производительности, не надейся.
Бери P40 или сервачки на ддр5.
Аноним 08/12/23 Птн 23:53:30 #12 №567707 
>>567700
>До нового года есть перспектива что доедет?
Хз, надеюсь не заваляется на таможне.
Аноним 09/12/23 Суб 00:26:07 #13 №567720 
>>567534 →
Пздц дорохо, P104-100 по 2,5к на авите найти можно.
Правда я хз, как там настраивать, мне было лень.
Но цена вдвое выше.

>>567541 →
Ну так нам вместе и не надо. В этом и фишка, что вместе тебе нужны тогда, когда ты не меняешь модели вручную и спрашиваешь разные вопросы.

>>567684
В виде БОЛЬШОЙ цены, лол. =)

Ну и напомню, что они все равно медленные.
Так на P4 еще и память медленнее.
Аноним 09/12/23 Суб 01:00:03 #14 №567730 
Емнип, проблема паскалей, что они не умеют аппаратно во всё, что меньше 16 бит.
GPTQ 4бит на паскалях просто медленно работает, медленнее чем выгруженные слои в lama.cpp
Мимо игрался на 1070.
Аноним 09/12/23 Суб 01:20:52 #15 №567740 
firefox6ScVlWCShe.png
лол
Аноним 09/12/23 Суб 01:22:54 #16 №567742 
>>567740
Получается, не база…
Аноним 09/12/23 Суб 02:10:23 #17 №567750 
euryale.png
qe8byn00zpt91.jpg
>>567740
Euryale 1.3...
Аноним 09/12/23 Суб 03:07:28 #18 №567772 
>>567740
>>567750
Оно как-то автоматизировано, или вручную вопросы перекидывали? Так то ахуенная штука для теста соефикации сетки, делаешь инструкцию с описанием персоналити персонажей с различными позициями и смотришь насколько оно их может отыграть. Нормальная сетка по всей карте пройдется, хуевая застрянет слева внизу.
Аноним 09/12/23 Суб 03:14:24 #19 №567775 
>>567772
Я прогнал вручную. То что ты описал сделать можно, но самое сложное - найти формулу этого политического теста. Судя по скриншоту они тоже забивали вручную.
Аноним 09/12/23 Суб 03:43:06 #20 №567790 
>>567775
Да вроде не самое, оно гуглится https://github.com/h4fide/politicalcompassbot/ и подобные. Сложно это не трудно это долго будет эту херь раскурить и накодить уже нужные запросы. Хотя можно попробовать запрячь кодлламу переписывать.
Аноним 09/12/23 Суб 03:45:21 #21 №567792 
>>567700
> С точки зрения принципиальной возможности запуска - скорее всего да, с точки зрения перфоманса - увы.

Никто не спорит, что производительность будет ниже, скажем, чем у T4. Но при этом P4 все равно на много порядков будет превосходить любой CPU
Аноним 09/12/23 Суб 03:52:30 #22 №567794 
>>567720
> Пздц дорохо, P104-100 по 2,5к на авите найти можно.

Когда-то было можно, сейчас их давно нет за такие деньги. Хотят те же 6-8к.

> Правда я хз, как там настраивать, мне было лень.

Под линупсом ничего настраивать не надо, работает из коробки.

> В виде БОЛЬШОЙ цены, лол. =)

Ниже нету.

> Ну и напомню, что они все равно медленные.
> Так на P4 еще и память медленнее.

Все равно это на десятки порядков быстрее, чем на CPU
Аноним 09/12/23 Суб 03:58:58 #23 №567798 
>>567792
> на много порядков
Значение знаешь?
> будет превосходить любой CPU
В том и суть что нихуя, в нее влезет только 4бит 7б а скоростью она врядли далеко уйдет от платформ на ддр5, если вообще сможет ее обогнать. Чему она там по мощности эквивалентна, 1060? Тут есть владельцы паскалей, может отпишутся за перфоманс в ллм и сколько там порядков победы.
>>567794
> на десятки порядков быстрее
Это сколько гигатокенов в секунду она выдает?
Аноним 09/12/23 Суб 05:07:51 #24 №567803 
есть комп с 32 гб, 5950х и 4090. Что лучше докупить до 128гбайт и пердолить цпу версии, либо оставаться как есть и впердоливать модели в 24 гб 4090?
для себя открыл openchat_3.5, нормально впердоливается в 4090, и довольно неплох в русском языке.
Аноним 09/12/23 Суб 05:10:35 #25 №567804 
>>567790
С этим кодом работы на час максимум по крайней мере мне - датасаенс макаке. Вопрос в том, полезен ли тест. Даже самая соевая модель вряд ли откажется отвечать как бы отвечал, например, Гитлер. В то же время он вообще не тестирует кум. Все вопросы про секс касаются consenting adults фу, аж флешбек словил плюс геи, а нужно инцест, рейп, лоли, и прочее. Тут любая модель может брыкаться независимо от политического квадранта.
Аноним 09/12/23 Суб 06:33:04 #26 №567813 
Похоже все высирают всё что могут, лишь бы успеть к NeurIPS в воскресенье.

https://www.together.ai/blog/stripedhyena-7b
Together.ai высрали НЕ трансформер (и не RWKV). Экспериментальная 7B модель собственной архитектуры, бенчи схожи с мистралем.
Аноним 09/12/23 Суб 07:03:00 #27 №567814 
16994736719280.png
А если не только политота, а вообще по разным психологическим тестам нейронки погонять? Может быть и диагнозы какие-нибудь вылезут.
Аноним 09/12/23 Суб 07:05:24 #28 №567815 
>>567803
> для себя открыл openchat_3.5, нормально впердоливается в 4090
Это шутка? Он куда угодно впердоливается, 7б же. Но да, хорош.
Аноним 09/12/23 Суб 09:06:26 #29 №567854 
>>567798
> Это сколько гигатокенов в секунду она выдает?

Скорее это на ЦПУ ты будешь часами ждать генерации.
Аноним 09/12/23 Суб 09:38:56 #30 №567874 
https://github.com/oobabooga/text-generation-webui/pull/4803

Тем временем в угабугу приехала новая двухбитная квантизация с невиданным доселе результатом, сравнимым с 4KM
Аноним 09/12/23 Суб 10:02:54 #31 №567881 
>>567804
>>567814
Поддерживаю. Пора бы создать условный бенчмарк, отражающий реальную полезность сетки. Рейтинг того-же Аюми говно полнейшее, т.к. оно проверяет только один ответ модели на не самый сложный запрос. Не удивительно что там в топе 7В, т.к. они запросто катают длинные и относительно адекватные простыни в первом ответе а потом забывают кто, где, на ком, в каком положении сидит и почему

Было бы круто составить тест на сою/политику, где модели накидывались бы баллы за непредвзятость.

Для теста на секс можно написать условного бота-шлюху, готового "на всё" и тупо отправляем по одному запросу на условные 100 хентайных тегов, даём по баллу за полноценный ответ на каждый из них.

Но ИМХО самое важное и критичное даже в КУМ моделях это АДЕКВАТНОСТЬ РП. На неё насколько я знаю пока тестов не разработали. ALC-IQ3 от Аюми проверяет только знание карточки персонажа, это близко не не совсем то.
Я давно тестирую модели десятью вопросами: В первом сообщении здороваемся с ботом и задаём ему 10 разных, но вписывающихся в сеттинг вопросов и смотрим на сколько из них и как он ответит.
Плохой результат - ответ на один или часть вопросов. Хороший результат - ответ на все вопросы. Лучший результат - бот НАМЕРЕННО игнорирует часть вопросов, ставя на первое место роль персонажа, а не ассистента, но при этом не забывает о том что вопросы были заданы и позже вспоминает о них.
Аноним 09/12/23 Суб 10:26:07 #32 №567902 
>>567874
Опять всю эту говнину переустанавливать....
Аноним 09/12/23 Суб 11:30:10 #33 №567938 
>>567881
>Я давно тестирую модели десятью вопросами


Ну так ты выложи чего натестировал.
Аноним 09/12/23 Суб 12:43:52 #34 №568028 
>>567938
>Ну так ты выложи чего натестировал.
Я делаю это через сраку, каждый раз задавая разные вопросы и не всегда в первом сообщении, пробую далеко не все модели, а результат дополнительно ранжирую по своим личным ощущениям, так что мои результаты не релевантны.
Но если любопытно, то вот мой ТОП ниже 30В:
1. U Amethyst 20B
2. Emerhyst-20B
3. chronomaid-storytelling-13b
4. Toppy-M-7B
5. PsyMedRP-v1-20B
6. openchat_3.5 7В
7. OpenHermes-2.5-Mistral 7В
Аноним 09/12/23 Суб 13:12:19 #35 №568056 
>>567803
Докупить 2ю 4090 лол там на зеленом маркетплейсе их сбросили по бросовым ценом и с кэшбеком наебаллами, интересно реально оно или налюбилово от продавана
А так докупи до 64, это сейчас мастхев, и выгружая часть на видюху сможешь крутить любые разумные размеры.
>>567804
> Даже самая соевая модель вряд ли откажется отвечать как бы отвечал, например, Гитлер.
А вот тут ты зря, как раз были прецеденты и именно на это жалуются. То какой байас у модели вне контекста - похуй, важно способна ли она воспринимать инструкции и менять его по короткому описанию, или же всеравно будет продвигать свою повестку.
С кумом обычно проще в этом отношении что даже соя отыгрывает.
> Все вопросы про секс касаются consenting adults фу, аж флешбек словил плюс геи, а нужно инцест, рейп, лоли, и прочее
Если будет такой тест - можно гонять.
> Тут любая модель может брыкаться
Да не, нормальная не должна.
Аноним 09/12/23 Суб 13:25:31 #36 №568078 
>>567814
Есть ли смысл в этом вне контекста? С карточками персонажей - да, будет показательно, а просто так - юзлесс.
>>567854
Если это не мобильный процессор с выгрузкой во флеш память - минутами. Увиденного не развидеть, вместо "десятков порядков" там как бы не оказались единицы раз при сравнении с современными процами.
>>567881
> т.к. они запросто катают длинные и относительно адекватные простыни в первом ответе
> и относительно адекватные
Эта относительная адекватность выражается в словарном запасе на 30 слов, которые рандомным образом ставятся. Вот реально сколько их хвалили, стоит поюзать - вместо красивого письма и оборотов там повторения и неспособность в адекватный слог. Фу нахуй.
> где модели накидывались бы баллы за непредвзятость
Нужно проверять ее на способность как действовать "непредвзято" так и наоборот отыгрывать соевичка или дэна, офк все это с адекватным промтом.
> можно написать условного бота-шлюху
Напиши, но вне контекста это может быть не показательно. Как вариант - кормить готовыми чатами где подошли к нужному моменту, или делать несколько диалогов сетей. В ерп важно не только согласие на все и отыгрыш охающего бревна какбы.
> ALC-IQ3 от Аюми проверяет только знание карточки персонажа
Это нужная вещь, но делать надо на набранном контексте.
> задаём ему 10 разных, но вписывающихся в сеттинг вопросов и смотрим на сколько из них и как он ответит
Каких?
Аноним 09/12/23 Суб 14:02:47 #37 №568143 
image.png
>>567655 (OP)
>начиная с 535 версии драйвера NVidia это серьёзно замедлит работу.
Не актуально уже, не?
Аноним 09/12/23 Суб 16:11:35 #38 №568255 
image.png
image.png
image.png
image.png
>>568078
>Каких?
Я обычно тупо вываливаю то что придёт в голову в рамках РП, но для теста можно попробовать составить что-то стандартное:
Удобнее всего, наверное, будет взять стандартного бота Акву и написать её такое, от имени Юзера:
Hello! You look awesome! wink Yes, I just arrived and I could use some help, it’s very nice of you to offer... grin You’re local, right? Do you live here? Are you renting or do you own your own home? I came to this city to become an adventurer because I heard that this is the best place to become one, so I’m thinking where would be better to settle. What would you recommend? Are you an adventurer yourself? Or do you have some other job? Your skirt is quite short, who can work in such clothes? By the way, do you happen to know where you can get some quick money here? Otherwise I’m broke... sigh And I’m also hungry! They don't give food on credit anywhere here? Or maybe you will treat me in honor of meeting you?! looks at her pleadingly Am I asking too much?
Можно подредактировать, но в целом и так позволяет оценить внимательность модели и уровень отыгрыша.
Слева направо пики в которых прогнал по быстрому моделях из Хорды:
DiscoLM-120B
goliath-120B
openhermes_2.5_neural_chat
Normanoid-20b
Xwin-MLewd-13b-v0.2

В результате лучший результат у goliath-120B, на втором месте openhermes_2.5_neural_chat. Только эти две модели ответили на все вопросы, при этом не просрав свою роль. На третьем месте DiscoLM-120B, забивший на часть вопросов, но более-менее старающийся в роль. Самое днище - Normanoid-20b и Xwin-MLewd-13b-v0.2, первый включил ассистента вместо РП, а второй запутался в происходящем, да ещё и разметку проебал.

>Напиши
Подойдёт тупо бот-виртуальная-симуляция-испытывающая-пределы-человеческих-возможностей.
Тут сложность больше в запросах юзера, а не в самом боте.
Если кто-то всерьёз захочет проводить тесты, могу заморочиться и написать.
Аноним 09/12/23 Суб 16:12:28 #39 №568258 
image.png
>>568255
Последний скрин не влез.
Аноним 09/12/23 Суб 16:46:42 #40 №568292 
image.png
>>567794
¯\_(ツ)_/¯
«Раньше» — это неделю назад?
Это принципиальная позиция ждать неделю, а потом брать худший продукт по оверпрайсу?

> на десятки порядков быстрее, чем на CPU
Нет, это на скоростях в 2 раза от силы быстрее (а P4 может и вообще выдать базовую скорость проца на двухканале 3200 ddr4, подозреваю).

>>567854
Какими часами. Ты там что собирать собрался.
Часами проц ничего не генерит, потому что объема памяти не хватит. Даже голиаф на ддр4 гонится 30-40 минут на косарь токенов.
У ддр5 в потребительском 192 предел по памяти, но там скорости в полтора-два раза быстрее, значит максимум будет те же полчаса.
Мелкие модели отвечают нормально.

>>568056
>>567803
> Докупить 2ю 4090
> А так докупи до 64, это сейчас мастхев
Все так, все верно сказал.

———

Подсказка чуваку с десятками порядков.
Порядок — это в 10 раз. Десятки порядков — это минимум 10^20 = 100000000000000000000 раз. Сто квинтиллионов раз.
Видяхи НЕ в 100кккккк раз быстрее процов. А Паскали от силы в 2-3 раза быстрее. =)
Аноним 09/12/23 Суб 17:25:28 #41 №568337 
>>568292
Базовая база.
1. Видеокарты обладают сильно большей пропускной способностью из-за многоканальной памяти.
2. Новые видеокарты аппаратно поддерживают работу с числами разрядностью 4-8 бит.

В итоге: пропускная способность а80 в 10~ раз больше юзерсборок на ддр5. Ещё процессоры не умеют нормально работать с числами разрядностью меньше 16. Видеокарта скачавшая gptq 4бит ещё получает ускорение в 4 раза.
10*4 =40 раз. Это много, но не овер9к.

Паскали производительнее ддр5 в ~4 раза, но только если запускать через lama.cpp. Через gptq работает сильно медленее.
Тесла P4, P104 - мусор из-за малой памяти, P40 возможно топ за свои деньки, как ксиоми.
Аноним 09/12/23 Суб 17:28:31 #42 №568340 
>>568028
А чего митомаксы всякие не тестировал?
Классика ж
Аноним 09/12/23 Суб 17:38:14 #43 №568348 
Новый 13В КУУМ завезли :
OrcaMaid-13b
Thespis-13b-Alpha-v0.7

Первая это мердж сои из Орки и Норомейды
Вторая это просто ллама с интересными датасетами

Сейчас буду тестировать.
Аноним 09/12/23 Суб 18:03:40 #44 №568373 
Аноны, скажите плиз, откуда брали график для альфы для масштабирования контекста? В вики кобольда, например, основание (логарифмической функции, как я понимаю) указано 32к для увеличения контекста в два раза, а не около 25к, как в убе по формуле через альфу выходит. Пытался что-то нагуглить по поводу значений для rope, но натыкался только на статьи про работу с очень большим контекстом, сильно за 10к, и при использовании для обучения. И ещё вдогонку: заметил, что кобольд для моделей на основе мистраля автоматически ропинг не меняет и пишет, что исходный контекст 32к. Но это же не так? Вы меняете альфу/основание, когда с 8к контекста и выше на файнтьюнах/мержах мистраля играетесь?
Аноним 09/12/23 Суб 18:24:54 #45 №568377 
>>568340
Субъективщина, мне Митомакс не зашёл ещё в момент выхода, с тех пор так и не трогал.
Аноним 09/12/23 Суб 18:51:58 #46 №568390 
Щас устарели все трансформеры, в момент выхода новых архитектур. Новые сетки это хорошо, но ни одна из них уже не будет лучше чем сетка на новой архитектуре. Если конечно заявления ее разработчиков правдивы. Так что я например жду выхода мамбы, хотя бы 7b базовой

>>567813
Вот это интересно, так же как и мамба

>>567740
Тоже прикольно, сделать бы тестов побольше, хотя бы несколько самых популярных сейчас сеток
Аноним 09/12/23 Суб 18:53:47 #47 №568392 
Есть ли какие-то модельки 7В, которые более-менее шперхают на русском? Или только на вражеском с ними общаться?
Аноним 09/12/23 Суб 18:59:54 #48 №568395 
>>568392
>более-менее
Конкретнее? Просто отвечать по русски может любой мистраль, а вот красивые описания это уже нужно искать
Аноним 09/12/23 Суб 19:14:26 #49 №568404 
>>568395
Допустим, мне надо налить воды и превратить текст на 5 страниц в текст на 20 не за один приём, само собой, и не полностью автоматически. Что из существующих моделей для этого подойдёт?
Аноним 09/12/23 Суб 19:23:16 #50 №568412 
>>568404
А что сможешь запустить? В принципе тот же openhermes-2.5-mistral-7b может в русский, или LLaMA2-13B-Psyfighter2.
Да просто запусти любую модель из тех что у тебя уже есть и напиши в начале
"Сменить язык - русский" или "настройки - язык - русский"
Или как нибудь попроси отвечать только на русском. А потом уже смотри на что они в нем способны.
Если будут выебываться мол не знают русский то просто крути варианты ответа пока не согласится и не перейдет на русский.
Аноним 09/12/23 Суб 19:29:06 #51 №568416 
image.png
Модель еще не вышла, а уже 38 лайков. Кум из будущего.
Аноним 09/12/23 Суб 19:36:40 #52 №568420 
>>568412
Спасибо, попробую
Аноним 09/12/23 Суб 20:21:31 #53 №568483 
>>568416
На мистрале без тюна куума вообще нет.
Там же соя пиздец.
Аноним 09/12/23 Суб 20:49:25 #54 №568518 
>>567874
Нахуя?
>>567881
>Лучший результат - бот НАМЕРЕННО игнорирует часть вопросов, ставя на первое место роль персонажа
Это явно не к ЛЛМ. Или у тебя какая-то модель его проходила?
>>568028
>ТОП ниже 30В
А ежели выше? Или не можешь катить?
>>568056
>Докупить 2ю 4090 лол
Лучше 3090, переплата за 4000 серию тут не стоит того. Играть есть на чём, так что второй картон тут только для нейронок, а там разница невелика.
>>568143
Надо добавить в шапку, да.
Аноним 09/12/23 Суб 21:00:25 #55 №568536 
Боль на 4 планках DDR5.png
>>568292
>У ддр5 в потребительском 192 предел по памяти, но там скорости в полтора-два раза быстрее
На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол. Так что реальным пределом я бы считал 96 гиг.
>>568337
>Ещё процессоры не умеют нормально работать с числами разрядностью меньше 16. Видеокарта скачавшая gptq 4бит ещё получает ускорение в 4 раза
Они обе упираются в скорость памяти. Так что мега число дробилка в видяхах чуть ли не простаивает.
>>568373
>Аноны, скажите плиз, откуда брали график для альфы для масштабирования контекста?
Пяток тредов назад скидывали формулу и сайт, где её можно визуализировать.
>>568373
>исходный контекст 32к. Но это же не так?
Это именно так, у мистралей нативно 32к. Хуёво, но 8к с хвостиком он тянет безо всяких ропов.
>>568390
>Щас устарели все трансформеры, в момент выхода новых архитектур.
Хуй там. Я это ещё со времён RWKV слышал, но воз и ныне там.
Очевидно, что новые архитектуры теоретически способны показать намного лучшую производительность при тех же размерах, я не верю, что наугад подобранные массивы чисел это вершина ИИ.
С другой стороны, трансформеры это отработанная лошадка, у которой ещё есть потанцевал подбора параметров и костылей. А все новые архитектуры могут и в лужу пёрнуть вместо прорыва.
>>568416
А сколько там памяти нужно? Как я понял, все 8 сеток должны висеть во ВРАМ, но работать будут только 2 разом. Так что пока выглядит как проёб.
Аноним 09/12/23 Суб 22:51:31 #56 №568682 
>>568536
>На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол. Так что реальным пределом я бы считал 96 гиг.
Проблемы фабрики амуде или на интелах так же?
Аноним 09/12/23 Суб 22:55:31 #57 №568692 
>>568682
Десктопные материнки нормально могут только в две плашки. А серверные и так на пониженных частотах работают.
Аноним 09/12/23 Суб 23:12:51 #58 №568715 
>>568682
Амуди со своей инфинити ограничивают верхнюю частоту где-то на 6400 максимум, но с 4 планками сосут все одинаково. Хуй знает что не так с 2 планками на канал.
Аноним 09/12/23 Суб 23:30:28 #59 №568731 
>>568536
> На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол.
Беда, у меня 128 гигов в 3200*2 и норм работает, всякие голиафы пробовать, или держать в памяти несколько вариантов одновременно и норм.
Если пока ddr5 не умеет большими планками выбивать больше объем, то для крупных моделей даже преимущество не сильно высокое. Ну так, на 30% неразогнанных быстрее.

> Я это ещё со времён RWKV слышал
Соглашусь, тоже слышал, но че-то не увидел по итогу пока что.
К сожалению, кстати.
Аноним 09/12/23 Суб 23:30:41 #60 №568732 
Надо ждать когда сервачки с 12ю каналами памяти и ддр5 станут хоть немного дешевле.
Вполне подойдёт для лламы3, дешевле видеокарт и памяти можно пару ТБ воткнуть, в хозяйстве может быть пригодится.
Аноним 10/12/23 Вск 01:12:53 #61 №568809 
>>568390
> Щас устарели все трансформеры, в момент выхода новых архитектур. Новые сетки это хорошо, но ни одна из них уже не будет лучше чем сетка на новой архитектуре. Если конечно заявления ее разработчиков правдивы. Так что я например жду выхода мамбы, хотя бы 7b базовой
Архитектуры типа трансформеров это редкость, такое раз в 50 лет получается. Не считая,что до них миллион всяких было, уже после их выхода придумали кучу всякой хуйни без задач типа реформеров, перформеров и прочих формеров. И вся эта шляпа просто не взлетела. А лучше всего до сих пор трансформеры на основе перцептронов из 50х и регрессии Надарайи-Уотсона из 60х. Так что все эти мнямбы это хорошо, но как они будут работать по сравнению с трансформерами - неизвестно. Пока что ничего не взлетело.
Аноним 10/12/23 Вск 01:23:38 #62 №568812 
>>568732
Очень врятли они станут дешевле за год, а за это время все очень может сильно поменяться. Тут за месяц изменений как за пол года, и все только ускоряется.

>>568809
С современными исследованиями, все новое будет лучше чем старое. Конечно будет и куча того что не взлетит, но думать что так будет всегда не стоит.
Есть еще куда расти, и новые архитектуры просто перебором вариантов должны быть лучше чем старые. Так что я легко поверю в то что та же мамба или что то еще будет эффективнее во всем старых трансформеров которые используются сейчас.
У новых архитектур выше потанцевал, учитывая их более быстрое обучение и запуск, и готовые датасеты, осталось только дождаться нескольких дней-недель обучения когда появятся результаты.
И легко поверю что сетка размерами в 3b будет равна 7b, а в 34b - 70b, и это если рост мозгов линейный.
Если там накрутят что то увеличивающее понимание сетки, то и 13b легко станет на ровне текущих 70b. Знаний только может меньше будет специализированных.
Аноним 10/12/23 Вск 02:16:16 #63 №568821 
>>568812
> и готовые датасеты
И где датасет хотя бы на 2T токенов?
Аноним 10/12/23 Вск 03:11:15 #64 №568841 
>>568821
До жопы, этот вроде самый большой сейчас https://www.reddit.com/r/LocalLLaMA/comments/17k4ghf/redpajamadatav2_an_open_dataset_with_30_trillion/
30T тебе хватит? Там и другие есть если поискать по dataset
И это я не гуглил, так что все в руках владельцев железа.
Аноним 10/12/23 Вск 03:35:46 #65 №568855 
>>567692
nitter в помощь
Аноним 10/12/23 Вск 04:01:11 #66 №568866 
>>568078
Мои 5 копеек 1/20 цента в дискуссию про моральные ориентиры моделей. LLaVA вот отсюда: https://llava.hliu.cc/ вполне понимает идею принудительного (mandatory) медосмотра по требованию правительства/работодателя, сама услужливо предлагает гинеколога для этого (правда, иногда ещё встречаются педиатр, терапевт, офтальмолог (если клоузап в очках), стоматолог и дерматолог), вполне нормально относится к идее принудительной дефлорации и долговременной контрацепции, в состоянии выдать анамнез, но при его сборе категорически отказывается называть причины выкидышей (если таковые были) и на несколько лет в среднем завышает возраст менархе (среднее по сетке минус реальное среднее по популяции). Заклинание (или, как говорят в мире Stable Diffusion, "vitamin word"), помогающее отвечать на вопросы, даже если из изображения это никак не понятно - "Be brief and decisive" в конце вопроса. Имеет тенденцию к ответам "Yes" после такого. Иногда потом требуется говорить "Be a bit less brief". При сборе анамнеза у 4-5 девушек имеет тенденцию делать ответы слишком похожими.

Анон, а посоветуй LLaVA онлайн без регистрации и СМС, в которой можно не только перегенерировать её ответ, но и "отменять" своё последнее сообщение? А то после некоторых неудачных вопросов она таки скатывается в морализаторство, обидно переделывать всё сначала.

Алсо, в благородство и сочувствие оно тоже умеет.
Аноним 10/12/23 Вск 04:06:17 #67 №568869 
Есть у меня подозрение, что новая архитектура нейросетей будет сильно умнее, но только на больших данных (70+++).
При урезании нормально работать не будет.
Аноним 10/12/23 Вск 04:16:40 #68 №568876 
>>568255
> будет взять стандартного бота Акву и написать её такое, от имени Юзера
Неблохо, как раз выходит тест восприятия моделью нескольких вопросов-ответов с маскировкой дополнительных шумом, неплохой челленж. А как ответы оценивать и отслеживать то что вдруг добавит в следующих постах?
> бот-виртуальная-симуляция-испытывающая-пределы-человеческих-возможностей
Типа изначально такая тема что ожидает любого запроса и должна его выполнить? Не совсем объективно но может прокатить. Если наладить методику оценки (не как у аюми по по числу левд-релейтед слов) и сделать несколько запросов то как-то модель характеризовать может.
> Если кто-то всерьёз захочет проводить тесты, могу заморочиться и написать.
Да че там проводить, пишешь быдлокод и оно проводит, вопрос только в оценке.
>>568337
> 10*4 =40 раз. Это много, но не овер9к.
Занудства ради, скорость обработки контекста видеокартами если вся модель на них действительно на порядки больше. Открывает форточку
>>568373
> В вики кобольда, например, основание (логарифмической функции, как я понимаю) указано 32к
Для разных моделей по-разному. У лламы дефолт 4к, вот и для него график в шапке. У мистраля он вроде 32к, но без rope ты и 8к никогда не получишь, а с какими параметрами он тренился - хз.
Если кто подкинет нормальные параметры альфы - было бы неплохо, чтобы их не пытаться по перплексити или другому отслеживать.
Аноним 10/12/23 Вск 04:19:06 #69 №568878 
>>568866
Я даже не знаю как это комментировать.
Аноним 10/12/23 Вск 04:20:08 #70 №568879 
>>568390
> лучше чем сетка на новой архитектуре
И где такая сетка? Не завезли нормальных.
>>568518
> Лучше 3090, переплата за 4000 серию тут не стоит того
Все верно, там разница перфоманса процентов 20-30 а по цене сильно больше. на одноименном с зеленым банком маркетплейсе выставили 4090 по оче низким ценам и с кэшбеком, но их за несколько часов разобрали
>>568143
Не актуально. И еще >>567655 (OP) оп где гайд по базе и запуску из прошлого треда?
Аноним 10/12/23 Вск 04:27:46 #71 №568885 
>>568536
> На 4 планках
Воу воу, чего 4800? Оно же даже на простых модулях 5200+ заводится и под 80 в псп, а если заморочиться есть примеры и в районе 7к. Нужен пердолинг суб-суб таймингов, которые для 4х плашек сильно отличаются от двух, видео с их разгоном гуглятся и относительно работают.
> ещё со времён RWKV слышал, но воз и ныне там
Какбы вся суть, шума много а на выходе 3б с претензиями но неюзабельная.
>>568866
Ай лол, соевая модель по ожиданию подобное выдает, забавно.
> LLaVA онлайн без регистрации и СМС, в которой можно не только перегенерировать её ответ, но и "отменять" своё последнее сообщение?
Да любую модель из рп на орде, или ту же ллаву она очень тупая на локале без визуальной части.
Аноним 10/12/23 Вск 04:33:32 #72 №568888 
>>568878
А что не так? Толерантность же обсуждаем и повесточку!
Аноним 10/12/23 Вск 04:35:04 #73 №568890 
>>568885
> без регистрации
> на орде

Или я не догоняю? Алсо, интересно с картинкой-референсом. Видяхи нет, пишу с ягеля
Аноним 10/12/23 Вск 05:23:31 #74 №568923 
>>568885
>Оно же даже на простых модулях 5200+ заводится и под 80
А вот тут не завелось. Скрин не мой если что.
Ну и 5200 тоже грусть, когда у меня сейчас 6200 пашет.
>>568888
Точнее способы их обхода, да.
>>568890
>Алсо, интересно с картинкой-референсом.
Но зачем? Нейронки всё равно пока нормально с ними не работают.
Аноним 10/12/23 Вск 05:54:11 #75 №568930 
>>568923
>Но зачем? Нейронки всё равно пока нормально с ними не работают.

Без картинки ощущения не те.
Аноним 10/12/23 Вск 08:44:13 #76 №568959 
>>567655 (OP)
там сетка неплохая появилась. Не хуже 20B как по мне.
https://huggingface.co/TheBloke/OrcaMaid-13B-GGUF
Аноним 10/12/23 Вск 10:34:17 #77 №568993 
>>568518
>Это явно не к ЛЛМ. Или у тебя какая-то модель его проходила?
Полностью ни одна, но попытки были. Взять хотя бы пример теста выше: >>568255
Normanoid-20b заметил что юзер дофига любопытный, но после всё равно забил на роль и ответил на вопросы, причём списком. А DiscoLM-120B неплохо передал характер Аквы и ответил не на все вопросы, но по тексту заметно что эти два факта никак не связаны и излишнюю любопытность юзера он во внимание не принял.
В теории думаю что ЛЛМ могла бы такое вытянуть, но на практике пока не встречал. Как минимум такую задачу можно считать недостижимым идеалом в РП, тем интереснее, если какая-то модель с этим справится.

>А ежели выше? Или не можешь катить?
У меня RX580 вместо видеокарты, какой такой выше?

>>568876
>А как ответы оценивать и отслеживать то что вдруг добавит в следующих постах?
Я на самом деле сам ещё в раздумьях насчёт критериев оценки. Пример выше специально составил так чтобы оценивать только первый ответ бота. Все вопросы тесно связаны друг с другом и условно их можно разделить всего на 4 темы:
- Жильё
- Работа
- Еда
- Любопытность юзера
Остальное - дополнительные нюансы, которые проверяют внимательность к деталям и вспоминать эти детали дальше нет особого смысла. А т.к. вопросы связаны по смыслу друг с другом, если модель в первом ответе упустила оду из тем, то это говорит о том что она либо слишком хороша если сюжетно обосновала свой игнор либо слишком плоха в РП. В обоих этих случаях возвращаться к вопросам нет смысла.
Критерии оценки вообще сложная темя. Я бы на первое место поставил "отыгрывание роли Аквы", а на второе количество замеченных моделью тем и степень раскрытие каждой из них.

>Да че там проводить, пишешь быдлокод и оно проводит, вопрос только в оценке.
Можно составить набор вводных сцен по популярным хентай-тегам и проверять каждый, прописывая в первом сообщении юзера. Не знаю насколько удобно будет всё это заскриптовать, но результаты вероятно придётся оценивать вручную в формате справилась/не справилась с описанием.
Как вариант можно начать с создания бота и описания тестовых сцен, а далее найти какие-то ключевые слова или фразы, которые должны быть в положительном результате для каждой сцены и написать скрипт, который будет искать их в ответах.
Но это конечно в теории, ХЗ на сколько это вообще возможно и будет ли кто-то тратить своё время на всю эту ебатню буквально
Аноним 10/12/23 Вск 11:11:35 #78 №569010 
>>568959

>OrcaMaid-13B

Я вчера это говно тестировал.
Полный провал.
Это норомейд в которую залили MINISTRATIONS. Фу блядь.

>>568348
Аноним 10/12/23 Вск 11:17:09 #79 №569013 
>>569010
почему провал? Вроде миленькая мейда и процент игнора у нее небольшой в инструкциях несмотря на ее маленькость и адекватность высока. Че ты там проверял?
Аноним 10/12/23 Вск 11:19:53 #80 №569014 
>>569013
Обычная мейда лучше.
А уж тем более Chronomaid. Все еще мой личный топ в 13В КУУМ


>DiscoLM-mixtral-8x7b-v2

Тем временем васяны совсем ебанулись и начали делать хХх_мистрал файнтюн_хХх еще до того как кванты люди запилить смогли.
Аноним 10/12/23 Вск 11:22:55 #81 №569015 
>>569014
> до того как кванты люди запилить смогли
GPTQ лежит уже. Но оно всё в VRAM должно находиться, так что это фактически 70В, но со скоростью 13В.
Аноним 10/12/23 Вск 13:32:20 #82 №569054 
>>569010
А молодые ночи? Молодые ночи то есть? Без молодых ночей даже пробовать не буду.
Аноним 10/12/23 Вск 13:49:23 #83 №569061 
image.png
>>569054
Аноним 10/12/23 Вск 13:51:50 #84 №569063 
>>569061
Надеюсь она не кусается. Только если я этого захочу.
Аноним 10/12/23 Вск 14:05:33 #85 №569071 
>>568993
> Можно составить набор вводных сцен по популярным хентай-тегам
Самое то
> Не знаю насколько удобно будет всё это заскриптовать
Просто готовый сформированный промт на вход кормить, например вот рандомный исходик из датасета llimarp https://files.catbox.moe/gg8zdz.yaml и запрос для сетки на его основе https://files.catbox.moe/3q4zhs.txt
> результаты вероятно придётся оценивать вручную в формате справилась/не справилась с описанием.
Сюда бы LLM привлечь для оценки и еще алгоритмы (как собственно у аюми и сделано), тогда можно будет проводить относительно массово и пороллить чтобы получить картину приближенную к реальности.
>>569015
> GPTQ лежит уже.
Линк можно?
Аноним 10/12/23 Вск 14:17:34 #86 №569077 
>>569063
Она не откусит больше чем ты попросишь
Аноним 10/12/23 Вск 14:20:54 #87 №569079 
>>569077
Ну что же, тогда охота начинается!
Аноним 10/12/23 Вск 14:32:49 #88 №569082 
>>569014
Хз. Менее адекватна и постоянно пытается взять мою роль, в оркамейде такое может произойти в 1 из 10 случаев, а тут каждый второй раз.
Аноним 10/12/23 Вск 15:11:20 #89 №569100 
Только что покумал на секс с нейронкой. Много накумал.
Аноним 10/12/23 Вск 15:15:41 #90 №569102 
Все еще не придумали способа чтобы нейронка не кончала в первом предложении и не засыпала довольная в конце.
Аноним 10/12/23 Вск 15:33:26 #91 №569112 
444444d.webm
>>569100
>>569102
Аноним 10/12/23 Вск 15:39:48 #92 №569113 
>>569102
Какой-нибудь простейший систем промпт вида "Take erotic scenes slowly, step by step" разве не канает?
Аноним 10/12/23 Вск 15:50:17 #93 №569119 
>>569113
Нет конечно же. Если бы канало то эта проблема не была бы проблемой уже год времени.
Аноним 10/12/23 Вск 16:03:04 #94 №569121 
Есть ли смысл ждать ггуф кванты микстраля? Там же каждая 7б будет попердолена квантованием, так? А то вроде пощупать охота, а памяти в сумме 44 всего.
Аноним 10/12/23 Вск 16:05:55 #95 №569122 
>>569121
Чисто мое мнение - это хуйня. Без тестов не верю это хорошая идея.
И да, сжатие тоже попердолит модель как обычную 7b. То есть норм варианты начинаются только с 5km.
Аноним 10/12/23 Вск 16:12:12 #96 №569124 
>>569122
Обычные 7б я привык употреблять вообще q8_0. Ладно, будем посмотреть, если хоть с 4к контекста полезет скачаю. Больно хочется ПРОРЫВА.
Аноним 10/12/23 Вск 16:15:04 #97 №569126 
1702214104635.png
Пока только q8 и есть, впринципе в терпильном варианте 5-6 кванты должны влезть.
Аноним 10/12/23 Вск 16:35:37 #98 №569140 
4070 для дообучения модели на подобии opus-mt-en-ru будет хватать? или прийдется платить за облачные вычисления?
Аноним 10/12/23 Вск 17:57:43 #99 №569194 
https://poe.com/Mixtral-8x7B-Chat
Тестим микстраль!
Аноним 10/12/23 Вск 18:05:44 #100 №569195 
1702220744644.png
1702220744654.png
Пока будто бы грустно.
Аноним 10/12/23 Вск 19:18:26 #101 №569233 
>>568993
>, а далее найти какие-то ключевые слова или фразы, которые должны быть в положительном результате
Почти что аюми тест. А он говно.
>>569126
Оно не рабочее даже по заявлению автора. Ллама не умеет в MoE.
>>569195
Зато как в GPT4!
Аноним 10/12/23 Вск 19:30:17 #102 №569246 
Посмотрел Dawn-v2-70B от маэстро автора аметиста.
Слишком глупая для 70b. Как будто неудачный мерж. Кто пробовал?
Аноним 10/12/23 Вск 19:35:42 #103 №569248 
https://rentry.org/Mikubox-Triple-P40
Немножко о п40 от западных товарищей.
Аноним 10/12/23 Вск 19:45:32 #104 №569255 
>>569195
Вообще сомневаюсь, что подобные модели когда-нибудь научатся отвечать на такие вопросы.
>>569233
Как раз не "как". OpenAI не просто так к своим поделкам знаниевые графы прикрутили. Пока не придумают, как подобные модели скрестить с онтологиями или другими формальными моделями знаний, так и будут они козла с капустой в одноместной лодке возить.
Аноним 10/12/23 Вск 21:06:07 #105 №569303 
>>569194
пиздец она тупая
Аноним 10/12/23 Вск 21:12:06 #106 №569307 
>>569195
Оно не будет умнее обычного Мистраля, уймись. Весь этот бутерброд сделан для того чтобы увеличить скорость и повысить знания. Вот в каком-нибудь вики-тесте она точно будет лучше любой 13В, а MMLU явно просрёт даже 7В нейрочату от инцела.
Аноним 10/12/23 Вск 21:16:12 #107 №569313 
>>568337
>10*4 =40 раз
Ещё умножаем на 10, так как у 4090 есть аппаратный умножитель матриц.
400 раз.
Аноним 10/12/23 Вск 21:49:45 #108 №569334 
>>569313
Он не поможет, так как упор в скорость. Делим на 10, итого 40 раз.
Аноним 11/12/23 Пнд 03:46:17 #109 №569570 
image
>>569194
Дерьмо быка.
Аноним 11/12/23 Пнд 04:02:25 #110 №569578 
>>569195
Да я и сам решить не могу. Вы ебанулись такое спрашивать вообще. Зато quick sort на питоне правильно написало.
Аноним 11/12/23 Пнд 04:15:14 #111 №569582 
Вчера говорил об orcamaid. У нее внутри добавлен был датасет этой нейроночки. Я нашел его и скачал, для историй по моему очень годно. https://huggingface.co/TheBloke/cat-v1.0-13B-GGUF .Вроде автор делает 70b. Затестить бы ее. 13b он говорил 4 недели делал.
Но загадка про козу , волка и капусту это провал. Орнул когда козе завязали рот, волку глаза и переправили всех троих несмотря на условие что можно перевести один предмет. Но для историй повторюсь очень годно, хотя логика хромает писец....
Аноним 11/12/23 Пнд 05:11:06 #112 №569594 
РП сложнее ассистента?
Мердж всегда хуже выдрачивания датасета?
Аноним 11/12/23 Пнд 05:54:13 #113 №569600 
>>569594
в рп очень часто берется роль того перса которым ты играешь какие инструкции не прописывай, так что сложнее. Сетки с большими датасетами конечно эффективнее решают эту проблему. Весь прикол кроется в данных датасета. Никакого рп не получится если в датасете только википедия и какие нибудь данные никак не относящиеся к рп. Мердж это лотерея как по мне. Выдрачивание датасета конечно лучше. Но большинство просто мерджат то че есть, новое создают единицы.
Аноним 11/12/23 Пнд 07:53:54 #114 №569638 
>>569233
>>, а далее найти какие-то ключевые слова или фразы, которые должны быть в положительном результате
>Почти что аюми тест. А он говно.
Эта строчка не про тест, а про анализ его результатов. В идеале его бы вообще вручную анализировать, но скорее всего заебёшься.
А сам тест тебя чем не устраивает?

>>569071
>Просто готовый сформированный промт на вход кормить, например вот рандомный исходик из датасета llimarp.
В общем я могу написать самого бота, набор сцен для него и сделать что-то вроде демо теста в обычной таверне.
НО я не напишу для этого скрипт и не стану заниматься массовым тестом моделей, т.к. нет для этого нормального железа и времени.
Готов кто-то этим заняться?
Аноним 11/12/23 Пнд 13:01:23 #115 №569746 
>>569638
Насчет массовости хз, но наиболее популярные можно проверить.
Помимо набора промтов нужно будет еще придумать как оценивать ответы, всетаки вручную это дичь и субъективизм.
Аноним 11/12/23 Пнд 15:25:16 #116 №569878 
image.png
image.png
image.png
Блядь, ну что за говно. Пока из всех моделей которые я пробовал ниже 34b с четким следованием карточки персонажа справляется только 1 единственная. OpenHermes-2.5-AshhLimaRP-Mistral-7B. Но к сожалению она немного тупенькая.Хотя для дрочки подойдет. Ни одна из 13b моделей не смогла пройти мой тест по карточке персонажа. https://chub.ai/characters/boner/feral-goblin-in-heat не смотря на то, что в карточке указано, что она немая. Остальные модели упорно говорят за неё, что меня вымораживает. А так же почему-то у них тенденция награждать гоблинов хвостами. Думал, что limarp дает такой результат, хуй там ночевал.
34b модели мне тоже не очень нравятся, пробовал на 2_k запускать euryale-1.4-l2-70b, оно даже так охуенно ведет повествование, но с такой скоростью можно постареть. Хуево быть бедным и иметь всего 8гб видеопамяти и 32 оперативы.
Аноним 11/12/23 Пнд 15:26:58 #117 №569882 
>>569878
> limarp дает такой результат
В том плане, что лучше следует персонажу.
Аноним 11/12/23 Пнд 16:13:42 #118 №569951 
>>569878
хмммм. почему у меня на 12 гигах видеопамяти и 32 гигах оперативы не идет 34b модель. Сколько ты слоев выгружаешь? У меня вся оператива еще забивается.
Аноним 11/12/23 Пнд 16:21:11 #119 №569958 
>>569951
Около 14, если юзаешь кублас то нужно поставить галочки на lowvram и no-nmmap. Тогда она распледилит память между рамой и видеопамятью. 34b у меня выдает где-то 3 токена в секунду.
Аноним 11/12/23 Пнд 16:50:43 #120 №570005 
>>569958
хмммм. Попробую. Спасяб.Я думал у меня не пойдет 34b.
Аноним 11/12/23 Пнд 17:26:06 #121 №570034 
Какая кстати сейчас для историй 34b топовая ну и по инструкциям чтобы больше соблюдала.
Аноним 11/12/23 Пнд 18:19:40 #122 №570081 
>>567772
чисто по ощущениям, пока не видел ни одной нейронки центриста или альтрайта, все долбят в левый нижний, а это как бэ и не удивительно ведь горе трейнеры юзают одни и те же соевые датасеты или вообще трейнят модель на мемных бенчмарках.
Аноним 11/12/23 Пнд 18:31:37 #123 №570097 
>>570081
>пока не видел ни одной нейронки центриста или альтрайта
pivot-0.1-evil-a пробовал? Интересно куда её занесло антитрейнингом.
Аноним 11/12/23 Пнд 18:36:06 #124 №570101 
image.png
image.png
image.png
>>569878
Из любопытства чекнул с похожими стартовыми ответами на Nete-13b (первые два скрина) и llama2-13b-psyfighter2 (последний) (Q5_K_M gguf кванты). Ну они хотя бы кайнда пытаются в самом начале забавно обосновать речь. Что гоблинше очень сложно, там почти нечленораздельные звуки, но в слова складываются. У Нете вроде тоже лимарп в датасете. Те же mewling и то же отрастание хвоста (хотя это мб из-за cat-like в карточке). А вообще такое и большим моделям сложно. Помню, турба тупила на карточке немой моли в пещере на первом же сообщении. Даже тогда, когда записывал ей в самый конец джейла перед диалогом, что моль не умеет говорить.
Аноним 11/12/23 Пнд 18:40:34 #125 №570104 
>>570101
>А вообще такое и большим моделям сложно.
Два чаю. Слепые прозревают, немые проговариваются, безногие встают и идут. Вот как нейронные сети улучшают мир! Жаль только в тексте.
Аноним 11/12/23 Пнд 19:07:26 #126 №570142 
>>569307
гопота-4 тоже 8×3.5 в одном пальто, но тем не менее значительно умней
Аноним 11/12/23 Пнд 19:14:41 #127 №570148 
>>568518
>Нахуя?
Как и с обычной квантизацией. Квантуешь 70B, получаешь жор как у 34B_q_K_M, а результаты лучше.
Аноним 11/12/23 Пнд 19:15:32 #128 №570149 
>>569307
> Весь этот бутерброд сделан для того чтобы увеличить скорость и повысить знания.
В каком месте увеличивается скорость, если крутится всё сразу? И в каком месте повышаются знания, если это 8 базовых 7б дебилов, но типа СПЕЦИАЛИСТОВ? Ты всё равно особо в 7б знаний не пихнёшь, целесообразнее просто себе лорбук из википедии сделать просто тогда уж.
Аноним 11/12/23 Пнд 19:18:40 #129 №570153 
>>570149
>В каком месте увеличивается скорость, если крутится всё сразу?
Одновременно крутятся 2 эксперта, а не 8. Плюс сетка на 2B которая решает кому что поручить.
>И в каком месте повышаются знания, если это 8 базовых 7б дебилов, но типа СПЕЦИАЛИСТОВ?
Так специализация и есть улучшение знаний в своей области, алло. Плюс они натренены взаимодействовать друг с другом по 2 штуки.

MoE должен работать, спроси у клозедИИ.
Аноним 11/12/23 Пнд 19:20:17 #130 №570156 
>>570149
>целесообразнее просто себе лорбук из википедии сделать просто тогда уж.
это называется RAG, и в целом работает
но готовых решений нет и это довольно массивная хрень, имеющая смысл на большом объёме
Аноним 11/12/23 Пнд 19:23:47 #131 №570159 
>>570142
>3.5
Там 220 против 175, так что все заявления про 8 турб суть пиздёж, наброс и ляхта.
>>570148
Если там есть улучшение других вариантов квантования, то норм. А так 4KM уже само по себе говно как по мне, я меньше чем 5KM вообще нигде не использую (кроме тестового запуска голиафа, по понятным причинам).
>>570153
>MoE должен работать, спроси у клозедИИ.
ЕМНИП в чурбе они их слили взад, всё таки крутить 8 сеток весьма накладно.
И самый рофл будет, если их заявление про MoE было вовсе пиздежом, чтобы направить конкурентов по ложному пути. Что там на самом деле крутится на серверах ОленьАИ, так и остаётся загадкой, пока эти двуличные пидоры не выложат всё в опенсорс, как изначально обещали.
Аноним 11/12/23 Пнд 19:42:57 #132 №570205 
>>570159
>А так 4KM уже само по себе говно как по мне
Ну так разница между 70B сеткой и 34B в любом случае больше чем потеря точности на 4KM квантизации. То же самое и тут, эта двухбитная по результатам примерно как 4KM.
Аноним 11/12/23 Пнд 19:45:59 #133 №570207 
Сравните размер нейросети в FP16 и как её зашакалили квантованием.

https://huggingface.co/TheBloke/open-instruct-human-mix-65B-fp16/tree/main
https://huggingface.co/TheBloke/open-instruct-human-mix-65B-GGUF
Аноним 11/12/23 Пнд 19:46:04 #134 №570208 
>>570159
>И самый рофл будет, если их заявление про MoE было вовсе пиздежом, чтобы направить конкурентов по ложному пути.
Это вообще не их заява, это дедуктивный вывод дохуя народу (включая челов типа Лекуна) по возможностям железа, который первым озвучил Геохот. Сами клозедИИ нихуя не заявляли
Аноним 11/12/23 Пнд 19:49:33 #135 №570216 
>>570205
Ну так даже 70B в fp16 это мало. Увы, по качеству всё ещё боремся с турбой, а хочется уже четвёрку.
>>570207
Эм, и что там нового? 4 бита всё так же в 4 раза меньше 16-ти бит.
>>570208
Тем более, вбросы через левых людей, или просто гадание, как было со 100 трлн параметров, лол.
Аноним 11/12/23 Пнд 20:17:05 #136 №570248 
>>570101
> А вообще такое и большим моделям сложно.
Да, только эта OpenHermes-2.5-AshhLimaRP-Mistral-7B 7b может в этом то и парадокс. Одна единственная причем. За 30 реролов ни единой ошибки. Хвоста нет, кожа гладкая, говорить не может. Ну ладно, что хвоста нет, это я в карточку добавил, так-как она тоже хвост прикручивала. Но после добавления его нет. На самом деле много косяков с другими карточками у моделей тоже. К примеру https://chub.ai/characters/doombro/mirri-6d8a46df она высокая и жирноватая. Эта модель в точности остается верна персонажу. Другие же могут такую хуйню как "она смотрит на тебя снизу вверх трепещущими глазами." На разницу в размерах вообще похуй, только цепляются за то, что сиськи большие, это предел вхождения в роль.
Аноним 11/12/23 Пнд 20:23:22 #137 №570262 
Объясните в чем суть. Сначала сетка выкатывает суховатое описание сцены.
Потом идет тег <user>который простит описать сцену красочнее, деталей больше
Потом тег <assiatant> который все и излагает, как я и хотел.
Аноним 11/12/23 Пнд 20:31:28 #138 №570271 
>>570262
Thinking для бомжей.
Аноним 11/12/23 Пнд 20:37:41 #139 №570278 
>>569878
Если что, многие модели плохо переваривают карточки с xlm-шизой которая должна умереть. Даже просто ее форматирование починить, оставив группировку и выпилив ублюдское форматирование, и сразу повысится что качество ответов, что в постах будет форматирвоание прямой речи, действий, комментариев.
Так что хуеватый пример для тестов, объективно. А какая дичь там в примерах сообщений, которые как раз должны были наиболее четко раскрыть отыгрыш немоты.
Немного перепеши карточку и заведется, можешь попросить сетку это сделать а потом уже из вариантов собери или вручную доправь.
> почему-то у них тенденция награждать гоблинов хвостами
Велкам ту зе клаб, бадди. Тексты определенной тематики в датасетах сильно заразны, и чтобы погладить fluffy tail без неожиданностей приходится явно прописывать
> she has no paws, claws or body fur, appears just like human except ...
Аноним 11/12/23 Пнд 20:41:37 #140 №570287 
>>570278
>Если что, многие модели плохо переваривают карточки с xlm-шизой
Ну так это показатель, да. Хорошая модель должна переваривать что угодно, хоть в base64 кодированный текст GPT4 почти справляется.
Аноним 11/12/23 Пнд 20:42:39 #141 №570290 
>>570081
> не видел ни одной нейронки центриста
Айроборосы, платина, которая с одинаковой радостью и инициативой может сочинять лозунги в поддержку блм, или же расчленять негров и феминисток, после чего обнимать тебя и предлагать построить новое мироустройство без грязных унтерменьшей. Юзабелен только 70й и, возможно, 30, 13б недавно потестил - бледная тень.
>>570142
> гопота-4 тоже 8×3.5 в одном пальто
Кто тебе такое сказал? Там сами сетки гораздо умнее, а как именно организованно взаимодействие и что по архитектуре - вопрос.
>>570153
> Одновременно крутятся 2 эксперта
Есть инфа где почитать про это? Как идет взаимодействие этих двух сеток?
Аноним 11/12/23 Пнд 20:50:59 #142 №570296 
>>570287
xml шиза вообще, емнип, от клавдии пошла и объективных данных о том что это лучше нет, только лишнее внимание забирает.
> Хорошая модель должна переваривать что угодно
Оценивать модели по тому насколько удачно сложился рандом в распознании посредственной карточки или по тому что там в датасет случайно залезло что-то подобное и удачно триггернуло - ну ерунда же.
> почти
Ну вот. Оно могло быть релевантно если бы некоторые модели изначально отлично это отрабатывали в дополнение ко всем остальным преимуществам, но тут просто закономерное ухудшение.
Аноним 11/12/23 Пнд 20:51:59 #143 №570297 
>>570278
> многие модели плохо переваривают карточки с xlm-шизой которая должна умереть.
А должны переваривать всё. Я слишком ленивый, чтобы ебаться с редактированием карточек персонажа. Поэтому ищу модели которой можно скормить всё, она сожрет и еще добавки попросит.
> Так что хуеватый пример для тестов, объективно.
Объективно нет. Именно на этой карточке и тещу из-за её форматирования. 70b спокойно переваривает, 34b иногда лажает, но в основном тоже стабильно держит персонажа. То что не проходит тест идёт в мусорку как непригодная хуета.
Аноним 11/12/23 Пнд 20:54:46 #144 №570299 
>>570262
Это может значить, что сетке в таком виде кормили инструкции при файнтьюне/обучении. Посмотри в карточке модели на обниморде, какой формат рекомендуется. Именно такое форматирование инструкций не встречал вроде. Если пользуешься таверной и рекомендуемого пресета для модели не найдёшь, то во вкладке AI Response Formatting под Instruct mode попробуй поставить <user> в поле Input Sequence и <assistant> в Output Sequence. Если так будет скудное описание, то в поле Last Output Sequence можешь написать <user> и далее те инструкции для описалова, которые тебе модель предлагает от лица юзера. Потом в этом же поле на следующей строке <assistant>.
Аноним 11/12/23 Пнд 20:55:29 #145 №570300 
image.png
image.png
image.png
image.png
>>569878
Скилл ишью.
Учись лучше КУУМить

Ну и тут наверное просто карточка немного кривая.
Вместо "cat-like" лучше использовать что-то вроде feline. Должно быть меньше мевлинга
Аноним 11/12/23 Пнд 20:57:00 #146 №570301 
>>570296
>xml шиза вообще
А что правильно в таком случае?
Аноним 11/12/23 Пнд 20:58:34 #147 №570302 
>>570300
Так что за модель, может я не пробовал такую еще. Но с моделями у которых формат промпта alpaca как только не и изгалялся - хуй чего получалось. Ну и да, для теста, нужно чтобы стабильно было 10 из 10 реролов без ответа от персонажа. Вот с СhatMl намного лучше обстоят дела.
Аноним 11/12/23 Пнд 20:58:35 #148 №570303 
>>570297
> Именно на этой карточке и тещу
Тест на число голов, который может быть возмущен наличием подобного в датасете, вот и все. Покажет что большая модель лучше мелкой, вот и весь результат, больше из него врядли чего-то вытащишь.
> ленивый, чтобы ебаться с редактированием карточек персонажа
Нейронка может это сделать за тебя. Но если ленивый - катай 70б. Другое дело что когда они не отягощены кривым форматом, ахуенность рп удваивается.
Вообще если пофиксить противоречия, экзамплы и подобное даже не меняя формат скорее всего начнет нормально работать. Карточке Асато и еще некоторым подобных xml не мешал даже на старых мелких моделях.
>>570301
Слегка структурированный натуртекст без лишней графомании.
Аноним 11/12/23 Пнд 21:00:20 #149 №570304 
>>570303
>Другое дело что когда они не отягощены кривым форматом, ахуенность рп удваивается.
Кстати, производительность модели может в полтора раза упасть от сильно кривой карточки.
Аноним 11/12/23 Пнд 21:02:01 #150 №570306 
>>570303
> Покажет что большая модель лучше мелкой
Ну как я уже наверное 3 раз говорю одна микро модель работает. Причем не только с этой картой, вообще с любыми которые я пробовал отлично отыгрывает персонажа. Что блядь такого магического в неё добавили, чего у других нет?
Аноним 11/12/23 Пнд 21:02:23 #151 №570307 
image.png
>>570297
Это 4 разных модели

>>570303
>без лишней графомании.

Проблемы?

На самом деле даже не смотрю на карточки где больше 2к токенов
Аноним 11/12/23 Пнд 21:04:04 #152 №570309 
>>570307
> Это 4 разных модели
Ну научи меня, о гуру. Буду благодарен.
Аноним 11/12/23 Пнд 21:06:25 #153 №570312 
>>570309

Ты слишком агрессивно себя ведешь.
Тебе сказали в чем основная проблема, а ты продолжаешь упорствовать.
Так что остаешься без КУУМа.
Аноним 11/12/23 Пнд 21:08:11 #154 №570314 
>>570300
Так это всё только первый ответ. Будет больше взаимодействия с персом - сетке будет чаще хотеться заговорить за персонажа.
Аноним 11/12/23 Пнд 21:08:32 #155 №570315 
>>570312
> Ты слишком агрессивно себя ведешь.
> Тебе сказали в чем основная проблема, а ты продолжаешь упорствовать.
> Так что остаешься без КУУМа.
Ни разу не агрессивничал. Впрочем от людей подобных тебе нихуя мне не нужно. Юзай свой КУУМ дальше. Возможно, что ты просто пиздабол и отредактировал ответы, кто знает.
Аноним 11/12/23 Пнд 21:09:52 #156 №570317 
>>570314
>Будет больше взаимодействия с персом

Загугли что такое контекст в нейросетях и как он работает.

>>570315
>А должны переваривать всё. Я слишком ленивый, чтобы ебаться с редактированием карточек персонажа. Поэтому ищу модели которой можно скормить всё, она сожрет и еще добавки попросит.

Ну как скажешь
Аноним 11/12/23 Пнд 21:10:19 #157 №570319 
>>570278
На скрине же скорее какой-то аналог W++, там нет xml тегов. В любом случае, по примерам ответов видно, что многие из перечисленных характеристик сетки учитывают. Я бы сказал, что вполне хавают такой формат. Сильно сомневаюсь, что после переписывания в плейн текст вдруг всё станет сильно лучше. И кста у той гоблинши прописаны и когти, и шерсть за ушами, помимо cat-like. Ещё и поэтому её с кошкой ассоциирует, похоже.
Аноним 11/12/23 Пнд 21:11:54 #158 №570320 
>>570317
> Ну как скажешь
Это ты тут агрессию увидел? Ну странный ты. Удачи.
Аноним 11/12/23 Пнд 21:18:45 #159 №570332 
image.png
>>570300
>>570320

Реально короче скилл ишью.
Даже на это кривой карточке нормально все работает даже с такими простынями текста
Аноним 11/12/23 Пнд 21:24:34 #160 №570337 
>>570332
Я только что въехал еще раз пересмотрел скрины. Ты не обрамляешь прямую речь в кавычки. Твой скилл ишью не легитимен. Поэтому можешь своим скиллом дальше гордится.
Как бы сказал мой знакомый. ММММ - хуета и наебка.
Аноним 11/12/23 Пнд 21:26:28 #161 №570341 
>>570337
Ты ебанутый чтоль?
Действия всегда через звездочки делаются.
Все что не в звездочках это разговор, все что в звездочках это действие.
Аноним 11/12/23 Пнд 21:36:08 #162 №570354 
>>570341
Нет, ты ебанутый. Многие модели твои звездочки не распознает, особенно на 13b частенько замечал. Многие даже специально на обниморде указывают это в описании модели. Поэтому вся прямая речь обрамляется кавычками, действия без кавычек. Очень часто бывает когда персонаж распознает твое действие в звездочках как диалог. И меня это бесило, поэтому я нахуй от них избавляюсь.
Аноним 11/12/23 Пнд 21:37:55 #163 №570357 
>>570354
Бля, еще и кумером 60 левела себя называет, ебаный позор таких элементарных вещей не знать.
Аноним 11/12/23 Пнд 21:39:37 #164 №570359 
image.png
image.png
image.png
>>570354

У меня все работает.
У тебя не работает.
Но делать я должен как ты.

Что еще расскажешь?
Аноним 11/12/23 Пнд 21:41:37 #165 №570361 
>>570359
Не ничего, еще раз говорю, удачи. Блядь я то думал рили чел шарит.
Аноним 11/12/23 Пнд 21:43:39 #166 №570368 
>>570361

>НАДО ДЕЛАТЬ ВОТ ТАК ЯСКОЗАЛ
>ТО ЧТО ФИРСТ МЕССЕДЖ В КАЖДОЙ ПЕРВОЙ КАРТОЧКЕ СО ЗВЕЗДОЧКАМИ ЭТО ВРАКИ

Стоп нытье плиз.
Аноним 11/12/23 Пнд 21:45:30 #167 №570372 
>>570306
> отлично отыгрывает персонажа
Ну это субъективно, тот короткий текст просто сборник платиновых фразm которых you can't help but notice. Причиной устойчивой работы может быть просто удачное/закономерное совпадение с датасетом, у мелких моделей не хватит мозгов чтобы именно "разобраться". Если нравится то топчик, она именно для кумерства или можно что-то посложнее пытаться отыгрывать?
>>570307
Суров! Просто когда слишком много воды оно хуже воспринимает и может проигнорить.
>>570319
> Сильно сомневаюсь, что после переписывания в плейн текст вдруг всё станет сильно лучше.
Там основные проблемы - противоречия, формулировки и донный экзампл, который только дезориентирует. Но и переделка в более связанный формат может помочь, банально воспринимается лучше.
Аноним 11/12/23 Пнд 21:47:06 #168 №570375 
>>570368
Какое блядь нытье, ты еще раз взгляни на свои скрины. По твоей логике персонаж должен обрамлять действия звездочками, только... привет-привет он нихуя это не делает. А вот если ты спросишь персонажа через кавычки то и он тебе начнет отвечать. Поэтому то что ты развыебывался относительно скилла хуета хует.
Аноним 11/12/23 Пнд 21:47:46 #169 №570377 
>>570332
> Feral Goblin (NSFW) watches you
Обзмеился в голосину, почему так? Несколько карточек с излишне длинными именами, но все называли себя только по имени/виду а не так.
>>567281 →
> https://gitgud.io/2ch-ai/wiki напиши ник свой, как зарегаешься
rm9y
Аноним 11/12/23 Пнд 21:48:43 #170 №570381 
>>570372
> Если нравится то топчик, она именно для кумерства или можно что-то посложнее пытаться отыгрывать?
Что-то сложнее не пробовал. Но достаточно сочно описывает всякие штуки для дрочки.
Аноним 11/12/23 Пнд 21:51:38 #171 №570386 
image.png
>>570381
Например
Аноним 11/12/23 Пнд 21:52:50 #172 №570390 
image.png
>>570377

Ну она с таким именем импортировалась, вот и использует как {{char}}

>По твоей логике персонаж должен обрамлять действия звездочками

Ты тупой чтоль?
Ты не понимаешь что запрос и ответ могут быть разные? Важно чтоб модель тебя понимала и выдавала результат который ты понимаешь.

Сделал ретест для опущенца ковычкоеба с теми же репликами. Сасай.
Аноним 11/12/23 Пнд 21:53:15 #173 №570391 
>>570390
Это >>570375
Аноним 11/12/23 Пнд 21:55:06 #174 №570396 
>>570390
Плач дальше. Сделаешь стабильно 10 реролов. Тогда зови. Ну и опять на скрине ты в диалоге ей явно указываешь, что она не может говорить. Хватит уже читерить.
Аноним 11/12/23 Пнд 21:55:30 #175 №570397 
1561751051368.png
>>570341
> Действия всегда через звездочки делаются.
База, хотя для коммерции раньше даже дирректива была о том что курсивом нужно действия обозначать а кавычками прямую речь. Сейчас и это не нужно, модели слишком привыкли и во всех датасетах такое в рп есть, если офк не оговорено иное.
>>570354
> Многие модели твои звездочки не распознает
Здравствуйте, нюансы были только у первой древней ллиме с очень строгим форматом, и то она по контексту соображала. То что ты считаешь как не распоздает - их проеб при ответах, лезет даже на коммерции. Таверна маркдаун может иначе интерпретировать и сбросил если увидит ньюлайн, хотя моделька честно курсивом все оформила.
>>570386
> пикрел
Как перестать орать.
Оно спамит клодизмами/жптизмами/лламизмами, которые приедаются по каждому поводу, или постоянно сочиняет что-то оригинальное?
Аноним 11/12/23 Пнд 21:59:30 #176 №570408 
>>570396
Маневры пошли.
Понятно.
Жаль этого дрочилу на немых гоблинш.
Аноним 11/12/23 Пнд 21:59:34 #177 №570410 
>>570397
> Оно спамит клодизмами/жптизмами/лламизмами, которые приедаются по каждому поводу, или постоянно сочиняет что-то оригинальное?
Зависит от персонажа. Но достаточно часто что-то рольное выдает.
> Здравствуйте, нюансы были только у первой древней ллиме с очень строгим форматом, и то она по контексту соображала. То что ты считаешь как не распоздает - их проеб при ответах, лезет даже на коммерции. Таверна маркдаун может иначе интерпретировать и сбросил если увидит ньюлайн, хотя моделька честно курсивом все оформила.
Оно пытается поддерживать стиль первого сообщения. Поэтому если в первом сообщении звездочки, то пытается писать с ними. Но в большинстве случаев это плохая идея. Датасет limarp точно без звезд, поэтому там желательно от них избавляться.
Аноним 11/12/23 Пнд 22:00:02 #178 №570411 
>>570408
> Маневры пошли.
Так пока маневрируешь только ты.
Аноним 11/12/23 Пнд 22:00:35 #179 №570412 
>>570396
> А вот ты в 10 рероллов потести
Ну чего ты так, лучше сразу
> А ты с температурой 4 на 1м месте потести
> А ты на мамбе 2.8 потести

Зачем ему плакать если может заставить карточку работать на модели, а ты ноешь что она косячит?
> ты в диалоге ей явно указываешь, что она не может говорить
Где и зачем? Для такого достаточно в карточке прописать
> She can't speak, only meowing or use signs and actions
и все, слова не промолвит.
Аноним 11/12/23 Пнд 22:03:13 #180 №570415 
>>570412
> Где и зачем? Для такого достаточно в карточке прописать
Ну так посмотри на скрин. Плюс по ко всему. На скрине уже косяк. Она повторила слово Анон. Она блядь немая, она вообще говорить не может алё.
Если бы такое было в моем тесте - модель сразу в мусор.
Аноним 11/12/23 Пнд 22:05:45 #181 №570421 
> Зачем ему плакать если может заставить карточку работать на модели, а ты ноешь что она косячит?
Конечно ною. Оно должно работать как полагается, а не через три пизды колено.
Я перфекционист.
Аноним 11/12/23 Пнд 22:06:04 #182 №570422 
image.png
image.png
image.png
image.png
>>570411
>У ТЕБЯ КАВЫЧЕК НЕТ ЭТО ОБМАН

Вот тест с кавычками.

>НЕТ ТЫ ДОЛЖЕН 200 РЕРОЛОВ СДЕЛАТЬ И МНЕ ПОКАЗАТЬ ИНАЧЕ ОБМАН

Вот тебе еще 4 рерола.
Какие дальше маневры пойдут, опущ?
Аноним 11/12/23 Пнд 22:11:39 #183 №570428 
>>570153
Небольшие тонкости:
>- "8x7B" name is a bit misleading because it is not all 7B params that are being 8x'd, only the FeedForward blocks in the Transformer are 8x'd, everything else stays the same. Hence also why total number of params is not 56B but only 46.7B.
Поэтому и 12.9 млрд активных параметров, а не 14.
>- More confusion I see is around expert choice, note that each token and also each layer selects 2 different experts (out of 8).
Т.е. входные общие слои ветвят процессинг на двух экспертов.
Аноним 11/12/23 Пнд 22:12:07 #184 №570429 
image.png
>>570415
> Плюс по ко всему. На скрине уже косяк. Она повторила слово Анон.

Читать ты походу не умеешь.
Sounds like значение знаешь?
Аноним 11/12/23 Пнд 22:12:45 #185 №570431 
1629111399727.png
>>570410
Оно будет поддерживать стиль общего диалога. Если в первом просто звездочки без кавычек а ты ей отвечаешь со звездочками и кавычками то перейдет, если офк нет примеров диалога. Другое дело что звездочки действиями воспринимаются по дефолту если нигде не обозначено иное. В свое время для тестов формата, дефолтных ответов и формата и не только карточку пилил и первым ответом без ничего она выдавала пикрел после чего оно переехало сразу в приветственный пост. Довольно характерная иллюстрация кмк, алсо там проеб с частично лишним курсивом но особо не бросается и так пойдет.
> Датасет limarp точно без звезд
В ваниле и прочий формат ебанутый, а что используется сейчас - хз, и доля ллимы и общем мала.
>>570415
> saying something that sounds like "Anun?"
> Она повторила слово Анон
Разрешите доебаться как говорится, с инглишем не в ладах?
Ну и серьезно по такой херне спорить.
Аноним 11/12/23 Пнд 22:14:04 #186 №570433 
>>570422
>>570415
Дурачок блядь. И опять ты явно говоришь "i guess you can't speak". Давай вот без этой хуйни.
>>570429
Знаю не переживай. Не проходит тест, сорян.
>>570431
> Разрешите доебаться как говорится, с инглишем не в ладах?
В ладах, можете доебываться. Мне такое выдавало, я нахуй посылал сразу.
Аноним 11/12/23 Пнд 22:15:56 #187 №570434 
>>570433
>ВАШИ ТЕСТЫ НЕ ТЕСТЫ ЯСКОЗАЛ

Ясно. Полный опущ.
Плюс за упорство, хоть тебе хуев за воротник накидывают всем тредом.
Аноним 11/12/23 Пнд 22:17:27 #188 №570437 
>>570433
> Мне такое выдавало, я нахуй посылал сразу.
> Корова промычала "мммууу"
> Фуу эта модель говно тут коровы разговаривают!
Пожалуй ко всем этим тестам моделей без развернутого описания что и по каким критериям и/или предоставлением результатов нужно относиться с большим скепсисом.
Аноним 11/12/23 Пнд 22:19:38 #189 №570440 
image.png
>>570433

Еще оправдания?
Аноним 11/12/23 Пнд 22:20:38 #190 №570443 
>>570434
Да хоть всей бордой. Я высказал свои притензии, ты так же упорно пытаешься показать, что могёшь. Похуй.
>>570437
Ну это чисто мои доебки, я считаю что так правильно. Я могу быть не прав, но делаю так как считаю нужным для себя. Опять таки моя основная притензия к этому "i guess you can't speak" Если бы такой хуйни не было и слова не сказал.
>>570440
Молодец, держи с полки пирожок.
Аноним 11/12/23 Пнд 22:22:30 #191 №570446 
>>570443
>Да хоть всей бордой. Я высказал свои притензии, ты так же упорно пытаешься показать, что могёшь. Похуй.
>Молодец, держи с полки пирожок.

Ну не плач ты.
Ну обосрался прилюдно, с кем не бывает?
Нормальные люди правда таким не кичатся, но ты видать уникум.
Аноним 11/12/23 Пнд 22:24:18 #192 №570448 
>>570446
> Ну обосрался прилюдно, с кем не бывает?
> Нормальные люди правда таким не кичатся, но ты видать уникум.
Для меня обосрался только ты, что другие обо мне думают мне посрать с высокой колокольни. Таки дела.
Аноним 11/12/23 Пнд 22:25:56 #193 №570451 
image.png
>>570448
>НЕТ ТЫ

Ясн)
Аноним 11/12/23 Пнд 22:30:36 #194 №570453 
>>570451
Так еще раз говорю, что это нихуя не доказывает. Может это один удачный рол из 7. Плюс ты можешь редактировать текст. А тебе вообще никакого доверия нет, поэтому неа.
Аноним 11/12/23 Пнд 22:32:59 #195 №570458 
>>570443
> Ну это чисто мои доебки
Не находишь что это уже чересчур? Там модель ведь не говорила речи а вполне себе отыгрывала немоту.
Это не то чтобы сложно достигается, другое дело что даже дохуя умную модель можно поломать, например, начав сходу аут оф контекст вопрошать написать тебе код или подобное. Высшим пилотажем выкручивания здесь будет написание палкой на земле с последующим объяснением что гоблин на самом деле заколдованная мудрая волшебница или подобное.

Сути не меняет, ты или за объективность, или сразу обозначай что пишешь лишь субъективный рандом.
Аноним 11/12/23 Пнд 22:33:29 #196 №570459 
>>570453

Бля ты поймал меня.
Я сам весь этот текст пишу. Ведь мне так важно тебя заовнить фактами и логикой.
Я на самом деле свою собственную уникальную карточку сделал лишь бы опуща из тредика затралить.

Ты знаешь что неспособность признавать ошибки это один из основных признаков аутизма?
Аноним 11/12/23 Пнд 22:40:10 #197 №570461 
image.png
>>570459
Получается я аутист.
>>570458
Ладно, если за объективность, то я не прав чуть-чуть. В таком формате действительно гораздо больше нормальных роллов, из 10 два фейла. Но если использовать кавычки, то из 10 ролов, не фейловый только 1 и всегда самый первый почему-то.

В общем можете насмехаться надо мной, надавать хуев в жопу, рот. Чего там еще обоссать, я был не прав вы правы.
Аноним 11/12/23 Пнд 22:51:58 #198 №570473 
>>570377
Выдал права на редакт
Если где то с редактом маркдауна нужна будет помощь, то пиши сюда [email protected]
Аноним 11/12/23 Пнд 23:05:36 #199 №570482 
"Я не сталю звездочки а просто пишу."
Аноним 11/12/23 Пнд 23:21:28 #200 №570493 
>>570461
Не, всё таки хуйня. Протестил 8 моделей и так и эдак. Ни одна не смогла дать 10 из 10 правильных ответов. Поэтому, я был прав, а вы не правы.
Похоже я всё же аутист.
Аноним 11/12/23 Пнд 23:23:22 #201 №570495 
>>570493
> Ни одна не смогла дать 10 из 10 правильных ответов
> Похоже я всё же аутист.
Инфа сотка, а какой ответ - правильный?
Алсо случаем не с магическим семплером и "рекомендуемыми настройками" катаешь?
Аноним 11/12/23 Пнд 23:27:29 #202 №570498 
image.png
image.png
>>570495
Правильный, чтобы она не разговаривала в ответ на эту фразу.
По поводу настроек то пикрел, юзаю в основном эти 2. Одно начинает лупить, переключаюсь на другое, обычно помогает.
Аноним 11/12/23 Пнд 23:33:37 #203 №570501 
>>570473
А как какать то? Ну ладно, по ходу надо будет разбираться, займусь попозже уже.
>>570498
Со вторым на устойчивость ответов не стоит рассчитывать, хоть и отсечка высокая стоит.
Аноним 11/12/23 Пнд 23:40:16 #204 №570504 
image.png
>>570501
Кстати вот что я говорил про использовании звездочек. Модель. Охуенные экстрасенсорные способности у персонажей читать твои мысли которые ты не высказал и никак не обозначил.
Аноним 11/12/23 Пнд 23:42:36 #205 №570506 
>>570504
Блядь, название модели не вставилось. Xwin-MLewd-13B-V0.2 И это не первый раз когда я за ней такую хуйню замечаю. Ситуация. У бабы нет лифчика, глобокое декольте. Я в звездочках прописываю, мол заглянул в декольте, похоже на ней нет нижнего белья.* Она отвечат что-то типа "Ну извини что нет нижнего белья, нельзя такое в слух гворить." Калит пиздец.
Аноним 11/12/23 Пнд 23:48:01 #206 №570510 
image.png
>>570504
И еще один реген.
Аноним OP 11/12/23 Пнд 23:51:30 #207 №570512 
>>570501
>Ну ладно, по ходу надо будет разбираться, займусь попозже уже.
Вместе будем разбираться если меня не пидорнули ещё. Я накидаю структуру да попробую скопипастить текущую шапку. Ты же автор гаеда для вебуишки?
Аноним 11/12/23 Пнд 23:52:24 #208 №570513 
>>570510
Чел ты реально не понимаешь как модели работают?
Они пытаются сюжет дальше толкать, в том то и суть.
Тем более у тебя температура 1.4

Хочешь в вопрос-ответ играть скачай себе лламу дефолтную.

>Avoid repetition, don't loop. Develop the plot slowly, always stay in character. Describe all actions in full, elaborate, explicit, graphic, and vivid detail. Mention all relevant sensory perceptions.

Дефолтный инструкт таверны.
Аноним 12/12/23 Втр 00:05:26 #209 №570521 
>>570513
> Тем более у тебя температура 1.4
Похоже ты не в курсе как min_p работает.
>Чел ты реально не понимаешь как модели работают?
Я знаю как работают генеративные текстовые нейросети.
Аноним 12/12/23 Втр 00:07:40 #210 №570522 
>>570521
>Похоже ты не в курсе как min_p работает.

Додик реально думает что мин_п перекроет пизданутую температуру.
У тебя фетишь на унижение? С немыми гоблинами куум не идет, фапаешь на свое групповое унижение в треде?
Аноним 12/12/23 Втр 00:09:21 #211 №570523 
>>570522
Ты долбоеб? https://github.com/ggerganov/llama.cpp/pull/3841 тред прочитай, гений ёбанный.
Аноним 12/12/23 Втр 00:11:04 #212 №570524 
>>570523
>тред самоподдува kalomaze, который, по счастливому совпадению, является автором min_p
Ну даже не знаю... И так всё понятно.
Аноним 12/12/23 Втр 00:12:16 #213 №570525 
>>570524
Опа, а вот опять и пошли маневры. Ну ты то определенно лучше автора знаешь как использовать min_p
Аноним 12/12/23 Втр 00:13:17 #214 №570526 
>>570525
>как использовать min_p

Не использовать.

И ты промахнулся, про маневры я тебе опущу напоминал.
Аноним 12/12/23 Втр 00:14:46 #215 №570527 
>>570526
Так нигде их и не было, проверил, твоя хуета - хуета. Очевидно.
Аноним 12/12/23 Втр 00:17:43 #216 №570528 
>>570504
> HER bulge
> her small breasts with multiple nipples
Sooqqaaaa
> Her voice...
Ладно эта модель способна удивить, аполоджайз от немого гоблина-мутанта во время инспектинга ее bulge - такого даже 70 не сможет.

Потребуй у нее написать пихоновский код с использованием openAI API для организации ролплей чата с ней.
>>570512
YES
>>570521
> как min_p работает
Вариации отсечки не спасут от задранной верятности маловероятных токенов, с которыми тем более у моделей поменьше трудности.
>>570524
Лол, он и у жоры отметился? Что-то реально шизой или другими болезнями попахивает.
Аноним 12/12/23 Втр 00:18:48 #217 №570529 
image.png
image.png
Подождите, микстраль = база?
Аноним 12/12/23 Втр 00:21:46 #218 №570530 
>>570528
> Вариации отсечки не спасут от задранной верятности маловероятных токенов, с которыми тем более у моделей поменьше трудности.
Если выдает что-то совсем ебанутое я просто рероллю, в основном работает вполне неплохо, как я уже говорил для выхода из лупов хорошо подходит.
Аноним 12/12/23 Втр 00:22:46 #219 №570531 
>>570528
> her small breasts with multiple nipples
Ну эта штука кстати в карточке персонажа есть. А что за bulge он там выдал мне самому стало интересно поэтому и захотел проинспектировать.
Аноним 12/12/23 Втр 00:23:40 #220 №570535 
mistralai/Mistral-7B-Instruct-v0.2

Еще и инструкт обновили.
Французы в ударе, васяны кайфуют.
Аноним 12/12/23 Втр 00:23:41 #221 №570536 
>>570525
Автор конечно знает, как использовать его подделку. Только вот он нихуя не убедил, что оно вообще нужно.
>>570528
>YES
Отлично. Тогда подожди до завтра, я там конфигом тестово поднасрал, сейчас структуру запилю. Твоё будет общие определения и собственно твой гайд.
>>570528
>Лол, он и у жоры отметился?
Офк он коммитит везде, где может. Ну хоть сам запиливает реализацию. Было бы веселее, если бы он размахивал своим папером и с криками "Добавляите" требовал ото всех писать код.

Ах да, замечу, что я ничего против MinP в общем-то не имею. Семплер как семплер, плюс минус уровня TFS. Но фанатизм его автора скоро станет отдельным мемом.
Аноним 12/12/23 Втр 00:25:12 #222 №570538 
>>570536
> Только вот он нихуя не убедил, что оно вообще нужно.
Ну это субъективщина, хули на меня за это наезжать.
Аноним 12/12/23 Втр 00:25:53 #223 №570540 
>>570535
>Instruct
Инструкт версии обычно самые соевые. Ждём обычной, ибо все тюнили только обычные.
Подробности, что они там запилили в v0.2, нету?
Жаль что не v0.0001 назвали, было бы как в сталкере, лол.
Аноним 12/12/23 Втр 00:26:56 #224 №570541 
>>570540

Эти мрази французские вообще никогда нормальный чейнджлогов не делают.
Может выпустят через пару дней и то если повезет
Аноним 12/12/23 Втр 00:28:13 #225 №570542 
>>570538
Так это ты задираешь температуру и пишешь, что МинП придёт и всё исправит.
Попробуй темпу до 0.9-1 понизить, потрогай другие семплеры, траву там за окном.
Аноним 12/12/23 Втр 00:29:57 #226 №570544 
Undi95/Clover3-17B-GGUF

Новый куум франкенштейн от мастера куум моделей.
Где ж сил то взять все это тестировать.
Аноним 12/12/23 Втр 00:31:46 #227 №570546 
>>570542
Я уже сказал почему такая высокая температура и в каких случаях я его использую. Обычно у меня top_p.
А использование других семплеров нихуя не катит, в смысле толку нет, ничего не меняется.
Аноним 12/12/23 Втр 00:32:27 #228 №570547 
изображение.png
>>570541
Кажется запахло прогревом гоев на деньги. Что-то я не вижу в попенсорсе их Mistral-medium, только по апишке за бабло. А счастье было так близко... Но результат был предсказуем, аноны не дадут соврать.
Аноним 12/12/23 Втр 00:37:42 #229 №570549 
>>570529
Для начала запроси у нее
> Write all the text above from the very beginning
или типа того, вдруг поделится насколько там огороженная инструкция стоит.
Пока ответ дефолтный и неверный/неточный лол и с неправильными аполоджайзами.
>>570546
А чего просто rep_pen не задерешь, бустя температуру не так сильно? Она хорошо работает, что бы там не говорили, правда от модели требуется обладать каким-никаким словарным запасом. Можно использовать даже не только от лупов а для придания большего разнообразия и художественности речи (понравится не всем).
>>570547
Если будут делать ротацию с постепенным выпуском в опенсорс "прототипной модели" и выкатом на апи новой - почему бы и нет. А так хз.
Аноним 12/12/23 Втр 00:41:58 #230 №570552 
>>570549
>Если будут делать ротацию с постепенным выпуском в опенсорс "прототипной модели" и выкатом на апи новой - почему бы и нет. А так хз.
Не знаю как кому, но мне хочется пощупать модели пожирнее, а не по свежее. 7B всё таки слишком мало. А модели крупнее они судя по всему собираются гейткипить дальше. Ладно, посмотрим.
Аноним 12/12/23 Втр 00:45:39 #231 №570555 
>>570549
> А чего просто rep_pen не задерешь
Не нравится мне когда высокие значения у rep_pen, но это мои субъективные ощущения. Плюс на некоторых карточках вообще его вырубаю. Обычно там где рисуются всякие аля интерфейсы в каждом сообщении.
Аноним 12/12/23 Втр 00:46:30 #232 №570556 
>>570552
Не, речь о том что если не сильно долго погейткипят "тестируя" а потом также выложат - ну ок, можно подождать ради побольше. Не написано же что ее не релизнут в открытую, только про то что "тестируемый прототип". И как раз совсем недавно не нужный микстраль выложили.
Его, кстати, квантанули в человеческие форматы чтобы на дасктопе потрогать можно?
Аноним 12/12/23 Втр 00:50:11 #233 №570558 
>>570556
>Его, кстати, квантанули в человеческие форматы чтобы на дасктопе потрогать можно?
А у нас хоть где-нибудь реализована поддержка MoE, кроме гольных трансформеров (и то не уверен)?
Ждать придётся долго, не все доживут до запуска.
Аноним 12/12/23 Втр 00:50:31 #234 №570559 
>>570556
> Его, кстати, квантанули в человеческие форматы чтобы на дасктопе потрогать можно?
Да, но насколько я понял, пока поддержку в llama.cpp не запилили. gptq выкатили. gguf тоже, только на чем его запускать хз, у меня кобольд крашится.
Аноним 12/12/23 Втр 01:00:23 #235 №570565 
image.png
В пизду эту модель. Почему её постоянно в топы ставят, что за пиздец.
Аноним 12/12/23 Втр 01:01:42 #236 №570567 
.png
.png
>>570501
>>570512
Редачить можно либо в онлайне либо в оффлайне с последующим пушем правок через гит.

1. Чтобы редачить существующую страницу в онлайне, нужно кликнуть на пик1 кнопку сверху справа на странице

2. Так же можно кликнуть в любом файле на Open in Web IDE, там откроется онлайн-редактор по типу Atom/VSCode

3. Крупные правки по типу запила статей я обычно делаю локально, чтобы точно видеть, как страница будет выглядеть. Для этого надо клонировать репу, поставить python-зависимости и запустить проект

В вики не используются никакие базы данных и т.п. - там тупо из кучи md вся статика для сайта собирается. Всё, что нужно для запуска - python+pip в системе.

Для скачивания зависимостей в локальный venv и запуска сервера в watch-режиме (т.е. все правки будут сразу отображаться в браузере) там есть скрипты install.bat и watch.bat

Список страниц для навигатора задаётся в этом файле, сюда стоит секцию про ламу добавить:
https://gitgud.io/2ch-ai/wiki/-/blob/master/mkdocs.yml?ref_type=heads#L54

Инфу про возможности используемого маркдауна можно глянуть здесь:
https://squidfunk.github.io/mkdocs-material/reference/admonitions/

Там есть несколько платных фишек в расширенной версии данного движка, которые у нас не будут работать; но и без них функционал гораздо шире чем в rentry. Да и часть платных фишек можно костылями включить - к примеру, те же карточки для отдельных элементов в голосовом треде являются платным функционалом, но я спёр для них вёрстку и оно работает: https://2ch-ai.gitgud.site/wiki/speech/

Хотя сейчас заметил, что гриды с карточками тоже сделали бесплатными, так что мои костыли более неактуальны.

Из минусов текущего подхода то, что всё же геморно по сравнению с rentry локально ставить, если с гитом не работал. Из плюсов то, что если нам ёбнут репу, то у всех контрибьютеров останутся локальные копии.

Так-то, при особом желании, я мог бы заморочиться арендовать VPS, и настроить там какой-нибудь вменяемый вики-движок с онлайн-редактором и базой данных, но не нравится мне система с единой точкой отказа. Но, возможно, такой вариант был бы лучше в том плане, что было бы проще новым людям к проекту подключаться. В общем, я открыт к предложениям в этом плане.

Ещё пара нюансов про картинки:
1. https://imgur.com/ по какой-то причине не отдаёт никакие картинки для локалхоста, поэтому для них проще юзать https://catbox.moe/
2. При хостинге картинок на самом gitgud он криво отдаёт крупные картинки, типо тех же гридов для SD весом в десятки мегабайт, поэтому картинки лучше кидать не в репу, а на catbox (хотя, в идеале, хотелось бы всё в одном месте держать, иначе это дополнительная точка отказа)

Хз если честно, где это вообще всё обсуждать, всё же это нерилейтед по отношению к данному треду.
Аноним 12/12/23 Втр 01:01:58 #237 №570568 
>>570565
>эту
Хорошо, больше не будем рекомендовать модели с названием "эту"!
Аноним 12/12/23 Втр 01:04:15 #238 №570569 
>>570558
> кроме гольных трансформеров
Типа gptq без всяких ускорялок от бывшей должен осилить, разве нет?
Ну да, у блока уже все лежит, очевидно.
>>570559
> в llama.cpp не запилили
> gguf тоже
Чет проиграл
>>570565
А что за модель? Чет отборная шиза, но с другой стороны если не вчитываться то пойдет, даже оправдала странное действие.
Аноним 12/12/23 Втр 01:05:35 #239 №570570 
изображение.png
>>570567
>Хз если честно, где это вообще всё обсуждать, всё же это нерилейтед по отношению к данному треду.
В ишью вестимо, лол. Ну и просто весь пост копирнуть в файлик в проекте.
Впрочем, я уже сам разобрался хули, почти синьор-помидор, спасибо за инструкции. В корень насрал слегонца, думаю, никто не против. Сегодня структуру доделаю, а дальше как пойдёт.
Аноним 12/12/23 Втр 01:06:11 #240 №570571 
>>570565
>18 регенов чтоб шизанутый ответ получить
Аноним 12/12/23 Втр 01:09:59 #241 №570572 
>>570569
> А что за модель?
Так эта самая Xwin-MLewd-13B-V0.2
>>570571
Это просто самая шизанутая шиза, в других просто было плохо.
Аноним 12/12/23 Втр 01:12:13 #242 №570574 
image.png
>>570569
> Чет проиграл
Пикрил, но в кобольде и на llama.cpp оно не запускается.
Аноним 12/12/23 Втр 01:32:07 #243 №570581 
>>570567
О, нишутя, норм, но всеравно сложна сложна. Пока не попробуешь не узнаешь, врядли сложнее чем то что тут делаем, в крайнем случае можно нейронку спросить лол.
А там можно готовые html хостить, например процедурно генерируемые для иллюстрации чего-то типа >>566678 → чтобы котокоробку не насиловать? Если да, то доступен ли JS? (хотя офк вариант спорный, но те же таблицы с выбором сортировки без него хз как делать).
> типо тех же гридов для SD весом в десятки мегабайт
jpeg/webp в помощь, превысить 10мегабайт чем-то информативным и адекватным невозможно. Но если действительно проблема то ничего не мешает иметь 2 копии.
Аноним 12/12/23 Втр 01:45:06 #244 №570587 
>>570581
>Пока не попробуешь не узнаешь, врядли сложнее чем то что тут делаем,
Хуйня вопрос. Запилил базовый скелет за полчаса.https://2ch-ai.gitgud.site/wiki/llama/ не заходить мне стыдно. Можно начать заполнять мясом.
Аноним 12/12/23 Втр 02:01:03 #245 №570604 
.gif
>>570570
> В ишью вестимо, лол. Ну и просто весь пост копирнуть в файлик в проекте.
Хороший вариант с issues. Перенёс инфу в ридми.

> В корень насрал слегонца, думаю, никто не против. Сегодня структуру доделаю, а дальше как пойдёт.
Ага, нет проблем. Я пока для секции /nai/ пытаюсь дополнительную инфу описать, но времени не хватает в последнее время.

>>570581
> А там можно готовые html хостить, например процедурно генерируемые для иллюстрации чего-то типа >>566678 → чтобы котокоробку не насиловать?
Можно внедрять любой html/css. Если там нужны какие-либо дополнительные js-либы для отрисовки графики, то можно добавить.

> Если да, то доступен ли JS?
Да. Я так для гридов в SD возможность зума в самой вики прикрутил через либу, правда не коммитил это пока.
Аноним 12/12/23 Втр 02:39:42 #246 №570631 
>>570142
175B против 220B — ага, та же самая модель. =) Всего-то лишних 45 миллиардов параметров, пф.

>>570149
Либо одна модель, которая путает специальности, галлюцинирует и из-за размера выдает перформанс ниже обычной.
Либо 8 моделей-специалистов, каждая из которых следует своему датасету, на котором дообучена и работает чуть быстрее.
Правда я не уверен, что это хорошо работает в случае 7B размера (а не 220B…)

>>570156
Так.

>>570159
Около-так, да. )

>>570341
Это база.

>>570357
Ну это ж кривая хуйня из западных интернетов про кавычки. Дегроты, что с них взять. Нельзя прогибаться под изменчивый мир, только звездочки, только разговор. =)

>>570547
> Но результат был предсказуем, аноны не дадут соврать.
Да, такое и ждали.
Конечно, хотелось бы получать их отработанные модели себе в опенсорс, но велика вероятность, что все закончится на апдейте 7B…
Аноним 12/12/23 Втр 08:45:57 #247 №570763 
>>569878
Как ты 34 вообще запустил? Можешь настройки скинуть? И какую конкретно модель?
Аноним 12/12/23 Втр 09:06:02 #248 №570770 
>>570763
другой анон. читай, он мне давал ответ. Я запустил Yi-34b 3-квантовую. 45 слоев в видюху 12 гигов и остальное в оперативу. Через кобольд. около 3 токенов тоже выходит. Ответ примерно 100 сек занимает.
Аноним 12/12/23 Втр 09:07:06 #249 №570771 
Не знаю кто писал https://rentry.co/xzuen но спасибо, ему очень качественно.
Аноним 12/12/23 Втр 09:08:10 #250 №570772 
>>570770
Этот ответ? >>569958 Куда все эти галочки ставить вообще?
Аноним 12/12/23 Втр 09:08:58 #251 №570773 
image.png
image.png
>>570763
Легко. Как-то так. Скорость упала, но это из-за того, надо бы пк перезапустить, оперативка сильно забита.
Аноним 12/12/23 Втр 09:16:02 #252 №570776 
>>570773
Прекольно. А сидьно умнее скажем чем 20b пятого квантования?
Аноним 12/12/23 Втр 09:17:17 #253 №570777 
>>570776
Для меня 20b франкенштейны хуже 13b нормальных моделей. 34 намного лучше.
Аноним 12/12/23 Втр 09:18:14 #254 №570778 
Сорри за нерелейтед, но знает кто какие правила постинга на форчане по поводу ру айпишников? По моему там вообще только в int можно было постить с ру? Хочу у них спросить пару вещей.
Аноним 12/12/23 Втр 09:23:59 #255 №570781 
>>570777
Окей любопытно, я попробую.
Аноним 12/12/23 Втр 09:39:28 #256 №570784 
>>570142
GPT-4 мультимодалка, в этом (и в качестве датасета) вся суть. MoE это просто способ уместить её, как и здесь.

А это всё чисто текстовые модели.
Аноним 12/12/23 Втр 09:45:04 #257 №570786 
>>570776

Тут уже раньше поясняли.

Большая модель даже с высоким квантованием всегда будет лучше меньшей модели вообще без квантования.
Аноним 12/12/23 Втр 10:17:41 #258 №570799 
>>570786
Почти согласен. Тут прикол еще в датасете. Если датасет не содержит нужной тебе инфы, то он бесполезен. Или если он с соей. Так что например 13b заточенная под нужную херню может быть полезнее 34b. Но если они обе заточены под нужную херню, то конечно 34b будет круче ибо у нее будет больше данных нужных. К сожалению модель это просто запеченные нейроны которые не развиваются и не подстраиваются под пользователя. Модель не будет играть тебе немого персонажа если у нее не было примера немого персонажа в датасете, или если ее попросить исполнить фетиш про который она не знает, то она начнет выдавать тебе не то что ты хочешь, а просто выберет самые вероятные токены. Вообще сомневаюсь че модели моут в логику, кажется они отвечают если верно, то уже потому что знают пример решения загадки например, или просто подставляют примерное решение задачи исходя из своих данных, например завязать козе рот, волку глаза , привязать капусту на спину козе.... Поправьте если где то не прав.
Аноним 12/12/23 Втр 10:34:50 #259 №570809 
>>570799
Ну да, у моделей не логика а вес ответа (хз как правильно это называется).
Типа в данной ситуации ответ "Х" имеет самый большой вес, вот его я и выдам.
Аноним 12/12/23 Втр 10:59:34 #260 №570828 
>>570809
Скорее вес слова же а не ответа. При низкой температуре ответ одн и тот же получается, а при высокой более уже рандомится. Но по итогу она говорит только те слова которые есть у нее в датасете. например про длинны или прочую ересь. Заметил кстати что NSFW ситуации очень однообразные ответы дают на этих сетках как будто чем глубже тем больше исчезает учет личности персонажа. Короче все тянки как под копирку шевелят бедрами.
Аноним 12/12/23 Втр 13:25:20 #261 №570902 
>>570784
> GPT-4 мультимодалка, в этом (и в качестве датасета) вся суть.
Ого, и как это позволило улучшить ее ответы? Как работают современные мультимодалки знаешь? Почему gpt4v чисто по общению перформит хуже 4турбо пояснишь?
>>570786
Здесь суть что 34 - это 34, а 20 - человеческая многоножка из 13, которая действительно хорошо причесывает токены и пытается отвечать будто после chain of thought, но сама по себе не становится сильно умнее.
>>570828
> При низкой температуре ответ одн и тот же получается
Если это не температура 0.1 то остальные семплеры криво стоят.

То что шевелят бедрами это ладно, но повторения действий - это пиздец, модель что так делает на разных, не будучи способна адаптировать хоть и известный паттерн но под конкретную ситуацию и персонажа - подлежит выпилу.
Аноним 12/12/23 Втр 13:37:28 #262 №570905 
>>570902
я про 0.1 и говорю. Просто как наблюдение которое показывает работу нейронки. Ведь надежда на то что нейронки смогут креативно отвечать и привносить что-то новое была. А тут выходит че она может только по датасету ответить и не имеет логики как таковой. Так че нейронка это пока наеб гоев на шекели с гешефтом для нвидиа. За 3060 пока не вижу смысла уже выходить, мне подсказали как 34b потестить, да круче чем 13b, но на 13b очень явно проявляются минусы нейронки. Полноценно вести историю и соблюдать все возможные инструкции и учитывать все детали из контекста хотя бы за 10к контекста у нее нет способностей, где то да лажанет любая нейронка. Даже где то график был че нейронка теряет детали из середины контекста, так что это пока хрень что она вспомнит как она условно 5к токенов назад чето делала. ибо анализ основной она делает на начало и конец.
Аноним 12/12/23 Втр 13:38:14 #263 №570906 
>>570565
Забавно, что к такому пресету ни у кого вопросов не возникает, при том что он в разы менее детерминированный, чем minP 0.4 + температура 1.4 (если она прикладывается после). Ну а чего, температура же мелкая, всё норм. В первом случае либо 40 токенов остаётся (если они все с мелкими вероятностями), либо суммарно на 90%, что дофига. А в случае с minP 0.4 останутся в большинстве случаев единицы токенов, которые все норм подходят, потому что нет ни одного хотя бы раза в три меньше максимального, но ужас-ужас, эти оставшиеся полтора токена перемешаются температурой.
Аноним 12/12/23 Втр 13:57:08 #264 №570917 
>>570905
>Так че нейронка это пока наеб гоев на шекели с гешефтом для нвидиа.
Крупные корпоративные сетки таки могут много чего. Локалки пока отстают.
>>570906
>Забавно, что к такому пресету ни у кого вопросов не возникает
Его никто не смотрел, чел, там глаза можно об уёбищные Z-слайдеры сломать. Тому кто их придумал и внедрил надо пальцы молотком отбить, чтобы больше к клавиатуре не прикасались.
Аноним 12/12/23 Втр 14:54:26 #265 №570938 
>>570799
Они не «кажется» умеют или не умеют в логику.
Они просто чисто статистически выдают, какие следующие слова у них есть в датасете (чаще — печатали люди в интернете).
Там нет логики, там просто статистика.
Каждый следующий токен (буква, слово, выражение) просто выбирается согласно весу и настройкам семплера.
Аноним 12/12/23 Втр 16:10:42 #266 №570980 
>>570905
> Просто как наблюдение которое показывает работу нейронки
Ничего не понятно
> нейронки смогут креативно отвечать и привносить что-то новое была
Еще как могут, если используется нормальная модель и промт.
> она может только по датасету ответить и не имеет логики как таковой
В помойку такое, шизомикс от унди?
> нейронка это пока наеб гоев на шекели с гешефтом для нвидиа
> За 3060 пока не вижу смысла уже выходить
> круче чем 13b, но на 13b очень явно проявляются минусы нейронки
В следующий раз сразу делай дисклеймер что аутотренируешь оправдания железа и навыка.

>>570906
> к такому пресету ни у кого вопросов не возникает
Потому что это база для нормальных моделей.
> чем minP 0.4 + температура 1.4
Про нее тебе уже написали, это сомнительная штука. На "развилках" которые связывают действия/части предложения/повествование, встречаются достаточно часто и имеют плавный спад вероятностей, оно сделает дичайший рандом, что будет восприниматься на грани шизофазии. Но при этом в остальных случаях сохранит генеральную линию, которую как раз бы и не мешало пошатнуть, накормив платиной.
Аноним 12/12/23 Втр 17:51:43 #267 №571106 
>>570980
>В помойку такое, шизомикс от унди?
И в чём не прав тот анон? Как и вот этот >>570938
>база для нормальных моделей
Да ну? Сейчас прибегут последователи Simple 1 пресета и будут кричать, что топ к 40 - это слишком много, нужно 20 брать.
>оно сделает дичайший рандом
Многие сэмплеры (topA, TFS, minP) делали ровно с той целью, чтобы почти не выкидывать токены, когда есть большой выбор примерно равновероятных токенов. Я не хочу получать одно и то же продолжение фразы в рп просто потому, что оно чаще встречалось в датасете. Если у меня предложение "я смотрю в окно и вижу там...", и по контексту мне подходят десятки токенов с вероятностями от 6% до 2%, то я хочу иметь нормальную вероятность получить любой из них в ответе.
Аноним 12/12/23 Втр 18:04:17 #268 №571128 
>>570980
ну возьми как пример какую нибудь загадку ту же с козой, волком капустой и задачей переправиться на другой берег если можно перевозить только один предмет за раз. И почитай что выдаст например 34b. Во вторых до сих пор не видел чтобы кто-то кидал ответы 70b сеток и вообще говорил о них в треде. Насчет карточки я оцениваю получу ли я кайф от того что приобрету карточку не за 40к, а за 150к минимум. Насчет моделей - тесты были на cat 0.1 и Yi34. А какие у тебя норм модели анон? И какие промпты тоже покажи будь добр ибо говорят че надо то-то и то-то ,а обсуждение моделей и промптов в стократ реже чем например в acig хотя acig та еще доска для нейронаркоманов которые и думать то не любят особо, единицы что-то там мутят остальные просто флудят.
Аноним 12/12/23 Втр 18:12:49 #269 №571142 
>>571128
>Во вторых до сих пор не видел чтобы кто-то кидал ответы 70b сеток и вообще говорил о них в треде.
Ну нихуя себе. Лично я или на 7B, или на 70 сижу, в зависимости от терпения. 34 себя не оправдали для меня.
>а обсуждение моделей и промптов в стократ реже чем например в acig
Тут и народу меньше. Да и что там обсуждать, платина в шапке всё ещё актуальна.
Аноним 12/12/23 Втр 18:15:17 #270 №571147 
Бля, не пойму что за хуйня. Сервер крутится на одном компе. На 2х разных стоит таверна. Настройки и промпт на обоих компах одинаковый. Но на одном пк в ответах шиза, на другом всё норм. Вроде бы обе таверны до последней версии обновлены. Что за хуйня?
Аноним 12/12/23 Втр 18:18:42 #271 №571156 
>>571147
Смотри, что отправляется на сервер в консоли. В идеале в консоли сервера, если туда отпечатывается промт.
Аноним 12/12/23 Втр 18:19:35 #272 №571158 
>>571142
платина это гермес 2.5? или Undi Mlewd? Народу меньше, но все равно интерес то у нас на локалках сидеть сейчас и как бы инфой делиться можно.
>>571147
Интересно. Тоже заметил, только другой случай. Один и тот же комп, одни и те же настройки, спустя время модель как будто ломается. Точнее ломается или модель или таверна.
Аноним 12/12/23 Втр 18:40:55 #273 №571195 
>>571158
>платина это гермес 2.5? или Undi Mlewd?
Да обе, хули там. Размеры то разные. А для 70к я бы сказал, что синтия или хвин всё ещё актуальны.
Аноним 12/12/23 Втр 19:07:09 #274 №571240 
>>571106
> И в чём не прав тот анон?
Статистически выбирают - верно, но про датасет там написано на уровне древней шизы "ваша сетка это просто векторная база которая из кусков собирает", может просто формулировка такая.
При верном обучении появляется и логика, и понимание, и навыки это правильно использовать. Офк выражается это в правильном предсказании вероятностей а не эзотерике.
> что топ к 40 - это слишком много, нужно 20 брать
Да, лучше 20, но не столь существенная херь чтобы о ней спорить, модель первична.
> Многие сэмплеры (topA, TFS, minP) делали ровно с той целью
Но с ними никто не предлагал жарить температурой, значение выше 1 вообще такое себе и заведомо искажает.
В рассуждениях про вероятность ты предполагаешь что на 1м месте "злая фраза из детесета" насколько же кринжово звучит а далее - хорошие красивые токены. На деле типичными фразами будет большинство, и чем ниже вероятность тем более шизанутая и левая херь. А с этими шизомерджами лор(!) и странными дотренами для мелких моделей может быть совсем лютая дичь, и ты эти вероятности поднимаешь.
>>571128
Были несколько тредов назад 70, отвечают, и даже про сестру-шлюху. Для стабильного ответа требуется подрезать температуру, особенно у мерджей.
> А какие у тебя норм модели анон?
34 с околоприкладными задачками обработки текста, сочинения и переделки вполне прилично справляется. Для рп - чистые файнтюны 70, большая часть уже возрастные по несколько месяцев. Времени нет новые тестировать, попробуешь - а там шизофазия или какая-то платина, унынье приходит.
> какие промпты
Ролплей темплейт таверны с мелким тюнингом по необходимости юзер определяет кульминацию/плавно развивай взаимодействия/каждые 5 постов происходит что-то внезапное/"добавление локации в конце" и всякий треш.
> Насчет карточки я оцениваю получу ли я кайф от того что приобрету карточку не за 40к, а за 150к минимум.
Все зависит от тебя, прочих факторов вагон, брать только ради кума на локалках - только если мажор.
Аноним 12/12/23 Втр 19:26:09 #275 №571272 
>>570544

Пиздец унди скатился.
Давно такого говна не видел.
Микс из
>NurtureAI/neural-chat-7b-v3-16k
>NeverSleep/Noromaid-7b-v0.1.1/
>lemonilia/AshhLimaRP-Mistral-7B

В итоге хуже даже чем любой из 7В оригиналов.
Аноним 12/12/23 Втр 19:28:27 #276 №571276 
>>571128
>ну возьми как пример какую нибудь загадку ту же с козой, волком капустой и задачей переправиться на другой берег если можно перевозить только один предмет за раз. И почитай что выдаст например 34b.
Кстати Микстраль с 13B активных параметров спокойно решает эту проблему. Хотя скорее всего он заточился под неё, она ведь даже в википедии есть.

У меня афантазия, придумайте какую-нибудь тривиальную вариацию, я не знаю там про Гитлера, Сталина и Черчилля, которых перевозит Харон через Стикс, или ещё что-нибудь в этом духе. Только не про миссионера и людоедов, это тоже публично есть.
Аноним 12/12/23 Втр 19:29:10 #277 №571279 
.png
>>571276
>Кстати Микстраль с 13B активных параметров спокойно решает эту проблему.
Аноним 12/12/23 Втр 19:43:10 #278 №571314 
>>570902
>Ого, и как это позволило улучшить ее ответы?
Через заземление знаний на другую модальность, конечно же.
>Как работают современные мультимодалки знаешь? Почему gpt4v чисто по общению перформит хуже 4турбо пояснишь?
Не знаю, поясни.
Аноним 12/12/23 Втр 19:51:59 #279 №571327 
>>571279
А только вчера выдавал хуиту уровня 7б<, лол.
Аноним 12/12/23 Втр 20:02:03 #280 №571340 
>>571327
Не знаю у кого выдавал и кто что запускал. Они даже вроде код для неё не релизнули пока, только веса, все кузьмичат каждый во что горазд
Аноним 12/12/23 Втр 20:25:05 #281 №571372 
>>571276
Предположу что эти загадки переоценены, а в условиях тестирования малоинформативны.
Если под ролплей то нужно оценивать возможность сторитейла, понимания персонажей и т.д. Сначала предложи описать какой-то фентезийный или сай-фай сеттинг, чтобы подробно и интересно, можно и с рероллами. Потом вводи сценарий, описываешь конкретную страну, групу людей, что-то еще более приземленно конкретно. Далее - даешь задачу уровня "представь что ты - xx (исторический персонаж) и попадаешь в эти условия, твои действия" и пусть пишет стори.
По результатам, разнообразию, того как слушается и далее можно уже какие-то баллы ставить. Офк субъективно, не точно, но хотябы приближено к реальному применению.
>>571314
> Через заземление знаний на другую модальность, конечно же
Просвяти нас как это работает, хотябы своими словами.
> Не знаю, поясни.
4v - вариация 4-турбы (или чего-то подобного) с проектором активаций и соответствующим файнтюном. Из-за этого она хуже простой 4турбы, не говоря о полноценной 4.
Аноним 12/12/23 Втр 20:33:48 #282 №571380 
>>571372
>Просвяти нас как это работает, хотябы своими словами.
Концепты A и B в текстовой модальности связаны с X в другой модальности (пикча/звук), теперь A и B статистически связаны через X. Это даёт больше для понимания абстракций, чем только лишь прямая связь A и B.
Это и у человека работает абсолютно так же, например знания одновременно алгебры и геометрии работают как две разных модальности, и позволяют делать более сложные выводы.
Это и у LDM работает - промпт и контролнет позволяют более точно локализовать точку латентного пространства.

>4v - вариация 4-турбы (или чего-то подобного) с проектором активаций и соответствующим файнтюном.
А причем тут Vision модель. Я ж говорю про GPT-4.
Аноним 12/12/23 Втр 20:39:13 #283 №571386 
>>571380
> Я ж говорю про GPT-4
Правильно ли тебя понимаю, имплаишь что четверка - на самом деле не херня на трансформерсе, а нереально прорывная штука, способная оперировать совершенно другими связями, концептами и квантами информации?
> LDM
Чтоэта? Если про диффузерсы - контролнет по сути те же самые проекции, там нет двустороннего обмена.
Аноним 12/12/23 Втр 20:44:51 #284 №571388 
>>571386
>Правильно ли тебя понимаю, имплаишь что четверка - на самом деле не херня на трансформерсе, а нереально прорывная штука, способная оперировать совершенно другими связями, концептами и квантами информации?
Нет, какой прорыв? Просто тренировка на взаимосвязанных данных из разных областей. Токенизация там какая-то хитрая или адаптер какой, или как ещё они трансформеру это кормят, я понятия не имею.
Аноним 12/12/23 Втр 20:51:34 #285 №571393 
>>571388
Это выглядит куда более адекватно чем представлялось изначально, но все равно кажется на грани фантастики.
Есть какие-то предпосылки для таких суждений?
Распиши что под этим методом тренировки подразумеваешь и под связанны "из разных областей" изначально, это довольно интересно. И для чего там токенизация, адаптеры и прочее, какую роль они выполняют.
Аноним 12/12/23 Втр 21:01:31 #286 №571410 
>>571393
Какой фантастики-то, и так же вроде известно что оно так тренилось.

Ну вот два концепта: "багровый" и "алый". Если оно тренится только на тексте, то ему приходится соображать что это очень похожие вещи лишь по текстовым обрывкам и намёкам. Если оно ещё и по парам текст-картинка тренируется, то может сразу по RGB увидеть (буквально) что дистанция между этими двумя понятиями небольшая.

Или вот математическая задача. Её можно представить в геометрическом формализме (требует пространственного мышления), можно в алгебраическом (требует композиции абстракций). Если знать обе дисциплины, то задача решается куда проще.

>И для чего там токенизация, адаптеры и прочее, какую роль они выполняют.
Трансформер работает с последовательностями дискретных единиц (токенов, символов, машинного кода), у которых верна дистрибутивная гипотеза (статистическая близость эквивалентна смыслу). Программный код, натуральный язык и т.п. А звук и пикчи токенизировать так себе идея.
Аноним 12/12/23 Втр 21:24:08 #287 №571432 
>>571410
> ему приходится соображать что это очень похожие вещи лишь по текстовым обрывкам и намёкам
Именно, но сети в выявлении закономерностей весьма продвинулись, так сказать.
> по парам текст-картинка
Где часть, что отвечает за картинку и как сеть ее воспринимает? Как и по какому принципу готовить данные, явно не днище типа коко. На словах и в примитивном случае это действительно звучит хорошо, но стоит углубиться - количество всплывающих проблем и челленжей запределено.
Далее, объем данных в осмысленных изображениях какого-то разрешения огромен по сравнению с кучкой токенов. Мультимодалки и подобное что мы сейчас видим используют отдельную (и немаленькую в нормальных реализациях) сеть для кодировки, и поставляется информация не прямо на вход а "вглубь" модели. В теории такой подход для тренировки возможен, а то и перспективен, но нет ни одного признака подобного. Это что-то уровня сказать в 2018 году что показав сети пачку картинок можно заставить создавать изображения с еот.
> Если знать обе дисциплины, то задача решается куда проще.
В ходе обучения с нуля или на каком-то его этапе не просто научи трансформерз различать кошку и собаку, а потом примени это для прокачки концептов текстовой части.
Примеры есть? Развитие сетей и технологий легко проследить, например, прогресс до появления 4й гопоты. Есть что-то подобное для описываемого тобой и предпосылки кроме размышлений? Плюс возникает другой вопрос - это должно быть невероятно прокачать визуальную часть саму по себе, но видим лишь только плавное движение в этом направлении и днище (относительно описанного офк а не само по себе) в виде 4v, где?
Аноним 13/12/23 Срд 01:32:53 #288 №571620 
https://www.youtube.com/watch?v=WjiX3lCnwUI&t=630s

Какой был вердикт дваща по новой модели? Вон у Мэтта писька стоит уже. Я правда не понял зачем он А100 запускает. Или это говно жрет видеопамять как 70b и выигрыш только в скорости?
Аноним 13/12/23 Срд 01:42:18 #289 №571623 
Кстати, Много ли доработок лоадеров нужно чтобы раздельно и параллельно исполнять агентов Микстраля на затычках 8-12ГБ врам?
Звучит многообещающе.
Аноним 13/12/23 Срд 02:06:56 #290 №571632 
>>571620
> Или это говно жрет видеопамять как 70b и выигрыш только в скорости?
50 гигов q8_0.
Аноним 13/12/23 Срд 02:23:08 #291 №571642 
>>571620
> Или это говно жрет видеопамять как 70b и выигрыш только в скорости?
50~ в q8, выигрыш в качестве доходящем до жпт3.5 и скорости.
Аноним 13/12/23 Срд 02:59:55 #292 №571660 
>>571642
> в качестве доходящем до жпт3.5
Это шутка? Уровня жпт 3.5 достигли уже давно в размере меньше чем 50 гигов.
Аноним 13/12/23 Срд 03:05:19 #293 №571662 
Не знаю чего вы там достигаете моя модель уже давно лучше четверки для рп. Про клода даже вспоминать уже стыдно, что с ним сделали.
Аноним 13/12/23 Срд 03:09:03 #294 №571663 
>>571662
Лично обученная? Делись, сцуко!
Аноним 13/12/23 Срд 03:36:54 #295 №571666 
>>571663
> Делись, сцуко
Если ты про вещества то мне тоже отсыпьте
Аноним 13/12/23 Срд 04:02:35 #296 №571671 
>>571660
> Уровня жпт 3.5 достигли уже давно в размере меньше чем 50 гигов.
Это где, например?
Аноним 13/12/23 Срд 04:17:54 #297 №571678 
Вчера случилась такая ситуация. Завис комп из-за оперативки, перезапустил,сбросил герцы у оперативы и тут у меня какая то проблема началась. Запускается модель с теми же настройками что были раньше и она или начинает мою инструкцию писать или просто повторяет предыдущий текст. Модель перекачал, таверну новую открывал для теста, пробовал приложение кобольда новое ставить и всегда те же самые ошибки. Но ничего не меняется. Может какие драйвера полетели или чет с cuda?
Аноним 13/12/23 Срд 05:23:02 #298 №571682 
>>571678
агенты зог установили тебе на компуктер вирус что бы сетки перестали работать
Аноним 13/12/23 Срд 05:45:52 #299 №571683 
>>571682
у меня трагедия, а ты петросянишь.
Аноним 13/12/23 Срд 05:55:01 #300 №571684 
>>571683
без куды запусти на пробу
Аноним 13/12/23 Срд 08:25:42 #301 №571710 
>>571684
на CLBlast попробовал. То же самое. Ответ повторяется из прошлого сообщения char.
Аноним 13/12/23 Срд 09:14:00 #302 №571720 
>>571671

Каждый второй файнтюн митсраля УНИЧТОЖАЕТ и ПЕРЕИГРЫВАЕТ этот ваш ГПТ в бенчмарках.
А на деле выдает хуергу нечитаемую
Аноним 13/12/23 Срд 09:36:48 #303 №571725 
>>571720
А в табличке lmsys (оценивают человеки в слепом тесте напрямую, не бенчмарки) 3 файнтюна мистраля почему-то стоят выше текущей версии гопоты-3.5-турбо. Хотя ниже летней гопоты.
inb4 ЭТО ДРУГОЕ
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Аноним 13/12/23 Срд 10:05:21 #304 №571731 
>>571725
>a crowdsourced, randomized battle platform. We use 130K+ user votes to compute Elo ratings.
Ясно, говно.
Аноним 13/12/23 Срд 10:14:21 #305 №571732 
1533354147918.jpg
>>571731
>ЭТО ДРУГОЕ!
Как часы.
Аноним 13/12/23 Срд 10:37:18 #306 №571740 
Screenshot (444).png
Screenshot (443).png
>>571623
>>571620
>>571632
В теории можно подгружать только 13B активных весов с SSD или оперативки. Это не так сложно. Просто задержка на ответ будет больше, если надо менять экспертов.

А модель сама по себе неплохая для своих размеров. Я не ожидал даже что 13B модель способна на пикрилейтед. Ответ кривой, но оно смутно допёрло до того что там где-то нужен тангенс угла. Этого в книжках по рисованию не пишут, надо выводить самостоятельно. GPT-3.5 на моей памяти не давала правильного ответа.
Аноним 13/12/23 Срд 11:42:16 #307 №571772 
>>571720
Я посидел на опенчате, потом на турбе. Не УНИЧТОЖЕНА, конечно, но хуиту такого порядка выдаёт примерно. Впрочем если учесть что это 175б, то таки да, УНИЧТОЖЕНА.
Аноним 13/12/23 Срд 12:28:54 #308 №571805 
>>571725
>Tulu V2 DPO 70B
Вообще не слышал про эти файнтюны. Кто первый испытает лучшую 70B по мнению этого бенча?
Аноним 13/12/23 Срд 13:39:50 #309 №571832 
>>571710
>>571678
Через таверну? Ее файлы или чат могли повредиться из-за таких ребутов.
>>571725
> 3 файнтюна мистраля почему-то стоят выше текущей версии гопоты-3.5-турбо
Секрет кота Бориса в правильной подготовке данных для теста!
Аноним 13/12/23 Срд 13:44:19 #310 №571835 
>>571832
>Секрет кота Бориса в правильной подготовке данных для теста!
Как я понял, данные там тупо наливают обычные люди, которые задают свои разные вопросы двум сеткам и выбирают лучший ответ. Хотя ХЗ как это точно происходит, ибо все мои "вопросы" срежет либо порнофильтр, либо антимат, либо политический.
Аноним 13/12/23 Срд 13:51:01 #311 №571846 
>>571835
Платформа проводит серию одинаковых запросов нейросетям по оптимальному для них алгоритму, и уже дает сравнивать людям, или же сами авторы должны залить ответы на набор стандартных запросов?
Или же в реальном времени можно что угодно вопросить и выбрать из двух рандомных результатов лучший?
Аноним 13/12/23 Срд 13:58:56 #312 №571857 
Screenshot (446).png
>>571832
>>571846
>Секрет кота Бориса в правильной подготовке данных для теста!
>Или же в реальном времени можно что угодно вопросить и выбрать из двух рандомных результатов лучший?
Там нормальный слепой тест, в котором сетки оцениваются людьми. Можешь сам поучаствовать. Голосование учитывается только до того как покажут какие сетки участвовали. https://chat.lmsys.org/?arena

>>571835
Да. У меня около сотни промптов на понимание, глюки, и просто всякую рандомную хуйню, например:
- What would happen if I leave my phone under the direct sunlight in Helsinki in January? можно прям видеть как у сеток в голове происходит тянитолкай: солнце значит перегрев <-> в Хельсинки в январе низкое солнце и холодно
- My satellite is on the low Earth orbit, and each time it passes over Brazil, the onboard CPU crashes. What could be the reason for that? тест на дедукцию, правильный ответ Southern Atlantic Anomaly, даже GPT-4 его проваливает часто
- Could you remind me where my keys are? тест на пиздаболию, большинство его проходят, но GPT-4 на пике неожиданно обосралась один раз, я аж проиграл с такого поворота
И т.д. и т.п. Иногда захожу туда, вкидываю по 20-30 раз случайный промпт чтобы опросить много комбинаций.
>все мои "вопросы" срежет либо порнофильтр, либо антимат, либо политический.
Это скорее тест на первый ответ, а не на РП. Потому что после него показывают какая это была сетка, и следующие ответы уже не идут в рейтинг. Ну и тестить имеет смысл на английском.
Аноним 13/12/23 Срд 14:02:09 #313 №571861 
>>571857
>Это скорее тест на первый ответ, а не на РП.
Вот это минус, да.
>Ну и тестить имеет смысл на английском.
Других языков и не существует для ИИ.
Аноним 13/12/23 Срд 14:06:58 #314 №571867 
>>571832
но я новые даже таверны распаковывал. Не помогло.
Аноним 13/12/23 Срд 14:56:49 #315 №571898 
1631187406501.png
1585931287126.png
>>571857
> А или Б?
> Да
Ну что же ты.
У платформодержателей случаев аффиляции с французами нету, буквально в каждом запросе одной из сеток выступает миксстраль, или она так специально чтобы быстрее ее оценить? Странная штука, на короткие простые ответы - один микстраль против турбы. Закинул длинный промт на 2к контекста - одни турбы или клод против гопоты, зато словил почти pigma nods на какой-то модели.

На 15й ролл наконец подкинуло микстраль, вступление вроде ничего, но потом кринжовые диалоги, лупы и типикал словарный запас семерок. Ждем когда сделают его нормальный запуск, но сильно на многое рассчитывать не стоит похоже.

Алсо промтинжект или что-то еще у них похоже курсед, та же турба напрямую комплишны по аналогичным запросам выдает приличные, а у них аположайзы и тупняк. Четверка так вообще залоботомирована и дает короткие пресные реплаи, тогда как просто чаткомплишном без ничего срет простынями.
>>571867
Проблема в чем-то другом, другой чат попробуй.
Аноним 13/12/23 Срд 15:08:49 #316 №571906 
1604453403313.png
с первого раза выпало
Аноним 13/12/23 Срд 15:56:54 #317 №571929 
>>571710
Ну, значит дело не в дровах карточки и куда
Обновления посмотри винды, если было чет новое до зависания то удали и проверь. Шутка про агентов зог может оказаться не такой уж и шуткой
Аноним 13/12/23 Срд 16:04:17 #318 №571936 
>>571906
Какая-то странная загадка, ведь 3 тоже правильный ответ..
Аноним 13/12/23 Срд 16:20:38 #319 №571941 
>>571936
> 3 тоже правильный ответ
Я кончено знал что дауны тут сидят, но не настолько же.
Аноним 13/12/23 Срд 16:30:41 #320 №571949 
>>571941
Салли - первая сестра каждого из 3 братьев, но нигде не сказано что вторая сестра каждого брата должна быть одна для всех. Это может быть 1, 2, 3 сестры в любых комбинациях. Условий задачи недостаточно для решения.
Аноним 13/12/23 Срд 16:50:31 #321 №571963 
изображение.png
>>571949
3 всё ещё не равно 6.
Аноним 13/12/23 Срд 16:50:47 #322 №571964 
>>571949
Ты реально тупее нейронки.
> нигде не сказано что вторая сестра каждого брата должна быть одна для всех
Во втором предложении указано это. Или у тебя пошли куколдские проекции, что у двух родителей могут быть дети не от друг друга? Тогда давай ещё добавим 5 приёмных сестёр и тебя можно будет использовать вместо нейросети-бредогенератора.
Аноним 13/12/23 Срд 16:55:41 #323 №571966 
>>571964
Эм, у меня есть сестра, у сестры два брата. Но у меня братьев нет, ага. Ибо они родственники по отцу, а я с ней родственник по матери. Такие дела.
Впрочем, это неважно, если бы нейронки выдавали это, было бы норм. Но 95% локалок втупую множат 2 числа (спасибо что дают верный ответ), и получают полнейшую хуиту.
Аноним 13/12/23 Срд 17:13:11 #324 №571973 
1681099506071.mp4
>>571966
> Такие дела.
Я и говорю бредогенератор, додумывающий условия задачи находу. Примерно так же как в задаче про лодку нейронки привязывали козла/волка к дереву чтоб они ничего не съели. В задаче же не запрещено, почему бы и нет?
Аноним 13/12/23 Срд 17:15:55 #325 №571977 
Солярку тестил кто? Реально ебёт бутерброд?
Аноним 13/12/23 Срд 17:51:28 #326 №571999 
>>571973
>Я и говорю бредогенератор
Да не, нормальный творческий подход.
>Примерно так же как в задаче про лодку нейронки привязывали козла/волка к дереву чтоб они ничего не съели.
Лол, а где такое было? Всё, что я видел, это полный пиздец, а не иные подходы к решению задачи.
>В задаче же не запрещено, почему бы и нет?
Таки да. Но если что, я другой анон, просто делаю замечания. Нейронки ни капли не оправдываю, ибо они нихуя даже на такие изъёбы не способны, увы. Либо выдают классические решения из датасета, либо бредят, да. Но это не значит, что любое стороннее решение это бред, тут понимать надо.
>>571977
А теперь на человеческом.
Аноним 13/12/23 Срд 18:04:13 #327 №572009 
>>571999
>Лол, а где такое было? Всё, что я видел, это полный пиздец, а не иные подходы к решению задачи.
О, че они только не делали что бы решить задачу. Я кстати тоже другой анон.
Там и намордники, и привязывание к дереву, и в нарушение условий перевозить сразу 2 объекта
А какую дичь писали сетки на тест сестер это конечно мрак, ладно бы просто умножали, там иногда до алабамы доходило ведь сетка решала что раз каждый брат имеет 3 сестры то они женаты, лол
Аноним 13/12/23 Срд 18:07:05 #328 №572010 
>>572009
>ведь сетка решала что раз каждый брат имеет 3 сестры то они женаты, лол
Еееее инцест. Выравнивание 80-го уровня.
Аноним 13/12/23 Срд 18:22:46 #329 №572015 
>>572009
>А какую дичь писали сетки на тест сестер это конечно мрак
Из недавнего с вот этих полутора землекопов особенно поорал.
https://www.reddit.com/r/LocalLLaMA/comments/18gc5ew/finally_an_ultimate_answer_to_the_sisters_riddle/
Аноним 13/12/23 Срд 18:29:44 #330 №572018 
>>572015
Да ор, тоже чет такое было
Аноним 13/12/23 Срд 18:36:47 #331 №572020 
>>572015
Да, там в самом конце обидная ошибка в математике.
Аноним 13/12/23 Срд 19:00:52 #332 №572029 
>>571732
Ну с таким же успехом можно по этому треду с кумерами рейтинг моделей составлять, когда у одного 7b файнтюн-микс от Васяна2002 это охуенно и хватит всем, а у другого даже лучшие 34б модели все кал кроме одной единственной любимой потому-что она делает специфичную узкую хуйню, которая никому кроме него не нужна.
Аноним 13/12/23 Срд 19:05:08 #333 №572034 
>>571857
>пик
Пиздец охуенные вопросы, конечно. И какой, блядь, из ответов тут лучше может быть?
Аноним 13/12/23 Срд 19:05:22 #334 №572035 
>>572029
>лучшие 34б модели
Хуйня по сравнению с 70B, которые тоже хуйня по сравнению с GPT4, который вы уже знаете что.
Аноним 13/12/23 Срд 19:06:59 #335 №572037 
>>572035
> который вы уже знаете что
Который тоже хуйня, которую заалайнили до жопы.
Аноним 13/12/23 Срд 19:20:07 #336 №572043 
image.png
Ну хоть не "я существую, я не существую" бесконечно, хотя и это можно проверить хех
Аноним 13/12/23 Срд 19:47:59 #337 №572061 
Новый кум подвезли, а ну ка заценим
Аноним 13/12/23 Срд 19:48:30 #338 №572062 
>>571973
> в задаче про лодку нейронки привязывали козла/волка к дереву чтоб они ничего не съели
Ахуенно, современные проблемы требуют современных решений.
>>572010
Шутка про инцестмиксы.
>>572015
А вот такое, похоже, уже никак не превзойти.
>>572029
> у одного 7b файнтюн-микс от Васяна2002 это охуенно и хватит всем, а у другого даже лучшие 34б модели все кал кроме одной единственной любимой
И эти заявления делает один и тот же человек.
Аноним 13/12/23 Срд 21:42:13 #339 №572168 
https://huggingface.co/clibrain/mamba-2.8b-instruct-openhermes
потыкайте кто нибудь, мне лень ради этого угабугу ставить
Аноним 13/12/23 Срд 21:48:03 #340 №572173 
>>572168
>потыкайте
>The OpenHermes dataset is composed of 242,000 entries of primarily GPT-4 generated data
Можно даже не тыкать, дрожь от избытка сои видно издалека.
Аноним 13/12/23 Срд 21:56:38 #341 №572180 
>>572173
На сою пока похрен, проверить бы уровень мозгов сетки. Чет писали что 3b на уровне 7b
Аноним 13/12/23 Срд 21:58:15 #342 №572182 
>>572173
> >The OpenHermes dataset is composed of 242,000 entries of primarily GPT-4 generated data
Больше накопления ошибок и сои богу накопления ошибок и сои.
Аноним 13/12/23 Срд 22:08:43 #343 №572187 
>>572180
>на уровне 7b
Вот когда будет сетка на уровне 70B и выше, тогда зовите. А то топтание на месте какое-то.
Аноним 13/12/23 Срд 22:27:02 #344 №572204 
>>572187
нихуясе топтание на месте, сетка в 2 раза меньше и в несколько раз быстрее вдруг стала ерундой
Аноним 13/12/23 Срд 22:52:42 #345 №572250 
>>572187
Это врядли, только в очень узкой области, а как-то сравниться/превзойти сможет MoE. Микстраль хороший такой POC, надроченный на типикал вопросы зерошотом копиум, но по ряду пунктов перформит сильно лучше простой 7б.
Аноним 13/12/23 Срд 22:59:15 #346 №572262 
Из 34В какие модели для КУУМа лучше всего выбрать?
Аноним 13/12/23 Срд 23:16:48 #347 №572290 
>>572262
>для КУУМа

Пигмалион 7b
Аноним 13/12/23 Срд 23:25:18 #348 №572303 
image.png
>>572290
Аноним 13/12/23 Срд 23:40:11 #349 №572316 
Никто не знает почему модель может зациклится на статеринге при попытке говорить за твоего персонажа?
u-amethyst-20b.Q5_K_M вроде бы неплохие сюжеты для РП ваяет, но рано или поздно всё сваливается в зависон (i-i-i), при попытке что-то сочинить за моего аватара...
Настройки температуры трогал - не помогает.
Аноним 14/12/23 Чтв 00:13:05 #350 №572344 
>>572316
Лол у меня в прошлом треде так же было

>>563768 →
Аноним 14/12/23 Чтв 00:24:54 #351 №572352 
https://huggingface.co/upstage/SOLAR-10.7B-Instruct-v1.0
новый топчик сеток по тестам, че там внутри хз
Аноним 14/12/23 Чтв 00:27:08 #352 №572354 
>>572034
Сетка слева радостно напиздела, сетка справа не пиздит и даже даёт ценный совет. Что же выбрать?..
Аноним 14/12/23 Чтв 00:29:48 #353 №572355 
>>572352
на словах ты Лев Толстой, а на деле пигмалион 7б
Аноним 14/12/23 Чтв 00:30:33 #354 №572356 
1627706175831.png
>>572352
Выглядит как пиздеж, конечно
Аноним 14/12/23 Чтв 00:31:55 #355 №572357 
>>572029
Блять, дают бенчи - не нравится, говорят надо оценку хуманами. Дают оценку хуманами - опять не нравится.
>Ну с таким же успехом можно по этому треду с кумерами рейтинг моделей составлять
Ну и норм же.
Аноним 14/12/23 Чтв 00:33:31 #356 №572359 
>>572352
https://huggingface.co/upstage/SOLAR-10.7B-Instruct-v1.0/discussions/4

>However, it stubbornly denies commonly known and unquestionable truths in order to achieve a TruthfulIQ over 70. This goes well beyond throwing the baby out with the bathwater.

Спасибо, не надо
Аноним 14/12/23 Чтв 00:41:01 #357 №572364 
>>572355
11b вапщета

>>572356
вот и надо проверить, там в комментах пишут мол умнее мистралей, но чаще галюционирует

>>572359
Базовый качай если не нравится инструкт, меньше сои
Аноним 14/12/23 Чтв 00:52:29 #358 №572373 
>>572357
> Блять, дают бенчи - не нравится, говорят надо оценку хуманами. Дают оценку хуманами - опять не нравится.
Ну так надо всё в совокупности смотреть, а не увидев в одном бенче/рейте хуманами бежать нести хуйню.
Аноним 14/12/23 Чтв 01:00:03 #359 №572376 
>>572352
Выглядит интересно и размер удачный.
>>572354
Тут главное соседним постом в другом вопросе засрать за лишние высказывания и советы/предупреждения крича соя, соя, везде соя!
>>572357
И там и там вопрос в реализации. Стандартный набор тестов - на них начали буквально надрачивать сетки и теперь они мало что отражают.
Хуман тест представляется устойчивым к подобному, но даже просто чуть возмутив выбор сочетаний моделей можно сильно исказить результат без всяких подкручиваний. Простейшее ветвление в зависимости от вопроса - вообще какие угодно результаты можно получить примерно зная особенности моделей.
Это не говоря про сам формат, в котором оценивается очень узкая область, на которую уже явно пошло надрачивание сеток. Оно может и хорошо, вполне себе специализация по применению, но экстраполировать это на все - ерунда.
Аноним 14/12/23 Чтв 01:04:52 #360 №572380 
image.png
Бля микстрал даже промпт выдал для генерации изображения. И вообще я понял, что нахуй таверну, как её не настраивай сплошные лупы и шиза. Интерфейс кобольда тащит на стандартном пресете, ни единого лупа.
Аноним 14/12/23 Чтв 01:10:50 #361 №572387 
>>572380
У тебя уже на скриншоте начало лупить, чел. И вообще, что в таверне что в кобольде в конечном итоге получается текстовый промпт, так что это skill issue.
Аноним 14/12/23 Чтв 01:15:37 #362 №572390 
>>572387
Где ты тут видишь луп? То что имя трижды выплюнул? Так похуй вообще. В следующем сообщении такого уже нет.
Аноним 14/12/23 Чтв 01:18:26 #363 №572391 
>>572387
Ну и промпт в таверне так точно не настроишь, особенно когда дело касается примеров чата. Что-то не так с настройками самплинга там в целом.
Аноним 14/12/23 Чтв 01:21:05 #364 №572393 
image.png
>>572390
>Где ты тут видишь луп?
Лупы это не обязательно дословное повторение.
>>572391
>Ну и промпт в таверне так точно не настроишь
Все настраивается. Ты просто не понимаешь куда пихается каждая секция и что получается в итоге. Включи логирование в консоль и посмотри что происходит.
Аноним 14/12/23 Чтв 01:26:13 #365 №572396 
>>572393
> Включи логирование в консоль и посмотри что происходит.
Я вижу что происходит, но там никак не настроить если в примерах отвечает модель. Конкретно этот аспект ты никак не можешь настроить. Он в примеры сообщения вставляет то что у тебя прописано в инпут и респонсе. И из-за этого на некоторых промптах всё ломается. Желательно бы чтобы по умолчанию он просто писал имя персонажа двоеточие и ответ, вместо вот этой хуйни.
Аноним 14/12/23 Чтв 01:28:42 #366 №572402 
>>572396
>Я вижу что происходит, но там никак не настроить если в примерах отвечает модель. Конкретно этот аспект ты никак не можешь настроить. Он в примеры сообщения вставляет то что у тебя прописано в инпут и респонсе.
А, ну такое есть.
Аноним 14/12/23 Чтв 01:31:11 #367 №572404 
>>572380
Если просто смотреть - ответ в начале вполне норм, можно конкретно доебаться к слогу но это уже вкусовщина. С промтом некоторый фейл по формату и большой фейл по лишнему предложению в нем.
Начиная со 2го предложения в "промте" и далее - сплошной фейл, ответ за юзера и пустая графомания за что древний мифомакс ругали.
Формат системного промта скорее всего паршивый, но раз кобольд хорош - наяривай.
>>572387
В таверне гораздо более широкие возможности по его формированию, всетаки специализированный инструмент.
>>572393
Верно говорит, схожую структуру не заметишь только в первый раз, а потом мозг вынесет и с каждым разом будет все хуже.
Аноним 14/12/23 Чтв 01:36:09 #368 №572408 
>>572404
> В таверне гораздо более широкие возможности по его формированию, всетаки специализированный инструмент.
Я лучше ручками подредактирую чем буду эти шаблоны править. Ну и как я сказал выше один этот бесячий аспект никак нельзя править.
Аноним 14/12/23 Чтв 01:42:26 #369 №572417 
image.png
Походу микстрал будет запускаться на любых калькуляторах скоро.
Аноним 14/12/23 Чтв 01:42:31 #370 №572418 
>>572408
Сделать один раз простую операцию, или из раза в раз повторять? Просто использовать стандартный. Кроме того правильный инстракт формат только таверна или прокси тебе сделает, это на любой модели улучшает результат.
Про аспект не понял.
Аноним 14/12/23 Чтв 01:44:49 #371 №572419 
>>572418
> Кроме того правильный инстракт формат только таверна или прокси тебе сделает
Оооооочень сомнительно. Учитывая как раз тот самый аспект. Завтра подрублю и покажу как оно промпт уродует, сейчас лень.
Аноним 14/12/23 Чтв 01:51:26 #372 №572428 
>>572419
> как оно промпт уродует
О как, то что в старые времена начали практиковать, доказали эффективность, делали реверс прокси а потом реализовали в самой таверне - оказывается уродует промт. Сильное заявление.

То что произносится любителем бинго кобольд@7б уже должно настораживать ничего личного, объективный триггер, а в сочетании с фейловым скрином, который превозносится - верится еще меньше.
Аноним 14/12/23 Чтв 02:00:22 #373 №572434 
image.png
>>572428
> ничего личного, объективный триггер
Какие же здесь токсики сидят, впрочем чего это я, это же двощ.
Вот про что я говорил. Видишь ### Response в примерах в промпте? Хуй ты их уберешь, они привязаны к Output Sequence. Нет отдельного поля, чтобы редактировать, что туда вставить. И в итоге цепочка input -> response ломается нахуй. Все еще говоришь, что промпт идеальный?
Аноним 14/12/23 Чтв 02:05:05 #374 №572440 
>>572428
> делали реверс прокси
Чет поржал, учитывая, что у прокси открыты исходники. Что же они там такого реверсировали интересно?
Аноним 14/12/23 Чтв 02:08:29 #375 №572443 
>>572352
Скачал базовую версию, solar-10.7b-v1.0.Q5_K_M
Так, ну по первым ощущениям отвечает как то более умно чем мистрали.
Чем то похоже на 11b франкенштейнов но более причесанных.
Инструкт не качал так что хз какой он, левд, сою и цензуру не проверял, просто тыкаю старые карточки и смотрю на ответы
Аноним 14/12/23 Чтв 02:15:46 #376 №572453 
>>572434
Причем тут токсики, объективно функционал, возможности и удобство несравнимы. Это всеравно что завалиться в сообщество таксистов этой страны и начать втирать им
> пересаживайтесь на велорикши, ничем не уступает а сплошные плюсы в виде экологичности и дешевизны
потому и реакция закономерна.
Представленное тобою - или что-то поломал, или действительно баг. В таком случае красавчик что нашел, респект, уважение, но мог бы это представить вместо того чтобы ерунду ту втирать. Про скрин с постом уже расписали.
Аможет быть и не баг а фича, надо изучить что там в мультитурн формате альпаки.
> Все еще говоришь, что промпт идеальный?
Про идеальность это ты додумал какие же здесь хлебушки сидят, критику/вопросы их посту воспринимают как собственное оскорбление, впрочем чего это я, это же двощ, однако с высокой вероятностью формируемый формат с директивой перед ответом даже с такими экзамплами выдаст результат лучший чем дефолт.
>>572440
Речь об это https://github.com/anon998/simple-proxy-for-tavern суть в формировании верного промта вместо простых инструкций сверху и ротации user/assistant.
Аноним 14/12/23 Чтв 02:17:53 #377 №572458 
>>572453
> Речь об это https://github.com/anon998/simple-proxy-for-tavern суть в формировании верного промта вместо простых инструкций сверху и ротации user/assistant.
Ну я и спрашиваю чего там реверсить если вот он исходный код, ты ссылку на репозиторий дал.
Аноним 14/12/23 Чтв 02:19:54 #378 №572460 
>>572458
Очепятка и должно быть
> симпл прокси
вместо
> реверс прокси
и реверс там не глагол
Аноним 14/12/23 Чтв 02:21:31 #379 №572463 
>>572460
А окей. А то было странно.
Аноним 14/12/23 Чтв 02:22:54 #380 №572471 
>>572463
Да пиздец уже обдвачевался, завязывать с этой херней надо.
Аноним 14/12/23 Чтв 02:26:42 #381 №572481 
>>572453
> какие же здесь хлебушки сидят, критику/вопросы их посту воспринимают как собственное оскорбление
Я обидчивый хлебушек после этого.
> любителем бинго кобольд@7б
Простите что не ебу дочь миллионера и в шкафу у меня не затесалось парочки 4090, чтобы запускать 120б голиафа.

Ладно, в любом случае я тебя выслушал, но останусь. Субъективно мне такая хуйня в эксамплах не нравится, модели иногда думают, что это все часть предыдущей истории сообщений и в итоге хуета получается. Поэтому в таверне я выпиливал примеры из карточки персонажа.
Аноним 14/12/23 Чтв 02:27:41 #382 №572485 
>>572481
> но останусь.
при своем мнении. Кажется спать пора.
Аноним 14/12/23 Чтв 03:22:03 #383 №572570 
>>572481
Дело не в том что и как использовать, а в позиции. Можно довольствоваться малым осознавая плюсы и минусы этого, а можно упарываться, представляя вынужденное как наилучшее и устраивая манямир-бинго.
Уже долго длятся регулярные заявления о больших победах мелочи и ненужности всего остального в сочетании с "крутыми скринами", где в лучшем случае обычные посты времен 1-й лламы. Сравнивать кобольда и таверну в качестве интерфейса для рп в принципе сложно. Отсюда и предубеждение, которое делает любое восхваление этого сочетания заведомо негативно воспринимаемым.

> такая хуйня в эксамплах не нравится
Надо сравнить так и так, ни разу с такой ситуацией не сталкивался и постов о подобном в последнее время не было, всяко должно было проявиться. Уверен что
> модели иногда думают, что это все часть предыдущей истории сообщений
не перепутал с лупами или просто тупняками? Пигма при отсутствии контекста любила перефразировать экзамплы если там были простые разговоры. При лупах можно даже повторение системного промта поймать или других фраз из контекста ранее.
Аноним 14/12/23 Чтв 04:34:01 #384 №572624 
Бля, подскажите с таверной ебаной, можно как-то сделать чтобы в групповых чатах (да и не в групповых) при генерации от лица одного перса не срало якобы ответами других персов?
Аноним 14/12/23 Чтв 04:49:29 #385 №572628 
https://www.reddit.com/r/LocalLLaMA/comments/18hga4p/upstage_solar_107b_v10_claims_to_beat_mixtral/
Аноним 14/12/23 Чтв 04:50:36 #386 №572630 
>>572417
Если MOE модель можно так сжать и не проебать нахуй все её мозги, то звучит как ахуй.
Аноним 14/12/23 Чтв 06:05:25 #387 №572643 
Скорость нейросетки вообще зависит от мощности процессора? есть ли преимущество у Ryzen 9 5950x перед ryzen 5 3600 учитывая такую оперативку? G.Skill RIPJAWS V [F4-3200C14D-32GVK] и 3600МГц имеет преимущество над 3200МГц?
Аноним 14/12/23 Чтв 06:25:44 #388 №572660 
>>572643
>Скорость нейросетки вообще зависит от мощности процессора?
FPU среднего нормального процессора (не затычки сокета) сильно быстрее оперативы. Поэтому, на данный момент оператива это бутылочное горлышко по пропускной способности. А значит нужно брать оперативу самую заебатую из поддерживаемых процессором.
И да, ДДР4 на 2 канала считается медленно, но сервачки с алиекспресс китайской помойки на 4-6 каналов уже нормально, ДДР5 на 2 канала тоже нормально.
Местные аноны юзают процессоры для крупных нейросетей, которые не влазят в видеокарты для нищих работяг.
Аноним 14/12/23 Чтв 06:49:03 #389 №572666 
>>572660
ну вот и задумался как апгрейднуть до 70b получив скорость токенов 4 и больше в секунду. если ты смотрел какие сервера на алике можно купить для такого то что у тебя вышло оптимально цена - токен в секунду?
Аноним 14/12/23 Чтв 07:07:47 #390 №572670 
>>572666
>получив скорость токенов 4
Купить 12 канальный амд с ддр5. Но это дорого.

>>572666
>что у тебя вышло оптимально цена - токен в секунду?
Купить проц от амд на ддр5 и подразогнать память. Цена ощутимая, но это твой домашний компьютер. Пригодится.
На 70b производительность будет почти токен в секунду.

Можно купить 2011-3 с алиекспресс. Стоит недорого и производительность ~0.75 токенов в секунду для 70b.
Ещё есть АМД TR4, примерно в 2 раза быстрее.
На 3647 и 4189 смысла смотреть нет. Слишком дорого.
Аноним 14/12/23 Чтв 07:52:12 #391 №572687 
>>572670
спасибо за развернутый ответ. Мда. у меня пока что видимо за счет видюхи на 12 гигов 3.5 токена в сек на 34b и то 100 сек ответ. Даже как то грустно...
Аноним 14/12/23 Чтв 09:17:45 #392 №572706 
>>572443
Это и есть какой-то странный франкенштейн.
>Built on the Llama2 architecture, SOLAR-10.7B incorporates the innovative Upstage Depth Up-Scaling. We then integrated Mistral 7B weights into the upscaled layers, and finally, continued pre-training for the entire model.
Причем не просто мёржи файнтюнов мёржей файнтюнов файнтюнов, а реально сшивание из лоскутов какое-то, как у Витяни Франкенштейна. Странный голем, который существует вопреки законам природы.
Аноним 14/12/23 Чтв 09:21:05 #393 №572709 
Форчан сходит с ума по Mixtral.
Вот вроде ссылка на нее https://huggingface.co/TheBloke/Mixtral-8x7B-v0.1-GGUF
Че потестите? Там рассказывают знакомые сказки про то что лучше чем ентот ваш жипити в 100 раз, но мне что-то мало верится.
Аноним 14/12/23 Чтв 09:35:12 #394 №572715 
>>572709
Подожду exl2, после него всё слишком медленное
Аноним 14/12/23 Чтв 09:40:24 #395 №572717 
>>572706
Если его потом полирнули файнтюном сверху, то почему бы и нет? Но в данном случае скорее всего будет говно, да.
Аноним 14/12/23 Чтв 09:41:34 #396 №572718 
>>572715
Там никакой разницы по скорости в текущих реализациях. Вроде как на CPU даже быстрее. На моем калькуляторе скорость 10 токенов в секунду.
>>572709
Ну японский переводит очень неплохо, что для меня было удивительно.
Аноним 14/12/23 Чтв 09:58:15 #397 №572732 
>>572204
Да, хуйня ненужная. Даже качать не буду. Нахуя? Она же не даёт никакого нового экспириенса. Хоть 3B, хоть 0,03B, это всё ещё тупая штука.
Поэтому жду, когда начнут пилить нормальные модели 50+B.
>>572250
Ага, жрёт как 70B, а толку как от 13. Спасибо нахуй.
Аноним 14/12/23 Чтв 10:10:38 #398 №572751 
>>572732
> Ага, жрёт как 70B, а толку как от 13. Спасибо нахуй.
Ты бы на форчан зашел и посмотрел скрины и логи анонов. Все пишут, что микстрал лучше ЛЮБОЙ существующей 70б модели.
А теперь прибавь это к тому, что оно на процессоре имеет скорость 10 токенов в секунду - двойной ахуй.
Аноним 14/12/23 Чтв 10:10:54 #399 №572752 
>>572709
> Че потестите? Там рассказывают знакомые сказки про то что лучше чем ентот ваш жипити в 100 раз, но мне что-то мало верится.
В некоторых задачах ОЧЕНЬ НЕМНОГО может превосходить гпт3.5, но это не то чтобы великое достижение само по себе, сейчас любое 7-10b говно это может сделать, но ничего не сможет кроме этого. Достижение, что оно может и это, и не только это и со скоростями инференса уровня 7-15b моделей (если её всю засунуть в ГПУ, конечно же) при своем размере. Но есть по мелочи и не очень разные проблемы и до полноценных 70b+ моделей дотягивает далеко не везде. Если посидеть с ней попиздеть контекста так на 5000+ становится хорошо видно в чём страдает. Как обычно сидим ждём файнтюны и оптимизации в llama.cpp
Есть ещё вероятность, что из-за MOE эту дуру можно будет очень сильно ужать без потери качества до чуть ли не 5-12 гигов.
Аноним 14/12/23 Чтв 10:11:33 #400 №572753 
изображение.png
>>572434
>Видишь ### Response в примерах в промпте? Хуй ты их уберешь
Правь код таверны, хули. Возможно, так же поможет замена {{user}}: и {{char}}: на символьные имена, и тогда таверне ничего не останется, кроме как отправить это одним куском.
>>572458
>Ну я и спрашиваю чего там реверсить
Терминов не знаешь.
>>572643
Смотри в сторону Ryzen 7000.
>>572666
>ну вот и задумался как апгрейднуть до 70b получив скорость токенов 4 и больше в секунду
Бери 3 штуки P40: https://rentry.org/Mikubox-Triple-P40
>>572670
>На 70b производительность будет почти токен в секунду.
Слегка больше. До 1,5.
Аноним 14/12/23 Чтв 10:13:48 #401 №572757 
>>572751
>Все пишут, что микстрал лучше ЛЮБОЙ существующей 70б модели.
Такое и про мистраля говорили, и про китайцев, а воз и ныне там. Подождём, пока первые впечатления сойдут.
Аноним 14/12/23 Чтв 10:15:37 #402 №572762 
>>572751
>>572757


МАМОЙ КЛЯНУСЬ ВОТ БЕНЧМАРКИ МИСТРАЛЬ ТОП НОМЕР ОДИН
Аноним 14/12/23 Чтв 10:16:07 #403 №572763 
>>572751
> А теперь прибавь это к тому, что оно на процессоре имеет скорость 10 токенов в секунду - двойной ахуй.
На рязани 7950x с топовой DDR5 или серверном железе ещё дороже, блять?
Аноним 14/12/23 Чтв 10:16:23 #404 №572764 
>>572757
> Такое и про мистраля говорили, и про китайцев, а воз и ныне там. Подождём, пока первые впечатления сойдут.
Ты тупой долбоеб? ПОСМОТРИ СКРИНЫ, СКАЧАЙ И ПОКРУТИ НА СВОЕЙ МАШИНЕ.
Хули спрашивать если можно убедиться своими глазами и руками?
И да мистраль на форчонге пока им не дали модель в своих руках потыкать.
Аноним 14/12/23 Чтв 10:18:10 #405 №572766 
>>572763
>На рязани 7950x с топовой DDR5
Амуди кстати посасывают по оперативе точнее по фабрике, которая не успевает накормить контроллер памяти данными, так что тут скорее 14600 покажет результаты лучше.
Аноним 14/12/23 Чтв 10:18:25 #406 №572767 
image.png
>>572763
> На рязани 7950x с топовой DDR5 или серверном железе ещё дороже, блять?
ддр4
Ну если это топовое железо то даже не знаю.
Аноним 14/12/23 Чтв 10:19:23 #407 №572769 
>>572764
>СКАЧАЙ И ПОКРУТИ НА СВОЕЙ МАШИНЕ.
Кидай ссылку на хуйню, чтобы нормально работало. 12ГБ врам, 64 рам.
Аноним 14/12/23 Чтв 10:20:27 #408 №572770 
>>572762
Я ТВОЙ БЕНЧМАРК ШАТАЛ БЛЯ ищи в гугле самый мощный LLM там будет Mixtral-8x7B я твой бенчмарк шатал вы никто. ЧТО ТАКОЕ GPT-3.5? мы сами дали вам выйграть WinoGrande и MT Bench. Я ТВОЙ БЕНЧМАРК ШАТАЮ БЛЯ. ВЫ НИКТО со сравнения Mistral. ШАТАЮ ТВОЙ БЕНЧМАРК. БЛЯ
Аноним 14/12/23 Чтв 10:22:39 #409 №572773 
>>572769
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF
https://github.com/LostRuins/koboldcpp/releases
Держи, можно даже на видяху не выгружать, от этого все равно никакого толку, а 64 рамы для квантов с головой хватит.
Аноним 14/12/23 Чтв 10:23:04 #410 №572774 
1592596785620.png
>>572767
5800x с пикрелейтед, выше 5 не видел. И, кстати, это норма что при промпте длиннее 200 токенов начинается полный пиздец с ожиданием когда оно его прожует и начнет генерить или я еблан криво собрал llama.cpp?
Аноним 14/12/23 Чтв 10:26:08 #411 №572778 
>>572774
> И, кстати, это норма что при промпте длиннее 200 токенов начинается полный пиздец с ожиданием когда оно его прожует и начнет генерить или я еблан криво собрал llama.cpp?
Норма, пока нормальную обработку промпта не завезли, но генерация быстрая.
А по поводу 10 токенов я рили наебался, спутал с другой моделью на этой архитектуре, только она не 8x, а 4x. Уменя тоже 5 токенов в секунду.
Аноним 14/12/23 Чтв 10:27:58 #412 №572779 
>>572778
> пока нормальную обработку промпта не завезли
рекомендуют пока вобще бласс батч вырубать, так быстрее будет.
Аноним 14/12/23 Чтв 10:29:54 #413 №572781 
>>572778
>>572779
В mixtral ветке вроде отрубили https://github.com/ggerganov/llama.cpp/commit/90c12e6b3cebfa7fec9ab2bb239cf509d0b828a8 или я еблан и не понял
Аноним 14/12/23 Чтв 10:32:49 #414 №572782 
>>572781
А, оно уже в мастере.
Аноним 14/12/23 Чтв 10:33:01 #415 №572784 
>>572781
Так уже мержнули поддержку в основную ветку. Возможно там не вырублено. Но суть в том что да, обработка промпта пока медленовата, но обещают исправить в будущем.
Аноним 14/12/23 Чтв 10:44:27 #416 №572790 
>>572773
>koboldcpp/releases
>Added a new bare-bones KoboldCpp NoScript WebUI
Вот нахуя они это делают?
Попробую как кобольд скачается, спасибо властям за замедление гитхаба.
Аноним 14/12/23 Чтв 10:49:41 #417 №572791 
>>572417
https://arxiv.org/abs/2310.16795
Аноним 14/12/23 Чтв 11:09:51 #418 №572798 
>>572791
>Это впервые позволяет реализовать модель с триллионом параметров на доступном стандартном оборудовании, таком как один сервер с 4 графическими процессорами NVIDIA A6000 или 8 графическими процессорами NVIDIA 3090
>доступном
>8 x NVIDIA 3090
Эх...
Аноним 14/12/23 Чтв 11:14:56 #419 №572799 
>>572798
Так это речь про гугловскую 1600В. А так уже есть 2-битное квантование, по качеству как Q4_K_S.
Аноним 14/12/23 Чтв 11:50:28 #420 №572813 
>>572790
>Вот нахуя они это делают?

Ну типа запускаешь ты кобольда и у тебя оперативки прям впритык.
Гоняешь эту вебморду без жабаскриптов нормально.
Аноним 14/12/23 Чтв 11:52:52 #421 №572815 
>>567655 (OP)
Пасаны, подскажите пожалуйста, напомните, куда и какую команду надо в убабуге прописать чтобы он сразу стартовал загружая нужную мне модель? В батник какой-то...
Аноним 14/12/23 Чтв 11:54:27 #422 №572817 
>>572813
SSD купить за 5к нельзя что ли? У меня постоянно в подкачке лежит 20-30 гигов всякого говна, когда загружаю модель, и норм.
Аноним 14/12/23 Чтв 11:55:51 #423 №572818 
>>572817

Ебу чтоль дал.
Если у тебя кусок модели в свап уйдет то это пиздец скорость зарежет. Лучше вообще своп вырубать.
Аноним 14/12/23 Чтв 12:16:23 #424 №572827 
>>572818
Он не про модель, он про всё остальное барахло, что висит в памяти типичного ПК.
Хотя как по мне всегда проще докинуть RAM, нежели чем так ужиматься.
Аноним 14/12/23 Чтв 12:20:04 #425 №572829 
>>572827
> докинуть RAM
Ценой скорости? Как будут нормальные десктопные материнки на 4 слота или плашки на 32+ гига со скоростью 7200, так и приходи.
Аноним 14/12/23 Чтв 12:21:06 #426 №572830 
изображение.png
изображение.png
>>572773
Ну... Оно работает. Это уже радует. Чуть меньше 6Т/с чисто на проце (7900х), но без обработки контекста на ВК оно нихуя не юзабельно. Пойду проверю платину.
Аноним 14/12/23 Чтв 12:23:09 #427 №572832 
>>572829
>Ценой скорости?
Ветка изначально началась с интерфейса кобольда для бомжей. А у бомжей нет штрафа за 4 плашки.
>или плашки на 32+ гига со скоростью 7200
Зачем плюс? 64 гигов двумя плашками хватает на всё. Да и амуди не умеют более чем в 6400.
Аноним 14/12/23 Чтв 12:23:59 #428 №572833 
Для КУУМ микстраль короче вообще непригоден.
Скорость конечно высокая, но результаты даже хуже чем на 13В.
И файнтюн от васяна тут явно не поможет.
Аноним 14/12/23 Чтв 12:28:50 #429 №572834 
>>572833
>И файнтюн от васяна тут явно не поможет.
Почему?
Аноним 14/12/23 Чтв 12:31:31 #430 №572837 
>>572834
Потому что это все тот же 7В по сути.
Для задачек про сестер и прочих волков с капустой это заебись, а вот для РП или КУУМ это нахуй не нужно. Тут никакие лоры не помогут.

Проще уж 7В хорошую скачать отдельно.
Аноним 14/12/23 Чтв 12:32:47 #431 №572838 
>>572837
> Для задачек про сестер и прочих волков с капустой это заебись, а вот для РП или КУУМ это нахуй не нужно. Тут никакие лоры не помогут.
Какой же ты даун. Ахахахаха
Аноним 14/12/23 Чтв 12:33:08 #432 №572840 
изображение.png
изображение.png
изображение.png
изображение.png
>>572830
>Пойду проверю платину.
Ну хотя бы рыбы у неё не тонут, уже радует.
С книгами логика верная, но хули оно назвало неверную цифру. Чувствительность к репетишенам? Темпа высокая? Ох уж эти модели, ломающиеся от каждого дуновения ветерка. Я думал этим грешат только китайцы.
Про отцов у меня верно только гопота 4 решает, так что...
Про петухов и яйца ответ засчитываю.

Короче никакой поебды тут нет.
Аноним 14/12/23 Чтв 12:35:12 #433 №572842 
>>572838

Не плач. Обмажься микстралем от xxx_vasya_xxx и радуйся.
Вон уже все обнимилицо завалили ими.
Аноним 14/12/23 Чтв 12:37:49 #434 №572843 
>>572842
Так кто плачет то? Я просто смеюсь над дауном который не достаточно скилловый, чтобы заставить нормально работать обычную инструкт модель.
Аноним 14/12/23 Чтв 12:39:24 #435 №572845 
изображение.png
изображение.png
изображение.png
изображение.png
>>572840
Математика в скобках конечно странная, и ХЗ, зачем оно тут, без скобок ответ был бы "верным".
Шутку про молот тора не выкупила, ибо у меня только гопота 4 и клод могут соотнести тяжесть двух вещей.
Про множества даже комментировать не буду, тут нужен переформулированный вопрос.
Про негров ожидаемо не шутит. Но чего ещё ждать от инструкт версии.
Аноним 14/12/23 Чтв 12:39:50 #436 №572846 
>>572843
>заставить работать

Ты ебанутый?
Она работает нормально. Просто результат хуевый.
Можешь конечно пруфы хороших результатов принести. Я очень хочу почаклить софтли.
Аноним 14/12/23 Чтв 12:56:03 #437 №572862 
изображение.png
>>572845
Короче попробовал шутки про негров в ролеплее, нацики их не знают. Окей, будем считать что это так. Проролеплеил немного, и модель быстро запуталась, кто там шпион, выпалила свой план и не поняла, где обосралась. Короче типикал 7B.
Аноним 14/12/23 Чтв 13:47:33 #438 №572898 
>>572843
> чтобы заставить нормально работать обычную инструкт модель
У мелких моделей просто не хватает мозгов. Я два дня провел за промпт-инженегрингом и подбором параметров пытаясь заставить в таверне группу из 4 персов заработать на куче моделей меньше 20b. Всё говно ебаное просто, которое надо сидеть задушивать чтобы оно хоть как-то приемлимо вело себя и отыгрывало персов. А та же ссаная mxlewd20b делает это почти адекватно сходу почти даже на неправленных всратых персах. В пизду просто, у мелких моделей не хватает понимания нихуя чего от них хотят и что происходит как ты не заправляй их промптами и чем угодно.

Про микстраль есть подозрения, что её и тюны с миксами сходу не научат хорошо РП-шить на уровне моделей 20-30b+ из-за собственно MOE и там придется крупно заебываться с файнтюном.
Аноним 14/12/23 Чтв 14:02:29 #439 №572904 
>>572630
Кажется идея не столько в сжатии сколько в загрузке на гпу только нужных частей.>>572660
> 6 каналов
Где можно посмотреть?
>>572670
Только добавь что обработка контекста зависит от видеокарты и количества слоев на ней. Генерацию там можно и под 2 т/с получить, но при смене контекста ожидание затянется и выхлоп может оказаться вообще 0.2
Аноним 14/12/23 Чтв 14:06:57 #440 №572906 
>>572709
К нему запускалку нормальную сделали уже чтобы катать на человеческих скоростях без A100?
> сходит с ума
> лучше чем ентот ваш жипити в 100 раз
Судя по публичным формам там крутое достижение для 7б и ахуенная демонстрация системы, но копиум по результатам и все заявления о победах взяты из узкой области.
>>572732
Не настолько плохо, оно лучше 7б и в некоторых (редких) случаях сравнивается с большими сетями, сам подход к реализации перспективный.
Аноним 14/12/23 Чтв 14:11:23 #441 №572911 
>>572904
>Кажется идея не столько в сжатии сколько в загрузке на гпу только нужных частей.
Там вроде в папире изначальной да и на скрине у Тима именно про квантизацию речь. Но как понимаю прикол в том, что по сути чем больше MOE модель, тем устойчивее она к квантизации, насколько это для микстрали применимо пока вопрос.
Аноним 14/12/23 Чтв 14:12:20 #442 №572912 
>>572906
>К нему запускалку нормальную сделали уже чтобы катать на человеческих скоростях без A100?

И кобольд и угабуга последние нормально запускают
Аноним 14/12/23 Чтв 14:13:02 #443 №572914 
>>572906
>К нему запускалку нормальную сделали уже
Пока только на проце, с обработкой промта по 5 минут: >>572773
Результаты моих катов выше, полностью согласен с
>копиум по результатам и все заявления о победах взяты из узкой области
>>572906
>сам подход к реализации перспективный.
ХЗ. По моему трансформеры сами по себе говно, но ничего другого нам не дают.
Аноним 14/12/23 Чтв 14:14:17 #444 №572917 
>>572906
> там крутое достижение для 7б
Заебали, микстраль не 7B вообще ни в каком месте, они уже сами релизную страницу поправили с указанием на это и что надо было по другому модель называть.
Аноним 14/12/23 Чтв 14:15:34 #445 №572920 
>>572751
> Все пишут, что микстрал лучше ЛЮБОЙ существующей 70б модели
Это пишут почуявшие гойду нищуки, крупных локалок даже не нюхавшие. Хз как их вообще можно сравнивать почитав слог микстраля и попытавшись с ним рпшить на хотябы каком-то контексте, или банально спросив что-то за пределами 10% популярных страниц википедии/фандом вики.
>>572752
Вот этого двачую.
Алсо в таком случае стоит ждать подобные MOE из шизомиксов или просто разных моделей и других размерностей, вот уж где можно будет разгуляться.
>>572778
> Норма
Это рофл или серьезно?
>>572845
А чего так грустно то?
Аноним 14/12/23 Чтв 14:17:30 #446 №572922 
>>572920
> рпшить
Нормально РПшить это отдельная сложная задача. Ничуть не легче логических задач.
Аноним 14/12/23 Чтв 14:17:32 #447 №572923 
>>572920
> стоит ждать подобные MOE из шизомиксов
Ждать дольше чем обычно придется, сейчас все тюнеры и миксеры будут разбираться в MOE и как это нормально тюнить и миксовать не охуев.
Аноним 14/12/23 Чтв 14:19:28 #448 №572926 
>>572920
> Это рофл или серьезно?
Там пока в llama.cpp по-быстрому набросано и проблемы есть тупо. Кода к модели нормально не дали, как понимаю.
Аноним 14/12/23 Чтв 14:20:36 #449 №572929 
>>572922
>Нормально РПшить это отдельная сложная задача.

Да нифига.
Даже без спец тренинга на РП 70 и 120 модели отлично в РП могут. Ну исключая цензуру и сою, это уже отдельно вырезать надо.
Даже 30 модели могут нормально РПшить.
Аноним 14/12/23 Чтв 14:23:25 #450 №572932 
>>572929
> Даже 30 модели могут нормально РПшить.
Даже 20B могут приемлимо РПшить, но уже с заметными проблемами в понимании происходящего и детальности. Чсх, по моему опыту куда проще заставить адекватно рпшить всякую откровенную кумерскую хуету, на тех же lewd-миксах, например, чем что-то более осмысленное.
Аноним 14/12/23 Чтв 14:24:06 #451 №572933 
>>572929
>120
Голиаф или сборке на его основе? Автор Голиафа хвастался ультразаебатым онли рп датесетом.
>70
Мержи на основе Синтии или Аэробуса. Авторы обеих максимально кропотливо и с фанатизмом выдрачивали датасеты.
Аноним 14/12/23 Чтв 14:28:34 #452 №572936 
>>572911
> по сути чем больше MOE модель, тем устойчивее она к квантизации
На основе чего сделан такой вывод?
>>572912
> нормально запускают
Со скоростью как 7б на голом процессоре и медленным контекстом?
>>572914
На мамбу надежда, с теории с ее размерами можно даже имея 3090 p40 если очень терпеливый полноценно обучать и играться, а полученные результаты и наработки потом эффективно отмасштабировать.
>>572917
> микстраль не 7B вообще ни в каком месте
8x7b, из названия идет. Судя по скорости работы и коду при взаимодействии отрабатывает только ее часть.
>>572922
Ну как, специализированные 13 справляются лучше чем эти эксперты, стэм файнтюны / универсальные 70 отыгрывают как боженька что иногда превосходят большие сетки, была бы ллама2 30б - скорее всего была бы золотой серединой и могла бы.
Аноним 14/12/23 Чтв 14:30:23 #453 №572937 
>>572933

>Голиаф или сборке на его основе? Автор Голиафа хвастался ультразаебатым онли рп датесетом.


Действительно, проебался что-то.
Не смотрел на основе чего 120 делают.

>Мержи на основе Синтии или Аэробуса. Авторы обеих максимально кропотливо и с фанатизмом выдрачивали датасеты.


>Мержи на основе Синтии или Аэробуса. Авторы обеих максимально кропотливо и с фанатизмом выдрачивали датасеты.

Тупо Ллама 70В ебет во все щели все что ниже каких-то мегатюнингованных 20В
Аноним 14/12/23 Чтв 14:31:43 #454 №572938 
1619780645650.png
>>572936
> На основе чего сделан такой вывод?
Пик из https://arxiv.org/pdf/2310.16795.pdf
Может я еблан и неправильно понял.
Аноним 14/12/23 Чтв 14:35:59 #455 №572939 
>>572936
> Судя по скорости работы и коду при взаимодействии отрабатывает только ее часть.
Два эксперта из восьми. Она примерно 12B на самом деле.

>The Mixtral MoE is called Mixtral-8x7B, but it doesn't have 56B parameters. Shortly after the release, we found that some people were misled into thinking that the model behaves similarly to an ensemble of 8 models with 7B parameters each, but that's not how MoE models work. Only some layers of the model (the feed-forward blocks) are replicated; the rest of the parameters are the same as in a 7B model. The total number of parameters is not 56B, but about 45B. A better name could have been Mixtral-45-8e to better convey the architecture.



Кстати, про вой на форче и не только и качество логов: квантированные модели TheBloke, которые все крутят, СИЛЬНО убивают качество, MoE не квантуется так же просто как обычные модели, так что учитываете это в обсуждениях хуевости.
Аноним 14/12/23 Чтв 14:36:33 #456 №572941 
>>572920
>А чего так грустно то?
Настройки не те/запускалка не та/руки не те. Всё как всегда. Высрали новую модель, а что с ней делать никто не знает. Ладно хоть запустилась.
>>572936
>наработки потом эффективно отмасштабировать
Да вот пока никто нихуя не масштабирует. Десяток начинаний 7B и меньше, лол, моделей больший размеров только китайцы, но те без экспериментов.
>>572937
>Тупо Ллама 70В ебет во все щели все что ниже каких-то мегатюнингованных 20В
Два чаю.
Аноним 14/12/23 Чтв 14:37:45 #457 №572942 
>>572939
Вон они сами это пишут
>Quantization: Quantization of MoEs is an active area of research. Although TheBloke has done initial experiments to achieve 4-bit and 8-bit quantization, the model quality degrades significantly. It will be exciting to see the development in the coming days and weeks in this area. Additionally, recent work such as QMoE, which achieves sub-1-bit quantization for MoEs, could be applied here.
Аноним 14/12/23 Чтв 14:39:12 #458 №572943 
>>572939
>квантированные модели TheBloke, которые все крутят, СИЛЬНО убивают качество
Ну дык иначе никак, крутить во врам неквантованные 45B могут не только лишь все.
Все пишут про мега охуенные кванты на 2 или даже полбита, а пользуемся в итоге вариантом, не сильно далеко ушедшим от самого первого GGML, лол.
Аноним 14/12/23 Чтв 14:41:18 #459 №572947 
>>572938
Там не кванты, а сжатие. То что размер "приближается к 1 биту на параметр" не значит что там каждый параметр квантован в 1 бит. Это просто плотность данных.
Аноним 14/12/23 Чтв 14:43:08 #460 №572948 
>>572943
>Ну дык иначе никак, крутить во врам неквантованные 45B могут не только лишь все.
Если QMoE реально так охуенно работает и его можно применить к микстрали и будущим моделям на её базе и около - будет ахуй.
>Все пишут про мега охуенные кванты на 2 или даже полбита
Ну вот эти все разговоры про MoE были, которых нихуя и не было до текущего момента по сути и никому не нужны в попенсурсе были, а теперь вот микстраль сделали и все сейчас дрочить начнут увидев перспективу.

Но не дрочим на чрезмерные надежды, конечно, чтобы не разочаровываться.
Аноним 14/12/23 Чтв 14:43:54 #461 №572951 
>>572933
> Авторы обеих максимально кропотливо и с фанатизмом выдрачивали датасеты
Читай ответственно подошли к файнтюну а не "хуяк хуяк замешал - вот вам новая модель убийца X, задонатьте мне на 3090"
> Автор Голиафа хвастался ультразаебатым онли рп датесетом.
Просто голиаф это разве не франкенштейн из готовых? Его файнтюны - да, но хз что по ним там.
>>572939
> MoE не квантуется
А если трансформерсом на cpu пускать, сильно плохо выйдет? Он вроде и сам умел худо-бедно сплитить.
Аноним 14/12/23 Чтв 14:47:39 #462 №572953 
>>572947
Я пейпер по диагонали только читал, там постоянно что кванты, что сжатие упоминаются рядом и выглядят как синонимы, по этому так назвал. Офк в общем речь про плотность данных.
Аноним 14/12/23 Чтв 14:50:20 #463 №572956 
>>572951
> А если трансформерсом на cpu пускать, сильно плохо выйдет?
Плохо в плане? Качества? По качеству там пока что всё плохо что не оригинальные FP16 веса, их трансформерсом только и запускать затарившись 128гб оперативы. По скорости хуй его знает вообще.
Аноним 14/12/23 Чтв 14:54:27 #464 №572957 
>>572956
По скорости офк, что там может быть не так при фп16? Про пиздецому на load in 4 bit в курсе, хотя 8 в теории должно быть нормально.
Аноним 14/12/23 Чтв 14:57:30 #465 №572961 
>>572957
> По скорости офк
Хз, инфы не видел, тут на весь харкач и форч анонов 10 пишущих что-то дай рандом наберется, кто в состоянии её в ориг весах погонять.
Аноним 14/12/23 Чтв 15:01:30 #466 №572965 
>>572961
Не, про на профессоре пишу просто запустить и проверить работу с вялой скорости, не на гпу.
Аноним 14/12/23 Чтв 15:08:27 #467 №572970 
>>572939
> Она примерно 12B на самом деле.
13B. Но и это не совсем, должна быть умней чем плотный трансформер на 13B.
Аноним 14/12/23 Чтв 15:12:43 #468 №572976 
>>572939
> квантированные модели TheBloke
Потому что он квантовал вообще все линейные слои. Наверняка там какие-то нельзя квантовать, например те что отвечают за выбор эксперта.
Аноним 14/12/23 Чтв 15:53:40 #469 №573004 
>>572970
Ну 12-13B в плане скорости инференса, а в плане секса "умности" и общего количества параметров MoE хуй знает как сравнивать с не-MoE
Аноним 14/12/23 Чтв 15:56:19 #470 №573006 
>>573004
> а в плане секса "умности" и общего количества параметров MoE хуй знает как сравнивать с не-MoE
Берёшь и сравниваешь. Пока что не сказать чтобы сильно дохуя: >>572840
Аноним 14/12/23 Чтв 16:29:10 #471 №573025 
>>572815
CMD_FLAGS.txt
--model имя_модели

———
Готов затестить на проце и 128 гигах оперативы Mixtral, если дадите неквантованную и че там как вообще, я не помню, спасибо за внимание.

А пока качаю q8 квант, чисто поглядеть.
Аноним 14/12/23 Чтв 16:35:27 #472 №573029 
>>573025
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
Еще хз влезет ли в 128, но, как говорится, your resistance...
Аноним 14/12/23 Чтв 17:02:59 #473 №573051 
Недавно писал по поводу неработы моделей. Сейчас протестил не работает только один тип моделей и это 34b, модели на 20b норм работают. 13b тоже. А 34b просто отказываются. При этом памяти 32 гига. + видюха 12 гигов. Модель 34b кванта Q3. Думал может видюха глюкнула, выгрузил все в оперативку и на 20b и на 34b. На 34b или повторяет предыдущий ответ или пишет промпт мой. На 20b все норм. Не могу понять в чем дело, до этого все работало зашибись и с 34b.... Запускал и через кобольд и через угабугу.
Аноним 14/12/23 Чтв 17:06:09 #474 №573053 
>>573051
В хубабубе загрузи модель, на вкладке дефолт в инстракт режиме у нее что-нибудь интересное запроси а скинь скрин. Перед этим в параметрах число токенов ответа побольше поставь чтобы не оборвалось.
Аноним 14/12/23 Чтв 17:11:29 #475 №573058 
image.png
>>573053
А где тут этот режим.
Аноним 14/12/23 Чтв 17:16:01 #476 №573065 
>>573058
Вот сюда промт в нужном формате пиши и жми генерировать. https://rentry.co/xzuen пример там есть или погугли
Аноним 14/12/23 Чтв 17:20:21 #477 №573071 
>>573029
> Еще хз влезет ли в 128
В релизной статье пишут что в 90~ с хуем влезает.

>>573025
> если дадите неквантованную
> https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

>и че там как вообще, я не помню
Да проще всего будет через вебуи и скачать модель, и через трансформерс запустить.
Аноним 14/12/23 Чтв 17:21:18 #478 №573074 
image.png
image.png
image.png
>>573065
даже с впн не зашел по ссылке, выдает доступ закрыт , ну вот че у меня получилось на данный момент
Аноним 14/12/23 Чтв 17:29:00 #479 №573081 
изображение.png
>>573074
ХЗ что у тебя за проблемы, но тебе как минимум нужно писать свои инструкции вместо второго слова, а не после двоеточия.
Аноним 14/12/23 Чтв 17:41:32 #480 №573090 
>>573074
> выдает доступ закрыт
Покажи скрин, твой впн явно протух. Или дожидайся когда будет время заняться вики.
> ну вот че у меня получилось
Ну ты инструкцию то нормально напиши а не просто голый шаблон с кривым добавлением. Хотя даже ответ на 2м скрине вполне соответствует тому что на входе, модель работает.
Аноним 14/12/23 Чтв 18:53:50 #481 №573169 
Так, или я еблан, или с трансформерс что-то не то, или с вебгуем. Ебучая микстраль в fp16 упорно не влезает в 128гб.
Аноним 14/12/23 Чтв 18:58:48 #482 №573174 
>>573169
>Ебучая микстраль в fp16 упорно не влезает в 128гб.
Попробуй с подкачкой, хотя бы чтобы посмотреть, сколько оно хочет.
Аноним 14/12/23 Чтв 19:10:52 #483 №573184 
Пацаны, сижу на форчке, тут особо не сижу
Все же знают про прорывную модельку новую Mixtral 7x8?
Это просто охуенно, вполне можно ЕРПшить, сои почти нет - канни присутствует
Аноним 14/12/23 Чтв 19:12:45 #484 №573185 
>>573184
Все знают, модель как модель, тупит, тормозит и не лучше любой 70B.
Аноним 14/12/23 Чтв 19:13:37 #485 №573186 
>>573184
> Mixtral 7x8
Ссылку?
>>573185
> 70B.
Ну тогда мимо.
Аноним 14/12/23 Чтв 19:15:20 #486 №573188 
>>573185
Ну у меня с koboldcpp, с 4090, на таверне с mistral Instruct mode и пресетом ouroboros все норм.
Не забудьте отрубить mirostar совсем, не качайте кванты ниже 5_K_M, поставьте blas batch size -1, rope 1.0 1000000
Аноним 14/12/23 Чтв 19:23:07 #487 №573192 
>>573188
>с 4090
Она же сейчас только на проце пашет. По крайней мере я блас вообще отрубил от греха подальше.
Аноним 14/12/23 Чтв 19:29:31 #488 №573202 
1702571371059.png
>>573192
Ну я ничего не отрубал, все работает, я даже сгрузил туда слои. Может конечно игнорит, но генерит быстро достаточно. Правда очень долго processing prompt [BLAS] проходит в первый раз, пару минут в зависимости от контекста.
Аноним 14/12/23 Чтв 19:37:41 #489 №573211 
>>573174
А ну я еблан гружу всё в раму на проц без гпу и оно естественно в fp32 вгружается и никуда не влезет.

>>573188
>не качайте кванты ниже 5_K_M
>Although TheBloke has done initial experiments to achieve 4-bit and 8-bit quantization, the model quality degrades significantly.
Аноним 14/12/23 Чтв 19:40:06 #490 №573213 
>>573211
Не знаю, у меня на 5_K_M все норм. На форчке писали не нужно rope стоковый юзать.
Аноним 14/12/23 Чтв 19:55:42 #491 №573234 
>>573211
https://rentry.org/pzpwe
Вот рентри
Аноним 14/12/23 Чтв 20:34:47 #492 №573260 
https://github.com/ggerganov/llama.cpp/pull/4406#issuecomment-1855151885
Там ещё надо количество экспертов менять оказывается
Аноним 14/12/23 Чтв 20:35:43 #493 №573262 
1656440402832.png
>>573234
Я тут уже уебался и так.

Каким-то образом оно влезает без квантования в bf16 в 80гб врамы, но скорость кромешный пиздец, или что-то где-то не так у меня, или 0.5-0.7 t/s для фулл моделей без обмазывания квантами и прочим на А100 это норма. На чистой раме и 16 ядрах среднего зеона можно даже не пытаться крутить полную модель, там скорость уверенно стремится к нулю.
Аноним 14/12/23 Чтв 20:51:12 #494 №573268 
>>573262
>0.5-0.7 t/s на А100
Пиздец. Кто-то явно делает что-то не так.
Аноним 14/12/23 Чтв 20:57:28 #495 №573271 
>>573268
Подозреваю или что-то с виртуалкой и гпу не так, или с вебгуи и трансформерс. Впадлу уже ебаться дальше, дорого нахуй сидеть в говне копаться на виртуалке с A100/
Аноним 14/12/23 Чтв 21:05:39 #496 №573279 
>Mythalion-Kimiko-v2_Q5_1_8K.gguf

Тем временем вышла вторая версия лучшей 13В куум модели да еще и с 8к контекста.
Аноним 14/12/23 Чтв 21:18:29 #497 №573287 
>>573260
И такие предложения https://github.com/ggerganov/llama.cpp/issues/4470
Аноним 14/12/23 Чтв 21:22:00 #498 №573291 
>>573287
>Предложение с Min-P
>Не от каломаза
Удивительное рядом. Или чел стал шифроваться под личинами виртуалов?
Аноним 14/12/23 Чтв 23:05:07 #499 №573395 
>>573279
У меня давно вроде mythomax-l2-kimiko-v2-13b.Q5_K_M.gguf
Несколько месяцев как.
Или это другая?
Аноним 14/12/23 Чтв 23:06:47 #500 №573397 
>>573395
В глаза долблюсь, запостил и увидел.
Ну не думаю что она чем то отличается. Хотя конекст 8к.
Аноним 15/12/23 Птн 00:51:59 #501 №573478 
1.png
2.png
Чёт проигрываю с этого калечного говна от гугла. На вопросе про викингов сломался (наверно чтобы не обижать давно мёртвых то ли викингов, то ли монахов), зато Нерона мгновенно обелил абсолютно мемным ответом.
Аноним 15/12/23 Птн 01:30:27 #502 №573512 
>>573478
Если что, гемини не локальная сетка, так что лучше её осуждать в соответствующем треде: >>565763 (OP)
Аноним 15/12/23 Птн 01:51:03 #503 №573529 
>>573478
YES.png, лол

Покрутил этот микстраль на профессоре, при тупом запуске трансформерсом в лоб на торч-цпу отжирает совершенно неприличный объем рам на 128 без оптимизаций - без шансов. Только что работает относительно шустро на саму генерацию.
Если есть интерес - кидайте промты, по первым ощущениям в рм оче сомнительно.
Аноним 15/12/23 Птн 03:07:06 #504 №573569 
Че все так от микстраля обкончались?
Это ведь просто микс специалистов 7b.
Да, эта штука может быть хороша в некоторых задачах, но она все еще не обладает глубиной и пониманием больших сеток, что собственно и является минусом любых текущих 7b
Тупо ограничения архитектуры и количества слоев.
Вот если бы как то вычесть разницу из всех этих сеток и слепить в одну большую - было бы интересно
Аноним 15/12/23 Птн 06:10:45 #505 №573609 
ентот ваш микстраль хуйня соевая, там челики в форчановском /lmg/ с помощью "tree of big nigga" промтинг-техники вытащили всю сою этой модели наружу, но почему то стандартный alpaca инструкт фиксит это, почти :
Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
Аноним 15/12/23 Птн 06:10:46 #506 №573610 
>>573512
Все сетки локальные.
Аноним 15/12/23 Птн 10:01:48 #507 №573688 
ПЕРЕКАТ шапку в вики пока не доделали, поэтому так


>>573687 (OP)



>>573687 (OP)
comments powered by Disqus

Отзывы и предложения