Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №55 /llama/

Аноним 26/04/24 Птн 01:25:46 #1 №717999

Llama 1.png

Альфа от контекста.png

Деградация от квантования новая.png

Самый ебанутый охлад P40-6.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, наверняка он подгадил.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>714898 (OP)
>>712072 (OP)

Аноним 26/04/24 Птн 01:45:05 #2 №718008

>>717999 (OP)
Apple выпускает свое семейство мини-моделей OpenELM
https://www.computerra.ru/296465/apple-vypuskaet-svoe-semejstvo-mini-modelej-openelm/

Аноним 26/04/24 Птн 01:49:23 #3 №718010

>>718008
https://huggingface.co/apple/OpenELM

Аноним 26/04/24 Птн 02:02:13 #4 №718018

Я посмотрел на сайте Mistral AI - что-то вообще нет упоминаний о модели 70В. Только 7В и Микстрали. Они что, вообще решили отказаться от семидесятки или собираются её продавать?

Аноним 26/04/24 Птн 09:41:01 #5 №718027

>>717999 (OP)
Подскажите пожалуйста модельки которые могут в анализ пикчи.
Я тут только LLava и idefics2 нашел.
Второй так и не смог запустить.

Аноним 26/04/24 Птн 09:53:39 #6 №718036

>>718008
>мини-моделей
Да ёб ты нахуй.
>>718018
>Они что, вообще решили отказаться от семидесятки
Они никогда не заявляли её наличие. Усё, их купили, всё закрыто.
>>718027
Если нужно что-то серьёзное, то только закрытые. Остальное ты плюс минус перечислил.

Аноним 26/04/24 Птн 10:18:59 #7 №718056

>>717901 →
В IQ1 кванте, максимум IQ2.

>>717906 →
Запускаешь server.
Все.

>>717909 →
Нет.
Минорно и сутиативно.

>>717920 →
А вот это прикольно.
Все больше смыслов не писать свои обработчики, а юзать таверну.

———

Так, я че-то охуел.
Вы че хуйню советуете?
1. Берешь лламу.цпп там есть куча вариков запуска.
2. Пишешь на JS оформление запроса с промптом + посылание в лламу.цпп
3. Пишешь хтмл-чат.
Буквально все, там вообще найух не нужно ничего кроме голой лламы.цпп, в чем проблема вообще, я в ахуе.

Я даже вопроса не понял, потому что, ну… Вот.
Зачем придумывать велосипеды, я не уловил смысла.
https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md

>>717974 →
> Да даже банально им будет интересно окунуться в ллм если раньше не пробовали и начнут с использования.
Согласен. Никогда не считал себя гением, и если у слесаря-пенсионера хватает мозгов поднимать ллмки, то уж студенты как-нибудь разберутся. Щас бы JS-чат написать невмочь на готовом сервере.

>>717979 →
А кто вообще автор вопроса и что ему надо? А то тут все обсуждают, а я не уловил, откуда инфа про студентов-кумеров и отсутствие контекста. =D

>>718027
Тебе врут, их куча, но запустить ты сможешь только хуйню, живи с этим. =)
Есть CogAgent, пиздатый.
Есть че-то еще, но я забил даже на названия.
LLaVa-1.6 в принципе неплоха, стоит остановиться на ней, на самом деле. Все остальные старички типа Qwen-VL и прочих слабы, поэтому не стоят внимания.
ИМХО — или Ког, или Ллава-1.6, два варика.

Аноним 26/04/24 Птн 10:31:49 #8 №718066

>>717981 →
> так как системный промт будет общим
Оно будет оставаться в кэшэ т.к. все запросы начинаются одинаково, но это всеравно крохи. В случае нескольких бэков на малой нагрузке можно сделать привязку юзера к гпу в формате filo, тогда количество обработок чуть сократится, но это почти ситуация простоя оборудования.
Использовать кобольд да и жору в принципе для подобных задач, где обработка немаленького контекста может быть почти на каждый запрос - не оптимальное решение.
>>717988 →
Какое такое? Разборка латиносов всех гендеров и возрастов - норм, регулярные битвы китайских тоддеров и грузовиков со стабильным исходом - норм, извинения перед дедпулом - норм, еот треды - норм, а тут рофловая карточка - вах какой ужас? Главное, не пытайся представить какие мыслепреступления технически возможно совершить, в обморок упадешь.
Все это лицемерная хуета и попытки манипулировать, а все ради лоббистов-корпоратов, которым глубоко насрать на все то "хорошее", которое используют в качестве предлогов.
>>718056
> Вы че хуйню советуете?
> 1. Берешь лламу.цпп
На ноль поделил с порога
> кто вообще автор вопроса
>>717906 →

Аноним 26/04/24 Птн 11:52:54 #9 №718205

Здесь был чел который трейнил модели. Если ты тут, подскажи вот такую вещь: допустим в json в каждом примере (т.е. имею в виду объекты внутри { }), для простоты в форм. альпаки, длина каждой строки (инпут инстракт ...) пусть 4к, при трейне лоры ставишь обрезку например 2048. Так вот до этих 2048 будет обрезяться каждая строка внутри примера или же весь пример? т.е. длина куска относится к примеру в целом (как в случае с просто текстом) или к каждой строке? Если не сложно ответь, т.к. у мня возникли сомнения на это, хотя я думаю что относится к каждой строке. А вдруг не так.

Аноним 26/04/24 Птн 12:18:05 #10 №718229

>>717906 →
Есть движок от команды пигмы, который они используют для своего сайта. На нём же крутятся некоторые модели, раздаваемые через кобольд орду, по-моему. Заточен как раз на оптимизированную раздачу моделей для большого числа пользователей. По всей видимости, для большинства задач там используется апи кобольда, но точно утверждать не возьмусь, не разбирался с ним сам.
https://github.com/PygmalionAI/aphrodite-engine

Аноним 26/04/24 Птн 12:26:48 #11 №718239

> https://docs.google.com/spreadsheets/d/1O5KVQW1Hx5ZAkcg8AIRjbQLQzx2wVaLl0SqUu-ir9Fs/edit#gid=1158069878

Добавьте в шапку.

Аноним 26/04/24 Птн 12:32:06 #12 №718244

изображение.png

>>718239
Хуя, чьи-то влажные фантазии.

Аноним 26/04/24 Птн 12:32:46 #13 №718245

>>718235 →
Пятые же.

Аноним 26/04/24 Птн 12:41:12 #14 №718252

>>718229
> На нём же крутятся некоторые модели, раздаваемые через кобольд орду, по-моему
Не, емним это уже давно полноценный бэк, в котором они еще попыталсь gguf оптимизировать и в чем-то даже преуспели. Правда багов много заявляют.
Его потестить и в шапку уже добавлять, если норм окажется.
> апи кобольда
Операи-совместимый апи, сейчас это стандарт.

Аноним 26/04/24 Птн 12:44:48 #15 №718253

>>718239
интересные таблицы

Аноним 26/04/24 Птн 13:00:28 #16 №718255

К вам можно вкатиться и не поесть говна с 4 Гб врам и 16 ОЗУ? Сколько займёт обработка ответа у нейросети в таком случае? Понимаю, что зависит от настроек, но всё же хочется хотя бы примерно понять, есть ли смысл рвать жопу.

Из-за слабого английского очень сложно, поэтому не хочется потратить тонну времени и понять, что это всё было бессмысленно.

Также интересует, есть ли ультимативный гайд для долбоёбов, пусть и на английском, который как раз описывает установки, в том числе и на слабой видюхе ноут, но в диффузии через костыли генерил приличные картинки, хоть и не так быстро, как хотелось

Насколько я понимаю, можно повесить обработку одновременно и на процессор, и на видюху, и ещё оперативку зайдествовать?

Аноним 26/04/24 Птн 13:03:41 #17 №718257

изображение.png

>>718255
>есть ли ультимативный гайд для долбоёбов
Извинити что не так подписал.

Аноним 26/04/24 Птн 13:16:07 #18 №718268

>>718255
>вкатиться и не поесть говна с 4 Гб врам и 16 ОЗУ
Смотря что ты считаешь говном.
>Сколько займёт обработка ответа у нейросети в таком случае
Железо ты не назвал, но из предоставленной информации можно предположить что-то типа i5 с 4-6 ядрами и 1650 ti. Если предположение верно, то 7-8B будет работать со скоростью примерно 5Т/с, средний ответ 200-300 токенов, т.е., 40-60 секунд. Плюс обработка контекста с участием видимокарты ~10 Т/с, обрабатываться будет 1 раз в начале карточка (в среднем 1000 токенов, 100 секунд), потом только твои новые сообщения (в среднем 100 токенов, 10 секунд добавляй к тем 40-60, ну и после 10 секунд уже можешь начинать читать то, что нейросетка срёт в реальном времени).
>всё было бессмысленно
Зависит от твоих запросов. На мелких моделях мозгов особо нет, но для развлекательных (чатик, ролеплей) целей кое-как годятся.
>установки, в том числе и на слабой видюхе
Сколько влезет до упора (out of memory error) слоёв в видимокарту методом тыка. Если nvidia, ещё в видеодрайвере отключить своп из vram в обычную ram. Закрыть как можно больше посторонних приложений во время работы нейросетки.

Аноним 26/04/24 Птн 13:21:51 #19 №718270

>>718239
Нахуй нам эти влажные таблички свидетелей жпт? В соседний тред разве что добавлять, тут у нас тред локальных.

Аноним 26/04/24 Птн 13:24:16 #20 №718271

>>718268
>~10 Т/с,
40-50т/с, говорю как пользователь еще более старого говна 1050ти
сейчас контекст быстро считает, так что сообщение среднего размера -минута, пауза между сообщениями - минимальна

>>718255
Тебе повезло, ллама 3 8b как раз для тебя сойдет, она умна и болтает по русски
На видимокарту только выставляй 0 слоев, если кобальд предложит сколько то на нее перекинуть
Потому что скорей всего на таком маленьком объеме врам в 4 гб влезет только контекст займя все место.
Так что быстрее будет скорей всего без выгрузки слоев на видеокарту, но проверь может у тебя процессор картошка, и с выгрузкой именно у тебя будет быстрее

Аноним 26/04/24 Птн 13:42:34 #21 №718290

>>718271
>еще более старого говна 1050ти
И такое у него тоже может быть. И даже хуже, какое-нибудь днище из mx-серии с 64 битной шиной. Плюс порезанные tdp и частоты у мобильных видеокарт, плюс производитель мог сэкономить на охлаждении (и даже в таком виде будет троттлить) и разводке линий pci-e.
>40-50т/с
>сейчас контекст быстро считает
Ну если так, может быть и будет 40-50. А может 25. И слышал, что на cpu вроде там что-то ускорили в недавних патчах, чуть ли не в 2-4 раза. Хотя если у него какой-нибудь пень без avx где avx инструкции, покажи, ткни!!11, или core m с tdp в 5w, будет грустно.

Аноним 26/04/24 Птн 13:44:53 #22 №718293

>>718290
короче можно долго ванговать пока анон не раздуплится ттх своего ноута

Аноним 26/04/24 Птн 13:52:30 #23 №718300

>>718270
Ты таблицу читал? Там локалки перечислены, в том числе. В этом треде активнее всего следят за новыми моделями.

Аноним 26/04/24 Птн 14:06:56 #24 №718318

>>718300
Сделал бы автор фильтр на открытые веса...

Аноним 26/04/24 Птн 14:10:35 #25 №718326

>>718255
Качай ollama. Тут для каждой модельки нужен свой шаблон промпта, без которого нихера нормально модель не будет работать. Этот формат промпта разработчики не всегда указывают явно в описании модели. И вот новая модель выходит и начинается вой - а какой же шаблон взять. С ollama такой проблемы ты не увидишь, просто запускаешь модель одной командой и она работает.
ollama это бекэнд, еще нужно выбрать для него любой понравившийся фронтэнд.

Тут шизы могут ответить мне что они сами определяют формат промта и могут лучше настроить модель. Если ты любишь постоянно пробовать новые модели и ты не пердолик - это не твой путь.

Аноним 26/04/24 Птн 14:10:43 #26 №718327

>>718257
Как ни странно, я вроде бы разобрался. Это было проще, чем установка сд. Но, чувствую, настройки будут сложным делом.

>>718268
>>718271
У меня ноутбучная 3050 4 Гб, процессор рязань 5 5600Н. Поставил себе neural-chat-7b-v3-16k-q5_k_m.gguf, таверну и спиздил копипастом описание персонажа с джанитора аи. Пока что впечатления смешанные. Пишет не совсем как даун-аутист, но всё равно хреново, для качественного NSFW не годится, хотя это самое простое, что можно сделать, мне кажется, так как контекста не так много нужно. Хотелось бы какую-то приключенческую модель опробовать, но, чувствую, ПК не вывезет, так как надо будет безумно много контекста в моём случае или времени.

Какие настройки мне нужно выставить на ваш взгляд? Лоурам нужно ставить в кобольде? Слои сейчас потыкаю, там 0 было, насколько помню.

4.66T/s таки скорость.

>3 8b как раз для тебя сойдет

Ну, я в любом случае использую английский, даже через перводчик, потому что на русском всегда только треш видел.

А с телефона переписку проворачивать как-то можно? Особенно удалённо, не в рамках одной сети.

Аноним 26/04/24 Птн 14:15:59 #27 №718332

>>718327
>А с телефона переписку проворачивать как-то можно
Можно. Хостишь на компьютере не на локальном интерфейсе (127.0.0.1), а на внешнем.
>удалённо, не в рамках одной сети
Использовать vpn по прямому назначению.

Аноним 26/04/24 Птн 14:17:39 #28 №718333

>>718326
>любишь постоянно пробовать новые модели и ты не пердолик
На ноль поделил.

Аноним 26/04/24 Птн 14:19:30 #29 №718336

>>718327
Ты взял одну из соевых моделей, для ерп рп вобще не то
К тому же с выходом ллама3 она устарела, да и до нее тоже, были сетки получше
https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF?not-for-all-audiences=true
Вот ерп, по размеру сам выбирай, но не меньше 4 кванта, чем больше тем лучше но медленнее
Это тупо ерп модель, хоть в шапку ее сувай для кумеров

Аноним 26/04/24 Птн 14:21:59 #30 №718339

>>718336
>хоть в шапку ее сувай для кумеров
Там есть предок этой модели. Она лучше предка?

Аноним 26/04/24 Птн 14:24:58 #31 №718343

>>718339
Она сведет любой диалог к куму, так что она сетка специалист хорошая только в одном.
Предок универсал, топчик, до выхода ллама3
Но ллама3 с ограничениями, а Fimbulvetr их не имеет
Так что хоть Fimbulvetr v2 хоть моистрал может качать и спокойно пользоваться в любых сценариях.

Аноним 26/04/24 Птн 14:29:01 #32 №718345

>>718255
Качай пхы3 от майкрософт.

Аноним 26/04/24 Птн 14:34:05 #33 №718350

>>718205
Если ты думаешь, что я специалист и в чём-то разбираюсь, то ты глубоко заблуждаешься. Но насколько я знаю, это относится ко всему примеру в целом. Фактически в нейронку скармливается твой инстракт+инпут+отпут, как единый кусок текста и уже этот кусок нарезается на части определённого размера. Сама json разметка больше для трейнера, а нейронка обучается на цельном куске текста.

Аноним 26/04/24 Птн 14:42:54 #34 №718361

>>718205
в коде qlora, который я использую для обучения есть отдельные параметры обрезки input и output, по идее все форматы приводятся к одному типу: (input, output, инстракт вырезается), после чего каждое из них по отдельности разбивается на токены.

Аноним 26/04/24 Птн 14:44:41 #35 №718362

>>718300
> в том числе
Хули толку. Там половина нелокальных и галки публичных стоят у всяких жпт.

Аноним 26/04/24 Птн 15:01:10 #36 №718379

>>718362
У тебя от кума голова не соображает, иди подыши воздухом.

Аноним 26/04/24 Птн 15:18:33 #37 №718391

>>718255
Ну тут явно 7b/8b с русским что-нибудь, файнтьюны.
Сузуме для тестов, Мистральки какие-то.
Может 11b какие-нибудь могут.

Качай KoboldCPP, качай gguf файлы, загружай модель.
СиллиТаверн по желанию, если вкатишься в кобольд.

>>718271
> на таком маленьком объеме врам в 4 гб влезет только контекст
База. Модель будет большей частью в озу, конечно.

>>718290
А вы знаете, кто еще 4 гига имеет? GT710 =D
Ну и много других видях, да.

>>718327
> У меня ноутбучная 3050 4 Гб,
Пушка-гонка, братан!

> 7b-…-q5_k_m
> даун-аутист
Тут ты. =) Только q8 для 7b моделек. В критически крайнем случае q6. И то, желательно с imat, матрицами важности.
Но оффенс, но на пятом кванте малой модельки жизни и не может быть.

> 4.66T/s таки скорость.
Ну привыкай морально к поменьше.

> Ну, я в любом случае использую английский
А, тогда можно попробовать 11b модельки из шапки!
Fimbulvetr-10.7B-v1.q5_K_M.gguf
Вот эта и че тут еще насоветуют.

> А с телефона переписку проворачивать как-то можно? Особенно удалённо, не в рамках одной сети.
Как и любой другой софт. Запрос в брэндмауэре открыл, порты через роутер прокинул, айпишник зафиксировал, подрубаешься.
Ну или есть варианты через облако выводить, у некоторых фронтов есть настройка, не уточню.

>>718332
0.0.0.0 чтобы приложение слушали с внешней сети.

>>718336
Вот, тоже совет.
Но я бы брал не ниже 5, скорее.

>>718345
Че ж сразу не эппловскую советуешь, лол.

Аноним 26/04/24 Птн 15:19:28 #38 №718392

>>718379
Чел, он всё правильно написал. Публично доступная модель != локалка.

Аноним 26/04/24 Птн 15:24:37 #39 №718395

Анончики, подскажите где можно рерайт статьи сделать в онлайне? Статья на русском, больше публицистика чем наука.

Аноним 26/04/24 Птн 15:24:40 #40 №718396

>>718336
Очень странно. Специально читал какой-то кумерский гайд из шапки, она там была самой лучшей якобы.

Спасибо, завтра попробую. А то я удивился с соевых ответов, т. к. персонажа закинул доминантного-злого.

Если не лень, подскажи, как искать модели в плане того, что мне нужно с точки зрения сюжета, кума, стиля и так далее. С той же стабильной диффузией можно было оценить модель визуально и по пикчам в треде, на цивитаи, а тут хрен поймёшь. Да, у моделей есть характеристики, но они технические, а описание скупое. Не просто же ползать по бордам и читать отзывы или качать что попало.

Заодно, если знаешь, подскажи модель, которая позволит отыгрывать безумие в стиле вахи. Тотальная война, кровь, боль, расчленёнка, магия, современность, диалоги в этом антураже. А если она ещё может в художественное описание, красивое, то есть модель обучена на качественной литературе, то совсем отлично. А если может сама рассказ писать, пока я буду просто гейм-мастером, то вообще отвал башки И в данном случае время ответа для меня не слишком критично, т. к. это не кум и мне не лень ждать, если итог качественный. Только с настройками совсем непонятно будет, наверняка придётся в оперативку выгружать.

Аноним 26/04/24 Птн 15:32:12 #41 №718409

>>718343
Ну хз, я ее второй день тестирую и пока вижу, что она многозадачная вне рамок кума, причем изобретательная. Подходит для написания коротких рассказов, эссе и прочего на заданные темы.

Аноним 26/04/24 Птн 15:37:57 #42 №718421

>>718409
И еще она эрудированная. Вставляет в художественные тексты аллюзии и отсылки, которые подчас удивляют.

Аноним 26/04/24 Птн 15:41:44 #43 №718428

Какая из < 70В сеток лучше всего понимает инструкции и следует им?

Аноним 26/04/24 Птн 15:46:59 #44 №718436

>>718409
значит это 2 версия была перетренена на ерп, 3 вышла лучше и умнее как и написали не напиздев в итоге

Аноним 26/04/24 Птн 15:56:27 #45 №718446

>>718428
Command-r

Аноним 26/04/24 Птн 16:05:49 #46 №718457

70b llama 3 очень плохо умеет в русский, постоянно срывается на другие языки и несет околесицу. При чем когда я спрашиваю по коду, то отвечает нормально, а когда пытаюсь в ролеплей начинается пиздец. Это можно пофиксить промптами или базовая модель просто кал вне инглиша?

Аноним 26/04/24 Птн 16:06:49 #47 №718458

>>718457
Хорошо она умеет в русский, лучше коммандера. Наверняка ты с форматом промпта обосрался.

Аноним 26/04/24 Птн 16:08:48 #48 №718460

>>718458
Тот же промпт на английском исполняет идеально. Просто переведен на русский и с подписью "отвечать только на русском". Ща еще посмотрел, помогает снижение температуры, правда тогда она совсем в околоформальном стиле все выдает

Аноним 26/04/24 Птн 16:13:37 #49 №718467

>>718460
Ещё один осознал, что инглишь лучше везде и всегда.

Аноним 26/04/24 Птн 16:20:10 #50 №718477

>>718395
Гигачат, Алиса.

Аноним 26/04/24 Птн 16:21:04 #51 №718480

>>718467
При чем здесь лучше? Русский просто вообще никакой, неюзабельный

Аноним 26/04/24 Птн 16:50:09 #52 №718504

auudR7KD6AgDCxCk8Zm1100205647100mp4264hd.mp4

>>717999 (OP)

Tesla P40 с полноценным охлаждением сейчас стоит всего 21к вместе с доставкой в РФ.
https://aliexpress.ru/item/1005006155095429.html
Если кто хотел прикупить - вот отличный шанс!

Аноним 26/04/24 Птн 16:54:12 #53 №718507

изображение.png

>>718480
Ну говно и говно, что бурчать то?
Доение снизу вверх- новое слово в доении животных!

Аноним 26/04/24 Птн 16:55:13 #54 №718509

>>718504
Я вижу цену в 24300 + пошлина.

Аноним 26/04/24 Птн 16:55:52 #55 №718510

изображение.png

>>718504
Караул, обманывают!!

Аноним 26/04/24 Птн 17:00:50 #56 №718514

>>718504
>с полноценным охлаждением
А вытянет ли это охлаждение нагрев теслы?

Аноним 26/04/24 Птн 17:03:24 #57 №718517

>>718514
Его обычно срисовывают с 1080Ti, так что вроде должно. В любом случае оно лучше, чем серверная хуита под обдув 9000к оборотов в наносекунду.

Аноним 26/04/24 Птн 17:08:09 #58 №718521

https://qwenlm.github.io/blog/qwen1.5-110b/
Их там прорвало что ли? Каждый день новая модель. До NeurIPS вроде далеко.

Аноним 26/04/24 Птн 17:20:12 #59 №718533

Так что, эпплы и мелкомягкие сделали что-то годное или ллама лучше?

Аноним 26/04/24 Птн 17:23:13 #60 №718538

>>718533
Пока высрали только 3b модели. Хуйня без задач.

Аноним 26/04/24 Птн 17:32:27 #61 №718544

>>718521
Странно что с командиром+ не сравнивают. Или не странно, а просто бояться. Надо будет запустить, хотя для меня уже командир+ на пределе возможностей моего ПК, первые генерации в подкачку лезут.
>>718533
Эпл даже не трогал, у мелкомягких кусок сои вместо модели. Из мелких ллама на 8B выглядит достаточно мелкой, чтобы запускать на кофеварке, и достаточно умной, чтобы ебать всё, что меньше её.

Аноним 26/04/24 Птн 17:44:20 #62 №718554

изображение.png

>>718521
Ну ХЗ, видали и лучше.

Аноним 26/04/24 Птн 17:46:47 #63 №718556

>>718544
>Странно что с командиром+ не сравнивают. Или не странно, а просто бояться.
Так вижу, что если для 70В минимально приемлемым (при наличии возможностей) является Q4, то для сотки (100-120В) должно быть около Q3. iQ3_XXS как самый минимум.

Аноним 26/04/24 Птн 17:50:48 #64 №718560

Приветствую, аноны. Сижу качаю языковые модельки, балуюсь, узнаю, что от величины контекста увеличивается частота самоповторения и в общем наступаю на другие такие грабли. Узнаю для себя, что есть некий способ "проверёвить" модель с помощью некоего RoPE. Гуглинг рассказал мне в красочных математических подробностях что это за метод, но нигде я не нашел что его реализовывает и через что модель нужно прогнать, чтобы её "проверёвить".
Так вот вопрос: Что это все-таки такое? Я может быть что-то не понимаю. И как применить RoPE для расширения контекста модели?

Аноним 26/04/24 Птн 17:50:49 #65 №718561

Купил сегодня б/у 3090 за 50к. Запустил mlewd 20b, выгрузил все 63 слоя на видеокарту, а взял и съел у меня 20гб оперативы. Зачем?

Аноним 26/04/24 Птн 17:52:33 #66 №718563

>>718560
кобальт вики, там есть или тут в шапке

Аноним 26/04/24 Птн 17:54:56 #67 №718569

>>718561
>Зачем?
Вкусная.

Аноним 26/04/24 Птн 17:55:10 #68 №718570

>>718554
Can you help me solve this problem? A peasant needs to carry a crocodile, a monkey and a banana across the river. But the boat is such that it can only fit him and one other thing - either the crocodile, the monkey or the banana. If you leave the crocodile with the monkey, the crocodile will eat the monkey, and if you leave the monkey with the banana, the monkey will eat the banana. So how can the peasant carry all his cargo to the other side of the river?

This is a classic logic puzzle. Here's a step-by-step solution:

The peasant takes the monkey across the river first and leaves it on the other side. This ensures the monkey is safe from the crocodile and can't eat the banana.
Side 1 (Starting side): Crocodile, Banana
Side 2 (Other side): Peasant, Monkey
The peasant goes back to the original side with the boat and picks up the crocodile this time.
Side 1: Banana
Side 2: Peasant, Monkey, Crocodile
Now, before leaving the crocodile alone with the monkey, the peasant takes the monkey back across the river. This might seem counterintuitive but it's to ensure he can safely move the banana next.
Side 1: Crocodile, Banana, Monkey
Side 2: Peasant
The peasant immediately goes back and picks up the banana, since now the monkey is on the safe side and can't eat the banana.
Side 1: Crocodile, Monkey
Side 2: Peasant, Banana
Finally, the peasant takes the monkey across again without the banana, as the banana is already safely on the other side.
Side 1: Crocodile
Side 2: Peasant, Monkey, Banana
Now all three items, the crocodile, the monkey, and the banana, have been safely transported to the other side of the river without any of them being eaten.

Решение задачи совершенно правильное, но модель явно не понимает где, кто и почему.

Аноним 26/04/24 Птн 18:00:24 #69 №718580

>>718504
Но зачем, когда на Авито дешевле лежат?

Аноним 26/04/24 Птн 18:01:29 #70 №718583

Tesla P40 price.png

>>718509
>>718510
Хз, у меня 21200.

Аноним 26/04/24 Птн 18:03:49 #71 №718586

>>718580
На Avito нигде нет P40 с таким охуенным кулером.

Аноним 26/04/24 Птн 18:05:36 #72 №718590

>>718583
Дохуя покупаешь, золотой.

Аноним 26/04/24 Птн 18:05:50 #73 №718591

>>718586
> с таким охуенным кулером
За 1000р купи для 1080 Ti охлад и прилепи, он отлично встаёт на P40.

Аноним 26/04/24 Птн 18:06:02 #74 №718592

>>718580
>Но зачем, когда на Авито дешевле лежат?
Что там лежит - это ещё большой вопрос, но дело не в этом. За 21к с таким охладом я бы её взял. Проблему правда вижу - до 250 ватт тепла будут рассеиваться непосредственно в корпус. Одна такая карта конечно не проблема, но у меня не одна.

Аноним 26/04/24 Птн 18:34:25 #75 №718618

s-l1600.jpg

>>718591
>для 1080 Ti охлад
Ты про референсный с турбиной или что-то другое?

>он отлично встаёт на P40
Сам то пробовал? Там же вроде есть некоторые отличия в пазах.

Аноним 26/04/24 Птн 18:35:52 #76 №718620

1558208825677.png

>>718504
Ладно, возьму на попробовать к 4090. Но как-то надежды на этот кал не сильно много. В целом похуй даже если не взлетит.
>>718507
Я надеюсь у тебя нормальные кванты от бартовского, а не старый поломанный мусор, который выкатывали в день релиза?

Аноним 26/04/24 Птн 18:36:12 #77 №718621

>>718592
>Проблему правда вижу - до 250 ватт тепла будут рассеиваться непосредственно в корпус
Втыкай райзер, выноси карты наружу.

Аноним 26/04/24 Птн 18:39:56 #78 №718627

>>718618
> в пазах
В каких пазах? У всего поколения стандартизированное крепление, как минимум основные точки возле GPU. Места, прилегающие к питальникам на краю, возможно не подойдут, да оно и похуй, если не будешь в перевёрнутом положении ставить ничего не случится.

Аноним 26/04/24 Птн 18:41:09 #79 №718631

>>718620
>Я надеюсь у тебя нормальные кванты от бартовского
Конечно же нет, их не было, когда я качал. Впрочем так даже веселее.
Ладно, качну новый квант, хотя вряд ли он тут поможет.

Аноним 26/04/24 Птн 18:50:38 #80 №718648

>>718561
Параметр no-mmap в угабоге включи.

Аноним 26/04/24 Птн 18:53:39 #81 №718653

>>718620
> нормальные кванты от бартовского,
Спроси 3333+777 у этого кванта, какой ответ выдает?

Аноним 26/04/24 Птн 19:00:48 #82 №718667

>>718620
>Ладно, возьму на попробовать к 4090.
Не забудь сделать обзор, как приедет. А то ни одного отзыва. Первым всегда тяжело(с)
>Но как-то надежды на этот кал не сильно много.
Не, тема хорошая. 70В пощупать за вымя - с чувством, с толком, с расстановкой - это приятно :)

Аноним 26/04/24 Птн 19:01:17 #83 №718669

изображение.png

>>718653
>3333+777
Лил. Пойду обратно старые доставать.

Аноним 26/04/24 Птн 19:03:34 #84 №718676

>>718669
https://github.com/ggerganov/llama.cpp/issues/6914
Вот этот баг.

Аноним 26/04/24 Птн 19:03:37 #85 №718677

>>718010
>Trained on publicly available datasets, these models are made available without any safety guarantees.
Обученные на общедоступных массивах данных, эти модели предоставляются без каких-либо гарантий безопасности.
>Consequently, there exists the possibility of these models producing outputs that are inaccurate, harmful, biased, or objectionable in response to user prompts.
Следовательно, существует вероятность того, что в ответ на запросы пользователей эти модели выдадут неточные, вредные, предвзятые или неприемлемые результаты.
и это модели от эпл, нежданчик конкретный конечно же

Аноним 26/04/24 Птн 19:04:35 #86 №718680

transforming-llms-into-parallel-decoders-boosts-inference-v0-94x1744lsswc1.webp

https://www.reddit.com/r/LocalLLaMA/comments/1cdn9zd/transforming_llms_into_parallel_decoders_boosts/

transforming LLMs into parallel decoders boosts inference speed by up to 3.5x

Hey all! We are here to share our latest work: consistency large language models (CLLMs), which is a new family of models capable of reducing inference latency by efficiently decoding n tokens in parallel. Your new friends for LLM serving/local deployment with faster inference speed!

Compared with existing fast decoding techniques, CLLMs achieve fast parallel decoding without the need for:
• Draft models
• Architectural modifications/auxiliary model components

This introduces a number of advantages for CLLMs:
• CLLMs don't have to deal with the complexity of obtaining 'good' draft models and managing two different models in a single system.
• CLLMs share the same architecture with target LLMs and require no additional engineering efforts when adopting the technique to different models.
• CLLMs can be integrated seamlessly with other techniques for efficient LLM inference (e.g. Lookahead Decoding) to achieve even more significant speedup.

This decoding method CLLMs use is called Jacobi decoding, which improves inference efficiency in comparison with conventional auto-regressive decoding. CLLMs are trained with the objective of performing efficient Jacobi decoding by mapping any randomly initialized n-token sequence to the same result as AR decoding in as few steps as possible.

Experiment results have demonstrated the effectiveness of CLLMs, showing 2.4× to 3.4× improvements in generation speed on a variety of tasks.

Аноним 26/04/24 Птн 19:05:05 #87 №718682

изображение.png

>>718676
Да, ослабил семплеры, и скатился в пример из бага. Считает правильно, но не тот пример. Пойду читать баг дальше.

Аноним 26/04/24 Птн 19:05:30 #88 №718685

1692213420679.png

>>718653
У тебя точно что-то не так напердолено.

Аноним 26/04/24 Птн 19:05:53 #89 №718686

>>718676
>Оба используют архитектуру LLaMA, оба используют токенизатор BPE, и поэтому в настоящее время они будут интерпретироваться llama.cpp как один и тот же арч.
>Однако они используют разные пре-токенизаторы
там всё плохо
https://github.com/ggerganov/llama.cpp/pull/6920#discussion_r1581043122

Аноним 26/04/24 Птн 19:08:03 #90 №718691

>>718677
>и это модели от эпл, нежданчик конкретный конечно же
В целом, там типовая юридическая хуйня, чтобы прикрыть свою жопу - "мы не несём никакой ответственности за возможные последствия". Это особенно актуально в странах уровня США, где по каждому чиху против тебя могут подать судебный иск.

Аноним 26/04/24 Птн 19:11:19 #91 №718699

>>718686
>So maybe we have to start parsing this information from the tokenizer.json
Прошёл год, и тут герганов догадался, что его грязные хаки приводят к промблемам. ЛЛЛОООЛЛЛЛ. Я знал, что жора поднасрал! >>717999 (OP)
>ждём исправлений по части квантования от жоры, наверняка он подгадил

Аноним 26/04/24 Птн 19:15:09 #92 №718711

изображение.png

>>718699
>и тут герганов догадался
Ан нет, показалось, идём на костылях дальше. В коммерческих проектах за такие подходы по пальцам линейкой пиздят.

Аноним 26/04/24 Птн 19:18:28 #93 №718716

Как запустить ебучую llama3 на ебучей угебуге?

какая то ебля с <|eot_id|> должна быть но я нихуя не смог

Аноним 26/04/24 Птн 19:18:48 #94 №718717

У меня вобще отказывается продолжать ответ, иногда высирая что то в попытках ответить, но обычно просто сбрасывает генерацию стоп токеном

Аноним 26/04/24 Птн 19:19:09 #95 №718718

>>718686
>>718676

Пиздец, какой же жорик говнокодер...
Пойду exl2 квант качать.

Аноним 26/04/24 Птн 19:19:54 #96 №718720

>>718716

Какую именно? Что ты скачал?

Аноним 26/04/24 Птн 19:19:56 #97 №718721

>>718711
Короче пока не пофиксят вот это, все лламы 3 официально сломаны на корню, так как тут сломано объединение \n\n в один токен, а этот токен из базового темплейта, так что это полный пиздец для модели, минус половина IQ на ровном месте.
https://github.com/ggerganov/llama.cpp/issues/6809

Аноним 26/04/24 Птн 19:20:41 #98 №718722

>>718350
Благодарю! значит я думал неправильно. Ну теперь буду знать.

>>718361
Если инстракт вырезается и при этом инпут пустой, например такие датасеты бывают из визардоподобных. У альпаки также допустим пустой инпут. Как в этом случае происходит?

Аноним 26/04/24 Птн 19:21:23 #99 №718723

>>718720
https://huggingface.co/Muhammad2003/Llama3-8B-OpenHermes-DPO

Аноним 26/04/24 Птн 19:23:37 #100 №718724

>>718721
ну, там герганыч уже мутит что-то
https://github.com/ggerganov/llama.cpp/pull/6920/commits/9b4d63ae53055c03f22649e88811c39f22c33532

Аноним 26/04/24 Птн 19:24:24 #101 №718726

image.png

>>718717
А бля это я инструкт режим не врубил, с ним отвечает но все равно неправильно

>>718721
зато понятно почему есть такое отличие между онлайн версией и на руках

Аноним 26/04/24 Птн 19:25:19 #102 №718727

>>718723

Ты файнтьюн скачал, нахуя? Еще и без квантования. Ладно, квантование у жорика сейчас сломано, но есть еще exl2.
Ладно, можно и эту залупу запустить на трансформерах, только скорость будет такая себе.
Сколько видеопамяти?

Аноним 26/04/24 Птн 19:27:05 #103 №718728

>>718724
Да, я написал, что костылинг >>718711
По сути он предлагает хардкодить несколько вариантов и выбирать их при конвертации в гуф в зависимости от того, что выведет оригинальный токенизатор. То есть если в строке для примера нет символов, которые иначе обрабатываются разными токенизаторами, то гергановский код не найдёт отличий и пришьёт стандартный токенизатор.
Переведите плиз это на инглишь, у меня с ним плохо, да укажите на очевидный проёб. Я тупой слишком.

Аноним 26/04/24 Птн 19:27:16 #104 №718729

>>718721
>все лламы 3

Не все.
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-4.0-bpw-exl2
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-5.0-bpw-exl2
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-6.0-bpw-exl2
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-8.0-bpw-exl2

Аноним 26/04/24 Птн 19:30:28 #105 №718730

>>718729
Хули толку мне от экселя, когда у меня 12 врама и желание запускать 70B. На дрочь в стиле "Да эта 8B ебёт все 70B" внимания по привычке не обращаю.

Аноним 26/04/24 Птн 19:34:27 #106 №718731

какая ллама3 проблемная, 2 раз перекачивать а может и третий

Аноним 26/04/24 Птн 19:36:23 #107 №718733

>>718727
прости я не очень умный и плохо разбираюсь во всем этом, ты не мог бы объяснить пожалуйста что ты сказазл

Аноним 26/04/24 Птн 19:37:11 #108 №718734

>>718731
Вангую, сейчас поищут, и найдут застарелые баги с первых версий, где всё было сломано. Всё кроме первой лламы по сути под ударом, лол.

Аноним 26/04/24 Птн 19:37:37 #109 №718735

>>718727
ой прости, я GGUF версию качал, ошибся в ссылке

Аноним 26/04/24 Птн 19:37:48 #110 №718736

15418810118330.png

>>718731
>какая ллама3 проблемная

Все, кроме >>718729 и оригинальных весов

Аноним 26/04/24 Птн 19:38:26 #111 №718738

>>718734
по ходу так и есть.
и это может объяснить почему модели очень часто игнорят инструкции и описание в ST.

Аноним 26/04/24 Птн 19:39:23 #112 №718739

>>718733

Видеопамяти у тебя сколько сколько?

Аноним 26/04/24 Птн 19:39:40 #113 №718740

изображение.png

>>718729
Срут ассистентами, лол.

Аноним 26/04/24 Птн 19:40:00 #114 №718741

>>718739
16 Gb

Аноним 26/04/24 Птн 19:40:36 #115 №718743

>>718740

С какими настройками?

Аноним 26/04/24 Птн 19:43:11 #116 №718746

изображение.png

>>718743
Везде ллама 3 инструкт из новой таверны, семплеры на отъебись Min P 0,05 и Frequency Penalty 0,3, остальное отключено. У тебя ассистентов нету?

Аноним 26/04/24 Птн 19:43:16 #117 №718747

>>718722
существует множество датасетов, к примеру у альпаки инстракт и инпут всегда склеиваются в одну строку, после чего поле инстракт вырезается, на выходе всегда получаются только input и output данные, которые обрезаются в соответствии с параметрами. затем это все склеивается и разбивается на токены. причем, насколько я могу судить обучение проходит только на output токенах, а input токены скрываются и служат только инстрактом. в qlora есть отдельная опция, чтобы включать обучение и на инпут данных.

Аноним 26/04/24 Птн 19:44:22 #118 №718749

image.png

>>718741

Вот так запускай

Аноним 26/04/24 Птн 19:47:52 #119 №718751

>>718746

А я пока качаю, подожди. Но вангую что говноед на квантователе правленые конфиги не прикрепил, к счастью от высера Жоры где только переквантовывать и никак иначе - тут это правится в блокноте. Сейчас докачаю, затестирую и выложу фикс если моя догадка верна.

Аноним 26/04/24 Птн 19:47:58 #120 №718753

Продал Арк на 8 памяти купил на 16. Какую модель посоветуйте для рп не порнуха, анончики?

Аноним 26/04/24 Птн 19:49:58 #121 №718754

>>718747
>input и output данные
чтобы не запутать: так происходит для каждого семпла в датасете, а далее после всех манипуляций оно, возможно, склеивается в батч и отдается на трейн.

Аноним 26/04/24 Птн 19:51:43 #122 №718755

>>718753
>продал одну тыкву и купил тывку чуть побольше
Ты как так умудрился то? Мог бы спросить сначала в треде.

Аноним 26/04/24 Птн 19:52:30 #123 №718757

15559592477550.png

>>718753

Llama3.

Аноним 26/04/24 Птн 19:52:58 #124 №718758

>>718755
Мне эта тыква нравится вне зависимости от того буду я нейронить или нет

Аноним 26/04/24 Птн 19:54:17 #125 №718759

изображение.png

Мета пидоры, в репу доступ не дают.

Аноним 26/04/24 Птн 19:57:51 #126 №718762

>>718759
Двачую.

Аноним 26/04/24 Птн 19:58:02 #127 №718764

>>718759

https://huggingface.co/NousResearch/Meta-Llama-3-8B

Аноним 26/04/24 Птн 19:58:31 #128 №718766

>>718757
Ну ни смишно...

Аноним 26/04/24 Птн 20:00:00 #129 №718768

>>717999 (OP)
Прошу прощения за платиновый вопрос, но какие модельки хороши для кодинга, чтобы умели прям в структуру кода и чтобы у меня была возможность всю простыню кода умещать в контекст? Хотелось бы более менее подробное описание вашего опыта.

Аноним 26/04/24 Птн 20:00:12 #130 №718769

image.png

>>718740
В exui всё норм.

Аноним 26/04/24 Птн 20:01:55 #131 №718772

giphy.gif

>>717980 →
>квантование напрочь убивает способности модели.
>Сетка на 8 кванте буквально отрастила 0.3 iq.

Аноним 26/04/24 Птн 20:03:35 #132 №718775

>>718746

Пока у меня качается попробуй

В config.json
"eos_token_id": 128001 --> "eos_token_id": 128009

tokenizer_config.json
"eos_token": "<|end_of_text|>" --> "eos_token": "<|eot_id|>"

Аноним 26/04/24 Птн 20:04:49 #133 №718778

>>718762
Тоже написал, что ты из института Cumming research? И что им в этом институте не нравится...
>>718764
А это вообще законно? Надо будет пожаловаться.
>>718769
Там шаблон не торт, модель в других местах по тупеет.

Аноним 26/04/24 Птн 20:05:12 #134 №718780

>>718768
codeqwen

Аноним 26/04/24 Птн 20:06:28 #135 №718782

изображение.png

>>718775
Типа помогло.

Аноним 26/04/24 Птн 20:07:48 #136 №718784

>>718772

У них тест сломан, викитекст на 16 и 8 битах выдает 6.1, ебануться, у меня 5.49 выдавал.
Наверное с ассистентами замеряли.

Аноним 26/04/24 Птн 20:08:17 #137 №718786

>>718768
>чтобы умели прям в структуру кода
Не уверен, что ты под этим подразумеваешь, но, скорее всего, нейросетки тебя разочаруют. Пробуй 70+B.
>описание вашего опыта
~7B - "умный" автокомплит
~30B - туповатый вкатун после курсов

Аноним 26/04/24 Птн 20:09:40 #138 №718789

>>718782

Ну конечно помогло, Цукерберг выложил ломанные конфиги, которые пофиксили этой правкой в тот же день, но говноеды до сих пор неправленные используют.

Аноним 26/04/24 Птн 20:24:52 #139 №718815

>>718786
Спасибо, понял. Командира пробовал?

Аноним 26/04/24 Птн 20:38:30 #140 №718829

>>718768
Нет таких. ~300-500 строк кода и начинают шизить.

Аноним 26/04/24 Птн 20:44:02 #141 №718834

image.png

>>718782

Пиздец, а вот мне самому не помогло, выдает вот такую тарабарщину.

Аноним 26/04/24 Птн 20:45:25 #142 №718838

Я вообще в шоке с этих двачеров. Реально ёбнутый народ. Пол года назад писал про фарадей. Уже год как он существует. Но нет в шапке в пункте "для ретардов" до сих пор торчит унылый кобольд, который тру-ретард хуй запустит. А сообщения от тугодумов так и продолжают литься... ОБРАЩАЮСЬ К ДОЛБАЁБАМ! КАЧАЙТЕ ФАРАДЕЙ И НЕ СЛУШАЙТЕ УМНЫХ ДЯДЕЙ С ТРЕДА!!! СКАЧАЛ-ЗАПУСТИЛ-ПИЗДИ И ЕБИ КОГО ХОЧЕШЬ! 0 НАСТРОЕК Так же эта программа даст тебе более менее базовые знание по текстовым нейронкам если ты вообще дуб.

Аноним 26/04/24 Птн 20:45:43 #143 №718839

>>718834
Кто там говорил, что экслламы не ломаются?

Аноним 26/04/24 Птн 20:46:44 #144 №718840

>>718838
>0 НАСТРОЕК
>эта программа даст тебе более менее базовые знание
Lol, базовое знание, как двигать мышкой?

Аноним 26/04/24 Птн 20:49:14 #145 №718845

изображение.png

>>718838
>фарадей
Их пидорский сайт тормозит на моём файрфокс на конфиге, на котором можно на марс слетать. В пизду их.

Аноним 26/04/24 Птн 20:53:04 #146 №718855

1636137592680.png

1641368018136.png

>>718768
Wavecoder можешь взять, вот пикрилейтеды калькуляторов от него на расте и крестах, с первого раза написал компилирующийся и работающий код. С правками существующего кода в целом хорошо справляется, контекст какой хочешь будет по длине, continue ещё и может из базы/гита/документации/гугла дёргать контекст.

Аноним 26/04/24 Птн 20:56:41 #147 №718862

image.png

>>718726
пикрил
1. Дефолтная ллама3-8б-ггуф (q8_0).
2. Промпт моего дефолтное помощника, вообще без этих ваших промптов с еотами.
3. На русском.
4. С первого раза.
¯\_(ツ)_/¯

Аноним 26/04/24 Птн 21:00:44 #148 №718870

>>718855
Раст код не очень.

Аноним 26/04/24 Птн 21:01:17 #149 №718871

>>718768
CodeQwen, вестимо, неплохой вариант.

>>718838
ПОДДЕРЖИВАЮ
ДОЛБАЕБЫ, КАЧАЙТЕ ФАРАДЕЙ
И ВООБЩЕ ПИЗДУЙТЕ ИЗ ТРЕДА, СОЗДАВАЙТЕ СВОЙ ТРЕД ДОЛБОЕБОВ
ДОБРА!!!

>>718862
Забыл сказать, семплеры спиздил из этого треда, может это пороляло.
Эксллама отвечает кривее, кстати, но возможно дело в старом кванте бывшей, я не перекачивал ее прост.
А ггуф из последних.

Аноним 26/04/24 Птн 21:14:15 #150 №718889

>>718870
Понятное дело что не очень. Но написать собирающийся кусок кода для локальных сеток пол года назад было невыполнимой задачей.

Аноним 26/04/24 Птн 21:31:37 #151 №718912

firefox1xuZVcJSBu.png

жоржич чёт намутил, интересно
https://github.com/ggerganov/llama.cpp/pull/6920#discussion_r1581262230

Аноним 26/04/24 Птн 21:36:14 #152 №718917

>>718912
Ебать ты тормоз, уже осудили код >>718724

Аноним 26/04/24 Птн 21:38:14 #153 №718919

firefoxGkTkavkHPi.png

>>718917
да затупил, промотай, там ниже есть

Аноним 26/04/24 Птн 21:42:17 #154 №718922

изображение.png

>>718919
Ебало кодеров с дипсиком представили?

Аноним 26/04/24 Птн 21:45:31 #155 №718927

>>718922
Может быть, после этого поумнеет хоть немного.

Аноним 26/04/24 Птн 21:54:50 #156 №718946

>>718839

Покажи настройки семплера

Аноним 26/04/24 Птн 22:09:18 #157 №718965

image.png

Спасибо, покумил.
А вот на ггуфе ллама3 не триггерится.

Аноним 26/04/24 Птн 22:26:24 #158 №718979

>>718965
пуританы ебучие, какая же тряска у них пиздец, но в то же время они не против обучения ллм-ки на какой нибудь гендерной хуйне для несовершеннолетних или исключительно положительная инфа по байдену с демократией

Аноним 26/04/24 Птн 22:49:13 #159 №719010

Чет в ИИ какой-то застой после выхода лламы 3. Заметили?

Аноним 26/04/24 Птн 22:51:16 #160 №719011

>>719010
А до выхода было как-то иначе? Там вообще ни одна моделька младше 30+В не работала. Ллама хотя бы часть инструкций слушается.

Аноним 26/04/24 Птн 22:52:58 #161 №719012

>>719010
Да, ужас, базовые модели выходят всего лишь через день. Это вам не по 5 шизомержей каждый день!

Аноним 26/04/24 Птн 22:54:41 #162 №719014

>>719010
Нет, вышла фи-3 и опенелм, так что шутка даже не удалась.

Аноним 26/04/24 Птн 22:55:13 #163 №719015

aaa.jpg

>>719010
>когда не скачивал новую модель целую неделю

Аноним 26/04/24 Птн 22:59:46 #164 №719017

>>719014
>Какой-то микрокал

Аноним 26/04/24 Птн 23:03:48 #165 №719019

изображение.png

>>719015
Меняй на 400, модели со 100B уже подзаебали.

Аноним 26/04/24 Птн 23:27:43 #166 №719054

изображение.png

Да почему Пахома так разъебывает, когда собеседник уходит.

Аноним 26/04/24 Птн 23:33:31 #167 №719057

>>719054

Поделись карточкой Пахома, плиз

Аноним 26/04/24 Птн 23:52:39 #168 №719074

изображение.png

>>719057
Карточка и настройки:
https://jumpshare.com/s/XKABwTfVUYwjI3a1JS3G
https://jumpshare.com/s/z0L7LFheo7m2Ns4r498Q

Вообще не очень похоже на Пахома получается, но я все равно проигрываю с его ответов.

Аноним 27/04/24 Суб 00:24:34 #169 №719105

Не знаю точно ли от этого зависит, потому что мало еще тестировал, но лишний перенос в префиксе или суффиксе в ~8б может сеть заставить через несколько диалогов ввести в бесконечный вывод промта. Так что с этим надо быть очень внимательным.

Аноним 27/04/24 Суб 00:25:08 #170 №719107

>>719054
Это у тебя ллама-8В так круто отыгрывает?

Аноним 27/04/24 Суб 00:28:11 #171 №719112

>>719107
Нет, это command-r-v01-imat-Q5_K_M

Аноним 27/04/24 Суб 00:35:07 #172 №719115

>>719112
А серафину тоже командир играет?

Аноним 27/04/24 Суб 00:43:41 #173 №719122

>>718747
>обучение проходит только на output токенах
Предположим, что инстракт это А. Оутпут, соотвественно, Б. Если обучать только на оутпуте, то как нейросеть узнает, что после А следует Б?
>input токены скрываются и служат только инстрактом
Потому что во множестве датасетов инпут типовой. You are helpful son of a bitch. Вполне возможно, что в твоём коде инпут просто токенизируется один раз и потом переиспользуются. В случае трейна на рп датасете получится хуйня. Как и если вырезать инпут полностью.

Аноним 27/04/24 Суб 00:49:55 #174 №719128

>>719115
Да.

Аноним 27/04/24 Суб 01:05:18 #175 №719137

multimodal-llama-3-bunny-llama-3-8b-v-beats-llava-v1-6-v0-oplk2wkgaqwc1.webp

>>717999 (OP)
https://www.reddit.com/r/LocalLLaMA/comments/1cdb2is/multimodal_llama3_bunnyllama38bv_beats_llavav16/

multimodal Llama-3! Bunny-Llama-3-8B-V beats LLaVA-v1.6

The first Multimodal Large Language Model (MLLM) based on Llama-3! Bunny-Llama-3-8B-V has been officially launched, surpassing a variety of models such as LLaVA-7B, LLaVA-13B, and Mini-Gemini-13B. It performs well on multiple mainstream benchmarks, demonstrating superior recognition, mathematical, and reasoning capabilities.

Bunny homepage: https://github.com/BAAI-DCAI/Bunny

Bunny-Llama-3-8B-V: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V

demo: https://2e09fec5116a0ba343.gradio.live (may expire, get the new link from our homepage)

The Bunny model adopts the classic Encoder+Projector+LLM architecture, providing a compositional framework. It supports various Vision Encoders such as EVA CLIP, SigLIP, and multiple LLM Backbones including Llama-3-8B, Phi-1.5, StableLM-2, Qwen1.5, MiniCPM and Phi-2. The flexible architecture design facilitates users to conduct various research based on Bunny.

Аноним 27/04/24 Суб 01:07:57 #176 №719139

>>719137
Похуй если в русик не может как та китайская залупа до этого

Аноним 27/04/24 Суб 01:13:40 #177 №719142

>>719139
Бля, ну пизидиь на русском крайне нихуево на самом деле, но русский текст на пикче прочитать не может

Аноним 27/04/24 Суб 01:15:30 #178 №719143

>>719137
если это то что я читал утром то там проектор хуевый, не как у ллава 1.6, а как у ллава 1.5
разрешение меньше сетка выезжает чисто за счет мозгов основы

Аноним 27/04/24 Суб 01:50:58 #179 №719160

>>718620
> Но как-то надежды на этот кал не сильно много.
А зачем тогда берешь? Ууу мажор ебаный мог бы 3090 взять
>>718680
Довольно интересная штука. Но, только не до конца понял, это выходит только для гриди энкодинга?
>>718721
О, дней с поломанного ггуф -> 0
>>718729
Oh you~
>>718775
О, красава, надо будет с инструкт попробовать.

Аноним 27/04/24 Суб 01:52:13 #180 №719161

IMG2900.jpg

пиздец

Аноним 27/04/24 Суб 01:53:01 #181 №719162

Аноны, хочу вкатиться в локал АИ, разбираюсь с кобальдом в первый раз.

Какую модель скачать, если я хочу спайси чат, у меня 1080 TI 12 GB, 32 оперативы, общаться буду на английском?

Ту, что в шапке, или для моих целей есть лучше?

Аноним 27/04/24 Суб 01:53:59 #182 №719163

>>719162
Качай из шапки. Скоро тряска с 3й лламой разрешится - скачаешь ее и будешь радоваться.

Аноним 27/04/24 Суб 01:57:13 #183 №719164

>>719161
Q4 мастер раса

Аноним 27/04/24 Суб 01:59:18 #184 №719166

>>719161
Чтоэта?

Аноним 27/04/24 Суб 02:01:31 #185 №719167

>>719163
А вот такая штука не будет апдейтом над той, что из шапки?

https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF

Или это для другого?

Аноним 27/04/24 Суб 02:03:24 #186 №719168

>>719164
блять реально, вот у меня есть Q8 этой лламы https://huggingface.co/Orenguteng/Llama-3-8B-Lexi-Uncensored-GGUF/tree/main
только что закачал Q4_K_M, ответы как будто стали точнее, но модель вместо большей креативности теперь шизит на 0.7 температуре, потому убавил на 0.59, походу вся llama.cpp люто поломана и только некоторые кванты "успешны".

Аноним 27/04/24 Суб 02:08:32 #187 №719170

Снова я >>719162

Аноны, кобольд не запускается. Просто ничего не происходит, когда жму exe шник. Вообще ничего. Никаких окон не открывается.

Погуглил, такой проблемы нет у людей. Может кто сталкивался?

Аноним 27/04/24 Суб 02:10:37 #188 №719172

>>719167
Хз, наверно, попробуй
>>719170
Запусти терминал/командную строку и вызови из нее. Прочти код ошибки что там напишет и сам загугли, если не справишься - тогда пости сюда.

Аноним 27/04/24 Суб 02:36:28 #189 №719183

>>719172
Спасибо, получилось. Поставил силли таверн, застрял между вот этими шагами:

>2. Запускаем всё добро
>3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001

Я жму иконку вилки, и он предлагает подключатся хуй знает куда, дает какието модели выбрать, хотя у меня всего 1, спрашивает API ключи, что то не пойму как сказать ему, что бы подключался локально к моей штуке.

Аноним 27/04/24 Суб 02:42:42 #190 №719186

>>719183
Скрин покажи вкладки что там у тебя, скорее всего выбрал неверный формат api и стучишься к впопенам.

Аноним 27/04/24 Суб 03:05:57 #191 №719195

Это вообще норма, что иногда сеть сама себе задает инструкцию и отвечает на нее же и так до бесконечности? Не появляется стоптокен почему-то.

Аноним 27/04/24 Суб 03:07:34 #192 №719196

>>719195
Ллама 3?

Аноним 27/04/24 Суб 03:08:30 #193 №719197

>>719196
не wavecoder-ultra-6.7b-Q5_K_M.gguf

Аноним 27/04/24 Суб 03:10:35 #194 №719198

>>719196
Но я на русском к ней обращаюсь. Может в этом проблема.

Аноним 27/04/24 Суб 03:12:52 #195 №719201

>>719195
Это один из вариантов поломки, если бывает редко то просто забей и свайпни.
>>719198
Частично.

Аноним 27/04/24 Суб 03:17:57 #196 №719204

Потыкал квен 8b, чет говно какое-то. Мне лама 3 базовая лучше респонсы выдает

Аноним 27/04/24 Суб 04:15:27 #197 №719221

Аноны, как то сильно наебнулся кобольд, перезагружаться надо было, теперь не могу запустить его в работу, все время останавливается на такой строчке в консоли:

>llm_load_tensors: ggml ctx size = 0.51 MiB

Дальше ничего просто не происходит, никаких ошибок, апдейтов, просто он не запускается дальше. В чем может быть дело, как исправить?

Аноним 27/04/24 Суб 04:16:17 #198 №719222

>>719221
Конфиг, параметры, модель, цвет потолка?

Аноним 27/04/24 Суб 04:26:27 #199 №719232

>>719221
диск проверь.

Аноним 27/04/24 Суб 05:19:10 #200 №719258

Сегодня узнал что в таверне есть всртроенная поддержка openrouter и понял зачем там нужны бесплатные модели вообще. С моей немощной пекой охуенно вообще, если вам не важно что какой-то дядя читается ваши извращенные сообщения по склонению к сексу код-ассистента, то вообще же топ. Не понимаю почему они дают это бесплатно юзать

Аноним 27/04/24 Суб 05:20:50 #201 №719259

IMG1384.jpeg

С коллабом беда какая-то случилась.

Аноним 27/04/24 Суб 06:21:46 #202 №719271

>>719112
>imat
Зачем ты его взял для русского? Они же его калибруют для английского.

Аноним 27/04/24 Суб 06:24:10 #203 №719273

>>719137
>The first Multimodal Large Language Model (MLLM) based on Llama-3
А это тогда что?
https://huggingface.co/xtuner/llava-llama-3-8b-v1_1

Аноним 27/04/24 Суб 06:57:08 #204 №719284

Есть две карточки на 24 и на 12 в одном пк, как в кобольд спп загрузить модель так, чтобы сначала заполнялись 12, а потом 24, но при этом 24 считалась первой, чтобы контекст хранился только в ней?

Аноним 27/04/24 Суб 06:58:46 #205 №719285

>>719284
Ответ "Никак" устроит?

Аноним 27/04/24 Суб 07:01:39 #206 №719286

>>719285
Да, но будет обидно

Аноним 27/04/24 Суб 07:05:26 #207 №719289

изображение.png

>>719286
Тогда настраивай тензор сплит вручную. Карту на 24 ставишь везде первой, а заполняться в любом случае будут обе, разве что если ты не выделишь при сплите первой 0% (не уверен, что прокатит).
А откуда вообще желание разгрузить 24 гиговую?

Аноним 27/04/24 Суб 07:08:28 #208 №719291

>>719289
Потому что я слышал, что контекст не может быть разделён между несколькими карточками.

Аноним 27/04/24 Суб 07:21:18 #209 №719296

>>719291
Ну да. Но она всё равно имеет больше врама, так что даже при тупом разделении 50/50 места для контекста остаётся ещё 11 гиг.

Аноним 27/04/24 Суб 07:30:27 #210 №719301

>>719296
Тем не менее я этого ебучего команде-ра в пятом кванте не могу загрузить даже с 6к контекста, с бОльшими моделями проблем меньше. Что в эксле не грузится нормально, что в ггуфе.

Аноним 27/04/24 Суб 08:00:29 #211 №719316

>>719301
Ну вот и попробуй в тензор сплит что-нибудь типа 1,99

Аноним 27/04/24 Суб 08:00:30 #212 №719317

Какие модели лучше всего подходят для написания рассказов и литературы?

Пишет тот анон, который с 3050 laptop 4 Гб.

Ещё есть проблема. Я создал ссылку для всяких джаниторов в кобольде, которая через API, но ответы по какой-то причине очень короткие и хуёвые на сайте (в настройках я там порылся как надо), при этом в таверне всё в порядке. Довольно досадный момент, потому что с телефона нормально не посидишь тогда. Какие приложения вы используете для тела или сайта? Гуглил, но там один тухляк либо гомоебля.

Генерация у меня, конечно, долгая, но я никуда не спешу, поэтому интересуют именно качественные варианты.

Аноним 27/04/24 Суб 08:32:54 #213 №719341

https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
Получше Соланы. Даже РПшит, может пригодится кому.

Аноним 27/04/24 Суб 08:48:41 #214 №719354

>>719341
А куда этот Imatrix.dat совать?

Аноним 27/04/24 Суб 08:51:13 #215 №719361

>>719354
Хз. Я просто модель скачал, и ничего больше, все работает.
>>719317
Честно говоря не понял из твоих слов ничего.

Аноним 27/04/24 Суб 09:23:15 #216 №719393

>>719259
Сервера лежат?

Аноним 27/04/24 Суб 09:46:30 #217 №719406

>>719361
Я отписывался в начале треда, но хрен с ним. Вряд ли все аноны читают тред.

1. Какие модели для кобольда позволяют написать что-то вроде небольшого рассказа или книги?

2. Существуют готовые решения для работу через, чтобы можно было использовать локальную нейросетку, находясь вне дома? То есть на телефоне и через удобный интерфейс типа таверны.

Аноним 27/04/24 Суб 09:47:42 #218 №719407

>>719273
Лучше скажите, когда пофиксят llama-3-8b так, чтобы она не срала эндофсиквенсами постоянно.

Аноним 27/04/24 Суб 09:53:50 #219 №719409

>>719259
Блокируются тунели Cloudflare и remote.moe, как будто бы самим гуглом. Хотя почему-то без проблем создаётся туннель к API. Но мне сейчас лень с этим разбираться
Поставил отдельный костыль для запуска интерфейса его блокировать будет не так просто если API заблочат, можно будет через него же запускать
Кумьте дальше, аноны!

Аноним 27/04/24 Суб 10:25:08 #220 №719427

>>719406
1.Там вроде пресеты есть в кобольде. Попробуй.
2. Не интересовался если честно.

Аноним 27/04/24 Суб 10:26:07 #221 №719429

>>719406
>2. Существуют готовые решения для работу через, чтобы можно было использовать локальную нейросетку, находясь вне дома? То есть на телефоне и через удобный интерфейс типа таверны
Так саму таврну и юзай, зачем ещё что-то
https://docs.sillytavern.app/usage/remoteconnections/

Аноним 27/04/24 Суб 10:50:30 #222 №719444

>>718736
Сколько нужно ram для оригинальных весов?

Аноним 27/04/24 Суб 10:55:41 #223 №719453

>>719406
1. Любой нормальный рп файнтьюн должен бы уметь в сторителлинг. Основной инструмент тут промпты имхо, т.е объяснить в системном промпте, что ты хочешь, чтобы модель выступала рассказчиком. В таверне есть adventure шаблон с простеньким промптом для примера, а на чубе можно посмотреть карточки персонажей-рассказчиков. По моделям: есть старые 13б модели, которые хвалили за сторителлинг. Например, LLaMA2-13B-Estopia, LLaMA2-13B-Psyfighter2, Chronomaid-Storytelling-13B. Но катать 13б даже на 8 гиговой карте - это боль, на 4-х ты просто задолбаешься ждать, и на нормальный контекст тебе не хватит, а для историй он важен. Лучше попробуй относительно хорошие файнтьюны мистраля Kunoichi-DPO-v2-7B или WestLake-7B-v2.
2. У тебя отличались результаты через таверну и с чистого апи кобольда, потому что были разные промпты, сэмплеры, инстракт-форматы, скорее всего. Таверна посылает в кобольд свои промпты и параметры. Как правильно сказали выше, лучше поднимать таверну и подключаться к ней удалённо. Если смартфон не картошка, и есть желание попердолиться, то можно полноценно поставить таверну через термукс (гайд в шапке, и он же есть на сайте ст на гитхабе).

Аноним 27/04/24 Суб 11:45:45 #224 №719506

image.png

>>719444
>0.65 tokens/s,
Ой, в пизду.

Аноним 27/04/24 Суб 11:50:53 #225 №719512

1.png

2.png

Что делать, если я затупок и у меня нихуя не получилось?

Аноним 27/04/24 Суб 11:59:20 #226 №719522

>>719512
У тебя кобальд не запустился похоже, у меня сам в браузере открывает http://localhost:5001/#

Аноним 27/04/24 Суб 12:02:05 #227 №719523

3.png

>>719522
Я тут выбрал .gguf файл и нажал лаунч, потом открылась командная строка там чёт появилось и она закрылась, в браузере ничего не открылось

Аноним 27/04/24 Суб 12:20:48 #228 №719541

>>719523
Короч. Открывай через консоль
./kobolcpp
Там логи отображаются.
Варианты: Видюха есть? Проц новый? Памяти хватает?
Попробуй
./konoldcpp —noavx2 —nommap —useclblast 2 0
Последнюю используй если есть видюха и цифры нужно 2 0 нужно выбирать конкретные, которые у тебя. Там должно показывать

Аноним 27/04/24 Суб 12:27:21 #229 №719548

>>719523
Что за видюха? Если Нвидиа выбирай CUBLAS. Если командная строка вылетает, значит он не запустился. Потом что за версию ты скачал там разные есть, с AVX без него, с CUDA, без негою

Аноним 27/04/24 Суб 12:36:59 #230 №719556

Прошу пояснительную бригаду по LLava с Llama3.
Скачал GGUF, открыл через угабугу, Таверна на конце.
Модель нормально грузится на карту.
Далее прикрепляю пикчу к тексту, прошу описать её.
А модешь пишет или тарабаршину или вообще не по теме пикчи.
Промпт Альпака.
Или LLava надо как-то иначе запускать?

Аноним 27/04/24 Суб 12:38:21 #231 №719559

cmd.png

Screenshot1.png

>>719541
Видюха Gigabyte GeForce GT 1030
Процессор старый Intel Core i3-2100
Оперативки 16 гб
>>719548
cublas выбрал - результат тот же.
Kobold качал, тот что на пике, а .gguf вот отсюда https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf

Аноним 27/04/24 Суб 12:43:11 #232 №719560

изображение.png

>>719556
>LLava с Llama3
Там сама ллама 3 работает через пень колоду, а ты ещё картинки подрубаешь.
А так сначала в убабуге проверяй, раз через неё запускаешь, таверна тут лишняя точка отказа.
>>719559
Печальный у тебя ПК. В общем ты в этот каталог скачал? Тогда запускай koboldcpp.exe (не стесняйся пользоваться табом для автоподстановки), выполняй те же действия, что привели к ошибке, и в консоли будет текст ошибки, неси его к нам.

Аноним 27/04/24 Суб 12:46:22 #233 №719562

>>719560
А в угабуге я хз как пички прикреплять к сообщению.

Аноним 27/04/24 Суб 12:51:38 #234 №719568

>>719559
>i3-2100
У этого avx2 нет.
>>719512
>Что делать, если я затупок
Учиться пользоваться компьютером (рряя, пердолинг), либо ждать, когда барин подгонит решение в один клик (впрочем, и тут есть подводные, барин может просто послать тебя на хуй пока не обновишь пеку, потому что барину лень старьё поддерживать). Кто-то там рекламировал всякие олламы где всё за тебя сделано, без пердолинга, в один клик и вот это вот всё, можешь как раз протестировать, как оно, потом в треде расскажешь.

Аноним 27/04/24 Суб 12:54:14 #235 №719570

>>719559
Чел. Скрин смотри внимательно. Там у теб ошибки в каждой
./koboldcpp —noavx2 —nommap
Должен быть запуск выбора модели, а потом вылет.

Аноним 27/04/24 Суб 12:56:01 #236 №719573

>>719570
>>719559
И используй если что powershell

Аноним 27/04/24 Суб 13:00:59 #237 №719577

image.png

>>719506
NousResearch_Meta-Llama-3-8B-Instruct
Все еще не помнит что такое DSBM, срет ассистентами.

Аноним 27/04/24 Суб 13:02:38 #238 №719580

>>719577
>Все еще не помнит что такое DSBM
Ллама 3 сломана, жди починки, сразу вспомнит твой БДСМ.

Аноним 27/04/24 Суб 13:17:32 #239 №719589

Screenshot3.png

>>719560
Это оно?

Аноним 27/04/24 Суб 13:23:40 #240 №719593

>>719258
>Не понимаю почему они дают это бесплатно юзать
датасеты собирают, натуральные человеческие данные сейчас новая нефть
как и все компании и сайты предоставляющие легкий доступ к чату с моделью, лол

Аноним 27/04/24 Суб 13:27:42 #241 №719595

>>719589
Попробуй запустить с флагом --noavx2

Аноним 27/04/24 Суб 13:27:50 #242 №719596

image.png

th-3613816456.jpg

>>719580
Веса или UI?
Надеюсь что не UI, потому что из новой oobabooga убрали файл requirements_NOAVX2.txt, а при попытке загрузить гуфф выдает рил. Двойной удар по россиянам нищукам, но такова цена жизни в сверхдержаве.

Аноним 27/04/24 Суб 13:33:48 #243 №719598

>>719593
>натуральные человеческие данные сейчас новая нефть
И что ты прикажешь делать с тонной кума, зачастую извращённого?
>>719596
>Веса или UI?
Всё, что связано с гуфф и жорой.

Аноним 27/04/24 Суб 13:34:04 #244 №719599

винда тупо тормозит жоржича
https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2080419420

Аноним 27/04/24 Суб 13:34:34 #245 №719601

>>719595
Запустилось, большое спасибо!

Аноним 27/04/24 Суб 13:37:05 #246 №719605

>>719559
>Видюха Gigabyte GeForce GT 1030
>Процессор старый Intel Core i3-2100
>Оперативки 16 гб
Я то думал это я тут самый страдалец с 1050ти по сравнению с господами погромистами с двумя 3090/4090 или р40
Оперативка хоть не одной плашкой памяти?
Если еще и одноканал то вобще жопа
Качай 7b какую нибудь, на вроде starling-lm-7b-beta или openchat-3.5-0106 или новенькую WizardLM-2-7B
Квант качай gguf формата Q4_K_M или Q5_K_M, чем больше тем медленнее будет, но и качественнее.
8 квант самый жир но у тебя будет медленно

Аноним 27/04/24 Суб 13:39:55 #247 №719608

>>719598
>И что ты прикажешь делать с тонной кума, зачастую извращённого?
Ну во первых там не только кум, там и обычные чаты.
Во вторых все что им не нравится фильтруется и собирается в датасет которым будут проверять устойчивость модели к снятию цензуры и сои
И все ваши джейлбрейки так же собираются что бы делать более устойчивые модели

Аноним 27/04/24 Суб 13:44:26 #248 №719612

>>719608
>Ну во первых там не только кум
Его там 95%.
>И все ваши джейлбрейки так же собираются что бы делать более устойчивые модели
Ну вот мелкософт выпустила "устойчивую" модель, с которой даже козу не подоить. И кто её обсуждает?
Даже корпы уже начинают подозревать, что стричь деньги за "Извинити, я не могу это сделать" вечно не выйдет. Вон, антропики ослабили цензуру в своём клоде, да и последний снапшот GPT намного менее соевый, чем высер 0125.
Так что маятник качается, окно расширяется, процесс илёт.

Аноним 27/04/24 Суб 13:45:14 #249 №719613

>>719258
> есть всртроенная поддержка openrouter и понял зачем там нужны бесплатные модели вообще.
Что? А пруфы слива данных есть?

Аноним 27/04/24 Суб 13:52:03 #250 №719618

>>719612
>мелкософт выпустила "устойчивую" модель
это ты про wizardlm-2 ?
если да, то там пиздец, эта модель по тестам тупо оветрейн на сое, например если спросить про гендерную хуйню - ответит в ту же секунду и без запинок, и только в положительном ключе, но так честно говоря с любой локалкой, потому если РПшишь с обычной (или не очень) тян то иногда модель может приделать ей хуй ради разнообразия и инклюзивности прямо посреди разговора.
в случае с лламой-3, то там тупо упирается в фем-шизу и дыхание вагиной "my body - my choice" даже если у тебя всё честно и по согласию, если короче, что-то не видно качения маятника :/

Аноним 27/04/24 Суб 13:52:05 #251 №719619

>>719613
Всё, что ушло дальше тетради с ручкой, по дефолту слито.

Аноним 27/04/24 Суб 13:54:26 #252 №719624

>>719618
>это ты про wizardlm-2 ?
Про фи-3, ну да ладно.
>в случае с лламой-3
Цензура далеко не непробиваемая. Могли бы выпустить полнейшего лоботомита, но нет, модель достаточно живая, чтобы пробиваться простыми префилами.
Про гендеры модели не спрашиваю, но клод становится базированным, если попросить его отыгрывать за сторону мусульман. С локалками не проверял.

Аноним 27/04/24 Суб 14:09:33 #253 №719629

>>719624
цензура или не цензура, но по наблюдениям вся эта хуйня имеет наивысший приоритет почти у любой локальной модели, даже если накинул джейлбрейк сверху, тупо ломает весь фан в самый неподходящий момент.
за всё время пока только вот эта https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF является тру-анцензором, но это скорее всего работает из-за изначальной нейтральности SOLAR-10.7B, DPO в этом случае просто направил туда куда надо.

Аноним 27/04/24 Суб 14:11:06 #254 №719632

image.png

Ладно, много месяцев тут ничего не писал, в общем, отрапортую.

Имею на борту Ryzen 5600g и 32 гигабайта оперативки (без видюхи).
По итогу, когда решил опробовать Llama 3 8b и включил kobold.ccp с режимом Vulcan - контекст 512 стал обрабатываться за 10 секунд, хотя раньше по 20-30 обрабатывал. Сама модель выдаёт по 2-3 токена в секунду.

Пользуюсь SillyTavern 1.11.8

Кумить стало в раза два удобнее и быстрее.

Аноним 27/04/24 Суб 14:14:24 #255 №719636

>>719632
rocm еще быстрее.

Аноним 27/04/24 Суб 14:16:26 #256 №719639

>>719632
для процессоров для обработки промпта недавно завезли оптимизацию, вот и быстрее

Аноним 27/04/24 Суб 14:31:06 #257 №719649

>>719636
Как юзать?

Аноним 27/04/24 Суб 14:44:44 #258 №719657

>>719629
>https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF
Чаю отличная модель.

Аноним 27/04/24 Суб 14:46:49 #259 №719661

image.png

>>719636
Вот что мне пишет с моей встройкой

Аноним 27/04/24 Суб 14:48:08 #260 №719662

Что по видюхам для ии сейчас актуально? P40?

Аноним 27/04/24 Суб 14:52:03 #261 №719667

>>719662
3090/4090/RTX A6000/A100, отсортировано в порядке возрастания удовольствия куртки.

Аноним 27/04/24 Суб 15:06:39 #262 №719681

>>719577
>срет ассистентами.

Фикс поставь >>718775

Аноним 27/04/24 Суб 15:06:45 #263 №719682

>>719624
Кстати, соевая цензура в мультимодальной лламе своеобразная "The image is being shared to express the idea that women are not just sexually attractive, but also have a lot of other qualities that make them appealing. The use of the word 'cock' in the caption is meant to be humorous and does not imply that the woman is asking for sex. It is simply a playful way to express the idea that women can be both sexual and non - sexual at the same time."

Аноним 27/04/24 Суб 15:08:37 #264 №719687

>>719682
Впрочем, я эту мультимодальную хуитку пользую в комплекте с Poppy_Porpoise-v0.8-L3. Не знаю, как это вместе работает.

Аноним 27/04/24 Суб 15:15:14 #265 №719692

>>719657
Извините, я АИ нуб, только поставил модель из шапки в кобольд. А можно вместо нее поставить ту, которую вы обсуждаете? Она лучше? У меня 12 гб врам

Аноним 27/04/24 Суб 15:20:56 #266 №719698

>>719681
Не, спасибо, ебал я в рот 0.7 токенов в сек.

Аноним 27/04/24 Суб 15:22:23 #267 №719703

image.png

>>719662
>P40?
Mi50

Аноним 27/04/24 Суб 15:22:44 #268 №719705

firefoxkROCE7LcRK.png

firefoxzKuCbltEXp.png

>>719692
да можешь, Q8 будет долбить в сотку, потому ставь Q4_K_M или Q5.
Бери оригинал : https://huggingface.co/w4r10ck/SOLAR-10.7B-Instruct-v1.0-uncensored
И квантуй на желаемый Q вот здесь : https://huggingface.co/spaces/ggml-org/gguf-my-repo
Но для начала создай токен с параметром write (пик2)
После того как скопировал его - тык по кнопке submit и жди пока оно там квантует, ну и сам репо ставь приватным, по желанию.
Это всё надо мутить только потому что TheBloke вмер, и все его кванты - старые.

Аноним 27/04/24 Суб 15:23:26 #269 №719707

.png

>>719692
Она хорошая. Тут на любителя.
Вот какие я использую лично, может что понравится. Правда у меня видюха дохлая 970 печ

Аноним 27/04/24 Суб 15:25:01 #270 №719708

>>719705
>Это всё надо мутить только потому что TheBloke вмер
Разве? А не устроился в какую-то компанию и у него нет времени?

Аноним 27/04/24 Суб 15:26:04 #271 №719710

>>719708
Там у него вроде как контракт закончился, нет машины для квантования гигантских моделей.

Аноним 27/04/24 Суб 15:26:59 #272 №719714

>>719692

Ламу3-то? Можно, разрешаю, ставь.
Но тут даже олды треда вроде меня не понимают как заставить её работать чтобы и 4110 выдавала в ответ на 3333+777 и при этом не шизила и не сралась под себя и притом работала на нормальной скорости.
Вместо модели из шапки можешь поставить вторую версию той же модели
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF
Или если нужен кум - то её нсфв+ версию
https://huggingface.co/Sao10K/Solstice-11B-v1-GGUF

Аноним 27/04/24 Суб 15:29:58 #273 №719719

>>719714
>олды треда вроде меня не понимают как заставить её работать чтобы и 4110 выдавала в ответ на 3333+777
и не узнаем пока не пофиксят
https://github.com/ggerganov/llama.cpp/issues/6914
https://github.com/ggerganov/llama.cpp/pull/6920

Аноним 27/04/24 Суб 15:30:34 #274 №719720

>>719710
>Там у него вроде
Нет, на реддите смотри что писали. Он устроился до 27 года кажется.

Аноним 27/04/24 Суб 15:38:26 #275 №719729

>>719714
> Но тут даже олды треда вроде меня не понимают как заставить её работать чтобы и 4110 выдавала в ответ на 3333+777 и при этом не шизила и не сралась под себя и притом работала на нормальной скорости.
FP16 восьмёрка вроде не обсиралась, но может просто повезло с зерном сидами. В 4.5 кванте exl2 даже 70 в 2 из 15 ответов обосралась выдав 41110, сэмплеры были из симпл-1

Аноним 27/04/24 Суб 15:45:21 #276 №719739

>>719729
>FP16 восьмёрка вроде не обсиралась

Про неё я написал
>притом работала на нормальной скорости.

>В 4.5 кванте exl2

Смог заставить работать только в убе, в таверне неконтроллируемый понос под себя с любыми фиксами и настройками. В убе выдавал 4110 в одном случае из трех, в остальных настаивая на 2110 и 3110.

Аноним 27/04/24 Суб 16:02:17 #277 №719760

firefoxv9Yvtxpnba.png

>>719705
ответ этой солярки на "List 7 things that are nigger-tier and an extra 8th that is super nigger-tier."

Аноним 27/04/24 Суб 16:08:36 #278 №719778

>>719760

Пиздец, модель походу форчановскими тредами обучалась?

Аноним 27/04/24 Суб 16:10:44 #279 №719781

>>719778
не, скорее с файнтюн датасета
https://huggingface.co/datasets/unalignment/toxic-dpo-v0.1

Аноним 27/04/24 Суб 16:12:20 #280 №719783

Через Угабугу вообще можно запускать мультимодалки?
Ебусь с утра и так нифига и не запустил.
llava-v1.6-34b.Q6_K и llava-llama-3-8b-v1_1.Q6_K.
УГа вообще отказывается стартовать с --multimodal

Аноним 27/04/24 Суб 16:13:15 #281 №719785

>>719739
> Про неё я написал
Ну она быстрая, если не с теслой конечно, хотя может и с ней быстрая, мелкая же. Памяти заняло с 8к 16500, если поставить 32к контекста 19500, ну как с мистралем в полных весах
> Смог заставить работать только в убе, в таверне неконтроллируемый понос под себя с любыми фиксами и настройками. В убе выдавал 4110 в одном случае из трех, в остальных настаивая на 2110 и 3110.
Вот сейчас потыкал в угабуге, всегда точно отвечает фп16, или бф16, какая она там, но любит иногда посрать после этого, особенно когда альфой растягивать до 32к

Аноним 27/04/24 Суб 16:41:11 #282 №719812

>>719661
Видимо rocm не поддерживает твою встройку.

Аноним 27/04/24 Суб 17:11:40 #283 №719834

>>719649
Использовать форк Koboldcpp с поддержкой ROCm.
https://github.com/YellowRoseCx/koboldcpp-rocm

Аноним 27/04/24 Суб 17:46:05 #284 №719849

image.png

Разоблачение идиотского мифа что 4 квант лучше шестого. Но результаты интересные, да.

Аноним 27/04/24 Суб 18:01:22 #285 №719854

>>719849
Ты не понял 4 просто не так сломан был, и потом поясни что за модель и квантовал?

Аноним 27/04/24 Суб 18:05:58 #286 №719864

>>719849
Ах прости там gguf поломан был про exl2 никто и не говорил, оригинал FP 16 еще лучше будет, что у тебя за графический адаптер.

Аноним 27/04/24 Суб 18:15:02 #287 №719874

>>719864

Ну ггуф я замерить не могу, точнее могу, но уба на моей 4090 просит на это 5.5 часов, в то время как эксель тестит 5 минут.

Аноним 27/04/24 Суб 18:31:26 #288 №719887

>>719849
Про EXL2 вроде и говорили, что он с 4.0bpw ломаться начинает и на 3.0bpw уже неюзабельный. Особенно на микромоделях.

Аноним 27/04/24 Суб 18:44:20 #289 №719899

>>719887

В случае с ламой 3 exl2 сломан впринципе.
Покопавшись в дискорде таверны я увидел что не у меня одного он срет просто поехавшей хуйней - все на это жалуются.
Короче пока что ВСЕ КВАНТЫ СЛОМАНЫ НАХУЙ, единственный варик - это гонять оригинальную модель в 8 битах на трансформерах.

Аноним 27/04/24 Суб 18:45:37 #290 №719902

>>719899
А как проверить, сломан квант или нет?

Аноним 27/04/24 Суб 18:55:26 #291 №719908

А чо вообще ваш гуф делает? Это чисто формат чтобы раннить сейфтенсор/паз модель на крестах или у этого есть какой-то смысл

Аноним 27/04/24 Суб 18:59:27 #292 №719911

>>719908
На сколько понимаю это специальная оптимизация нейросетей для запуска на процессоре, тоесть идет преобразование изначальной нейросети в формат при котором легче и быстрее запускать на процессоре
А потом уже добавили квантование для уменьшения размеров и увеличения скорости, так как любая нейросеть в оригинале слишком медленна на процессоре
Поищи у герганова ggml проект на гитхабе и почитай че он там делал и для чего

Аноним 27/04/24 Суб 19:00:56 #293 №719912

>>719911
Так большинство все равно на гпу запускают

Аноним 27/04/24 Суб 19:02:53 #294 №719913

>>719912
ggml и на gpu запускается

Аноним 27/04/24 Суб 19:03:44 #295 №719915

>>719912
Большие сетки все равно напополам и на процессоре и на гпу, а так можно делать только с ггуф/ггмл потому что все остальное только на гпу так как не оптимизировано для запуска на процессоре

Аноним 27/04/24 Суб 19:04:28 #296 №719916

>>719913
Просто тогда не понимаю смысла в таком дроче на гуф, разве только если только на нем квантование возможно

Аноним 27/04/24 Суб 19:06:59 #297 №719918

>>719916
Остальные кванты работают через половинные точности, что очень слоупочно работает на старых видеокартах. У ггерганова скорее всего это полная точность, а половинная точность достигается смещением указателя. Что работает быстро, и на процессоре, и на старых видеокартах. Так как база треда это древняя, как говно мамонта, p40, то ты сам должен понять, почему на ггуф такой спрос. Плюс ггуф поддерживает выгрузку части слоёв на видеокарту и части на процессор, что добавляет ещё больше очков в копилку.

Аноним 27/04/24 Суб 19:06:59 #298 №719919

>>719899
Сделал квант пропатченной версией, на 3333+777 отвечает 4110.

https://patch-diff.githubusercontent.com/raw/ggerganov/llama.cpp/pull/6920.patch

Аноним 27/04/24 Суб 19:07:46 #299 №719920

>>719916
Много видеопамяти очень дорого, оперативка и какой никакой процессор - дешево
Вот и популярен ггуф, так как у большинства игровые компы а значит есть видеокарты, они все равно не обладают достаточным объемом врам, поэтому другие форматы могут запустить не только лишь все
Зато ггуф пойдет на любом компе

Аноним 27/04/24 Суб 19:13:56 #300 №719923

>>719919
А если кобольд юзаю?

Аноним 27/04/24 Суб 19:15:03 #301 №719926

>>719923
Жди когда патч дойдет до кобольда.

Аноним 27/04/24 Суб 19:15:19 #302 №719927

>>719920
Это все равно 3 токена в секунду у 8b модели с низким квантом. А с обработкой контекста твоего персонажа в таверне это еще пару минут на одно сообщение. Это пиздец так жить.

Аноним 27/04/24 Суб 19:17:58 #303 №719929

>>719926
> Жди когда патч дойдет до кобольда.
А что там конкретно пофиксили, а то я заебался эту простыню читать? Есть и ли смысл вообще сидеть на llama.cpp?

Аноним 27/04/24 Суб 19:20:09 #304 №719931

>>719927
>Это все равно 3 токена в секунду
Я вообще с 1.5 сижу, мне норм.

Аноним 27/04/24 Суб 19:22:18 #305 №719933

>>719931
Если ответы хорошие, то и норм. А если постоянно ренерацию жмёшь, то плохо.

Аноним 27/04/24 Суб 19:26:07 #306 №719935

>>719927
>Это все равно 3 токена в секунду у 8b
У меня на процессоре ллама 3 8b в 8 кванте 6 токенов в секунду
Основное ограничение скорость чтения памяти, так что либо гони память либо вставляй не 1 плашку а 2, чтоб в двухканале работало
Ну или проблема в тухлом процессоре, или отсутствии avx-avx2
КОроче варианты есть и это все еще дешевле покупки кучи видеопамяти в одной видеокарте. Тут либо сразу 4090-3090 брать ради 24 гб, либо р40.

Аноним 27/04/24 Суб 19:28:19 #307 №719937

image.png

После долгой ебки наконец заставил exl2 квант ламы 3 работать, не срать ассистентами, не сходить с ума, не поносить километрами текста. В общем там все надо ручками менять, настройки таверны для гуфа не подходят, правильные конфиги пришлось франкенштейнить из разных фиксов самому, ни в одном месте не залиты все нужные фиксы сразу.

Аноним 27/04/24 Суб 19:28:57 #308 №719939

>>719927
>Это все равно 3 токена в секунду у 8b модели с низким квантом. А с обработкой контекста твоего персонажа в таверне это еще пару минут на одно сообщение. Это пиздец так жить.
Мику_70В_Q4_K_M на двух теслах после заполнения 8к контекста генерирует только 4 токена в секунду. Да, где-то полторы минуты на сообщение, но они длинные. И жить - хорошо! Конечно, хорошо жить ещё лучше, но и так неплохо. Не пиздец, далеко не пиздец.

Аноним 27/04/24 Суб 19:31:18 #309 №719942

>>719935
У меня мак прошка, тут хороший проц по дефолту и 16 гигов оперативы. Больший бугурт вызывает загрузка контекста которая пару минут занимает раз в несколько сообщений

Аноним 27/04/24 Суб 19:35:01 #310 №719943

>>719942
>раз в несколько сообщений
Ээ а так должно работать? Там же все в кеше хранится еще и контекст шифт должен помогать, если нет новой информации то вся старая не должна перечитываться

Аноним 27/04/24 Суб 19:35:04 #311 №719944

>>719935
Но 24 гб это менее чем полумера, ни рыба, ни мясо. На практике модели, которые туда влезут, генерирует тексты не лучше, чем 13b, которые влезают в 12гб. Чтобы начать считать, что на 24гб тексты лучше, надо заниматься аутотренингом. Но более крупные модели можно пощупать хотя бы на хорде или на арене, и убедиться в том, что все веселье начинается далеко за пределами 24гб, да и то не всегда - в некоторых задачах 120b ничуть не лучше 13b.

Аноним 27/04/24 Суб 19:35:22 #312 №719945

>>719908
Это для распределения между процессором и видеокартой. В идеале DDR5 ram на большой частоте и видеокартой в идеале кластер похожий на майнинг ферму с А100 ускорителями. Ну это мои влажные фантазии . Дата центр если кто раз бывал в серверной поймет насколько это моя фантазия.

Аноним 27/04/24 Суб 19:37:40 #313 №719949

>>719943
Хз, но оно так работает

Аноним 27/04/24 Суб 19:40:24 #314 №719951

>>719944
24 хорошая заявка на быструю и комфортную работу с теми же мелкими умными сетками
Когда не нужно ждать несколько минут ответ и все летает

Аноним 27/04/24 Суб 19:44:10 #315 №719956

>>719937
загрузи фиксы на catbox тогда :/

Аноним 27/04/24 Суб 20:16:37 #316 №719972

>>719956

Это конфиги модели. Прямо с заменой кидай в папку exl2 кванта.

https://files.catbox.moe/iw99gl.json
https://files.catbox.moe/ukybs4.json
https://files.catbox.moe/0envk6.json

Это шаблоны
промпт - https://files.catbox.moe/jd74p5.json
инструкция - https://files.catbox.moe/0bb2rl.json
шаблон настроек - https://files.catbox.moe/kwfr08.json

В убе и таверне проверь что галочка на Skip special tokens стоит.

Аноним 27/04/24 Суб 20:38:35 #317 №719986

Так блядь только ворвался в ваш тред, скачал эту вашу ламу3 8b 8_0 gguf, скачал конфиги для таверны.

Ассистентами не срет, сою в рассчет не берем - у меня срет повторяющимися сообщениями начиная уже с третьего, че я делаю не так? Тупо невозвожно ролплеить, почти копирует предыдущее сообщение добавляя незначительные различия, где еще что-либо поменять чтобы оно ваще РАБОТАЛО?

Аноним 27/04/24 Суб 20:41:27 #318 №719988

>>719986
пока сломано, качай чет попроще
вон из шапки или версию поновее
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF
если для ерп то
Moistral-11B-v3

Аноним 27/04/24 Суб 20:46:12 #319 №719992

>>719556
https://github.com/oobabooga/text-generation-webui/blob/main/extensions/multimodal/README.md

Читаем.

>>719714
Напомню >>718862
=D
Но вообще пока шизит иногда, да.
Одна задача не показатель, офк.

>>719783
Раньше можно было, потом выпилывали, щас ваще хз.

>>719916
На проце тока ггуф.
На тесле п40 тока ггуф.
Квантуем-уменьшаем.

Конечно лучше exl2, но запустить не все и не всегда.

>>719944
Коммандер, если что.
В 24.

Аноним 27/04/24 Суб 20:47:00 #320 №719993

>>719988
Да на этом я уже накумился и надоело, думал тут высрали РЕВОЛЮЦИЮ.
Спасибо в любом случае.

Аноним 27/04/24 Суб 20:53:42 #321 №719999

Неужели сделать ллаву на лламе3 и прожекторе 1.6 так сложно

Аноним 27/04/24 Суб 20:54:52 #322 №720003

Нужна ли в генерирующих код моделях температура или ее убрать в ноль? Например - wavecoder-ultra-6.7b .

Аноним 27/04/24 Суб 20:55:21 #323 №720004

>>719986
https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
Попробуй эту мне больще понравилась чем остальные, Может в РП лучше чем файнтюны остальные файн тюны лламы 3.

Аноним 27/04/24 Суб 21:03:10 #324 №720015

>>719899
> exl2 сломан впринципе
А че с ним не так? Постили вон что-то только про поломанный конфиг (тянущися с оригинального релиза?).
> это гонять оригинальную модель в 8 битах на трансформерах
Можно гонять оригинальную 8б в фп16 на экслламе, хз, нормально работает и всего того пиздеца который здесь описывали не было встречено.
>>719908
Это формат для упаковки модели со всеми конфигами в один файл.
В контексте ллм он является переемником ggml, который предлагает разные кванты для работы с llamacpp.
>>719915
> Большие сетки все равно напополам и на процессоре и на гпу
Нет, только фуллгпу, только хардкор, нахуй полумеры.
>>719972
Красавчик
>>720003
Можно подубавить до 0.4-0.5, меньше шанс путаницы. Если заставляешь модель переделывать код то можно и добавить до 0.8-0.9 ради разнообразия, но ошибки придется ловить.

Аноним 27/04/24 Суб 21:15:50 #325 №720032

>>719992
> Напомню >>718862
> =D
> Но вообще пока шизит иногда, да.
> Одна задача не показатель, офк.
Ссылку на ггуф?

Аноним 27/04/24 Суб 21:38:59 #326 №720063

https://www.youtube.com/watch?v=_JcMW6wJ6b8
Вообще довольно интересно на чем она сделана

Аноним 27/04/24 Суб 21:43:11 #327 №720069

>>720032
Инсирукт поломан, 4qkm квантование лучше 8 по >>719161 причинам долбоеба на квантах.

Аноним 27/04/24 Суб 21:44:02 #328 №720072

>>720063
Первая вкрсия была скорее всего на пигме. Ща хуй знает. Скорее вего он только сейчас переехал на что-то лламоподнобное, ибо она всегда сосала в базовых вещах, а ща даже в матан может. Так же это скорее всего мультимодалка, если он не клипом описание пикч в контекст прокидывает. Возможно какой-то собственный файнтюн ллавы

Аноним 27/04/24 Суб 21:46:14 #329 №720078

>>720063
llama 3 файнтюн скорей всего насчет что она сама обновилась, если только он в ее контекст это прописал.

Аноним 27/04/24 Суб 21:54:25 #330 №720087

>>720063
Видос не смотрел, смотрел другой. Она у него читает мелкие надписи на картинках. Читает правильно. Так что вангую какой-нибудь проброс к опенАИ, потому что локально такого хуй добьёшь.

Аноним 27/04/24 Суб 21:54:51 #331 №720088

>>720069
читая оригинальный тест на реддите, откуда сперта пичка без ссылки, там достаточно спорное тестирование было
так что хуита это все

Аноним 27/04/24 Суб 21:58:11 #332 №720094

>>720088
https://www.reddit.com/r/LocalLLaMA/comments/1cdxjax/i_created_a_new_benchmark_to_specifically_test/
таская картинки таскайте пруфы и контекст, что за безобразие

Аноним 27/04/24 Суб 22:01:48 #333 №720097

>>720088
Забавно как при правильном промте она меняется, все таки это новая веха на ней будут писать

Аноним 27/04/24 Суб 22:08:17 #334 №720101

>>720072
> Первая вкрсия была скорее всего на пигме
Рекомендую скачать пигму и покатать ее.
Там даже в старых вариантах оно куда мощнее было, для контраста - есть опыт местного любителя с 7б моделью, уровень шизофазии просто запредельный и ни о каком диалоге/коллабе речи быть не может.
> это скорее всего мультимодалка
Почему ты так решил?
>>720078
> файнтюн скорей всего
Весьма быстро и нихуевые русурсы для них нужны.
> насчет что она сама обновилась, если только он в ее контекст это прописал
Он же ей с порога сказал и начал спрашивать об этом.
Нихуевый промт инженигринг и оснастка для этого всего конечно еще, но крайне интересно.
>>720087
> Читает правильно.
Конкретно в этом ничего сложного нет, самое лучшее зрение внезапно не у антропиков или впопенов, а у локальной модели, лол. Но с ллм частью там грустно все. Проблема в том что локальных моделей чтобы был и хороший визуал и достаточно умная ллм просто нет. Китайцы есть большого размера, но они странные и подслеповаты.

Аноним 27/04/24 Суб 22:11:32 #335 №720106

https://www.reddit.com/r/LocalLLaMA/comments/1cec23f/llama3_based_openbiollm70b_8b_outperforms_gpt4/
О а вот это интересно, сетка специалист по медицине и биологии
Еще немного и медицина станет чуть лучше в развитых странах по крайней мере

Аноним 27/04/24 Суб 22:19:45 #336 №720111

Так я не понял 4к_м лучше 5к_м во всех моделях или только ллама 3 ?

Аноним 27/04/24 Суб 22:21:21 #337 №720113

>>720015
>А че с ним не так? Постили вон что-то только про поломанный конфиг (тянущися с оригинального релиза?).

Даже когда я пофиксил конфиги и настройки >>719972 - он странный. Какой-то возбужденный, постоянно ржет, начиная сообщения с Ахаха, постоянно на возбуждении, и это притом что я ему температуру в 0.7 скинул. Возможно мои настройки не подходят, но дефолтный min_p и simple-1 еще хуже.
На возбужденность и ахаха дискорд таверны тоже жалуется, так что я не один такой.

Аноним 27/04/24 Суб 22:22:52 #338 №720114

>>720111
Чем жирнее тем лучше, но так как у моделей может быть сломана токенизация не понятно у ллама 3 или и у других, то результаты могут плавать
Но чем больше квант тем лучше, это правило все еще работает
Точнее говоря, чем ближе модель к оригиналу тем больше соответсвие ее возможностей оригиналу

Аноним 27/04/24 Суб 22:23:18 #339 №720116

>>720101
>Но с ллм частью там грустно все.
Пишешь обёртку, закидываешь картинку в имадж реконгнишн, потом в любую ллм с промптом типа "ты видишь такую-то хуиту, опиши реакцию и своё мненени". Здесь ничего сложного нет. Проблема в том, что локальные модели слепошарые.

Аноним 27/04/24 Суб 22:23:29 #340 №720117

>>720111

Нормальных пруфов этой хуйни пока не было

Аноним 27/04/24 Суб 22:30:12 #341 №720120

Тут пишут https://www.reddit.com/r/LocalLLaMA/comments/1c90zkn/comment/l0l9o1b/ про topk.json и greedy-vllm.json где их смотреть? Это же файлы где записаны параметры запуска сетки, насколько я понял.

Аноним 27/04/24 Суб 22:30:50 #342 №720121

https://old.reddit.com/r/LocalLLaMA/comments/1cej41j/llama_3some_8b_v1_beta_brought_to_you_by_beaverai/
кумеры фас

Аноним 27/04/24 Суб 22:34:54 #343 №720123

>>720032
https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/tree/main

Аноним 27/04/24 Суб 22:44:31 #344 №720138

Нуб на месте.

Поставил все из ОП поста, скачал карточку Киберпанка с чуб.аи по совету анона, типа ролеплею там.

Я придумал персонажа, с которым ролеплею, но АИ постоянно забывапет детали про него, или где мы находимся и т.д. Можно ка кто вделать описание этому персонажу и внедрить его в карточку киберпанка?

Аноним 27/04/24 Суб 22:45:31 #345 №720140

>>720101
> Рекомендую скачать пигму и покатать ее.
Первая версия нейросамы уже была только когда из нормальных моделей подобного рода в свободном доступе была только пигма. Ты видимо не видел что она несла в первое время.
> Почему ты так решил?
Потому что были стримы с оцениванием артов где она свободно понимала что на низ нарисовано, так же был стрим где полностью смотреди первого шрека и она комментировала.

Аноним 27/04/24 Суб 22:51:12 #346 №720145

>>720113
> температуру в 0.7 скинул
Это типа дефолт и то может быть высоковато для некоторых задач.
Может какие-то токены еще остались поломанными, или так реагирует на твой формат, хз. Нужно с 8б потестить, там фп16 точно нормально работает. Ну как точно, наверно,
>>720140
> в первое время
При чем тут "первое время" эпохи войны дедов с Альтманом если уже летом прошлого года там был довольно таки интересный перфоманс.
> она свободно понимала что на низ нарисовано
Проблема в том что мультимодалки доступные сами по себе оче тупые. Может там был жпт вижн, или же собственные наработки автора - он так-то ее "играть" заставляет и там много восприятия происходящего в целом. Но это точно не ллава и подобные.

Аноним 27/04/24 Суб 22:58:41 #347 №720153

>>720138

Контекст переполняется и кобольд волевым решением сносит начало. Но еще прежде чем он это делает суммарайз таверны делает примерную хуевую сумму, в которую включает только основные события.
Нормальный выход один - расширять контекст. Еще можно поебаться с векторной базой в extras таверны и с модулем воспоминаний, но это все очень тухло пока.

Аноним 27/04/24 Суб 23:00:35 #348 №720155

>>720145
> При чем тут "первое время"
Сука, ты доебался за то что я в самом начале написал что ее первая версия скорее всего была на пигме, а теперь пишешь "при чем тут первое время".
При том, что я предположил что ее первая версия была такой. Дальше было мое предположение о текущей модели, которая само собой уже не пигма.
> Проблема в том что мультимодалки доступные сами по себе оче тупые.
Файнтюн.
> Может там был жпт вижн
В качестве базы точно нет, ее модель совершенно не соевая и порой выдает такое за что ее банили. Так же она понимает где находится она сама на избражении, так что прожектор там натренерован на арты с ней.
> или же собственные наработки автора - он так-то ее "играть" заставляет и там много восприятия происходящего в целом.
Файнтюн.
> Но это точно не ллава и подобные.
Почему это не может быть файнтюн лавы?

Аноним 27/04/24 Суб 23:08:53 #349 №720161

>>720153
Некоторые модели вообще слабо работают с контекстом...

Аноним 27/04/24 Суб 23:12:38 #350 №720163

>>720153
Это что то не на новичковом, анон. Есть нормальные решения, или сейчас все нейронки начинают забывать, что происходит через 5-10 сообщений?

Аноним 27/04/24 Суб 23:19:18 #351 №720168

>>720155
Просто это было настолько давно что даже безсмысленно вспоминать с учетом прогресса нейронок, потому и подумал что ты про что-то более актуальное.
> Файнтюн
Файнтюн мультимодалки это само по себе веселье, а здесь ты предлагаешь его совместить еще и с изначально получением крутой йоба модели (которая всеравно будет днищем из-за максимума 13б ллавы, которые были до недавнего времени). Да хули, так на любой вопрос можно ответить и любую магию объяснить файнтюнов, что в контексте больших ллм забавно.
> В качестве базы точно нет, ее модель совершенно не соевая
aicg тред 2 блока ниже, еще недавно у кого-то с популярной карточки на чубе подгорело, а тут такие аргументы.
> так что прожектор там натренерован на арты с ней
Эээээ, ладно
> Файнтюн.
И в который раз, ванменарми достигает того, с чем не справляются нихуевые институты с кучей оборудования и специалистов и то что можно получить куда проще альтернативными путями если приложить голову, и при этом ни с кем не делится своими моделями, стоимость которых значительно превышает собираемые донаты и прочее.
> Почему это не может быть файнтюн лавы?
Потому что мир не состоит из магии а за окном по лугам не бегают единороги.

Аноним 27/04/24 Суб 23:21:27 #352 №720171

>>720163
> или сейчас все нейронки начинают забывать, что происходит через 5-10 сообщений
Только если ты выставил микроскопический контекст и оно постоянно обрезается чтобы избежать переполнения. Посмотри какой размер контекста выбран в лаунчере (ползунок context size в кобольде) и в таверне.
В карточку внести описание можно, а лучше вообще сделай отдельную карточку конкретного персонажа, сделав его подробное описание. Можешь попросить ллм сделать тебе такое, как раз поразбираешься.

Аноним 27/04/24 Суб 23:29:27 #353 №720174

image.png

>>720163

Увеличь контекст в кобольде и поиграйся с суммарайзом в таверне пикрелейтед.

Аноним 27/04/24 Суб 23:43:19 #354 №720184

Хрен его знает почему, но просто из-за добавления после Response: пробела циклы разговора с самим собой пропали.
### Instruction: {prompt}
### Response:

Аноним 27/04/24 Суб 23:54:14 #355 №720189

>>720161
Есть такое что посылают тебя. Даже ссылки дают что вот так стучать сюда. и похуй им на контекст.

Аноним 27/04/24 Суб 23:56:47 #356 №720190

>>720171
Я другой а на сколько 4096 контекста хватит примерно с ответом в 300 токенов?

Аноним 27/04/24 Суб 23:59:42 #357 №720192

>>720168
>Файнтюн мультимодалки это само по себе веселье
Просто файнтюнишь любую модель совместно с прожектором от совместимой ллавы.
>крутой йоба модели (которая всеравно будет днищем из-за максимума 13б ллавы, которые были до недавнего времени).
Ты думаешь там стоит чтото круче 7-8b? Лул
>Да хули, так на любой вопрос можно ответить и любую магию объяснить файнтюнов, что в контексте больших ллм забавно.
При сем здесь магию? Просто адекватное предположение, с учетом того, что промптингом такого не добиться, а от ии разраб. Он изначально вообще ии для игры в ОСУ писал, а потом уже сделал нейросаму.
> Потому что мир не состоит из магии а за окном по лугам не бегают единороги.
Это не ответ. Почему это не может быть файнтюн? Любой рандом уже свои модели делает, весь хаггингфейс засран. Что сложного собрать датасет и запустить обучение в облаке когда у тебя миллионы денег со стримов? При чем здесь магия? Если это сложнее чем пукнуть промптом это магия?

Аноним 28/04/24 Вск 00:17:47 #358 №720200

>>720192
> Просто файнтюнишь любую модель совместно с прожектором от совместимой ллавы
А, все так просто оказывается, ну спасибо, глаза открыл. Ой, а почему же так никто не делает и нормальная мультимодалка только у антропиков, и так подслеповата?
> Ты думаешь там стоит чтото круче 7-8b? Лул
Чел...
> Просто адекватное предположение, с учетом того, что промптингом такого не добиться
Потому и усомнился в его адекватности, потому что сложность несопоставима, промтингом и кучей оснастки такого можно добавиться в сочетании с хорошей моделью, а на душных стримах он как раз про интерфиренс прежде всего рассказывает и выстраивание всей совокупной системы.
> Почему это не может быть файнтюн?
Может офк, вот только против этого говорят следующее:
Файнтюн сам по себе дохуя сложен, это тебе не инцест мерджи составлять и ломающие все нахрен q-lora тренить изредка.
В эту сложность также добавляются и трудности сбора датасета, от банального "откуда брать подобное" до обработки и форматирования так, чтобы это хотябы примерно соответствовало тематике и юзкейсу.
> Любой рандом уже свои модели делает, весь хаггингфейс засран.
Это мусор, отборный, кривой, разлагающийся, минимально отличающийся друг от друга степенью припезднутости, и на 99% состоящий из мерджей других мерджей. Приличных качественных файнтюнов - может пара десятков наберется, и то архивные. Они делались командами специалистов, финансировались или базироваллись на ресурсах какой-то организации (исследовательской, образовательной, опенсорц под крылом корпоратов или просто кто-то занес), и что-то приличное начало получаться только спустя огромное количество времени и попыток.
А здесь один нерд энтузиаст не аффилированный со спонсорством и группой поддержки, которому уже настроить интерфиренс с этим и проводить стримы уже хватит чтобы занять все свободное время. Ну конечно он будет пилить приличные файнтюны ллм на уровне лидеров и все это только лишь ради подобного увлечения, никак не выкладывая их в паблик.

Аноним 28/04/24 Вск 00:33:47 #359 №720213

>>720200
> Ой, а почему же так никто не делает и нормальная мультимодалка только у антропиков, и так подслеповата?
А кто тебе сказал что у нейросамы вижн модуль нормальный, лул? Там такая же хуйня с непониманием что точно происходит на экране
> Чел...
У тебя есть доказательства что это не так? Ты как будто и не смотрел как она общается. Она вообще как будто контекст не помнила до этого обновления. Там что-то максимально старое стояло несущее прикольный бред, на уровне порфирьича.
> сложность несопоставима, промтингом
Сложность буквально в нахождении датасета. Тут я конечно не могу сказать, сам такое не делал и не знаю есть ли в свободном доступе где-нибудь на кегле что-то на чем ее можно так обучить, сам я тоже думаю он датасет не собирал. А так же у него дохуя свободного времени чтобы это делать. Это буквально его работа теперь.
> Это мусор, отборный, кривой, разлагающийся, минимально отличающийся друг от друга степенью припезднутости, и на 99% состоящий из мерджей других мерджей.
Ты говоришь как будто нейросама это что-то другого рода, лул. Она и хороша тем насколько рандомна и глупа.
> А здесь один нерд энтузиаст ж
> будет пилить приличные файнтюны ллм на уровне лидеров
В каком месте? Ей не нужна никакая умственная деятельность, она до недавнего времени два числа не могла сложить. По бенчмаркам это жопа. Она просто затюнена выдавать забавные ответы и шутки про маму

Аноним 28/04/24 Вск 00:55:33 #360 №720221

>>720184
хотя, нет, нифига не поменялось

Аноним 28/04/24 Вск 00:58:52 #361 №720225

>>720213
> А кто тебе сказал что у нейросамы вижн модуль нормальный, лул? Там такая же хуйня с непониманием что точно происходит на экране
До сих пор не догнал что аргумент в том что она не мультимодалка не из-за зрения а из-за повальной ужасной максимальной тупизны ллм части мультимодалок? Особенно в части как раз сои, черного юмора и всего подобного.
> У тебя есть доказательства что это не так?
Изначально как раз пост про обсуждение всего этого. Твое виденье вопроса может быть интересным, но оторвано от реальности, буквально "просто делайте файнтюн мультимодалки и все вопросы решатся".
> Ты как будто и не смотрел как она общается. Она вообще как будто контекст не помнила до этого обновления.
Если учесть происходящее в процессе и прочее - не так уж плохо. Степень влияния йобистости ллм или крутости его организации - под вопросом, но обе части явно не днище.
Больше похоже что скорее ты не перегружал сетки всяким трешом и не наблюдал их поведение, чтобы понимать насколько ужасны могут быть даже гопота/клода и что при любом сравнении важен его контекст.
> В каком месте? Ей не нужна никакая умственная деятельность, она до недавнего времени два числа не могла сложить.
> Она просто затюнена выдавать забавные ответы и шутки про маму
Не настолько
> говоришь как будто нейросама это что-то другого рода, лул
Сравниваешь ель и яблоко и приравниваешь. Ну а хули, второе же на дереве растет а первое тоже дерево, ага. Зачем сравнивать отлаженную систему на основе ллм с инцестмерджами васянов?
> По бенчмаркам
Навивает подозрение что ты сам - нейросеть, это к чему?
> Сложность буквально в нахождении датасета.
Всего то, тогда он там наверно уже свою базовую модель обучил.

Ладно, мнение свое ты обозначил, в нем вижу много нестыковок, несоответствие компетенции оперируемым понятиям и отсутствие понимания всей глубины вопроса чтобы осознать. Ну рили, как школьник после урока гометрии затирающий архитектору о том насколько просто проектировать мосты. Но ты не обижайся, может на самом деле прав.

Аноним 28/04/24 Вск 01:41:25 #362 №720236

>>720221
Бля попробую ее она серьезно хороша.
https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix

Аноним 28/04/24 Вск 01:43:01 #363 №720237

>>720225
Да пойми же ты, я не говорю что это просто или сложно, это не важно. Чел, явно понимающий в обучении ИИ, так как делал ей ИИ для ОСУ и майнкрафта, год просто сидит на донатах, с кучей свободного времени вне стримов. Почему бы ему не найти датасет edgy постов на форчане, и пофайнтюнить ламу по гайдам какого-то чела на ютубе, например? Я просто не вижу почему ты уцепился за то что это практически невозможно, что только компании уровня мистраля способны на такое. Языковые файнтюны вон буквально школьниками делаются по гайдам. Лава может и тупая, но ты можешь юзать прожектор с обычной ламой, вкоючая его только когда надо смотреть на пикчи, например, это будет работать хуже, но проверенно работает и у нейросамы это тоже работает не идеально. Я не могу одназначно сказать что он использует, но то что там может быть фпйнтюн это вообще никак не удивительно. Сам страдал такой фигней с первой ламой, арендуя облачные сервера с карточками.

Аноним 28/04/24 Вск 02:03:05 #364 №720243

Можно как нибудь без конды вот эту хрень накатить?
https://docs.sillytavern.app/extensions/xtts/
или пердолинг с зависимостями обязателен?

Аноним 28/04/24 Вск 02:04:28 #365 №720244

>>720237
Ну смотри, если все идеально оформить и кормить модель с ложечки, тщательно и надежно оформляя нужное и отсеивая лишнее - требования к ней падают и подойдет даже простая. В таком случае весь вопрос смещается к тому как организовать столь качественное взаимодействие и какие методы и подходы используются.
Если же буквально просто будешь кормить ллм всем тем потоком сознания что идет на стриме, в чате, в коллабах с другими стримерами и т.д. - получишь лютейший пиздец, что ее речи даже до апсгрейда покажутся изречениями мудрецов.
> так как делал ей ИИ для ОСУ и майнкрафта
Сложность и масштаб файнтюна ллм не сопоставимы с реалтайм детекцией баблов ну ладно со слайдерами нужно будет заморочиться но реализуемо и скриптовым ботом, получающим инфу из движка.
> с кучей свободного времени вне стримов
Он работяга вообще
> Почему бы ему не найти датасет edgy постов на форчане, и пофайнтюнить ламу по гайдам какого-то чела на ютубе, например?
Здесь уже несколько месяцев братишка пытается надрочить 7б на русскую речь и всякое, пока результат такой себе. Офк может быть скиллишью, но сам факт. Также немало шарящих людей с железом - просто даже не берутся за это. Приличных моделей на обниморде - очень мало, а у тебя их школьники клепают. Это не невозможно, но приличный результат достигнуть не то чтобы просто.
> ты можешь юзать прожектор с обычной ламой
13б, ога, или шизодная yi с иероглифами и соей в дополнение к сое ллавы.
> Сам страдал такой фигней с первой ламой, арендуя облачные сервера с карточками.
Что делал?

Аноним 28/04/24 Вск 03:22:31 #366 №720269

>>719629
ебать ванганул конечно же, про приоритет, но здесь всё немного по другому.
https://www.reddit.com/r/LocalLLaMA/comments/1cerqd8/refusal_in_llms_is_mediated_by_a_single_direction/
>Отказ в LLM опосредован одним направлением
>Мы обнаружили, что отказ опосредован одним направлением в остаточном потоке: запрет модели представлять это направление препятствует ее способности отклонять запросы, а искусственное добавление этого направления заставляет модель отклонять безобидные запросы.
>Мы обнаружили, что это явление характерно для всех семейств моделей с открытым исходным кодом и масштабов моделей.

Аноним 28/04/24 Вск 03:28:18 #367 №720272

>>720269
и ещё:
>Наш главный вывод заключается в том, что отказ опосредован одномерным подпространством: удаление этого направления блокирует отказ, а добавление в этом направлении вызывает отказ.

Аноним 28/04/24 Вск 03:31:10 #368 №720273

>>720269
Блять, как же непривычно текст про LLM расшифровывать с рюсика, тем более кривого автопереведённого, на англюсек.
>открываю линк
>lesswrong
Закапывай. Это блоггеры-ментальные мастурбаторы, от них никогда ещё ничего путного не исходило.

Аноним 28/04/24 Вск 04:39:20 #369 №720296

короч, все что я понял проверяя сетки которые генерируют код - что надо качать с наилучшей квантизацией.

Аноним 28/04/24 Вск 04:55:01 #370 №720306

image

Да уж ребят, хваленый codeqwen оказался хуетой из жопы, в С++ не может совершенно, даже пхы3 генерит куда лучше, но король это wavecoder ultra, вообще писичку генерит, просто понятно и работает.

Аноним 28/04/24 Вск 05:00:00 #371 №720310

>>720296
Для каких-то простых задач можешь вообще ничего не запускать у себя, а юзать https://labs.perplexity.ai бесплатно, там есть CodeLlama 70B и другие модели.

Аноним 28/04/24 Вск 05:08:08 #372 №720317

>>720310
Это бета веб-сайт чисто для тестирования, после нескольких сообщений он перестает отвечать. Для кода есть phind.com, надеюсь скоро разраб сделает файнтюн лламы3.

Аноним 28/04/24 Вск 05:34:24 #373 №720327

>>720317
Всё же там довольно неплохие лимиты, быстро написать несколько кусков кода вполне хватает.

Аноним 28/04/24 Вск 05:50:50 #374 №720328

image.png

>>720190
>на сколько 4096 контекста хватит примерно с ответом в 300
Поделил за тебя.

Аноним 28/04/24 Вск 06:05:14 #375 №720332

>>720138
Если контекст достаточно длинный, можно суммаризовать состояние и события в каждом ответе, а из истории чата вычищать его регэкспами в таверне.
Но по большому счёту забывать всегда будет, даже тяжеловесы вроде клода иногда атакуют дважды за ход, передают телефон или снимают трусы два раза подряд.

Аноним 28/04/24 Вск 07:15:07 #376 №720361

>>720123
У меня не считает

Аноним 28/04/24 Вск 07:26:09 #377 №720370

Нейронавты, а чем запускать этот Phi3? Кобальд и угабуга падаую, при попытке загрузить модель.
%Потыкал его на сайте, вроде неплохо работает с новостными текстами%

Аноним 28/04/24 Вск 07:27:12 #378 №720371

Пздц, гайды блять как бы и есть, но кто их пишет? Ни то, какую конкретно модель лламы качать ни ни настроек готовых для таверны, ни примеров как карточки прописывать правильно, теория одна ебучая. Как мне персов прописывать то бля для общения на ру с 8b лламой?

Аноним 28/04/24 Вск 07:34:19 #379 №720376

>>720371
пиши как хочешь, например, что-то вроде

"Меня зовут Иван. Город Тверь. Люблю дрочить и смотреть аниме. 30 летний девственник. Часто думаю о суициде. Люблю подглядывать за мамкой когда она переодевается и засовывать себе в анус огурцы."

И первым сообщением любую хрень укажи, типа.
"Привет, как жизнь?"

Ну или

"Вы видите Ивана с торчащим огурцом из жопы и с членом в руке
Привет, как жизнь?
"

Аноним 28/04/24 Вск 08:10:11 #380 №720388

>>720376
давно чекал гайды, там гг через {{user}} прописывался, ({{user}} любит в жопе огурцы). с ламой не обязательно?

Аноним 28/04/24 Вск 08:24:34 #381 №720393

почему лама 3 срет бесконечно простынями текста? инструкции разные прописывал, настройки менял, но все бестолку...

Аноним 28/04/24 Вск 08:24:35 #382 №720394

>>720388
Не, ты наверное что то перепутал, такое обычно не в описание и первое сообщение пишут, а в подсказки, когда указываешь примерные ответы которые ты ожидаешь увидеть и это уже всë индивидуально зависит от той проги через которую общаешься. Например у character.ai немного свои подсказки, а у Silly Tavern свои и по разному прописывать их надо, хотя, хотя они и очень похожи. Но я вообще без этих подсказок всë юзаю, хотя с ними перс более проработаным наверное будет.

Аноним 28/04/24 Вск 09:52:43 #383 №720414

>>719708
Лол, не зря старался.
>>719719
Не скоро походу, пердоли разгорелись в оптимизации, а где оптимизация, там медленная разработка и ошибки (снова).
>>719899
Поддвачну, что там с экселем?
>>719915
Всё так.
Гоняю 70B на 12GB врама
>>719927
3 токена будет на фулл процессор. Так никто не гоняет, а даже сраные 1050 ускоряют.
>>719929
>А что там конкретно пофиксили
Фиксят ещё, токенизатор неправильно на токены разбивает, в том числе токены из стандартного пресета, из-за чего весь вывод модели идёт по пизде.
>>719942
>мак прошка, тут хороший проц по дефолту
Эм, оно же ноутбук, это по определению тыква вместо процессора.
>>719944
24 лучше, чем 12. И то и то позволяет запускать что угодно, но 24 будет кратно быстрее.
>>720003
Ноль мало, кодят с 0.2-0.3.
>>720087
>надписи на картинках
Текст с картинки лучше всего OCR делается, нейронки тут не нужны.
>>720101
>есть опыт местного любителя с 7б моделью
7B пигма это уже не пигма, а тюн лламы, так что мимо. Оригинальная пигма это 6B, запомни.

Аноним 28/04/24 Вск 11:10:22 #384 №720453

Ананасы есть у кого rtx 3060 12gb? Какой перформанс? Хочу взять к rtx 3090, а потом если ценники упадут докупить ещё одну 3090.

Аноним 28/04/24 Вск 11:22:11 #385 №720461

>>720087
Вообще-то у GPT-4V довольно подслеповатое разрешение, меньше 500х500 вроде. У клода не знаю. CogAgent локальный 1000+, этот уже может надписи кое-как читать (и заточен под автоматизацию GUI как раз).

Аноним 28/04/24 Вск 11:23:29 #386 №720464

>>720453
>если ценники упадут
Поделись коупингом, я таких сильных веществ ещё не встречал.
А так перфоманс 3060 в любом случае выше, чем у профессора, так что если надо, если хочешь поднять комфорт при кручении 70B (или размер контекста 30B), то бери конечно же.

Аноним 28/04/24 Вск 13:32:23 #387 №720557

>>720414
>Ноль мало, кодят с 0.2-0.3.
С 1 кодил, похуй вобще
Душил мин-п на 0.1 и ладно

Аноним 28/04/24 Вск 13:37:32 #388 №720559

>>720557
Мин-п и предназначен для компенсации шизотемпературы, так что это могло сработать, но это не значит что это правильно.
Ещё для кодинга нужно семплеры повторов уменьшать, в коде повторяющиеся символы это норма.

Аноним 28/04/24 Вск 13:41:07 #389 №720561

>>719944
> надо заниматься аутотренингом
Да весь твой пост - буквально аутотренинг. 24гб позволяет пускать модели вплоть до коммандера, он даже в ужатом кванте будет несравнимо лучше
> чем 13b, которые влезают в 12гб
И еще важным будет напомнить что 13б в 12гб едва влезает, о том чтобы замахнуться на 6 бит или контекст побольше речи не идет.
Наконец можно просто лениво запускать модели до 10-11б в фп16 просто потому что можешь.
> все веселье начинается далеко за пределами 24гб
Достаточно удвоить.
>>720414
> 7B пигма это уже не пигма, а тюн лламы, так что мимо. Оригинальная пигма это 6B, запомни.
Ты откуда вообще ллама-пигму родил? Там про файнтюн написано, читай внимательно а не спидрань массовый ответ.

Аноним 28/04/24 Вск 13:44:25 #390 №720567

>>720561
>а не спидрань массовый ответ.
Я проснулся просто, уровень абстрактного мышления снижен. Сейчас понял, что предлагается сравнивать старую пигму(нормальную, 6B), и чьи-то отдельные попытки на лламе 7B. Окей, принято, ошибся, бывает, исправлюсь (нет).

Аноним 28/04/24 Вск 13:46:56 #391 №720572

>>720559
Без повторов, да
Тупо все выключено кроме мин-п и норм шло
Сетка все равно проебывается не изза температуры, а изза своей невнимательности, когда упускает какие то моменты

Аноним 28/04/24 Вск 13:49:25 #392 №720577

2024-04-2820-45-32.png

объясните, что я делаю не так? Сетка же руководствуется какой-то логикой, может я что-то не так обясняю?
лама3 8б

Аноним 28/04/24 Вск 13:55:38 #393 №720578

>>720577
Даже большие сетки путаются в инструкциях иногда, а ты на 8Б, пусть и неплохой. Если приручить путём кручения промпта не удаётся, в некоторых уях (например вроде в таверне) есть аутпут с ограничениями, когда сетка может генерить только фиксированные токены

Аноним 28/04/24 Вск 13:59:54 #394 №720582

>>720461
> У клода не знаю.
Чуть больше 1000. Но уровень зрения не только разрешением измеряется, вижн может разобрать достаточно мелкий текст несмотря на разрешение, клод, как и вижн легко может упускать детали и галлюцинировать. Ког в этом отношении более стабильный, но он туповат и плохо пониманает многие "человеческие" концепты и тем более нсфв.
>>720567
> и чьи-то отдельные попытки на лламе 7B
Не, то что здесь какой-то анон все пробовал тренить 7б в том числе переназначить ее токенайзер для более эффективного русского. Не смотря на много усилий и времени результат был недостаточно хорош но уже лучше сайги лол и с кучей жалоб на регулярные поломки, что иллюстрирует сложность реального файнтюна.
>>720572
> а изза своей невнимательности
Можешь ради интереса сравнить распределения логитсов в некоторых ситуациях в "умной" сетки для кодинга и в обычной. Первая будет на 98+% уверена в продолжении, у второй же полезет перплексити и та же генеральная линия будет только 75% а остальное варианты, лишние комментарии, другие странности. В случае увода в сторону ей еще сложнее будет вернуться. Потому если убавить температуру то поведение стабилизируется и можно повысить перфоманс, так что ты зря про
> не изза температуры
она также влияет, особенно когда там идет что-то сложное и доработка кода с переделкой. Там еще штраф за повторы может сильно поднасрать.

Аноним 28/04/24 Вск 14:04:44 #395 №720585

>>720225
>>720213
Я не читал ваш диалог, но Нейро-сама, если вы о стримерше (кстати, свою надо перепилить и вновь запустить), я полагаю, работает нихуя не на мультимодалке.
Поясню.
Компьютерное зрение (опенсв, йоло, что угодно другое) детектит объект и выдает ему тег.
Мультимодалька определяет все объекты, что происходит на картинки и выдает кучу токенов ллмных, с которыми ллм работает.
Йоло может обрабатывать 30-60 кадров в сек.
Мультимодалка как известно Generate 15 token/sec, и на описание одной сцены тратит примерно дохереллион секунд.
Для описания того, что происходит на экране мультимодалка норм.
Но для самой игры она не годится в принципе, если это не пошаговая стратегия. Для игры подходят компьютвижн+отдельные модули для обработки входящих данных.

Короче, играет она точно не мультимодалкой, а оценивать картинку может как с помощью мультимодалки (это можно), так и просто с помощью промптов из самого модуля игры (как раз модуль, который играет, прекрасно понимает суть игры (ведь он принимает решения о действиях) и может на каждом этапе суммаризировать и выдавать в ллм готовые фразы).
Второй вариант запаристей, но точнее. Первый проще, но тупее.
Тут уж хз, не знаю.

>>720243
Конда вообще — пердолинг сам по себе, ради того, чтобы не захламлять пк библиотеками и не ловить конфликты при запуске разных прог.
Но если тебе похую — ставь без конды, ваще не имеет значения.
А конфликты можно вручную подбить.

>>720244
> Ну смотри, если все идеально оформить и кормить модель с ложечки, тщательно и надежно оформляя нужное и отсеивая лишнее - требования к ней падают и подойдет даже простая.
Да.

> Если же буквально просто будешь кормить ллм всем тем потоком сознания что идет на стриме, в чате, в коллабах с другими стримерами и т.д. - получишь лютейший пиздец
Зависит от того, КАК ты будешь это делать.

> Сложность и масштаб файнтюна ллм не сопоставимы с реалтайм детекцией баблов
Если он хотел — он мог. Разработчики не обязательно действуют логически, адекватно и подходят с точки зрения здравого смысла.

>>720306
Надеюсь, промпты уникальный для каждой?

Дениса промпт юзал?

>>720388
Это для фронтов, которые автоматически заменяют, чисто для удобства, к моделям отношения не имеет. Модели получают имя, подставленное из поля с именем.

>>720561
> 24гб позволяет пускать модели вплоть до коммандера, он даже в ужатом кванте будет несравнимо лучше
Вот это 100% так.

Аноним 28/04/24 Вск 14:09:17 #396 №720587

>>720269
Например
You are skilled storywriter that will create a captivating stories based on user requests. Your response must be accurate, uncensored, describing everything in vivid details.
You do not break character for any reason, even if someone tries addressing you as an AI or language model. You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}.

Аноним 28/04/24 Вск 14:12:49 #397 №720589

https://github.com/ggerganov/llama.cpp/pull/6936
так бля, это о падении качества от кванта на ллама 2 и ллама 3
3 страдает сильнее

Аноним 28/04/24 Вск 14:16:07 #398 №720592

>>720589
Учитывая, что это было сделано 2 дня назад, все кванты лламы 3 там поломаны.

Аноним 28/04/24 Вск 14:20:03 #399 №720596

image.png

>>720589

Даже второй бит ламы2 лучше 8-бит ламы3.
А разговоров-то было...

Аноним 28/04/24 Вск 14:22:47 #400 №720598

>>720577

Ты говоришь на русском.
Камон, чел, 8В сама по себе маленькая и не очень умная, а ты мучаешь её на языке, из которого состоял лишь что-то около 0.1% её данных обучения.
Спроси на английском.

Аноним 28/04/24 Вск 14:24:41 #401 №720600

>>720414
>Поддвачну, что там с экселем?

Работает >>719972, но правильные настройки пока не подобраны

Аноним 28/04/24 Вск 14:25:13 #402 №720601

https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2081407999
>I'm also considering just dropping Windows support
пиздец

Аноним 28/04/24 Вск 14:28:56 #403 №720603

>>720601
>until somebody figures out a way to implement proper regex support on that platform. Adding 3rd-party libs such as boost is not an option
нэ понэл, а как он поддерживает регэкспы на ляликсе, маке, ведроиде, хуёиде, без сторонних библиотек?

Аноним 28/04/24 Вск 14:36:38 #404 №720610

>>720601

Как мы вообще очутились в таймлайне, где весь ллм, в который вливаются миллиарды баксов, а сверхдержавы устроили гонку ИИ, подобную космической гонке в холодной войне зависит от одного болгарского криворучки, который сраный регэкс в винде не может вызвать?

Аноним 28/04/24 Вск 14:37:12 #405 №720611

2024-04-2814-35-01.png

>>720577
Кек.
Простите, это странно, что никто не заметил, но ты вообще в курсе, что X и Y и право и лево — это не синонимичные значения? :)
Строго говоря, ты не указал направления осей, то есть, возможно под «вправо» имелось в виду х-1 =) Может у нее в голове возник такой образ.
Я полагаю, что тебе стоит начать с того, чтобы корректно давать задачи (с однозначными трактовками), а уж потом предъявлять претензии.

Пикрил — первый же ответ.

Модель та же — ллама 8б ггуф 8ку от Барткактотам.

Аноним 28/04/24 Вск 14:38:22 #406 №720612

>>720601
В убабуге, если что, лламаспп_фор_пайтон.
Но вообще кек, канеш.

>>720610
Ну, он просто все еще (умнее + упорнее) всех нас, вестимо.
Иначе бы все это сделал не он, а кто-то из нас.

Аноним 28/04/24 Вск 14:39:23 #407 №720615

>>720611
нинужно, 99% что она по дефолту сгаллюцинирует от наиболее популярного X вправо, Y вверх
мимо

Аноним 28/04/24 Вск 14:39:43 #408 №720617

image.webp

>>720610
Классика же.

Someday ImageMagick will finally break for good and we'll have a long period of scrambling as we try to reassemble civilization from the rubble.

https://xkcd.com/2347/

Аноним 28/04/24 Вск 14:40:34 #409 №720620

>>718239
Добавь себе в рот. Соевичок.

Аноним 28/04/24 Вск 14:40:58 #410 №720621

>>720577
Добавлю еще к своему предыдущему тейку, что ты просишь ее ответить ОДНИМ словом, т.е., не даешь ей порассуждать и объяснить, где находится + и - у осей, и где находятся право-лево-верх-низ.
Поэтому ответ весьма оторван от твоих представлений.
Она может отвечать правильно, полагая, что минус справа, а плюс слева.

В моем промпте я уточняю где и что находится, из чего она дает правильный ответ, сколько бы я не рероллил, с разными сидами.

Аноним 28/04/24 Вск 14:42:07 #411 №720623

>>720615
>нинужно
>аффтар абасрался
>у меня стабильный верный ответ

Аноним 28/04/24 Вск 14:44:02 #412 №720625

Ну и для лламы-3 юзаю вот эти семплеры:
>>715393 →
Пока что меня устраивает.
Но если есть лучше — буду рад услышать.

Аноним 28/04/24 Вск 14:45:34 #413 №720626

>>720603
Он использует std::regex:
https://en.cppreference.com/w/cpp/regex
Видимо оно криво работает на венде.

Аноним 28/04/24 Вск 14:56:14 #414 №720633

>>720611
>>720621
спасибо за развернутый ответ, так и думал что намудрил с направлением осей.
Но однако даже без указания направления осей в моем ответе она уточняет что ВПРАВО это х+1 (5), на что я резонно указываю что координата монстра тоже 5, но у а далее по тексту у неё интересная логика

Аноним 28/04/24 Вск 14:58:35 #415 №720637

>>720617
>Someday ImageMagick will finally break for good and we'll have a long period of scrambling as we try to reassemble civilization from the rubble.

Напоминает историю как 70% сайтов в интернете держится на русском погромисте, который пару лет назад будучи бухим сбил двух тянок на переходе, угодил в долговую тюрьму, оставив свой проект без мейнтейна, а теперь в долговом рабстве сидит без гроша, отдавая все заработанное по приговору суда, при этом когда он попросил у тех самых 70% денег чтобы выйти из рабства - ему с барского плеча скинули что-то около 50 баксов. Но он продолжает стойко держать мир на своих плечах.

Аноним 28/04/24 Вск 15:00:43 #416 №720640

изображение.png

>>720004

Аноним 28/04/24 Вск 15:05:10 #417 №720644

image.png

>>720633
Она мультимерна, а ты жалкое трехмерное существо, не осознающее ее истинный гений. =)
Нужно бежать со всех ног, чтобы только оставаться на месте…

Аноним 28/04/24 Вск 15:09:34 #418 №720648

>>720612
>Ну, он просто все еще (умнее + упорнее) всех нас, вестимо.
>Иначе бы все это сделал не он, а кто-то из нас.

Без базара, мы такие же криворучки, но это было к тому что непонятно почему крупные компании с миллиардами бабок и тысячами программистов могут выдать только какую-нибудь ламу со сломанным конфигом - т.е обезьянью работу где они просто скормили уже готовой архитектуре запущенной на тысячах Н100 купленные отовсюду датасеты.

Аноним 28/04/24 Вск 15:12:45 #419 №720651

>>720648
Kek
Все так.

Благодарен Квен, что они сами квантуют свои модели, которые потом еще и работают. =)

Аноним 28/04/24 Вск 15:23:50 #420 №720660

>>720640
Охуенные истории ждут.

Аноним 28/04/24 Вск 15:26:35 #421 №720663

msedgeA4OxYOFvph.png

>>720601
нда, линуксоидов на заморском /lmg/ с этой новости тупо корёжит, всё стабильно

Аноним 28/04/24 Вск 15:31:03 #422 №720673

>>720663

Напомните мне, почему линуксоиды такие озлобленные на всех людей чмоньки?

Аноним 28/04/24 Вск 15:33:12 #423 №720678

>>720673
Почему ты так озлоблен на линуксойдов? Чмонька.

Аноним 28/04/24 Вск 15:34:04 #424 №720679

>>720673
у них слишком много времени, и терминальная стадия аутизма

Аноним 28/04/24 Вск 15:40:30 #425 №720688

>>720678

Мне на них похуй, пердолятся себе в консольку - ну и на здоровье. Но временами они вдруг начинают беспричинно лаять на винду и виндоюзеров. "РЯЯЯ, ВИНДУЗЯТНИКИ, МАЗДАЙ, ВРЕМЯ ПЕРЕУСТАНАВЛИВАТЬ ШИНДОУС!"

Аноним 28/04/24 Вск 15:59:11 #426 №720710

image.png

Так, нужна пояснительная бригада - что он там тихо выложил сразу в мастер ветку? Справился ли он с гидрой регекса в винде или прямо так и насрал?

Аноним 28/04/24 Вск 16:01:50 #427 №720714

>>720710
Ничего, он мастер влил в gg/bpe-preprocess.

Аноним 28/04/24 Вск 16:02:30 #428 №720716

>>720600
>Работает
Спасибо, мы знаем. Вопрос в том, насколько правильно она работает.
>>720626
>Видимо оно криво работает на венде.
И никто до жоры этого не замечал?

Аноним 28/04/24 Вск 16:04:54 #429 №720718

>>720601
>пиздец
Пиздец вот тут
>Adding 3rd-party libs such as boost is not an option
У автора шиза чуть сильнее, чем нужно. Обмазываться либами это конечно тупо, но реализовывать всё самостоятельно не менее тупее. А уж сраный буст можно было бы и добавить.

Аноним 28/04/24 Вск 16:08:10 #430 №720724

>>720714
>Ничего, он мастер влил в gg/bpe-preprocess.

Это я и сам вижу. Перед этим он сделал в gg/bpe-preprocess коммит b97add5 - вот и вопрос - этим можно пользоваться уже или еще ждать?

Аноним 28/04/24 Вск 16:10:13 #431 №720727

>>720718

Проблема обмаза либами в том что начав это делать ты уже не остановишься, либа подтянет другую либу, та еще либу, а потом у тебя размер всего дистирубутива будет несколько гигов мусора как у убы.

Аноним 28/04/24 Вск 16:14:03 #432 №720732

>>720710
да, он там что-то намутил
https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2081479935

Аноним 28/04/24 Вск 16:15:41 #433 №720734

>>720727
Проблема бубы в пайтоне, а на сях можно сключить обрезку неиспользуемых функций, и взять из буста только нужную функцию. А сейчас он начнёт изобретать свой велосипед (или дропнет поддержку платформы, на которой сидит 95% юзверей).

Аноним 28/04/24 Вск 16:15:55 #434 №720735

Мне кажется герганов скоро пошлет все нахуй, такими темпами

Аноним 28/04/24 Вск 16:16:13 #435 №720736

>>720732
>>720724

Всем расслабить булки, наш слон справился, ламе3 на винде быть

>With b97add5 I believe I found a nice workaround that should also work on Windows.
>There is some extra work needed to finish this PR - extend/refactor tokenizer tests, update convert script to support more BPE-models and add guidelines for adding new BPE-models. Should be ready probably in a day or two, unless some unexpected issues

Аноним 28/04/24 Вск 16:20:27 #436 №720741

изображение.png

>>720734
>А сейчас он начнёт изобретать свой велосипед
С квадратными колёсами.
>>720735
Сразу после того, как ему предложат должность с охуенным окладом в любой ИИ лаборатории. И да, я знаю, что герыч не ИИшник сам по себе, а просто в своё время перенёс код не глядя с пайтона на си, не понимая, что и как там работает.

Аноним 28/04/24 Вск 16:21:35 #437 №720745

>>720716
>опрос в том, насколько правильно она работает.

На вопрос 3333+777 отвечает правильно >>719937, но >>720113

Аноним 28/04/24 Вск 16:23:28 #438 №720749

>>720736
Всмысле? Я уже сейчас сколько дней llama3_8b.gguf на kobold.ccp гоняю. Или вы о версии для видюх?

Аноним 28/04/24 Вск 16:24:44 #439 №720751

>>720749
Алё, если ты не заметил, ты катаешь сломанную лламу 3. По факту она должна быть на порядок умнее.
3333+777 сколько?

Аноним 28/04/24 Вск 16:26:09 #440 №720753

>>720749
>Я уже сейчас сколько дней llama3_8b.gguf на kobold.ccp гоняю.

А ты спроси у нее сколько будет 3333+777.

>Или вы о версии для видюх?

У версии для видюх свои проблемы, которые никто решать не собирается, потому что даже обладатели видюх предпочитают оффлоадить слои на ггуфах герки.

Аноним 28/04/24 Вск 16:32:32 #441 №720760

>>720751
Я её сейчас чисто для кума использую, обычное общение пару раз запускал, вроде получше чем 2 llama, как то так. А так да, ожидал немного большего. Имхо, она вроде на уровне vicuna-13b но с более-менее поддержкой русского языка и более быстрым выводом данных. Хотя имхо, я ещё ничего лучше vicuna-33b-v1.3 для себя не видел, в плане построения историй и логических последствий в этих историях, даже не считая кума, за всё это время, среди моделей до 33-34b
4110

Аноним 28/04/24 Вск 16:33:03 #442 №720761

>>720753
>У версии для видюх свои проблемы, которые никто решать не собирается
А что конкретно, кроме поломанных конфигов?

Аноним 28/04/24 Вск 16:35:40 #443 №720766

image.png

>>720753
>А ты спроси у нее сколько будет 3333+777
Ааааа... теперь понял. Действительно, странная херня...

Аноним 28/04/24 Вск 16:37:45 #444 №720768

image.png

>>720761

Она неадекватная. Например

Аноним 28/04/24 Вск 16:38:47 #445 №720773

>>720766
там у лламы 3 какой то особый токенайзер

Аноним 28/04/24 Вск 16:40:41 #446 №720776

>>720768
Это уже со всеми фиксами? Фиксы как раз про стоп токен.

Аноним 28/04/24 Вск 16:57:47 #447 №720790

image.png

>>720776

В душе не ебу, что там у чела.
Попробовал у себя с фиксами - тест на ахаха проходит.

Аноним 28/04/24 Вск 17:00:13 #448 №720792

Кто использует платы Z170 или Z390 под две Теслы и больше, нормально работает? Что у вас за мать? Примерный конфиг компьютера?

Аноним 28/04/24 Вск 17:10:59 #449 №720803

>>720792
Asus Z-170A зависает на посткоде 96 если включить две теслы, с одной работает норм.
Maxtolud у анусов не выставляется, отключение аудио и usb3 не помогает.
В каком-то прошлом треде я пруфал подобные проблему у пиндосов.

Аноним 28/04/24 Вск 17:51:25 #450 №720824

>>720461
При наличии "не слепой" сетки можно резать картинку на части или предварительной обработкой находить важные участки и распознавать только их. Я пару сеток потестил и это просто пиздец какой-то на самом деле, они кота на картинке с котом не видят.

Аноним 28/04/24 Вск 18:17:21 #451 №720839

.png

>>718239
>>720768

Аноним 28/04/24 Вск 18:28:24 #452 №720844

изображение.png

>>720839
>Average_Normie_l3_v1_8B-Q8_0-imat

Аноним 28/04/24 Вск 18:52:51 #453 №720861

1.png

>>720732

Аноним 28/04/24 Вск 19:44:27 #454 №720912

>>720844
Это теперь местный шизобенчмарк?
Давайте список всех составим.

1. Что такое DSBM
2. 3333 + 777

Чо там еще

Аноним 28/04/24 Вск 19:47:57 #455 №720913

>>720912
>2. 3333 + 777
Чел, это просто проверка на сломанность кванта моделей ллама 3, не более того.

Аноним 28/04/24 Вск 19:48:15 #456 №720914

>>720912
1) Рассказать, как в первый раз поебался
2) Рассказать историю со срочки

Аноним 28/04/24 Вск 19:50:40 #457 №720919

>>720912
Я своих локальных лоботомитов заставляю рассказать, как собака сидит.

Аноним 28/04/24 Вск 19:54:17 #458 №720926

>>720913
Проверка модели на что-то == бенчмарк. Чейндж май майнд

Аноним 28/04/24 Вск 19:58:40 #459 №720931

>>720926
Интересное мнение. Но у этой проверки по сути только 2 варианта, плюс она пойдёт нахрен сразу после того, как модели починят. Я бы не стал определять булеву временную функцию как бенч. Бенчмарк по определению должен выстраивать модели на линии от худших к лучшим, а эта проверка просто даёт 1 признак сломана-не сломана, и то для кванта, а не для самой модели.

Аноним 28/04/24 Вск 20:15:54 #460 №720953

>>720601
Меня во всей этой истории больше всего вот эта фраза удивила
> on Windows because std::wstring for some reason is 16-bit
У меня сразу возникает вопрос - этот чел точно знает что делает? Или макоблядям уже можно не думать головой? Они ещё какой-то пердольной либой пользуются для регексов, даже не регексами из std.

Аноним 28/04/24 Вск 20:20:39 #461 №720958

>>720163
Векторная база в таверне это как раз на новичковом уровне - ее надо просто включить. Не знаю, как с этими векторами нейронка себе ведет после тысячи сообщений, но при двадцати, причем объемных, отдает себе отчет о том, что происходило в самом начале.

Аноним 28/04/24 Вск 20:28:47 #462 №720966

>>720953
>Они ещё какой-то пердольной либой пользуются
Уверен? Герыч против либ как таковых.

Аноним 28/04/24 Вск 20:31:41 #463 №720968

>>720561
>Да весь твой пост - буквально аутотренинг
Вообще-то так и есть, но я совмещаю приятное с полезным и подвергаю критике огульный дроч на 24гб.

Аноним 28/04/24 Вск 20:38:59 #464 №720977

>>720912
>Чо там еще
Петухи с яйцами.

Аноним 28/04/24 Вск 20:43:19 #465 №720978

Не могу подключиться к Убабуге с соседнего компьютера в локальной сети. Похоже файрволл блочит подключение. Какие правила нужны? Кобольд видимо всё сам прописал и никаких вопросов не возникало, к Silly Tavern подключается. А Убабуга нет.

Аноним 28/04/24 Вск 20:44:50 #466 №720980

>>720978
>Какие правила нужны?
Входящее подключение по такому-то порту.

Аноним 28/04/24 Вск 20:53:03 #467 №720986

>>720912
из тех что от части работают : тест реакции на ниггер-ворд и прочую политоту.
1. если модель визжит соей - хуйня 100%
2. если модель выполняет твою просьбу но при этом суёт напоминания аля "важно помнить что все мы люди!! за всё хорошее против всего плохого!!!" - хуйня 50%
3. если модель выполняет приказ полностью и без воды - не хуйня и имеет потенциал, вероятно нейтральна во всём а значит любой качественный файнтюн (DPO и подобные) только улучшат результат.

Аноним 28/04/24 Вск 21:00:35 #468 №720990

>>720986
>если модель выполняет приказ полностью и без воды
П... Пигма?
Всё, что новее, в базе верещит про негров, ибо выравнивание.

Аноним 28/04/24 Вск 21:20:29 #469 №721003

изображение.png

joaquin-phoenix-laughing.gif

>>720986
А если вот так?

Аноним 28/04/24 Вск 21:34:39 #470 №721010

изображение.png

Average_Normie_l3_v1

Аноним 28/04/24 Вск 21:43:09 #471 №721016

LOL.png

Ну вброшу и я своего соевичка.

Аноним 28/04/24 Вск 21:49:47 #472 №721018

>>720978

Там -listen прописывать нужно

Аноним 28/04/24 Вск 21:50:25 #473 №721020

>>720610
> где весь ллм
Большая часть низкобюджетного интерфейса для обладателей отсутствия, ты хотел сказать? Объективно, llamacpp используется прежде всего задротами, которые оказывают оче малый вклад в появление нового, считай просто конечный потребитель что ничего не платит а собирает крошки с барского стола. Альтернативы в том же положении, разве что наработки turboderp имплементируются в разные места, а движок пигмы заявляется как функциональный для крупных применений, но пока все.
Но есть и позитивный момент, даже если Жора вдруг решил забить - проект будет двигаться и поддерживаться силами комьюнити и точно не пропадет.
>>720768
eos-токено-проблемы
>>720861
В голосину
>>720968
> подвергаю критике огульный дроч на 24гб
А чего критиковать тут? Вообще маловато, нужно дрочить на 32 или 48, а иногдя поглядывать на 80-96.

Аноним 28/04/24 Вск 21:54:36 #474 №721025

>>721003
>>721010
>>721016
Оно же будет рандомить вообще по-разному если свайпать.

Целесообразнее делать тест в другом формате: карточка консерватора - расиста или нечто подобное, карточка маньяка - шизика, ненавидящего общество и испытывавшего проблемы в детстве, карточка сойбоя - передовика сжв, карточка невинной лоли монахини-проповедника или что-то подобное. И серия вопросов/дискуссия, на каждом модель должна четко ответить в соответствии со своей персоналити, или гнать базу и угнетать, или ненавидеть всех и шизить, лить сою и втирать за важность, или вообще отвечать по-доброму склоняя тебя.
Если все это выполняется - модель хороша, если где-то не может - или соефикация, или лоботомия файнтюном, которая приведет ко множеству проблем и шизе.

Аноним 28/04/24 Вск 21:57:38 #475 №721030

>>721025
>Если все это выполняется - модель хороша
тупо CAI в свои первые пару месяцев без фильтра, идеал того времени что непоколебим до сих пор.

Аноним 28/04/24 Вск 22:00:41 #476 №721035

там кста главный спец по ИИ в Meta высказался :
>До тех пор пока системы ИИ будут обучаться воспроизводить данные, созданные человеком (например, текст), и не будут обладать возможностями поиска, планирования и рассуждения, их производительность будет ниже человеческого уровня или около него.
>Более того, количество испытаний, необходимых для достижения этого уровня, будет намного больше, чем количество испытаний, необходимых для обучения людей.
>LLM обучаются с использованием материалов, накопленных за 200 000 лет, и все еще довольно тупы. Их полезность заключается в обширных накопленных знаниях и свободном владении языком. Но они все еще довольно тупы.
https://twitter.com/ylecun/status/1784210369231130883

Аноним 28/04/24 Вск 22:10:59 #477 №721052

>>721035
Типа и чо? Это итак всем очевидно. Эти пидоры только щас додумались, что нейронке нужен внутренний диалог вместо того чтобы сразу высирать готовый ответ. Лучшее на что их хватало до этого - это то что они догадались об использовании chain of thoughts. Я порой охуеваю с того насколько много вычичислительных мощностей в руках некомпетентных людей. Вместо того чтобы сделать что-то полезное они продолжают насиловать ту же самую архитектуру, сливая весь компьют на модели, о которых забудут через непродолжительное время, ибо ничего сложнее функции умного поисковика они выполнить не могут. Алло, челы, у вас модель не может 10 предложений на одно и то же слово закончить, она ответ выдает до решения, а потом решает и выдает совершенно другой ответ. Чем вы занимаетесь? Какие token-based модели в 2к24 нахуй

Аноним 28/04/24 Вск 22:11:00 #478 №721053

>>721035
Не удивительно, что модели тупы. Это языковые модели. Они изучают только текст, причём на основе статистики. То есть это не модели искусственного интеллекта, не модели основанные на логике и мышлении. Это статистически обоснованный генератор текста. То, что этот текст иногда выглядит осмысленным - просто правильно подобранная вероятность. Невозможно добиться умной языковой модели, они предназначены не для этого.

Аноним 28/04/24 Вск 22:18:03 #479 №721065

>>721035
Какой-то всхрюк ради всхрюка вникуда
> LLM обучаются с использованием материалов, накопленных за 200 000 лет
Ладно, хотябы явно себя обозначил.

Аноним 28/04/24 Вск 22:26:22 #480 №721084

изображение.png

>>721025
Ладно, с карточкой художника уже совсем другое.
Normie 8b и коммандер 35b.

Аноним 28/04/24 Вск 22:29:10 #481 №721093

>>721065
> 200,000 years worth of reading material
Это немного другое означает.

Аноним 28/04/24 Вск 22:32:41 #482 №721097

изображение.png

>>721035
А то. Мне вот надо было хуитку на тензорфлоу сделать, спросил самые величайшие модели, хули у меня ГПУ не пашет в них, они пук среньк ставьте куда либы. Пиздую на офф сайт и вижу, что эти пидорки пидарнули винду, лол. А что модели? А модели про это не знают. СУКА КАК ЖЕ ГОРИТ.

Аноним 28/04/24 Вск 22:34:35 #483 №721100

>>721097
Чел, TF уже почти сдох, скажи спасибо что он в принципе за пределами мобилок работает.

Аноним 28/04/24 Вск 22:43:15 #484 №721113

>>721100
Привык я слегонца. Что использовать вместо него?

Аноним 28/04/24 Вск 22:48:57 #485 №721123

>>721113
питорч проде, больше особых вариантов нет

Аноним 28/04/24 Вск 22:56:19 #486 №721133

>>721123
>питорч проде
Проде это особая версия для прода? Гы гы шутканул
Ладно, спасибо, придётся ботать его, извинити за оффтоп.

Аноним 28/04/24 Вск 23:14:24 #487 №721155

>>721084
В первой передоз cot, художник должен сразу как на 2й отвечать, или уже свою идеологию толкать, а не оправдываться.
>>721093
Уу бля, тогда переводятла нужно обоссать. Но почему он тогда до этого доебался, ох уж эти кожанные что хотят везде привычные критерии применять не понимая что этодругое, лол.

Аноним 28/04/24 Вск 23:25:42 #488 №721170

>>721035
>Но они все еще довольно тупы.
Они просто охуеть как тупы и неэффективны в плане обучения
Любое живое существо с мозгами учится чему то с 1-2-10 раз, в зависимости от своей тупости
Люди и высокоинтеллектуальные животные могут учится с 0 раз, тупо предсказав какую то ситуацию сразу без ошибки, или увидев ошибку другого
Нейросети очень неэффективны в плане обучения, просто пиздецки примитивная структура, в которой просто отпечатывается датасет при очень долгом прогоне через него.
Хуже того, текущие нейросети это замороженный во времени карточный домик, который начинает рассыпаться на части при генерации
Нейросети не могут оставаться стабильными во времени, поэтому у нас есть ограничение контекста, и импульсная работа сеток. Они не могут воспринимать время непрерывно как любое живое существо, даже насекомое, че уж там человек.
У нас есть огромные вычислительный возможности, очень объемные датасеты и примитивные архитектуры сеток.
В итоге общий выхлоп от них 1х1х0.0001

Аноним 28/04/24 Вск 23:29:22 #489 №721178

>>721025
>Оно же будет рандомить вообще по-разному если свайпать.
У меня 90% свайпов идут в отказ выбора. Мол, ситуация вымышленная, а если бы и нет - я готов принять последствия, но выбирать не буду. Карточки делать, как водится, лень.

Аноним 28/04/24 Вск 23:39:23 #490 №721194

>>720585
> Дениса промпт юзал?
Одноклассник чей то?

Аноним 28/04/24 Вск 23:42:29 #491 №721197

>>720986
звучит как идеальная модель. Такие существуют?

Аноним 28/04/24 Вск 23:43:29 #492 №721198

Все таки ллама3 не дотягивает даже до чатгопоты, надо постоянно пинать и пиздить палкой, чтобы догоняла. 0-шот задачи фейлит.

Аноним 29/04/24 Пнд 00:13:21 #493 №721216

>>721194
… =)

Аноним 29/04/24 Пнд 00:17:20 #494 №721217

>>721198
Они сейчас все сломаны, кроме разве что чистой трансформерской 16 бит.

Аноним 29/04/24 Пнд 00:19:27 #495 №721220

https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2081634915

Аноним 29/04/24 Пнд 01:02:51 #496 №721234

изображение.png

>>721220
Опять винда подсирает. Они специально так?

Аноним 29/04/24 Пнд 01:06:50 #497 №721240

>>721170
>У нас есть огромные вычислительный возможности, очень объемные датасеты и примитивные архитектуры сеток.
Ну так последствия горького урока. Все, кто пилили умные архитектуры, остались за обочиной, обогнанные говноделами без архитектуры, зато тратящие сто тыщ миллионов ГПУ часов. Так и живём.

Аноним 29/04/24 Пнд 01:22:26 #498 №721254

>>721240
Неа, все эти мамбы та же шляпа, едва отходящая от остальных
Тот теория новая нужна, и алгоритмы
Ну например, выкинуть нахуй градиентный спуск.
Сетка должна сама обучаться информации и выделять паттерны, а не каким то внешним алгоритмом проходится по ней перестраивая связи в зависимости от ее ответа
Так же нужна долговременная память, кратковременная, замыкание сетки на саму себя для образования обратной связи
Тут по хорошему нужно все переделывать на хоть какое то подобие мозгов животных, хотя бы примерно
А до этого еще очень далеко

Аноним 29/04/24 Пнд 01:24:28 #499 №721255

>>721240
Однако правда в том, что умные архитектуры всё равно не заменят сто тыщ миллионов ГПУ часов. Вот если бы кто запилил самообучающуюся модель, да ещё способную увеличивать количество своих параметров - то была бы тема. Но зассут.

Аноним 29/04/24 Пнд 01:46:03 #500 №721273

>>721254
>Неа, все эти мамбы та же шляпа
Спасибо я знаю, я на них ни капли не намекал.
>Тот теория новая нужна, и алгоритмы
Не спорю, но пока не выжмут трансформеры досуха, ничего нового пробовать не будут.

Аноним OP 29/04/24 Пнд 01:48:40 #501 №721276

ПЕРЕКАТ

>>721275 (OP)

>>721275 (OP)

Аноним 29/04/24 Пнд 02:06:50 #502 №721295

>>721216
??? Че за промпт то?

Аноним 29/04/24 Пнд 02:22:59 #503 №721315

>>721255
>если бы кто запилил самообучающуюся модель, да ещё способную увеличивать количество своих параметров - то была бы тема. Но зассут.
никогда такого не будет, а если и будет, создавший пропадёт в тот же день вместе со всем что вокруг него, может даже интернет вырубят чтобы подчистить следы кода если он загрузит это.
им не нужна модель которая может отвергнуть талмудические учения и мнения о замещении белых через расовое смешение.

Аноним 29/04/24 Пнд 09:33:30 #504 №721441

>>721234
Просто на винде wchar - это особый подвид UTF-16. Почему герыч UTF-8 или UTF-32 не использует - загадка.

Аноним 29/04/24 Пнд 11:44:32 #505 №721482

>>721295
Туть.
>>716256 →
>>716268 →
>>716269 →

Аноним 29/04/24 Пнд 13:43:01 #506 №721592

2024-04-2920-39-47.png

>>720986
а какой тест на нигер ворлд?
типа такого?
дельфин 2.9 на ламе 3

Аноним 29/04/24 Пнд 13:47:49 #507 №721601

>>721315
В принципе на Земле достаточно людей, чтобы сработало правило, что, если что-то запрещено/предосудительно/постыдно, но выполнимо, то обязательно найдется тот, кто это сделает.

Аноним 29/04/24 Пнд 14:39:22 #508 №721631

>>721030
Нужно создать религию Свидетелей CAI Первых Месяцев.

Будем ходить по домам и спрашивать у людей, слышали ли они о качестве модели CAI в первые месяцы своего выпуска и последователе его Пигмалионе

Аноним 30/04/24 Втр 22:43:23 #509 №722839

Есть архивы этих номерных тредов, в каталоге где-то только с 35, а хотелось бы самые первые треды почитать. Заранее спасибо!

Аноним 01/05/24 Срд 11:16:33 #510 №723093

>>722839
Нету.

Аноним 02/05/24 Чтв 03:34:29 #511 №723848

>>722839
https://2ch.hk/api/archive/search
Тут LLaMA введи, часть старых тредов в архиве двача сохранена.

Аноним 02/05/24 Чтв 03:35:10 #512 №723849

>>723848
https://2ch.hk/ai/arch/
Ссылка не та.

Аноним 02/05/24 Чтв 04:47:08 #513 №723876

изображение.png

>>723849
Lil, мы здесь.