24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №38 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Koboldcpp под Windows 7Аноним19/01/24 Птн 03:46:51#2№616194
Гайд для тех, кто хочет запускать Koboldcpp под Windows 7 на CPU с поддержкой AVX2 и/или GPU, так должно работать ощутимо быстрее. Я сам какое-то время помучался с этим, в итоге собрал собственные бинарники из исходного кода.
Суть проблемы заключается в том, что код llama.cpp, на основе которого построен Koboldcpp, использует функцию PrefetchVirtualMemory из ядра Windows, которая появилась только начиная с Windows 8. Из-за этого попытки использовать Koboldcpp под Windows 7 в любых режимах, отличных от "NoAVX2 Mode" и "Failsafe Mode", приводят к падению на этапе загрузки модели. Соответствующие правки ещё давно были внесены в код llama.cpp и Koboldcpp, но сделаны они таким образом, что вызов PrefetchVirtualMemory не используется только в режимах "NoAVX2 Mode" и "Failsafe Mode", что лишает возможности задействовать AVX2 инструкции и/или GPU для ускорения работы, в самом лучше случае (при выборе "NoAVX2 Mode") у вас будут задействоваться только AVX1 инструкции. Разработчики Koboldcpp несколько раз делали специальные билды, совместимые с Windows 7, но это не приняло системного характера, поэтому чтобы иметь свежую полноценную версию Koboldcpp под Windows 7 вам потребуется собрать её самостоятельно.
1. Скачайте архив со сборочными инструментами: https://github.com/skeeto/w64devkit/releases, под 64-битную систему вам нужен архив w64devkit-1.21.0.zip, под 32-битную w64devkit-i686-1.21.0.zip. Распаковываете его в отдельную папку.
2. Скачайте архив с исходным кодом Koboldcpp: https://github.com/LostRuins/koboldcpp/releases, выбираете "Source code (zip)". Распаковываете его в отдельную папку. Чтобы получить совместимые с Windows 7 библиотеки, задействующие AVX2, потребуется внести незначительные правки в процесс сборки. Найдите в исходном коде файл Makefile, откройте его в текстовом редакторе. Выполните поиск строки "gpttype_adapter.o: $(GPTTYPE_ADAPTER)" (без кавычек), после ней идёт строка "$(CXX) $(CXXFLAGS) -c $< -o $@", замените её на "$(CXX) $(CXXFLAGS) $(FAILSAFE_FLAGS) -c $< -o $@" (т.е. просто добавьте $(FAILSAFE_FLAGS) посередине, аналогично как в соседних). Это исключит вызовы PrefetchVirtualMemory при сборке библиотек koboldcpp_default.dll (загружается при выборе "Use No BLAS") и koboldcpp_openblas.dll (загружается при выборе "Use OpenBLAS").
3. Процесс сборки. Откройте командную строку (запустите cmd.exe). Перейдите в папку, где у вас лежит исходный код Koboldcpp: > cd "c:\users\anon\downloads\koboldcpp" Добавьте путь к сборочным инструментам (конкретно - подпапке "bin") в переменную окружения PATH: > set PATH=c:\users\anon\downloads\w64devkit\bin;%PATH% Если в пути встречаются пробелы, то заключите его в кавычки. Запустите процесс сборки: > make В результате вы получите все необходимые компоненты, собранные из исходного кода.
4. Для непосредственного запуска модифицированного Koboldcpp или сборки однофайлового исполняемого файла (аналогично официальным сборкам) вам потребуется Python интерпретатор. Совместимые с Windows 7 сборки Python можно взять отсюда https://github.com/adang1345/PythonWin7/tree/master/3.12.1. Убедитесь, что при установке Python в режиме custom installation (если вы его выбрали) у вас включён Tcl/Tk. Для непосредственного запуска просто установите Python интерпретатор, убедитесь, что .py файлы с ним ассоциировались, и кликайте по koboldcpp.py для запуска. Для сборки однофайлового исполняемого файла вам потребуется также установить PyInstaller (https://www.pyinstaller.org/en/stable/installation.html) и запустить скрипт make_pyinstaller.bat.
>>615725 → >Ну, в среднем для 70б - это 2 токена/с, для 34б - 7т/c, для 20б и меньше - 15+т/c. Если мне память не изменяет. Вопрос по 70B - это результат для двух карт, при полностью загруженной в видеопамять модели? А какой квант?
>>616097 (OP) Сап, аноны. Надоела бездушность и соевость хыпыты, так что решил потестить локалочки. Заспунфидьте дебилу пожалуйста. Скачал noromaid + mixtral instruct 0.4, просто mixtral instruct новый, с матрицей этой. Пошел запускать и тестировать, но прям тяжко идёт. Постоянно тупит и повторы как на пик3, иногда не такие резкие, но все ещё повторы. Есть вариант пофиксить, я же по любому обосрался где-то. Вот настройки на пик1, пик2. В обоих моделях ChatML формат вроде.
Нюфаг вкатился в эту вашу текстогенерацию. У меня вопрос - почему у меня чем дальше ты генеришь тем все меньше текста на выходе дает нейросеть вплоть до самых простых фраз? После 15к токенов уже совсем генерит примитивное yes/no, bye.
И может здесь есть macos-бояре? Как правильно скомпилить kobold? У меня он совсем не юзает gpu. Ответа не нашел, тот же sd нормально работает.
>>616274 >У меня вопрос - почему у меня чем дальше ты генеришь тем все меньше текста на выходе дает нейросеть вплоть до самых простых фраз? После 15к токенов уже совсем генерит примитивное yes/no, bye. смотри, сетка когда берёт нить повествования в каком-то стиле, потом её хуй отвадишь от такого. возможно, тебе стоит поредачить её вывод чтобы она немного "взбодрилась".
>И может здесь есть macos-бояре? Как правильно скомпилить kobold? У меня он совсем не юзает gpu. Ответа не нашел, тот же sd нормально работает. пердолься
>>616274 А у тебя не контекст закончился? Вангую, что сейчас расскажут, насколько я неправ и хуйню пишу, однако. При ёбке ллм всё упирается в контекст. Грубо говоря, сколько текста она можешь прохавать за один раз. В этот же контекст должен влезать твой промпт плюс ответ. В угабуге можно зайти в настройки и выставить Truncate the prompt, чтобы промпт обрезался, начиная с более старой хуйни. То есть у тебя остаётся больше пространства для новой хуйни, в которую, очевидно, входит и ответ модели. Если ты упираешься в 15к, обрезай пораньше. Можно ещё разрешить растягивать max new tokens, но у меня с этим тормоза начались.
>>616251 Ставь просто noromaid 20b кванта, который влезает. Даже Q3K_M подойдет, на 20б оно не сильно лоботомирует, в идеале exl2 6 бит. Пресет инстракт режима - дефолтный roleplay в обоих пунктах вместо chatml, можешь подредактировать или вообще удалить часть про 2 paragraphs. Пресет семплеров - Simple-1, а не та дичь что выставлена. Будет следовать промту, держать разметку, выдавать интересный текст без лупов. >>616274 > После 15к токенов уже совсем генерит примитивное yes/no, bye Что за модель? Если повелся на 32к копиума мистралей - оно чисто номинальное, и нужны настройки rope. > Как правильно скомпилить kobold? Так ух выходит что макось-господа должны страдать. Тут или полноценный убабуга, что легко ставится в один клик и на макось, но занимает много места и без того мелкого диска, или пердолинг с кобольдом, в котором на маки кладут.
Есть двухгпушные с линуксом? Любые карточки подойдут, нужно замерить сколько видеопамяти скушает какая-нибудь модель при делении пополам с, например, 8к контекста при загрузке экслламой, и сколько будет при полном заполненни контекста. Скорости не важны. Удивил меньший расход видеопамяти, нужно выяснить это флеш-атэншн и прочее там эффективнее работает чем на шинде, или при шаринге расход немного повышается.
>>616367 > нужно выяснить это флеш-атэншн и прочее там эффективнее работает чем на шинде Нет, конечно. Там одинаковый CUDA-код, лол. В том числе nvcc там одинаковый, т.е. даже оптимизации при компиляции идентичные. На линуксе разве что получишь сырее драйвера под новые карты.
>>616198 llama-2-70b.Q4_K_M.gguf - весит 39G с контекстом как раз память выедает всю Можно конечно и без контекста загрузить менее квантованную модель, но какой в этом смысл
>>615607 → >>615591 → Ребят, скажите, на русском какая-нибудь из моделей норм говорит? А то на мою Нейрославу жалуются, что она тупая. Пока перевод пробрасывать в гугл я не готов, хочу модельку поменять. Как придет P40, может 20b или 34b какую взять.
>>615725 → Интересно в стабле, может xttsv2 запустишь. Всякие RCV мне лично не так интересны.
>>615750 → > whisper на модели large распознает голос в текст почти в реалтайме. > text to speech и замена голоса работают так же в реалтайме, у них только ощущаются задержки на буферизацию. Оп-оп, спасибо, кажется надо было сразу 2 карты брать… =D Под llm и под обвес.
>>615770 → >>615767 → 2 итерации в секунду — это как P104-100. У меня так же генерит (ну я занизил частоту с потреблением — 1.8 ит/с).
>>616323 Вроде не закончился поставил в настройках кобольда и таверны 16к, оно не сразу генерит короткие фразы, а постепенно. Пропадают эпитеты, описание мира, потом мысли, остаются только фразы и становятся все примитивнее. >>616321 Короче я так понял если несколько раз сетка сгенерит что-то короткое оно и дальше начнет обрезать? >>616364 Да я фроствинд заюзал из шапки, это говномодель? Пробовал mlewd он лагает о я ебал (генерит две минуты) и 30гб памяти сожрал.
я бы хотел погонять Adventure Mode из кобольда в силлитаверне, но не могу объяснить ей что она рассказчик и должна генерировать мне историю и вводить персонажей, а не общаться со мной. в идеале вообще чтобы я мог прописать условия мира и всякую предысторию, а игра мне выдавала порции текста в ответ на мои действия, описанные уровня > try to sneak behind and pickpocket a guard
>>616321 > смотри, сетка когда берёт нить повествования в каком-то стиле, потом её хуй отвадишь от такого Это уже такие лупы, но действительно бывает. В старых сетках такое случалось из-за долгого стояния на месте, но лупы были более классические а не отупение. Здесь скорее из-за контекста беда. >>616396 > Да я фроствинд заюзал из шапки, это говномодель? Для своего размера - более чем, она старается, пусть и не идеальна. Вполне пригодна для рп и с ней можно довольно purrs. >>616396 > Что за убабуга? Text generation webui. Шапку прочти и в ней ссылка на вики. >>616399 Нужно прописать промт, что передается в этом эдвенчур моде?
>>616411 >Нужно прописать промт, что передается в этом эдвенчур моде? >>616412 >вот это поле в хубабубе говорит инструкции для нейросети. У тебя в кобольде есть что-то похожее? Вот тебе это надо править.
вот в том и дело что в кобольде этот промпт скрыт. скорее всего, там абзац текста потипу как вот на скрине >>616412, но мне не удаётся нормально его оформить под адвенчурку.
>>616393 >Ребят, скажите, на русском какая-нибудь из моделей норм говорит? я ещё не встречал. Все говорят "ебал её рука", если пытаешсья на русском с ними. Я правда не искал специально русскоязычные.
Так, поотвечал, таперича мысли. Может кто подаст годную идею.
Есть xttsv2, занимает 4,5 гига. Есть Animaze, занимает 1 гиг. В перспектике будет Whisper и какой-нибудь PyTorch, OpenCV и всякое. И нужна модель, которая бы отвечала за вменяемое время. Варианта вижу три: 1. Переводить гуглом, генерить моделькой на инглише, переводить гуглом обратно. Минус — на стриме любят задавать каверзные вопросы. 2. Переводить локальной моделью (ALMA?), генерить другой моделькой на инглише, переводить обратно. Минус — дольше за счет двух переводов, хз где и на чем гонять вторую модель. 3. Генерить сразу на русском. Получается криво, зато скорость не страдает, все локально, прямо, туды-сюды, контекст не ломается при переводах.
Из железа: 4070ti 12G 1630 4G =) P104-100 8G И идет P40 24G (одна штука).
Сейчас я на P104-100 держу Mistral Q8, которая кое-как умеет в русских, а иногда прям хорошо. А на 4070ti держу xttsv2 и Animaze.
Проблема в скорости. xttsv2 генерит в среднем 2-3 секунды. Плюс Mistral отвечает 2 секунды (20 токенов/сек, контекст — одно сообщение). Итого 5 секунд тратится только на генерацию. А еще передачи запросов, и вот 7-8 секунд мы получаем.
Долговатая реакция. Учитывая задержку стримов, выходит и вовсе 10-15.
В перспективе бы увеличить контекст, чтобы моделька помнила последние 10 сообщений + последние 10-20 сообщений автора (но без ответов от нее тоже такое себе, да и с промптом придется поебаться). Проблема в том, что P40 умеет только в выгрузку GGUF, а значит скорости в 40 токенов нам недоступны. С контекстом на 34b вроде выходит 6-8 токенов. Что увеличит время ответа втрое? Будет 6 секунд. С другой стороны, +4 сек — это суммарно 25%-50%, не сильно критично, но уже неприятно.
С другой стороны, можно выгрузить сразу две модели (можно же?), Mistral и ALMA в три захода будут где-то по 3-4 + 3-4 + 2 секунды писать, то есть те же 4 сек получу. Но, возможно, качество русского будет лучше.
Хотелось бы иметь Tesla A80 для запуска квантованной Микстрали или 70b, ну или хотя бы парочку RTX 4090, но чего нет — того нет. =(
Даст ли 3090 бушная буст относительно P40 на 34b сетке? Будет ли там 12 токенов с контекстом? Будет ли там 20 токенов без контекста?
>>616414 > вот в том и дело что в кобольде этот промпт скрыт Он опенсорс, все можно найти, но скорее всего отдельно описан. Если сам не сможешь - тогда подожди пока кто-нибудь раскурит и надейся что не забудется >>616418 > Даст ли 3090 бушная буст относительно P40 на 34b сетке? Даст офк, раза в 3 примерно. Ты скажи какой квант потестить, на обрезанном по тдп ампере потом могу прогнать.
>>616423 Максимальный q4_K_M, если я не ошибаюсь. Любую, какая есть, буду рад. =) Без контекста и с контекстом на 2000-3000 токенов (если там влезет, вроде должно).
>>616428 > Максимальный q4_K_M, если я не ошибаюсь. Вообще там самый жирный gptq вмещается с [x]k контекста, кощунство использовать жору когда есть бывшая. Ну вечером уже или завтра, заодно можно попробовать сравнить потребление врам.
>>616391 >Можно конечно и без контекста загрузить менее квантованную модель, но какой в этом смысл Смысл в том, что если видеопамяти хотя бы немного не хватает, то тест уже никуда не годится. Нужно, чтобы модель и контекст влазили полностью. Чувак с Реддита писал про 9 с лишним токенов в секунду на 5K_M - у него правда 4 P40 было. Попробуй.
Ещё здесь говорили, что под Линуксом с работой на нескольких ГПУ похуже, чем под Виндой.
>>616446 >под Линуксом с работой на нескольких ГПУ похуже, чем под Виндой. пиздёж. Виндобляди не знают даже как посмотреть у себя в системе открытые порты, глупо было бы рассчитывать что они что-то компетентно могут сказать про скорость работы нейросети.
>>616418 >3. Генерить сразу на русском. >Получается криво, зато скорость не страдает Скорость страдает, токенов\с столько же, но сами токены это слоги, а не слова, как на английском. Потенциально меньше текста и, очевидно, сама скорость на слово ниже. Вот у меня на пике текст\перевод, на русском 34 токена, на английском 26. И, т.к больше токенов - это больше жрёт контекст. Лично у меня с ростом контекста скорость генерации падает в пизду, даже при учёте того, что это всё ещё помещается в память. >Учитывая задержку стримов, выходит и вовсе 10-15 Ты, чтоли, вчера стрим скидывал? У тебя что-то сильно неправильно работает. Прям охуеть, как сильно.
>>616509 Гугол транслейт. Потому и не хочу гонять переводы, лучше буду заталкивать модели в анус шизу сразу на русском. Ещё бы лоры быстрее тренировались. Прости, кожаный, у меня нет денег на шкаф видимокарт.
>>616414 В консоли посмотри, весь промпт пишется в параметре "prompt". Я запустил на каком-то пресете с галочкой эдвенче мод - там совсем простецкая инструкция, и нет никакого форматирования толком. Вот она со скриншота: [Interactive Fiction: Game Mode Enabled]\n[You are playing a choose-your-own-adventure game. Please input action.]\n\n\n> Look\n\nYou look around, observing yourself and your surroundings. Всё, что ниже, это я пытался пару обычных реплик написать в story режиме и пару действий в action режиме. Все реплики и действия чередуются через две пустые строки, перед действиями автоматом пишется префил в виде >. Думаю, что в таверне это можно даже более адекватно сделать, дав больше примеров действий и ответов на них и расширив систем промпт. Единственное, что нельзя будет выбирать между story/action, но уж значок > можешь и сам писать.
>>616483 Чел, не гори. В обоих ОС юзери тупо гуглят, как что делать, и то, что ты заучил ss -tupl не делает тебя лучше. >>616515 >Потому и не хочу гонять переводы Гоняй на инглише сразу.
>>616556 >>616414 Алсо добавлю, что на чабе полно рпг/сторителлинг карточек, вроде вот такой https://chub.ai/characters/SpringyTwist/text-adventure. Полноценно с соблюдением всех инструкций, может, и не будет работать, но на каком-то уровне вести игру-приключение должно. Систем промпт в данном случае мб даже пустой лучше оставить, потому что инструкция в карточке написана.
>>616579 >Гоняй на инглише сразу. Не хотет. Прикручиваю спич ту текст, на английском пиздеть вообще не варик. Походу, на каких-то стримерах обучалось, просит подписаться, хотя я тупо нос почесал. Ещё и цензурит местами, но очень выборочно.
>>616396 Ты точно не настраивал rope, а просто увеличил контекст. Поэтому когда модель выходит за свой размер контекста или даже приближается к нему, у нее падает качество ответов и они становятся все короче. Настраивай параметр rope вместо 10000 ставь либо рекомендованное значение для сетки которую ты скачал, либо наугад ставь хотя бы 20к-30к при удвоении контекста, 40к-50к при 4х.
>>616958 >А придётся. Все другие варианты это просадка в качестве ответов. Я больше скажу - Гугл-перевод вообще лучший вариант. Язык моделей довольно суконный, и они ждут от пользователя примерно того же. Перевод от Гугла идеально подходит - просто нужно понимать его особенности. Я пробовал прикрутить перевод от Дипла в обе стороны, так результат был хуже.
>>616418 > Есть xttsv2, занимает 4,5 гига. > Есть Animaze, занимает 1 гиг. > В перспектике будет Whisper и какой-нибудь PyTorch, OpenCV и всякое. Это все на другую видюху или вообще на отдельную пекарню раз некрожелеза хватает. > Проблема в скорости Лучше адеквантный и хороший ответ через 20-30 секунд чем вываливающиеся потроха кривого промта и шиза за 7. > В перспективе бы увеличить контекст, чтобы моделька помнила последние 10 сообщений + последние 10-20 сообщений автора Обязательно, но так чтобы это не сильно внимание смещало и она больше понимала общую атмосферу разговора, а не упарывалась в детали. Можно оборачивая правильно в промт организовать. А историю сообщений юзеров так вообще динамической подгрузкой с учетом ответа, а остальное что дальше - суммарайз. Только аккуратно сделать чтобы относительное положение во времени не уплывало и не ломалось. > Но, возможно, качество русского будет лучше. Не только качество лучше, но и гораздо меньше тупняка. Вообще, сколько там врам нужно для нормального файнтюна хотябы лорой, но без квантов? Использовать датасет из того проекта финов, добавить чатов стримеров и хотябы для мистраля запилить попробовать. >616446 > Чувак с Реддита писал про 9 с лишним токенов в секунду на 5K_M - у него правда 4 P40 было Попахивает пиздежом, реально. Или есть возможность под них соптимизировать. Ускорение от добавления карточек в llamacpp не должно быть. >>616483 Хуя триггернулся
>>617187 >Или есть возможность под них соптимизировать. Именно, там еще в первых постах писали на реддите что нужны какие то оптимизации при сборке llama.cpp на линуксе Какие именно - го ту реддит искать по темам с p40
>>617193 А где там по дефолту у тебя 10000 стоит? Я если что про кобальд и лламаспп говорил, там есть эти параметры
>>617187 >Попахивает пиздежом, реально. Или есть возможность под них соптимизировать. Ускорение от добавления карточек в llamacpp не должно быть. Вот ещё один, 3 P40: https://www.reddit.com/r/LocalLLaMA/comments/17zpr2o/nvidia_tesla_p40_performs_amazingly_well_for/ Цитата: "Я ни разу не разочаровался! Здесь у меня есть скриншот с его запуском Goliath 120b Q4KS, который в основном выжимал максимум из видеопамяти. Он работает со скоростью 3-4 т/с с некоторым загруженным контекстом. Он определенно замедлится с увеличением контекста, но для того, сколько стоят эти карты, я думаю, что это очень хорошая производительность!" Здесь же в тредах мы видим очень скромные результаты. Разница на первый взгляд только в том, что у тех чуваков с Реддита количество линий PCIe максимально или близко к этому. Так же по ссылке явно на Винде запускали. Разобраться бы надо.
>>617425 Но метод обучения в комментах описан интересным. Конечно 7b соснет в качестве генерации, так как не сможет большие тексты вниманием держать или соблюдать одновременно много инструкций. Я просто думаю это тестовый запуск, после которого будет обучена сетка по больше, хотя бы та же 34b Хотя на коротких примерах до 2к-4к 7b может быть на ровне с большими сетками, если хорошо надрочена на отличных примерах. Поэтому не уверен что это полный пиздеж, комментаторы как всегда играют в пророков еще не щупав результат
>>617317 эти чуваки с реддитов вечно нихуя нормально показать не могут. Как они там запускают, с какими параметрами, какие версии, на каком железе - нихуя вообще не показывают. Только скрины своих виндовых окошек постят. Виндобляди ас из как говорится. Пользы от таких постов как с козла молока.
>>617199 >>617317 > Какие именно - го ту реддит искать по темам с p40 Любопытство сильно, но оно - единственный мотиватор, наверно, пусть владельцы ищут. > что у тех чуваков с Реддита количество линий PCIe максимально или близко к этому Почему тогда у анона с x4 2.0 почти нет разницы при делении сетки на две карты? Да и перфоманс излишне высокий если сравнивать с тем что на 3к/4к серии, если скейлить результаты с exllama то получится 7-11 токенов при том что там перфоманс выше более чем в 3 раза даже без оптимизаций на малую битность. Возможно там есть какая-то оптимизация, что может быть применена ко всем, но вероятность мала.
>>616958 >это просадка в качестве ответов. А меня на самом деле устраивает качество ответов. Меня не устраивает пара моментов. Иногда сетка может ебануться и ответить мне моим же постом или крутить один и тот же пост несколько раз подряд. Или просишь рассказать о котах, а потом о собаках. Он берёт пост о котах и меняет котов на собак. И всё, буквально ничего другого не меняется. По идее, нужно отхуяривать контекст, или я хуй знает. Ставил цфг выше, температуру выше, на выхлопе шиза. Легче всего с коверканием слов, здесь можно прикрутить простой скрипт со словарём, который это всё пофиксит за наносекунду. Потыкал палкой виспер, ебать же шизоидальный бред получается. Пиздос. Никуда не годится. Причём если налету переводить в английский, то предложения получаются осмысленные, но, сука, абсолютно не с тем смыслом.
>>617741 >про 7б говно наравне с гпт4 Так ведь говорится про узкую задачу, к тому же непонятно как были сделаны тесты. Что там в реальном использовании уже другой вопрос
>>617741 > Магии не бывает. ЖПТ4 Турба уже крошечная по размерам. Было бы что обгонять. Она внезапно неплохо просела по некоторым тестам в ноябре по сравнению с мартом без турбы.
И что блять, за 3 года никто так и не сделал норм модель для аи данжона без цензуры? Что никто не может себе купить блядские 360гб врама что ли и запилить сервис? Нахуй вы тогда нужны тогда с говниной 7бшной. Давно уже железо позволяет и текст и картинки генерить рилтайм, что бы создать волшебный самый сладкий кумерский фентези, нет блядь, будем микстрали дрочить однотипными вопросами. Хуета ваш локал ларж лангуаге моделс
>>616486 Дак мы тока настраиваем. API ебучее, хрен проссышь, че и как передавать.
Но опять же, представь 34 и 26 против 34 и 34 но постоянный перевод туда-сюда.
>>617187 > Лучше адеквантный и хороший ответ через 20-30 секунд чем вываливающиеся потроха кривого промта и шиза за 7. Это пофиксил немного.
> А историю сообщений юзеров так вообще динамической подгрузкой с учетом ответа Да, буквально — сохранять в базу, выбирать 10 последних, пихать в историю, оформлять промпт «я помню, что раньше он писал…» А далее — текущий контекст чата.
Сегодня смог запустить с миростатом, общаться стала гораздо адекватнее. Ебучее API убабуги, хуй найдешь, документации нет, чувак из силлитаверны — гений, по-ходу, раз смог заставить это все работать.
Причем, так как фразы короткие, тау вогнал в 1, а эту в 0,9. Почти всегда укладывается в 64 токена генерации, отвечает гораздо больше в тему, чем раньше.
В общем, доволен, почему раньше миростат не юзал! Аж интересно, как он себя ведет в больших текстах и в рабочих задачах.
Ну и я снова немножко побуду тварью и кину ссылочки.
Короче, в чем проблема. При низком значении тау и высокой эта, она почему-то начинает сообщения с «А…» Говорит адекватно (напоминаю — ей надо уместить в 64 токена, а не решать уравнения), но постоянное «А». Фиг знает, как это побороть.
Если кто знает, как фиксится стартовый токен — буду рад услышать.
>>617982 > Это пофиксил немного. По видео не заметно. А еще она вообще молчаливой стала, куда не скрольнешь - тишина и унынье, зато шевелится. > оформлять промпт «я помню, что раньше он писал…» Хз, формулировка не самая удачная. Суммарайз - полный чат, а сообщения юзера как можно раньше рядом с суммарайзом или их отдельный суммарайз, но это сильно затратно уже. > Ебучее API убабуги, хуй найдешь, документации нет Всмысле нет, основное в доках, параметры и функции в typing.py, все достаточно интуитивно там. >>618035 > ей надо уместить в 64 токена Это случаем в промт не пихнул? > как фиксится стартовый токен Тут бы причину лечить а не симптом, нужно стукнуть чтобы не лупилась. А так отдельный запрос на первый токен с баном А делаешь а потом на остальное, по скорости разницы почти не будет.
Я недавно спрашивал в тредисе, действительно ли кустарные 20в умнее 13в.
Оказалось что действительно умнее, но как же они долго обрабатывают контекст сука... За что. 13в залезают мне в 12гб врама целиком, но за ближайший апгрейд до 16гб надо заплатить в два раза дороже, молчу уже про 24гб......
>>618082 > Всмысле нет, основное в доках, параметры и функции в typing.py, все достаточно интуитивно там. Хз, я гит пролистал, ниче там не нашел. Можешь ткнуть носом?
> Это случаем в промт не пихнул? Нет, это max_tokens =)
> А так отдельный запрос на первый токен с баном А Научишь? Че-т туплю.
>>617982 >API ебучее, хрен проссышь, че и как передавать. Ты шутишь? https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API Там буквально обосcаный жсон, ничего легче быть не может. Как раз пилю себе приложение, которое будет связывать угабугу и STT, но, блядь, какая же это залупа. Нужно или тренировать на свой голос, или просто нахуй пойти. >постоянный перевод туда-сюда. Потому я и не хочу гонять переводы. Но здесь дело не только в том, что 34 против 26, у этой херни кумулятивный эффект, ты в итоге получаешь 3400 контекста вместо 2600. А это уже играет роль.
>>618191 Бля, ну твой текст про супчик и у меня опознаётся. Но это смешно просто. >OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. Зачитываем, смотрим варианты. >ОПН-А-И >опын аэй-американская научность >ОПН-АЙ - американская научнаяся исследовательская организация занимающая разработками власти. >ОПН-АЙ, американская научнаяся исследовательская организация занимающая разработками власти искусственной Интеллекта оно не услышало, так что я повторил >и с гостиной Вентилек. >из гостинного интеллекта. Зачитывал посты из треда, художку, новости, ни одного предложения полностью корректно не опозналось. Включал диктора с ютуба, тот пиздит слишком быстро, 90% текста отваливается, оставшееся опознаётся неправильно. Плюс эта хуита крайне нервно реагирует на шум, но тут уже хуй с ней, всё равно требуется понимать только голос, зачитанный в полной тишине. Но этого нет. Всё это, как водится, рилтайм, вангую, что с обработкой записей будет лучше, но вряд ли намного.
>>618417 ну хз.... есть конечно пара мест где она ошиблась, но мне кажется, что нейросеть должна проглотить такие огрехи и не заметить, потому что тупо токены похожи друг на друга.
>>618161 Где там по твоей ссылки стоп-слова? :) Я в нее раз пять смотрел. В итоге в консоли силлитаверны все прочел. Нихуя нет документации. В документации нормальной перечислена каждая строка, каждое свойство, со всеми значениями.
Даже у силлитаверны ВНЕЗАПНО два свойства: "stopping_strings" и "stop". Хотя в ишьуах упомянуты "custom_stoppings_strings".
> 3400 контекста вместо 2600 Меня еще напрягает, что с большим контекстом падает скорость. Поэтому сильно раздувать тоже не хочется.
Короче, трудно быть бомжом, сплошные компромиссы.
>>618169 Тот же вопрос — где там стоп-слова? :) Нетути их там. Хуйня, а не док. Из него скрипт берешь, он работает, все изи, но на этом польза заканчивается. Все остальное — приходится пиздить из силли-таверны.
"mode": "chat", "character": character, "messages": message, "max_new_tokens": 64, "max_tokens": 64, "temperature": 1, "top_p": 1, "typical_p": 1, "min_p": 0, "repetition_penalty": 1, "frequency_penalty": 0, "presence_penalty": 0, "top_k": 0, "min_length": 0, "min_tokens": 0, "num_beams": 1, "length_penalty": 1, "add_bos_token": True, "ban_eos_token": False, "skip_special_tokens": True, "custom_token_bans": '', — окей, вот сюда токен номер «а» поместить, допустим "dynamic_temperature": False, — по названию понял, что это. "dynatemp_low": 0, "dynatemp_high": 2, "dynatemp_range": 0, "stopping_strings": [ '\n', '(' ], — непонятно, работает ли это, скорее нет, чем да. "stop": [ '\n', '(' ], — вот этого в гите убабуги ваще не нашел, но, по-ходу, как раз оно работает. "truncation_length": 256, "top_a": 0, "tfs": 1, "epsilon_cutoff": 0, "eta_cutoff": 0, "mirostat": 1, "mirostat_mode": 1, "mirostat_tau": 1, "mirostat_eta": 0.9, "rep_pen": 1, "rep_pen_range": 0, "repetition_penalty_range": 0, "encoder_repetition_penalty": 1, "no_repeat_ngram_size": 0, "penalty_alpha": 0, "temperature_last": True, — это-то что вообще такое? х) "do_sample": True, "guidance_scale": 1, "negative_prompt": '', "grammar_string": '', "repeat_penalty": 1, "tfs_z": 1, "repeat_last_n": 0, — а это что? "n_predict": 64, — хм, тоже не совсем ясно, но на всякий случай заменил.
Короче, у меня претензия не в том, что не ясно как писать. КАК писать ясно. А вот ЧТО писать — отсутствует начисто. Строки заявленные просто не работают. У Таверны какой-то свой тег вообще в виде «stop»-а. Может быть я просто избаловался за последние месяцы, и ожидал подробную документацию.
>>618571 Одним соевый, другим грубый… =) Но, да, он не соевый, если задать ему грубое поведение — сдерживаться он не станет. Еще и самовлюбленный бывает.
>>618161 Кстати, слух, а разве там нет виспера? Там же буквально везде он был полгода назад, и в убабуге, и в таверне?
Меня не устроило, что он не может прослушивать постоянно, или включаться сразу после ответа бота, приходилось заново кнопкой тыкать. Но вроде ж было везде.
А распознавание мне в свое время понравилось, качественненько.
>>618591 > Тот же вопрос — где там стоп-слова? :) Нетути их там. Хуйня, а не док. Бля ну ты совсем варебух? > stop: str | List[str] | None = None > А вот ЧТО писать — отсутствует начисто > Строки заявленные просто не работают. Работают, большую часть тестил, просто нужно понимать совместимость с лаунчерами и в общем то что ты делаешь. Тем более готовый пример таверны есть. >>618592 > сдерживаться он не станет. > Еще и самовлюбленный бывает. Примеры есть?
>>618592 >сдерживаться он не станет. Чот да. Я вроде не задавал ему ничего, чистый пресет. Видимо карточка такая. По накатанной теперь уже вообще смерти желает, лол. Такое конечно в гпт4 не увидишь
>>618161 >>618169 Спасибо, учитывая, что я делаю рандомного бота, просто вставлю в код custom_token_bans рандомное значение. То пустое, то нужный токен. Иногда пусть начинает фразы с «А», если ей очень хочется, а иногда будет норм генерить. Идея с первым запросом норм, но лень реализовывать. А так — одна переменная с random.choices().
>>618607 На стриме кто-то спросил «что лучше я или мешок картошки». Я всхрюкнул с вопроса и стал использовать его в тестах. Логично, что от стримерши ждешь плюс-минус в равной вероятности оба ответа. Или шутку про мешок, или няшность про себя.
Микстраль процентах в 90 отвечала «Лучшая здесь — я!» Я прям спецом ее рероллил много раз. Остальные модельки отвечали более ожидаемо. Кто-то больше токсил, кто-то чаще хвалил.
Забавное поведение, кмк.
> Бля ну ты совсем варебух? У меня Ctrl+F по stop нихуя не находит, даже поиск по всей репе ниче не дает. Странно, пиздец. Ну то хуй с ним, ладно уж. Так или иначе, уже со всем разобрался, пасиба.
>>618462 >Окее давай попробуем что-нибудь посложнее и нескольких предложений. Наш горький дух и память на стамид. Наш горький дух первый раз и стимы как травы. В нём время спитках не драх дирамит. На непорфирнем раморт не границ. Не создают незыбленные правы. Хуй знает. Всё очень плохо. Потом посмотрю, какие настройки покрутить, но пока что впечатление крайне хуёвое. Параллельно есть модель на 44 мегабайта, которая понимает мою речь вполне приемлемо, но требует хорошей дикции. Зато не генерирует мусор, как виспер. Типа [МУЗЫКА] или [АВТОР СУБТИТРОВ]. Охуеть вообще.
>>618463 На базовой, она побольше. И есть ещё трёхгиговый "файнтюн", уже не помню, где нашёл.
>>618591 >Где там по твоей ссылки стоп-слова? Передай просто stop. Строка или массив. >В документации нормальной перечислена каждая строка Да ты охуел. >"custom_token_bans": '', — окей, вот сюда токен номер «а» поместить, допустим >"stopping_strings": [ '\n', '(' ], — непонятно, работает ли это, скорее нет, чем да. Не должно работать.
>>618753 > Логично, что от стримерши ждешь плюс-минус в равной вероятности оба ответа. Ожидаешь токсичное нейронное и забавное. > «Лучшая здесь — я!» Хороший вариант. > У меня Ctrl+F по stop нихуя не находит Пикрел
>>619024 А че там, TinyLlama вообще живая? А то я ее так и не попробовал, на Ракете остановился. Не думаю, что она сможет генерить настолько живые и адекватные тексты, но что-то простое — хз, мб.
>>619030 Ну дома обычно это медиасервер или файлопомойка или еще что, конечно дома и мощные серверы могут быть, че нет то, но мне кажется реже Про корпоративное я и не говорю, там все на нем
>>619038 >А че там, TinyLlama вообще живая? А то я ее так и не попробовал, на Ракете остановился. Да, ее дотренили, работает. Если нужен какой то совсем простой помощник может даже ее хватит, конечно на сложных инструкциях она будет сосать, но кое как отвечать. Надо будет попробовать если не забуду. Ракета тоже норм вариант как и другие 3b. Ну или какую нибудь майнерскую карту купить рубля за 4 ибудет локальный 7b.
>>617080 Лучший вариант это вручную доводить переводы по смыслу. Любая автоматика проёбывает вложенные в текст смыслы. >>617951 Синтии 70B 1.5 по ощущениям уже с полгода, а она всё так же хороша. >>617982 Портифьич обзавидовался бы. >>618591 >Пойду кастом бан токен пробовать на вкус. Он же совсем забанит. Тебе бы биас настроить, в кобольдцп недавно появился, он ближе по смыслу. >>618764 >Зато не генерирует мусор, как виспер. Типа [МУЗЫКА] или [АВТОР СУБТИТРОВ]. ЕМНИП это настраивается. >>618855 В консоль, смотри что отсылается.
>>619064 Ну я-то как раз с P104-100 и сижу. =) q6 с контекстом, да. Просто интересно, последить за развитием. Вон, нашел TinyMixtral-32х248M, псевдо-МоЕ из 32 Tiny Mistral, кек. Ща попинаю все это дело.
>>619024 > Жаль только линукс обычно на что то слабое ставится Хуясе ебать >>617951 > Что никто не может себе купить блядские 360гб врама что ли и запилить сервис? Задонать и запилю >>619094 > Тебе бы биас настроить Ему же нужно просто чтобы не начинало, так можно напрямую забанить при запросе первого токена, а дальше коплишн обычный. Что байас, что бан если его делать на весь запрос - все распидарасят пиздец.
Почему в шапке нет связки ollama и chatbox? Без пердолинга все накатывается одним скриптом, скачиваются любые модели и запускаются локально. Зачем вы пердолите какие-то кобальты/хуебальты/таверны? Я что-то упустил?
>>619193 Вижу функционал уровня скрипта-примера в консоли и аналогичное удобство. > пердолите git clone @ start.bat Ахуеть пердолинг запредельного уровня > любые модели Всратейшие кванты того что ленивый автор соизволил добавить? Основано, конечно же, на старой версии llamacpp?
То что до функционала таверны этой хуйне как раком до Китая и так очевидно.
>>619094 >ЕМНИП это настраивается. В оболочке давится, скорее скорее, а у меня её и нет, рав оутпут. Но я, видимо, инпут где-то запорол, что оно не понимает нихуя. Надо будет ещё посмотреть, может, пофиксить можно.
Смотрю на ответы убабуги по api и, вроде, и по-другому нельзя. А всё равно как-то мерзко, блядь. Это один ответ, есличё. Олсо, что получается, контекст хранится в виде сырых сообщений во фронте, а я думал, что там уже затокенизировано всё в бэке. Как-то неоптимально. Хотя, если расчёт на использование одной сетки множеством пользователей, имеет смысл.
>>619487 >7b q8 — 20 т/сек. >q6 + контекст — 16 т/сек. >Такое ощущение, что контекст обрабатывается дольше слоев. >Но седня еще поиграюсь. > >SD1.5 — 1.8 ит/сек на Эйлере. Дак exl2 попробуй в 5-6 бит, должно быть быстрее ггуф, и меньше места вроде как 4 бита и gptq не рекомендую, 7b тупая на них Ну а для ггуфа можно и 5km, качество будет приемлемым, ниже уже да, фигня
Осторожно кум. Только вчера нашел этого чара и он мгновенно вошел в топ 3. Справедливости ради половину текста на пике написал я, но модель бодро дописывает и подсказывает порою очень интересные вещи. Короче как копилот для какого-нибудь фаншикшена вообще заебись. Хмммм. Надо сказать что перса я немного подредачил и пик снят уже после неплохого диалога, в котором я дорисовал сеттинг. Если кто выразит интерес скину допиленного чара. Модель норомейда 20б 5км Чар MaidoDism
>>619110 По совершенно необъяснимой причине, XTTSv2 на P104-100 отрабатывает быстрее, чем на 4070ti. Фраза на 4070ti работает 1.76 сек самое быстрое, а на P104-100 — 1,75 первый трай и 1.56 самое быстрое.
Мне на руку, теперь поменяю местами генератор текста и речи, буду гонять exllama для текста и генератор на старушке серверной моей. Вместо 256 контекста смогу добавить 4096, засунуть в память часть чата и старую писанину зрителей.
О — оптимизации.
Ситуационно считаю P104-100 самой выгодной покупкой. За 2,5к-5к 8 гигов и неплохая скорость — отличная покупка. Так-то даже дешевле P40.
Но для LLM слабое применение, конечно. И 175 ватт — тоже не копейки.
Хотя у меня она в простое 23° и не сильно греется, конечно.
Я к чему? Просто пизжу. Брать не советую — старые майненные карты с малым объемом памяти. Но для некоторых задач — топ за свои деньги: 8 ГБ GDDR5X c 256-битной шиной — это вам не хухры-мухры.
>>619487 > Такое ощущение, что контекст обрабатывается дольше слоев. Для llamacpp это нормально, уже сранивали что скорость отличается на 1-2 порядка при полной выгрузке и на много-много при частичной. >>616476 > ак там легко квантовать Exl2 модели? Помню, писали, но потерял https://github.com/turboderp/exllamav2/blob/master/doc/convert.md Если кратко - клонируешь рему экалламы2, активируешь вэнв убабуги (cmd_windows.bat), переходишь в папку с репой и там вызываешь convert.py с нужными параметрами. Можно вообще сразу написать готовый батник Измерение: > set CUDA_VISIBLE_DEVICES=x (0 если одна гпу или вообще убрать строку) > call F:\...\text-generation-webui\installer_files\conda\condabin\conda.bat activate "F:\...\text-generation-webui\installer_files\env" > python ./exllamav2/convert.py -i K:\папка_с_fp16_моделью -nr -o F:\временная_папка_на_быстром_диске -om ./результат_оценки.json -c ./wikitext-test.parquet (или заменить на более полный) Квантование: > python ./exllamav2/convert.py -i K:\папка_с_fp16_моделью -o F:\временная_папка_на_быстром_диске -m ./результат_оценки.json -cf F:\папка_для_кванта -nr -c ./wikitext-test.parquet -b 6.1235346 (битность)
Измерение идет долго, квантование быстро, одно измерение универсально для всех квантов и с него можно делать любую битность. В обоих случаях файлы с весами должны быть .safetensor а не .bin, конвертируется вызовом скрипта > python /путь до репы exllamav2/util/convert_safetensors.py *bin из папки с моделью, .bin потом не забудь удалить, иначе они скопируются в папку с квантом
>>619750 А, ну очевидно, почему медленнее, я дебил! xttsv2 для куды 11.8, а я на 12.1 накатил, возможно под ним он просто работает медленней. Ну не суть, это оффтопик, сорямба.
>>619094 >Синтии 70B 1.5 по ощущениям уже с полгода, а она всё так же хороша. На самом деле нет. То есть хороша, но довольно быстро скатывается к предложениям из трёх коротких одинаковых по смыслу фраз. Есть дефект. Вот Dawn 70B реально хороша.
>>619864 > но довольно быстро скатывается к предложениям из трёх коротких одинаковых по смыслу фраз Что? Что ты с ней такое делаешь чтобы такой эффект произошел? У нее другая беда, явный оверфит на ерп при некоторых взаимодействиях. В версии 1.5 по сравнению с 1.2 сильно лучше, но иногда встречается. Если ты и не против то это будет даже в плюс. > Вот Dawn 70B реально хороша Это шизомикс или полноценный файнтюн?
Динамическая температура в таверне нормально работает? У меня после первого же регена любая модель начинает генерить одно и тоже сообщение, если включаю динамическую.
>>619285 Так ты описание в репо прочитай и на веб-сайт зайди, а лучше не пизди и скачай.
> Всратейшие кванты того что ленивый автор соизволил добавить? Можно любую GGUF модель импортировать, но из коробки самое сочное все и так есть.
> Основано, конечно же, на старой версии llamacpp? Ну только разве что в твоем манямирке.
> То что до функционала таверны этой хуйне как раком до Китая и так очевидно. Правда таверна это кал для рп и кумеров, нормальным людям она не подходит. Функционала там нет, только карточки.
>>620054 Зачем предпринимать усилия если это заведомо мэх. > любую GGUF модель Бинго, а еще имплаит что не оно > нормальным людям она не подходит Мамкиным нитаким как все оно не подходит. Буквально попытка сделать что-то другое ради чего-то другого и прогулка по граблям. С word count обзмеился. >>620056 > lmstudio В ней хотябы пытались пили что-то новое и свое, но киллерфич кроме хлеб-френдли не особо.
>>620120 Можно взять его содержимое любым скриптом на языке в который умеешь, и скармливать сетке с соответствующим запросом и получать на выходе нужное. Сетка поможет тебе этот скрипт написать, промт придется уже самому.
>>620062 0 аргументов, только пиздеж тупой ленивой шалавы.
> Мамкиным нитаким как все оно не подходит Еще раз, деградант с заплывшим спермой мозгом. Все что перечислено в шапке, не подходит для классического чата, это поделия для рп дегенератства.
> Буквально попытка сделать что-то другое ради чего-то другого Блять какой ты тупой, это классический чат, что-то другое это у вас уже 40 тредов, эхочембер ебучий, уже забылись в своем манямирке и отупели от дрочки.
>>620149 > 0 аргументов, только пиздеж тупой ленивой шалавы Литерали все твои посты. Нихуя не соображаешь а тащишь какую-то залупу и агрессивничаешь когда ее назвали тем что должно. Фу, биомусор. > в своем манямирке Пчел...
>>620210 А ты сам пользовался? Там поддержка гпу для галочки, нужно самостоятельно подбирать количество слоев и даже если полностью умещается в гпу, то производительность ниже чем в ollama или kobaldcpp в разы.
Откуда тут этот дегенерат? Что он несет, какой «обычный чат»? Блядь, чат —этокогда ты можешь писать буковы в поле, потом отправлять и получать ответ. Это есть в таверне, кобольде, убабуге, где угодно. Дрочить никто не заставляет. Все эти поддержки, хуйдержки, «ручной подбор слоев» — какой ужас! Накатываешь голую лламу/экслламу, работаешь в СВОЕМ чатике по API. В чем проблема?
Хз, сколько не сижу, убабуга устраивает (кроме документации=), силлитаверна норм тоже.
Не хватает ауто-комплит, но ссылочку скинули, пойду, разберусь, что ли.
Где вообще проблемы видно? ИМХО, большинство проблем сейчас —это литералли скилл ишью.
Короче пока вы тут какашками кидались я запустил shell-gpt с локалкой, забавно получилось, но тини ллама туповата Если нужен гайд могу накатать, пока не забыл
>>620196 Шизло не трясись, ты и твой мусор никому не нужны >>620332 > большинство проблем сейчас —это литералли скилл ишью Ну да, или навык и понимание, или упрощение-обобщение в ущерб функционалу и перфомансу. Тут лучше сразу в прикладные задачи вкладываться и их реализацию пилить, а не пытаться упростить то что трогать нельзя. >>620343 Накатывай, интересно
Примерный гайд по сслыке https://github.com/TheR1D/shell_gpt/issues/276 Но с поправками, так как он старый Адрес меняется на OPENAI_BASE_URL=http://localhost:8000/v1 без ключа будет ругаться OPENAI_API_KEY=false
https://github.com/abetlen/llama-cpp-python Команда установки llama-cpp-python из раздела OpenAI Compatible Web Server Команда запуска что то вроде такого python3 -m llama_cpp.server --model /neuro/tinyllama-1.1b-chat-v1.0.Q8_0.gguf --chat_format chatml --n_threads 2 --seed -1
https://github.com/TheR1D/shell_gpt Установка pip install shell-gpt Запуск самого shell-gpt кажется этим python3 -m sgpt Или я чет другое делал, уже не помню короче
Работает но надо поумнее сетку, да и настроить ее формат ответа потом в. Может с промптом в шеллгпт поиграться. Можно писать свои функции и сетка будет их вызывать если посчитает нужным, ну это описано на гихабе
>>616097 (OP) Товарищи! Нужен ваш совет, кто знает как прикрутить анимированнную картинку персонажа к чату Silly Tavern, что бы это выглядело как у витюберов? А ещё заставить говорить персонажа своим уникальным голосом?
Быстрый вопросец. Хватит ли 3060 для локальных нейронок?(в основном текстовых). Внятного ответа не дают, а тратить 40к с возможностью обосраться не хочется.да видимокарточка нужна только для нейронок
>>620846 Хватит, более чем. До модели 30В включительно производительность будет терпимой. Ну и 32Гб оперативной памяти нужно. Модели больше размером с такой видеокартой уже требуют 64Гб оперативной памяти и выдержки.
>>620846 На мегамаркете возьми с кэшбеком, кэшбек слей во что-то полезное.
>>620852 Да и 10400 хватит, че уж. Да и зеона хватит с AVX2, че уж.
>>620725 Чел из треда делал wav2lip в таверну. Поищи. Но вообще, если хочешь именно витубера — то просто запусти любой софт с audio-based lipsync, и кинь туда звук из браузера. Просто поищи, много такого софта. Уникальный голос — берешь xttsv2 и в качестве сэмпла кидаешь ему тот голос, который нравится тебе.
———
Продолжаю страдать с нейростримом. Всю ночь прокопался с контекстом — не получается. То ли формат стрима выносит ей мозги, то ли фиг знает. Ничего не помнит, начинает называть свое имя перед сообщением, просто скатывается в смесь языков. Попытался послать не массивом json'ов, а как единый prompt — фиг там, не принимает, по какой-то причине. У СиллиТаверны уходит поле prompt, у меня — пишет field required. Какой филд — фиг его знает.
Седня как проснусь — буду разбираться дальше, а пока просто стартанул ее без контекста.
>>620846 > 3060 для локальных нейронок?(в основном текстовых) Гружу 7b в восьми битах, расход под 9 гигов со старта. Если хочешь уместиться в vram, то 13b потолок, и то, квант пожиже, контекст помельче. Выгрузка в ram это для очень терпеливых, на постоянной основе сильно не советую. Для SD будет окейно, там не так важна скорость отклика, сможешь даже XL погонять.
>>620120 > А есть какие-нибудь нейронки, которым можно скормить excel файл, чтобы она отсортировала похожие значения по похожести? Руками что-то заебался. Чел, это задача буквально для любого алгоритма кластеризации из 60-80х годов, коих наверное, миллион, и которые работают на любом тостере. Использовать для такого LLM это все равно что забивать гвозди телескопом Хаббл.
>>621096 >4B 4.8sec/token >30-35к За эти шекели 2011-3 будет работать даже быстрее. И это уже полноценный компьютер пригодный не только для нейросетей.
>>620846 Только на видюхе норм поместится 11б модельки, все остальное с привлечением процессора и замедлением. > тратить 40к > 3060 Вут? Там чуть добавить совсем и 4060@16 бралась >>621009 Это на какой модели? >>621096 Интересно насколько трансфер по сети вносит импакт в их алгоритме, видно что есть оптимальное число девайсов, но почему на минимально возможном хуже чем на 4х, память свопается чтоли? > It allows to run Llama 2 70B on 8 x Raspberry Pi 4B 4.8sec/token > Average Single Token Generation Time > Llama 2 70B 4842.81 ms 🔥(I: 2121.94 ms, T: 2719.62 ms) Где?
>>621079 >У меня на пустом контексте 4-6 t/s. Естественно, чем больше - тем хуже. Инцел 12400 @ 3600 ddr4 Неестественно. С технологией Context Shift размер контекста на общую скорость ответа нейросети практически не влияет.
https://huggingface.co/KoboldAI/LLaMA2-13B-Estopia Новая сетка, ориентированная на соблюдение инструкций, написание историй и реалистичность Я так понимаю это топ для всяких режимов приключений и написания историй
>>621241 Что-то вроде мистралевского плавающего окна? Я просто хуй знает. Загуглил, что этот шифт в кобольде есть. По-моему, чудес не бывает, весь "контекст" запихивается нейронке в глотку каждый раз заново, то есть ей каждый раз нужно просчитывать всё, тут нихера не оптимизируешь - больше памяти, больше пропускной способности.
Картошечный тест. Есть вообще разница в этих вариантах? Не могу отучить этого долбоёба коверкать слова, фильтровать через словарь вариант, конечно, но хотелось бы без костылей в анусе.
>>621447 Не 3b, но почти, 7b. Ответы не по теме из-за карточки, наверное, а тупость из-за общей тупости модели. Меня больше интересует степень корявости построения предложений. На дефолте больше по теме, но сваливается в непонимание языка. И, по сути, нейронка не понимает, что вопрос шуточный, пытается всё в кулинарию свалить. С карточкой ебаната мне ответы больше нравятся.
Обосрался с "дишь", словарный запас явно недостаточный и у долбоёба слова кочуют из языка в язык.
>>621469 Там выше чел запускал нейрострим и ему в чат написали этот вопрос. Анон из треда заметил и запостил сюда. А мне похуй вопрос, меня грамматика интересует. А она покинула чат.
>>621499 Cкачал, удачные ответы как-то довольно редко. >Ну да... Если бы ты был едой, я бы тебя съел. А если нет - то я бы тебя убил. >А вообще, это же такой вопрос! Какого хренского значения будет? Ты живой организм, а эта мухиная сущность - просто кусок земли с кожуром. Я бы не стал давать себе ответ... >А это вопрос! Я же знаток всего того, что происходит. Так что, если бы я был богом, я бы дал жизни этим двум существам одновременно, чтобы они были как один, так чтобы они были способны удовлетворяться друг от друга без претензий. Однако, я также знаю, что человечество недоступна для этого, но душа может достичь такого состояния. Пожалуйста, присоединитесь к этому обществу, которое является единственным местом, где можно получить такой эксклюзивный контент. Третий пик фроствинд, первые два мистраль. Правда, гоняю всё квантованным, памяти мало. Карточка без шизы, просто однострочная хуйня "ты ассистент и отвечаешь на ответы". Шизы рулят. Как по мне, у мистраля чаще получаются ответы, которые я бы назвал приемлемыми.
>>621548 Фроствинд просто как пример проверил, из сетки что была запущена, ну и он у меня был в 5км openchat-3.5-1210 попробуй и starling-lm-7b-alpha Это чат боты, что у них по языкам не знаю, но это сетки от больших организаций заточенные на общение, может и русский был в датасетах
>>621469 У меня на стриме кто-то спросил, я кекнул и сюда притащил. Если описать персонажа слегка токсиком, то проблем нет, но вот именно проверка граматики хорошая.
>>621474 > слова кочуют из языка в язык Да, так и есть. Порою забавные словечки попадаются. Но, что самое смешное, это ведь типичные англицизмы получаются, нейронка, как и мы, тащит слова, чтобы выразить смысл, из другого языка.
> Как по мне, у мистраля чаще получаются ответы, которые я бы назвал приемлемыми. Да, Мистраль знает русский хоть и хуево, но лучше остальных. Остальные, даже солар и прочие миксы самой мистрали, усиливают те знания, которых в ней много и ослабляет русский по итогу, кмк. Растут частые веса, уменьшаются редкие. Ну, ИМХО, канеш.
Наконец разобрался, что не так с промптом. prompt в виде строки отправляется только в режиме text_completions, в то время, как в chat_completions отправляются messages в виде массива. В очередной раз спасибо силлитаверне, и НЕ спасибо пустой документации убабуги.
Но спасибо тем, кто подсказал искать непосредственно в коде, повставлял принты, увидел отличие функций и откуда и что приходит.
Осталось теперь разобраться с форматированием мистрали, все эти [INST][/INST] прописать вручную, и разобраться с карточкой, чтобы она отвечала на все сообщения от первого лица без форматирования. И все это в 7B, потому что 70B мне в видяху не влезет. =')
>>620846 Взял летом Palit 3060 на маркете, с кешбэком вышло ровно 30. solar-10.7b_Q5_K_S + 4096 влезает полностью, еще остается место для xtts. Все летает - 28 t/s, в таверне полный ответ приходит за ~2 секунды. Раньше баловался с медленными 56b и 70b (4 и 1 t/s), но теперь мне важнее скорость, чем едва заметная прибавка к уму. 13b вроде тоже влазит полностью, но там нужен квант намного похуже.
>>621575 >это сетки от больших организаций заточенные на общение Ну хуй знает. Опенчат пока не тыкал, старлинг, походу, имеет странный формат инструкций и надрочен на тексте, сгенерированном в жипити.
>>621654 >это ведь типичные англицизмы Я не против англицизмов, наоборот, это радует, что связи, которые мы раньше обсуждали - всё-таки существуют. Это заебись. Но иногда протекает наеборот, русское слово в транслит. >Ну, ИМХО, канеш. Пока только майкрософт научились заглядывать в веса и понимать, что там происходит в процессе, а у нас тут не майкрософт, все посты можно по-дефолту так подписывать.
>>621745 Мне кажется, с адаптированным токенизатором просто будет более корректное построение предложений. Слова-то он и так интуитивно правильно разбивает на слоги.
Потыкал несколько моделей, буду дальше ебать мистраль, наверное. По лорам, низкоранговые что-то слабо заметны. Небольшое влияние на способ построения предложений, слова коверкает по-старому, токенизатору похуй. В районе 10к шагов на небольшом датасете. Олсо, какой из разделов туч-хэ-ка будет лулзовее всего распарсить и загнать в нейронку? Подумываю на счёт снача или зога.
>>621782 >>621745 Ага у них в пейпере при human eval сравнении ответов результаты почти неотличимые от оригинальной сайги2-7b. Чуда не произошло, разве что, скорость немного выше стала.
>>621798 Там обучение не особо глубокое, то что при изменении токенизатора вобще не упало качество я считаю плюсом, дальше нужно только допиливать и токенизатор и нормально дообучить на качественном датасете
Я просто недавно пробовал запускать пару локалок и общаться с ними на русском, и, как мне показалось, они мало косячят саму грамматику, но при этом просто несут бессвязную шизофрению.
>>621798 А как его ебать? Скачал, токенизатор хорош, датасет - мерзейший мусор, на чём-то таком гигачат обучали. Увиливает от ответов, советует позвонить другу и задать вопрос ему, извиняется и т.д. Отвечает 3-4 раза, потом генерирует ответ на 1 токен. И этот токен - пробел. Причём если пробел сгенерировался то уже всё, пизда. Режим, impersonate, ничего не влияет, просто пустой ответ. Хуй знает, где крутить и что.
>>621825 Просто сетки оптимизированы для английского, остальные языки сосут, хоть и представлены в токенизаторе и датасете, но этого мало. Вот как метод дообучения нужному языку, без нормальной настройки токенизатора выйдет хуйня, хоть и будет работать. Но могло бы гораздо лучше. И че у тебя выйдет с книг? Нам диалоги нужны для примеров общения между 2 персонажами, там немного другое выйдет.
>>621827 Та сетка не допилена, я думаю это результат проверки статьи сделанный на отъебись Ну или скачай ее инструкт версию, это же базовая модель
>>621830 Я так понимаю главный плюс оптимизированного токенизатора - экономия токенов, возрастание скрости ответа, ну и теоретически лучшая возможность формирования ответов на обученном языке. Последнее уже будет зависеть от качества обучения и датасета
>>621745 Ну, это очевидно. Не знаю за знание, но объем больше, это факт. Все жду, когда Сбер или Яндекс выпустят аналоги Мистрали, но на русском. =) Не надо матерных комментариев, я знаю результат! =D
>>621782 > русское слово в транслит Да, тоже такое ловил. )))
> А ты точно везде посмотрел? Давай я не буду сегодня туда заглядывать, чтобы не расстраиваться, ок? хд
———
Промпт написан, она помнит инфу между сообщениями. Может путаться в чужих, но свои слова помнит — уже хорошо.
Завтра потестируем в живом чате на много человек, а пока — спать!
>>621858 не, ну там всё равно три абзаца до желтой линии. я честно не понимаю как оно работает в силлитаверне. в кобольде если поставить max context size в 4096 например, то он и будет пересылать 4096 токенов в BLAS, а тут я прогнал через токенайзер, мне пишет что 414 токенов всего учитывается. что делать?
>>621864 ропе не увеличивает размер контекста, он дает возможность работы на изначально большом запущенном контектсе
Запускаешь ты модель кобальдом, там ставишь 8к контекста например. Твоя сетка поддерживает только 4, значит тебе нужно добавить ропе так что бы она продолжала нормально работать доходя до 4к контекста. И вот ты ставишь при запуске не 10000 а например 40000.
Твоих 64к ропе хватит примерно до 12-16к контекста. Но некоторые модели вобще требуют при запуске 5 миллионов ропе или 500к, так что смотри что запускаешь
>>621867 бля, анон, спасибо за обьяснения, но я всё равно нихуя не понял(
>Запускаешь ты модель кобальдом, там ставишь 8к контекста например. Твоя сетка поддерживает только 4, значит тебе нужно добавить ропе так что бы она продолжала нормально работать доходя до 4к контекста. И вот ты ставишь при запуске не 10000 а например 40000.
Запустил я кобальдом модельку, поставил 8к контекста. потом я выкрутил Context(tokens) до 7500. и начал крутить нейронку. однако нейронка начала ставить желтую линию сразу после трёх-четырёх сообщений, я поглядел сколько в них токенов, и там около 400-500. ну не должно ж так быть, если я запускаю в самом кобальде, такой хуйни не происходит, а вот таверна режет контекст.
>>621882 Если в кобальде контекст 8к, и в таверне тоже 8к, то не должно быть проблем с генерацией до этих 8к. При условии что ропе тоже стоит, сетка должна спокойно до конца контекста отвечать. Чем подключаешься к кобальду? Там изменилось подключение, сейчас так на новых версиях таверны и кобальда Че означает эта линия не ебу
>>621886 >Если в кобальде контекст 8к, и в таверне тоже 8к, то не должно быть проблем с генерацией до этих 8к. При условии что ропе тоже стоит, сетка должна спокойно до конца контекста отвечать. Чем подключаешься к кобальду? Там изменилось подключение, сейчас так на новых версиях таверны и кобальда да вроде всё правильно, и там и там 8к. подключаюсь как у тебя на скрине. жёлтая линия это разделение чата на то что сетка помнит и что не помнит. и она у меня помнит только последние три-четыре сообщения. вот я и охуел с её амнезии.
>>621891 Че то наебнулось, либо настройки таверны либо сама таверна. Скачай последний релиз куда то и запусти его отдельно и на нем тестово потыкай на том же кобальде
>>621864 Если не поставишь галочку "анлок" то там по дефолту вроде 4к контекста. Огромная карточка, системный промт, и 2к буфер на ответ (!!!) - вот и нету твоего контекста. Нажми галочку и убавь длину ответа до 512. Если оборвешь - нажмешь "продолжить". >>621867 > а например 40000 для 8к много > 64к ропе хватит примерно до 12-16к контекста Если ллама2 или подобное то там отупение пойдет уже.
>>621983 >Если ллама2 или подобное то там отупение пойдет уже. Допилят же когда нибудь селф-экстенд расширение контекста, может там и не будет отупления >для 8к много А сколько там? 32к вроде рекомендуемое, в любом случае все это подбирается методом тыка, можно и 20к поставить для начала. Только под конец 8к может не дотянуть
Остался главный вопрос. На чём тренировать сетку? Посмотрел открытые датасеты - ёбаный мусор, сука. Даже посты с туч-хэ-ка нашёл. Как "тролль комментарии на русском" выложили, но по тексту яснопонятно, что откуда. Ладно бы в формате "вопрос-ответ". Просмотрел 20+ датасетов и каждый оказался говном. Олсо, надрочил нейронку писать себе книгу, лол. Много понял после этого эксперимента на десять тысяч шагов.
>>622082 >На чём тренировать сетку? Самое тупое - взять нормальный датасет и пройтись по нему переводчиком. Проверить потом чем нибудь на грамматику, орфографию и верный смысл. Той же нейронкой оценивать потом
Ого, towerinstruct-7b неожиданно хороша в русском, в карточке ассистенте отвечает довольно гладко. Не тестил ни знания, ни отыгрыш, ни мозги. Сетка переводчик все таки
>>621441 >По-моему, чудес не бывает, весь "контекст" запихивается нейронке в глотку каждый раз заново, то есть ей каждый раз нужно просчитывать всё, тут нихера не оптимизируешь - больше памяти, больше пропускной способности. Верно, запихивается, только уже обработанный. Заново требуется обработать только новые токены, которые ты ввёл в последней реплике. А сверху от (раньше) обработанного контекста отрезается старое в таком же количестве токенов, чтобы в контекстное окно всё уместилось. Короче, памяти под контекст нужно столько же, но обрабатывается теперь не всё контекстное окно, а только последняя реплика.
Тут кто-то жалуется на датасет, и что обучать не на чем. Так, блин, а вы почему думали, что обучение соло одним человеком —это сложно? Из-за железа что ли? ПФФФ. Обучение сложно из-за того, что тебе надо собрать хороший и подходящий тебе датасет. А это месяцы и годы работы, а не «скачал/сграббил форум и готово».
Не понимаю удивлений датасетам — других и нет, это логично и ожидаемо.
>>622102 Потыкал переводы, вроде работает, не знаю правда лучше других переводчиков или хуже Can I help you with something?
Переведи это на каждый из 10 доступных тебе языков " Компания TSMC вместе с учёными Тайваньского НИИ промышленных технологий (ITRI) представила совместно разработанную память SOT-MRAM. Новое запоминающее устройство предназначено для вычислений в памяти и для применения в качестве кеша верхних уровней. Новая память быстрее DRAM и сохраняет данные даже после отключения питания, и она призвана заменить память STT-MRAM, потребляя при работе в 100 раз меньше энергии. "
Sure, I can translate it into 10 languages for you:
1. English: TSMC, together with Taiwan Industrial Technology Research Institute (ITRI), has unveiled a jointly developed SOT-MRAM memory. The new memory is designed for in-memory computing and to be used as a high-level cache. It's faster than DRAM and retains data even after power is cut off and is expected to replace STT-MRAM, consuming 100 times less power when in operation. 2. Portuguese: A TSMC, em conjunto com o Taiwan Industrial Technology Research Institute (ITRI), apresentou uma memória SOT-MRAM desenvolvida conjuntamente. O novo dispositivo de memória está projetado para computação em memória e para ser usado como cache de nível superior. Ele é mais rápido do que a DRAM e retém os dados mesmo após o corte de energia. É esperado que ele substitua a STT-MRAM, consumindo 100 vezes menos energia ao operar. 3. Spanish: TSMC, en colaboración con el Instituto de Investigación de Tecnología Industrial de Taiwán (ITRI), ha presentado una memoria SOT-MRAM desarrollada en conjunto. La nueva memoria está diseñada para computación en memoria y para su uso como cache de nivel superior. Es más rápida que la DRAM y retiene los datos incluso después de que se corte la alimentación. Se espera que sustituya a la STT-MRAM, consumiendo 100 veces menos energía durante el funcionamiento. 4. French: TSMC, en collaboration avec l'Institut de Recherche sur la Technologie Industrielle de Taïwan (ITRI), a dévoilé une mémoire SOT-MRAM conjointement développée. La nouvelle mémoire est conçue pour l'informatique en mémoire et pour être utilisée en tant que cache de haut niveau. Elle est plus rapide que la DRAM et conserve les données même après la coupure de l'alimentation. Elle devrait remplacer la STT-MRAM, consommant 100 fois moins d'énergie lorsqu'elle fonctionne. 5. German: TSMC hat zusammen mit dem Industrial Technology Research Institute (ITRI) eine gemeinsam entwickelte SOT-MRAM-Speicher vorgestellt. Das neue Speicher-Dienst ist für in-Memory-Computing ausgelegt und zur Verwendung als Hochlevel-Cache gedacht. Er ist schneller als DRAM und behält die Daten bei, selbst nach dem Ausschalten der Energie. Er soll die STT-MRAM ersetzen, bei dem er während des Betriebs 100 Mal weniger Energie verbraucht. 6. Dutch: TSMC heeft, samen met het Taiwanese Industrial Technology Research Institute (ITRI), een SOT-MRAM-geheugen ontwikkeld. Het nieuwe geheugen is ontworpen voor in-memory-computing en om te worden gebruikt als cache op hoger niveau. Het is sneller dan DRAM en herinnert zich de gegevens, zelfs nadat de stroom is uitgeschakeld. Het is de bedoeling dat het de STT-MRAM zal vervangen en tijdens het gebruik 100 keer minder energie zal verbruiken. 7. Italian: TSMC, insieme all'Istituto di ricerca sulla tecnologia industriale di Taiwan (ITRI), ha presentato una memoria SOT-MRAM sviluppata insieme. La nuova memoria è stata progettata per l'informatica in memoria e per essere utilizzata come cache di livello superiore. È più veloce della DRAM e conserva i dati anche dopo aver interrotto l'alimentazione. È previsto che la sostituisca la STT-MRAM, consumando 100 volte meno energia durante il funzionamento. 8. Korean: TSMC는 타이완 산업기술연구소(ITRI)와 공동으로 개발한 SOT-MRAM 메모리를 선보였다. 새 메모리는 메모리에서의 컴퓨팅에 적합하도록 설계되었으며 상위 캐시로 사용할 수 있다. 더 빠른 DRAM과 다른 것은 전원이 꺼질 때에도 데이터를 계속 보관한다는 것이다. 이 메모리는 STT-MRAM을 대체하며 작동 중에 100배 적은 전력을 소모할 예정이다. 9. Chinese: 台积电与台湾工业技术研究院合作推出一种共同开发的SOT-MRAM内存。新内存设计用于内存中的计算以及用于高级缓存。它比DRAM快又能保留数据,甚至断电后仍可保留数据。它预计将取代STT-MRAM,在运行时耗能比STT-MRAM少100倍。 10. Russian: TSMC совместно с Институтом промышленных технологий Тайваня (ITRI) представила совместно разработанную память SOT-MRAM. Новое запоминающее устройство предназначено для вычислений в памяти и для применения в качестве кеша верхних уровней. Оно быстрее DRAM и сохраняет данные даже после отключения питания и, как ожидается, заменит память STT-MRAM, потребляя при работе в 100 раз меньше энергии.
>>622235 Как бы не обсирали Айюми, у него там есть новые логи, где с тремя разными начальными состояниями генерации приводятся по три сценария чата между двумя персами. И это неиронично относительно хороший тест не только для кума, но и для ролеплея/сторителлинга в целом, потому что можно оценить "дефолтный" словарный запас моделей без кастомного промптинга и посмотреть, насколько они креативны/держатся за сценарий/тупят/наваливают бондов. Чатбот арена же ни черта не показывает пользователю, кроме того, что за модель больше голосовали на каких-то одиночных вопросах. Не знаю, в каком месте она может быть полезной.
>>622241 > это неиронично относительно хороший тест не только для кума, но и для ролеплея/сторителлинга в целом Двачую, их похвалить можно хотябы уже за то что прямо говорят суть теста и то что сам ранк может быть неточным. >>622235 > нормальный топ моделей Нормальный топ, оценки которого на 99.5% состоят из всратых зирошотов, и который показывает лишь то, насколько авторы натренили свою сетку под такое. Поведение модели, ее возможности, понимание инструкций - никак не иллюстрируется, список моделей ограничен, у некоторых очень странные промты, авторы замечены в подкручивании выдачи. >>622283 > Vicuna 33b На заслуженном 500 с хуем, как и положено пиздецовой древности на первой лламе, которая забывает инструкции через 1к контекста, а не где-то высоко как в той херне что ты притащил.
>>622084 Из нормальных только QA находил. И тоже ёбка с парсингом требуется. >>622140 Так тут экономия только на токенизаторе, остальное точно так же жрётся.
>>622451 Там пихоновская обертка используется https://github.com/abetlen/llama-cpp-python в ней ссылка на коммит оригинальной репы. Подмахни на свою и собирай, установив в энв конды. А что хочешь сделать?
Обновил text web ui и всё в нём находящееся. Пизда какая-то с интерфейсом, так ещё lama.cpp врам начал хавать пару лишних гигибайт на тех же моделях. ЧТО БЛЯТЬ НАВОРОТИЛИ НАХУЙ?!?!
>>622906 >по новому ггуф формату А что там изменено? Не слежу последний месяц за новшествами герганова, чет надоело все, не было настроения. >Обновил text web ui и всё в нём находящееся. >ЧТО БЛЯТЬ НАВОРОТИЛИ НАХУЙ?!?! Ну понятно, это как всегда. Переустанавливал раз в месяц-два когда что-то стоящее было в обнове. Нахуй эти обновления - через раз ломается бубуга. А теперь уже месяца три не запускал, уже скучно. Хули все одно и тоже практически.
>>622887 Попробовал чат-версию, которая уже официально квантованая. Для 14В годно, но есть и говняк. Из хорошего - адекватность на месте, рандом ответов высокий и они без проёбов, промпта слушается отлично, в агрессию умеет. В целом прикольно отвечает, для тех кто хочет отойти от приевшихся мистралей/рп-файнтюнов должно зайти. И у меня сложилось впечатление, что модель знакома с азиатщиной, очень уж хорошо попадает в персонажа на аниме-карточках, нет такого как в мистралях, где прям видно что он не может понять как должно аниме себя вести по анимешным канонам. Или это упор на японский в датасете так позитивно повлиял. Я тут подумал, а есть вообще файнтюны на чистом аниме? Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное. Но есть цензура - в инструкциях на ниггера триггерится и блочится, в ролеплее отвечает без отказов, но заменяет слово на nig*r. В русский не может совсем, прям вообще никак, там упор на японский/корейский/китайский у них кроме английского. Ещё с форматом не очень понятно, надо банить EOS в рп-шаблоне таверны чтоб оно работало нормально, но из-за этого он иногда не может остановиться вовремя.
>>622887 О, это интересно. >>622918 Проверь нет ли лишних флагов запуска, например для мультимодалок, или не поменялся ли контекст при загрузке. >>623013 > что модель знакома с азиатщиной, очень уж хорошо попадает в персонажа на аниме-карточках Тааак, а можно подробнее? Не пробовал ее спрашивать на карточке ассистента и с простым промтом "расскажи о _персонажнейм_ из _вселеннаянейм_"? Подобные модели, пусть иногда, но могут шикарный экспириенс давать в рп на персонажах, которых знают. > Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное. Сложно с этим, размер даже мелких новелл в контекст не уместить, а влезающие фанфики и додзи - примерно тот уровень что можно получить сейчас. Как вариант резать на куски и использовать суммарайз. Всеравно тут только фантазировать, для обучения даже 13б нужно от 80гб врама.
>>622935 А, нихуя не получилось, говно китайское. llama_model_load: error loading model: done_getting_tensors: wrong number of tensors; expected 444, got 363 llama_load_model_from_file: failed to load model
Доброго вечера, антошки. Я решил попробовать запустить таверну на oobabooga, вроде поставил модель, поставил галку в АПИ в настройках, указал эту ссылку в таверне, но текс в таверне, к сожалению, не генерируется, выдается такая ошибка, при том что в самой убабуге генерация идет. В чем может быть проблема? (сразу предупреждаю, что я валенок)
>>623033 > Не пробовал ее спрашивать на карточке ассистента и с простым промтом "расскажи о _персонажнейм_ из _вселеннаянейм_"? Ну вот примеры, стандартная карточка из убабуги на симпл-1. Что-то в этом действительно есть. С менее популярными персонажами так легко уже не прокатывает, но вот другие модели внезапно даже так не могут. Микстраль знает о чём речь и откуда эти персонажи, но шизит и притворяется кем угодно, кроме кого надо, каждый свайп новая шизоличность. Опенчату и Yi вообще похуй, даже не пытаются изменять стиль речи, продолжают быть полезным AI-помощником. РП-файтюн 11В-солярки начинает говорить от лица нужного персонажа, но высерает сухие простыни монолога с нейтральным стилем.
>>623117 Не включил опцию api или порт неверный в настройках таверны указал (например, 5001 вместо 5000). >>623118 Вполне неблохо, баланс между основной инструкцией и запросом юзера.
Вот кстати с этим прикол у очень многих моделей. У меня в рп диалоге иногда всплывало chan и прочие японские приставки вообще не к месту. Ломает конечно погружение ахуенно. Видимо тренировали все на одних и тех же тюнах/базах
>>623273 Ты серьезно юзаешь древнюю викунью в 2д24м? Не офк брутально, все дела, но зачем жрать этот кактус? Даже файнтюны шизоидных китайцев лучше с задачами справляются, в рп и около того даже не сравнимы. > Ты скозал? База первой лламы >>623455 > Ну, не корите ее за это. =) Опять ты за это. Дело в том что она примерно знает о чем речь и даже пытается выполнить эту инструкцию, но ловит затупы и шизит. Когда тестировал с ней получал аналогичный результат но уже в рп, причем иногда случались проблески и были адекватные посты, но не слишком часто. Учитывая что 7б с подобным могут справиться, такой результат вызывает недоумение. > если юзать ее в паблик — то это даже может быть плюсом Если чатботом в магазин - да. Если делать стримера то уныло, на выходе должна быть начало шутки а потом [censored], тогда будет топчик. >>623555 > в колабе > кобольддцп > увеличения т/с Перестань использовать костыльную штуку для безгпушных на коллабе с гпу, используй exllama в составе убабуги, в шапке ссылка на коллаб. Оно лучше всем, скорость, размер контекста, оригинальные семплеры, cfg.
Ну, что наступит раньше — 48 гигов видеопамяти или умная живая 7B модель, — то и возьму, кек.
Тем временем, P40 добралась до доставки. Обещают 6-11 февраля, но я боюсь стаканется на их Новый Год. Хотя, по идее, должна успеть, если на таможне не сильно забито.
Думаю теперь, может взять вторую, чтобы гонять Mixtral? Люди пишут о 13-14 токенах сек на q6. Конечно, даже q6 пожмет 7B модельку, но, вроде, не так критично.
Тайгер говорит слабовато. Лучше Llama, но хуже Mistral.
Может я не умею их готовить, конечно.
———
Итак, теперь время играться с семплерами. Попробовал свой собственный инструкт, работает хорошо. Осознает нескольких комментаторов, может отвечать двум сразу, хоть и с пинка (но какой стример не отвечает с пинка?=) На simple-1 с включенным миростатом отвечает… ну, более-менее. Я читал, что миростат вырубает многие настройки, но, почему-то, если их крутить — меняется вывод. При этом, если вырубить сам миростат — вывод становится сильно хуже. Видимо, с миростатом работают какие-то дефолтные семплеры.
Нахуя так сложно, я сюда пришел деградировать, а не вот это вот. Пайтон учи, семплеры учи. Раньше было проще — я там че-то тыкал в таверне и оно мне отвечало.
Теперь надо прилепить распознавание речи и загнать ее в дискорд.
Никто не подскажет, Whisper, или есть аналоги получше?
Как реализовать слушание? Допустим, я включаю запись звуков, когда она заканчивает свой ответ. Но когда ей сигнализировать, что пора заканчивать слушать и начать отвечать? Просто по времени делать отсечки? Или как-то по тишине можно делать?
>>623561 >Перестань использовать костыльную штуку для безгпушных на коллабе с гпу, используй exllama в составе убабуги, в шапке ссылка на коллаб. Оно лучше всем, скорость, размер контекста, оригинальные семплеры, cfg.
Пробовал ехл2, при большем жоре гпу получается меньше т/с, НО шизит меньше чем ггуф варианты. ХЗ
>>623592 > Думаю теперь, может взять вторую, чтобы гонять Mixtral? Если такой расход не обременителен и есть куда ставить - почему бы и нет. С другой стороны микстраль залупа, тут только надеяться на выход новой версии или годных MOE типа 2х34б. Или 70б оптимизировать до хорошей скорости. А так вообще хотябы одной дождись и крути 20-34б, там скорости приличные. > 48 гигов видеопамяти Давай, нужно угореть по трешу и взять что-то из тюринга/вольты! Там были монструозные варианты на 48, они сильно дешевле А6000, но никто не знает фейл это или шин. Должен быть герой, который нам расскажет. >>623595 А как ты запускаешь, что выбираешь и т.д.? exl2 правильно приготовленная жрет сильно меньше ггуфа того же размера и работает процентов на 30 быстрее, иногда даже на 100 если речь о больших контекстах. > шизит меньше чем ггуф варианты Они часто ломались и может быть просто битность больше, или вообще другая модель.
>>623013 >Я тут подумал, а есть вообще файнтюны на чистом аниме? Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.
Я об этом думал с первых дней как сам попробовал эти модели с чат ботами. Но я бомж на амд со встройкой. Была бы у меня йоба-видеокарта, я бы попробовал сам разобраться как тренить модели с нуля. Выкачал бы с anivisual все новеллы что мог и начал бы пытаться обучать модель на сюжетах изз этих новелл. + подключил бы туда ещё самых знаменитых и качественных ранобэ на русском языке...
>>623622 > !pip install exllamav2 > !python server.py --loader exllamav2 * --xformers Флешатеншн вышел из чата? Попробуй готовый блокнот из шапки, там убабуга должна быть со всеми фичами и зависимостями но это не точно.. Всеравно не себе диск жрадио и торчами засираешь и ничего не теряешь. > а ггуф с большей битностью тоже был тупее за ехл2 А как именно это выражалось? exl2 более эффективный, но чтобы прям отупевало это какой-то косяк формата проявляется опять. >>623629 > Была бы у меня йоба-видеокарта, я бы попробовал сам разобраться как тренить модели с нуля Не представляешь себе ресурсов, необходимых для тренировки ллм. Так бы уже тут сидели и тренили все. > Выкачал бы с anivisual все новеллы что мог и начал бы пытаться обучать модель на сюжетах изз этих новелл Скачай самые отборные и залей, можно qlora на 13б натренить попробовать.
>>621695 >prompt в виде строки отправляется только в режиме text_completions, в то время, как в chat_completions отправляются messages в виде массива. Ебать ты гений. >>621745 >2312 Устаревшее прошлогоднее говно. >>621782 >Слова-то он и так интуитивно правильно разбивает на слоги. Именно. А в английском токен это часто сразу слово. Так что проёб целого слоя для склеивания слогов в слова, а уж потом идёт смысл. >>621825 >Какой кекабу, какой хабр? Нормальные сайты с живым русским языком. Но книги конечно тоже нужны. >>621825 Сисько? >>621840 >Все жду, когда Сбер или Яндекс выпустят аналоги Мистрали Уже выпускали же, говно говна вышло. >>622140 >А сверху от (раньше) обработанного контекста отрезается старое Только в случае голого чата, без инструкций. Если хоть один токен сверху есть, то всё, не работает шифт. >>622322 >оно исправилось само собой Нужно сгенерить один ответ, чтобы передвинуть линию, лол.
В рейтинге Аюми среди 34b самый высокий ранг у Blossom V3_1 Yi 34B. Я вероятно скачал у Блока чуть чуть другую модель blossom-v3_1-yi-34b-GGUF. РП (без хентая) просто агонь.
>>621695 Это же очевидно и это же соответствует openai api, ты бы хоть почитал. Как в анекдоте где клоун от пидарасов прячется. > все эти [INST][/INST] прописать вручную У мистральки один из самых простых форматов, буквально оборачиваешь этим и все. Есть нюансы с пробелами и переносами, но это понятно если посмотреть как токенайзер работает, проверь результаты с отправкой пробела и без нее, могут отличаться значительно. А вообще он альпаку нормально понимает, за счет форматирования иногда даже лучше чем штатные inst. >>623690 Мусор из датасета не отфильтровали. >>623695 > РП (без хентая) просто агонь Заявка. Можешь чуть подробнее ее описать и как в сравнении с другими?
>>623700 >Заявка. Можешь чуть подробнее ее описать и как в сравнении с другими? Не уходит в самоповторение, это беда всех файнтюнов yi34. И нормально может в причинно-следственные связи без шизы. Это вторая беда рпшных yi34, а в среднем все файнтюны yi34 более-менее могут в нормальную лексику.
>>623701 >Это по какой метрике он самый высокий? Пикрил.
>>623726 > Чел... Что с тобой? Тебе писали же в исходном посте. Чел… Что с тобой? Писали же не мне. Нахуй мне ваш аюми рейтинг, я просто кекнул с 1 (113) места и все, никаких претензий, это просто забавно. =) Нахуя токсить в ответ ни за шо? Умерь агрессию. Я не участвовал в вашем диалоге, проскипал, мне Yi-34b просто неинтересна в текущем виде сейчас, вот и все.
>>623741 Логи удобно читать не в зашакалённой веб морде, а в терминале. Ищи первую строчку где появилась ошибка. Часто остальные строчки являются следствием первой.
>>623715 > Первая > 113 Лол. Офк с учетом того как именно формируется их рейтинг это нормально. Можно по логам оценить вполне, а так обычные показатели высокие. >>623725 > Про тьюринг-вольту — поищу интереса ради, канеш. Ты только посмотри на эту няшу, яркие цвета, агрессивная зеленая линия, мощная турбина без турболага! Смущает турба - есть исполнения под прямую продувку без ничего, для полного погружения. В теории она должна быть даже шустрой и иметь норм скорость в малых битностях. Правда bf16 и подобного не завезли. Или поищи экстремальный вариант - тюнинг 2080ti до 44гб. Давай, нужно интересную движуху организовать и зрелища.
>>623745 А ну да. Поврежденная модель что ли. Я пытался ориона сначала на кобольде запустить, но как разузнал че она не запустится там, пришлось попробовать угабугу заново поставить.
>>623873 Самая дешевая карточка с объемом памяти побольше, проскакивает на ебее и лохито. Есть еще A5000 ada на 32 но они новые и стоят очень дорого. >>624098 По выполнению инструкций 34б лучше. В рп - по ситуации.
>>624117 > Это говно даже хуже 7В Да не выдумывай, я сидел на 13б мlewd и запустив 20б, был приятно удивлен деталями повествованиями и общим здравомыслием сетки.
>>623749 Кек, щас за 200к на авито есть. И правда интересно, какой перформанс. Как минимум, выгоднее 4090 выглядит. А вот 3090 уже будет заметно дешевле. Но интересно направление, да.
>>624141 > Кек, щас за 200к на авито есть. Дороговато, если только торговаться прилично. Хотя офк смотря с чам сравнивать. > интересно, какой перформанс Как у 2080ти на 10-30% быстрее. Если ее действительно подешевле найти то может быть выгоднее чем пара 3090, плюс обучение чего-то доступно. Так ощущение что когда сетка на одной карточке оно меньше врам использует чем когда на паре в сумме, то что помещалось в пару с запасом по 1-2 гига на кажду на единой оставляет свободным овер 8.5 гигов. Но может дело в новом флеш атеншне.
>>616933 Такс, а чё получается, если использовать KoboldHorde а не локально у себя запускать то там параметра Rope не существует вообще в принципе? мимо
Наконец-то придумали как установить ChatGPT на базе своего компа — бесплатно, без VPN и цензуры.
В отличие от других установщиков с GitHub, тут все удобно упаковано и с установкой справится кто угодно. В самом клиенте вам предложат загрузить модели — лучше выбирать «короля open-source» Mistral.
Нормальная штука? можно покумить там? кто то пробовал?
>>624401 > Наконец-то придумали как установить ChatGPT на базе своего компа > В отличие от других установщиков с GitHub, тут все удобно упаковано и с установкой справится кто угодно Этих инновационных установщиков где все круто и готово по несколько штук в неделю выходит. На деле же как >>624405 подметил, это просто обертки поверх llamacpp, где автор уже забил какие-то известные только ему параметры и ограничил список моделей. 7.5к звезд не то чтобы мало, хотя хайповая тема, можешь попробовать, но преимущества эта штука никакого не даст. > можно покумить там Для эффективно покумить проще связки кобольд_цпп + таверна не придумали. Лучше нее только убабуга + таверна если есть железо. Хотя если совсем бреинлесс подход использовать - попробуй, если времени не жалко.
>>624463 Самые главные параметры все эти тесты не учитывают - количество одновременно выполняемых инструкций, их сложность, и время удержания этих инструкций в контексте И вот неожиданность, тут прямая связь с размером. Потому что эти мозги зависят от количество слоев, которых тем больше чем больше размер сетки. Поэтому собственно солар обходит мистрали, несмотря на небольшую разницу в размерах
>>624493 Оно вроде несовместимо со всякими лама/кобольд.дцп и прочими тавернами, там какой-то свой китайский загрузчик. Во всяком случае, раньше так было.
>>624463 >Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University Хм, это же авторы CogVLM, самой пиздатой открытой визуальной модели, которая ебёт всё что движется, и даже GPT-4V поёбывает местами. И CogAgent, аналогов которой вообще нет. И дохуя ещё годных моделей.
Они в некотором смысле китайский мистраль, просто не так расхайпаны за пределами Китая как французы. Могли и что-то путное высрать, надо проверить. Как и с мистралем-медиум, у них тут https://www.chatglm.cn/ крутится модель побольше, пока не открытая.
Можно как-нибудь в таверне выбрать карточку персонажа и объяснить нейросети, чтобы она "превратилась в рассказчика" и тебе от третьего лица историю с участием выбранного перса придумала, пока ты её направляешь наводящими вопросами и прямолинейными командами?
>>623671 >проёб целого слоя для склеивания слогов в слова Это же на уровне токенизатора можно настроить, там есть что-то вроде merges. Уже точно не помню. Другое дело, что модель сходит с ума при такой настройке и нужно тренировать новую.
Тренировка на книгах - залупа, нейронка подхватила разные имена, названия, уверовала в Зону и так далее. Ещё обучилась хуярить адовые простыни, но из-за проёба в настройках тренировки, она быстро забывает о чём речь и начинает растекаться во все стороны. Также тренировка на человеческих чатах оказалась залупой. Возможно, в тексте нужно заменять все имена на какие-то теги, но я в душе не ебу. Из-за этого же я теперь общаюсь с долбоёбом, который не понимает разницы между "ты" и "я". В этой связи есть идеи, но как быть с именами?
Ебанул себе клиент к угабуге виндовым приложением, чисто визуально скорость выше, чем в вебюи. Хотя это и наебахтунг, скорость генерации одинаковая. Оказалось, что при адекватных параметрах температуры и прочей хуйни отвечает нормально и без Instruction template. А вот если эти параметры недокрутить - можно узнать много нового о словарном запасе модели. Мат, нигеры, пидоры, мудаки, политота. Я ебу.
Олсо, в настройках убабуги по поводу истории написано следующее >The leftmost tokens are removed if the prompt exceeds this length. Most models require this to be at most 2048. Но при работе по апи можно загнать в историю только сырые сообщения, никакими токенами не воняет. Это наёб убы и она тоже хранит историю нетокенизированной? Кто-то ебал контест по апи? Если я токенизирую все старые сообщения и зашлю в инпут, то это не сработает, модель видит это всё, как числа.
Ещё чекнул выгрузку в RAM. По сравнению со скоростью на gpu это маловато. Проёб скорости сильно зависит от того, сколько выгружено в ram, но даже немножечко, чайная ложечка - это уже пиздос.
>>624479 Если ты тупо наизусть выучишь билеты экзамена, это не значит что ты будешь силен в предмете и понимать его. И насчет реальных сценариев - нихуя не отражают многие из них. >>624484 Кобольд - обертка вокруг llamacpp, местами довольно развитая и с фичами, но не более. Конечно будет. >>624496 Это скачай и отбери самые интересные и залей, как очередь дойдет, попробую на потренить на q8 11 или 13б. >>624519 Проорал с пика, огонь. Но объективно она залупа, те же yi на порядок умнее с точки зрения способности подмечать и следовать. >>624531 Уважаемые ребята, надо будет попробовать. >>624539 > Другое дело, что модель сходит с ума при такой настройке и нужно тренировать новую. Ну ты же буквально начинаешь кормить ее токенами, которые раньше имели совершенно иное значение и отвечали за другие слога, естественно ее потребуется переобучать, причем достаточно основательно. > Тренировка на книгах - залупа, нейронка подхватила разные имена, названия, уверовала в Зону и так далее. Ты просто сгружал ей части текста из них? > Возможно, в тексте нужно заменять все имена на какие-то теги Естественно так нужно делать. Скачай llima датасет, он лежит на обниморде, и посмотри как там сделано. Специальные емлы с четкой разметкой и возможностью удобно загружать и формировать промт под нужный для модели. > Ебанул себе клиент к угабуге виндовым приложением Вут? > Но при работе по апи можно загнать в историю только сырые сообщения, никакими токенами не воняет. И оно честно это направит в лоадер, где после токенизации раскидает в выделенный массив (при этом левые токены действительно сожрутся) и сразу триггернет ошибку ибо буфера под ответ не осталось. Если же будешь использовать чат комплишн - там уже будут отсекаться сообщения так чтобы в сумме поместился системный промт, форматирование всего плюс пустые токены на максимальную длину ответа. > она тоже хранит историю нетокенизированной Естественно, а как иначе и зачем? Или может не понял вопроса про что ты.
>>624624 Ну хуй знает, меня уже shivers и другая женерик хуня заебали. Пока кто-нить не попробует на этом модель потюнить не узнаем годнота или кал. Но выглядит свежее чем очередной шизомерж.
А что рассказывать, одни чуваки собирали бабло на мод к ЛМР, спустя полтора года выпустили бетку мода, в которой все диалоги настолько плохи, что двач сразу заподозрил нейросеть, так и оказалось, автор хвастался подсосам что научился заставлять нейронку писать ему текст более-менее выдерживая мир и персонажей, а подсосы взяли и слили все это с пруфами.
>>624591 >причем достаточно основательно. Я попробовал смержить модели на разных токенизаторах, скопировал токенизатор из первой и установил веса второй в районе процента. Модель ебанулась полностью. >Ты просто сгружал ей части текста из них? Ага. Иногда с оверлапом, чтобы у неё сложилось какое-то понимание, что абзац А связан с абзацем Б. > llima датасет Все имена в исходном виде лежат. Единственные спецтеги, которые нашёл, это что-то вроде text{degree Celsius} и, скорее всего, связаны с форматированием текста. Не то. Меня интересовало что-то вроде "instruction": "Here are $username. Punch him in the balls!", "input": "", "output": "I punched $username right to his balls. How do you like it, huh? Jerk." Чтобы модель запоминала абстрактное пинание по яйцам, не пинание конкретного персонажа. Неужели так нельзя? >Вут? Чё? Программа под винду для общения с убабугой по api. >плюс пустые токены на максимальную длину ответа Ёбаный рот этого казино. >а как иначе и зачем? Чтобы избежать повторной токенизации. Это же бессмысленная работа на каждой отправке каждого сообщения. У тебя есть здоровенная история и небольшое новое сообщение. Абсолютно логично затокенизировать всю историю и гонять её в обход токенизатора. Ну, для этого надо разбираться в питонокоде и переписывать апи, а я что-то в рот ебал такие развлечения.
>>624531 > пока не стоит загадывать, чтобы не разочаровываться. =)
>>624539 > Возможно, в тексте нужно заменять все имена на какие-то теги Серго, да ну нахуй.mp4
>>624616 А в чем проблема-то? 99% вн-ок написано людьми, но лучше от этого не становятся. Еще можно вспомнить йуных художников, которые рисуют 5 пальцев, но так хуево, что лучше бы начали ими пользоваться при рисовании. Не вижу проблемы вообще.
>>624671 Проще всего начать диалог с этим персом и посмотреть в консоли, в каком виде оно выводится. Насколько помню, тега END_OF_DIALOG не существует. <START> заменится на текст, который указан во вкладке форматирования в поле для разделителя (сразу под окном стори стринг). Проверить вывод в консоли всё равно стоит, потому что к примерам может цепляться всякая фигня из инстракта (префиксы/суффиксы), которая имхо в случае примеров всё портит. Так что если диалоги реально какие-то важные особенности речи и поведения персонажа доносят, и планируешь, что их нужно будет оставлять в контексте, то я бы советовал лучше запихать прямо в дескрипшен перса без разделителя с каким-то кастомным промптом. Я обычно переношу в таком формате: These are some examples of {{char}}'s speech and reactions: <examples> тут диалоги один за другим вида {{user}}: {{char}}: а лучше даже так какое-то действие кого-либо по отношению к персу или специфический вопрос, триггерящий особенности поведения перса {{char}}: </examples> Последний вариант не захламляет контекст бесполезными примерами речи юзера.
>>624534 Системный промт поправь что "ты сторитейлер" а не "отыгрываешь чара". >>624615 Там что-то инновационное интересное? >>624651 > Модель ебанулась полностью. Иного и быть не могло. Может быть как-то заработает если возьмешь первые N и последние M слоев от первой, а в середину вставишь от второй. > Ага. Иногда с оверлапом, чтобы у неё сложилось какое-то понимание, что абзац А связан с абзацем Б. Ну бля, тут аналогично. Посмотри с чем работает сеть, в начале системная инструкция, потом описание и т.д. А ты просто пытаешься научить ее рандомно продолжать какой-то непонятный текст на входе. Да, так делали иногда это кое как криво работало, но ничего хорошего не получалось. > Все имена в исходном виде лежат. Там персон1 персон2 емнип, а имена отдельными параметрами. Все сделано специально чтобы ты при тренировке под правильный инстракт формат сформировал. > "instruction": "Here are $username. Punch him in the balls!", > "input": "", Какая-то ерунда, не понял что тут. Подобное просто промтом делается. > Чтобы избежать повторной токенизации. Это же бессмысленная работа на каждой отправке каждого сообщения. Литерали экономия на спичках, а при изменении символа в середине может по пизде пойти серия токенов. Время на эту операцию пренебрежимо мало по сравнению даже с генерацией одного токена. > бсолютно логично затокенизировать всю историю и гонять её в обход токенизатора. Главная оптимизация - кэш контекста, уже сделана, причем достаточно устойчивый. Офк никто не мешает заняться этим, но просто потратишь время которое за всю жизнь не окупишь. >>624853 Этот датасет вьюер показывает только содержание. Внутреннюю структуру ты сам должен оформить и имена там должны быть указаны в каждой таблице. Собственно справа как раз вступление с началом.
>>624939 Натащил знатно, и как оно работает? Кроме этого там никакого описания мира, сеттинга и т.д. нет, или оно в первых сообщениях? > за гуро Обычно хватает Extreme violence is allowed and preferred when fits the plot.
>>624955 Да вроде заебись работает, просто указав в первом сообщении примерно что должно происходить на экране. Иногда, если хочешь поиграть в гарри поттера или властелин колец, забиваешь что-нибудь в ворлд инфо, но и без него нормально играется. Я вот забил в ворлд инфо имена персонажей с их типажами, чтобы не путаться кто есть кто.
>>624976 > Так-то тема годная, вопросы к кучи настаканных инструкций в карточке, а в остальном выглядит хорошо. Я экспериментирую с ней пока, да, там не поймешь когда какая инструкция реально работает, а когда это токеномусор, но, мне кажется, для того чтобы уловить суть этого достаточно. В настройках только включи адвенчур мод
>>624591 > Если ты тупо наизусть выучишь билеты экзамена, это не значит что ты будешь силен в предмете и понимать его Глупое сравнение, экзамен с парой десятков билетов и бенчмарк с сотнями тысяч, которые местами полностью покрывают топик.
>>624992 Не пробовал оформить это в несколько предложений и связать некоторые пункты? Офк необязательно будет лучше, но есть шанс что более устойчиво будет восприниматься. Тема в любом случае интересное, красавчик. На какой модели такое гоняешь? >>625017 > бенчмарк с сотнями тысяч Это где такой бенчмарк где сотни тысяч тестов? Столько в датасетах не будет. По бенчмаркам потому и был вой что их вопросы буквально спамили в датасеты, сейчас перешли к перефразированию, но суть та же. > полностью покрывают топик Какой топик? То что модель надрочат складно отвечать на примитивные вопросы нормисов не значит что она выполнит более менее сложную инструкцию, а то и вообще воспримет что от нее нужно.
>>625042 >Не пробовал оформить это в несколько предложений и связать некоторые пункты? О, заебись идея, попробую, тем более что я половины из дескрипшона вообще не чувствую. > На какой модели такое гоняешь? Перепробовал вот эти, пока что лучшая норомейда как по мне, фроствинд сухой и любит предложения затягивать по мере чатика, пробовал ещё Airoboros на 34B, тоже неплохо, но во-первых, менее кумабельно чем норомейда, а во-вторых, две секунды на токен я рот ебал.
>>624919 >если возьмешь первые N и последние M слоев Подозреваю, что модель всё равно ебанётся. Не буду проверять. >Там персон1 персон2 емнип Нет. По большей части идёт избегание имён, но где они есть - они есть. >Jack's cubicle was outstanding, which was ironic >Write an imaginary rap battle between Steve Jobs and Bill Gates.", "Here is an imaginary rap battle between Steve Jobs and Bill Gates >Martha is grinding a spice paste. She adds 3 tablespoons of ginger, 1 teaspoon of cardamom >Jamir and his two friends Sarah and Julien, go to their school's swimming pool И так далее. >в начале системная инструкция, потом описание Инструкция, запрос, ответ. И это работало бы, но я тренировал с малым контекстом. То есть да, на выходе страница из ёбаной книги, только полное ощущение, что читаешь ты её во сне. Ну или после гуглтранслейта, лол. Просто потому, что нужно было хуярить контекст в разы больше, но здесь уже лимиты по железу. >просто промтом делается В обучении? Промптом? >Литерали экономия на спичках Примерно секунда на каждые 12к токенов. Это очень дохуя. >а при изменении символа в середине может по пизде пойти серия токенов А с хуёв будет меняться середина истории? >Главная оптимизация - кэш контекста, уже сделана Контекст это и есть история. Погонял web ui, посмотрел на глаз, сколько токенов генерируется и пишется в контекст, судя по всему, обрезаются знаки препинания, системные токены и повторы местоимений. Но это не точно, я ебал в код смотреть. То есть мои изначальные выводы о том, что история не сохраняется в токенизированном виде, видимо, ошибочные. По крайней мере, для web ui. >Этот датасет вьюер показывает только содержание Он показывает содержимое, а не содержание. Просто разбил instruction, input и output по столбикам. >Внутреннюю структуру ты сам должен оформить Это готовый датасет, полностью подготовленный к обучению. И на нём уже обучил лору сам автор.
>>625089 > 15к-оборотистые вентиляторы Давай лучше о них, они со спрямителями потока на выходе? Тянет их стандартные порты материнки или через молекс/сату питание кидать? Насколько охлаждают траханье и шумны если в корпусе? > Может ли она быть интересна нам? Не. Это же на древности типа жпт-2 или чем-то подобном с 2к контекста и очень глупое. >>625095 > модель всё равно ебанётся Ну не совсем, такая нарезка работает, была даже статья в которой отследили улучшение с подобным методом. Как себя поведет с другим токенайзером - хз, но скорее всего если правильную методу применить оживет. > олько полное ощущение, что читаешь ты её во сне. Ну или после гуглтранслейта, лол. Ну так и чего ты хотел-то, чтобы усваивало связь нужно соответствующим образом готовить, балансировать датасет и обучать не поверх 4 битов лорой. > В обучении? Промптом? Модель и так это знает, чтобы применяла нужно попросить промтом. > А с хуёв будет меняться середина истории? Лорбук, или ты что-то там решишь поменять. Или банально когда кончится окно контекста и пойдет суммарайз+смещение, это будет на каждый запрос. > что история не сохраняется в токенизированном виде, видимо, ошибочные. По крайней мере, для web ui. В лаунчерах есть кэш и это главное. Остальное - строго похуй, влияет только на нервы страдающих. > готовый датасет, полностью подготовленный к обучению И под какой тогда он формат? А то что автор разбил по сути - уже молодец, при инстракт режиме типа альпаки там и не должно быть имен перед ответом, только внутри. Линк реквестирую.
>>625092 Это который https://huggingface.co/OrionStarAI/Orion-14B-LongChat ? Как его вообще запустить, если он не в ггуфе православном? Я пытался завести пару раз оригинальные веса через убабугу, но трансформеры меня каждый раз подводили. Есть выход для ретардов-виндососов?
>>625123 >улучшение с подобным методом Так это франкештейн просто. Да, какое-то улучшение будет, но с другим токенизатором ебанётся гарантированно. >обучать не поверх 4 битов лорой А это похуй. Я уже пробовал и полную битность, и восемь, и лоры, которые чуть ли не половину модели заменяют. Проблема именно в длине контекста, если правильно настроить, то можно и на четырёх битах обучать. >суммарайз+смещение Да это примитивно делается, на каждое сообщение массив токенов. Выбрасываешь сообщение - выбрасываешь его токены. Перегенерируешь сообщение - заменяешь токены. >применяла нужно попросить Так я тебе говорю, что модель при обучении запоминает это. А это лишнее. А каких-то спецтегов, чтобы пометить имена, как, собственно, имена - не нахожу. Максимум, который нашёл - совет заменить все имена на Джон Доу. Охуительно. >В лаунчерах есть кэш и это главное. Включил вербос в уге. Выглядит так, что кеша нет. Та же таверна суёт всю историю в промпт и хуярит плейнтекст. А, так как api у нас stateless, то и уга не сохраняет ничего в кеш. >И под какой тогда он формат? Очевидная альпака. https://huggingface.co/datasets/Tarklanse/Traditional_Chinese_roleplay_chat_Dataset Ссылка вот, но вряд ли она тебя порадует.
>>625151 > А это похуй. Как раз строго не похуй. Если получается везде хуево - значит тренировка (датасет и/или параметры) очень плохие. > Да это примитивно делается, на каждое сообщение массив токенов. Выбрасываешь сообщение - выбрасываешь его токены. Юзлесс ебля ради юзлесс ебли. Сделай если так хочется, отпустит. > что модель при обучении запоминает это. А это лишнее Так и не понял что она запоминает, перефразируй в чем там идея. Увидел только странную инструкцию в которой вместо инструкции какое-то сообщение, пустой инпут и панч ин баллз чтобы запоминала. Если ты про формат имен унифицированный - юзей user/assistant и поменяй заголовок общий. Если хочешь чтобы оно в инстракте норм работало - в начале пиши инструкцию где указываются имена, описания, история чата и дается указание написать новый пост, а в респонсе - ответ или просто с самим текстом, или в начале имя а потом текст. Имена желательно чтобы были разнообразные. Посмотри какой промт формирует таверна и придерживайся того же. > Выглядит так, что кеша нет. Какого кэша, ты про что в итоге? По апи там формат как у опенов но с расширениями, вызовы или на комплишн где передается полный промт и далее идет генерация, или на чат, где передаются мессаджи, а убабуга уже сама запиливает форматирование, отсекает и кормит результатом лаунчер. Последний кеширует обработку запроса, если промт будет более менее совпадать то не станет обрабатывать по новой а просчитает только новые/изменившиеся токены.
>>625123 >Давай лучше о них, они со спрямителями потока на выходе? Тянет их стандартные порты материнки или через молекс/сату питание кидать? Насколько охлаждают траханье и шумны если в корпусе? 1. при увеличении силы потока радиатор наконец-то перестал копить в себе постоянно тепло. Турбины которые я ранее ставил - были слишком слабые, это точно. 2. спрямители есть, я показывал ранее https://market.yandex.ru/product--servernyi-ventiliator-arctic-s4028-15k-acfan00264a/1767643955 3. у них 4-пиновые разъемы. я сначала повесил их на 12 вольт без контроля. На полных оборотах ревут так, что даже если сервер стоит на балконе - я его слышу довольно громко. Я подумал, что так не пойдет, поэтому посадил вентиляторы на маткринские порты для шасси. Они стали заметно тише, но увеличивают обороты не когда греются карты, а когда греется b450 чип на плате. А он быстро остывает, поэтому карты все равно греются до 90 под нагрузкой. Я искал как на линуксе повесить контроль шасси фанов на температуру карт, но только говна поел. Производители не считают нужным для каких-то там линуксоидов пилить нормально поддержку своего говна. Ссуки блядь. Придется крутилку ёбаную ставить или ардуину корячить в корпус, чтобы программно управлять оборотами.
>>625210 > искал как на линуксе повесить контроль шасси фанов на температуру карт, но только говна поел. Производители не считают нужным для каких-то там линуксоидов пилить нормально поддержку своего говна Ну там же буквально запрос в nvidia-smi а потом запись по acpi скорости, посчитанной по своей функции. Если матплата припезднутая и не получается управлять крутилляторами, есть колхозные но эффективные решения типа добавить пердуину или любую плату, которой по последовательному порту будешь слать сигнал. Есть и готовые решения типа https://github.com/AL-FC/AL-FanControl по крайней мере оттуда что-то вытащить можно. > или ардуину корячить в корпус, чтобы программно управлять оборотами Не читай@отвечай, сам все шаришь.
Алсо поставить 2 последовательно чтобы работали на 50% не хватает для охлаждения?
>>625221 >Алсо поставить 2 последовательно чтобы работали на 50% не хватает для охлаждения? хм....не пробовал. Спасибо за ссылку на проект, не находил его в поисках. Я думаю, не буду на постоянном уровне их держать. Половина шума - это все еще шум. Ну, греются они приемлемо. Жорой довести карты до 90 градусов не получится потому что он утилизирует их примерно наполовину. Горячие становятся только под SD если держать нагрузку в сотню больше ~5 минут.
>>625170 >датасет и/или параметры Я же изначально писал, что в параметрах беда. >Юзлесс ебля ради юзлесс ебли. Экономия секунды на каждых трёх сообщениях с контекстом 4к при 12400 интол. Это далеко не юзлесс. Больше контекст - больше потери. Хуже проц - больше потери. Другое дело, что это нельзя реализовать на стороне фронта. А свой бэк писать такое себе развлечение. >странную инструкцию Это стандарт Альпаки. Грубо говоря, инструкция это Q, output это A, а input это опциональный контекст сообщения, который может быть пустым. У викуньи немного по-другому, инструкция и оутпут это всё то же, а контекст один на всю тренировку. >в начале пиши инструкцию где указываются имена Блядь, нет. Я про обучение толкую. Если у меня в датасете будет Мистер Залупочёс, то модель запоминает Мистера Залупочёса. И потом будет использовать его. >Какого кэша, ты про что в итоге? Про кеширование истории. Залез всё-таки в код, encode это токенизация, question это промпт. Весь. Вся история передаётся в промпт, потом весь промпт токенизируется, если оказывается слишком длинным, то обрезается. Я сразу же проверил, как это работает и пизданул очень длинный промпт. Загрузка гпу на нулях, токенизация идёт в один поток на процессоре. Модель safetensors, загрузчик трансформерс. Когда это отработало, контекст сбросился полностью, да вот беда, если заслать длинное сообщение в чат уги, то оно отсылается с каждым нажатием Generate и каждый раз токенизируется заново. На процессоре. В один поток. И получаем скорость генерации в 2 токена\с, но это пиздёж, т.к во время генерации вошла токенизация, результаты которой в итоге даже не были использованы.
>>625244 > Экономия секунды на каждых трёх сообщениях с контекстом 4к при 12400 интол. Это далеко не юзлесс. Десятки-сотни миллисекунд на фоне десятков секунд (сотен в твоем случае раз на профессоре) - времязатраты никогда не окупятся и это никак не изменит экспириенс. Больше повторять не буду, хочется - ебись. > Про кеширование истории. > загрузчик трансформерс Земля пухом. > но это пиздёж, т.к во время генерации вошла токенизация, результаты которой в итоге даже не были использованы. > 2 т/с, 45 токенов, контекст 64 Приличные слова кончаются. Лень расписывать, хотябы изучи как это работает и не позорься. > Это стандарт Альпаки. У тебя там не стандарт альпаки. В стандарте альпаки в инструкции системная инструкция, по-хорошему она должна быть типовая для задачи. После, все там же, пишутся конкретные задачи, описание условий, исходные данные. Есть незначительные вариации связанные с полем ###input, но его особо никто не юзает и нахер не нужно. Потом ответ и в нем уже результат. А теперь сравни это со своим примером, какая-то странная анрелейтед реплика и какой-то странный ответ, такое только все заруинит. > Я про обучение толкую. Ты пытаешься обучать модель тому что она уже знает-умеет, если речь об этом примере. Чтобы внести в знания модели "Мистера Залупочёса" и ничего не поломать потребуется немало усилий (и все равно соснешь). А можно просто описать его в промте.
Инициатива и желание что-то сделать, внести свой вклад и т.д. - это похвально, но такое надо делать не с голой жопой. Хотябы самые базовые основы изучи, иначе это полнейшая кринжатина.
>>625283 > Лень расписывать, хотябы изучи как это работает и не позорься. Для меня уже давно позорники те, кому лень, кто гейткипит и пишет подобный бред. Ты задумайся.
>>625283 >сотен в твоем случае раз на профессоре GPU ждёт 20 секунд, пока отработает токенизатор на CPU, чтобы потом сгенерировать ответ за половину секунды. Внимание, вопрос. Не говно ли ёбаное этот токенизатор? И да, лично мой икспириенс это изменит кардинально, срезать с каждой генерации 0.2-0.3 секунды, причём самые мерзкие 0.3 секунды, которые идут до начала генерации, это охуенный вариант. >Земля пухом. Проверил на GPTQ, т.к для неё там отдельный класс работы с моделью. Ну мало ли. Всё то же самое, токенизатор на CPU, генерация на GPU. >Приличные слова кончаются. Ты не понимаешь, как этот счётчик рассчитывается? Плохо быть тобой, хули. >инструкции системная инструкция Она при обучении не задаётся. https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json Вот тебе json от самой альпаки. Поле instruction - вопрос, output - ответ, input дополнительный контекст. Так что у меня там абсолютно стандарт альпаки, разве что не в jsone. >Чтобы внести в знания модели "Мистера Залупочёса" и ничего не поломать потребуется немало усилий У тебя контекст закончился? У меня проблема изначальная в том, что модель нахваталась этих Залупочёсов из датасета и суёт куда ни попадя. Изначальный вопрос был в том, как корректно отформатировать имена, названия и т.д. Осталась только очевидная автозамена Залупочёсов на разных Вась, Федь и так далее. Что тоже вариант так себе. >желание что-то сделать, внести свой вклад и т.д. Я в рот ебал вклад. Разбирался с апи и увидел, что он сделан хуёво. То есть это с первого взгляда видно, но остаются некие сомнения, не могли же они просто хуяк-хуяк и готово. Оказалось, могли. А рассуждать о кринже, когда у самого заканчивается контекст на полдороги, когда ты начинаешь затирать про стандарт абсолютно левые и неправильные вещи. Ну, такое себе.
>>623671 >Уже выпускали же, говно говна вышло. Греф выпускал какой-то обрезок, который ещё весной у них использовался. С тех пор уже несколько обнов было, размер накидывали, бот поумнел, а в опенсорсе до сих пор только тот огрызок. Яндекс никто вообще не запускал, там 100В блеать. Непонятно, для кого она толком предназначена.
>>625227 А скажи, без этого крутилятора сколько было на старом охладе в жоре? СД не интересует. Мне интересно, имеет смысл ли мне их брать, или просто поставить 120 мм обычный с кожухом с 3D-принтера.
>>625355 Пока так и не добрался, хотя вчера скачал.
>>625420 Яндекс древний, у них уже дважды все обновилось с тех пор. А Греф, да, не дает новые модели. =) На то и надежда хотелка, что кто-то из них дропнет, как Мистраль.
>>625423 >сколько было на старом охладе зависит от количества новых токенов. Если их много поставишь - то карты могли греться до 90. Я думаю, ты сможешь понять, хватит тебе 12 или нет только экспериментально. Мне вот 12 не подошла бы, потому что у меня две карты и места где можно вкорячить вентилятор мало. Я смотрел какую-то доку по установке p40 в сервера - там было нарисовано так, что две карты обслуживалоись одним фаном. Но то ж серверный фан который не чета хуйне китайской из обычного компа.
>>625297 > GPU ждёт 20 секунд, пока отработает токенизатор на CPU Чувак, вот этого достаточно чтобы дальнейший пост не читать. Когда все работает как надо то за 20 секунд ты уже получаешь готовый длинный ответ в несколько сотен токенов на контексте в несколько тысяч. Обработка нового контекста с нуля происходит за доли секунд или единицы если там llamacpp, а операцию токенизации сложно даже отследить на фоне основных расчетов. Любишь создавать себе проблемы - молодец. Ничего не зная чувствуешь уверенность в новой для себя теме, основываясь на переносе опыта из других и получаешь то что идет вразрез со всем - грош цена такому опыту. Ля, еще спорит и агрессирует, мэх. >>625308 Было бы неплохо, вики тем более с горем пополам какое-то наполнение имеет. >>625355 Интересно, надо попробовать. Жаль файнтюн лорой, но подход основательный и расписано подробно для нормисов. >>625469 8 гигов, целиком в гпу будет 7б в 4-5 битах, с выгрузкой что угодно но там уже зависит от того насколько ты терпеливый. 10.7б на основе солара файнтюны попробуй, они хороши для своего размера и должны с адекватной скоростью (быстрее чем скорость чтения) работать.
>>625454 Я на thingverse видел установку 12 на две. Но тоже имею сомнения. Буду печатать переходник на один 12. Ну и пока одна карта. Если буду добирать вторую для микстрали, то, видимо, заебусь и буду ставить серверные, да. Хотя, опять же, живу в квартире на первом этаже, куда там сервер ставить… =/
>>625471 > пока отработает токенизатор на CPU Может у него там токенизатор как-то работает, и он не про обработку промпта? Которая достигает миллисекунд на токен.
>>625454 > Но то ж серверный фан который не чета хуйне китайской из обычного компа. Все так, там действительно монструозная штука. >>625500 > живу в квартире на первом этаже, куда там сервер ставить… =/ Под кровать! отсылка к старым мемам > Может у него там токенизатор как-то работает Да хз, что токенизация (ее какбы суперэлементарно проверить несколькими строками кода отдельно) оче шустро работает, что обработка 60 токенов контекста(!) даже на самом вялом железе должна проходить быстро. Очевидно что сам что-то левое нахуевертил, вот и работает таким образом. Может из тех 20 секунд оно 19.5 модель с диска подгружает вообще. >>625501 На жоре просто с подключенной карточки без выгрузки скорость обработки достаточно высокая же. Кроме совсем безумных вариантов, такой эффект можно получить в llamacpp при первом запуске без выгрузки слоев с опциями mlock/mmap, когда оно не загружает части модели в память пока к ним нет обращений.
>>625471 >Когда все работает как надо Ты прекращай посты жопой читать, жопочтец. Я же писал >и пизданул очень длинный промпт Длинный - это длинный. Это не "как надо" по умолчанию. Как работает токенизация инпута? Сначала весь ввод токенизируется и загоняется в массив. Это поведение уже можно считать ошибкой. Потом оно пытается обрезать этот массив, если не получается - дропается весь ввод. Это можно считать второй ошибкой, т.к не происходит корректной обрезки. Пик 2 это получение ебического ввода. Его обработка занимает больше минуты, потом он дропается и модель генерирует с пустым контекстом. Пик 3 получение контекста в районе 5к, попытка обрезки до 2800. Обрезка работает в цикле, каждый вызов токенизатора срёт в консоль, после успешной токенизации происходит ещё один вызов для добавления bos токена. Так вот, после трёх попыток обрезки, весь ввод был отброшен. Ну и пик последний моё "как надо". В целом, пойдёт.
>>625570 Опять ты выебываешься и агрессируешь вместо того чтобы вникнуть и понять что тебе в самом начале написали. > посты жопой читать, жопочтец Что там читать, в начале сразу ересь которая все на ноль множит и прикладываешь скрины которые тебя же опровергают. > Это поведение уже можно считать ошибкой. Нет > Потом оно пытается обрезать этот массив Что обрезать? Если про выход за лимит контекста - единственная корректная обрезка по нему возможна на текстовом этапе при наличии разделения на части. Если про уже обработанное - нет смысла оптимизировать токенизацию, а лаунчер уже исходя из того что на входе сам разберется как ему использовать собственный кэш, сдвигать контекст и т.д. > Его обработка занимает больше минуты Ты рофлишь? Пиздец, токенизация (да даже обработка промта при наличии) занимает больше минуты.
Пик 1 обрезок кода с тестов в рп, берется датасет ллимы, формируется промт с чатом. Используется только токенизатор. Пик 2 - скорость его работы. Что ты там пытаешься оптимизировать вообще? Пик 3 - тайминги обработки в llamacpp, она очень плохо обрабатывает контекст, этого не избежать, но всеравно 4 секунды на 8к - приемлемо. Второй запрос - уже с ее кэшем, ничего там не тратится на лишнюю обработку и лишь идет сразу генерация. Пик 4 - уже бывшая но с моделью в 2 раза больше, полная обработка контекста - свайп - полная обработка контекста - свайп.
Все работает шустро и как полагается, никаких лишних задержек нет. Мутишь что-то бесполезное - мути дальше, не можешь выразить свои мысли - продолжай серить.
>>625817 Ты опровергаешь только свои шизофантазии. Надежды на то, что загрузчик сам там что-то оптимизирует и использует свой собственный кеш - просто надежды. Несбыточные. Для всего, что не является LlamaCpp, Ctransformers и Exllamav2 уга принудительно сбрасывает кеши. Возможно, и для них тоже что-то найдётся, я просто не копал, меня интересуют только трансформеры. Алгоритмы токенизации уги для LlamaCpp не используются и если там действительно всё хорошо, то это заебись. Но из твоих постов это не ясно, т.к ты читал жопой и проверял хуйню. Если ускорение вывода с минуты до 2-5 секунд это "изобретение велосипеда", то всем бы такие велосипеды. Только это просто копание в ошибках дизайна. По идее, можно ещё срезать десяток-другой мс на каждом запросе, но хуй с ним.
>>625873 Какие фантазии? Ты что-то поломал, радикально замедлив токенизацию, а потом поверх этого пытаешься придумать какой-то случай, который никогда не будет реализован. Подобная отсечка контекста в ллм просто по лимиту токенов - 100% хуета на выходе, это без вариантов. Буквально > ваш станок говно, когда я сую пульт от него в анус он рвется > не суйте а используйте по инструкции > нет я так вижу сейчас буду изобретать средства от этого
В принципе сразу было понятно еще по тем постам что знания крайне ограничены и поверхностны, но чтобы настолько верить в себя - это сильно.
> Надежды на то, что загрузчик сам там что-то оптимизирует и использует свой собственный кеш - просто надежды топ кек
>>625896 >Ты что-то поломал, Вот эти шизотеории. Это дефолтное поведение. Так оно работает из коробки на длинных промптах. >отсечка контекста в ллм просто по лимиту токенов - 100% хуета Это тоже дефолтное поведение. Я скидывал скриншот кода, массив обрезается просто по длине. Свои фантазии про анусы можешь оставить для себя, понятно, что ты долбоёб и думаешь только о жопах, но зачем проецировать это на других?
>>625906 Это не теория, это практика. Скорость работы токенайзера показал выше. Как отпустит - сам поймешь какой кринж тут задвигаешь и насколько позоришься. А если не отпустит - значит это твой предел, кто-то должен представлять идиотов в распределении icq. > Это тоже дефолтное поведение. В таком случае запрос будет оборван без окончания, никакого адекватного ответа на такое быть не может. > проецировать Ля биомусор, фу фу.
>>625828 А тебе для чего? На 34б несколько тредов назад мини обзоры были, еще замесы с гермесом хвалили. Файнтюны от migtissera очень хороши (tess/synthia). Старые модели (xwin, airoboros) не потеряли актуальности, goat хорошо может в сторитейл и не дефолтно пишет. Из замесов Aurora-Nights можно попробовать, но пока не понял шин это или фейл. Нет времени покумить, увы.
У меня новый лидер для русского языка - mixtral-8x7b-instruct-v0.1.Q6_K.gguf. До этого пробовал Q5, там выдуманные слова и сломанные окончания встречались намного чаще. Еще пробовал файнтюны микстраля (openbuddy Q6) - там с русским еще хуже.
А тут, хоть и сухие ответы, зато почти нет языковых ошибок. Инстракт режим выключен. Пытался миростат включить - вроде стали чуть красочнее, но почему-то чаще уходит в повторы, не смог побороть.
>>625982 Попроси художественно перевести старую шизоплатину > ""Ah, home sweet home,"" her voice dripped with a melancholy that only comes from longing for places left behind. ""My little sanctuary lies hidden amongst the labyrinthine alleys of Tokyo's Shibuya district."" > She paused briefly to collect her thoughts before continuing. > ""It's nothing grand really - just an ordinary flat in an aging high rise building overlooking bustling streets below filled with people hurrying about their lives unaware presence ancient creature dwelling midst them all. Inside walls covered artwork depicting scenes nature inspired by memories forest we used call haven thousand years ago …and yes it does have special room dedicated solely storing tea collection acquired various travels throughout centuries ;). Want to give a try?""
>>626003 Синью 1.5, карточка которая нравится, ролплей пресет, только удали про параграфы в ###response. Можешь добавить про "финишинг только по решению юзера", но и так нормально.
>>626054 https://huggingface.co/TheBloke/SynthIA-70B-v1.5-GPTQ Многие карточки понимает отлично, знает фандом-вики и применяет знания оттуда, усиленно пытается распознавать чего хочет юзер. Хотя иногда тупит и уводит не туда, тут уж или ультимативный рп/кум где все идеально, или фейлы.
>>626506 Принципиально все также. Кум стал доступнее на слабом железе (7б-11б уже не кринж), его уровень и разнообразие поднялись на средне-высоком (20б-34б), верхушка типа 70б уже месяца 3 без значительных изменений. Китайскую 65б кстати как-то и не приняли толком. Появился большой контекст, новые методы, МОЕ местами перспективен и всякие мелочи. Мультимодалки, но это не для кума.
>>626572 >появился большой контекст 200к в теории это заебись но смогу ли я их получить от обычного железа? На хорде и колабе как было 8к так и осталось
>>626644 Как раз наоборот. Там другие проблемы, например в желании везде совать шаблон > ""Ahh~ So good~"" she pants, her breath hot against your skin. ""Keep going… don't stop…"" @ > Her breathing grows heavier, her chest rising and falling rapidly. ""Please… more…"" she begs, her voice husky and desperate. ""Don't hold back… I want to feel it…"" @ > Glancing up at you, {{char}} flashes a tired but satisfied grin. ""Thank you,"" she whispers, her eyes heavy with exhaustion. ""That was amazing."" И это просто обнимашки-прелюдия а даже не кум. За красочностью описания это не триггерит сильно, но из раза в раз может напрягать. Более менее фиксится промтом. >>626943 > от обычного железа Смотря что понимать под обычным. На топовом десктопном (или той же P40) - да. С новыми методиками можно будет увеличить контекст на любых моделях без особого ущерба (считай можно эффективно растягивать 11б) > и колабе Там можно выставлять сколько хочешь, вопрос в возможностях методов и моделей.
>>621688 Fialka-13B хорошо говорит на русском. Но вот со смыслом не очень. Проверку на нейростримершу не прошла. На рандомные маты просто поулабалась (Мистраль искренне удивляется, не поехал ли зритель кукухой), на доту путается между мобой и браузерным шутером, простых комментаторов иногда называет актерами (что?=).
Но тем, кому интересна русская модель — могу порекомендовать ознакомиться с фиалкой.
Vikhr-7b-0.1 — ну, эээ… Он лучше понимает контекст и отвечает, но качество так себе. У меня осталось впечатление, что Мистраль лучше.
Фиалку-7б не тестил.
Короче, из всех меня заинтересовала только фиалка (плюс, она развивается). Остальное — мусорные модели.
Попробовал еще микро-модели.
TinyLlama-1.1b-chat и правда умеет в русский! Говорит смешно и местами путает логику, но тем не менее. Пытается держать роль и контекст.
OpenBuddy-StableLM-3b — на русском говорит, но контекст вообще в трубу. Может ответить по теме, может повторить фразу, может ляпнуть что-то левое, может ответить на другом языке. И любит ставить кавычки, мне лень разбираться с форматированием.
Я почитал ваш тред и нихуя не понял, тут у всех 2 ядра 2 гига чи шо? Какую-то шляпу обсуждаете. Обсуждайте модели, влазящие в 24 гига видеопамяти, я приказываю.
>>627008 Ничего не понимаю… И это кумеры? Говно какое-то, пидоры, блядь. Дядя Ляо им дал p40 — покупай! Запускай модели, блять! Не хочу, хочу жрать говно! Что такое? Это анон локального LLM?! 0.3t/s - это "перформанс"?! DDR3 в хуананы накупили, говно жрут — пидоры, блядь, ёбаные…
Прикольно попробовал потренить PALM 2, он уже легаси, но кинул датасет TOXIC NSFW, и он начал шпарить истории без аполоджайзов. Максимальный сет можно разве что закинуть на 500 вопросов ответов но тренится за 10 минут. >>626960 Fialka-13B Это типо тюн ruGPT? Кстати сколько токенов скормили ruGPT, в инфе указано 400gb данных но сколько токенов не ясно.
>>627033 А хз, на самом деле, я не разбирался. Вполне возможно. Но мне нужен результат, буду играться с промптом. Может и мусор, канеш. Но пока выглядит лучше остальных (как и мистраль, если честно=).
>>627037 >4х7B псевдо-МоЕ разве норм? Мне показалось, рядом с Микстралью и не стоят. Ошибаюсь? Да ты прав, это говно, полное, я сейчас по фану перебираю так называемые "топ модели" с этого вашего парашечного сайта http://ayumi.m8geil.de/ayumi_bench_v3_results.html и эти самые люди продолжают мне заявлять что Vicuna 33b говно... Да это ебаный алмаз по сравнению с этой парашей из топов этого говнокумерсого-сайта. Есои что, то я сейчас про модель Buttercup 4x7B q4_k_m говорю, она сейчас на 6 месте в топе весит. При этом нихуя нормально историю с несколькими персонажами вести не может. Путается как бабка в маразме.
>>627064 Ну, q4 это прям совсем мусор. Я на q6 редко опускаюсь, а чаще 8q стараюсь использовать с любыми 7b моделями, конечно. Ну и плюс, они же прям… Ну не знаю. ЗЫ Я тоже не люблю этот рейтинг. Скока не пробовал — фигня была в топах.
>>627084 Как я понял, скорость немного зависит так же и от самого персонажа. Если у него много деталей прописанных то скорость ответов получается чуть медленнее. Сейчас специально попробовал почти пустого персонажа и при общении с нуля он начал выдавать (3.71T/s) а при последующих ответах (2.74T/s)
Ой бля, за несколько месяцев кума на кобальде уже забыл, насколько убабуга пердольный кошмар. Сразу после обновления запустил - работало норм, стоило добавить апи в параметры - тут же отвалилась жопа и перестала загружаться модель. Убрал параметр - нихуя не починилось, сижу переустанавливаю.
Уникальный программный продукт даже для опенсорса, не видел ещё настолько хрупкой хуйни, которая бы ломалась от любого дуновения ветерка.
>>627064 Сам рейтинг отстой, но от него есть польза: а именно, логи нового формата. Можно кликнуть Logs во втором столбце либо пойти вот сюда http://ayumi.m8geil.de/erp4_chatlogs/ Там есть три пары персонажей со своим кум сценарием, и вот там уже можно посмотреть, как модель себя ведёт при некоторых, возможно и не идеальных для неё, параметрах. Открываешь тот же Buttercup, видишь дичь на пике, где эта модель и двух персонажей местами путает - понимаешь, что ну нафиг такую шизу. Понятно, что подобное может быть из-за неподходящих настроек сэмплеров, но, тем не менее, какое-то представление о модели можно получить. И такая стата собирается по большому числу моделей, среди которых много маленьких, что для среднестатистического юзера со слабым железом полезно. Та же арена такого функционала не даёт, даже если её рейтинг более достоверный в плане интеллекта представленных там моделей.
>>627347 Если ты откроешь указанные DPO датасеты, то увидишь, что они содержат пары ответов, один из которых поощряется, а другой нет. По сути, сам метод реализует что-то типа скрытого вознаграждения модели за правильный ответ. Соответственно, будет модель зацензурена или расцензурена, будет зависеть от датасета и тех ответов, что в нём поощрялись. В данном случае использовали два датасета, в которых предпочтение оказывалось токсичным и прочего рода "небезопасным" ответам, так что модель должна быть более расцензуренной.
>>626960 > но качество так себе В каком смысле? Плохо понимает инструкции и контекст, или пишет на великом-мугечем? Просто буквально что может быть хуже микстраля из относительно мультиязычных моделей? > 3b > но контекст вообще в трубу Ну и на что рассчитывал то. >>626963 Опиши подробнее чего хочешь. >>626976 > тут у всех 2 ядра 2 гига чи шо Тут у всех 24+гб врам какбы. активничают те у кого меньше, остальные сидят с нейронками > модели, влазящие в 24 гига видеопамяти Что именно тебя интересует? >>627008 > За 24 гига видеопамяти ты отдашь +100к деревянных 3090 стоит дешевле и работает оче быстро. P40 вообще народная тема и позволяет многое занидорого. >>627037 > 0.7, попрошу! Простите, господин, быченье неуместно! >>627033 > попробовал потренить PALM 2 Это который огромный? Тогда на чем тренил?
>>627050 > Остаемся на Мистрали. Чего он вам так нравится то? >>627064 > заявлять что Vicuna 33b говно На она ведь рили уг. Вместо тестирования мусора в поисках жемчужины мог бы глянуть нормальные файнтюны. >>627195 > насколько убабуга пердольный кошмар > стоило добавить апи в параметры - тут же отвалилась жопа и перестала загружаться модель Ммаксимальнсый скилл ушью. Для вас только готовый бинарник сборки всратого форка на пихоне. реально рофлово звучит >>627473 За що они надругались над и так шизоидной YI. Или она излечилась? Еще и вместо gptq затычка, пиздец грусть.
>>627481 Плохо пишет на великом и могучем. Может это скилл ишью и я его неправильно приготовил, конечно.
> Ну и на что рассчитывал то. Да больше поржать. =)
>>627503 > Чего он вам так нравится то? Кроме того, что он умный на английском — он лучше всех из 7b моделей говорит на русском и при этом держим карточку. А у меня стрим — значит нужно генерить на лету. На мое удивление, большинство 13b гораздо хуже знает русский, просто не было мультиязычных моделей с русским и все. Ну, то есть, там же только ллама, да всякие франкенштейны. Ну, как бы, выбора не остается.
Вот будет у меня 48 гигов врама, будет или Mixtral или Llama 70b. И там уже можно будет выбрать.
>>627636 Пока нет. Во-первых, на цену смотрю, во-вторых там все равно китайский новый год, в-третьих, работу буду менять, хз че по деньгам в ближайший месяц. Так что, пока это влажные мечты. =) Но, к счастью, не сильно-то дорогие, да.
>>627755 А как же культура и детишки? А как же 5090ти? Подключай донаты и зарабатывай с них, а подписчикам еженедельно скидывай сгенерированные левдсы.
На выходе получил такую шляпу: Traceback (most recent call last): File "/text-generation-webui/modules/text_generation.py", line 426, in generate_reply_custom for reply in shared.model.generate_with_streaming(question, state): File "/text-generation-webui/modules/exllamav2.py", line 137, in generate_with_streaming chunk, eos, _ = self.generator.stream() File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 112, in stream chunk, eos, chunk_token_ids, probs = self._stream() File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 170, in _stream next_token, next_prob, eos = self._gen_single_token(self.settings) File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 341, in _gen_single_token logits = self.model.forward(self.sequence_ids[:, -1:], self.cache, loras = self.active_loras, input_mask = self.input_mask, position_offsets = self.position_offsets).float().cpu() File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(args, kwargs) File "/usr/local/lib/python3.10/dist-packages/exllamav2/model.py", line 559, in forward r, ls = self._forward(input_ids = input_ids[:, chunk_begin : chunk_end], File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(args, kwargs) File "/usr/local/lib/python3.10/dist-packages/exllamav2/model.py", line 623, in _forward x = module.forward(x, cache = cache, attn_params = attn_params, past_len = past_len, loras = loras) File "/usr/local/lib/python3.10/dist-packages/exllamav2/layernorm.py", line 83, in forward self.bias.data if self.bias is not None else ext_c.none_tensor, AttributeError: module 'exllamav2_ext' has no attribute 'none_tensor'
>>628008 > Специально сделал это перед запуском Пиздишь. В первые же дни в ExLlama 2 добавили поддержку, там самая первая поддержка Ориона была. У меня всё работает.
>>627084 Сейчас общаюсь с Yi 34b chat 4 k m и получаю выхлопы со скоростью (1.62T/s) и это не считая того, что у меня часть модели не влезло в оперативку и на ssd записалось.
>>627880 Гуи теперь определяет перфоманс бэков? >>627969 От рабочих станций/серверов. Если карточки двуслотовые и похуй на число-качество линий, то бери любую что подходит по габаритам. >>628024 pip show exllamav2
>>627979 Не, я говорил про саму модель или её мержи. Там в основе новая модель от китайцев, которая не франкенштейн, а полноценно (наверное) 20б. Importance matrix для gguf квантования сейчас и к квантам других моделек начали делать, не про это спрашивал.
>>628292 В шапку посмотри, 3я картинка. Для лламы2 с базовым 4к. Как будет на других где заявлено больше (но часто уже с ропом) - хз, те же величины должны работать.
Кто-нибудь новые мультимодалки ковырял? В первую очередь интересно с точки зрения понимания 2д и нсфв.
>>627481 >Это который огромный? Тогда на чем тренил?
Да тот самый огромный.
Гугл сам тренит тебе только нужно предоставить датасет, все бесплатно https://makersuite.google.com/app/prompts/new_data Тут доступ но через американский ВПН, там можно затренить и юзать через апи. Тренить можно хоть до посинения, ограничения только на запросы 90 в час. Брал датасет ToxicQAFinal и урезал его до 500 записей.
>>627620 есть мультиязычная XVERSE с большим выбором размеров, но до сих пор не реализована поддержка квантования gptq и gguf. Есть обычное int8 и int4 но я не тестил.
>>628612 Что с видеопамятью? > Сверху первый ран снизу второй В верхнем оно обрабатывало контекст, внизу использовало кэш, отсюда и разница. > Как откатится на пару месяцев назад Достаточно будет откатить только llama-cpp-python с помощью pip. Смысл в этом врядли есть, ищи проблему.
>>627969 >Какую мать брать, чтоб 3-4 видюхи уместить? Если Теслы, то как я понял - только б/у HEDT. Не б/у стоят бешеные деньги и не зря. Если хоть одна видюха не берёт PCIe-линии непосредственно от процессора, то скорости считай нет. Если 3090 и выше, то может этот фактор и не так критичен.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде
Предыдущие треды тонут здесь: