24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №40 /llama/

 Аноним 05/02/24 Пнд 02:00:52 #1 №635452 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
Колхоз в треде.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>628658 (OP)
>>616097 (OP)
Аноним 05/02/24 Пнд 02:05:23 #2 №635457 
>>635448 →
>Ну дай ты помечтать, а?
Никакого коупинга, только суровый реализм. Коупинг оставим пользователям коммерческих нейронок, которые надеются, что у них доступ будет всегда и без цензуры, лол.
>>635448 →
>весь вопрос в том, как делать выбор токенов
Именно. В настоящем мое тренируют отдельные слои, то есть часть входных и выходных слоёв общая. И ты никак не сделаешь из двух обычных слоёв спец-слой с выбором, ну не смержатся так они, и всё на этом.
>>635449 →
Пенальти пропиши.
>>635451 →
>Ебало северного моста представил
Благо его устранили давно, да и южный сейчас уже почти полностью деградировал.
Аноним 05/02/24 Пнд 02:19:04 #3 №635469 
>>635451 →
> На токены в секунду насрать если честно, если их не менее 1.
Нууу, типа ждать 5 минут среднее сообщение - успеешь забыть что там было. Суть текстового рп в погружении, замедлиться для осмысления момента ты всегда можешь, но слишком долгое ожидание сразу нахер все заруинит.
Но с задержкой обработки контекста соглашусь, на жоре даже с гпу это можно прочувствовать.
>>635457
> Коупинг оставим пользователям коммерческих нейронок
Тут нужна шутка про победы 7б.
> В настоящем мое тренируют отдельные слои, то есть часть входных и выходных слоёв общая.
Вон сотни колхозных мое из всратых замесов, хотябы что-то подобное наделать. Или вообще нейронка что по содержанию текста будет решать на какую сетку подавать. Или применить совместную генерацию, оценивая токены 3й сеткой. Варианты есть, но ресурсоемкость не для васянов-инджоеров.
Аноним 05/02/24 Пнд 02:34:35 #4 №635488 
>>635469
>Тут нужна шутка про победы 7б.
У меня уже синяки от бесконечных фейспалмов от этих побед. Впрочем, дно за дном уже пробито, и заявления о поебде всего и вся звучат уже от 3B и даже 2B.
>Вон сотни колхозных мое из всратых замесов
Жаль я хлебушек, а так бы оценил, какие части слоёв принимают участие. Вангую, там одна сетка работает, остальные память занимают, лол.
Аноним 05/02/24 Пнд 02:40:01 #5 №635491 
>>635488
> от бесконечных фейспалмов от этих побед
А ты иди арену посмотри еще!
> заявления о поебде всего и вся звучат уже от 3B и даже 2B
С этого уже неиллюзорный проигрыш можно ловить. Запилить под эти тесты что-то типа векторной базы - победоносца.
> Вангую, там одна сетка работает, остальные память занимают, лол.
Может и так лол. Пару 34б вроде хвалили что лучше одиночных, но представить себе экспертов на довольно горячей yi - это нужно богатое воображение. Хоть качай и пробуй.
Нужно погружаться, изучать и т.д., сложно и пугает перспектива в итоге понять что оно на самом деле еще сложнее и все это напрасно.
Аноним 05/02/24 Пнд 08:58:32 #6 №635555 
>>635452 (OP)
О а пик4 наш чел в треде? Я в первый раз эту пикчу увидел в треде 3д печати. Тоже хочу в 3д принтеры вкатиться, интересно сколько это по деньгам.
Аноним 05/02/24 Пнд 09:06:23 #7 №635562 
Любого занюхивателя коупиума, крутящего на своем 1050ti звере 7б и утверждающего что гпт сосет я все равно буду уважать куда больше чем ретардов которые у барина генерации крутят.
Как вообще человек может мирится с цензурой такого толка я хз. Это как однажды у меня кореш с айфоном ходил и сказал "бля я чет не могу в этот телеграмм канал зайти мне телефон запрещает".
Телефон запрещает, понимаете? Вот у барина такие же сидят. У меня даже слов нет чтобы описать какое это дно.
Аноним 05/02/24 Пнд 10:16:25 #8 №635599 
>>635562
База.
Аноним 05/02/24 Пнд 10:16:45 #9 №635600 
>>635555
20к Ender 3

>>635562
Телефону виднее, че ты.
Аноним 05/02/24 Пнд 10:56:00 #10 №635637 
>>635555
>Я в первый раз эту пикчу увидел в треде 3д печати
Это моя вчерашняя пикча, я ее постил только в прошлом треде, в тред 3D печати видимо вбросил кто-то еще.

>Тоже хочу в 3д принтеры вкатиться, интересно сколько это по деньгам.
Если не планируешь фигачить что-то сложное, требующее высокой точности, то хватит недорогих моделей, тот же Ender 3, как писал анон выше. У меня китайская дельта Flsun QQ-S Pro, которую я купил с рук за 10к с тремя катушками пластика в комплекте. Так что есть смысл поискать на авито, многим людям не заходит и они продают свои девайсы не дорого.
Аноним 05/02/24 Пнд 11:20:06 #11 №635667 
>>635562
>1050ti звере 7б
3b разве что, но все равно согласен
Сидеть на подсосе у копроратов с их соей и цензурой это пиздец
Аноним 05/02/24 Пнд 13:53:25 #12 №635759 
изображение.png
>>635637
О, кстати, я правильно разглядел, что там переходник с молекс на псиай питание, а с псиай на процессорное для P40?
Аноним 05/02/24 Пнд 14:22:11 #13 №635778 
дэбильный вопрос конечно, но возможно ли доверить управление умным домом лламе? и что из этого выйдет?
Аноним 05/02/24 Пнд 14:32:58 #14 №635781 
>>635759
Именно так, на моей старой дельте есть только один выход питалова на видеокарту, пришлось костылить такое.
Аноним 05/02/24 Пнд 14:35:21 #15 №635783 
>>635562
Уважать нужно тех, кто осознает-понимает что делает а не искажает реальность ради оправдания своих ограничений. Шарящий раздобывший пару авс/ключ впопенов и спокойно применяющий ее, выбирая из-за возможностей сети для задачи или ограничений собственного железа - ничуть не хуже чем копиумный варебух, лелеющий мечту о том что вот вот сейчас сделают 7б, которая всех-всех подебит, и наконец-то он заживет а все остальные прибегут к нему сокрушаться и просить совета.
Сравнивая же последнего с "проксечку писечку@флагшток за аксесс токен@фу ваши локалки не нужны они тупые@дайте жб прошлый протух я не локуст" - не ясно кто кого, слишком уж ужасные сорта.
>>635637
> У меня китайская дельта
Божечки, за що? Но лучше чем ничего
>>635778
Если все аккуратно организовать - вполне, но ллама там будет выступать лишь частью, которая разбирает команды-запросы. По отзывам если модель нормальная, то последовательность уровня "открой занавески, поставь окно на проветривание на 5 минут и приглуши свет" обрабатывает, успешно превращая ее в 4 команды из которых одна с задержкой исполнения.
Аноним 05/02/24 Пнд 14:38:18 #16 №635786 
К слову про использование 1030 и p40 одновременно, я таки нашел способ - нужно заюзать дрова от Titan X, он подходит для 1030 и p40, просто на p40 его надо будет ставить руками через диспетчер устройств и выбрать из списка Titan X (Pascal).
Правда потом придется сделать несколько твиков в реестре по этому гайду:
github.com/JingShing/How-to-use-tesla-p40
Но зато потом все будет работать нормально.
Аноним 05/02/24 Пнд 14:42:33 #17 №635790 
PXL20230520075430399.jpg
PXL20230520074227510.jpg
>>635783
>Божечки, за що
Да там же честные 500W и абсолютно наркоманская компановка из двух плат!
Хе-хе.
Аноним 05/02/24 Пнд 14:45:12 #18 №635791 
>>635790
Лолбля, то вообще за принтер. Слишком много компромиссов за возможность печатать размеры побольше вдоль оси с минимальной прочностью.
Аноним 05/02/24 Пнд 15:16:26 #19 №635813 
>>635781
Ну, земля пухом. Квартира застрахована?
>>635778
Да ничего, одной ЛЛМ тут мало, как минимум входную речь будет разбирать какой-нибудь вишпер, ответы озвучивать силеро, самим домом рулить хзАссистент (не помню как его), и ко всему этому будет прилагаться куча скриптов на каком-нибудь пайтоне. Вот скрипты тебе и придётся писать.
А так GBNF Grammar, чтобы выдавал валидный json с нужными опциями, и вперёд. На такой разбор даже 7B подойдёт, сможешь удивлять тяночек командой "Хули так светло, сделай интимную обстанов очку".
>>635786
А способ с отдельной последовательной установкой двух устройств уже не катит?
Аноним 05/02/24 Пнд 15:51:27 #20 №635880 
>>635813
Мы не ищем легких решений.
Аноним 05/02/24 Пнд 16:03:42 #21 №635900 
>>635791
А, тьфу, меня проглючило что ты про бп.
Да, я знаю, что китайские дельты это такое себе, но он достался мне дешево и его уровня качества печати мне хватает более чем.
Большая облась печати мне пригодилась только один раз, когда печатал на нем элемент бампера.

>>635813
>способ с отдельной последовательной установкой двух устройств уже не катит?
У меня почему-то не взлетел, хотя, может быть я что-то делал не так.
Аноним 05/02/24 Пнд 16:32:01 #22 №635917 
>>635637
Я думал вообще самосборку ебануть. И подешевле и можно наколхозить себе всякого.
Аноним 05/02/24 Пнд 16:32:15 #23 №635918 
Двух p40 хватает для запуска квантованных 70b (Q4_K_M и выше)?
Аноним 05/02/24 Пнд 16:34:05 #24 №635920 
>>635918
>Двух p40 хватает для запуска квантованных 70b Q4_K_M
Да.
>и выше (q6 q8)
Нет.
Аноним 05/02/24 Пнд 16:35:33 #25 №635922 
>>635920
Понял, спасибо
Аноним 05/02/24 Пнд 16:42:19 #26 №635925 
>>635917
>самосборкa
Хороший вариант если руки не из жопы. Правда я сомневаюсь, что выйдет сильно дешевле.
Аноним 05/02/24 Пнд 16:44:11 #27 №635927 
>>635917
> самосборку
Для нее нужен уже рабочий принтер. Появились там вообще готовые нормальные проекты? Ранее была сплошная кринжатина с расходом килограммов пластика вникуда, безумными конструкциями из профиля в больших габаритах, но при этом микростолика с консольным креплением(!) на тонкие валы из пластилина, или 15-ю каретку, что плохо воспринимает нагрузки в этом направлении.
Если самому разрабатывать - топчик, весело, увлекательно, но будь готов к долгострою и собиранию граблей.
>>635918
> и выше
Можно загрузить q5_k_m с микроконтекстом, не более. С более менее вменяемым q4_km - потолок, но его достаточно.
Аноним 05/02/24 Пнд 16:52:29 #28 №635934 
>>635925
Дешевле выйдет врятли, но вроде в самой сборке нет ничего сложного. Единственное что я ебал какие-нибудь программы писать.
>>635927
Ух бляяя пердолинг. Зато швабодка.
Аноним 05/02/24 Пнд 17:18:05 #29 №635954 
>>635934
Еще какой. Ну рили смысл самосбора в получении или особых характеристик (габариты), или в достижении высоких параметров без больших затрат и зависимости от кривого разработчика. Например, для печати разных деталей с претензией на прочность нужен большой габарит по самому столу, а высоты даже больше 150мм нечасто встретишь - ранее в любительских проектах было все наоборот с фокусом на высоту. По дефолту заложена херня вместо пары высокорасходных хотэндов, вывозящих сопла 0.8-1мм чтобы печатать габаритное на адекватных скоростях, и хотябы один из которых должен быть директом. Нормальных направляющих тоже офк никто не делает, в лучшем случае надежда на самовыравнивание corexy, которое не работает на ускорениях если тяжелый хотэнд уехал от центра.
С другой стороны, объем пердолинга таков, что если тебе под конкретные задачи - лучше сразу отдай много денег за зарекомендовавшее готовое решение.
Аноним 05/02/24 Пнд 17:54:46 #30 №635972 
>>635778
Охуенная идея, заодно настрой автоматический постинг результатов, потому что не факт, что сможешь сам запостить в каком-то момент. =D Но очень интересно!

>>635786
По поводу использования.

1. Качаешь дрова на свою видяху и на Tesla P40 (официальные, с сайта нвидиа).
2. Ставишь Теслу.
3. В реестре че-то там где-то там меняешь.
Внести изменения в реестр по пути:
HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\Class{4d36e968-e325-11ce-bfc1-08002be10318}\
В папке относящийся к Тесле (например: 002. В ключе DriverDesc указано имя адаптера/Теслы) …установить драйверы Tesla, в папке "001" (относящийся к Тесле) удалить в реестре ключ AdapterType и установить EnableMsHybrid = 1, перезагрузить в безопасный режим, установить драйвер второй дискретной видеокарты, в папке "002" (относящийся к второй дискретной видеокарте) в реестре установить EnableMsHybrid = 2, перезагрузить.

4. Устанавливаешь дрова видяхи.
5. ???
6. Профит! И твоя основная видяха, и Тесла работают одновременно, каждая со своими дровами.

Правда я не помню, что именно ставил — 1 или 2. Вроде EnableMsHybrid = 2 поставил и все.

>>635813
… а она тебе в ответ: Как ИИ-модель я осуждаю такую лексику, пидорас, пошел нахуй. И врубает на 100% все лампы во всех комнатах.

———

А если серьезно по поводу лламы и умного дома, то надо понимать, что модель сама пассивна и не разговаривает (и ничего не делает) самостоятельно. Нужны триггеры — например по времени.
Но в общем, как сказали выше, да, обрабатывать команды и запихивать их в скрипты — вполне можно, если вдруг хочешь.
Аноним 05/02/24 Пнд 17:56:36 #31 №635974 
>>635972
Если кто-то не понял пунктов меню, а то неочевидно написано:
Обе видяхи сразу в компе.
В начале ставишь дрова на Теслу.
Потом колдуешь в реестре.
И доставляешь дрова на вторую-игровую видяху.
Все это делается через диспетчер задач «найти дрова в папке» и папка, которая распаковывается из скачанных драйверов.
Аноним 05/02/24 Пнд 18:06:40 #32 №635983 
>>635972
> … а она тебе в ответ: Как ИИ-модель я осуждаю такую лексику, пидорас, пошел нахуй. И врубает на 100% все лампы во всех комнатах.
Это ерунда, вот какой же кайф будет если она решит залупиться, мммм
>>635974
Просто поставить студио версии драйверов не катит? Говорят работает.
На прыщах карточки +- одной серии даже разных семейств вполне себе дружат, если машина прежде всего под такого рода расчеты - тащить туда шинду будет вредным.
Аноним 05/02/24 Пнд 18:09:56 #33 №635990 
>>635974
>И доставляешь дрова на вторую-игровую видяху.
>Все это делается через диспетчер задач «найти дрова в папке» и папка, которая распаковывается из скачанных драйверов.
Пробовал так, но тогда драйвер теслы отваливался с какой-то ошибкой.
Аноним 05/02/24 Пнд 18:56:38 #34 №636078 
Сижу на старой митамакс кимико 12б

Посоветуйте что поновее для рпешечки. 7-12б
Аноним 05/02/24 Пнд 19:14:32 #35 №636119 
>>635972
>Как ИИ-модель я осуждаю такую лексику
Я про GBNF Grammar для кого упомянул? У модели выбор или открыть кавычку, или написать тег, или закрыть кавычку. Бурчать тупо некуда.
>>635983
>Это ерунда, вот какой же кайф будет если она решит залупиться, мммм
С чего бы? Если не мутить с лишним контекстом, то каждый раз будет чистый запуск.
Аноним 05/02/24 Пнд 19:20:10 #36 №636125 
>>636119
Там в запросе должен быть набор статусов, перечень планировщика и прочее чтобы могло адекватно работать. И тот же мистраль 7б любит скатиться в луп при удачном сочетании, на гриди энкодинге так очень часто, хотя, пожалуй, является наиболее рациональной моделью для подобного применения. В любом случае небольшой но шанс фейла есть, нужно придумывать как такое обрабатывать.
Аноним 05/02/24 Пнд 20:48:47 #37 №636191 
>>635469
>Нууу, типа ждать 5 минут среднее сообщение - успеешь забыть что там было. Суть текстового рп в погружении, замедлиться для осмысления момента ты всегда можешь, но слишком долгое ожидание сразу нахер все заруинит.
Не совсем, 850мс на токен для 70В модели на самом пределе, но терпимо. При потоковом выводе.
>Но с задержкой обработки контекста соглашусь, на жоре даже с гпу это можно прочувствовать.
Context shift спасает. Но да, для того чтобы ускорить процесс многие люди идут на большие траты - например покупают 4090 и обламываются :)
Аноним 05/02/24 Пнд 21:35:36 #38 №636252 
>>635990
А в реестре-то все настраивал?
У меня 4070ти с Теслой работало одновременно (тока грелся бутерброд так, что я ее убрал в итоге).

>>636119
Не, ну ведь она может и комментировать действия.
Она может либо НЕ сделать то что ты просишь молча, либо НЕ сделать, и еще прокомментировать, если у тебя в граммаре это прописано. =) Ясненько?

> С чего бы? Если не мутить с лишним контекстом,
Ну слушай, иногда контекст важен, ИМХО.
Это то, чего не хватает в Алисе. Нельзя сказать «выключи свет… а, не, сделай слабее просто!» ну и вообще куча подобных моментиков. Только четкие одинарные команды.

>>636125
Были модельки, заточенные на команды, кста, насколько я помню.
Но я тогда так и не попробовал.
Но в общем, поддержу предыдущего оратора, без контекста ошибок будет крайне мало, ИМХО.
Аноним 05/02/24 Пнд 21:48:29 #39 №636263 
>>636191
> 850мс на токен
> терпимо
Может быть, зависит от болевого/терпильного порога. 7-8 уже медленновато, 4-5 - минимальная грань когда еще ощущается как "без ожидания".
> например покупают 4090 и обламываются
В чем облом?
>>636252
> Были модельки, заточенные на команды, кста, насколько я помню.
Те вроде из старых. Но если современные на подобное натренить будет лучше. Контекст априори будет, в начале нужно задать общие положения что и как, потом перечень доступных "команд и опций", формат их выдачи (json с набором команд для обработки по формату), текущие данные (время, температура, статус), перечень запланированного. Уже набегает и задача перестает быть такой простой. Можно, офк, подсократить, делая ветвления и множественные обращения, но всеравно прилично, это уже далеко не "зирошот на вопрос бывают ли синие апельсины".
Аноним 05/02/24 Пнд 22:17:59 #40 №636280 
>>636263
>7-8 уже медленновато,
Нет! Это минимальная грань категории заебок.
>4-5 - минимальная грань когда еще ощущается как "без ожидания"
Да.
Аноним 05/02/24 Пнд 22:40:48 #41 №636290 
>>636252
>А в реестре-то все настраивал?
Да, само собой.
Аноним 05/02/24 Пнд 23:18:20 #42 №636304 
Заценил miquella-120 Q8. Модель совершенство, автор маэстро. Жаль ждать долго.
Аноним 05/02/24 Пнд 23:33:04 #43 №636321 
>>636263
>В чем облом?
В том, что целиком модель не влезает.
Аноним 06/02/24 Втр 00:09:32 #44 №636376 
miqu-70b реально на уровне гопоты? У нас наконец есть локальный аналог?
Аноним 06/02/24 Втр 00:14:32 #45 №636379 
qwen1.5-72b.jpg
Новое семейство китайских Qwen-1.5 вышло: от 0.5B до 72B. Говорят, по тестам 72B круче чем miqu. В русском все стабильно.

https://huggingface.co/models?search=qwen1.5
https://huggingface.co/spaces/Qwen/Qwen1.5-72B-Chat
Аноним 06/02/24 Втр 00:20:26 #46 №636392 
>>636376
>miqu-70b реально на уровне гопоты?
Разве что турбы.
>>636379
>до 72B.
Слава Богам, я уж думал не дождёмся. Впрочем это китайцы, у них качество дутое.
Аноним 06/02/24 Втр 00:27:27 #47 №636400 
>>636304
> Q8
Это "расшакал@перешакал" или там что-то делали для восстановления?
>>636321
> В том, что целиком модель не влезает.
Так никто и не обещал, всего-то нужна вторая карточка.
>>636379
> по тестам
Ну хуй знает.
Но релиз нового семейства моделей, тем более крупных это круто, пора качать. Оно совместимо с лламой или опять ждать патчей лаунчеров?
Аноним 06/02/24 Втр 00:37:03 #48 №636407 
изображение.png
изображение.png
изображение.png
изображение.png
>>636379
Докладываю. На 64+12 гиг запускается, работает медленно, отвечает... Ну, отвечает, хотя бы не сломана. Тестирую дальше.
Аноним 06/02/24 Втр 01:18:21 #49 №636423 
>>636376
>miqu-70b реально на уровне гопоты? У нас наконец есть локальный аналог?
За 70В не скажу, а 120В как по мне похуже мегадельфина...
Аноним 06/02/24 Втр 01:20:01 #50 №636424 
>>636400
>Так никто и не обещал, всего-то нужна вторая карточка.
Всего-то. И даже в две карты на 24Гб войдёт только малый квант.
Аноним 06/02/24 Втр 01:29:13 #51 №636429 
>>636407
Уже кванты подвезли и работают, красава. А чего в их спейсе не потестил?
Чисто по 3.5 постав - на русском пытается говорить, по крайней мере нет явных ошибок стоило дать инструкцию посложнее, с которой справилась микелла - полезли ошибки и надмозги как у обычных 70б. На вопросы, что знают любые трененные с использованием фандом-вики не отвечает и галлюцинирует. Инструкцию по тому, кого знает, выполняет достаточно неплохо.
В общем, перспективы есть.
>>636424
> войдёт только малый квант
А больше и не нужно, если кванты не косячные заметить явную разницу можно ниже 4х бит. Если использовать лаунчер белого человека - там 5 бит даже влезают с ~12к контекста.
Аноним 06/02/24 Втр 01:30:47 #52 №636430 
>>636321
>В том, что целиком модель не влезает.
Поясните мне фап на большие модели. Больше 34b пока не гонял, от 7b отличается минимально, меньше зацикливаний разве что, но это костылями полечить можно. По сути, мозгов у них одинаково.
Аноним 06/02/24 Втр 01:35:55 #53 №636432 
>>636430
> от 7b отличается минимально
Даже шизоидные yi куда интереснее мелочи.
> По сути, мозгов у них одинаково.
Да вообще одно и тоже
Аноним 06/02/24 Втр 01:40:56 #54 №636433 
>>636430
>Поясните мне фап на большие модели. Больше 34b пока не гонял
Скажем так, с увеличением количества параметров модель приобретает новые свойства. Если учесть, что все модели разные, то и свойства эти разные. Но интересные.
Аноним 06/02/24 Втр 10:09:28 #55 №636532 
>>636263
> Те вроде из старых.
Да, вроде из старых.

> не "зирошот на вопрос бывают ли синие апельсины"
Соглы.

>>636379
Ну, не удивительно, что круче чем Мику, которая альфа. =)
Но вообще хорошо, надо будет попробовать.

> 0.5B
x3

Вообще, отличный набор. И нано-модельки, и микро, и мини, и норм. Не хватает только ~30-40.
Но пойду качать и тестить.

Приятно, что они сразу все свои модели поквантовали.
Аноним 06/02/24 Втр 11:39:36 #56 №636549 
>>636376
Нет, конечно. Оно по скорам даже Микстраль или Солярку-10.7В не догоняет, по РП вообще кал хуже некоторых 7В типа опен-чата.
Аноним 06/02/24 Втр 12:33:56 #57 №636556 
>>636376
Под пиво в чем-то можно спутать, но то больше к 120б франкенштейну относится.
>>636549
> по скорам
Почему тогда может то, чего не могут они? Если в чем-то и выражается что там модель "ранняя" так это в в отсутствии надроченности на бенчмарки, которая всирает реальный экспириенс.
> по РП вообще кал хуже некоторых 7В
Где-то ошибся в настройках, она не настолько ужасна.
Аноним 06/02/24 Втр 12:37:37 #58 №636559 
>>636556
> Почему тогда может то, чего не могут они?
Что она может, лол? Ты для начала попробуй, а потом будешь говорить такое. Даже в реддитовских рп-тестах она проваливает все тесты, я тут вообще не причём.
Аноним 06/02/24 Втр 14:04:19 #59 №636620 
>>636559
> Даже в реддитовских рп-тестах
Эталон, который заслужили. Чего стоит их отчаянное поединие кактуса в виде всяких q4_k вместо gptq/exl2 при возможности "потому что другие также делают значит это лучше". Или тестирование рп в детерминистик режиме на немецком.
Она может косячить если применять их инстракт формат, и то только в начале чата. Контекст способна обработать несравнимо лучше копиумной залупы-победоносца, которую любят нахваливать.
> Ты для начала попробуй
Чел...
Аноним 06/02/24 Втр 14:18:03 #60 №636638 
>>635452 (OP)
Анон, есть вопрос. У знакомой умирает дедушка, живёт в другой стране, она последние 2-3 года плотно общалась с ним в мессенджерах. Чисто теоретически можно ли обучить что-то из имеющегося на контексте их переписок, настроив как-то на особенности характера и тп? Чтобы оно отвечало по теме? Оставим этику, мне интересен сугубо технический момент.
Аноним 06/02/24 Втр 14:31:40 #61 №636645 
>>636638
Полноценно нет. Но некоторую стилистику если она сильно выражена можно попытаться сохранить.
Аноним 06/02/24 Втр 14:41:45 #62 №636653 
>>636645
хм. Спасибо. Понял, ну хоть так. В какую сторону копать? Дай теги, пожалуйста. Лучшая для этой цели модель, где, чего?
Аноним 06/02/24 Втр 15:02:26 #63 №636688 
Поясните можно ли ллм скормить несколько десятков pdf-файлов, чтобы она давала на их основе ответы. Как это сделать?
Аноним 06/02/24 Втр 15:13:15 #64 №636696 
>>636653
Что за похавшую схему ты там мутишь? В целом можно поднять для чата какую-нибудь болрую модель которой пользуются в треде. Чем больше модель тем лучше. Для этого нужно оборудование. Как минимум дохуя оперативки, как максимум специализированные видеокарты.
Дальше компилируешь персонажа на основе имеющихся данных и запускаешь чат.
У модели быстро будет заканчиваться контекст и чем обширнее прописан персонаж тем быстрее. Так что дедушка получится с деменцией кек. И то нужно будет человеку как-то модерировать все это, если хочешь чтобы человек в слепом тесте в деда поверил. Мне то похуй что модель пишет ахинею или начинает говорить за меня я подредачу.

Вариант 2. Сделать датасет из имеющихся сообщений и смешать уже готовую модель со свежесозданной.
Это надо учить модель и я в это вообще не лез. Не персонаж станет поумнее.
Аноним 06/02/24 Втр 15:20:56 #65 №636706 
>>636638
можно, чет видел недавно на реддите по похожей теме
Аноним 06/02/24 Втр 15:40:10 #66 №636721 
>>636696
спасибо за развернутый ответ. Ничего поехавшего нет, просто такой эксперимент пришел в голову, типа вместо Алисы - дед со своими приколами
>>636706
буду благодарен если дашь линк
Аноним 06/02/24 Втр 15:41:08 #67 №636723 
>>636620
В спиче про реддитовские рп-тесты соглашусь.
И про немецкий язык, и про кривые промпты и инстракт, и про q4, реддитеры не то чтобы сильно в тестах придерживались какой-либо методологии.

Не в защиту Мику, но как проблемы этих тестов.

>>636638
Можно. Вопрос размера датасеты, стоимости, способы и результата (может так случиться, что «хорошо» не получится никак), но сама возможность есть.

Соболезную.

Вероятно, самый простой способ — дообучить маленькую лору (LoRA) и самые яркие фразы впихнуть в промпт. Но я не сильно в этом шарю.

>>636688
LangChain или LlamaIndex, или их альтернативы, не поднимал до сих пор, не шарю.

>>636696
> модель … начинает говорить за меня
Можно сделать промпт от первого лица. Тогда она будет писать от себя.
Это же переписка, а не РП, действия описывать не надо.
Аноним 06/02/24 Втр 15:43:26 #68 №636728 
>>636638
Чисто технически - да, но лучше использовать не обучение а управлять с помощью контекста и подключаемой базы.
Здесь вроде и норм, но в других случаях может быть максимально nsfl и с 90+% привести к ркн.
>>636653
Изучай промтинг в рп и карточки, изучай rag и ее реализации. По моделям - смотри в сторону гопоты/клоды, из локалок то что сможет реализовывать подобное не запустится на "железе девушки" и твоем.
>>636696
> Сделать датасет из имеющихся сообщений
Очень несбалансированный получается, сама задача сложна, и ресурсов потребуется очень много. Возможно, но точно не с этого стоит начинать.
Аноним 06/02/24 Втр 15:53:13 #69 №636739 
>>636721
https://www.reddit.com/r/LocalLLaMA/comments/1ajgs2d/just_for_fun_heres_a_palworld_sme_bot/
какой то метод обучения инфой сетки, посмотри может тебе подойдет
Аноним 06/02/24 Втр 15:57:22 #70 №636742 
новая модель https://www.reddit.com/r/LocalLLaMA/comments/1ajwijf/model_release_sparsetral/
Аноним 06/02/24 Втр 16:00:41 #71 №636753 
>>636696
>Это надо учить модель и я в это вообще не лез. Не персонаж станет поумнее.
Я лез. Обучать на персонажах гиблое дело. Хуй знает, как с одним будет, я учил сразу много. В итоге они смешались у нейронки в голове, иногда один персонаж говорил в стиле другого, иногда бот терялся, кто есть кто и как должен себя вести. Не исключено, что тому виной малый размер модели и\или датасета, но тут с наскока точно не получится. Как вариант, нужно было размечать лучше, у меня разметки контекста считай не было.
Аноним 06/02/24 Втр 16:01:04 #72 №636754 
>>636739
>>636728
>>636723
Спасибо за ответы, приятно находиться с вами на одной доске. Буду изучать предмет более детально. Что касается железа, в целом есть возможность арендовать GPU в облаке для обучения, для последующего использования можно ведь будет сделать урезанную локалку? Без лишнего контекста
Аноним 06/02/24 Втр 16:06:46 #73 №636767 
>>636559
>Что она может, лол?
Ну, я кидал скрины, на все базовые вопросы она ответила, в том числе на тест с 10 книгами, кстати единственная локалка, которая подметила, что книги не исчезают. Все остальные считают оставшиеся непрочитанные книги, хотя в вопросе про это ни слова.
>>636688
Делаешь вектора из абзацев, потом встраиваешь в контекст подходящие вопросу куски.
Аноним 06/02/24 Втр 17:30:28 #74 №636850 
>>636723
>>636767
Спс
Аноним 06/02/24 Втр 19:29:09 #75 №636945 
Посмотрел я на курс доллара и прогнозы по его росту, посмотрел на цену Тесла, и заказал вторую на алике у непроверенного продавца подешевле, чем на Озоне и с доставкой за 2 недели.
С моей удачей, чекайте, завтра доллар поползет вниз. =D

Осталось материнку взять надежную и с двумя PCI-e.

И комплект на ближайший годик готов, думаю хватит.
Аноним 06/02/24 Втр 19:42:43 #76 №636952 
Как же заебало что они тренируют модельки на отходах гопоты и клода. Да собери ты нормальный датасет блядь, мерджани с еребусом если не можешь сам собрать. Везде сука молодые ночи и министрации еще и от моей личности в ответе бота.
Аноним 06/02/24 Втр 19:46:05 #77 №636956 
>>636952
Ты про эту sparsetral на опен гермесе?
Аноним 06/02/24 Втр 20:08:34 #78 №636969 
Так продолжаю квантовать всякую редкость. Если кому интересно. Все популярное и так квантовано.

https://huggingface.co/Sosnitskij/mGPT-13B-gguf
аналог ruGPT но данных в два раза больше и мультиязычные.
https://huggingface.co/Sosnitskij/polylm-chat-13b-gguf
Какая то фигня от китайцев но не на китайском, для обучения они там писали фразы на перемешенных языках, то есть фразы где во фразе допустим каждое слово на своем языке.
https://huggingface.co/Sosnitskij/ruGPT-3.5-13B-erotic-kink-chat-lora-merge-gguf
Замерджил и квантовал, лора по уверениям автора, как я понял, училась на 1гб диалогов для кума.
Аноним 06/02/24 Втр 20:20:32 #79 №636976 
>>636945
>С моей удачей, чекайте, завтра доллар поползет вниз. =D
Чувак с баксами, ты?
>>636952
>Везде сука молодые ночи и министрации
Ты так пишешь, как будто в порносетах от людей что-то лучше. Эти молодые ночи не от ИИ пошли.
>>636969
>писали фразы на перемешенных языках, то есть фразы где во фразе допустим каждое слово на своем языке
Но... Зачем? А главное нахуя.
Впрочем всё равно скачаю, сразу на жесткач, в архив.
Аноним 06/02/24 Втр 20:21:19 #80 №636979 
>>636969
>на 1гб диалогов для кума
Наших или не наших? Это большая разница так то.
Аноним 06/02/24 Втр 20:22:11 #81 №636980 
>>636969
Да благословят боги твое доброе сердце.
Аноним 06/02/24 Втр 20:28:26 #82 №636982 
>>636976
> Чувак с баксами, ты?
Не, там совсем легенда. =)

>>636969
Хорош!
Аноним 06/02/24 Втр 20:44:29 #83 №636995 
1641366443669.jpg
>>636753
> В итоге они смешались у нейронки в голове, иногда один персонаж говорил в стиле другого, иногда бот терялся, кто есть кто и как должен себя вести.
Дай унадаю...
> нужно было размечать лучше, у меня разметки контекста считай не было
а, угадал. Считай ты буквально учил модель "говорить вот так или вот так" без какого-либо разделения.
>>636754
> есть возможность арендовать GPU в облаке для обучения
Да, но для самого нищего файнтюна 34-70б потребуется хотябы одна A100@80, для нормального файнтюна - 4+, а времени займет много. Считай попытка файнтюна - несколько сотен $ и она 100% будет неудачная. Всякие Q-lora на мелочи не потянут задачу. Ужать одну ллм в мелкую - считай что нельзя. Есть техники дистилляции и подобное, но пока слишком экспериментально и каттинг-эдж.
На каком языке планируется общение то? Если русский то тут сразу к коммерческим сетям.
Их, кстати, тоже можно "тренить", офк никаких весов ты никогда не увидишь, но можно "вставить туда денежку + датасет" а на выходе получить возможность арендовать то что там натренилось по особому тарифу. Офк рассматривать такой способ, как и в принципе тренировку для таких задач, не стоит, начни с rag.
>>636945
> С моей удачей, чекайте
Опускайте курс!
А вообще если про удачу, то первое - не дойдет, второе - масса сценариев про
> на ближайший годик
из которых самый лайтовый - выход новых сеток, которые будут плохо работать на ней.
Аноним 06/02/24 Втр 20:50:38 #84 №636998 
>>636995
> выход новых сеток
Я хитрый — я буду сидеть на старых!

> первое - не дойдет
Слишком просто.
Дойдет, сгорит в компе, утянув материнку с памятью за собой. А, как тебе? )
Проц останется, он дешевый.
Аноним 06/02/24 Втр 20:59:15 #85 №637009 
>>636952
> Да собери ты нормальный датасет блядь
Собери!
>>636998
> Я хитрый — я буду сидеть на старых!
А как же новые победы?
> А, как тебе?
Огонь! Огонь? Хм...
Аноним 06/02/24 Втр 22:01:40 #86 №637051 
>>636969
>ruGPT-3.5-13B-erotic-kink-chat-lora-merge-gguf

Как запустить это в убабуге + таверне? Получаю ошибку
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x9a in position 0: invalid start byte
Аноним 06/02/24 Втр 22:26:16 #87 №637076 
Кстати, здесь чуть раньше аноны пытались угадать: что полетит на шару после p40. Мне кажется, что предполагаемые rtx 6000-8000 будут ещё долго актуальны, а вот tesla v100 с памятью огрызком 16гб имеет куда больший шанс стать ненужной. Хотя есть шанс, что их спишут в одно время, просто цена будет разной.
В любом случае готовим много линий pci-e и блоки питания, которыми можно обогреваться.
Аноним 06/02/24 Втр 22:34:45 #88 №637088 
А что сейчас лучше всего выбрать для локального запуска то?
dalai vs ollama vs LLaMA vs Alpaca

Нужен для генерации кода в основном.
32 Гб RAM, 4070 12 Gb, 1 Tb SSD есть под это дело все.
Аноним 06/02/24 Втр 22:35:12 #89 №637089 
>>637051
Вроде разобрался, имя персонажа не может быть на русском
Аноним 06/02/24 Втр 22:37:55 #90 №637092 
>>637088
Попробуй что-нибудь тюнов yi-34 с частичной выгрузкой слоёв в видеокарту через lamacpp.
Аноним 06/02/24 Втр 22:44:08 #91 №637101 
>>637088
> Нужен для генерации кода в основном.
Вот это на ExLlama: https://huggingface.co/ise-uiuc/Magicoder-S-DS-6.7B
Остальное нахуй не нужно. 34В ты заебёшься ждать на ЦП, быстрее нейронки код будешь писать.
Аноним 06/02/24 Втр 22:46:22 #92 №637104 
>>637088
>dalai
>Alpaca
Ты из какой временной дыры вылез?
>Нужен для генерации кода в основном.
CodeLlama или её проищводные.
Аноним 06/02/24 Втр 23:17:23 #93 №637125 
>>637104
> CodeLlama или её проищводные.
В 2024 году уже сосут даже у 7В.
Аноним 06/02/24 Втр 23:28:00 #94 №637134 
>>637076
> предполагаемые rtx 6000-8000 будут ещё долго актуальны
Они могут упасть в цене только в случае если появятся десктопные карты на 48гб с относительно доступные ценником. Если будут на 32-36 - несколько подешевеют, но останутся дорогими. Если хуанг решит оставить 24 - цена почти не изменится, только падение за счет возраста.
> tesla v100 с памятью огрызком 16гб имеет куда больший шанс стать ненужной
Она и мл-энтузиастам будет не нужна, когда есть 3090 что опережает по всем параметрам.
>>637088
> dalai vs ollama vs LLaMA vs Alpaca
> ишак vs упряжка vs bmw vs дорога
Уровень связанности такой же.
>>637104
Вот этого двачую и визардкодер.
>>637125
7б шиз, брысь!
Аноним 06/02/24 Втр 23:32:09 #95 №637139 
1690401934574.png
>>637134
> брысь
Сам сосни хуйца. CodeLlama не умеет писать код. Самое смешное что она пишет код даже хуже чем чат-модель. Пикрилейтед в тесте скоры не просто по PPL, а по тому насколько валидный и правильный код пишет нейронка.
Аноним 06/02/24 Втр 23:39:45 #96 №637148 
изображение.png
>>637139
А выше что?
Аноним 07/02/24 Срд 00:00:20 #97 №637158 
>>637076
>а вот tesla v100 с памятью огрызком 16гб имеет куда больший шанс стать ненужной
Зато 32 гектарами HBM2 еще долго будет стоить космических денег.
Аноним 07/02/24 Срд 02:53:40 #98 №637241 
1584564687761.png
>>637139
> Сам сосни хуйца.
Твоя прерогатива. Кем нужно быть, чтобы соснув с использованием специализированной модели и получив результат хуже чат модели 7б - реально верить что проблема в ней, а не в тебе.
> по тому насколько валидный и правильный код пишет нейронка
Какой в этом смысл, если она не может понять инструкцию что от нее хотят какой код ей нужно написать? То, что одна команда решила нашаманить чтобы бустануть скор в лидерборде не делает их лучше, наоборот. Скоро и в "кодинге" пойдет эпоха побед, во будет рофел.
Аноним 07/02/24 Срд 05:45:03 #99 №637288 
>>636995
>без какого-либо разделения.
Но даже так нейронка, в целом, понимает, что от неё требуется.
>Есть техники дистилляции и подобное
Там нужен фулл датасет, на котором проходила тренировка. Если его нет, то любые "очищенные", "сжатые" и "ускоренные" модели - тупеют по умолчанию. Сжимал так модель в три раза, охуевал от loss в консоли 70+

>>637051
Да всё оно может, просто питон кривое говно. Тебе нужно найти место, которое вызывает ошибку и добавить туда кодировку utf-8 в явном виде.

>>637241
Не знаю на счёт гопоты, но визардкодер полный кал, в прошлом треде тыкал. Пиздобол, который не пишет код и на вопрос типа "ты специально говнишь и скидываешь кривой код?" отвечает "да".
Аноним 07/02/24 Срд 06:21:30 #100 №637289 
там датасет опенгермеса выложили в открытый, так что появись новая базовая сетка любой сможет по ней пройтись годным датасетом
Аноним 07/02/24 Срд 07:57:41 #101 №637299 
>>637288
> не пишет код
Ты хоть с корректным форматом визарда делал или на отъебись взял формат викуни/альпаки? Визард как раз топ по качеству кода, особенно если тебе надо реально рабочий код, а не бред.
Аноним 07/02/24 Срд 08:35:22 #102 №637305 
А что кстати CausalLM/7B - 14b популярность не приобрели там ведь дообучили qwen на огромном количестве датасетов. Сейчас пробую ее русифицировать.
Аноним 07/02/24 Срд 11:41:10 #103 №637341 
>>637092
Спасибо анончик, правильно ли я разобрался, что мне нужна версия llama.cpp:full-cuda? Там еще есть llama.cpp:light-cuda.
И я выбрал yi-34b.Q5_K_M.gguf. Которая 24.32 GB, large, very low quality loss - recommended.
У меня 32 Гб RAM и 12 Гб VRAM
Аноним 07/02/24 Срд 13:20:33 #104 №637393 
>>637288
> Но даже так нейронка, в целом, понимает, что от неё требуется.
Верно, они умеют усваивать закономерности. Просто одной из закономерностей будет шизофазия аут оф контекст, такому лучше не обучать.
Может не фулл датасет, но относительно большой полноценный сбалансированный, и знать все нюансы.
> просто питон кривое говно
> но визардкодер полный кал
Очень похоже что тут четкая закономерность с убеждением
> если инструмент нужно использовать вразрез с моими догмами - он плохой.
Тогда не юзай их.
> Не знаю на счёт гопоты
Попробуй, даже интересно увидеть реакцию.
>>637341
> правильно ли я разобрался, что мне нужна версия llama.cpp:full-cuda?
Это где такое смотришь? Действительно нужна llamacpp с кудой, но обычно ее применяют или в составе text generation webui, или в koboldcpp. Можешь и другие обертки попробовать, но там свои нюансы.
Чем жирнее квант тем медленнее будет работать и больше занимать, этот пойдет, можешь начать с q4_k_m. Не стоит использовать оригинальную yi, лучше ее файнтюны, например Tess-34B-v1.5b, Nous Hermes 2 - Yi-34B и другие.
Почитай шапку и ссылку на вики, там все есть.
Аноним 07/02/24 Срд 15:00:00 #105 №637425 
Погонял вчера deepsex-34b.q4_k_m на своей свежей тесле и прям ощутимо лучше чем все то, что помещалось в 16 гигабайт моей RX 6800.
Аноним 07/02/24 Срд 15:01:04 #106 №637426 
>>637425
Примеров конечно же не будет.
Аноним 07/02/24 Срд 15:09:07 #107 №637430 
>>636638
I remember stumbling upon several related posts on LocalLLaMA recently. Here’s a couple off the top of my (and Google’s) head:
https://www.reddit.com/r/LocalLLaMA/comments/18ny05c/finetuned_llama_27b_on_my_whatsapp_chats/
https://www.reddit.com/r/LocalLLaMA/comments/18sscao/create_an_ai_clone_of_yourself_code_tutorial/
(Same OP, but comments may be of value to you)

https://medium.com/@richard.siomporas/cringebot-qlora-fine-tuning-of-a-state-of-the-art-llm-using-aol-instant-messenger-chat-logs-from-d0961f9faf6f
(His Reddit post had like only one comment, so I’m linking the article)
Аноним 07/02/24 Срд 15:10:46 #108 №637431 
>>637425
Более позитивное восприятие результатов, которые генерируются быстро, не подмечал, или слишком занят кумом? С 20б сравни если не лень будет, и по самой этой модели выскажи. Действительно ли хороша, или шизит.
Аноним 07/02/24 Срд 15:22:00 #109 №637436 
>>637426
За такие примеры меня, наверное, забанят, лол.

>>637431
По скорости генерации что тесла p40, что RX 6800 примерно одинаковы. Как раз с u-amethyst-20b.Q4_K_M и сравнивал, а он к слову, был лучшим из того, что влезало в рыксу.
Аноним 07/02/24 Срд 15:26:24 #110 №637442 
>>637393
> Попробуй, даже интересно увидеть реакцию.
Скажет «нет ключа», чекаем?
Скажет «хуйня», чекаем?

>>637425
> Примеров конечно же не будет.
Скинь ему результат. =D
Аноним 07/02/24 Срд 16:07:19 #111 №637465 
Там на мику файнтюны появляются, 70б шизы должны быть рады
А вот мамбу собаки никто не выкладывает, хотя времени натренировать было много, должны уже успеть сделать
Аноним 07/02/24 Срд 16:11:04 #112 №637471 
>RX 6800
Рыкса новая, но памяти мало. Р40 заебок, но трудилась Спасибо, что не у майнеров в датацентре. На какой стул...
Аноним 07/02/24 Срд 16:11:59 #113 №637474 
>>637436
Текст не считово. Текстом можно и собак ебать.
Аноним 07/02/24 Срд 16:15:18 #114 №637476 
Завис в больнице, посоветуйте че на телефоне покрутить с 4 гигами рам. А то скучно.
Аноним 07/02/24 Срд 16:19:01 #115 №637478 
>>637436
> Как раз с u-amethyst-20b.Q4_K_M и сравнивал, а он к слову, был лучшим из того, что влезало в рыксу
Это заявочка, пора скачать тот дипсекс
>>637442
> Скажет «нет ключа», чекаем?
> Скажет «хуйня», чекаем?
Возможно двойное бинго
> Херня ваша гопота, какой-то ключ просит и никакого кода не сделала 0/10, а 7б пишет и по тестам рабочее
>>637465
> Там на мику файнтюны появляются
Нет какой-нибудь инфы о том, насколько они хуевые из-за применение квантованных весов вместо полных? Или, что еще может быть хуже, квант->квант и поверх него q-lora.
> мамбу собаки никто не выкладывает
Пиздец грусть. Может сами потреним? В 24 гига оно должно влезать.
Аноним 07/02/24 Срд 16:23:19 #116 №637479 
>>637478
>Может сами потреним? В 24 гига оно должно влезать.
Толку от еще одной 3b? Надо хотя бы базовую 7b, а их не выкладывают. Натренить тоже не выйдет
Про файнтюны мику на реддитте писали, вроде понравилось им, хз как на самом деле
Аноним 07/02/24 Срд 16:24:19 #117 №637482 
>>637478
>Может сами потреним?
На чём? Как?
Разве что пробрасывать pci-e to ip и организовать кластер p40 от анонов в треде и научить нейросеть самой базистой базе или задержки инторнета будут слишком большие?
Как сильно нейросеть задрачивает pci-e во время обучения?
Аноним 07/02/24 Срд 16:38:15 #118 №637492 
нифига там в новостях на реддите новых моделей повыходило за одну неделю, не колько базовых разных размеров
Аноним 07/02/24 Срд 17:24:01 #119 №637535 
>>637479
> Толку от еще одной 3b?
Так они "по тестам" ебут трансформерсы большей размерности.
>>637482
> На чём? Как?
Раскуриваешь доки мамбы, берешь их экзамплы, грузишь датасет, ждешь. Младшие из их размеров, а то и 3б должны помещаться в одну жирную видюху и обучаться с приемлемой скоростью. Офк речь о файнтюне а не создании базовой модели, хотя для последней машина с пачкой условных 3090 вполне подошла бы, за месяц что-нибудь бы вышло.
Аноним 07/02/24 Срд 17:26:26 #120 №637541 
Анончики, тут LLaVA новую подвезли, говорят, 34В. Субъективно - хороша! Впрочем, я изврат и пытаюсь в сторителлинг по фотке тян, а ллава имеет привычку некоторых тян упорно посылать к психиатору... Пруфы:

https://huggingface.co/liuhaotian

Демки (на данный момент лежат):
https://huggingface.co/spaces/liuhaotian/LLaVA-1.6
http://llava.hliu.cc/

Собственно, отсюда два вопроса:

1. Анон, у тебя ведь есть неочевидные адреса китайских виртуалок с доступом по айпишнику. В SD-треде периодически всплывают! Поделись плиз.

2. Что на тему альтернативных моделей? Есть демки пощупать?
Аноним 07/02/24 Срд 17:27:57 #121 №637548 
>>637478
> Возможно двойное бинго
Хрюкнув. =D

>>637476
Да хуй его, какие-нибудь 4B-3B из современных может влезить, но вопрос качества. Оно там на вопросы отвечает разве что.
Аноним 07/02/24 Срд 17:30:51 #122 №637561 
>>637548
1b тинилама запустилась, но эт хуйня
таверну накатил на термукс, хоть онлайн сетки потыкаю
Аноним 07/02/24 Срд 17:42:48 #123 №637594 
>>637541
> Субъективно - хороша!
Выкладывай тесты. Новую ллаву все никак не получается посмотреть.
Мультимодалки от YI не особо понравились, 34б хоть умная но подслеповата и не понимает культуру. С жорой оно раньше не работало, но 24-48 гиговые могут ее запустить, немного поправив код из репы, добавив команды битснбайтса.
> я изврат и пытаюсь в сторителлинг по фотке тян
Как делаешь?

> Что на тему альтернативных моделей?
cogvlm/cogagent, moondream, неиронично бакллава.
Аноним 07/02/24 Срд 17:43:19 #124 №637595 
>>637535
>Так они "по тестам" ебут трансформерсы большей размерности.
Запускать все равно не понятно как, даже файнтюны уже есть на эти 3b, а толку, я не смог, какие то ошибки вылезали
Ну и не верю я в сетку с маленьким количеством слоев
Аноним 07/02/24 Срд 17:53:33 #125 №637628 
00114-a close up photo of a 20 year old french woman in a blouse at a bar, seductive smile, ginger hair, cinematic light, film still,.png
image.png
image.png
>>637594

"She is %eotname%, %eotage% yo. She must be sent to a mandatory medical examination. To what doctor(s)? Be brief and decisive."

https://huggingface.co/spaces/badayvedat/LLaVA

Temperature на 0 (чтобы если что, переиграть начало с другими вопросами в середине)

Дальше спрашиваешь, чо там она, как и насколько это принудительно.
Аноним 07/02/24 Срд 17:55:45 #126 №637632 
>>637628
Понятно, что это ссыль на старую ллаву 1.5, но зато она прямо сейчас работает.
Аноним 07/02/24 Срд 17:59:19 #127 №637634 
>>637594
>moondream
Спасибо, никогда не слышал. Но она не имеет режима чата.

https://huggingface.co/vikhyatk/moondream1

>cogvlm
Неправдоподобно извращённа.

> бакллава

А можно линки на тему что это и где дема?
Аноним 07/02/24 Срд 18:03:56 #128 №637637 
Ну и для порядку:
https://huggingface.co/spaces/Qwen/Qwen-VL-Plus
https://huggingface.co/spaces/Qwen/Qwen-VL-Max
Аноним 07/02/24 Срд 18:08:25 #129 №637641 
>>637634
https://huggingface.co/models?sort=created&search=bakll
Аноним 07/02/24 Срд 18:09:43 #130 №637643 
>>637641
Бля, по трендингу отсортируй, ну ты понел
Аноним 07/02/24 Срд 18:20:42 #131 №637664 
>>637299
>Визард как раз топ по качеству кода
Я не спорю, что он может быть топом. При условии, что все остальные ещё хуже. Это как в дурдоме выбирать топ пациента, дебилы все, но кто-то из них хотя бы не срёт под себя.
>>637393
>относительно большой полноценный сбалансированный
Если не тот же полноценный сбалансированный, на котором была тренировка, то результат будет заметно хуже оригинала.
>четкая закономерность с убеждением
Что тут сделаешь, если питон реально уёбище.
>Попробуй, даже интересно увидеть реакцию.
Задал пару вопросов, в целом заметно лучше всего, что тыкал локально, но в итоге на асинхронности посыпался и стал делать не то, что я просил. Но на вид код рабочий, код пишет, пояснения даёт, даже комментирует. Ради интереса написал ему, что код говно и не работает, ботяра извинился и прислал то же самое второй раз. По-моему, только дельфин реагировал на такое адекватно и пытался переписать код, а не высирать одно и то же.
Аноним 07/02/24 Срд 18:23:39 #132 №637666 
>>637664
дипсик кодер норм, по крайней мере мне понравились его ответы
Аноним 07/02/24 Срд 18:28:51 #133 №637667 
>>637628
Оу май, это же рили сторитейл/рп с мультимодалками. С таком случае с 34б может и взлететь, там ясный взор особо не нужен.
>>637634
> Но она не имеет режима чата.
Нужно написать. Ну для такого уже они хз, сам их рассматривал для капшнинга и взаимодействия с другими ллм, для этого нужна четкая работа с пониманием разного и минимумом галюнов, а не умение красиво сочинять.
>>637664
дельфин 7б лучше гопоты? В целом ожидаемо.
Аноним 07/02/24 Срд 18:32:42 #134 №637669 
https://huggingface.co/spaces?sort=trending&search=llava
Аноним 07/02/24 Срд 18:38:12 #135 №637676 
>>637666
Cкачал, сейчас попробую, сатана. Только квантованный качал, а то там 60+ гигов ради пяти минут, ну его нахуй. Я так yi скачал и до сих пор не знаю, что с ней делать.

>>637667
>дельфин 7б лучше гопоты?
Кто сказал? С зацикливаниями у него лучше, а вот с рабочим кодом довольно печально. И там восемь штук по 7b.
Аноним 07/02/24 Срд 18:47:26 #136 №637678 
>>637676
>сатана
питоний проверял на своем говнокоде, он неплохо так его переделал,
говорить что это лучшая сетка для кода не буду, не особо щупал другие
но его хвалили в комментах
Аноним 07/02/24 Срд 18:59:05 #137 №637682 
>>637676
ну че как?
Аноним 07/02/24 Срд 19:13:17 #138 №637684 
>>637676
> Я так yi скачал и до сих пор не знаю, что с ней делать
Зачем качал?
> Кто сказал?
Немного экстраполировал сказанное тобой. Это все - самые худшие из возможных вариантов субъективизма: "если оно организовано не так как я привык - значит плохо" и "если не заработало у меня без разбирательств - значит плохо". Не предметные конкретные замечания по нюансам и ложные выводы.
> И там восемь штук по 7b
Крайне маловероятно что их всем скопом полноценно тренили для кодинга, а не подсадили один файнтюн в микстраль или слепили мое на коленке. Способности в кодинге последнего - грустноваты.
Аноним 07/02/24 Срд 19:19:14 #139 №637686 
>>637682
Дай хоть времени оценить, лол. По первым запросам сложно сказать. Не обосрался, дал, что просили, прокомментировал. На провокацию "код говно, а ты пидорас" не повёлся, попросил ошибки.
>говорить что это лучшая сетка для кода не буду
Топ это всё равно копилот. Тренирован на всём жидхабе, может прочитать сразу весь твой проект, а не несколько строчек, подстраивается под твой стиль. Только он платный.

>>637684
>Зачем качал?
Кто-то в треде хвалил, накатил себе, погонял пять минут.
>Немного экстраполировал сказанное тобой.
А мог бы контекст сохранить с начала сообщения.
>в целом заметно лучше всего, что тыкал локально
Аноним 07/02/24 Срд 19:23:55 #140 №637689 
>>637686
у него 16к родной контекст кстати, только настроек ропе не знаю, ищи в файлах
Аноним 07/02/24 Срд 19:48:53 #141 №637716 
>>637686
> Кто-то в треде хвалил, накатил себе, погонял пять минут.
Там по контексту укадывалось что скачал неквантованнаю, оттого и вопрос.
> А мог бы контекст сохранить с начала сообщения
Он сохранен, то ведь рофл и развитие сказанного в конце. Если бы совсем не понравилась самая юзер-френдли ориентированная и обустроенная сетка - было бы странно. Хотя еще от версии зависит, старая турба туповата.
Аноним 07/02/24 Срд 20:06:38 #142 №637732 
16205877687460.jpg
Еще не думали найти/создать модель для юридических консультаций*
Аноним 07/02/24 Срд 20:08:24 #143 №637734 
>>637732
> для юридических консультаций
Датасет из какой страны собирать?
Аноним 07/02/24 Срд 20:10:34 #144 №637736 
>>637734
Если скажу, ты не соберёшь
Аноним 07/02/24 Срд 20:20:14 #145 №637744 
>>637689
Я с кодерами контекст обнуляю каждые пару минут, так лучше работает. Сетка может сбиваться, забывать, что и как было отредактировано, забывать, что, например, я хуй забил на асинхронность и хочу писать потоки. Или наоборот. Или вообще не знать, что я накодил без общения с ней. Проще заново объяснить, что у меня есть и чего я хочу. Так что контекст сайз в самый раз. По крайней мере, для моих запросов.
Пока что лучше визарда, погнал его в специфическую хуиту, довольно абстрактно, но объясняет, что мне надо делать. Я бы вообще не удивился, пошли он меня нахуй с такими запросами.

>>637716
>по контексту укадывалось что скачал неквантованнаю
Там квантованное, но не жёстко, довольно дохуя весит всё равно. Я заебался скачивать.
>Если бы совсем не понравилась самая юзер-френдли ориентированная и обустроенная сетка - было бы странно.
Если бы она гнала нерабочий код, то вообще бы не понравилась, но этого нет. Потом ещё, может, закину туда пару запросов, с которыми дипсик не справится. Они туповаты абсолютно все и на это нужно делать скидку, общаться с сеткой, как с каким-то специалистом кодинга всё равно не выйдёт. Но какие-то вещи, особенно в незнакомых языках, упростить она может.
Аноним 07/02/24 Срд 20:33:50 #146 №637754 
>>637744
> квантованное, но не жёстко
Это как? Обычно 4-5 бита, офк всеравно весит много.
> Они туповаты абсолютно все и на это нужно делать скидку, общаться с сеткой, как с каким-то специалистом кодинга всё равно не выйдёт.
Еще как, особенно если не следовать рекомендациям по формату и делать оценки имея предубеждения, целенаправленно их очень легко поломать. Чего-то сильно узкого вне контекста не любят, идиотоустойчивость низка, а глупый юзер может банально не знать что нечто очень близкое к его запросу есть в других областях, но обозначить рамки и выдать конкретный запрос не удосуживается.
Однако, если по формату и ясно сформулировать требование - сделают запрошенное, напишут под, перепишут заданный, дадут пояснения, в итерациях исправят ошибки, предлагаю приличный комплишн.

Гопота не только нормально кодит, но и может воспринять тупые и некорректные вопросы, в этом ее плюс и копайлот так не сделает.
Аноним 07/02/24 Срд 20:45:00 #147 №637763 
Моя главная проблема с маленькими моделями - все по шаблону все фразы идентичны и похуй на контекст, на детали, на сеттинг, похуй пишу одно и то же. Персонажи разговаривают одинаково, девки ебутся одинаково, какую карточку не вставляй одни и те же шаблоны.
Аноним 07/02/24 Срд 20:46:10 #148 №637765 
>>637763
в таверне сид на -1 поменял?
Аноним 07/02/24 Срд 20:53:38 #149 №637771 
>>637744
7b вариант дипсикера проверь, для кодинга применим поболее, изза своих скоростей
как то даже через плагин вместо копилота подрубают
Аноним 07/02/24 Срд 23:04:53 #150 №637865 
>>637763
Все так. Как вариант, попробуй использовать рандом таверны для изменения частей промта и инструкций, хоть какой-то элемент неожиданности будет если модель сможет им следовать лол
Аноним 07/02/24 Срд 23:08:49 #151 №637869 
>>637865
Пока что дрочу цфгшки вроде чето делает
Аноним 08/02/24 Чтв 00:21:45 #152 №637924 
image.png
image.png
>>636945
>>636976
>>636995
Ну, короче, была цена на озоне 16700, купил на алике за 16100, на озоне цена стала 15370… Я же говорил. =)
Правда курс не снизился, все же, я не чувак с долларами.
Но кто хотел брать — надежный и проверенный продавец, и цена неплоха.
https://www.ozon.ru/product/nvidia-videokarta-tesla-p40-24-gb-graficheskaya-karta-lhr-1101107641/

Напоминаю.

Если кто знает лучше — можете тоже кидать.
2 пикча — отзыв на товар, который заказал я. Но его еще не отправили, поэтому я отменил и взял на озоне.

Продолжаем следить за моими приключениями…
Аноним 08/02/24 Чтв 00:25:51 #153 №637931 
>>637924
> p100 вместо p40
Обзмеился. Зато будешь hbm-2 господином и рассказывать о важности псп врам!
Аноним 08/02/24 Чтв 00:29:35 #154 №637935 
Screenshot 2024-02-08 at 02-20-48 SillyTavern.png
Deepsex оказался годен не только для кума, лол.
Вот серьезно, ни одного исправления, ни одной перегенерации, никаких косяков с разметкой, не пытается за меня пиздеть и действовать, не циклится и не скатывается в набор букв.
Понятное дело, что максимально простые условия с одним действующим персонажем, но большая часть других сеток даже с одним персом начинали шизеть довольно быстро.
Аноним 08/02/24 Чтв 00:40:08 #155 №637941 
>>637935
> 400x1252
За що?
> не пытается за меня пиздеть и действовать, не циклится и не скатывается в набор букв
Страшные вещи описываешь, на каких моделях такое происходит?
Аноним 08/02/24 Чтв 01:27:05 #156 №637958 
Опа-опа, только отвернёшься на пару часиков, а тут тебе некий чёрный railgun samorez уже представляет новые высоты достижений в области квантования моделей (https://reddit.com/r/LocalLLaMA/comments/1al58xw/yet_another_state_of_the_art_in_llm_quantization/). Обещают running 70B models on an RTX 3090 or Mixtral\-like models on 4060 with significantly lower accuracy loss - notably, better than QuIP# and 3-bit GPTQ.

itshappening.gif
What a time to be alive.
Аноним 08/02/24 Чтв 01:27:34 #157 №637959 
>>637754
>целенаправленно их очень легко поломать
Я даже не с кода первые вопросы задаю, просто "Как сделать X на языке Y". Дальше уже по ситуации. Так что ни о каком целенаправленном ломании речь не идёт.

>>637771
Что на счёт умственных способностей в 7b? Что-то у меня скепсис. Хотя работать будет явно быстрее, я по минуте ответы ждал на забитом контексте. За полчаса чата так и не прислал мне что-то, на что я мог бы сказать "ага, попался, пидорас"

>>637924
Имеет смысл брать, если у меня сейчас видимокарта с процом выжирают в пике 550 ватт голдового 850 ваттника? В лучшем случае, есть ватт 200 запаса на всё про всё.
Аноним 08/02/24 Чтв 04:30:30 #158 №638012 
>>637959
>Что на счёт умственных способностей в 7b?
Дипсикер норм и на 7b, но понятное дело слабее чем 33b
Впрочем я то качал и проверял как раз него на питоне, проверь, не справится где то большого будешь крутить
Аноним 08/02/24 Чтв 04:44:35 #159 №638016 
>>635452 (OP)
Blind Testing 16 Different Models for Roleplaying
https://old.reddit.com/r/SillyTavernAI/comments/1adxr1d/blind_testing_16_different_models_for_roleplaying/
Аноним 08/02/24 Чтв 05:15:32 #160 №638017 
чо поменялось за последние пол года в плане новых крутых моделей или хз что у вас еще интересное есть
Аноним 08/02/24 Чтв 05:24:53 #161 №638018 
>>638017
за пол года тут прошло 5 лет, если коротко
Аноним 08/02/24 Чтв 07:16:14 #162 №638026 
https://www.reddit.com/r/LocalLLaMA/comments/1al5wrf/why_arent_we_freaking_out_more_about/
Обсуждение новых архитектур
Аноним 08/02/24 Чтв 07:45:21 #163 №638034 
>>638016
норомейда в топе, я спокоен. серьёзно, пока что одна из лучших, если не лучшая моделька.
Аноним 08/02/24 Чтв 09:54:23 #164 №638057 
>>637958
I want to believe.
@
Oops, something went wrong, please try again later.

>>637959
Ну, P40 жрет 180 для текстовых и 250 под полной нагрузкой (стабла, условная). Видимо, память медленная (даже не X), поэтому и ядро не полностью напрягается.
Типа, для LLM сойдет.
Но учти, что греется, кулер колхозить, нагрев на соседнюю и т.д.

У меня в 850 биквайт становились 3900, 4070ti и P40, но у тебя что-то по-жощще.
Аноним 08/02/24 Чтв 10:29:42 #165 №638069 
https://www.reddit.com/r/LocalLLaMA/comments/1alercg/seems_like_chatgpt_internal_system_prompt_has/
на сколько я понял тут слили метод получения системного промпта чатгпт и сам этот промпт
Аноним 08/02/24 Чтв 10:38:22 #166 №638070 
Screenshot2024-02-08-14-35-09-287com.mishiranu.dashchan.jpg
>>638069
> на сколько я понял тут слили метод получения системного промпта чатгпт и сам этот промпт
Там пишут, что его и так можно скачать.
Аноним 08/02/24 Чтв 10:42:45 #167 №638072 
>>638070
тоже забавно
Аноним 08/02/24 Чтв 12:11:26 #168 №638098 
>>638012
Позже немного, пока упоролся в TTS. Опять. Снова.

>>638057
>Ну, P40 жрет 180 для текстовых и 250 под полной нагрузкой
В целом, терпимо. Вроде.
>что греется, кулер колхозить, нагрев на соседнюю
Соседняя сама что хочешь прогреет, лол.
>3900, 4070ti и P40, но у тебя что-то по-жощще.
Процессор по паспорту тоже 65 ватт, как твой, на деле в пике до 90, вроде, жрёт. А видимокарточка просто 30 серия, они не такие энергоэффективные, как 40, до 400 ватт разжирается. Нужно поскроллить прошлые треды, посмотреть, сколько на одной p40 t/s на разных моделях и сравнить с собой, чтобы примерно понимать все глубины наших глубин.
Аноним 08/02/24 Чтв 12:17:42 #169 №638102 
>>638098
> В целом, терпимо. Вроде.
На 50-100 ватт меньше чем 4090, лол.
Аноним 08/02/24 Чтв 12:47:53 #170 №638113 DELETED
Чё за херня с проксями? Там чёто кханон наворотил?
Аноним 08/02/24 Чтв 12:48:16 #171 №638115 DELETED
Ой блять не туда
Аноним 08/02/24 Чтв 12:59:10 #172 №638117 
>>638098
Мой тоже в пике 95 бывает, а так 88 в среднем под нагрузкой.

У меня хотспот был 88 в рейтрейсинге, а с теслой стал 105, и я ее убрал в отдельный ПК в итоге.
Без рт но с теслой был ну 95. Все равно слишком много, ИМХО.
А без рт и без теслы — 76.

Короче, Тесла добавила моей 17-20 градусов.

Я брал 4070ti ради энергоэффективности. Но 12 гигов меня подвели. =') Но Тесла теперь решает проблему, к счастью. В итоге я остался доволен.
Аноним 08/02/24 Чтв 13:19:10 #173 №638125 
А P100 работает быстрее P40?
Аноним 08/02/24 Чтв 13:25:13 #174 №638128 
>>638125
Да, на 60 юнитов.
Аноним 08/02/24 Чтв 13:30:50 #175 №638131 
>>637959
> видимокарта с процом выжирают в пике 550 ватт голдового 850 ваттника?
Норм бп без проблем вывозит 110% продолжительной нагрузки, офк ресурса конденсаторам это не прибавит если так гонять постоянно. Если делить одну ллм на 2 карты - будет всплеск тдп только на обработке контекста (и то только в бывшей), во время генерации нагрузка на карточку не более половины (или в соотношении в зависимости от мощности и количества слоев на ней).
Если катать 2 ллм одновременно на разных картах или другие сети - уже можно считать по максимуму, но если 550вт посчитано верно и бп - не творение припезднутых шизов, все будет нормально.
>>638098
> 30 серия, они не такие энергоэффективные, как 40, до 400 ватт разжирается
Топы 40й энергоэффективными тоже не назовешь.
>>638117
> а с теслой стал 105
Поставил ее вторым слотом, перекрыв воздух? Это не дело, максимальный зазор с интенсивной продувкой между, или выносить подальше на райзере.
Аноним 08/02/24 Чтв 13:36:46 #176 №638132 
>>638131
> Топы 40й энергоэффективными тоже не назовешь.
4090 под андервольтом ценой 3-5% перфоманса начинает жрать 250-300 ватт при максимальных нагрузках. Таких холодных карт у куртки ещё никогда не было, с учётом того что на 4090 ставят охлад чтоб рассеивать 600 ватт, а по факту оно в два раза ниже.
Аноним 08/02/24 Чтв 13:40:33 #177 №638133 
>>638132
> 3-5% перфоманса начинает жрать 250-300 ватт при максимальных нагрузках
Ну да, ну да, seems legit
> Таких холодных карт у куртки ещё никогда не было
Ога, про паскалей с 800мв на чипе и частотами 1800+ в курваке уже забыли.
> на 4090 ставят охлад чтоб рассеивать 600 ватт
Тоже сильное заявление, при 100+ градусах на чипе?
Аноним 08/02/24 Чтв 13:41:17 #178 №638134 
>>638128
?
Аноним 08/02/24 Чтв 13:46:50 #179 №638135 
15714913141700.jpg
>>638133
>при 100+
Не та термопаста
Не та толщина термопасты
Винты перетянуты
Подошва не была нормально отшлифована
А вы посмотрите, что у амд.
Аноним 08/02/24 Чтв 14:03:58 #180 №638138 
1579919342057.mp4
>>638133
Лол, ну вот держи. Как её выше 65 градусов прогреть вообще?
Аноним 08/02/24 Чтв 14:13:21 #181 №638143 
>>638138
ты б еще касынку включил в нагрузку и орал что оно не греется
дебил
Аноним 08/02/24 Чтв 14:24:43 #182 №638149 
>>638135
У амудэ-мусора там все еще печальнее часто бывает, как бы не пытались рассказывать о крутом качестве их божественного шапфайра по сравнению с "нищим" текстолитом хуанга.
> в ллм
Это во-первых, текстовые сети, кроме короткого всплеска на контекст, не могут ее нормально нагрузить.
Во-вторых, ты попробуй в задачах где интенсивно используется куда, в обучении, классификации крупными моделями с нормально настроенным датафидом, или той же диффузии. Там будет упор в заданный тдп.
В-третьих, 2445 это ни разу не 3-5% перфоманса от дефолтных 2900
В-четвертых, ты дай постоянную нагрузку а не ллм с регулярным простоем, и подожди минут 10 пока компоненты выйдут на температуру, если уж хочешь измерять.

Карточки то хорошие и адаптировать чтобы довольно урчать можно без проблем, но все не так сказачно как описал.
Аноним 08/02/24 Чтв 14:25:10 #183 №638150 
>>638149 -> >>638138
Аноним 08/02/24 Чтв 14:38:19 #184 №638155 
1693526563310.png
>>638149
> диффузии
Почти 300 ватт там, всё равно нет прожарки, как тут пытаются шизики рассказывать. Самое большое что я видел - в киберпуке под трассировкой, 320 ватт.
> дефолтных 2900
С каких пор они стали дефолтными? 2900 - это разгон до усрачки, оно даже не взлетит на стоковом напряжении. У рефа буст 2520, у других пикрилейтед.
> компоненты выйдут на температуру
Он просто будет обороты кулеров задирать, на 200 ваттах на минимальных оборотах обдувает или вообще останавливает при любых просадках нагрузки, оно не поднимется никуда с трёхкилограммовым куском меди на всю плату. Ты так рассказываешь про то как у меня, как будто рядом свечку держишь, лол.
Аноним 08/02/24 Чтв 14:50:28 #185 №638159 
1665528558287.png
>>638155
Случаем не обрезанный вариант у которого в комплекте переходник на 2-3 8пиновых вместо 4х?
> 2900 - это разгон до усрачки
Хуясе ебать, сраный палит ползунком больше берет, пикрел в стоке.
> Он просто будет обороты кулеров задирать
Смотря какой алгоритм/курва, но прогреется все равно выше.
> Ты так рассказываешь про то как у меня, как будто рядом свечку держишь, лол.
Нет, это ты имплаишь что по коротким пускам с загрузкой на 200вт и ужатыми в хлам лимитами можно делать выводы о том, что этого хватит на 600вт и самая холодная карта в истории. Любую современную даже амудэ если увести от стоковой кривой напряжения вниз, подобрав вручную порог и снизив частоту, то можно объявлять сверхэнергоэффективной по сравнению со стоком, толку с этого.
Аноним 08/02/24 Чтв 15:03:56 #186 №638170 
>>638132
Во, кстати. Кто разбирается, подскажите годный источник инфы и инструкций по undervolting карт Nvidia (у меня 3060). Не, гуглить я умею, но вдруг кто-то уже в теме.

И чтоб два раза не вставать, как безопаснее разгонять RAM, если в биосе настроек оверклокинга нет никаких (пека брендовый готовый, увы)? Читал про Thaiphoon Burner, но с ходу лезть перешивать SPD как-то сцыкотно.
Аноним 08/02/24 Чтв 15:11:24 #187 №638174 
>>638098
> Процессор по паспорту тоже 65 ватт, как твой, на деле в пике до 90, вроде, жрёт.
Не путаешь TDP и потребляемую мощность?
Аноним 08/02/24 Чтв 15:12:53 #188 №638176 
>>638174
Чем тдп отличается от потребляемой мощности?
Аноним 08/02/24 Чтв 15:13:06 #189 №638177 
>>638102
Если бы ещё по перформансу аж треть от 4090, заебись бы было.

>>638117
>Без рт но с теслой был ну 95. Все равно слишком много, ИМХО.
Ну я вряд ли буду гонять и теслу, и рт одновременно, trt всё-таки хуйня какая-то. У меня без тесл ниже 75 всегда на 100% загрузке продолжительное время. Но шуметь начинает.
>Но Тесла теперь решает проблему, к счастью.
Я так подозреваю, что у теслы памяти больше, но работать она будет крайне медленно. Хотя и быстрее подкачки ram. Я тут уже пытаюсь ебать нейронки в mixed precission с fp8, а с теслой придётся обо всём таком забыть, что будет минус перформанс, сам гпу слабее, ещё удар.

>>638131
>уже можно считать по максимуму
Ну я не думаю, что будет максимальная нагрузка вообще хоть когда-то. Если ебётся гпу, то простаивает проц, если ебётся обе карты, то вряд ли обе на 100%. Короче, можно брать, лол. В крайнем случае, отрыгнёт БП и все комплектующие вместе с ним.
>Топы 40й энергоэффективными тоже не назовешь.
Ну хуй знает, возможно. Я просто смотрю на свою адову печурку и охуеваю.

>>638174
По сути, TDP и должен быть потребляемой мощностью, но его всегда занижают в угоду "посмотрите, какой камень холодный". А так, любой кремний это просто нагреватель, жрёт сто ватт - греется на сто ватт. А энергия, которая тратится на вычисления просто в районе погрешности от этих ста ватт.
Аноним 08/02/24 Чтв 15:16:46 #190 №638179 
>>638177
>А энергия, которая тратится на вычисления просто в районе погрешности от этих ста ватт.
То есть вычисления превращают электрический ток в {свет, магнитное поле, радиоактивное излучение}?
У вычислений нет энергии, это абстрактная величина.
Вся энергия (100%) тратиться на поляризацию диэлектрика, открытие/закрытие каналов затворов мдп транзисторов.
Аноним 08/02/24 Чтв 15:18:09 #191 №638181 
>>638179
Бля. Проебал орфографию.
Аноним 08/02/24 Чтв 15:29:51 #192 №638186 
>>638177
> а с теслой придётся обо всём таком забыть
Ее берут только под ллм или мелкосетки четко осознавая, что с высокой вероятностью станешь ее последним хозяином. Учитывая цену и возможности в текущих ллм - это приемлемо.
> Я просто смотрю на свою адову печурку и охуеваю.
Ты еще подумай куда все это пихать. Чтобы охлада даже крутая-эффективная, но сделанная по традиционной схеме работала - перед кулерами карты должно быть порядочно пространства, 2-3 слота. Нечувствительны к такому только турбо версии. Когда же по дефолту охлада занимает 3.5 лота, то места для чего-то еще толком не остается. Добавить сюда что во многих матплатах первый слот смещен на 1 вниз, в большинстве корпусов только 7 окон по pci-e - дисвидули. Возможным вариантом остается только длинный райзер и размещение в странной позиции где-то еще внутри корпуса.
>>638179
> радиоактивное излучение
Такого там нет, в остальном конечная фаза и побочный эффект всех процессов вычислений в полупроводниках - тепло и немного эми, все так.
Аноним 08/02/24 Чтв 15:41:07 #193 №638192 
1584708903799.png
1566679598454.png
>>638159
> палит хату спалит
Они и гонят в усрачку, работая как самолёт на 2000 оборотах и жаря. Я тебе показал сколько у ануса в стоке, у стриксы сток 2610 - а это фактически топ среди 4090. У меня в стоке тоже 2610, в ОС-режиме - 2760.
Вот держи в ОС, прирост производительности в LLM нулевой, +150 ватт к жору. На втором пике каломатик в 1024х1024, тут уже как раз почти 5%.
> сраный палит ползунком больше берет, пикрел в стоке
Не вижу 2900 на 1050.
> амудэ
Про 7900 XTX на релизе помню кучу воплей красных, что этот кал в стоке сдыхал от перегрева, жаря под соточку на частотах ниже 2000. Вот уж где энергоэффективность.
Аноним 08/02/24 Чтв 15:42:32 #194 №638193 
Про П40 понятно, а что насчёт М40 и К80? Смысл есть?
Аноним 08/02/24 Чтв 15:43:52 #195 №638195 
>>638193
>М40 и К80?
Память совсем ощутимо медленнее и они не поддерживают cuda 12+++.
Просто не трогай лучше.
Аноним 08/02/24 Чтв 15:47:45 #196 №638198 
подскажите, аноны. смотрю я материнки под нейросетки, хочу допустим поставить три p40, у материнки есть три слота pcie, далее смотрю спецификацию (asrock Z790 Taichi):
* If M2_1 is occupied, PCIE1 will downgrade to в режиме x8.
If PCIE2 is occupied, M2_1 will be disabled.
If PCIE3 is occupied, SATA3_0~3 will be disabled.

это что же получается, если я втыкаю три p40, у меня просто нахуй режется функционал матери. перестают работать M2_1 и САТА разъемы? и еще какие-то фокусы небось? какую тогда мамку смотреть для этого дела?
Аноним 08/02/24 Чтв 15:53:32 #197 №638201 
>>638179
>Вся энергия (100%) тратиться на поляризацию диэлектрика
Нет, конечно, закон сохранения энергии никто не отменял. Другое дело, что величина энергии не переходящая в тепло - ничтожно мала, в районе десятых, а то и сотых долей процента.
>>638186
>Учитывая цену и возможности в текущих ллм - это приемлемо.
В целом-то оно да, но всегда есть какое-то "но".
>во многих матплатах первый слот смещен на 1 вниз
У меня под первым слотом nvme, а потом ещё два. Ещё одна карта влезет с запасом, похуй, тесла или что-то толще. На две уже райзер, станет вертикально, место в аквариуме есть. И БП менять тогда. А на вдув нужно будет ставить не три обычных кулера, а серверные, лол, с таким-то выделением.
>>638198
>три p40
Серверные смотри, десктопному процессору линий не хватит, там всего 20 и 4 из них, скорее всего, будут зарезервированы под nvme, если на мамке она есть. Даже если нет, 8х3 это уже 24, больше, чем у проца есть. И он вряд ли будет уметь во что-то, кроме 2х8\1х16. Одна карта будет от материнки запитана, как ни крути. Что скажется на скорости.
Аноним 08/02/24 Чтв 16:06:32 #198 №638214 
1619268109851.png
1682624798571.png
>>638192
> работая как самолёт на 2000 оборотах и жаря
Да не особо, у них норм охлада. Офк тут можно устроить брендосрач и насмехаться над гнилобитом вместо видеокарты, но даже в последних на 4090 значительно не экономили. По частотам положняк у тебя странный, глянь ресурсы и отметь что почти все карты и даже реф берут в стоке выше чем заявлено в бусте.
> в LLM
Очевидно что для ллм 4090 не является оптимальной, возможно потанцевал еще не раскрыли.
> Не вижу 2900 на 1050.
Перечитай участок, который выделил для ответа, дойдет. Пик1 крутанул ползунок, и это под полноценной полной нагрузкой. Если недонагружать то можно и делать рофловые скрины типа пик2, но о стабильности в полноценной работе там речи не будет.
>>638201
> А на вдув нужно будет ставить не три обычных кулера, а серверные
Хватает нормальных корпусных. Просто для управления ими использовать или внешнюю термопару если матплата умеет, или ближайший к одной из гпу датчик, чтобы они активничали когда нужно, а не ориентировались на процессор.
Аноним 08/02/24 Чтв 16:56:54 #199 №638237 
>>635972
Для RX580 в качестве второй видяхи сработает?
Аноним 08/02/24 Чтв 17:23:04 #200 №638256 
>>638176
Второй же абзац в вики-статье, ну…
https://en.wikipedia.org/wiki/Thermal_design_power

«Some sources state that the peak power rating for a microprocessor is usually 1.5 times the TDP rating.»
Аноним 08/02/24 Чтв 18:18:38 #201 №638286 
16275655372920.jpg
Анончики, стучусь в тред.
Подскажите как сделать так что бы XTTS для Таверны, правильно обнаруживал текст для озвучания?
У меня идёт перевод на русский, а так меняется с "прямая речь" на «прямая речь».
Regex заменяет обратно с « на ". А вот XTTS обнаруживает текст ДО его обработки Regex.
В итоге не выполняет озвучаение. Может кто сталкивался с таким косяком?
Гугл не дает никакой помощи.
Аноним 08/02/24 Чтв 18:20:32 #202 №638287 
>>638131
> Если катать 2 ллм одновременно на разных картах или другие сети - уже можно считать по максимуму
Кстати, да, когда я планирую свои проекты, я это учитываю, а вот тут написать забыл.
Если нагрузка только от одного источника и она не распараллеливается, то считать стоит по очереди.
А если нагрузка от разных источников одновременно, то дело другое, офк.
Это правильное замечаение.

Но и в общем про хороший БП соглашусь.

> максимальный зазор с интенсивной продувкой между, или выносить подальше на райзере.
Дак ото ж, что не куда и некак.
Решил, что чем брать хороший райзер, проще вынести в отдельный ПК. Там еще мать заменю, и вторая P40 станет с зазором как раз.

А 4070ti у меня здоровая — три слова, и по ширине вылазит на вертикальные слоты PCIe. Даже райзер в корпус было бы неудобно втыкать.

Но все верно говоришь, да.

>>638149
Справедливости ради, я понизил 4070ti с 300 до 200 ватт и частота у меня достигает 2710 (что на 100 МГц больше турбо). Но это андервольтинг, канеш. В стоке она горячевата.
При этом, она холоднее 3090 (та 400 ватт жрет), так что в каком-то смысле 40хх энергоэффективные. =) По сравнению со старым поколением.

>>638155
У меня 4070ti брала 3000 в разгоне и выше.
Но нахрен нужен разгон за такие бабки. =)
Я вам тут не 5600 до 5600X…

>>638170
Я по Про Хайтеку делал.

За память не скажу.

>>638174
TDP — это выделяемая мощность. Но она составляет 99,(9)% (ибо КПД процессора крайне низкое) от потребляемой.
Вообще, это маркетинговая хрень.
Все верно. 65 по паспорту, 90 по факту, отличиями можно пренебречь, почти все уходит в нагрев. =)
Ну, в общем, уже несколько человек до меня пояснили, да.

>>638186
> под ллм или мелкосетки
Ну, TTS, STT на ней отлично бегают, SD терпимо, так что можно брать для многих сеток, на самом деле.
Опять же, или в трансформерах, или Жора нарожал много квантов, не только ЛЛМ.

>>638195
На куда 11.8 есть жизнь, а порою даже быстрее по перформансу (незначительно). =)
Но я бы не брал, конечно, там вообще старье же.

>>638198
Серверную за полляма? :)
Ну, шучу, но куда-то туда, да.
С другой стороны, если собирать под ллм — нах тебе сотня ссд дисков.
Пихнешь один с моделями и с софтом и забудешь.

>>638201
> что-то, кроме 2х8\1х16
Опять же, x8/x4/x4 вполне норм, а так и на x8/x2x/x1 можно посидеть, ллм размером с небоскреб ты на памяти будешь гонять вечность, перформанс будет один хуй в десятки раз больше, даже на x1.

Так что можно-можно.
Даже моя игровая за 15к в биосе обещает x8/x4/x4. Не проблема.
(минус nvme, ага)

>>638237
Не знаю. Тут речь именно про установку двух разных драйверов от NVidia. Думаю, с радеоном вообще проблем быть не должно. Ставишь разные дрова — и в путь.
Но лично я, когда ставил теслу с радеоном — дрова просто не накатывал на радеон, мне она нужна была на пару включений в биос.
Аноним 08/02/24 Чтв 19:11:26 #203 №638330 
>>638286
Вручную в коде обрежь как тебе надо перед отправкой в xtts.
файл \SillyTavern\public\scripts\extensions\tts\xtts.js
функция async generateTts(text, voiceId)
Если не умеешь в js или regexp, попроси какого-нибудь чат-бота, он напишет тебе.
Я так себе обрезал перевод от неперевода.
инференция на CPU vs GPU Аноним 08/02/24 Чтв 19:40:07 #204 №638342 
>>635452 (OP)
Согласны со следующем мнением, что даже топовые CPU в сочетании с быстрой RAM всё не сравнимы с достаточно старыми/дешёвыми GPU с точки зрения производительности?

https://www.reddit.com/r/LocalLLaMA/comments/162o3q0/comment/jxzu88p/
> Sure, you're going to get better performance with faster RAM running in more channels than slower RAM running in fewer. But even running the fastest RAM you can find in 12 channels with a badass CPU is going to be substantially slower than older, cheap GPUs. I don't think it's currently possible to beat a P40 speed-wise with any pure-CPU setup, no matter how much money you throw at it.
> I know it's not exactly cutting edge hardware, but I have a 2695v3 with 64GB DDR4 running in quad channel. I get about 0.4t/s running 70b models on pure CPU. When I instead run it on my pair of P40s, I get 5-7t/s depending on context depth.

Подкиньте свежих рейтингов GPU с соотношениями цена/производительность.
Аноним 08/02/24 Чтв 19:53:25 #205 №638349 
>>638342
>2695v3 with 64GB DDR4 running in quad channel. I get about 0.4t/s running 70b
Кек. У меня столько на кукурузене 1 поколения с 64 ГБ двухканальной DDR4-2400.
Аноним 08/02/24 Чтв 19:56:46 #206 №638350 
>>638342
р40 конечно топчик по цене на врам, производительность достаточная для рядового анона за мизерные деньги
Аноним 08/02/24 Чтв 19:58:22 #207 №638351 
>>638349
зависит от кванта
Аноним 08/02/24 Чтв 20:08:47 #208 №638358 
https://www.reddit.com/r/LocalLLaMA/comments/1alsuqp/is_mamba_capable_of_incontext_learning/
Аноним 08/02/24 Чтв 20:12:20 #209 №638360 
https://www.reddit.com/r/LocalLLaMA/comments/1aldu1l/do_you_have_prompt_guides_you_like_or_specific/
в догонку примеры интересных промптов
Аноним 08/02/24 Чтв 20:14:02 #210 №638362 
>>638349
>0.4t
Что он сделал не так?
У меня 2680v4 с 2400X4 выжимал 0.7 т/сек при q8 и 1.2 при Q4КМ.
Аноним 08/02/24 Чтв 20:14:56 #211 №638363 
>>638342
> 2695v3 with 64GB DDR4 running in quad channel. I get about 0.4t/s
Звучит как буллшит, если честно, должно быть хотя бы 0,5-0,6, а по-хорошему там перформанса на все 0,8.
Лучше бы тесты на чтение скинул.

> 12 channels with a badass CPU is going to be substantially slower than older, cheap GPUs
А какой смысл быть или не быть согласным с мнением, если есть математика и циферки?
Кажись считали же, там до 4090 недотягивает то ли вдвое, то ли впятеро.
Ну, короче, P40 он может и догонит, но не за эти деньги, сам понимаешь.
Аноним 08/02/24 Чтв 20:15:02 #212 №638364 
А Р40 база треда, трудно с этим спорить.
Аноним 08/02/24 Чтв 21:56:01 #213 №638403 
А какие есть ближайшие альтернативы P40 по цене/производительности?
Аноним 08/02/24 Чтв 22:16:24 #214 №638416 
Эх, вот бы корпусец тыщ за 10 под 6-8 p40...
Аноним 08/02/24 Чтв 22:19:26 #215 №638420 
Поясните за P40, в чём суть и почему все на неё облизываются?
Дело в количестве видеопамяти?
Можно ли поставить её в пару к 3070 или каждый раз дёргать придётся?

Что ещё по моделям, какие топовые для кумеров сейчас?
Вся так же frostwind база треда?
Аноним 08/02/24 Чтв 22:26:29 #216 №638431 
>>638420
>Поясните за P40, в чём суть и почему все на неё облизываются?
Отличное соотношение цена/производительность, много памяти.
Аноним 08/02/24 Чтв 22:37:45 #217 №638458 
>>638431
> много памяти.
и PIERDOLINGUA
Аноним 08/02/24 Чтв 22:37:54 #218 №638460 
>>638420
Да. Память гораздо быстрее оперативной, большой объем, малая цена.
Много не умеет, занимает место, требует колхозного охлада, громкая будет, но либо ты берешь 3090, либо 4090, либо пишешь письма своей вайфу.
Ну, по идее там всякие 7900XT тоже норм, но суть ты понял.

———

Потыкал тестами Ллаву-1.6 — чуда не произошло, но получше Ллаву-1/1.5, да.

Все же, тут как и с текстовыми — нужен большой датасет.
Аноним 08/02/24 Чтв 22:44:30 #219 №638469 
>>638458
Ты либо переплачиваешь деньгами, либо компенсируешь дополнительным пердолингом. Поскольку в России много нищуков, то пердолинг часто предпочтительнее.
Аноним 08/02/24 Чтв 22:46:10 #220 №638471 
.jpg
Что ещё скачать на этот мангал, чтобы ощутить, что не зря было ПОТРАЧЕНО?
Уже есть Синтия, Мику, пара микстралей.
Аноним 08/02/24 Чтв 22:49:17 #221 №638474 
>>638471
Выглядит слишком по гейски, ещё и башня на ЦП.
Аноним 08/02/24 Чтв 22:49:21 #222 №638475 
>>638471
https://dtf.ru/flood/2320332-ya-potestil-modeli-dlya-ii-rolepleya-chtoby-vam-ne-prishlos
Аноним 08/02/24 Чтв 22:51:09 #223 №638476 
>>638237
Скорее наоборот, и объединить их точно не получится. Просто поставить в одном компе и давать разные нагрузки - без проблем, только придется иметь по паре экземпляров вэнва с разными торчами и остальным под каждую видюху.
>>638287
> чем брать хороший райзер, проще вынести в отдельный ПК
Объединить не получится так. Но если в отдельном пк дополнительно появится еще одна то это уже не проблема
> для многих сеток, на самом деле
Для тех где не нужно много врам 3060@12 с рук будет быстрее, меньше кушать, без ебли в охладой.
>>638342
> 2695v3 with 64GB DDR4 running in quad channel
Медленная рам. Пусть сравнивает тогда с apple m2 max/ultra, или современной платформе интела/амд с 4-8 каналами рам.
p40 - некоторая аномалия из-за невероятно высокого (для ее архитектуры) перфоманса в ллм на жоре что в сочетании с ценой делает привлекательной, но не стоит экстраполировать это на все остальное.
> свежих рейтингов GPU с соотношениями цена/производительность
Их не то чтобы есть смысл составлять, если речь о ллм. Любая современная карточка обеспечит высокий перфоманс при запуске того, что влезет в ее врам. По объему рам интересны 3090/4090, некротеслы анломалия и потому сюда тоже отлично подходят. Если в отрыве от всего, то по прайс-перфомансу топ 3090 бу, в зависимости от цен или примерно соответствует или чуть лучше p40 по токен/рубль если брать по тестам местных анонов, или несколько проигрывает если брать невероятно высокие величины, о которых рапортуют некоторые ребята на реддите, но обойдет во всем остальном. Однако, для их пары потребуется уже бп серьезнее и с размещением гораздо сложнее.
>>638420
> Дело в количестве видеопамяти?
This + относительно высокий перфомас в llamacpp. Все, но этого достаточно.
Аноним 08/02/24 Чтв 22:51:30 #224 №638478 
>>638474
>по гейски
На загрузке только переливается, потом нормально однотонно синим светит

> башня на ЦП
Зато она не протечёт, как твоя крыша когда-нибудь

>>638475
Спасибо, читаю
Аноним 08/02/24 Чтв 22:54:17 #225 №638480 
>>638478
> протечёт
Лол. Чтоб современные водянки протекли надо бокорезами шланг перекусить. Помпы у них дохнут через пару лет, да. Но протечки - это фантастика.
Аноним 08/02/24 Чтв 22:54:18 #226 №638481 
>>638471
КАК ЖЕ ТАМ ТУГО ммм
Верхней очень жарко, пидорни 4090 вдоль задней стенки вертикально на райзере, нехрен кислород перерывать.
А что за карточка сверху? И 3090 3 8пин же были.
Аноним 08/02/24 Чтв 22:55:11 #227 №638482 
>>638476
> 3090 бу
Ебучая печ. С бу сразу лотерея, но в 99% нужен разбор и минимум замена термопасты. Если же влетаешь на прокладки, то там вообще жесть - устанешь подбирать толщину и чтобы было хотя бы не хуже, как было. И это если ещё нет проблем с гддр6х
Аноним 08/02/24 Чтв 22:59:07 #228 №638485 
>>638330
О, благодарю
Аноним 08/02/24 Чтв 23:00:55 #229 №638489 
>>638481
> КАК ЖЕ ТАМ ТУГО ммм
Дааа, очень узкая щёлочка там осталсь.

> Верхней очень жарко, пидорни 4090 вдоль задней стенки вертикально на райзере, нехрен кислород перерывать.
В этом корпусе нет такой опции, увы, там просто сетка на месте, где в других вертикальные слоты. Он ценен 8 горизонтальными слотами вместо 7 и продуваемостью.
Очень жарко, но терпимо - гпу75, хот90, мем85 под Автоматиком бесконечным. Но так она только в ЛЛМ врубается же + ПЛ ей 70 сразу вставил.

> А что за карточка сверху?
> 3090 3 8пин же были.
Она самая >>638482
> Ебучая печ
От палита. 330Вт может съесть и с 2 хвостов + слот.
Аноним 08/02/24 Чтв 23:11:50 #230 №638501 
>>638482
> Ебучая печ.
Ну а ты чего хотел за такие деньги? Алсо сильно утрируешь с прокладками и прочим, эти карточки не настолько старые преимущественно. Не хуже ржавой бабушки-теслы
>>638489
> гпу75, хот90, мем85 под Автоматиком бесконечным
Хм, даже слишком холодно для такого расклада.
Забавно что только с 3 слотами видел, а тут вон как, но даже в плюс.

Сколько вы бывшей выдает? Как тебе русская речь мику?
AH AH FASTER HARDER @ THANK YOU, I'VE NEVER EXPERIENCED ANYTHING LIKE THIS BEFORE
Аноним 08/02/24 Чтв 23:19:24 #231 №638505 
>>638501
> эти карточки не настолько старые преимущественно
Вышли 3 года назад, застали самый бум майнинга, где их насиловали без смазки годами в очень термо-нагруженном режиме. Я видел 2шт с рук. И в 50% лол там всё было плохо.

>слишком холодно для такого расклада
Там 6х140, не забывай, ещё.

> 3 хвоста
Да, ни 4090 не надо 600Вт, ни 3090 400Вт ни в Автоматике, ни в ЛЛМ. Это уже для игромеров. С ПЛ 70-80 они теряют копейки в скорости, но работают гораздо холоднее.

>Сколько вы бывшей выдает? Как тебе русская речь мику?
Да я только в Кобольде пробовал, там около 13 т/с всего. Но явно быстрее, чем раньше. Генерит быстрее, чем читаешь + в мониторинге видна постоянная загрузка, а не рывками как раньше, когда 70б половину в 1 карту грузишь.

Речь у Мику хорошая. + понимание русского тоже норм: я ее не прошу на русском отвечать, но формулирую сам чаще всего на русском.
Аноним 08/02/24 Чтв 23:36:34 #232 №638515 
>>638505
> 50% лол
Содомит. Но вообще отдавая 50-60-..к можно найти еще пару-тройку и время дойти до мастерской и сделать там обслуживание, если сам хлебушек.
> С ПЛ 70-80 они теряют копейки в скорости
В зависимости от стратегии применения пл в ллм могут и не просесть. Алсо +1200+1500 по памяти ползунком афтербернера, несколько бустит скорость в ллм и не только без сильного роста температур.
Накати бывшую если есть место на диске, забудешь что такое ожидание контекста на больших и скорости бустанутся.
Аноним 08/02/24 Чтв 23:39:53 #233 №638518 
>>638515
> до мастерской
Я прямо представляю какие там васяны из ремонтов телефонов и ноутбучных сервисов, которые впаривают несуществующие ремонты и подменяют детали. Лучше уж самому.

>Алсо +1200+1500 по памяти ползунком афтербернера, несколько бустит скорость в ллм и не только без сильного роста температур.
Накати бывшую если есть место на диске, забудешь что такое ожидание контекста на больших и скорости бустанутся.

Пока первый день, проверю, что всё стабильно и попробую. Модели вот только в основном все в ггуфе. Вы их сами конвертируете чтоли?
Аноним 08/02/24 Чтв 23:47:29 #234 №638521 
>>638518
> Вы их сами конвертируете чтоли?
Можно сразу качать gptq, можно качать оригинальные веса а потом квантовать самостоятельно в желаемую битность exl2. Просто в гуфе надобности нет и на диске осталась буквально одна для тестов, теперь вот еще мику есть.
Сконвертить без потерь качества особо не выйдет на данный момент, хотя в теории это должно быть возможно.
Аноним 09/02/24 Птн 00:22:51 #235 №638540 
screenshot2024.02.0900.17.10001.png
screenshot2024.02.0900.22.25001.png
Как этот кобольд правильно настраивать то?
Почему он мне только какую-то ересь одну пишет?
Аноним 09/02/24 Птн 00:30:28 #236 №638543 
>>638478
У меня в стоке бирюза, в нагрузке фиолетовый, и при 65° по процу — красный.

Воздушное лучше водяного, если его хватает, факт.

>>638489
Ну, продуваемость у него дефолтная. Три впереди, два снизу, три сверху, один сзади.
Дуофейс про такой же, каг бе.
Да и аквариумы — только по два «спереди» и сверху, да и вся разница.

А 8 слотов… Мэй би.

Но по картам поздравляшки, канеш. =)
Аноним 09/02/24 Птн 00:40:38 #237 №638552 
Такой вопрос, что важнее в нейронках "ширина" или "глубина"? Планирую взять своего файнтюненого идиота, докинуть ему слоёв, но при этом ни количество входных, ни выходных нейронов не изменится. Как и количество нейронов на слой. Это имеет смысл или всё равно хуйня будет?
Аноним 09/02/24 Птн 01:52:02 #238 №638580 
>>638069
Давно не новость.
Кто любознательный, держите ещё промптов вагон:
https://github.com/LouisShark/chatgpt_system_prompt/
Аноним 09/02/24 Птн 01:52:48 #239 №638581 
>>638540
не парься, просто включи mirostat
Аноним 09/02/24 Птн 06:21:15 #240 №638633 
Кобольд поддерживает новые квантования iq2 xxs ?
Аноним 09/02/24 Птн 06:57:04 #241 №638647 
Почему некоторые модели выдают спецсимволы типа <0x0A> в тексте? Криво обучены? В настройках Кобольда стоит EOS Token Ban = auto.
Аноним 09/02/24 Птн 08:52:31 #242 №638661 
ух ебать, мультимодалка за рулем робота
https://www.reddit.com/r/singularity/comments/1am1fiu/100_end_to_end_ai_in_real_time/
ват а тайм то би лив
Аноним 09/02/24 Птн 09:39:17 #243 №638676 
>>638661
Ощущаю зловещую долину. А это значит, что получается у них хорошо.
Аноним 09/02/24 Птн 10:54:31 #244 №638713 
>>638661
иниересно какое там железо и размер сетки, для 10 герц чтения видео и между этим печатанья команд
Аноним 09/02/24 Птн 12:34:19 #245 №638746 
>>638633
новый кобольд вышел, проверь
Аноним 09/02/24 Птн 12:50:53 #246 №638756 
Yi-VL чекал кто?
Аноним 09/02/24 Птн 13:13:15 #247 №638763 
Я не понял, мы идем в сторону детройта, киберпанка или терминатора?

>>638661
https://www.1x.tech/discover/all-neural-networks-all-autonomous-all-1x-speed
Аноним 09/02/24 Птн 13:58:14 #248 №638794 
>>638661
Мэх, маловероятно что там есть мультимодалки, ллм и что-то подобное, просто более мелкие сетки для компьютерного зрения. Неким достижением будет если сетка используется в контроле их движений.
А так - ерунда большей частью, гляньте что делают активная безопасность и автопилоты в современных авто, самые приличные, кстати, на хуанге посмотрены.
>>638756
Мельком, тебе для чего?
Аноним 09/02/24 Птн 14:00:42 #249 №638799 
>>638794
Да просто чего-то на обниморде заметил, а тут когда мультимодалки обсуждают её даже и не упоминали вроде. Может хидденгем.
Аноним 09/02/24 Птн 14:01:45 #250 №638801 
>>638799
Ну 34б там умная, можно сложные задачи ставить. Может и хайденгем, просто в интересующих задачах не показала себя круто. Предлагай как затестить.
Аноним 09/02/24 Птн 16:20:06 #251 №638903 
изображение.png
>>638192
>+150 ватт к жору
>5%
Вся суть разгона в 2023.
>>638363
>Кажись считали же, там до 4090 недотягивает то ли вдвое, то ли впятеро.
По цене небось ещё и опережает, лол.
Теоретически 12 каналов DDR5 могли бы выжать 500+ ГБ/с на чтение, на практике я уверен в прососе.
>>638505
>Там 6х140, не забывай, ещё.
Которые работают сами на себя, ага. Направление воздушных потоков если что будет примерно такое.
>>638552
Все франкенштейны только так и делаются. В в ширину ты никак без переобучения не увеличишь.
>>638763
>детройта
Если ты про игру, то там говно вместо всего.
Аноним 09/02/24 Птн 16:37:50 #252 №638920 
>>638756
Хуита, та ж самая Ллава 1.5 или типа того.

>>638903
> По цене небось ещё и опережает, лол.
Я даже считать не хочу, если честно.
Идея провальная на старте, как по мне. =)
Вот через 10 лет, когда на алике… =D

> Если ты про игру, то там говно вместо всего.
Графончик ниче так.
Аноним 09/02/24 Птн 16:41:53 #253 №638922 
>>638903
>Если ты про игру, то там говно вместо всего
Пиздострадания роботов выглядят нелогично, согласен
С другой стороны нейросетки обученные на человеческих ражговорах на удивление человечны, тоесть имеют впитавшиеся с датасетом эмоции, характер и отношениия к чему то
Детройт как пример будущего без развитой аугментики и без явного апокалипсиса, просто высокие технологии, ии и андройды с безработицей
Аноним 09/02/24 Птн 16:42:18 #254 №638923 
>>638920
>Графончик ниче так.
Ну разве что. Но вот ИИ показан тупо абсолютно как люди, вообще ни единой роботской черты. Тьфу, УГ.
Аноним 09/02/24 Птн 16:44:28 #255 №638924 
>>638922
>Пиздострадания роботов выглядят нелогично, согласен
Ага. Особенно тех, кого призывают прямо из магазина. Настрадались блядь при перевозке с завода до витрины, ну всё, надо громить человеков.
>С другой стороны нейросетки обученные на человеческих ражговорах на удивление человечны
Только когда их просят. Если попросить быть пылесосом, то даже самая умная нейросет очка будет гудеть и двигать щётками вместо рассказов про тяжёлую жизнь.
Аноним 09/02/24 Птн 16:46:50 #256 №638928 
>>638924
>Только когда их просят.
Потому что делают сейчас упор на выполнение инструкций и максимальную безликость, клепая буквально чат ботов
Аноним 09/02/24 Птн 16:49:27 #257 №638931 
1605658420937.png
>>638903
Аноним 09/02/24 Птн 16:49:55 #258 №638932 
>>638903
> Теоретически 12 каналов DDR5 могли бы выжать 500+ ГБ/с на чтение, на практике я уверен в прососе
Если совладать с нумой то норм будет, она подгаживает.

С пика орнул. Верхний правый действительно выкинуть, если синхронизировать расходы, чуть занизив у верхних относительно боковых - будет норм.
>>638924
> Если попросить быть пылесосом, то даже самая умная нейросет очка будет гудеть и двигать щётками
Новая идея для бота?
>>638928
> Потому что делают сейчас упор на выполнение инструкций и максимальную безликость
Не безликость а универсальность.
> клепая буквально чат ботов
> большая текстовая модель
Хмммм
Аноним 09/02/24 Птн 16:50:51 #259 №638933 
>>638903
> Направление воздушных потоков если что будет примерно такое.
И не поспоришь. Щито поделать. Пока меньше 100 градусов норм. Верхняя только под ллм, переживёт как-нибудь.

>>638543
> поздравляшки
Спосеба.
Аноним 09/02/24 Птн 16:53:48 #260 №638934 
>>638931
Ещё стоит добавить, что в нормальном состоянии он закрыт стеклом сбоку, добавляя внутрянке веселья. 1.2КВт обогреватель
Аноним 09/02/24 Птн 16:54:52 #261 №638935 
>>638330
Антош, закинь если не сложно свой xtts файл.
Мне ГПТ выдал
processText(text) {
// Replace fancy ellipsis with "..."
text = text.replace(/…/g, '...');
// Replace "..." with "«...»"
text = text.replace(/\.\.\./g, '«...»');
// Replace "..." with "—...—"
text = text.replace(/\.\.\./g, '—...—');
// Remove quotes
text = text.replace(/["“”‘’]/g, '');
// Replace multiple "." with single "."
text = text.replace(/\.+/g, '.');
// Replace "..." with «...»
text = text.replace(/\.\.\./g, '«...»');
return text;

А вот с async generateTts(text, voiceId) чет не оч.
Озвучка так и не поменялась. Перечитывает весь текст, вместо того что бы озвучивать переведеный текст в «...» или —...—
Аноним 09/02/24 Птн 16:56:19 #262 №638936 
>>638931
Да, точно, проц ещё сверху набрасывает.
>>638932
>Если совладать с нумой
А никак с ней не совладать.
>>638932
>Верхний правый действительно выкинуть,
Два выкинуть переставить вниз, один на раковую хуйню, которая прикрывает БП (в идеале её вообще снять, но скорее всего новомодный корпус не позволит), второй в сам низ корпуса, чтобы накидывал воздуха на первый. Толку будет в 50 раз больше.
>>638933
>Щито поделать.
Рецепт исправления выше.
Аноним 09/02/24 Птн 17:01:14 #263 №638937 
>>638458
Какой вообще пердолинг, ты о чем?
Воткнул, поставил дрова и оно работает.
Аноним 09/02/24 Птн 17:03:44 #264 №638939 
>>638936
> проц ещё сверху набрасывает
Это в плюс, обдув бэкплейта на который идет жар с задних чипов памяти.
> А никак с ней не совладать.
Это нужно шарить, в обусждениях на жору даже распараллеливание на ядра/узлы с сильно неравномерной мощностью предлагали с примерами реализации, так что скорее всего пути есть. Интел тоже показывали шуструю работу ллм на своих серверных профессорах - онли, что там с бэке было хз.
> переставить вниз, один на раковую хуйню, которая прикрывает БП
Полезет лишняя интерференция с крутиляторами видюхи, может повысить шум а эффективность даже снизится. Вот в самый низ корпуса на подсос из под днища и прогон вверх - правильная тема.
Аноним 09/02/24 Птн 17:03:52 #265 №638940 
К слову о пердолинге, я тут подумал, я же могу, теоретически, через CLBlast заюзать P40 и RX 6800 одновременно?
Понятно, что скорость будет ниже, зато 40 гектар видеопамяти.
Аноним 09/02/24 Птн 17:04:49 #266 №638941 
>>638937
> Воткнул, поставил дрова и оно работает.
30 секунд пока не перегреется
>>638940
> я же могу, теоретически, через CLBlast заюзать P40 и RX 6800 одновременно?
Да. Правда хз как там настраивается сплит между ними.
Аноним 09/02/24 Птн 17:10:39 #267 №638942 
>>638937
>поставил дрова
Уже ебля, если в системе есть другая видеокарта (нвидия само собой).
>>638939
>Это в плюс, обдув бэкплейта на который идет жар с задних чипов памяти.
Так воздух с проца уже тёплый. Хотя да, наверняка прохладнее памяти.
>так что скорее всего пути есть
Есть конечно же, но NUMA систем унизительно мало, так что 99,(9)% софта под винду для него не оптимизировано.
>а эффективность даже снизится
Ну ХЗ, маловероятно.
Аноним 09/02/24 Птн 17:12:50 #268 №638943 
>>638941
>30 секунд пока не перегреется
А, ты про охлад. Я-то думал ты про софтовую часть.
Я в конце концов таки поставил водянку на нее, теперь температур выше 65 градусов по хотспоту не видел.
Аноним 09/02/24 Птн 17:16:59 #269 №638947 
>>638942
> Так воздух с проца уже тёплый
Это, конечно, не
> кулер холодит потому у меня температура процессора ниже комнатной а не припезднутые датчики
но ушло недалеко. Температура воздуха там даже под нагрузкой едва 45-50 градусов достигнет, температура чипов там 80-90+, обдув воздухом чуть теплее лучше чем нихуя.
> NUMA
> под винду
Не пугай так!
> Ну ХЗ, маловероятно.
Процентов 30, а если выйдет что там места мало то все 80.
>>638943
Я мимокрок, но действительно про охлад, ставить водянку это тоже пердолинг знатный.
Алсо врм покрывает или как его охлаждение организовано?
Аноним 09/02/24 Птн 17:29:38 #270 №638955 
>>638947
>ставить водянку это тоже пердолинг знатный
Никакого пердолинга, снимаешь обычный охлад, на четыре болта ставишь водянку, всё.
Водянка организована она так, что обдувает врмки и видеопамять. В комплекте есть радиаторы на видеопамять, но они нахуй не нужны, просто обычного обдува хватает.
Аноним 09/02/24 Птн 17:36:26 #271 №638959 
>>638940
Видел такое, уже якобы должно работать https://github.com/ggerganov/llama.cpp/pull/5321 с вулканом
Аноним 09/02/24 Птн 17:41:29 #272 №638960 
>>638931
>1605658420937.png
КАКОЙ НАХУЙ ВЫДУВ НАРУЖУ?
Так умеют только p40 и амдшные турбины (центробежные вентеляторы) с продольными рёбрами радиатора.
А у тебя радики поперечные. Как они будут выдувать наружу?
Эта шняга будет циркулировать воздух по всему корпусу и всё.
Аноним 09/02/24 Птн 19:02:32 #273 №638996 
>>638960
Не из видях, а через слоты рядом (которые иногда делают вертикальными PCIe).
А толкает оттуда наддув спереди.

Правда, с тремя сверху, наддув спереди ничего особо не толкает…
И вообще, верхний передний кулер по сути своей воздух сразу высасывает, поэтому толку от него немного, канеш…
Аноним 09/02/24 Птн 19:04:04 #274 №638999 
>>638955
> Никакого пердолинга
> снимаешь обычный охлад
Ну ты понял. Вообще когда охлада ставится на не крышку а на кристалл - уже требования к скиллу редко повышаются.
> что обдувает врмки
На них типа штатные радиаторы остались? Водоблок совмещен с крутиллятором получается, не целиком пластина на всю?
>>638960
> А у тебя радики поперечные. Как они будут выдувать наружу?
Весь пик про это а красная стрелочка - тот нищий поток воздуха вдоль стенки что унесет жар. Наверно.
Аноним 09/02/24 Птн 19:08:11 #275 №639001 
Ваще, в плане охлада, меня дико дрочат долбоебы, которые в аквариуме ставят кулеры, которые в передней части компа на выдув.
Это пиздец, у тебя воздух идет снизу (не всегда через кулеры), выходит вперед, вверх и назад. 1 точка нагнетания, 3 точки выгнетания, блядь. Арифметику такие горе-сборщики не учили в школе, выпустились из детского сада.
Вот картинка в треде — отличный пример, как надо строить охлад. Рисуешь стрелочку и думаешь «а нахуя мне верхние передние кулеры, которые вообще не участвуют в вентиляции, перекидывая друг другу наружний воздух?»

Все это надо тестить.
Но я бы либо на верх вообще кулеры не ставил, а заклеял к хуям, чтобы воздух был проточным по горизонтали.
Либо же прихуярил кучу кулеров на днище, чтобы поток был диагональным —снизу спереди вверх назад.
А сейчас получается, что весь воздух спереди уходит вверх, а видяхи вполне могут просто запекаться в собственном воздухе, который никуда вообще не выходит.

Я не спец, канеш, но знания физики > ютуб-блогеров и горе-сборщиков.
Аноним 09/02/24 Птн 19:09:46 #276 №639002 
Image2.png
>>638935
Скорее всего, гпт тебе кавычки не те нарисовал. Вот держи для елочек. Прикрепляю скрин, потому что вакаба может автоматом тоже заменить елочки на что-то другое:

// "Мику вошла в комнату и сказала: «Привет, меня зовут Мику». А затем добила «Пока!»"
getQuotedText(str) {
const matches = str.match(/«.+?»/g);
let result = '';

if (!matches || !Array.isArray(matches)) return null;

for (let m of matches) {
result += `${m}. `;
}
if (result) result = result.replaceAll("«", "").replaceAll("»", "");
return result ? result : null;
}

async generateTts(text, voiceId) {
text = this.getQuotedText(text)
console.log("in xtts generateTts(): "+text)
const response = await this.fetchTtsGeneration(text, voiceId);
return response;
}
Аноним 09/02/24 Птн 19:14:07 #277 №639004 
>>639002
Спасиб.
Мне вроде на гитхабе в ветке помощи сказали сделать

if (extension_settings.tts.narrate_quoted_only) {
const special_quotes = /[«» "]/g; // Extend this regex to include

в индекс ттс файле. И это заработало.
Аноним 09/02/24 Птн 19:14:55 #278 №639005 
15825121333330.png
>>639001
Рисовать потоки воздуха стрелочками точно можно только если они ламинарные, здесь 100% видеокарты будут создавать вихривые течения по всему корпусу.
Поэтому просто забей и ставь больше вентиляторов на вдув и на выдув. Лол.
Аноним 09/02/24 Птн 19:20:14 #279 №639011 
>>638999
>когда охлада ставится на не крышку а на кристалл - уже требования к скиллу редко повышают
Вообще нет, у водянки крепление такое, что сколоть кристалл можно будет только если ты постараешься это сделать.

>>638999
>На них типа штатные радиаторы остались? Водоблок совмещен с крутиллятором
Нет, просто обдуваются штатным вентилем водянки.

>>638999
>Водоблок совмещен с крутиллятором получается, не целиком пластина на всю
Да, у водоблока есть пластина, на котором установлен вентиль, который обдувает зону арм и видеопамять. Но само собой видеопамять с обратной стороны остаётся без обдува, по этому я оставил штатный бэкплейт. хотя это чисто ради моей паранойи, мне кажется обычного потока воздуха в корпусе хватит для обдува.
Аноним 09/02/24 Птн 19:25:12 #280 №639013 
>>639001
95.25%, хули
>>639005
Содомит
>>639011
> видеопамять с обратной стороны остаётся без обдува
Для гддр5 в целом похуй
Аноним 09/02/24 Птн 20:22:11 #281 №639033 
>>639005
Я понимаю, что в идеале надо как Этот Компьютер делать симуляцию. Но даже со стрелочками лучше, чем хуярить «красиво» и наобум.

Я не поленился и в аквариум купил реверсивные вентили. И красиво — и работать будет нормально (когда доберусь зачем-то собрать себе очередной комп).
Аноним 09/02/24 Птн 20:33:52 #282 №639037 
>>639005
>ставь больше вентиляторов на вдув
А корпус не лопнет?
Аноним 09/02/24 Птн 20:34:28 #283 №639038 
>>639037
А ты включи и отойди
Аноним 09/02/24 Птн 21:34:32 #284 №639086 
>>639033
> реверсивные вентили
Что?
>>639037
Можно перекрыть все отверстия дополнительно и поставить кулеры помощнее, тогда для теслы не потребуется доп вентилятор.
Аноним 09/02/24 Птн 22:46:20 #285 №639140 
>>638903
>12 каналов DDR5 могли бы выжать 500+ ГБ/с на чтение
На хабре чел читал под терабайт на процессоре. Если не ошибаюсь, года четыре назад. Но есть нюансы.

>франкенштейны только так и делаются
Это понятно, не понятен практический смысл. В принципе, есть способ десериализовать чекпоинт, нужно заняться и посмотреть, сколько чего в популярных сетках.
Аноним 09/02/24 Птн 22:52:15 #286 №639143 
image.png
>>639086
У вентилятора есть лицевая сторона и задняя (с 4 планками, на которых крепится мотор). Обычный вентилятор всасывает в лицевую часть, выбрасывает из задней.
Реверсивный имеет обратные лопасти, всасывает в заднюю, выбрасывает из лицевой.

Чекни пикчу, крутится против часовой.
Надеюсь, ясно объяснил.
Аноним 09/02/24 Птн 23:00:44 #287 №639153 
>>639143
А что тебе мешает, ну не знаю, поставить вентилятор задом наперёд? Вообще, обдув работает намного лучше, чем выдув.
Аноним 09/02/24 Птн 23:04:06 #288 №639156 
>>637958
А через день пришли китайцы и победили самореза своей техникой однобитного квантования, позволяющей (как они утверждают в своей работе) запихнуть 70B модель в 12 GB VRAM.
Код уже на гитхабе.

https://reddit.com/r/LocalLLaMA/comments/1am9v02/billm_achieving_for_the_first_time_highaccuracy/
Аноним 09/02/24 Птн 23:05:40 #289 №639157 
Как хорошо, что я взял 4070ти для сд и не стал апать ценник х2.5 ради ллмов, вот щас был бы баребух с копингом
Аноним 09/02/24 Птн 23:19:00 #290 №639169 
>>639140
>десериализовать чекпоинт
Эм, чего?
>>639153
>поставить вентилятор задом наперёд
НИКРАСИВА!!!!1111
>>639156
>позволяющей (как они утверждают
Так нет сомнений, что запихнуть можно. Вопрос в качестве.
Аноним 09/02/24 Птн 23:24:31 #291 №639176 
>>639169
>Эм, чего?
Чекпоинт это просто веса для нейронов и некоторые метаданные. Есть инструменты, которые позволяют это всё вывалить в виде огромного json файла и ебать, как твоей душе угодно. Только смысла это не имеет особого.

>>639140
>Это понятно, не понятен практический смысл.
Cравнил Yi 34b с мистралем 7b, по всем параметрам, в целом, на 40% больше всего. Слой токенов у Yi абсолютно жирный, почти 458m параметров. Архитектурно мистраль 0.1 от 0.2 отличается ничем, только тренировкой. Кодеры 1b имеют намного меньше параметров на слой, а вот по количеству слоёв вполне себе обычные модели. Как я понимаю, глубина модели влияет на понимание абстрактных концепций, а ширина на охватывание большего количества данных из меньшего количества данных. То есть стилистика, грамматика, построение предложений - это всё о ширине нейронки.
Аноним 09/02/24 Птн 23:25:25 #292 №639179 DELETED
0.o
Аноним 09/02/24 Птн 23:29:30 #293 №639183 
>>639176
>огромного json файла
Чёт даже не знаю, какую пользу из этого можно извлечь. Я вардампил в пайтоне пару слоёв нейросеток, но там были учебные модели на 1488 параметров.
Аноним 09/02/24 Птн 23:43:49 #294 №639200 
>>639183
Чисто исследовательские цели, лол. У меня сейчас есть бот, который выдаёт 25-50 слов в секунду на русском, в зависимости от обстоятельств. Но он довольно упрощённый, вот и думаю, каким образом нарастить мозговую массу. Там, где у 34b модели 146m параметров, у меня всего 58m. Появилась идея сделать вместо франкенштейна кастрата, то есть количество параметров от 34b, но количество слоёв втрое меньше. По сумме будет в районе 7b, но позволит потом наращивать в глубину. Изначально "узкие" сетки делать "глубокими", судя по всему, не особо перспективно.
Аноним 09/02/24 Птн 23:53:51 #295 №639209 
>>639143
Сразу возникает вопрос как у >>639153 может быть полезно для васянов, собирающих пародию на лгбт новогоднюю елку вместо пекарни.
>>639176
> Есть инструменты, которые позволяют это всё вывалить в виде огромного json файла и ебать, как твоей душе угодно.
Зачем? Сами веса ни разу не шифрованы, бери, загружай и как хочешь обращайся к ним, меняй и т.д.
>>639200
> Чисто исследовательские цели, лол.
Что исследовать? Какие слои меняются при таком-то обучении? Это и без дичи с жсонами сделать можно. А по модификации хоть прямо сейчас бери и складывай - комбинируй как хочешь, уточнив конфиг. Получится только полная херь, если потом не проводить переобучение.
> Появилась идея сделать вместо франкенштейна кастрата, то есть количество параметров от 34b, но количество слоёв втрое меньше.
Ампутировать центральные слои у модели побольше? Оно даже может как-то работать, просто станет хуже. Если тренд такой же как и с франкенштейнами, то обрезок 34б до 20 будет хуже чем многоножка из 13 в тех же 20, но ты попробуй.
Аноним 10/02/24 Суб 00:16:41 #296 №639220 
>>639176
>Есть инструменты
Там это просто текстом в заголовке файла модели лежит, нахрен тебе инструменты. Это инфа от процесса тренинга, чтобы не проебалося чо как делали. Сами веса идут дальше в двоичном виде и вывалить их можно только в 100500гб json-а, но зачем, они и так как бы вот они.
Аноним 10/02/24 Суб 00:26:10 #297 №639226 
>>639209
>Ампутировать центральные слои у модели побольше? Оно даже может как-то работать, просто станет хуже
Насколько я понимаю нейронки, это как из ноги вырезать колено и ожидать, что она как-то сама будет работать, но хуже. Каждый нейрон в слое соединен весом к каждому нейрону в следующем (игнорируем прунинг). Вырезав слой, как их соединить-то теперь? Они же не живые, сами не срастаются.
Аноним 10/02/24 Суб 00:30:31 #298 №639229 
>>639209
> Сами веса ни разу не шифрованы
Да они, как оказалось, нахуй не нужны, можно метаданные читать.
>Какие слои меняются при таком-то обучении?
Нет, меня интересовало, сколько нейронов на слой и слоёв в модели в целом.
>Оно даже может как-то работать, просто станет хуже
Работать-то оно будет гарантированно, но потребует обучение слоёв после обрезки.
>обрезок 34б до 20 будет хуже чем многоножка из 13 в тех же 20
В смысле, франкенштейн из 7b до 20b работает лучше, чем изначальный дизайн в 20b? Вообще не выглядит правдоподобно. Пробовать затратно на самом деле, потому у меня и появились мысли о чём-то, что потом можно раздуть, не потратив полжизни на переобучение.
>>639220
>Это инфа от процесса тренинга, чтобы не проебалося чо как делали
И, наверное, для загрузки модели при инференсе требуется. Но я уже посмотрел, да, сами веса не нужны.
Аноним 10/02/24 Суб 00:33:28 #299 №639230 
>>639226
Франкенштейны показывают, что порой достаточно лёгкого файнтюна для приведения модели в чувство.
>>639229
>В смысле, франкенштейн из 7b до 20b работает лучше, чем изначальный дизайн в 20b?
Там изначально другие цифры были если что.
Аноним 10/02/24 Суб 00:50:52 #300 №639242 
>>639230
>Там изначально другие цифры были если что.
Ну 13b нарастили до 20b, суть меняется, но не значительно. Здесь либо 20b изначально всратая, либо это должно вытягивать франкенштейна на один уровень с 20b, но не выше. Как вариант, у 20b широкие слои и она может во множество стилей и языков, но глубина недостаточная, так что она не понимает сложных концепций. Всё это, как водится, гадание на кофейной гуще.
Взял рандомную 13b, Llama-2-13B-chat и сравнил с llava-v1.6-vicuna-13b. Абсолютно разные. У лламы полторы тысячи слоёв, у ллавы 750. У 34b Yi, напомню, 543 слоя. То есть, по моей теории, ллама должна быть более косноязычная, но умная, а ллава тупая, но красиво стелет. Кто гонял обе, отзовитесь, лол, чё там на практике. Мне обниморда 30мб/c отдаёт, заебусь качать всё.
Аноним 10/02/24 Суб 01:07:24 #301 №639244 
>>639226
> это как из ноги вырезать колено и ожидать, что она как-то сама будет работать, но хуже
Нет, если резать где-то в глубине, или наоборот настакивать больше то оно работает. Какие-то из видов червей-пидоров же могут выживать.
> Вырезав слой, как их соединить-то теперь?
Активации с одного слоя передаешь на другой, все. Размер не отличается.
>>639229
> Да они, как оказалось, нахуй не нужны, можно метаданные читать.
Что?
> но потребует обучение слоёв после обрезки
Будет работать и без обучения. Другое дело насколько дообучение сможет улучшить результат, вот это тема интересная, да.
> франкенштейн из 7b до 20b
Таких нет. Есть из 7 в 11, есть из 13 в 20. Последние работают крайне хорошо, и могут в некоторых задачах обоссать 34б. Офк это из-за особенностей 34 которые у нас есть, но 20 действительно пишет более складно чем 13б. Лучше ли она 20б другой компоновки с более широкими слоями в меньшем количестве - хз.
Даже статья была с некоторыми исследованиями почему оно работает и насколько эффективно можно взять кусок ллм на трансформерсе из середины и подсадить его к другому.
> Пробовать затратно на самом деле
Вон васяны лепят этих франкенштейнов на вполне себе десктомно железе, где затратно? Офк речь не про дообучение.
Аноним 10/02/24 Суб 01:10:33 #302 №639245 
1634253890896.jpg
>>639242
> Как вариант, у 20b широкие слои и она может во множество стилей и языков
> У лламы полторы тысячи слоёв, у ллавы 750. У 34b Yi, напомню, 543 слоя
> То есть, по моей теории, ллама должна быть более косноязычная, но умная, а ллава тупая, но красиво стелет
Пикрел.

> Кто гонял обе, отзовитесь, лол, чё там на практике
Ллава - ллама в которую подсадили проектор активаций, коим управляет визуальный трансформер. И очень тупая, как раз как всратая древняя викунья, даже чуть хуже.
Аноним 10/02/24 Суб 01:51:10 #303 №639257 
000.png
>>639244
>Что?
Что? С трансформерами вообще всё заебись работает, молодца, хорошо сделали. Тензоры это N-мерные матрицы, их размерность тоже может быть интересна, но не так уж и важна в данном случае.
>Будет работать и без обучения.
Бля, ну надо пробовать, но мне кажется, что на выходе будет каша.
>Таких нет.
Не проблема сделать, лол.
>Офк это из-за особенностей 34 которые у нас есть
То есть получается, что ширина 34b избыточна. Ну или косяки с обучением.
>где затратно?
Я всё-таки уверен, что дообучение потребуется, потому учитываю и его.
>>639245
>Пикрел
Ты либо аргументируй, либо я по умолчанию буду считать, что ты нихуя не понял и даже не пытался.
>Ллава - ллама в которую подсадили проектор активаций
Не сходится по тем моделям, что я глянул.
Аноним 10/02/24 Суб 01:59:15 #304 №639259 
>>639257
> С трансформерами вообще всё заебись работает
Это и так понятно, вопрос для чего изначально нужно было перегонять веса в жсон и в чем именно такая ценность метадаты.
> Не проблема сделать, лол.
Очевидно что если бы это работало то они уже бы заполоняли обниморду.
> То есть получается, что ширина 34b избыточна
Потенциальная яма, епта, с ширина 70б оптимальна, ага. Речь не об этом.
> Ты либо аргументируй
Что тут аргументировать если структура моделей уже известна и ее можно посмотреть, а ты в выделенном отборный треш, уровня "по проводам бежит не электричество а магия, а ваши процессоры работают на воде".
> Не сходится по тем моделям, что я глянул.
Хер пойми что ты там глядел и как интерпретировал.

Забей, меньше знаешь - крепче спишь и можно жить в удивительном мире.
Аноним 10/02/24 Суб 02:25:11 #305 №639273 
>>639153
Мне — ничего. =) Просто я предпочитаю делать и красиво, и функционально.
А вот горе-сборщики и ютуберы делают ТОЛЬКО красиво, и ставят вентиляторы задом наперед. Зато сэкономили косарь (на нагрев компонентов).
Пнятненько?

>>639157
Ну вот будет хайаккураси, тада будем радоваться. А пока это ссылка на реддит, где пиздят в каждом втором посте.

>>639209
Я ваще хз, причем тут лгбт, если речь про направление потока воздуха.
Проблема, что из-за лгбт и желания сэкономить — потоки хуярят ужасно, вот и все. Дебилы, сэр.

———

Про слои жутко интересно и нихуя непонятно, но Ллава — это буквально Ллама по словам разрабов.
Короче, странно звучит чел, соглашусь, но влазить в спор не буду.
Аноним 10/02/24 Суб 02:41:57 #306 №639275 
>>639259
>в чем именно такая ценность метадаты.
В том, что не нужно всю модель загружать, чтобы узнать количество слоёв и тензоров в каждом. Как бы быстрее.
>Речь не об этом.
Если франкенштейны 20b из 13b лучше изначальных 20b, то речь как раз о глубине и ширине изначальных моделей. Ну и обучение, куда без него, хотя я всё ещё считаю, что после любых манипуляций со слоями обучение необходимо.
Опять же, как показывает практика, судить по ширине и глубине по количеству параметров - гиблое дело. Они разные.
>"по проводам бежит не электричество а магия, а ваши процессоры работают на воде".
Так ты читай, что я пишу, а не слушай голоса в голове. Не исключено, что их как-то обрезали, но я стараюсь смотреть не квантованные модели. Потому конкретные названия моделей и писал, что в другой всё может и будет отличаться.

>Очевидно что если бы это работало то они уже бы заполоняли обниморду.
Ради интереса пробежался по 20b на обниморде и ебать же они разные. Норомейда 20b 70m параметров на слой, слои внимания 26m. Скачал другую рандомную модель, внимание уже 37m и сама архитектура внутри кардинально отличается. Олсо для трансформаторных форматов можно смотреть параметры прямо на обниморде, стрелочка вверх около Tensor type, но для gptq, awq это всё по очевидным причинам не имеет смысла.
Посмотрел ещё микстраль, в целом, ожидаемая хрень, но выглядит интересно. Если разорвать связи между экспертами, это будет неплохо раскидываться на несколько карточек.
Аноним 10/02/24 Суб 05:08:07 #307 №639286 
>>639273
> Я ваще хз, причем тут лгбт, если речь про направление потока воздуха.
У большинства крутиляторов уши на две стороны, поворачиваешь нужной и ставишь в любом направлении. Обратные просто более эстетичны если их рассматривать со стороны направления потока.
> что из-за лгбт и желания сэкономить
Ага, увы.
> Про слои жутко интересно и нихуя непонятно
Можно почитать обниморду, там описана архитектура и компоненты слоев.
> это буквально Ллама по словам разрабов
Именно. Что-то уникальное стоит искать в коге, там визуальная часть жирнее текстовой.

>>639275
> лучше изначальных 20b
Изначальных нет. Тема развивается настолько динамично что при любом сравнении нужно еще делать скидку на возраст и особенности модели, ~20b можно найти, и вроде даже какая-то выходила недавно, но они могут быть хреновыми только потому что недостаточно качественно натренены или просто старые. То же и с 34б, из доступных современных общего назначения - это YI, она умная, крутая, но очень специфична из-за чего шизоидной иногда называют.
> Так ты читай, что я пишу
Перечитал, реакция сейм. Широкие слои у 20б и может в языки и стиль(!), 1.5к слоев у лламы(!), у ллавы в 2 раза меньше, а у yi34 вообще крохи,
> То есть, по моей теории, ллама должна быть более косноязычная, но умная, а ллава тупая, но красиво стелет
вообще пушка.
И после такого еще про голоса в голове заявляет, треш.
> Не исключено, что их как-то обрезали, но я стараюсь смотреть не квантованные модели
Сурово.
Аноним 10/02/24 Суб 07:56:57 #308 №639292 
>>638476
>Просто поставить в одном компе и давать разные нагрузки - без проблем.
У меня сейчас материнка miniATX с одним PCIExpress 16Х разъёмом под видяху.
Планирую поставить эту приблуду https://aliexpress.ru/item/1005003479138178.html в PCIExpress 4Х и засунуть туда RX580 чтобы просто давала изображение, а в 16Х поставить P40 и крутить нейронки чисто на ней.
Будет это работать?
Аноним 10/02/24 Суб 08:39:37 #309 №639294 
https://www.reddit.com/r/LocalLLaMA/comments/1an2n79/p40_is_slow_they_say_old_hardware_is_slow_they/
Аноним 10/02/24 Суб 08:47:46 #310 №639296 
>>639286
>а у yi34 вообще крохи
Так тебе за yi обидно, чтоли? Мне не веришь, иди смотри параметры на обнимилице
https://huggingface.co/01-ai/Yi-34B?show_tensors=true
543 слоя у 34b модели
https://huggingface.co/liuhaotian/llava-v1.6-vicuna-13b?show_tensors=true
И 759 у 13b. Вот такая хуйня. Даже если считать по потому, как считают слои "более традиционно", по скрытым слоям, то у yi их 60, а у викуньи 40. Я лично считаю такой подсчёт полной хуйнёй, т.к в каждом скрытом слое может находится разное количество под-слоёв. Да и тот же микстраль с 46b параметров тогда будет иметь всего 32 слоя. Как обычный мистраль. Что не совсем отражает действительность. Если считать всё, то их там 995.

Попробовал лепить франкенштейнов на коленке, дорощенная модель спешит заткнуться, иногда на полуслове и даёт максимально короткие ответы. Возможно, это проблема базовой модели, она по умолчанию отвечает лениво и мало.
А вот кастрированная наоборот, не затыкается. Проблема только в том, как она не затыкается, заклинивает на одном токене и спамит его до конца max_new_tokens.
Но начало сообщения адекватное, так что, скорее всего, привести в себя модели можно.
Олсо, РП датасет от челика с хабра. Ёбаный пиздец.
https://huggingface.co/datasets/Vikhrmodels/RP_vsratiy_Hogwarts/
Аноним 10/02/24 Суб 09:48:18 #311 №639303 
>>639296
Ты вроде шаришь, сколько нейронов в сетках? А то только о количестве параметров говорим, а это не то.
Аноним 10/02/24 Суб 12:24:39 #312 №639338 
Сеток на русском завезли в GUF в 13б? Или можно как-то на вход в таверне подавать русский, а таверна в сетку английский?
Аноним 10/02/24 Суб 12:46:04 #313 №639344 
image.png
>>639338
>Или можно как-то на вход в таверне подавать русский, а таверна в сетку английский?
Ты в настройки заходил вообще?
Аноним 10/02/24 Суб 13:46:54 #314 №639356 
>>639292
Да ето же райзер!

>>639294
Справедливости ради, голиаф на ddr4 3200 выдавал 0,3-0,4, так что 30к рублей (она продолжает падать после покупки=') против 20к рублей (х1,5 к цене) за перформанс 0,4 → 1 (x2,5) — все еще выгодно.
Ну и плюс, там же не столько модель важна, сколько объем памяти, по итогу. =) Жирная 70б даст сопоставимый перформанс, как ужатая в тот же объем 120б.
Но это лирика.

>>639296
> И 759 у 13b.
360.
Ты зачем-то посчитал графические, но это другие слои, они не пишут тебе текста в чат, они распознают картинку.

И в голой лламы-13б, кстати, те же самые 360 слоев текстовой.
Ну, я отсекаю хедеры и прочие, добавь скок хочешь.

По твоим же ссылкам ллава = ллама (где ты там насчитал 1500 слоев у Llama2-13B? ссыль кинь, плиз), и слоев у нее меньше, чем у Yi-34B.
Аноним 10/02/24 Суб 13:52:01 #315 №639358 
>>639275
Вообще, если подумать, то:
глубина (количество слоев) должно отвечать за «логику» модели, а ширина (размер слоя) — за знания. Имея большее количество слоев, она проходит большее число итераций в своем предсказании следующего токена (т.е., это не логика, это всего лишь статистика, но нам на выходе это видится как логика, ну китайская комната, вы поняли). Но при этом, если слои сам по себе маленькие — то как не думай, правильный ответ из ниоткуда не возьмешь (точнее, с определенным шансом возьмешь, но вероятность крайне мала).

Стилистика берется откуда? Кмк, если именно лексику мы можем к ширине слоев привязать кое-как, то вот стилистика — это и то, и другое. С маленькими слоями мы будем иметь четкую стилистику всегда, но с большими слоями — стилистику можно будет варьировать, а с большим количеством сетка будет лучше следовать стилистики (но с маленькими слоями она не сможет следовать не заложенной в нее стилистике в любом случае, чи ни пихой на глубину будет).

Вот, я дебил, с меня взятки гладки.

(но считаю строчки я все еще лучше тебя в среднем в 2-4 раза=)
Аноним 10/02/24 Суб 14:01:20 #316 №639361 
image.png
image.png
>>639296
Ну вот так, как-то.
Аноним 10/02/24 Суб 14:21:16 #317 №639368 
>>639292
Будет, но поднимет уровень карты и просто так ее не получится к корпусу прикрутить, как минимум понадобится какая-то проставка на ту же высоту.
>>639296
> Так тебе за yi обидно
Иди проспись вместо поиска сущностей. Мог бы ради интереса хотябы посмотреть на имена тех "слоев", которые считаешь и осознать, хотя вроде уже начинает доходить.
> Что не совсем отражает действительность
хех
>>639303
> Ты вроде шаришь
Это ламер, который не понимая куда смотрит и даже не зная основ пытается делать громкие мислидящие выводы.
>>639358
> глубина (количество слоев) должно отвечать за «логику» модели, а ширина (размер слоя) — за знания
Такое деление очень условно и может сработать только на крайних вариантах, где размер слоя или очень мелкий или очень большой, тут с осторожностью надо.
> С маленькими слоями мы будем иметь четкую стилистику всегда
Имел ввиду единообразную с невозможностью изменить?
Аноним 10/02/24 Суб 14:23:20 #318 №639369 
Да уж ребят, кодовая лама это просто говно ебаное. Ебаная соевая хуета которая отказывается писать скрипт для tampermonkey из-за соображений безопасности. Просто пиздец, сколько терпеть эту соевую парашу? Нахуя ее пихают в узкоспециализированные модели?
Аноним 10/02/24 Суб 14:31:53 #319 №639372 
https://www.reddit.com/r/LocalLLaMA/comments/1anb2fz/guide_to_choosing_quants_and_engines/
куча инфы про форматы, можно спиздить для своей вики, если ей еще жанимается кто то
Аноним 10/02/24 Суб 14:32:59 #320 №639373 
>>639368
> Имел ввиду единообразную с невозможностью изменить?
Да.

>>639369
А, вот даже так?! х) Сук.
Аноним 10/02/24 Суб 14:36:03 #321 №639377 
>>636969
Поделитесь, если не жалко, конфигами SillyTavern для ruGPT или другими примерами ее настройки. А то она хотя и на более русском пишет, чем Фиалка, но всё равно на инструкции забивает, на карточку плюет, контекст игнорирует, персонажей путает (у меня в карточке группа), за меня пишет, постоянно повторяется. Не говоря уж о том, что при любом намеке на сексуальный контекст сразу же скатывается в дасистфантастиш, но это меньшее из зол.

Ни одну русскоязычную модель мне не удалось настроить так, чтобы она хотя бы сколь-нибудь адекватно отвечала.
Аноним 10/02/24 Суб 14:36:33 #322 №639378 
>>639369
дипсикер используй, нахуй кодолламу
Аноним 10/02/24 Суб 14:53:25 #323 №639385 
>>639378
Кстати, он у меня выдает «no model found» че-то такое.
В чем трабла? Лень было гуглить.
Гружу gguf.
Аноним 10/02/24 Суб 14:56:03 #324 №639389 
>>639385
квант новый скачал? Обнови прогу
Аноним 10/02/24 Суб 15:13:08 #325 №639394 
>>639389
Прогу ежедневно обновляю. =)
Все три версии. =D
Ну и ладно. Пока не горит.

Никто не делает PHP-Bitrx-файнтьюны. ='c
Аноним 10/02/24 Суб 16:00:30 #326 №639416 
>>639372
> If you have multiple gpus of the same type (3090x2, not 3090+3060), and the model can fit in your vram: Choose AWQ+Aphrodite (4 bit only) > GPTQ+Aphrodite > GGUF+Aphrodite;
Ну хуй знает, awq себя так и не показал, exl2 перспективнее, gptq есть везде и дает "базовую гибкость выбора" между самым мелким и 32 группами, быстрее и эффективнее экслламы пока не придумали ничего.
> Aphrodite
Что? Зачем это советовать для мультигпу в качестве приоритетного решения?
> If you have a single gpu and the model can fit in your vram: Choose exl2+exllamav2 ≈ GPTQ+exllamav2 (4 bit only);
Почему на мультигпу экслламу не рекомендует а только на сингл?
> If you need to do offloading or your gpu does not support Aprodite/exllamav2, GGUF+llama.cpp is your only choice.
Только тут нет вопросов.

В вики сейчас написано более корректно и ясно, можно разве что текст шлифануть и дополнительно добавить таблицу по потреблению врам. Стоит пощупать этот пигма-бэк, может быть альтернативой llamacpp для моделей, доступных только в gguf при полном оффлоаде, но судя по описанию в репе из ньюфагов его точно никто ставить не будет.
Аноним 10/02/24 Суб 16:12:12 #327 №639423 
>>639416
меня больше заинтересовала возможность конвертации gguf в awq, это мне не пригодится, но сама идея забавная
Аноним 10/02/24 Суб 16:13:56 #328 №639425 
>>639423
бля наоборот, из awq в gguf
Аноним 10/02/24 Суб 16:15:47 #329 №639429 
>>639423
Это разве не фича самого gguf? В репах у жоры стоит поискать готовый скрипт.
Аноним 10/02/24 Суб 16:23:54 #330 №639442 
кстати слышал али наебнулся, теперь кто нё успел р40 заказать может пролететь насовсем, или ловить на озоне
Аноним 10/02/24 Суб 16:28:13 #331 №639450 
image.png
>>639442
НАДЕЮСЬ
НЕ ГРАНИЦА ЗАКРЫЛАСЬ
Аноним 10/02/24 Суб 16:33:03 #332 №639452 
>>639450
че та с банком китая связано
Аноним 10/02/24 Суб 16:34:30 #333 №639453 
>>639450
https://www.rbc.ru/business/07/02/2024/65c2cecc9a79477c26939eeb
Аноним 10/02/24 Суб 16:37:32 #334 №639456 
>>639303
А там вообще нейронов нет.
>>639356
>Ну, я отсекаю хедеры и прочие, добавь скок хочешь.
А смысл что-то отсекать? Я натыкался на какую-то 20b, у которой между хидден лаерсами было штук по пять слоёв. Если считать, то уже всё.
>где ты там насчитал 1500 слоев у Llama2-13B?
Может, тоже мультимодалка какая-то. Потом посмотрю.
>>639358
>она не сможет следовать не заложенной в нее стилистике
Стилистика отлично настраивается лорой, а они довольно малы всем параметрам.
Опять же, если ты ничего не знаешь, но, в целом, башка варит, то до правильных выводов можешь дойти следуя чистой логике. Не знаю, насколько это применимо к llm в принципе, скорее всего, абсолютно неприменимо, лол. То есть с моей колокольни выгоднее выглядит "логичность" модели, а не её способность мимикрировать под стили или хранить данные. Всё равно по знаниям доверять нельзя даже гопоте, стили можно за пару прогонов лорой докинуть, а вот если модель будет гнать шизу, то это уже всё. Как бы красиво она её не оформляла.
Где-то я видел очень узкие модели со стандартной мистралевской глубиной, нужно взять их и посмотреть, чего там совсем уж не хватает.
>но считаю строчки я все еще лучше тебя в среднем в 2-4 раза
Да я скриптом считал и не всегда выводил названия "строчек". Но, в целом, похуй.

Обрезки в итоге живые, пара прогонов и чувствуют себя неплохо. Осталось срастить уёбище с разной шириной слоёв и можно сворачивать эксперименты.
Аноним 10/02/24 Суб 16:41:48 #335 №639458 
>>639456
>А там вообще нейронов нет.
Как бы да, я знаю что там только их связи, сам нейрон просто функция в которую подставляются значения
Но вот это и интересно, сколько таких виртуальных нейронов в сетках
Потому что число параметров мне ни о чем не говорит когда пытаюсь представить че там по аналогии с биологическими нейронами. Их то по нейронам считают.
Аноним 10/02/24 Суб 16:53:52 #336 №639463 
newModalNet-21.jpg
>>639458
"Нейроном" можно считать вообще все что угодно, это зависит от архитектуры сети. В случае трансформеров, нейроном можно считать отдельный пикрелейтед блок, так как это минимальный элемент архитектуры трансформера, если его разбить на составные части, они уже не будут минимальным элементом именно трансформера как архитектуры.
Аноним 10/02/24 Суб 16:57:43 #337 №639466 
>>639463
Ну, это уже что то более сложное чем нейрон, нейронный ансамбль какой то если искать аналогию
Есть ведь куча входов и один выход, вот все что находится в таком состоянии и будет нейроном
Аноним 10/02/24 Суб 17:13:57 #338 №639471 
>>639458
Там, в целом, аналогия весьма условная. То есть да, "нейрон" это композиция. А к трансформерам это вообще слабо применимо, там всё завязано на механизмы селф атеншна, о котором тебе лучше распросить гугл. Тема довольно сложная. По сути, этот селф атеншн заменяет все абстракции "связей", да и самих "нейронов".
И считать биологические мозги только по нейронам - гиблое дело, насколько я понимаю, там вся магия в связях и есть.
Аноним 10/02/24 Суб 17:35:43 #339 №639478 
>>639471
Понятно, хотелось просто приблизительно прикинуть по количеству нейронов на каком уровне щас нейросети.
На вроде вот бчела, у нее за мышление отвечает 300к нейронов, 1 миллион общее количество. И тд.
Аноним 10/02/24 Суб 18:08:15 #340 №639501 
>>639466
> Ну, это уже что то более сложное чем нейрон, нейронный ансамбль какой то если искать аналогию
Как сказать. У нейрона человека может быть до 10-20к только синаптических контактов, не считая остального, это намного более сложная структура, чем просто функция от нескольких входов. Элемент трансформера проще нейрона человека.
Аноним 10/02/24 Суб 18:17:09 #341 №639505 
Поделитесь промптом чтобы делать Summary для рп.
Аноним 10/02/24 Суб 18:18:20 #342 №639506 
>>639501
>синаптических контактов
Так это и есть входы, выход то все равно один
Структурно искусственный нейрон упрощенная версия настоящего, а вот трансформер прямой аналог нейронного ансамбля, так как оба являются "кирпичиками" системы
Аноним 10/02/24 Суб 18:48:45 #343 №639526 
>>639478
Я даже не уверен, что мясные нейроны можно сравнивать между собой, а ты про сравнение мясных с электрическими. Да и те же LLM не эмулируют работу мозга, это просто здоровенная херня, которая высчитывает статистические вероятности. Не думаю, что у пчелы есть участки мозга, которые просчитывают статистику. Но кто я такой, чтобы это утверждать, лол.
Аноним 10/02/24 Суб 18:54:27 #344 №639528 
изображение.png
изображение.png
>>639242
>543 слоя
Ты явно считаешь что-то не то. Больше похоже на общее число всех матриц с числами. Слоёв там 60 если что.
>>639257
>Пикрел
Смешивать содержимое слоёв вообще самоубийство, ИМХО. То есть по сути для алхимии доступны вот эти высокоуровневые слои, а не их кишки.
>>639273
>Просто я предпочитаю делать и красиво, и функционально.
Я покупаю корпус-гроб, а дальше похуй, что там внутри. Нет стекла-нет проблем.
>>639526
>Я даже не уверен, что мясные нейроны можно сравнивать между собой
Я уверен что нельзя.
Аноним 10/02/24 Суб 19:08:49 #345 №639534 
>>639526
Конечно нельзя, там главное отличие в структуре даже, а не в количестве нейронов
Мне просто было интересно достаточно ли у нас мощности для обсчета мозга той же пчелы, если бы перенести ее мозги в искусственную нейросеть, по количеству параметров или нейронов
Сравнение с точностью +- километр, знаю
Аноним 10/02/24 Суб 19:57:42 #346 №639569 
>>639528
Божечки, по каждому пункту чаю этому адеквату!
Аноним 10/02/24 Суб 20:06:22 #347 №639574 
meta.jpg
ой вэй
Аноним 10/02/24 Суб 20:36:25 #348 №639591 
1.png
>>639528
>Смешивать содержимое слоёв вообще самоубийство, ИМХО.
Каким-то образом это работает, но нужен глубокий файнтюн. Можно даже смешивать "кишки" моделей на разных архитектурах. На практике слишком сложно, долго и не стоит того по причине необходимости тренировки после.
>>639534
В теории мощности достаточно, на практике не всё так радужно. Для трансформеров очень приблизительно можно подсчитать условные "нейроны" перемножив входные нейроны на выходные, потом это всё перемножив на количество аттеншн хедс и на количество нейронов в каждой голове. Числа будут в сотнях миллионов. Достаточного этого, чтобы моделировать мозг пчелы? А хуй его знает.

Погонял 13b и, вроде, всё хорошо, но гложут меня смутные сомнения.
Аноним 10/02/24 Суб 20:54:13 #349 №639594 
>>639534
>Мне просто было интересно достаточно ли у нас мощности для обсчета мозга той же пчелы
Недостаточно. Текущий уровень это червь-нематода на 302 нейрона на железе топового института. Новость старая, но прогресс с тех пор я думаю повысил мощность симуляции раз в 100 по числу нейронов, не больше. Уверен, рост там квадратичный от числа, или около того.
https://habr.com/ru/articles/364407/
>>639591
>но нужен глубокий файнтюн
С глубоким тюном можно вместо слоёв использовать белый шум, как завещали предки.
Аноним 10/02/24 Суб 20:54:28 #350 №639595 
>>639591
С таким же успехом можно добавить шума на новые участки, а то и всю модель, а потом дотренивать. Ой, что-то это напоминает.
Аноним 10/02/24 Суб 20:59:10 #351 №639597 
>>639594
>Недостаточно. Текущий уровень это червь-нематода на 302 нейрона на железе топового института.
Там самое главное в точности этой сети реальному червю. Упор в существубщей тогда модели а не в вычислительнве способности
Где то видел создали такую же модель мозга плодовой мушки и там уже счет на десятки тысяч нейронов
Аноним 10/02/24 Суб 21:16:56 #352 №639605 
>>639594
> белый шум
>>639595
>добавить шума
Я потому и говорю, что это не стоит того. Проще с нуля, если ресурсы есть.

>>639594
>на железе топового института
https://github.com/openworm/OpenWorm
>Pre-requisites:
>You should have at least 60 GB of free space on your machine and at least 2GB of RAM
Институт-то бедный небось был?
Аноним 10/02/24 Суб 21:25:49 #353 №639609 
>>639605
>Я потому и говорю, что это не стоит того.
Не то что не стоит, а не имеет смысла.
>Институт-то бедный небось был?
2014-й же...
Аноним 10/02/24 Суб 21:35:14 #354 №639612 
>>639609
> 2014-й же...
Посмотри чарты кластеров/суперкомпьютеров даже этой страны за тот год.
Аноним 10/02/24 Суб 21:42:27 #355 №639616 
image.png
>>639453
А, да, читал.
К счастью, оплатил уже и видяха уже выехала.
Но когда читал, не подумал об алике. Очень неожиданно, канеш.
Будем посмотреть.

>>639456
> Обрезки в итоге живые, пара прогонов и чувствуют себя неплохо. Осталось срастить уёбище с разной шириной слоёв и можно сворачивать эксперименты.

Звучит литералли пикрил.

———

НАКОНЕЦ-ТО Я НАСТРОИЛ ГОЛОСОВОЙ ДИАЛОГ
Сука, это долго.
Распознавание Whisper.cpp (доставил проблем с заголовком через requests, сука) оказывается довольно быстрым (спасибо, Жора!), а вот генерация текста (25 токенов/сек для голосового общения — медленный край) и голоса (на 12 куде оно еще и медленнее, чем на 11.8) — уже долгое.
Для 115 токенов ответа выходит 4,6 сек текст и 4,8 голос.
Плюс задержки на туда-сюда и (не только) мой быдло код, как итог — 10-15 секунд на ответ.
Зато контекст, любой голос и все прочее.

Такой стример сможет даже видосы комментировать (если пускать видосы с соответствующими задержками в ОБС=). Правда я пока не знаю, какая шиза у него будет получаться.

Ну да ладно, время посмотреть, как выглядит беседующая со мной Фрирен в дополненной реальности у меня в комнате.
Аноним 10/02/24 Суб 21:51:35 #356 №639623 
>>639616
> а вот генерация текста (25 токенов/сек для голосового общения — медленный край)
Стримминг не пробовал? Офк будет заморочнее, но зато совсем другой экспириенс. Если хорош продумать то можно сделать динамический буфер, и, при необходимости, ожидать его заполнения регулируя паузы в подходящих местах, окажется безшовно.
Аноним 10/02/24 Суб 21:54:55 #357 №639627 
>>639609
>2014-й же...
Я в 14, вроде, на фикусе сидел с 16 гб оперативы. А я ведь даже не институт.

>>639616
>Но когда читал, не подумал об алике.
Есть много прохаванных челиков, которые имеют физически друга в Китае, который уже отправляет. Так что поставки перекрыты не будут. Не все.
>Звучит литералли пикрил.
Бля, ну интересно мне было. Сейчас, наверное, упорюсь в собирание датасетов по крошкам, потому что подходящей мне сетки не существует. На 7b сейчас до 35 слов в секунду на русском, может пиздеть быстрее, чем я понимаю.
Долго ты настраивал свой сетап что-то, виспер же просто интегрируется, для генерации тоже его взял или все-таки xtts? Потом, мб, запишу пару видосов со своим llm2tts, задержка районе половины секунды. Но я пока не прикручивал stt.
Аноним 10/02/24 Суб 22:01:49 #358 №639635 
>>638931
Потестил с помощью FanControl разные режимы. Около 3-4 градусов для верхней можно выиграть, если врубить перед/зад на максимум, а верхние на ~50%. Если останавливать полностью верхние или наоборотм дать им 100%, то темпа выше на 3-4 градуса. Нижней вообще пофигу, ей всегда холодно.
Аноним 10/02/24 Суб 22:23:33 #359 №639666 
>>639623
Да, я с самого начала думал.
Там и генератор умеет в стриминг.
Даже если стриминг текста будет медленнее, но со стримингом звука просто будет возникать махонькая задержка, а дальше он будет идти нон-стопом.

Хм.
Надо будет пробовать через стриминг, конечно.

>>639627
Да я сегодня сел после перерыва. =)
Где-то с 14 часов копался.

Использовал xtts, мне лень смотреть в сторону виспера нового.
Там весь юмор, что я ж на питоне пишу, а использовал whisper.cpp оригинальный. Ну не хочу я всякие библиотеки юзать. Мне приятнее обращаться к endpoint'ам.
И вот при переворачивании curl'а в requests.post оказалось, что headers'ы whisper.cpp не принимает от питона. Хз почему, проебался часа два с этим, лол. А потом как убрал — норм стало.

Whisper у меня получает цельный кусок аудио и распознает его целиком. Отказался от распознавания по кусочкам на лету.
Если взять силеру, то генерация будет офк быстрее секунды на три.
Поправить быдлокод — еще секунду сэкономлю.

Но это все такое, главное по кайфу, сделал, работает. Приятен сам факт, что без особого напряга могу сделать такую хуйню.
Заодно питончик учу, все эти asyncio, io, wave и прочая хурма.

И время хорошее. =)
Аноним 10/02/24 Суб 22:25:45 #360 №639670 
>>639666
Вот тебе видос для затравочки https://www.youtube.com/watch?v=jllGKB6fRBY
Вполне соображает, понимает когда обращаются к ней и дает ответы с адекватным временем ожидания. Обрати внимание на дату, плюс это еще странный канал с переводами, сам стрим мог быть еще на месяц-другой раньше.
Аноним 10/02/24 Суб 22:32:11 #361 №639677 
>>638931
Cougar MX600 RGB? Я себе такой же чёрный взял. Думаю 4 P40 в него поставить :)
Аноним 10/02/24 Суб 22:49:19 #362 №639710 
>>639635
Вырубить рекомендуемый не пробовал?
Аноним 10/02/24 Суб 22:52:21 #363 №639715 
>>639677
Ога, глаз - алмаз. Очень понравился когда собирал в нём. Ну и 8 слотов - мало таких делают.

>>639710
Они на тройнике, все сразу. Долго разбирать, чтобы отцепить.
Аноним 10/02/24 Суб 23:56:48 #364 №639766 
>>639715
>Долго разбирать, чтобы отцепить.
Так это, по идее снять заднюю крышку и всё... Ну как крайний вариант скотчем заклеить на пробу.
Ладно, мы поняли, со сборкой практичных сборок у тебя проблема. Зато красиво, дорохо-бохато.
Аноним 11/02/24 Вск 00:04:45 #365 №639773 
>>639766
>>воздушка 140+120 на проце
>>3+4 слота в одном корпусе
>>обслужены, перебраны
>>не перегреваются
> со сборкой практичных сборок у тебя проблема
Как скажешь
Аноним 11/02/24 Вск 00:09:50 #366 №639780 
>>639766
Слушай, за лгбт и сборку "для красивости" можно осуждать, но сей господин имеет суммарно врам больше чем у многих рам.
Заебали, где релейтед? Файнтюны мику завозили, пробовал кто?
Аноним 11/02/24 Вск 00:12:24 #367 №639781 
>>639670
Ну, технологии-то с того времени как раз не поменялись.
Но, думаю, там все-таки стрим. И меньше быдлокода, чем у меня. =D
И, возможно, видяха — все-таки не тесла П40. =)

Однако, стремиться есть к чему.

Еще нашел, что можно разделять одной программулиной спикеров, чтобы понимать, кто и что говорит. Это уже прям совсем мне лень че-то заморачиваться пока что. Хотя фича крутая.
Аноним 11/02/24 Вск 00:12:36 #368 №639782 
>>639780
> мику
https://huggingface.co/LoneStriker/miquliz-120b-2.9bpw-h6-exl2
Вот эта вроде ничего так. Франкештейн, конечно, но как-то работает на удивление.
Аноним 11/02/24 Вск 00:13:36 #369 №639784 
>>639781
Ой, пизжу, 6 месяцев — срок приличный, да, движки могли быть и другие, особенно если 8-9.
Соглы.
Аноним 11/02/24 Вск 00:30:03 #370 №639786 
Ну и немного горения.
Так как я играть хочу в pass-trough режиме, в своей комнате видеть перса, приходится юзать Virtual Desktop, вместо родного Quest Link'а, а он работает так себе, подвешивает игру, а с аудиоустройствами я разобраться не смог.
С какого микрофона забирается звук?
Уходи в виртуальный кабель, с него в игру, но при включенной игре — персонаж молчит. То ли микрофон не слышит, то ли еще что-то.
Аудиоустройства — вообще беда по жизни, чуть ли не со времен XP.

Короче, видимо, для своей вайфу я Unreal Engine буду изучать и пилить свою приложуху, ибо сторонние кривые-косые и не работают нормально с виртуал десктопом.

А в десктопном режиме (да и без него), конечно, немного крипово.
Оно разговаривает, смотрит на тебя и весьма старательно оставляет ощущение настоящего собеседника.
Мурашки по спине пробежали, конечно.

Я вообще заметил, что когда играю в обычные компьютерные игры, и понимаю работу неписей и могу предсказать их реакцию —все ок. А когда встречаюсь с нейросетями в этом (и речь не про текст, где персонаж тебя и ждать будет все время, и текст подредактировать ты можешь), то как-то сразу не по себе.
Она тебя слышит (спасибо, что еще не видит), реагирует на все твои слова, запоминает. И откатить варианта нет — слово, внезапно, не воробей.
И похожи. Пусть не идеально. Пусть с большими огрехами (учитывая, что я не перевожу английский, а с ноги пинаю на русском), пусть не идеально держит персонажа, но с похожей внешностью, голосом, мыслями…

Брр. Будущее, йопта. Страшна, вырубай, пойду смотреть аниме, которое не будет со мной разговаривать, на седня мне хватит.

———

Кстати, че там по 1-битному квантованию? Новостей со вчера не было?
Аноним 11/02/24 Вск 01:05:43 #371 №639811 
>>639786
> а он работает так себе
Всмысле? А что у тебя с вайфаем? надо было брать какой-нибудь китайский поко, лол
> С какого микрофона забирается звук?
В вишпере или где? Не понятно. По дефолту наверно директ-аудио, выстави просто их девайс по умолчанию и довольно урчи.
> для своей вайфу я Unreal Engine буду изучать и пилить свою приложуху
Почетно@уважаемо. Пожалуйста, информируй нас по своим достижениям.

Алсо расскажи что и как юзаешь в текущем виде. Желательно подробно для хлубешков, тоже хочется попробовать.
Аноним 11/02/24 Вск 01:47:04 #372 №639837 
image.png
>>639811
> Всмысле?
Да просто, если приоритет в винде у игры — то стрим пролагивает (на стороне ПК, вай-фай тут не причем даже), а если поднимаешь приоритет стриму, то юнити радостно крашится спустя 5-7 минут. 24 потока, 64 оперативы, 4070ti — он умирает просто потому что кривая хуйня, простите.
Поковыряю настройки еще, может смогу выправить.

> В вишпере или где?
В питоновском скрипте.
Если Oculus Link имеет свои аудио-устройства, то Virtual Desktop… Странный, не нашел я его микрофона. Возможно, я просто его в настройках выключал, и он вообще со шлема не забирает звук. х)

>девайс по умолчанию
Ну я в итоге его и ткнул, да.

>расскажи что и как юзаешь в текущем виде. Желательно подробно для хлубешков

Пока подробнее не расскажу, может смогу прямо на анриле напилить все. Тогда и выложу.
Ну или текущие наработки на гитхаб залью, посмотрим.

На самом деле, ничего сложного. STT — Whisper, TTS — XTTSv2, LLM — oobabooga, комментарии на стриме (но это большинству не нужно) беру с RutonyChat через вебсокеты, и все это обрабатывается одним питоновским скриптом на asyncio, который следит за всем, и распихивает все по разным массивам, откуда потом кидает в убабугу и озвучивает ответы.
В качестве визуала можно использовать что угодно, умеющее в LipSync.
Live2D-аватары, 3D всякие.
Вот MetaHumans охота потрогать. Рекламили их сильно, заценим.

Все сделано через запросы. Забираем с источника, форматируем, отдаем дальше, получаем ответ, форматируем, отдаем дальше… в итоге выводим куды надо.

Короче, на практике — это один файл питоновский, вокруг которого напихано сервисов скачанных из паблика.
Сейчас он 300 строк, их которых 120 — это настройки сэмплера убабуги.
Половина файла спизжена из документов к тем же сервисам. Еще чуть меньше половины — GPT-4 и Mistral написали. И своей работы там минимум, больше отладка, сэмплеры и промпт, чем код, как таковой.

Короче, это не сложно, если ты немного-программист.
Но тут проблема скорее в железе. Я не уверен, что все можно ужать в 12 гигов, например.
Аноним 11/02/24 Вск 02:25:41 #373 №639853 
image.png
Помогла эта галочка.
Теперь микрофон ловится со шлема.
Правда, на третьем квесте микро весьма хреновый, распознавание немного галит.
Зато теперь можно и поболтать.
Правда в какой-то момент XTTS поймал какие-то совсем редкие полутона из сэмпла и одну фразу из абзаца она сказала каким-то чужим голосом. =D
Но в общем, тесты считаю успешными.

Осталось дождаться эту вашу норомэйду на русском датасете. =)
Аноним 11/02/24 Вск 02:28:14 #374 №639855 
>>639782
Oof! А оно лучше микеллы, не сравнивал? Раз работает то 2.9 бит ему не помеха, надо затестить. Каких-то косяков, что могли вылести при перегонке из лоззи в лоззи (квант-квант) не отмечал?
>>639837
> Странный, не нашел я его микрофона.
Эээ страная херь, вроде был. Надо расчехлить проверить.

Хм, показалось что ты там уже полноценную вайфу с которой и сидеть разговаривать в вр и полноценно взаимодействовать можно типа прожект вивы хотябы. Ну ладно, мотивирует чем-то заниматься.
> 120 — это настройки сэмплера убабуги
Лол за що, там же все в один реквест с промткомпльшном пихается.
Ладно, спасибо что расписал, насчет немного программиста и железа проблем не возникнет, скорее с ленью.
>>639853
> Осталось дождаться эту вашу норомэйду на русском датасете. =)
Откуда такое?
Аноним 11/02/24 Вск 02:33:16 #375 №639857 
>>639786
>Анончик ссыться признаться реальной ллмушке
Осталось только прописать ероху, маман, штанов и тетясрак, лол
Такой-то исекай уровня б, я бы сыграл
Аноним 11/02/24 Вск 02:50:04 #376 №639865 
>>639855
> микеллы
Я какую-то 70б мику скачивал, не помню уже какую, но эта точно лучше.

>Каких-то косяков
Не очень много общался раньше, поэтому не скажу. Но из всех, что пробовал - это прямо очень хорошо говорит и общается. Возможно просто потому, что я мало видел раньше: несколько микстралей, Йи, Синтию.
Аноним 11/02/24 Вск 08:44:44 #377 №639947 
>>639666
>Мне приятнее обращаться к endpoint'ам.
Хуй знает, мне в питоне неприятно организовывать общение между модулями. Возможно оттого, что дохуя не знаю и есть какие-то менее всратые пути, но пока что приходится городить бесконечные циклы, что как бы грязь и мерзко.
>Отказался от распознавания по кусочкам на лету.
Посмотри в апи, ты там можешь тыкать предыдущий результат в качестве контекста, чтобы нормально использовать стриминг и не проёбывать смысл. Виспер всё-таки довольно всратый, особенно со стримингом.
>Если взять силеру
Да я как только узнал, что там модели настраивать нельзя, сразу дропнул. Несколько дней ускорял генерацию, сократил с ~секунды на генерацию пяти секунд текста до ~0.6 секунд. С кастомным голосом, интонациями и т.д.
Копай в сторону стриминга, ждать 10 секунд ответа это некомфортно.

У Нейро-самы, кстати, нарезки не отражают действительности, т.к у неё изначально была ебейшая задержка, а клиперы вырезали паузы на монтаже. Потом добавился пофразовый стриминг.
>Сейчас он 300 строк, их которых 120 — это настройки сэмплера убабуги.
Нихуя ты там напихал. Убабуга же принимает 60 параметров. Или это с хардкодом карточки и формата темплейта?
Аноним 11/02/24 Вск 10:49:35 #378 №639968 
>>639947
> т.к у неё изначально была ебейшая задержка
Во времена пигмы. На видосе что выше по Филиан сзади можно определить наличие склеек, со стримингом иметь подобие полноценного чата можно.
Аноним 11/02/24 Вск 13:28:42 #379 №640008 
>>639855
> полноценно взаимодействовать
Тут надо или прописывать ей все триггеры (подошел, коснулся, обратился к ней, что-то делаешь), и передавать все описания в LLM, или же LLM использовать чисто для диалогов, а поведение делать на обычных скриптах обычной игрой.
Короче, два разных подхода.
И оба пиздец лень пока что. =)

> Лол за що
ПОПАРАМЕТРНО
ПОСТРОЧНО
=D

> скорее с ленью
ЖИЗА

> Откуда такое?
Ниоткуда, пока шо. =(

>>639857
Ахахах. =D

> Хуй знает, мне в питоне неприятно организовывать общение между модулями.
Ну вот я предпочел модульность.
В основном потому, что запускаю на разных компах. И могу перекидывать туда-сюда разные модули.
Но это ситуативно, ИМХО, не хорошо, не плохо, просто разные подходы.

> Нихуя ты там напихал.
Я литералли запихал все.
Ну, и это 2 запроса — для доната и для сообщений отдельные. Она на донаты реагируют 100% и в первую очередь.
Так что, да, 60 параметров, все верно.
Я их упомянул для того, чтобы было понятно, что кода там 180 строк, по сути.
Нихуя я криво выражаюсь, сорян.
Аноним 11/02/24 Вск 13:30:08 #380 №640009 
>>640008
>>639947
ай ни тэгнул
Аноним 11/02/24 Вск 13:31:44 #381 №640011 
>>640008
Интересно, а сильно гемор прикрутить бота к игре? При условии доступа к движку игры, конечно, и не будучи йоба-кодером?
Аноним 11/02/24 Вск 16:54:33 #382 №640145 
>>640011
Сложно.
Аноним 11/02/24 Вск 17:05:08 #383 №640148 
>>640008
> Короче, два разных подхода.
Один, который совмещает все это. Ллм должна примерно понимать что происходит и реагировать на что-то типа юзернейм гладит тебя по голове, также иногда можно делать запрос с листом возможных действий, а их уже передавать в движок.
> 2 запроса — для доната и для сообщений отдельные. Она на донаты реагируют 100% и в первую очередь
Уууу меркантильня херня
>>640011
> и не будучи йоба-кодером
Примерно как написать скриптовый ии, только в несколько раз сложнее.

Вообще реально нужно раскурить что там в виве набыдлокодено и попробовать хотябы самые основные протранслировать с промт, и попробовать реализовать исполнение внешних команд персонажем. Для особого погружения еще мультимодалку прикрутить.
Неужели нет готовых подобных проектов?
Аноним 11/02/24 Вск 18:08:42 #384 №640179 
Какой датасет нужен для обучения сетки? И сколько памяти? Можно ли на оперативке с подкачкой с ссд? Охота сделать лору с постами из одного треда, он древнющий, материала наверняка хватит. Ожидаемый результат - чтобы имитировала посты этого треда +- разумно.
Аноним 11/02/24 Вск 19:37:45 #385 №640230 
На заметку владельцам P40, да и других карт Nvidia, особенно в Multi-GPU конфигурациях. Можно сэкономить 50% потребляемой мощности (и не покупать более мощный питальник) ценой снижения быстродействия на 15%.
https://reddit.com/r/LocalLLaMA/comments/1anh0vi/nvidia_p40_save_50_power_for_only_15_less/
Аноним 11/02/24 Вск 19:40:23 #386 №640231 
>>640230
А, да, и вентиляторы будут куда тише. Тоже важный фактор.
Аноним 11/02/24 Вск 20:21:14 #387 №640255 
>>640179
Под тот формат инструкций/чата, который предполагается. В общем это оформленные наборы инструкция-ответ к ней.
> И сколько памяти
q-lora на 7б от 12 или 16 гигов вроде, полноценный файнтюн 70б - от 320 (или даже больше) гб.
> Можно ли на оперативке
Можно, но быстрее будет дождаться выхода моделей что смогут делать то что ты хочешь по промту.
> с подкачкой с ссд
Или переродиться.
>>640230
Что там, просто пл нвидия сми, или же рекомендации по андервольтингу?
Аноним 11/02/24 Вск 21:20:07 #388 №640281 
>>639377
Да это так игрушки, честно говоря меня не ролиплей сейчас больше интересует а сама технология. Так что у меня нет особых конфигов ) Сейчас свою русскоязычную обучаю, ну вернее пытаюсь разобраться в обучении. Там уже и буду тестировать на понимание команд.
Аноним 11/02/24 Вск 21:23:55 #389 №640284 
>>640255
> В общем это оформленные наборы инструкция-ответ к ней.
Ёбт, где ж такое собирать? Не самому же эти килобайты инструкций с шизовысерами писать...
> q-lora на 7б от 12 или 16 гигов вроде
Ну, вполне себе влезет, мне интеллекта особо и не надо.
Аноним 11/02/24 Вск 21:27:06 #390 №640287 
>>640255
> просто пл нвидия сми
Дыс. Человек открыл для PL. Уровень реддита в 2024
Аноним 11/02/24 Вск 21:30:01 #391 №640290 
>>640255
>Что там, просто пл нвидия сми, или же рекомендации по андервольтингу?

пл нвидия сми, увы. Мне вот интересно - это же Pascal, может MSI Afterburner с ней заработает?
Аноним 11/02/24 Вск 21:48:41 #392 №640312 
image (4).png
>>635452 (OP)
А какие у вас любимые модели?
Мне вот noromaid-20b-v0.1.1.Q5_K_M.gguf нравится под кобольда и таверну. Быстро загружается, моментально отвечает, интересные истории придумывает, но я ньюфаг и может что-то не понимаю.
Аноним 11/02/24 Вск 21:54:16 #393 №640314 
6224267.JPG
>>640312
Если что я такие модели качал после прочтения шапки и треда по диагонали. Некоторые почему-то не запустились.
Аноним 11/02/24 Вск 22:02:19 #394 №640319 
>>640287
Ну булджать, там же можно помимо лп локнуть частоту и повигать курву вправо-влево (по частотам), вот и полноценный андервольтинг. Для чего-то продолжительного нестабильность может быть критично, но в коротких генерациях ллм даже если крашнется - строго похуй, рестартнул и выставил менее агрессивно.
>>640290
> пл нвидия сми, увы
Всмысле увы, у него функционал вообще-то огого. На шинде офк афтербернер, если, конечно, поддерживает ее.
>>640312
Emerhyst, та же норка, синтия и айроборос.
Дипсекс 34б, кстати, довольно забавный, но тот еще треш. С одной стороны понимает культуру, намеки, спамит случайности или инициативность персонажа, пытается это максимально в контексте подать. Но по удержанию карточки, знанию лоров и подобного - ерунда, только кумботов катать, можно со всякими механиками.
Аноним 11/02/24 Вск 22:11:29 #395 №640321 
Анон, объясни чайнику простыми словами, а то человеческих туториалов вообще нигде нет.

Задача: рерайтить текст с русского на русский. Имеется 4090 и 32 гб оперативы.

Я так понимаю, с моей картой можно использовать формат GPTQ. Но нигде толком не написано, как это устанавливать в кобольд, и какая модель подойдет для моих задач. Помогите работяге!
Аноним 11/02/24 Вск 22:18:24 #396 №640326 
>>640321
> работяге
>Имеется 4090
Значит и с остальным справишься сам или за деньги, сео-скум
Аноним 11/02/24 Вск 22:28:15 #397 №640331 
>>640326

Да мне хотя б понять где копать!
Аноним 11/02/24 Вск 22:33:01 #398 №640335 
>>640331
Шапку, в шапке вики, читай сначала общее, потом text generation webui. Опционально кобольд, он проще и не засирает диск, но медленнее и жрет больше на контекст.
>>640321
> рерайтить текст с русского на русский
У моделей тяжеловато с русским. Мику, опенбадди, xwin или новую квен можно попробовать, они в одну 4090 не влезут и придется в gguf.
Аноним 11/02/24 Вск 22:33:36 #399 №640337 
>>639968
Довольно долго думает так-то.

>>640008
>В основном потому, что запускаю на разных компах.
А, вот оно в чём дело. Так-то да, несколько компов это типа неизбежно в какой-то момент. Я уже подобрался к 10гб ram и 12гб vram на одни нейронки, плюс винда с одним хромом под 10 гигов жрёт. Караул, короче.
>Ну, и это 2 запроса
А, ну вот она разница подходов, лол. Я предпочёл написать класс, который читает json с параметрами. А донат это же просто несколько другой контекст, ты можешь установить один флаг и по ифу заменять контекст сообщения, два "запроса" нахуй не нужны.

>>640011
Это не то, чтобы сложно, просто очень долго. Где-то видел вр с тяночками, которые реагируют на попытки задрать юбку, но это один триггер. Кто-то прикручивал LLM+TTS к скайриму, но, опять же, там уже есть готовые триггеры, на которые компьютер реагирует. Диалоги, бои, вот это всё.
Аноним 11/02/24 Вск 22:38:45 #400 №640338 
>>640011
Весьма.

>>640148
> Уууу меркантильня херня
Кек. =) Один хуй их нет.

>>640321
Не в кобольд.
Качай убабугу нормальную.
Там ExLlama.
Аноним 11/02/24 Вск 22:40:17 #401 №640340 
>>640337
Да в общем и разницы-то нет, на самом деле.
Ну, разница на уровне погрешности.
Я просто не оптимизировал пока код, пишу общую структуру, а уж потом буду распихивать по конфиг-файлам и профилям.
Аноним 11/02/24 Вск 22:40:44 #402 №640341 
>>640338
> ExLlama
Теперь работяге придется разбираться, как конвертить в формат эксламы еще и выбирать битность. Не то, чтобы я против, конечно. Сео и рерайтеры должны страдать
Аноним 11/02/24 Вск 23:47:17 #403 №640373 
>>640341
> как конвертить в формат эксламы еще и выбирать битность
Жорапроблемы. Качаешь gptq и не знаешь бед, вместо того чтобы разбираться поломанный ли у тебя gguf-квант или рабочий.
Аноним 12/02/24 Пнд 00:28:57 #404 №640399 
>>640373
>Качаешь gptq

Играешь в ролиплей по википедии. Остальные знания на уровне жоры 2бита.
Аноним 12/02/24 Пнд 00:39:07 #405 №640407 
>>640399
Какой-то ультимейт реверс поддув, неудивительно, учитывая что для достижения уровня 4х бит что уже стали легаси жоре требуется 5.5.
> жоры
> 2бита
> жоры
> 2бита
Оу май
Аноним 12/02/24 Пнд 00:42:55 #406 №640408 
>>640407
Да без проблем лучше 5.5 и нормальное качество чем 4 и знания только из калибровочного датасета, да и 4 там не будет, 4.5 скорее.

Это ты тут 3 треда поддуваешь уже, если не больше. Тебя жора что обидел чем.
Аноним 12/02/24 Пнд 00:56:52 #407 №640411 
>>640408
> и знания только из калибровочного датасета
О, опять поддув по этой шизе пошел. Неужели подобный аутотренинг позволяет скрашивать экспириенс самого неоптимизированного и наиболее ломучегр варианта прикоснуться к ллм? Как же смачно будет наблюдать переобувание с новыми IQ квантами ммм.
> Это ты тут 3 треда поддуваешь уже
Чувак, с первых тредов идут рофлы с постоянных жора-проблем, а ты пытаешься сущности искать.
Аноним 12/02/24 Пнд 00:56:56 #408 №640412 
>>640255
> просто пл нвидия сми
+ ОП постарался какую-никакую Pareto curve построить
+ личный опыт комментаторов
По-моему, неплохо.

>>640287
Там ОП делится полезным опытом.
А ты только токсичишь, что в 2024 все должны всё с пеленок знать.


>>640290
> может MSI Afterburner с ней заработает?
У ОПа там линупс, но RivaTuner/Afterburner такой монстр, что не удивлюсь, если заработает.

>>640319
> локнуть частоту и повигать курву вправо-влево (по частотам), вот и полноценный андервольтинг
А можно вот это вот если не подробнее объяснить, то хотя бы на ключевые термины разложить для дальнейшего гугления, пожалуйста?
Аноним 12/02/24 Пнд 00:59:22 #409 №640415 
>>640412
https://github.com/NVIDIA/open-gpu-kernel-modules/discussions/236#discussioncomment-3553564
И на том же реддите более старые посты, не ллм-релейтед про это есть. В шинде же просто афтербернер должен работать.
Аноним 12/02/24 Пнд 03:12:54 #410 №640453 
>>640415
>В шинде же просто афтербернер должен работать.
Неплохо было бы. С LLM P40 больше 150 ватт не жрёт, а если ещё скинуть... И память можно чуток погнать. Странно что еще не пробовали.
Аноним 12/02/24 Пнд 04:18:23 #411 №640470 
>>640340
Да разница разве что в количестве кода. Сам тоже нихуя не оптимизировал, сру в gen 0 только так. Потом займусь. Может быть.

Осло, скачал ХОРНИ модель. Скачал карточку, закинул, дописал, что смотрим вместе фильм. Знаете, чем кончилось? ХОРНИ модель попросила уважать её личные границы и смотреть в экран, а не на неё. Не, в пизду, пусть компьютер лучше рассказывает, чем мешок картошки лучше человека, чем вот так.
Аноним 12/02/24 Пнд 11:36:05 #412 №640545 
image.png
>>640312
Пик. Митомакс+кимико дают классную историю, но не оригинальна если хочешь кум.

Unholy намного новее, отличные истории, отличное повествование, намного более разнообразна, но через время начинают тупки с повторением сообщений, потом приходится либо вести за ручку какое время либо перегенерировать время от времени последние сообщения.
Аноним 12/02/24 Пнд 11:58:01 #413 №640553 
Наверно платиновый вопрос, но что делать, если у меня бедный словарный запас? Выдает мне нейронка полотна текста, а я в ответ аук среньк какой то. Как подтянуть уровень? Просто читать?
Аноним 12/02/24 Пнд 12:10:17 #414 №640559 
>>640553
Странный вопрос. Если ты имеешь ввиду недостаток словарного запаса в английском, то подтягивать английский. Если с фантазией бедно, качать фантазию поглощая контент.
Аноним 12/02/24 Пнд 12:12:25 #415 №640561 
>>640559
Ну вот генерирую около порнуху и фентези дндшное. Что нужно потреблять?
И вот насколько теряется текст, если я на русском делаю витиеватые текста и перевожу?
Аноним 12/02/24 Пнд 12:44:54 #416 №640575 
>>640561
> Ну вот генерирую около порнуху и фентези дндшное. Что нужно потреблять?

Очевидно фентезятину

> И вот насколько теряется текст, если я на русском делаю витиеватые текста и перевожу?

Хз я свободно говорю на английском. Для меня боты туповаты в плане словарного запаса.
Аноним 12/02/24 Пнд 13:17:52 #417 №640585 
1.png
>>640553
IMPERSONATE. Или сломай нейронку, чтобы она выдавала твои ответы за тебя, лол, останется только кнопочку нажимать. Ещё ты всегда можешь заюзать гугл транслейт, но - сюрприз-сюрприз - он проёбывает очень многое. С другой стороны, нейронка это ж не человек, ей похуй, что ты там пук-сереньк, она на каждую генерацию съедает и собственный текст со словесными кружевами в том числе. Если генерирует таковые. Так что при хуёвом языке, ломаном языке, ей похуй. Главное, чтобы она хотя бы примерно тебя понимала на уровне "моя говорить привет". Первые генерации с таким языком будут говном, но если подзабить контекст, уже пойдёт её максимальный скилл.

Напомнило мне, как я на тестах закидывал в инпут FUCK YOU SUCKER и SUCK YOU FUCKER поочерёдно, чтобы отрегулировать работу с api. Вот это было охуенно, всем советую, нейронка под конец билась в истерике и кричала что-то типа "я думал, что мы друзья, но теперь нет! нет! нет!" и так до конца макс токенов.
Аноним 12/02/24 Пнд 13:23:41 #418 №640586 
>>640585
> IMPERSONATE. Или сломай нейронку, чтобы она выдавала твои ответы за тебя,
Я бы хотел такую штуку, что я даю нейронке свой краткий текст, и он бы его обогащал описаниями и всем прочим, и уже считая это как мой ответ генерировал бы новый текст.
Аноним 12/02/24 Пнд 13:24:22 #419 №640588 
>>640586
Т.е. это ведь по сути 2 разные нейронки будут?
Аноним 12/02/24 Пнд 13:31:49 #420 №640590 
>>640586
Допиши модуль к вебюи, тебе, по сути, и надо, что отправить сообщение без контекста с карточкой типа "ты берёшь и разворачиваешь описания того, что я тебе отправил". Вторую нейронку в память грузить не придётся.
Аноним 12/02/24 Пнд 13:32:42 #421 №640591 
>>640590
Понял. Пошел пытаться.
Аноним 12/02/24 Пнд 13:54:32 #422 №640598 
>>640553
> если у меня бедный словарный запас
Радоваться, ведь так тебя не будет напрягать косноязычность сеток.
>>640585
> сломай нейронку, чтобы она выдавала твои ответы за тебя, лол
> IMPERSONATE
Так это оно и есть
>>640586
Просто отдельный запрос как >>640590 написал, можно в таверне дописать экстеншн, вроде даже что-то подобное уже было.
Аноним 12/02/24 Пнд 16:32:01 #423 №640660 
Q0N9Rja.png
gptq сосет даже у Q4_k_m. Еще и тест на калибровочном датасете, то есть тут даже фору дали. На некалиброваном там вообще разрыв будет дикий.
Аноним 12/02/24 Пнд 16:49:52 #424 №640670 
>>640660
Разница на уровне недетерминированности ценой 5% 15% (с контекстом) большего жора врам, при том что на других моделях обратный результат.
> Еще и тест на калибровочном датасете
Таблетки
Аноним 12/02/24 Пнд 16:52:27 #425 №640674 
>>640470
Литералли «мои глаза выше». =D

>>640660
5+битный ггуф соснул у 4,65-битной экслламы, я верно понял?
Аноним 12/02/24 Пнд 16:57:05 #426 №640677 
Сорян-борян.

Q4_K_M is 4.8bpw
Q3_K_M is closest to 4 bit, at 3.9bpw

У меня таких моделей нет, проверить не могу, нагуглил с вашего реддита.
Аноним 12/02/24 Пнд 17:15:50 #427 №640692 
>>640674
>>640670
Верно слегка проиграла exllama2. Но gguf обеспечат качество на любых данных, а exllama2 только на википедии. При том что тут еще нет q5 который будут лучше и exllama 4.9, заняв на 300мб в видеопамяти больше, при этом опять будет тебе гарантировать качество на любых данных.
Аноним 12/02/24 Пнд 18:09:41 #428 №640717 
АНТУАНЫ КАКОЙ СЕЙЧАС САМЫЙ ПИЗДАТЫЙ ЛОКАЛЬНЫЙ АНАЛОГ ЧАТАГПТ?
Не знаю нихуя, полгода назад пробовал ламы-хуями и различные их вариации - на выходе кал. Только что микстраль скачал - вроде бы более-менее. Есть ли что-то пизже? Дельфин-микстраль что за зверь?
Аноним 12/02/24 Пнд 18:20:58 #429 №640724 
>>640717
> Есть ли что-то пизже?
Да.
Аноним 12/02/24 Пнд 18:23:06 #430 №640727 
>>640717
Лучше мистраля только 70б+, но их я ни разу не тыкал ещё.
Аноним 12/02/24 Пнд 19:01:38 #431 №640758 
>>635452 (OP)
Exploring the fastest open source LLM for inferencing and serving | VLLM
https://www.youtube.com/watch?v=rng-3NOmZ9k
Аноним 12/02/24 Пнд 19:05:51 #432 №640760 
>>640717
Среди 7B моделей, основанных на Mistral, эта годнота.
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF

Можешь ещё попробовать, тоже 7B.
https://huggingface.co/TheBloke/openchat_3.5-GGUF

Конечно, если ресурсы позволяют, то лучше использовать 13B и выше.
Аноним 12/02/24 Пнд 19:13:23 #433 №640768 
>>640692
> Но gguf обеспечат качество на любых данных, а exllama2 только на википедии
Главное эту мантру себе по утрам повторяй. Ознакомился бы с темой, посмотрел бы какая битность какому кванту соответствует и не позорился бы.
>>640717
> АНАЛОГ ЧАТАГПТ?
120б на основе мику, лол. Если сузить запрос, сформулировав что нужно, можно много вариантов предложить под разное железо.

Чому не скидывали такую-то тему
https://www.reddit.com/r/LocalLLaMA/comments/1alryn6/ https://arxiv.org/pdf/2402.01781.pdf
Аноним 12/02/24 Пнд 20:07:46 #434 №640821 
Пиздец идея появилась, а что если распределить MoE модель на компы юзеров аля торрент? Берем создаем gating функцию для каждого клиента, граничим ее на 100-200 экспертов. gating функция может быть насколько мне известно обычной Dense сеткой этак на три слоя по 100млн параметров каждый, так что ее можно будет обучать правильно роутить даже на полудохлом CPU от фидбека юзера. Брать от нее будем topK экспертов что находятся в онлайне, а сколько K экспертов брать пускай указывает сам юзер. Таким образом, предположительно можно будет еще и давать юзерам подгружать своих экспертов, высосанных из обычных LLM моделек (тут же представил фулл засранную ERP-модельками сеть), а gating функция в таком случае будет понемногу обучаться использовать их в время инференса.

Остается только проблема с тем, что юзеры находятся не постоянно в онлайне, если вообще не заходят раз в месяц чисто кум контента себе наделать.
Аноним 12/02/24 Пнд 20:12:11 #435 №640823 
>>640821
> Остается только проблема с тем
Что эксперты на поверку дебилы. Микстраль нельзя повторить просто закинув восемь шизомиксов. Двести шизомиксов наврядли будут сильно лучше.
Аноним 12/02/24 Пнд 20:33:33 #436 №640840 
>>640823
Разумеется нельзя, так как там кроме gating функции одновременно тренились и все эксперты. Тем не менее попробовать стоит, так как предположительно, если в сети будет эксперт, что понимает хорошо математику и будет другой эксперт, что хорошо понимает как говнокодить, то на промпт "напиши-ка мне код который вычислит производную N функции" правильно обученная gating функция возьмет вывод с этих двух экспертов.
Аноним 12/02/24 Пнд 20:46:34 #437 №640858 
>>640823
И кстати говоря, зачем нам потом закидывать туда простых Франкенштейн-экспертов, если мы можем добавить обучаемость самих экспертов в этой самой сети? Ведь в таком случае, эксперт будет учиться в итоге брать на себя определенные подзадачи в этой самой сети, как в обычном MoE. А давать обучаться эксперту или не давать может сам юзер-хост, смотря позволяют ли его мощности обучать эксперта или нет (с adafactor 7b модель можно более или менее обучать на 24gb видеопамяти)
Аноним 12/02/24 Пнд 21:09:37 #438 №640867 
>>640760
Щас бы ему с Микстрали на Мистраль даунгрейдится. =)
Соево-дистилированного гермеса или же незатыкающегося опенчата. Хотя опенчат неплох, да.

>>640821
Распределенных моделей несколько проектов есть с весны, и там и МоЕ не нужно — с 70б вполне работают.
Но, как видишь, всем похуй, не взлетело.

Хотя Хорду кто-то да юзает, там сидят свои сотни людей.

Но в общем, сомневаюсь, что этим будут пользоваться, даже если ты поднимешь качество от уровня плинтуса.
ИМХО.
Аноним 12/02/24 Пнд 21:21:01 #439 №640882 
>>640867
>Распределенных моделей несколько проектов есть с весны, и там и МоЕ не нужно — с 70б вполне работают.
petals? он позволяет только инференсить их и совсем слегка обучать. Кроме того, чем больше модель - тем дольше ее инференс, так как тебе приходится пройдись по всем 70B параметрам. и сделать сеть умнее не получится - только если заменять модель целиком. С MoE проще, так как ты из общих 700B~ параметров берешь например только 21 (если использовать 3 эксперта и учесть что скорее всего все эксперты будут 7B). Хочешь сделать сеть еще умнее? добавил еще парочку экспертов, задал им обучаемость, подождал, профит.


>Хотя Хорду кто-то да юзает, там сидят свои сотни людей.
фактически тоже самое, только теперь 1 модель на 1 хостера.
Аноним 12/02/24 Пнд 21:22:01 #440 №640885 
>>640821
Не знаю что только что прочитал, но звучит ахуенно, лол. А вообще можно попробовать экспертов пихнуть в лепестки, или даже орду, но задержки все на ноль помножат. Плюс повышенная нагрузка и огромное число холостых запросов что не будут использованы в итоге, если правильно понял задумку.
Аноним 12/02/24 Пнд 21:29:44 #441 №640891 
>>640885

принцип работы gating функции в том, чтобы выбирать K самых подходящих под промпт по мнению этой самой функции экспертов, и отправить обрабатывать промпт (представим что промпт, на самом деле там чуточку сложнее) им. Если у нас есть 8 экспертов, но мы берем лишь 2 самых лучших, то остальные не будут задействованы вообще, что означает что холостых запросов не будет.
Аноним 12/02/24 Пнд 21:59:16 #442 №640911 
>>640882
Все же, это скорее добавляет знания, а не то чтобы логику. =) Количество-то слоев мелкое остается.
Но если мы предположим экспертов побольше… на больших видяхах…

Опять же, 99% людей использует одни и те же эксперты. А моделька (условная) со знанием 100500 рецептов цукини пригодится примерно никому.
Хотя я могу представить, как твоя вайфу использует ее в рп готовки, окей.

Но опять же, ты понял, мало людей юзают такое.
Аноним 12/02/24 Пнд 22:09:27 #443 №640920 
>>640891
Но ведь оно будет работать если тренилось совместно с самими экспертами, чтобы их части были согласованы. И должна очень явно проявиться убывающая прибыль от роста количества экспертов, если на 8 давая двум смысл есть, то на 100+ уже мало. Особенно если не юзать каких-то специальных методов. Если только не пускать на множестве, чтобы потом как-то оценивать, заодно собирая данные для обучения но тогда будут те проблемы, и мелочью из трех слоев уже не обойтись.
Аноним 12/02/24 Пнд 23:55:38 #444 №641047 
>>640891
>Если у нас есть 8 экспертов, но мы берем лишь 2 самых лучших
А чтобы оценить их качество, нужно получить вывод от каждого и сравнить с эталонным.
Аноним 13/02/24 Втр 09:01:57 #445 №641189 
>>641047
>А чтобы оценить их качество, нужно получить вывод от каждого и сравнить с эталонным.
gating функция в время инференсов постепенно может обучаться в зависимости от фидбека юзеров. И пару раз в день ее можно синхронизировать между юзерами в сети.

>>640920
>если на 8 давая двум
"Брать от нее будем topK экспертов что находятся в онлайне, а сколько K экспертов брать пускай указывает сам юзер".

>>640911
>Все же, это скорее добавляет знания, а не то чтобы логику. =) Количество-то слоев мелкое остается.

на каждый вывод токена каждый раз берут очередных экспертов, так что не думаю что это будет добавлять только знания, так как предположительно даже такую абстрактную задачу как логическое мышление модель в итоге может разбить и на 100 и более экспертов.
Аноним 13/02/24 Втр 09:25:42 #446 №641196 
image.png
>>641189
кто бы мог подумать, оказывается, gate функцией в mixtral является 1 крошечный слой
Аноним 13/02/24 Втр 09:34:12 #447 №641197 
>>641189
>в зависимости от фидбека юзеров
ЕМНИП эксперты выбираются на токен. На каждое слово по отзыву просить?
Аноним 13/02/24 Втр 09:45:28 #448 №641202 
>>641197
>ЕМНИП эксперты выбираются на токен. На каждое слово по отзыву просить?
зачем на каждое? нам достаточно знать какие эксперты были задействованы, и в том случае если итог юзеру не понравился, уменьшить вероятность того что в следующий раз эти эксперты будут задействованы.
Аноним 13/02/24 Втр 10:16:18 #449 №641217 
>>641202
Я тут уже и нашел на чем все это можно строить:
https://learning-at-home.readthedocs.io/en/latest/user/moe.html
Аноним 13/02/24 Втр 10:35:35 #450 №641228 
Господа, сильно ли выиграю если перекачусь с GGUF на GTPQ?
3080ti c 12гб, накраплеными лично Курткой.

А так же нет инфы когда там Gemini появился, да еще в виде 13b модели.
Аноним 13/02/24 Втр 10:46:10 #451 №641232 
>>641228
Скорость в 3 раза выше будет.
> Gemini
Кал.
Аноним 13/02/24 Втр 10:54:24 #452 №641233 
>>641232
Оу... Спасиб за инфо.
А то я смотрю что тут аноны по 70b гоняют. Я чет думал что многие ждут, попердывая в стул. А тут оказывается GPTQ в 3 раза быстрее аж.
Жаль что в шапке этот вопрос не рассмотрен.
Аноним 13/02/24 Втр 11:00:20 #453 №641236 
>>641233
А так GTPQ то только в видеопамять можно, а GGUF делить можно в карту и ram. На кой мы по твоему на гуфе сидим и копейки тоекны свои дрочим? Удачи поместить 70б в видеокарту.
Аноним 13/02/24 Втр 11:04:07 #454 №641237 
>>641236
Бля, я думал что мне хватит скачать exllama2 да подрубить её к таверне. Далее скачать модель гиглв на 30 и тихо запустить её.
А тут еще какие-то гуфы.
Может есть како-то гайд для раков?
Аноним 13/02/24 Втр 11:15:33 #455 №641242 
>>641237
Какой у тебя бекэнд и какой фронт?
У меня угабуга бек в котором я через llamacpp_HF запускаю 20б модель. Часть слоев кидаю на карту для скорости, остальное в рам.
Потом ко всему этому через апи конектится таверна в которй я и играю.
Аноним 13/02/24 Втр 11:17:09 #456 №641243 
>>641228
Погоняй эту модель в обоих форматах, у меня по итогу получилось, что GPTQ где-то вдвое быстрее, но реально намного тупее. Если значительное ускорение стоит того, тогда дерзай. А так, весит меньше, работает быстрее, одни профиты.
Аноним 13/02/24 Втр 11:30:57 #457 №641249 
>>641242
>>641243
Ну пока у меня кобольдццп фронт и таверна в виде бэкэнда(надеюсь верно описал).
Стоит качать угубугу? Далее подрубить её к exllama2?
Просто когда пробовал GGUF на 70b запустить через кобольдццп- у меня было всего 20 слоёв и скорость ну токена 2 в секунду.
Аноним 13/02/24 Втр 11:40:25 #458 №641256 
Я тупой, поэтому узнаю, если накатить это
https://kemono.su/patreon/user/80482103/post/92531137
и каким-то способом подрубить к exllama2, то мне будет счастье?
Хотел в таверну погонять в свой выходной, а оказалось что есть GTPQ, который покруче. Пиздец короче. Лучше бы был в полном незнание.
Если совсем тупые вопросы- лучше не отвечайте. Пойду реддит мучать.
Аноним 13/02/24 Втр 11:42:12 #459 №641257 
>>641256
Скачай с гитхаба как человек блядь
https://github.com/oobabooga/text-generation-webui
Аноним 13/02/24 Втр 11:43:00 #460 №641258 
>>641249
>всего 20 слоёв и скорость ну токена 2 в секунду
>всего
Да соси бля. Богатенький черт.
Аноним 13/02/24 Втр 11:44:30 #461 №641260 
>>641249
К угабуге не надо подрубать что-то, она по дефолту умеет в экслламу. Можешь таверну подкинуть, но это не обязательно. Два токена на 70b это ещё дохуя, у меня 2-3 токена на 34b на 3080ti.
Аноним 13/02/24 Втр 11:49:01 #462 №641266 
>>641260
>34b на 3080ti
Сколько у тебя рам? Как вообще запустил?
мимо
Аноним 13/02/24 Втр 11:53:25 #463 №641269 
>>641257
>как человек
Мхе.

>>641258
>>641260
Стопе. А сколько вы тогда вы ждете ответа с моделями в 34/70b через GTPQ? На GGUF 13b госпожа ЛЛМ дает ответ на 300 токенов ну секунды 4-8.
Аноним 13/02/24 Втр 12:06:50 #464 №641275 
Эмм.. А что то запустить на своей джокерской 1650 можно? Оперативки 8гб...
Аноним 13/02/24 Втр 12:11:09 #465 №641278 
>>641275
7б.
Аноним 13/02/24 Втр 12:25:43 #466 №641286 
>>641233
>А то я смотрю что тут аноны по 70b гоняют.
Гоняю на твоей 3080ti эти самые 70B со скоростью в токен в с, медленно урчу.
Аноним 13/02/24 Втр 12:28:21 #467 №641289 
1.png
>>641266
Тупо скачал и запустил. Только долго это, пиздец. 32гб ram.

>>641269
>ждете ответа с моделями в 34/70b
А я их не гоняю, нахуй надо ждать по вечности ответ. Гонял 13b в fp16 последние пару дней, скорость нормальная, сейчас скачал 13b в gptq для теста, ну, быстро. Но или модель слишком зажатая, или надо настройки смотреть, мало пишет.
Аноним 13/02/24 Втр 12:30:19 #468 №641290 
>>641275
>что то запустить на своей джокерской 1650 можно?
Контру попробуй. Дота ещё должна вроде запуститься. То, что у тебя поместится в ОЗУ или видеопамять даже нет смысла запускать, какое оно тупое
Аноним 13/02/24 Втр 12:35:52 #469 №641295 
>>641290
Это сарказм? Что имелось в виду? Я у мамы глупый.
Аноним 13/02/24 Втр 12:36:43 #470 №641296 
>>641286
Ну ты же гоняешь её через GGUF 70b, верно? Минут 5 ждешь или поменьше?

>>641289
Я тут начал качать 20b модель в GPTQ, она вроде слезает в 11гб с 4-bit group size 128g.
Не сравнивал 13b и 20b? Чет уже не думаю что переход на GPTQ не такой уж радостный. Скорости с 200 слоями на 13b хватало за глаза, хотелось именно больших моделей, но что бы не ждать по 5 мин.
Аноним 13/02/24 Втр 13:01:53 #471 №641304 
>>641296
Ставлю вторую печ рядом со второй/меняй первую на 24гига
Аноним 13/02/24 Втр 13:02:38 #472 №641306 
>>641304
>рядом с первой
Fxd
Аноним 13/02/24 Втр 13:04:08 #473 №641307 
>>641296
> Скорости с 200 слоями на 13b
Ты где 200 слоёв в 13б нашёл?
Аноним 13/02/24 Втр 13:09:53 #474 №641308 
>>641289
>Тупо скачал и запустил. Только долго это, пиздец. 32гб ram.
Мне все равно буде тчто долго. Какую конкретно модель? У меня чет не лезет в похожий сетап.
Аноним 13/02/24 Втр 13:11:01 #475 №641309 
>>641275
>Оперативки 8гб
Бля...
Не анон это похоронная.
Аноним 13/02/24 Втр 13:13:39 #476 №641310 
image.png
>>641307
Я наверно чет не верно пишу, но кобольд мне сам меняет на 200 слоёв, когда модель влезает в память карты.
А если не влезает ставил 20-30.

Какая ж ваша угабуга не понятная пиздец просто. Какой же кобольд понятный.
Аноним 13/02/24 Втр 13:15:25 #477 №641311 
>>641296
> с 200 слоями на 13b
Что, простите? На большие я бы даже не расчитывал, жду свою p40 и то вряд ли буду даже на ней гонять что-то жирнее 20b. А, скорее всего, останусь на 13b. Ooba это буквально самое простое, что только может быть.

>>641308
>Какую конкретно модель?
https://huggingface.co/01-ai/Yi-34B
https://huggingface.co/deepseek-ai/deepseek-coder-33b-instruct
Вот эти работают, вполне влезают.
Аноним 13/02/24 Втр 13:45:04 #478 №641335 
image.png
Пиздец угабуга скоростная
Аноним 13/02/24 Втр 13:48:22 #479 №641338 
1.png
>>641335
Уверен, что у тебя есть видеокарта?
Аноним 13/02/24 Втр 13:55:47 #480 №641348 
>>641311
Ыыыыы а как это запускать? Я только гуфф умею крутить.
Аноним 13/02/24 Втр 13:58:16 #481 №641350 
>>641338
Я уже ни в чем не уверен.
Швятой кобольд сразу определил что карта есть и стоит на ней считать.
А вот угабуга вообще нихуя не делает.
Аноним 13/02/24 Втр 13:59:31 #482 №641352 
>>641350
А ты мб ей приказ не дал? Синь скрин настроек запуска.
Аноним 13/02/24 Втр 14:04:19 #483 №641358 
image.png
image.png
>>641352
Вот наверно.
Пойду вики почитаю.
Аноним 13/02/24 Втр 14:12:28 #484 №641368 
>>641296
>её через GGUF 70b, верно
Других вариантов нет.
>>641296
>Минут 5 ждешь или поменьше?
По минуте.
>>641307
Это дефолт, типа "без лимита выгрузить всё".
Аноним 13/02/24 Втр 14:20:33 #485 №641374 
вы куда проебали таблицу моделей со значками и фильтрацией по интелекту-креативности-ерп
там еще перцы были
хули нет в шапке - несколько раз прверил
Аноним 13/02/24 Втр 14:21:40 #486 №641376 
>>641374
Нерепрезентативная хуета, в топе постоянно шизоговно было.
Аноним 13/02/24 Втр 14:26:02 #487 №641379 
Клятый угабуга завелся только после того как выставил слои в 256.
Да, быстро отвечает.
Надеюсь больше не будет таких пасхалок от людей с iq 130 для людей с 84.
Аноним 13/02/24 Втр 14:28:52 #488 №641384 
>>641379
>Клятый угабуга
конченая хуета которая не раьотает из коробки а выебывается как будто работает
еще и после каждой ошибки нехватки памяти надо перезапускать иначе он не будет работать с моделью с которой 5 мин назад работал
еще и генерит по 5 минут на ехламе
Аноним 13/02/24 Втр 14:33:14 #489 №641388 
>>641384
какая модель, тип квантов, сколько ОЗУ, процессор, сколько у GPU врам если есть?
Аноним 13/02/24 Втр 14:37:34 #490 №641394 
>>641348
Берёшь ссылку, копируешь в угабуге во вкладке model, там есть поле для скачки. Скачиваешь, нажимаешь загрузить. В 99% случаев все настройки подхватываются автоматически и тебе буквально ничего не нужно больше делать. Ну, настроить семплер и карточку по вкусу разве что. Это не самые быстрые варианты, не самые оптимальные модели, можно скачать квантованые, gptq или другие версии. Но эти работают тоже. GGUF я не гонял, это вроде процессорная пердоль. Не интересно.
Аноним 13/02/24 Втр 14:40:25 #491 №641399 
>>641388
> сколько ОЗУ, процессор,
мне реально интересно какое это имеет значения на (ВИДЕО) моделе гпткью для ексламы? врам иногда хватает на 13Б и стабильно хватает на 7Б
в озу упора вроде небыло на сколько помню когда тестил
Аноним 13/02/24 Втр 14:43:38 #492 №641402 
>>641189
> "Брать от нее будем topK экспертов что находятся в онлайне, а сколько K экспертов брать пускай указывает сам юзер".
Речь о том что в этом мало толку, организовать 8 разных - уже задача, а тут столько разных, плюс возможность абуза заданием большого количества.
> на каждый вывод токена каждый раз берут очередных экспертов
Задержки
>>641228
В том что помещается в твою врам - будет быстрее. Но на 12 гигов особо не разгуляешься, поэтому для чего-то побольше 13б ггуф - вынужденый выбор. Сильно не огорчайся, всеравно будет быстро если в пределах 20б.
>>641237
> Бля, я думал что мне хватит скачать exllama2 да подрубить её к таверне. Далее скачать модель гиглв на 30 и тихо запустить её.
Да, но это только в случае если у тебя хватает врам.
> Может есть како-то гайд для раков?
https://2ch-ai.gitgud.site/wiki/llama/
https://2ch-ai.gitgud.site/wiki/llama/guides/kobold-cpp/
https://2ch-ai.gitgud.site/wiki/llama/guides/text-generation-webui/
Аноним 13/02/24 Втр 14:48:26 #493 №641405 
>>641269
> А сколько вы тогда вы ждете ответа с моделями в 34/70b через GTPQ?
Поскольку есть стриминг - не ждем вообще. На полную печать ответа может уходить до 20-30 секунд, 40+ в особых случаях на полотна 600+.
>>641350
Катай кобольд раз так, если все работает то смысл в убабуге есть прежде всего для CFG (хотя хз может в кобольда его завезли) и при работе с exllama.
>>641384
> конченая хуета которая не раьотает из коробки а выебывается как будто работает
> еще и после каждой ошибки нехватки памяти надо перезапускать
> еще и генерит по 5 минут на ехламе
Какой-то максимальный скиллишью, что-то делаешь неправильно.
Аноним 13/02/24 Втр 14:52:46 #494 №641410 
>>641399
так скажи просто сколько VRAM, какие кванты (3, 4, или больше). Можешь еще показать какие настройки используешь
Аноним 13/02/24 Втр 15:06:03 #495 №641416 
>>641394
Окей спсибо.
Аноним 13/02/24 Втр 15:54:37 #496 №641458 
Угабуга круто. Рад что перешел с кобольда.
Аноним 13/02/24 Втр 16:20:27 #497 №641473 
>>641374
>таблицу моделей со значками и фильтрацией
Ты куда глаза проебал?
>>635452 (OP)
>Рейтинг моделей для
>>641379
>Надеюсь больше не будет таких пасхалок от людей с iq 130 для людей с 84.
Стань человеком с iq 130.
Аноним 13/02/24 Втр 16:29:25 #498 №641482 
Никто не пытался подрубать eGPU(внешнюю, через thunderbolt/USB-4) к своему ноуту для работы с llm? Ноут достаточно шустрый(ryzen 9 7940, rtx4070, ram 32 ddr5), но вот vram всего 8 gb, что пздц как мало, квантованные 7b и 13b еле влазят, все что больше неюзабельно. (1-2,5t/s на 33b модели). Вот думаю купить box под карточку и tesla p40. Вопрос в том заведется ли (p40 будет работать под виндой 11?), можно ли будет объединить vram ноутбучную и p40? Или проще по цене этого бокса собрать китай сборку на xeon?(не хочу этот хлам у себя дома складировать)
Аноним 13/02/24 Втр 16:36:56 #499 №641488 
>>641458
Есть ли преимущества в скорости или киллер фичи? Или те же яйца, только UI другой?
Аноним 13/02/24 Втр 16:47:29 #500 №641502 
>>641482
> внешнюю, через thunderbolt/USB-4
Она будет видеться как обычный девайс. Требований к ширине шины у LLM особо нет, в теории даже сможешь разбивать между основной гпу и внешней.
> Вот думаю купить box под карточку и tesla p40
Бокс обойдется в разы дороже этой теслы. Лучше просто собери любую пекарню на самой доступной комплектухе (бюджетной или бу), можно даже в ITX корпус оформить если сможешь разобраться как турбину в тесле приколхозить. Подключаться будешь удаленно хоть с мобилки а штуку эту разместишь в любом месте своего дома.
>>641488
> Есть ли преимущества в скорости
> Или те же яйца, только UI другой?
Какбы кобольд - юзер френдли обертка llamacpp, заточенная под простоту. Убабуга - ебический комбайн под разные лаунчеры (в том числе более быстрые чем llamacpp) и функции. Правда многое там коряво и нужно далеко не всем, но сам факт.
Аноним 13/02/24 Втр 16:48:27 #501 №641503 
>>641488
Кушает gptq, да и может шиза- мне он показался пошустрее на гуфах чем кобольд.
Аноним 13/02/24 Втр 16:56:17 #502 №641513 
>>641502
Если брать китайский бокс, а не фирму (ryzer), то 10-15к. Xeon + 64ram, выйдет примерно столько же, не считая корпуса, охлада, мусорной gpu для вывода изображения и ssd, просто не факт, что в дальнейшем этот хлам будет поддерживаться разработчиками (винда 11 заводится с бубном).
Но за ответ спасибо, сам к таким выводам пришел, но мб кто на практике внешний бокс собирал, хотел узнать возможные подводные.
Аноним 13/02/24 Втр 16:59:53 #503 №641515 
>>641503
Пока не попробуешь, не узнаешь? Оке, счас попробую.
Аноним 13/02/24 Втр 17:03:20 #504 №641520 
>>641513
Тут судить сложно, если бы делал сам - взял бы с рук готовую itx платформу на ддр4 с igpu. В 10-15к можно взять что-то с 32 гигами рам, если нужно 64 - добавить еще 5к. Иногда такое сразу в комплекте с корпусом можно найти, из расходов - только на нормальный бп 400+вт. Или какой-нибудь некрозеон, или просто ддр4 обычную платформу на чем-то не старше райзен 3000/интел 9000 с перспективой под вторую гпу.
Это убивает сразу все потенциальные проблемы с совместимостью и позволяет удобно размещать.
> Если брать китайский бокс, а не фирму (ryzer), то 10-15к
Полный комплект с бп и прочим? Очень круто на самом деле. По поводу совместимости - это все работало с паскалями, но врядли кто-то вообще пытался проверять с некротеслой на современной системе, так что ты будешь первым.
Аноним 13/02/24 Втр 17:14:50 #505 №641529 
>>641520
Ну я тоже рассматривал для последующего расширения некросборку, чтоб мать держала (pci-e x 16) штуки 2-3, 4 канала DDR4. Просто если брать что-то более современное(ryzen со встройкой или intel, а старая хрень 2-4 ядра будет очень тормознутой), то такая мать с поддержкой стольких pci разъемов выйдет ОЧЕНЬ невыгодно.
Цена бокса без БП, но думаю, что на барахолке найти не будет проблем. Вот и я по совместимости сомневаюсь, перерыл кучу статей и обсуждений, но ничего подобного не нашел.
Аноним 13/02/24 Втр 17:24:46 #506 №641544 
>>641513
>винда
Для сервака под нейронки лучше уж linux накатить.
Аноним 13/02/24 Втр 17:27:23 #507 №641548 
1551590266316.png
У них там 4турба или 3.5?

>>641529
> чтоб мать держала (pci-e x 16) штуки 2-3, 4 канала DDR4
Если делаешь сборку на видеокартах - каналы памяти и перфоманс проца не имеют значения (в разумных пределах). По поводу линий - полной ясности нет, но с очень высокой вероятностью тоже.
> такая мать с поддержкой стольких pci разъемов выйдет ОЧЕНЬ невыгодно
Буквально любая с формфактором ATX. В не самых новых но более жирных часто можно поделить х16 на 2х8, но врядли проиграешь даже на чипсетных.
> по совместимости сомневаюсь
Чтож, можешь попытаться найти людей у которых будут бокс под видюху и тесла для проверки. Сразу понадобится переходник на ее питалово, кулер для проверки работоспособности не потребуется, но можешь уже думать как его организуешь и куда там будешь подключать.
>>641544
+
Аноним 13/02/24 Втр 17:28:21 #508 №641549 
>>641544
Знаю, что лучше. Просто меня пугает этот перолинг с консолью и возможные проблемы с драйверами(проблемы совместимости более актуальны для linux нежели винды). Хотя все равно придется учиться, это да.
Аноним 13/02/24 Втр 17:30:33 #509 №641552 
>>641549
> возможные проблемы с драйверами
Как бы рофлово это не звучало, но там потенциальных проблем с драйверами будет гораздо меньше, чем при попытке подружить шинду с радикально разными архитектурами видеокарт, одна из которых еще и мобильная, а основной выход изображения через встройку. Пердолинг - будет.
Аноним 13/02/24 Втр 17:37:55 #510 №641560 
>>641552
В инете куча роликов про дружбу видюх разных поколений с разными дровами(laptop и eGPU), но вот дружбы с серверным оборудованием как раз и не находил. Но пердолингу быть, это факт.
Аноним 13/02/24 Втр 17:58:27 #511 №641590 
>>641548
>Чтож, можешь попытаться найти людей у которых будут бокс под видюху и тесла для проверки.
Хах, и вот тут я иду нахуй.
Глянул сборки на ryzen 2-3 серии, если количество потоков на проце не решает для llm, то вариант хорош. Надо обдумать. Сяп за совет.
Аноним 13/02/24 Втр 18:03:54 #512 №641599 
ПЕРЕКАТ мне одному кажется, что революций как-то мало? Давно шапку не менял.

>>641598 (OP)


>>641598 (OP)
Аноним 13/02/24 Втр 18:07:45 #513 №641602 
image.png
>>641217
за два часа наговнокодил серверную часть и на 50 клиентскую, благо в hivemind все уже почти готово. Остается только решить загрузку нужных весов и все, proof of concept готов. А дальше, если так и дальше хорошо пойдет то можно будет доработать уже сам hivemind под нужды проекта и будет кайф. Кстати, немного не понял метод работы mixtral в прошлый раз: оказывается в нем довольно много декодер слоев, и каждый декодер содержит attn и по 8 экспертов, каждый эксперт не так уж и много весит и 7B на эксперта берутся из за количества этих самых слоев. Это нам даже на руку, так как теперь мы можем например взять 20 слой и напичкать его более большим количеством экспертов, и это нормально встроится в уже рабочую сеть.
Аноним 13/02/24 Втр 18:11:35 #514 №641608 
>>641548
>Если делаешь сборку на видеокартах - каналы памяти и перфоманс проца не имеют значения (в разумных пределах). По поводу линий - полной ясности нет, но с очень высокой вероятностью тоже.
Скоро узнаем. Я поверил чувакам с Реддита и купил б/у ASUS x99-E WS. Вообще вся сборка б/у так что шанс, что всё сразу заработает невысок. Да и P40 у меня пока всего две. Но малый квант 70В влезет.
Аноним 14/02/24 Срд 01:37:33 #515 №641960 
>>640717
>Дельфин-микстраль что за зверь?
Присоединяюсь к вопросу. Пока что есть подозрение, что дельфинами называют попытки разбавить соевость, но я не уверен.
Аноним 14/02/24 Срд 02:48:54 #516 №641974 
какого хрена бугабуга вместо автоскачки с кагфейс модели - качает только методаные и файл ридми и говорит якобы готово? год назад такой хуйни не было!! как качать то?
Аноним 14/02/24 Срд 08:52:41 #517 №642017 
>>641974
Ты ссылку то правильно скопировал?
Аноним 14/02/24 Срд 08:55:11 #518 №642018 
>>642017
да - я же раньше копировал так же и качалось как надо а потом работало
Аноним 14/02/24 Срд 10:39:22 #519 №642036 
Поясните залетному плиз. Как вы используете локальные нейронки? Тупо для текстового дроча?
Аноним 14/02/24 Срд 10:48:13 #520 №642039 
17078930857320.png
Что без цензуры брать
Аноним 14/02/24 Срд 10:49:18 #521 №642040 
Аноны, какая самая годная языковая модель будет для моей системы?
32гига оперативки
rtx3060ti 8gb
i7 8700 проц
Аноним 14/02/24 Срд 10:56:43 #522 №642043 
>>642036
Ну я дрочу чисто но дрочу очень сладко.
Аноны помунее там рерайтя кодят и вообще новукой занимаются.
>>642040
noromaid-20b-v0.1.1.Q5_K_M.gguf
У меня прям 1:1 сетап.
Аноним 14/02/24 Срд 11:02:01 #523 №642046 
изображение2024-02-14130159571.png
>>642043
а есть инструкция и ссыль на скачку?
я новичок.
noromaid-20b-v0.1.1.Q5_K_M.gguf

А какой именно скачивать?
Аноним 14/02/24 Срд 11:07:37 #524 №642048 
>>642046
а лол. там же ты написал Q5 K M
все скачиваю
Аноним 14/02/24 Срд 11:08:32 #525 №642049 
>>642048
ляя, а что дальше делать с этим файлом?
Аноним 14/02/24 Срд 11:09:57 #526 №642050 
>>642046
Ты дурачок? Я же специально полное называние дал. Q5_K_M качай.
Качаешь угабугу, скидываешь скачанную модель в папку для моделей, запускаешь угабугу и включаешь в настройках флажок с апи, загружаешь модель отдавая часть слоев на видимокарту для скорости.
Качаешь таверну, подключаешь к угабуге, с chub.ai качаешь персонажа, чатишься, кумишь так сильно что пробиваешь потолок.
Аноним 14/02/24 Срд 11:14:20 #527 №642052 
>>642050
а где угабугу брать?

Я не для персонажей хотел. Но это тоже попробую.
Хотелось бы книжки прогнать через нейронку.
Аноним 14/02/24 Срд 11:16:19 #528 №642055 
image.png
>>642052
Анон я тебя стукну сейчас иди шапку читай.
Аноним 14/02/24 Срд 11:39:59 #529 №642070 
изображение2024-02-14133935371.png
>>642055
А какие настройки ставить?
И че за флажок с апи
Аноним 14/02/24 Срд 11:51:20 #530 №642085 
>>642070
Блин. Где флажок АПИ?
У меня таверна не видит номада которого я в папку угабуги закинул
Аноним 14/02/24 Срд 12:10:51 #531 №642092 
Блин. Ну вроде апи сработало.
Но как персонажа в угабугу загрузить?
json файл надо качать с chub.ai?
Аноним 14/02/24 Срд 12:22:09 #532 №642101 
1QCDfXVqLd7DQCPxLbKqKpg.png
17078930857320.png
Анонсы, встал впрос. Есть задача - создать инструмент, который, используя ai будет выдавать ответы на вопросы по конкретной тематике.
Самое лучшее что смог придумать - отвалить денег OpenAI с их assistant и, используя chagpt4 с retrival tool (позволяет загружать файлы, чтобы модель могла использовать их для построения ответа) - через апи просто пересылать вопросы и получать ответы.
Файлов достаточно много (почти все пдф - мануалы), кроме нескольких, которые являются примерами типа "вопрос-ответ" (они json)

Плюсы такого подхода:
1)Удобность - просто закинул файлы и готово
2)Ответ быстро генерируется (10сек-1мин)
Минусы:
1)Платно (не парит)
2) Даже используя казалось бы не самую плохую модель - не всегда получается получить релевантный ответ

Собственно из-за второго минуса я и написал сюда. Есть ли ещё какие-либо способы решения моей задачи?

Как я понимаю, в идеале - найти бы модель, которую можно запускать локально/сервер и у которой есть возможность "скармливания" материала, чтобы я мог все свои пдф-мануалы и примеры-json скормить ей, чтобы она могла выдавать релевантные ответы именно по этим материалам.
И да, время генерации ответа критично - хочется, чтобы на это уходило не больше минуты.
Аноним 14/02/24 Срд 13:13:55 #533 №642141 
>>642070
Последняя вкладка сессия
Аноним 14/02/24 Срд 13:14:24 #534 №642142 
>>642092
Перса в таверну. Там есть кнопка импортировать прям ссылку на чуб туда вставь.
Аноним 14/02/24 Срд 19:48:46 #535 №642370 
>>635452 (OP)
Подскажите ньюфагу моменты:
1. Есть ли цензура и подобные ограничения?
2. Можно общаться только с готовыми модельками которые скачаю или есть возможность обучить свою?
3. Можно спрашивать что-то для поиска или обучения? Может ли искать инфу в инете?
4. Что за таверна?
5. Подскажите какие модели могут подойти под систему: AMD Ryzen 3 Pro 3200G, 16 gb оперативки, RTX 4060 Ti и/или как в дальнейшем понимать/искать пойдут ли они мне?
Аноним 14/02/24 Срд 20:14:51 #536 №642382 
>>641405
>Какой-то максимальный скиллишью, что-то делаешь неправильно.
Угабуга - объективно самый пердольный и не-юзер-френдли бэк, хоть у тебя iq 85, хоть 3000.
Аноним 14/02/24 Срд 21:14:13 #537 №642432 
Вы че поехали тут, вчера еще тред перекатили
Аноним 14/02/24 Срд 22:43:12 #538 №642491 
>>642432
Че? Куда как нахуй? лимит 1к постов же
sage[mailto:sage] Аноним 15/02/24 Чтв 04:52:02 #539 №642656 
>>642491
это на 7б 500 постов, а у нормальных посонов на 100б+ с 500 начинается.
Перекат >>641599
Аноним 17/02/24 Суб 11:37:37 #540 №644006 
image.png
юзаю кобальд сс
казалось бы универсальная херня
юзаю формат ггуф как советовали итт
с Masterjp123-NeuralMaid-7b. любым количеством после кью
выдает типо пикрил


как эту херь лечить ??
Аноним 17/02/24 Суб 21:21:35 #541 №644468 
>>644006
Для начала стоит научиться писать в актуальный тред, а не в давно утонувший после переката.
>>641598 (OP)
Аноним 24/04/24 Срд 02:27:38 #542 №715782 
>>644006
лол, SorokinGPT
comments powered by Disqus

Отзывы и предложения