24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №39 /llama/

 Аноним 27/01/24 Суб 22:58:46 #1 №628658 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
Процент брака при квантовании.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде

Предыдущие треды тонут здесь:
>>616097 (OP)
>>604568 (OP)
Аноним 27/01/24 Суб 23:10:17 #2 №628664 
Новый день - новый тред
Аноним 27/01/24 Суб 23:13:11 #3 №628670 
>>628660 →
В тех 2.5? Эффект падения/роста скорости легко показать деля на несколько карточек модель, что может поместитсья на одной, и сравнивая скорости. Анон в парой P40 показал что даже с x4 2.0(!) на двух картах скорости почти так же что на одной. Пусть уточнит если что.
Перфоманс там скейлится почти линейно в зависимости от размера модели.
Алсо
> где народ хвастается высокой скоростью
на 70б заявляются скорости выше чем на 34б, да такие что это даже больше половины перфоманса 3090 в более эффективном режиме. А с ней они не сопоставимы ни по перфомансу чипа, ни по псп врам.
Такого можно достичь только если используются какие-то оптимизации или когда ты пиздабол и этими картами торгуешь. Шина сама по себе тут не при чем будет.
Аноним 27/01/24 Суб 23:30:25 #4 №628678 
А что если наебать систему и взять несколько P40 P100 4060ti 16gb? Считай по вычислительной мощности = 4090, но врама х2, а стоит в 2 раза дешевле. Думойте.
Аноним 27/01/24 Суб 23:35:14 #5 №628682 
Посоветуйте 70b, которая хорошо работает из коробки в sillytavern, заебался ковырять шаблоны контекста что-бы понять какой лучше.
Аноним 27/01/24 Суб 23:42:15 #6 №628686 
>>628678
>Считай по вычислительной мощности = 4090

А мужики то не знают.
Аноним 27/01/24 Суб 23:44:07 #7 №628688 
>>628678
> по вычислительной мощности = 4090, но врама х2, а стоит в 2 раза дешевле
Если бы был легкий способ сложить вычислительную мощность консумерских видеокарт при запуске ллм - был бы крутой вариант. В текущих реализациях они работают по очереди, считай то же самое что одна 4060ти но с увеличенным объемом памяти.
>>628682
В прошлом треде советовали 70.
> которая хорошо работает из коробки в sillytavern
Все они работают с ролплей шаблоном, он в принципе универсален, а 70б менее требовательны к формату.
А так вообще подбирать модель под шаблон - всеравно что автомобиль под резину.
Аноним 27/01/24 Суб 23:48:30 #8 №628690 
>>628688
>Если бы был легкий способ сложить вычислительную мощность консумерских видеокарт при запуске ллм - был бы крутой вариант. В текущих реализациях они работают по очереди, считай то же самое что одна 4060ти но с увеличенным объемом памяти.
А это точно хуже чем собирать всякую экзотику типа P40 на помойке которую ещё и хуй охладишь нормально?
Аноним 28/01/24 Вск 00:05:39 #9 №628709 
>>628690
Пара 4060ti@16 под 34б - норм тема, возможно влезут франкенштейны 56б и всякие МОЕ. Но по деньгам выйдет раз в 5 дороже чем одна P40. По скорости - если сравнивать по редким данным что выкладывали и масштабировать - в llamacpp на 34б будет менее 10т/с, это далеко не в 5 раз быстрее. Колхоз всеравно будет, ведь две видюхи, но более юзер-френдли офк.
Чем больше карточек собираешь для таких пусков ллм, тем менее это выгоднее.
Аноним 28/01/24 Вск 01:13:39 #10 №628797 
>>628709
Да, жоповато выходит.
А какие шансы увидеть в будущем A6000 на барахолке?
Аноним 28/01/24 Вск 01:23:37 #11 №628807 
>>628797
Высокие офк, они уже там появляются. Правда цена негуманная и вопрос ушатанности/живости, запечатанные стоят как ррц. Если вдруг хуанг решил сделать в 5к серии 48гб врам или выпустить титан с ними, и цена будет не выше 3-4к, то будет их наплыв и удешевление.
Можешь прямо сейчас взять пару 3090, на барахолках стоят чуть дороже чем 4060@16. Для всего кроме обучения крупных моделей их будет хватать, алсо там даже нвлинк есть, что может где-то сыграть если использовать.
Аноним 28/01/24 Вск 02:24:27 #12 №628825 
>>628670
База везде.

>>628678
Да ты угараешь, один уже нес такую же херню в прошлом треде!

>>628690
Дороже вдвое-втрое, как минимум.

>>628709
Ну, P40 тоже стоит брать не одну, а две, тогда уж. =)

Ну, типа, со всеми кэшбеками и промиками скок там выходит, 25к за одну 4060ти, это 75 тыщ за 3 штуки (16+16+16=48). а 2 P40 будут стоит 32~35 тыщ.
Ну, в 2,5 раза, таки да.

>>628807
Вряд ли Хуанг так решит сделать.
Аноним 28/01/24 Вск 02:34:35 #13 №628829 
>>628825
>ряд ли Хуанг так решит сделать.
Спорное утверждение. Так-то Хуангу выгодно обесценивать старые карточки, чтобы гои шли покупать новые по оверпрайсу.
Хотя это игра в рулетку.
Аноним 28/01/24 Вск 03:02:45 #14 №628836 
>>628825
> 25к за одну 4060ти
Шо, опять там зеленый банк ультит своими наебаллами?
Ну за условные 75 это вполне себе вариант офк, хотя 3я лишняя.

> Вряд ли Хуанг так решит сделать.
>>628829
> Спорное утверждение
Кто же его знает. С одной стороны тут желание привлечь больше клиентов новой темой и укрепить доминирование. С другой, у них и так все хорошо, карточки сметают и внутренний каннибализм, а тем более конкуренция их профессиональным решениям - нахер не сдалась. Что перевесит - сложно сказать, возможен еще компромисс с 32-36 гигами.
Аноним 28/01/24 Вск 03:06:49 #15 №628838 
И с какой скоростью будут работать эти 4060ти?
Емнип в треде аноны с р40 пруфали, что у них нет потерь производительности от соединения видеокарт, а владельцы 30ХХ и 40ХХ жаловались на потерю производительности в эксламе.
Аноним 28/01/24 Вск 03:13:26 #16 №628843 
>>628838
> в эксламе
С ней как всегда все отлично. Проблемы только с жорой, оно само как-то пытается шарить по дефолту и сильно замедляет. Учитывая что у жоры нет преимуществ - нет и мотивации искать истинную причину.
Аноним 28/01/24 Вск 03:14:48 #17 №628844 
>>628843
Понятно. Спасибо.
Аноним 28/01/24 Вск 03:17:41 #18 №628848 
>>628844
Может быть это все просто шиндопроблемы, ведь тесты P40 что мы видели делались на линуксах, где нет многих приколов и все работает из коробки. Когда сойдутся звезды проверю эту и другие гипотезы.
Аноним 28/01/24 Вск 03:45:50 #19 №628867 
>>628836
Ну, если равнять 48 гигов к 48. =) Три 4060ти против двух П40. Лишняя по размеру, но по памяти лишних не бывает.

>>628838
Очевидно, что со скоростью чуть ниже одной 4060ти, но вот вопрос — с какой скоростью работает она? :) Никто так и не потрогал, кек.
Аноним 28/01/24 Вск 04:06:54 #20 №628871 
Кто нибудь уже тестировал новую WestLake v2?
По тестах пиздец много обещающая.
Аноним 28/01/24 Вск 04:16:49 #21 №628874 
Бля, вы так говорите за 4060ти тут...
Что, внатуре стоит эту 128 бит шляпу брать?
Я бы хотел 4070ти супер новую, но денег сильно не хватает.
Аноним 28/01/24 Вск 06:59:03 #22 №628891 
>>628874
Для llm объём vram важнее всего остального. Для других задач сам смотри, насколько тебе важно.
Аноним 28/01/24 Вск 08:23:12 #23 №628902 
>>628891
Ну это понятно. Но скорость памяти тоже важна, не?
Аноним 28/01/24 Вск 08:37:07 #24 №628905 
>>628902
Да.

Вброшу про 4060, у которой память медленнее Р40...
Аноним 28/01/24 Вск 09:30:10 #25 №628924 
>>628902
Нет.

Если модель полностью в vram, ты в принципе на любой современной видимокарте получишь приемлемую скорость (выше скорости чтения). Больше памяти - больше модель или больше контекста сможешь загрузить. Ну только если тебе принципиально, чтобы было условные 50 Т/с вместо 30 на мелких тупых моделях (при том, что читаешь ты уж точно не выше 10, а скорее даже и 5, как бы ни торопился), то да, скорость важна.

Если оффлоадить, то узким местом в любом случае станет cpu, и опять чем больше поместится в vram, тем лучше.

Если покупать несколько gpu, опять же, чем меньше их будет (чем больше памяти на каждом), тем лучше.

Короче, при любом раскладе параметр vram/$ для llm является наиболее важным.
Аноним 28/01/24 Вск 11:37:18 #26 №628997 
>>628924
> выше скорости чтения
Для дедов, уже 15+ лет по 12+ часов в день только и занимающихся скорочтением от книг до скролинга интернетов и работки, даже 20 т/с мало, потому что уже есть навык литералли читать построчно, а не по словам. Это сложно описать, но ты как бы запоминаешь как выглядит строчка текста, а мозг сам парсит все слова одновременно и выдаёт смысл в башку. По словам только свой написанный текст перечитываешь, чтоб не проебаться в потоке мыслей.
Аноним 28/01/24 Вск 12:31:11 #27 №629037 
>>628686
ты не боишься старости?
Аноним 28/01/24 Вск 12:41:01 #28 №629047 
>>628825
я так же накину, что два PCIe x16 в потребительском сегменте встречаются довольно часто, а вот три PCIe x16 - уже охуеть редкость. Так что три плюсуйте еще новую материнку к стоимости и блок питания дохуя. Мне под мои 2 p40 пришлось покупать киловатник, а знаете сколько они стоят сейчас? Минимум 13к.
Аноним 28/01/24 Вск 13:40:33 #29 №629079 
Реально что-то дорогова-то общая сборка выходит, а так хотелось 3 4016
Аноним 28/01/24 Вск 13:46:25 #30 №629082 
Анончики, а есть где-то вменяемый гайд по P40?
Ну например: Какие дрова ставить? Норм ли на винде или нужен линукс обязательно? Что конкретно можно запустить и как? Угабога например при установке спрашивает про граф. процессор, с P40 устанавливать как NVidia? А лоадеры все работают или только llama.cpp? Что по скоростям на 7,13,20,30,70В?
Аноним 28/01/24 Вск 13:51:28 #31 №629091 
>>629047
По спекам одна P40 потребляет максимум 250 Ватт. В майнерские времена у меня две 280x (тоже по 250 Ватт) сидели на БП 750 Ватт. БП Корсар до сих пор живой и перекочевал в новый комп.
Аноним 28/01/24 Вск 14:00:35 #32 №629103 
>>629091
>P40 потребляет максимум 250 Ватт
Когда там уже чиплетная архитектура, я заебался. Хуйня жрёт энергии, как две р40, а памяти, как у половины.
Аноним 28/01/24 Вск 14:38:06 #33 №629143 
>>629047
>я так же накину, что два PCIe x16 в потребительском сегменте встречаются довольно часто, а вот три PCIe x16 - уже охуеть редкость.
Толку-то с тех слотов, если они не от процессора. И даже такие потребительские материнки с двумя слотами уже встречаются очень редко. Я так понял, сейчас производители делают ставку на первый слот, которому отдают всю производительность - все 16 линий PCIe 4 или 5 версии. А остальные слоты просто для красоты. Более того, с БП та же фигня - все новые БП делают с разъёмом 12VHPWR под одну мощную видяху. А если хочешь 3-4, то этого тупо не предусмотрено.
Аноним 28/01/24 Вск 14:43:09 #34 №629146 
>>628874
> 4070ти супер новую
Она лучше чем 4060 офк, но ничего считай не влезет. 20б в суб 4 битах только. Так по перфомансу она как 3090, только памяти меньше и в пару большие модели не влезут.
>>628902
Да, но даже то что считается днищем по меркам видюх - уже достаточно для быстрой работы.
>>628924
Чаю этому господину.
>>628997
> скорочтением
Это для быстрой оценки "свайп-не свайп", а потом всеравно уже основательно вчитываться, вникать и т.д.
>>629047
> два PCIe x16 в потребительском сегменте встречаются довольно часто
Да ладно, покажешь ссылок на такое? В десктоп профессорах линий не больше 20 а даблеры, казалось, перестали ставить уже больше десятка лет (и не факт что будут эффективны вообще).
> еще новую материнку
Всю платформу, которая современная выйдет страшно дорого. Только некрозеоны с брендовыми/серверными платами, ибо в большинстве китайских перестали нормально линии дополнительные распаивать.
> знаете сколько они стоят сейчас? Минимум 13к
Ахуеть, более мощную платинувую йобу не так давно дешевле можно было купить
Аноним 28/01/24 Вск 15:54:09 #35 №629222 
>>628829
Больше VRAM выйдет неизбежно дороже, даже если тупо добавить стоимость чипов. А ГЕЙмеры всякие будут в недоумении нахрена им переплачивать за лишнюю память. Вот если бы было наподобие конструктора, где можно вставить больше памяти... эх.
Аноним 28/01/24 Вск 15:56:19 #36 №629225 
Мне вот интересно, а потребительские нейроускорители хотя бы в проекте есть? Или только колхоз?
Аноним 28/01/24 Вск 16:02:13 #37 №629229 
1.png
>>629222
>если бы было наподобие конструктора
Мощный стержень Xi вставлять много мозги в кожаные карта.
Аноним 28/01/24 Вск 16:04:11 #38 №629232 
>>629229
Обосрался, это вообще как?
Аноним 28/01/24 Вск 16:06:45 #39 №629234 
>>629222
> даже если тупо добавить стоимость чипов
На 10-20-30%, но никак не в 2-3 раза. Тут вопрос исключительно в окучивании тех, кто готов за такое платить.
>>629225
Хуанг уже напрямую заявляет что его карточки - не только про игры, а вполне себе ии ускорители. У гей_меров так вообще мантра на нейронное сжатие текстур.
>>629229
Прецедент, 2080ти на 44 и 3090 на 48 случаем нету там?
Аноним 28/01/24 Вск 16:26:20 #40 №629255 
1.png
>>629232
Санкции на импорт ускорителей, вот у них там вовсю пошло дело с рефабами. Тонкие серверные 3090\3090ti с турбиной в наличии. Пока что актуально, а значит, и дорого. Хотя баксов на 200 уже подешевело с появления.
>>629234
>Прецедент
Это началось ещё со старых rx в майнинг, когда удваивали с 8 до 16.
>случаем нету
Нету. Нихуя нету. Магазин вообще видимокарточки не продаёт.
Аноним 28/01/24 Вск 16:27:23 #41 №629258 
>>629232
Нвидию нагнули и запретили продавать 4090 в Китай, чтоб без кума годного они там загнулись.
Китайцы на фоне этого начали ебашить каких попало франкенштейнов.
Там реально сейчас фабрики работают по перепайке видях под LLM.
Аноним 28/01/24 Вск 16:33:21 #42 №629265 
>>629258
> по перепайке видях под LLM
Вут? Колхозный рефаб был давно, а по замене чипов больше единичные сообщения и то только со скринами из гпу-з вместе с жалобами что больше дефолтного не может выделить и использовать.
> нагнули и запретили продавать 4090 в Китай
Вообще у них там своя версия 4090 уже продается и вполне успешно. На гите, обниморде и прочем можно увидеть много нытья в ишьюсах со скринами 4...8x 4090 из nvidia-smi. Во многих их модельках уже прямым текстом указывается не количество видеопамяти а количество 24-гиговых карточек для обучения/взаимодействия.
Аноним 28/01/24 Вск 16:54:16 #43 №629271 
1621702926257.mp4
>>629229
Аноним 28/01/24 Вск 16:57:54 #44 №629276 
3070.png
>>629265
>с жалобами что больше дефолтного не может выделить и использовать
Это какая-то совсем паль. Даже кустари делают так, что всё может и выделяет, прирост значительный. Но, конечно, всегда есть контроллер памяти, который может не переварить возросшие требования к пропускной способности.
Аноним 28/01/24 Вск 17:36:16 #45 №629356 
Кстати, почему exlama работает медленно (медленнее lamacpp), показывает загрузку гпу 100%, но при этом энергопотребление низкое?
Такое ощущение, что данные нейросети не успевают своевременно доезжать до cuda блоков.

>>629146
>Только некрозеоны с брендовыми/серверными платами, ибо в большинстве китайских перестали нормально линии дополнительные распаивать.
Двухпроцессорные хуананы пошли особым путём: на одном проце висит 2x16 и на втором 1x16.

А вообще нормальные люди уже хоронят 2011-3 и покупают epyc 7551p, куда лучше и не сильно дороже. Сам бы так сделал, если бы не двухсокетный Хуанан, который купил пару лет назад.
Аноним 28/01/24 Вск 17:36:45 #46 №629357 
>>629356
> почему exlama работает медленно...
Это я про P40.
Аноним 28/01/24 Вск 17:40:19 #47 №629365 
Анончики, что там для работы с ру текстом сейчас лучшее?
Аноним 28/01/24 Вск 17:41:14 #48 №629367 
>>629365
модуль гугл транслятор
Аноним 28/01/24 Вск 17:44:16 #49 №629370 
>>629367
Not bad
Аноним 28/01/24 Вск 17:46:00 #50 №629372 
>>629276
Рабочих тестов буквально единицы, полно вариантов где апгрейдят версии с малой памяти на большую, но просто перепайка чипов на большие куда сложнее. Хотя у амперов биос взламывали, шансы велики.
>>629356
> почему exlama работает медленно (медленнее lamacpp), показывает загрузку гпу 100%, но при этом энергопотребление низкое?
Паскаль не поддерживают операции с низкой битностью и оно где-то в них затыкается, видимо. В фп16 мелочь не пробовал запустить?
> Двухпроцессорные хуананы пошли особым путём: на одном проце висит 2x16 и на втором 1x16.
Вроде не самый плохой вариант, только с нумой могут вылезти приколы. Не сравнивал результаты когда карты на одном проце и на разных?
> epyc 7551p
Первый зен - ну хуй знает даже, они буквально 2011 зеонам сливали и не вывозили периферию. Хз как себя покажет.
Аноним 28/01/24 Вск 18:25:12 #51 №629418 
>>629372
>Вроде не самый плохой вариант, только с нумой могут вылезти приколы. Не сравнивал результаты когда карты на одном проце и на разных?
Попытался стакануть p40 и 1070 на разных процах на винде. Nvidia-smi их видело, системный софт винды тоже, а вот обабога взбугуртил от перекидавания железа, ругался, что драйвер cuda не походит к питорчу и подобное.
Уверен, оно бы работало после перенакатывания дров и обабоги с нуля, но я подзабил.
Уверен, что чел с сервачком из 6х P40 на реддите тоже включал их через нуму, а иначе бы голиаф не работал так шустро.
>>629372
>Паскаль не поддерживают операции с низкой битностью и оно где-то в них затыкается, видимо. В фп16 мелочь не пробовал запустить?
Попробую, сравню чуть позже.

>>629372
Ого. А что с ними не так?
Контроллер памяти производительнее зеонов, линий pci-e больше, ядер многа, развалит в любом бенчмарке.
Аноним 28/01/24 Вск 18:31:54 #52 №629422 
>>629372
https://youtu.be/W6uaUHBNFOU?t=685
Я видос смотрел прыжками перемотки, но перепрошивки биоса что-то не заметил. С большими банками карта всё равно увидела 8 гигов, так что они перепаяли какие-то смд, сопротивления, наверное. И буквально всё завелось. Опять же, 16 гигов 3070 планировались изначально, тут чудес не случилось. Китайцы даже перепаивали потребительские чипы на серверные платы, не помню уже, с какими чипами это было.
Только тут уже вопрос цены восстаёт. GDDR5 чипы на алике по 2.5к, банок нужно 8, это уже 20к. Плюс шары, трафарет и работа. Покупать какие-нибудь 24гб теслы по 15к и выпаивать оттуда память - соснёшь, там банки по 1гигу. Можно накопать 3070ti за 30к и ебануть ещё столько же в апгрейд, но будет ли оно того стоить?
С другой стороны, на том же авито триллион сообщений с продажей отреболеных чипов 256-512-гигабайт, кое-кто даже пишет, что снято с карт в процессе модернизации. Что как бы намекает, что метода работает не только в узкоглазых краях.
Аноним 28/01/24 Вск 18:32:11 #53 №629424 
>>628829
>Так-то Хуангу выгодно обесценивать старые карточки
Полусофтовая фича типа генерации кадров эксклюзивно будет стоить намного дешевле распайки врама.
>>628871
>По тестах
Тесты-нитесты.
>>628997
Только я читаю быстро на русском, а с LLM лучше всё же общаться на английском. А там уже пофиг, стримминг не нужен.
>>629047
>два PCIe x16 в потребительском сегменте встречаются довольно часто
Там 8+8 в идеальной ситуации, чаще же 16 проц + 4 от чипсета.
>>629143
>А если хочешь 3-4, то этого тупо не предусмотрено.
Старые сисоники уже не продают? К моему титановому 750 ватт 4 провода псины шло, и 2 на проц 8 пиновых.
>>629146
>В десктоп профессорах линий не больше 20
24 уже сейчас, впрочем, всё в NVME кидают. У моей платы их 3 штуки, лол.
>>629225
В десктопные процы в следующем поколении обещают, в могилках так уже давно, но там всё одно шина памяти лимитировать будет, это всё для понта или энергоэффективности делают, а гоям и 90M нейронки норм.
Аноним 28/01/24 Вск 18:43:49 #54 №629439 
>>629418
> Nvidia-smi их видело, системный софт винды тоже
У этой серии и десктопных действительно разный драйвер. На том же реддите есть посты как их вместе поставить, довольно примитивно типа вставь одну - установи, потому вставь другую - установи, потом вставь обе.
> из 6х P40 на реддите тоже включал их через нуму, а иначе бы голиаф не работал так шустро
Тот "первый" имел только 3 и гонял их на брендовой х99. Из особенностей - там даблеры на 2-3 слот чтобы получить типа х16+х16, однако при одновременном обращении оно будет работать даже чуть медленнее чем честные х8+х8.
С шестью не видел, есть ссылка?
> что с ними не так
Первый зен это буквально кринж вместо архитектуры. По эпикам знаю только что для расчетов нельзя даже длинной палкой трогать что-то старше миланов, вот начиная с них и далее уже вполне себе.
> развалит в любом бенчмарке
Сольет какому-нибудь топовому десктопному интелу тех времен или амд начиная с зен 2-3 в математических бенчмарках, без шуток. Как повлияет в контексте треда - хуй знает, но учитывая что десктопные зен 1не могли даже в бенчмарках ссд выдать штатную скорость pci-e 3.0 - с большой осторожностью нужно такое рассматривать.
>>629422
> Китайцы даже перепаивали потребительские чипы на серверные платы
Может мобильные чипы на отдельный текстолит? Такого добра на али не так давно валом было.
> но будет ли оно того стоить
Если с 3090 и успешно - офк будет, цену на 48гиговые можно посмотреть.
Аноним 28/01/24 Вск 20:13:30 #55 №629513 
GEFORCE-2080TI-44GB-1-768x1067.jpg
bottom.png
top.png
>>629439
> мобильные чипы на отдельный текстолит?
Не, это хуйня. Там история была с тем, что у серверной версии банки с двух сторон, а у потребительской с одной. Они не перекатывались ни на другой биос, ни на другую память, просто плату спиздили, чтобы удвоить количество банок не увеличивая объём чипов. Сам текстолит хуярили новый, а чипы уже б.у. Не помню конкретный чип, но он был довольно медленный, так что я порофлил и забыл.
>Если с 3090 и успешно
Если реально, то Китай уже делает. Чипы там с двух сторон текстолита, банки по гигу. Но я бы стартовал такие извращения с чего попроще. Вот, например, на р40 банки с двух сторон, их 24, значит, каждая по гигу. Ставишь 24 двухгиговые чипа и получаешь одну р40 на 48 гигов за цену трёх р40.
Аноним 28/01/24 Вск 20:13:47 #56 №629515 
firefoxOdRttIq7jT.png
какие же дебилы сидят в форчановском /lmg/
пиздец
скоро уже будут пить мочу записывая это на видео, прям как в /aicg/, и всё ради сомнительной модели в формате FP16
Аноним 28/01/24 Вск 20:16:40 #57 №629516 
>>629515
Скажите, как они там постят? Ебанешься с капчей, блять.
Аноним 28/01/24 Вск 20:22:37 #58 №629518 
>>629516
4chan для рашки кажись заблокирован
а капча то изичная, легче чем здесь :/
и здесь >>629515 для невкуривающих добавлю, там в /aicg/ пьют собственную мочу ради доступа к прокси клауды или гпт-4, а то что происходит сейчас в /lmg/ это полюбому какой то троллинг от рандома, общая суть - типо слили mistral-medium, но только в формате GGUF.
Аноним 28/01/24 Вск 20:34:22 #59 №629530 
>>629518
вот эта, по их мнению и есть mistral-medium
https://huggingface.co/miqudev/miqu-1-70b
Аноним 28/01/24 Вск 21:18:32 #60 №629605 
>>629513
> что у серверной версии банки с двух сторон, а у потребительской с одной
Эээ, вут? Это какая модель?
Есть десктопные карты с двух сторон, та же 3090, есть и серверные/вс где с одной стороны. Хочешь сказать что где-то есть чипы что совпадают по распиновке и могут внезапно сразу обслужить кратно больше банок на канал без биоса?
По первому пику - там если посмотреть в конце статей - завести что-то на памяти больше 11 гигов им не удавалось и пытались подебить бивас или дрова.
> Если реально, то Китай уже делает.
Ну, нужно копать их ресурсы. Так вообще были вбросы про 3090 на 48 особую версию для их рынка еще года-два назад.
> на р40 банки с двух сторон
гддр5 банок удвоенной плотности то есть? На п40 это в любом случае смысла не имеет ввиду слабости чипа, но на более мощные, хотябы начиная с тюринга - вполне.
>>629518
> пьют собственную мочу ради доступа к прокси клауды или гпт-4
Здесь хотябы просто ноют и ботов делают, хотя...
> слили mistral-medium
> в формате GGUF
Чето проиграл с этого i want to believe, хотя офк всякое возможно.
Аноним 28/01/24 Вск 22:08:55 #61 №629676 
Как же заебал этот маня-прогресс где очередную 7b надрочили на манятесты и подебили GPT-3.5, охуеть, хайп, блять. При том что даже 13b многие не в состоянии в простейшее "обучение на примере". Вот 20b уже что-то минимально адекватное, хоть норомейда, хоть internlm2 новый (хотя будет смешно если это китайцы норомейду спиздили).
Аноним 28/01/24 Вск 22:46:03 #62 №629720 
mining.png
>>629605
>Это какая модель?
Уже сколько толкую, что не помню нихуя. Вроде, радеон какой-то. Но это не точно.
>завести что-то на памяти больше 11 гигов им не удавалось
На 2080ti можно распаять 22 гига, перепаять один резистор и она заведётся на дефолтном биосе. Был шиз, который распаял 22 гига и накатил бивас от квадры. И всё сломалось, лол.
>Ну, нужно копать их ресурсы.
Покопал, пишут, пизда с новой защитой биваса. Сам бивас сделать не проблема, а обойти проверку легитимности не могут.
>На п40 это в любом случае смысла не имеет ввиду слабости чипа
С завода существовали p40 на 48гб, кожаный ещё не знал, что память нужно экономить.
>хотябы начиная с тюринга
А там всё убердорогое. Самое дешёвое как раз консумерские или какая-нибудь Т10 с 16гб, у которой по заводу 4 банки не распаяно. Но она со старта будет дороже двадцатигиговой 2080ti с алика. Бюджеты 24 гб на тюринге стартуют тысяч со 150. Те же T40 24гб на алике поголовно out of stock интересно, с чего бы это?, титаны на тюринге по 150к, нахуй так жить.
Аноним 28/01/24 Вск 23:01:06 #63 №629740 
>>629720
> Вроде, радеон какой-то
Блин, ну предупреждай в следующий раз, это другое лол. У амд вроде базированная практика спускать "профессиональные" карты в консумер сегмент с минимальными изменениями, в таком случае офк сработает. Но толку с них в ии.
> С завода существовали p40 на 48гб
Чето не гуглятся. В вики пишут что самый большой чип gddr5 был в 15м году и имел 8 гигабит, 1гб. Потом уже gddr6, если не выходило 16гигабитных (двухгигабайтных) то ни о каких 48гб в p40 речи быть не может. На gddr6 и выше они уже есть.
> Бюджеты 24 гб на тюринге стартуют тысяч со 150
В прошлом треде же про quadro rtx 8000 писали, за 200 на лохито выставлена, может можно поторговаться.
> титаны на тюринге по 150к
Зачем они нужны
> T40 24гб на алике поголовно out of stock
И эти тоже, все что на 24гб и ниже теряет смысл при наличии 3090, которых еще с эпохи майнинга запасы существуют, и сейчас активно осваиваются. А не грядет ли новая волна спроса на гпу, где гей_меры будут ныть что кумеры ии-энтузиасты все карточки поразобрали
Аноним 28/01/24 Вск 23:48:48 #64 №629807 
1.png
lol.png
z56rln4lms1b1.webp
0.png
>>629740
>Но толку с них в ии.
Хуй знает. Сама практика.
>Чето не гуглятся.
Проверил сайт незрячих, таки спиздел. Ну, старость не радость, склероз ебёт.
Квадра за 200 не выглядит выгодной сделкой.
>Зачем они нужны
Потому и продают.
>теряет смысл при наличии 3090
Это у нас они относительно дешёвые, в Китае уже цены полетели в потолок. С другой стороны, там можно купить 2080ti 22гб за ~35к рублей.
Аноним 29/01/24 Пнд 00:28:00 #65 №629847 
>>629807
> в Китае уже цены полетели в потолок
Да вон на алишке 3090 новые рефаб стоят вполне себе как и должен стоить рефаб с доставкой и наценкой барыг, потолком не назовешь. Но на озон-глобал всеравно дешевле они.
Аноним 29/01/24 Пнд 02:00:22 #66 №629882 
firefoxAWNpP1u7KI.png
>>629515
/lmg/ всё ещё хавают байт лмао
Аноним 29/01/24 Пнд 02:04:58 #67 №629883 
>>629882
Где полноценные веса или хотябы gptq для белых людей? Вдруг не байт, а тут такая подстава. Хотя если иметь оригинальные веса и не хотеть чтобы их сразу спалили, то грузить кванты - make sense.
Аноним 29/01/24 Пнд 02:07:08 #68 №629885 
>>629530
Ладно, любопытство подебило, сейчас скачаю и пущу. Что потестить/поспрашивать у нее?
Аноним 29/01/24 Пнд 02:16:34 #69 №629890 
>>629885
>Что потестить/поспрашивать у нее?
да что угодно, там в /lmg/ аноны потестили уже, говорят что модель не может в некоторые загадки и РП темы, сравнивают с микстралом
>>629883
>если иметь оригинальные веса и не хотеть чтобы их сразу спалили
скорее всего так и есть :/
miqudev загрузил q5_K_M 20 минут назад, хотя аноны ожидают и просят неквантованную f16 модель
Аноним 29/01/24 Пнд 02:25:24 #70 №629893 
1696560769502.png
>>629890
> да что угодно
Ну бле, сейчас попробую с ней поршпить, лол. Q4 скачал прошлый пока, его кручу какой же жора медленный бле, и те т/с что называли "комфортными" не очень то комфортны
Так по первым впечатлением действительно что-то новое, цените пикрел. Хотя, вообще, не то чтобы с таким не смогли бы справиться другие 70б модели, xwin точно без проблем.
Аноним 29/01/24 Пнд 03:33:51 #71 №629907 
1646403793744.png
1701621943166.png
1551325601796.jpg
1561114288904.png
>>629893
Не ну это действительно похоже на что-то мистралеподобное и мультиязычное.
Пресет мистраль в таверне юзать вообще противопоказано, там лайфлесс пик1 с "я ии и не имею чувств", в инструкциях аналогично. Если поставить ролплей - уже лучше, пытается следовать карточке.
Как ни странно, какой-либо цензуры (без родного инстракт формата офк) не замечено, охотно подказывает плохие вещи и имперсонейтит левдсы. Пик 3 dies from cringe почти все - имперсонейты. Ну что не поломалось ерпшить на русском - уже похвально, но уровень лексики достаточно трешовый.
В ролплей пресете на русском отвечает очень неохотно, нужно указывать OOC и свайпать, возможно если сделать системную инструкцию то будет устойчивее. Вообще тут следование инструкциям странное, наблюдается некоторая рассеянность.

Надо больше ее покатать, возможно действительно революция, а может просто типикал 70 с немного подкачанной мультиязычностью. Если что интересно - могу прогнать, хотя веса доступны, каждый что хочет может протестировать.
Аноним 29/01/24 Пнд 06:11:38 #72 №629956 
Добавьте в шапку LM Studio, Jan, Faradaydev, Chatbox как альтернативные фронтенды. Ну и Ollama, это же вообще база.
Аноним 29/01/24 Пнд 06:27:31 #73 №629958 
в кобальд добавили поддержку вулкана
Аноним 29/01/24 Пнд 07:45:22 #74 №629971 
>>628645 →
>Достаточно будет откатить только llama-cpp-python с помощью pip.
Можешь расписать как это делается?
Аноним 29/01/24 Пнд 07:47:18 #75 №629972 
>>629971
Да.
Аноним 29/01/24 Пнд 08:18:31 #76 №629984 
>>629958
а нахуя? мне, красножопому, это чем-нибудь поможет?
Аноним 29/01/24 Пнд 08:24:09 #77 №629989 
Пиздец как же ебет InternLM2-Chat-20B. Правда хуй знает как самому запустить локально. Ебался кто?
Аноним 29/01/24 Пнд 08:43:06 #78 №630000 
>>629984
Я запускал какую-то 7B модель на RX6600 с вулканом, 30-40 токенов в секунду.
Аноним 29/01/24 Пнд 08:45:05 #79 №630001 
image.png
>>630000
странно, он у меня выгружает слои на мою 6600XT, но не использует её от слова совсем.
Аноним 29/01/24 Пнд 08:51:59 #80 №630004 
>>630001
Попробуй в gpt4all гуйне запустить, там прямым текстом говорится, если модель не поддерживается вулканом.
Не знаю от чего зависит, я пробовал deepseek-coder и она не работала с вулканом, mistral openorca из их списка моделей работала.
Аноним 29/01/24 Пнд 08:56:46 #81 №630008 
>>629989
Запускал, вполне себе не плох, но не держи форматирование текста и переодически уходит в мягкий отказ, более 4х персонажей начинает путаться, и в кум так себе. Персонажа держит хорошо. Но тут накатили лиму:
https://huggingface.co/intervitens/internlm2-limarp-chat-20b-GGUF
Стало лучше, но форматирование совсем потерял. В целом лучше прочих шизомиксов на 20b, но и до Юи не дотягивает.
Аноним 29/01/24 Пнд 08:58:06 #82 №630009 
>>630001>>630004
https://github.com/nomic-ai/gpt4all/issues/1803
Вот например чел говорит, что по его тестам только Q4_0 работают на gpu, а Qx_K_M не работают.

Судя по этому коммиту
https://github.com/nomic-ai/llama.cpp/pull/7/files#diff-150dc86746a90bad4fc2c3334aeb9b5887b3adad3cc1459446717638605348efR2442
Поддерживаются только f32, f16, Q4_0 и Q4_1.
Аноним 29/01/24 Пнд 09:05:59 #83 №630011 
>>630009
спасибо, бро, целую. попробую Q4_0 скачать, но вообще конечно кек, впрочем, мне с амудой вместо нвидимокарты не привыкать.
Аноним 29/01/24 Пнд 09:10:33 #84 №630012 
image.png
>>630009
Ванильная llama похоже сейчас больше моделей поддерживает:
https://github.com/ggerganov/llama.cpp/blob/d2f650cb5b04ee2726663e79b47da5efe196ce00/ggml-vulkan.cpp#L1133

Сейчас попробовал ту самую deepseek-coder-6.7b-instruct.Q4_K_M.gguf и она работает нормально.
Аноним 29/01/24 Пнд 10:13:06 #85 №630033 
ну че, амудестрадальцам наконец повезло?
Аноним 29/01/24 Пнд 10:31:32 #86 №630039 
Сколкьо рам и врам надо чтобы осилить 70b? У меня 30гб рам и 8врам, под какое квантование хватит если хватит вообще?
Ну и посоветуйте хорошую 70б.
Аноним 29/01/24 Пнд 10:46:51 #87 №630046 
>>630039
Q2 поместится и впечатление произведёт. Но модель видеокарты ты не сказал, а от этого зависит многое.
Аноним 29/01/24 Пнд 10:48:58 #88 №630048 
>>630046
3080. А Что от этого зависит? Разве важна не только врам?
Аноним 29/01/24 Пнд 11:28:46 #89 №630069 
>>628874
4070ти для нейронок оч слаба из-за объема за свою цену.
А для игр нормас, да.

>>628924
База.

>>629047
Я БП ниже 700 ватт не беру в принципе, а основной БП на 850. Плюс, работа у них попеременная.
Думаю, переживу. =)

Да и материнок с тремя слотами хватает, они не редкость. НО, вот покупают их не так часто, тут я соглашусь, что бп киловаттник заваляться может, а вот мать с тремя слотами — вряд ли. Ее брать придется, соглашусь.

>>629082
> P40 устанавливать как NVidia
Ну попробуй как Радеон… =)

>>629143
Напомню, что линии тебе практически не нужны, поэтому весь спич — оффтоп полный.
В общем жаль, но нейронок это не касается. Проблемы тех, кто между картами гоняет тонну инфы, а не держит все в памяти.

Так же и питалово. Соглашусь, что 1 12VHPWR это жаль, но как бы тоже оффтоп, в итоге. =)

Модульному БП можно докупить необходимых проводов и будет утебя 2-3 VHPWR. Но ето дорого, офк.

>>629146
> Да ладно, покажешь ссылок на такое?
Литералли любая вторая мать.
Напомню, тебе хватит х4 за глаза, хватит фантазировать.

>>629225
Зачем нужны потребительские нейроускорители? :) Не тебе, а разработчикам? Им нужны деньги, а это — облака и подписки.

>>629234
Они все много что говорят, но давать бесплатно то, за что можно взять деньги — не будут.
Просто чекай, будет ли у нас 40 гигов на 5090 или будет 32. А может и вовсе 24.
Игорькам хватит, как грится.

Буду рад ошибаться.

>>629258
> Там реально сейчас фабрики работают по перепайке видях под LLM.
Хотелось бы. =)

>>629418
> ругался, что драйвер cuda не походит к питорчу и подобное
Ну, там 11.8 должна быть, я полагаю, да?

>>629424
> Полусофтовая фича типа генерации кадров эксклюзивно будет стоить намного дешевле распайки врама.
Так.

>>629907
> какой-либо цензуры … не замечено

Для мистрали это норм, так-то.

> уровень лексики достаточно трешовый
А это — не норм.

>>630000
О, это интересно, затраю на своей RX6600M.
Аноним 29/01/24 Пнд 11:33:13 #90 №630071 
>>629530
Интересно, там q5_k_m новый, это который плюс-минус старый q6? Если так, то ето хорошо.
Качаю его, поглядим-поглядим.
Аноним 29/01/24 Пнд 13:09:18 #91 №630124 
>>629958
https://llm-tracker.info/howto/AMD-GPUs#vulkan-and-clblast
ROCm судя по ссылке более чем в 2 раза быстрее вулкана.
Аноним 29/01/24 Пнд 13:11:19 #92 №630128 
>>630124
Я так понял, вулкану радуются не из-за скорости на 7900XTX, а из-за его работоспособности на 6600 и иже с ними. =)
Там у ROCm — 0. =D
Аноним 29/01/24 Пнд 13:16:05 #93 №630136 
>>629971
В активированной среде pip install _module_==_version_ (--reinstall) [...]
Для правильной сборки llamacpp нужны доп параметры на куду, их ищи в ридми основном.
>>630039
От 4х бит - 64 рам (при выгрузке на проц), ~40врам (минимум). Больше битность/контекст - 48+. "Мистраль-медиум" попробуй а так платина - синтия, айроборос, гоат, хвин.
Аноним 29/01/24 Пнд 13:24:31 #94 №630138 
1674574519022.png
1609620985111.png
1678279202905.png
>>630069
> Литералли любая вторая мать.
Ну так давай линки потребительских платформ с парой х16 слотов, офк не пустых на 3/4 а полностью распаянных.
> Напомню, тебе хватит х4 за глаза, хватит фантазировать.
Бля пчел...
> А это — не норм.
Это просто сказка и недостижимый уровень для всего мистраль~ добра. Но уровень по языку в лучшем случае турба, надо смотреть правде в глаза.

Надо еще проверить как она себя поведет под инструкциями и нагрузкой с разными языками, насколько будет деградировать и сравнить это с другими 70.
Пока что явно заметно - ее тренили с другим rope (возможно в этом причина рассеянности) и указанным шаблоном инструкций.
Суммаризировать рандомные тексты про трансформерс с обниморды могут и другие модели с накрученным rope, но в комбинации с форматом инструкций и на другом языке у этой получается лучше по первым оценкам.
Аноним 29/01/24 Пнд 13:47:46 #95 №630150 
>>630138
> Бля пчел...
Ну прости, реальность такова.
Если тебе кажется иначе — прими таблеточки, полегчает.
Но оффенс, но серьезно, сюда уже пруфы кидали, а кто-то продолжает твердить, как все это дико влияет (+1 секунда на х1 pcie 2.0 на 4к контекста, помнится).

> Но уровень по языку в лучшем случае турба, надо смотреть правде в глаза.
Ну, не тебе про правду и глаза писать, уж прости. =D
Но опять же, когда вышла турба — никто не жаловался.
Ты имел в виду, что она не пишет как Пушкин? О, ну прости, не так тебя понял. Соглашусь, лексика у нее сухая. Но говорит она хорошо, по сравнению с остальными моделями. Даже «русскоязычными».

Я зада ей вопрос, который у меня висел в поле, про Яндекс.Календарь. Попросил привести код — и она даже привела что-то осмысленное. Но вопрос был не мой, не могу подтвердить ее правоту. Однако, такое ощущение, что училась она на новых датасетах. Опять же, по первым оценкам, да.

Пока я не вижу какой-то революции, но и плохой ее не назовешь.
Скорость соответствует остальным 70б, поэтому потестировать быстро ее не могу, к сожалению.

Остается ждать вердикт 2-P40 бояр. =)
Аноним 29/01/24 Пнд 13:54:28 #96 №630154 
>>630150
> Ну прости, реальность такова.
> Если тебе кажется иначе — прими таблеточки, полегчает.
Литерали ситуация: пиздюк на улице подходит к мужику а начинает ему затирать о том как надо делать детей, а потом начинает валяться в грязи и визжать шизу про таблетки.
Диванный что-то насочинял, сам себе придумал спор и шизит уже сколько тредов подряд, брысь.
> Ну, не тебе
Кому как не мне, и точно не тебе.
> Ты имел в виду, что она не пишет как Пушкин? О, ну прости, не так тебя понял. Соглашусь, лексика у нее сухая
Даже в этом читается ангажированность и топление за "любимую модель" вместо адекватности.
Аноним 29/01/24 Пнд 13:55:12 #97 №630155 
>>630136
Ебаный его рот анон ну я что ебу как они на англ пишутся? Как мне это искать?
Аноним 29/01/24 Пнд 13:59:00 #98 №630158 
>>630155
https://github.com/abetlen/llama-cpp-python#cublas https://github.com/abetlen/llama-cpp-python#windows-notes
Если из батника убабуги делать то там используй set для выставления переменных
Аноним 29/01/24 Пнд 14:01:19 #99 №630159 
>>630155
А, ты про модели. Вон ссылка >>629530 остальные https://huggingface.co/TheBloke/SynthIA-70B-v1.5-GPTQ https://huggingface.co/TheBloke/Airoboros-L2-70B-3.1.2-GPTQ https://huggingface.co/TheBloke/GOAT-70B-Storytelling-GPTQ https://huggingface.co/TheBloke/Xwin-LM-70B-V0.1-GPTQ
нужную версию кванта по кросс ссылкам найдешь
Аноним 29/01/24 Пнд 14:14:52 #100 №630166 
>>630159
А как этот GPTQ вообще работает? Надо фулл папку качать?
Алсо ч4 квант для меня большеват увы. Не влезет.
Аноним 29/01/24 Пнд 14:16:01 #101 №630167 
>>630166
> А как этот GPTQ вообще работает? Надо фулл папку качать?
Да, git lfs или хфхаб. Внизу есть инструкции по скачиванию, gptq это только на видюху считай.
GGUF разные кванты выложены вплоть до q2, но те совсем печальные.
Аноним 29/01/24 Пнд 14:46:24 #102 №630191 
>>630167
>GGUF разные кванты выложены вплоть до q2, но те совсем печальные
О а вот это можешь скинуть ссылку?
Для кого печальные для кого вайфу.
Аноним 29/01/24 Пнд 15:26:02 #103 №630223 
>>630138
>Бля пчел...
единственное чем отличается x4 от x16 - модель дольше грузится в память видеокарты. Это всё.
тот у кого 2 p40
Аноним 29/01/24 Пнд 15:44:03 #104 №630231 
>>630223
>тот у кого 2 p40
имеет >9т/с на модели 70B второго кванта хотя бы? "Тот у кого 4 p40" имел такое на пятом кванте. Но на серверной платформе.
Аноним 29/01/24 Пнд 15:51:17 #105 №630238 
>>629143
>все 16 линий PCIe 4 или 5 версии
Посмотрел на своё говно, может работать в режиме 1x16+4, 2x8+4, 4 выделено на ссд. И ещё 20 линий от чипсета. В теории, можно запидорить три карты, но третья точно будет работать только на чипсете. Достаточно бюджетный проц и мать.
Аноним 29/01/24 Пнд 15:56:50 #106 №630243 
>>630231
>>9т/с на модели 70B
>Тот у кого 4 p40" имел такое на пятом кванте
Может ли такое быть, что шизомержи параллелятся эффективнее?
Аноним 29/01/24 Пнд 15:57:57 #107 №630245 
Пацаны, не был в треде со времен Альпачино, че сейчас для кума самое годное или соевые куколды все порезали?
Аноним 29/01/24 Пнд 16:03:46 #108 №630248 
>>629956
Нахуя? Есть проверенная база для любых задач, делать инструкции под любое левое говно такое себе.
>>630048
>А Что от этого зависит?
Возможность самого запуска, плюс 3000 серия и выше лучше крутить ИИ, а всё что 1000 серии и старее гроб гроб кладбище.
>>630069
>Я БП ниже 700 ватт не беру в принципе
Проиграл с принципов.
>>630245
Шапка Б-гом нам дана, ответ содержит там она.
Аноним 29/01/24 Пнд 16:23:46 #109 №630265 
Кто первый риснёт купить новые китайские франкинштейны?
Аноним 29/01/24 Пнд 16:25:59 #110 №630275 
https://github.com/Cornell-RelaxML/quip-sharp/tree/main

Что думаете кодирование в 2bit с качеством 4bit
Аноним 29/01/24 Пнд 16:27:36 #111 №630277 
>>630248
> Нахуя? Есть проверенная база для любых задач, делать инструкции под любое левое говно такое себе.
Что еще скажешь? Вчера решил поставить нахваленную убабугу. В итоге ждал сначала пока это говно развернет окружение примерно полчаса, потом пришлось делать симлинки, потому что выбора директории для моделей нет, скачивать токенайзер, после ебли кое-как запустил, но это говно даже в автоматическую оптимизацию ГПУ не может, да и ЦПУ высирало медленнее чем должно. Ах, да еще и весь набор инструментов занял около 15гб.
В этом же время поднял 2 докер контейнера ollama + ollama webui без пердолинга двумя командами и все работало из коробки на ГПУ с ебейшей производительностью.
Jan, LM Studio, Faraday это уже конечные десктопные клиенты без вебморды, которые и в апи могут, имеют встроенные хабы для моделей/промтов/персонажей, ноль пердолинга и все работает также из коробки. Ваша же расприаренная убабуга и кобальд просто мусор.
Аноним 29/01/24 Пнд 16:29:42 #112 №630283 
>>630277
>автоматическую оптимизацию ГПУ не может
Что это?
Аноним 29/01/24 Пнд 17:04:43 #113 №630306 
>>630124>>630128
У меня получилось запустить с ROCm на 6600m.
codeninja-1.0-openchat-7b.Q4_K_M.gguf
vulkan: 83.55 / 32.43 (prompt / inference)
rocm: 353.76 / 36.97

llama-2-7b.Q4_0.gguf (модель из ссылки)
vulkan: 71.52 / 18.62
rocm: 561.57 / 42.42

Чтобы rocm работал, собирать и запускать надо с HSA_OVERRIDE_GFX_VERSION:
export HSA_OVERRIDE_GFX_VERSION=10.3.0
make LLAMA_HIPBLAS=1 AMDGPU_TARGETS=gfx1032 -j 14 main
HSA_OVERRIDE_GFX_VERSION=10.3.0 ./main ...

Если собирать без этой переменной. но запускать с ней, то во время загрузки модели возникает ошибка:
CUDA error: shared object initialization failed
current device: 0, in function ggml_cuda_op_flatten at ggml-cuda.cu:8825
hipGetLastError()
Аноним 29/01/24 Пнд 17:13:22 #114 №630320 
>>630306
deepseek-coder-6.7b-instruct.Q8_0.gguf
vulkan: 71.61 / 17.76
rocm: 546.21 / 25.78

deepseek-coder-6.7b-instruct.Q4_K_M.gguf
vulkan: 99.16 / 34.58
rocm: 427.57 / 38.61
Аноним 29/01/24 Пнд 17:28:31 #115 №630337 
1681767910745.png
1641007630753.png
>>630191
> О а вот это можешь скинуть ссылку?
По тем ссылкам переходишь, чуть вниз мотаешь и находишь пикрел, там желаемую версию выбираешь. У TheBloke все так организовано, удобно.
>>630223
Да все так, вон просто уже не один вброс по поводу их значительного влияния при запуске ллм и какого-то серьезного буста до невероятных значений если будут все линии.
>>630243
Не, схема работы же другая. Возможны другие оптимизации, смешной квант или пиздабольство.
>>630245
Сначала опиши какой размер можешь у себя запустить.
>>630265
Линк?
Аноним 29/01/24 Пнд 17:36:02 #116 №630345 
>>629956
> Ну и Ollama, это же вообще база
Только для одного шизика, который не смог описать ее преимущества.
Недостатков у подобных поделок хватает, как минимум это невозможность без пердолинга пускать любую модель какую хочешь.
Но ты можешь сделать на них обзор и проиллюстрировать возможности, плюсы и минусы. Если что-то получится, то можно рассмотреть для размещения.
>>630277
> сначала пока это говно развернет окружение примерно полчаса
Локальные ллм это не самое простое удовольствие, нужно иметь быстрое железо и быстрый интернет. Разворачиваться оно должно за пару-тройку минут.
> потом пришлось делать симлинки
И не для нищуков, у которых нет места на диске
> скачивать токенайзер
Нужно только для HF обертки и делается буквально в 2 клика.
> даже в автоматическую оптимизацию ГПУ
Эта автоматическая оптимизация или недогружает слои, или приводит к ООМ/выгрузкам.
> поднял 2 докер
Так ты из тех шизов, земля пухом.
Аноним 29/01/24 Пнд 18:07:57 #117 №630360 
>>630306
>83.55 / 32.43
И что это за цифры? Какие единицы измерения?
>Чтобы rocm работал, собирать и запускать надо с
Для linux всё это в инструкциях к сборке уже давным давно указано, летом уже точно было, а может и раньше. Для винды вроде неактуально было. Тут >>630124 тоже про это упоминают.
Аноним 29/01/24 Пнд 18:18:13 #118 №630366 
>>630360
>И что это за цифры? Какие единицы измерения?
Токены в секунду.

> Для linux всё это в инструкциях к сборке уже давным давно указано,
Ну не знаю, из llama.cpp инструкций в их readme неочевидно, что нужно указывать эту переменную в том числе и при сборке, если бы в комментах в багтрекере не нашел, сам бы не догадался.
Аноним 29/01/24 Пнд 18:25:56 #119 №630376 
>>630366
>Токены в секунду
На вулкане выглядит не лучше, чем clblast, который тоже уже давным давно доступен.
Аноним 29/01/24 Пнд 18:29:21 #120 №630381 
>>630136
>В активированной среде...
Сложно. Можно ли как-нибудь скопировать хеш старого коммита и даунгрейднуть весь UI одной командой?
Аноним 29/01/24 Пнд 18:43:21 #121 №630388 
Кому-нибудь удавалось юзать P40 теслу в паре с другой картой nvidia?
У меня нет встройки и валяется 1030, но я так понял, что драйверы у них разные и одновременно два установить не выйдет.
Аноним 29/01/24 Пнд 18:48:17 #122 №630390 
>>630381
> Сложно
cmd_windows.bat, там уже все вводить
> скопировать хеш старого коммита и даунгрейднуть весь UI одной командой?
Да, но при этом придется удалить installer_files и ждать пока оно заново все развернет. При этом, если не указаны конкретные версии, может пойти не по плану и сломаться.
Аноним 29/01/24 Пнд 18:53:08 #123 №630400 
Добрый день, Анончани. Карту купил, мозг не купил. Text-generation-web-ui
Пытаюсь загрузить модельку TheBloke/Chronoboros-33B-GPTQ (вес 16.94), у меня 4090 на 24 gb.
ВЫдает ошибку:
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 22.00 MiB. GPU 0 has a total capacty of 23.99 GiB of which 15.54 GiB is free. Of the allocated memory 6.77 GiB is allocated by PyTorch, and 83.08 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

LДолжно же хватать памяти, или я чет не понимаю?
Аноним 29/01/24 Пнд 18:57:07 #124 №630403 
>>630337
>По тем ссылкам переходишь, чуть вниз мотаешь и находишь пикрел, там желаемую версию выбираешь. У TheBloke все так организовано, удобно.
Спасибо то что нужно. А что за чел этот блок? Или это группа? Видел он вообще как бы не 90% всех ггуфов делает.
Аноним 29/01/24 Пнд 19:00:23 #125 №630406 
>>630400
Какой лоадер используешь и с какими параметрами загружаешь? Скрин вкладки model и использования видеопамяти перед загрузкой покажи чтобы проще было.
Офк достаточно, тем более что это первая ллама и чуть более компактная.
Аноним 29/01/24 Пнд 19:03:19 #126 №630407 
image.png
>>630406
Вот все на скриншоте.
Аноним 29/01/24 Пнд 19:05:02 #127 №630409 
>>630154
Перестань визжать и иди к родителям, пожалуйста.

> Даже в этом читается ангажированность и топление за "любимую модель" вместо адекватности.
Да прими ты уже таблеточки. =) Хватит сочинять уже, а то ты так до плоской земли дойдешь скоро, лишь бы со мной не соглашаться.

>>630223
> Диванный что-то насочинял, брысь.
=D

>>630231
> "Тот у кого 4 p40" имел такое на пятом кванте.
С реддита который? )))

>>630248
> Проиграл с принципов.
А я только выиграл. =D

>>630306
Спасибое тебе!

Пойду и я потыкаю.
Аноним 29/01/24 Пнд 19:08:01 #128 №630412 
>>630407
Ерунда полная, должно еще гига 4-5 свободными оставаться. Ошибок в консоле не пишет, при запуске на флеш атеншн не ругается? Хотя даже без него там с запасом.
>>630409
> этот стук снизу
О, значит то было не дно
Аноним 29/01/24 Пнд 19:10:56 #129 №630413 
image.png
>>630412
Вот какая ошибка при загрузке
Аноним 29/01/24 Пнд 19:12:48 #130 №630415 
>>630413
Перезапусти и загрузи точно также, только выбери exllama2 без приставки HF, отпиши результат.
Аноним 29/01/24 Пнд 19:17:15 #131 №630417 
>>630415
Та же фигня. Только комп завис и пришлось через кнопу ребутать. Ошибка out of memory....
Аноним 29/01/24 Пнд 19:18:30 #132 №630418 
>>630337
>Линк?

https://aliexpress.ru/item/1005006339137280.html?sku_id=12000036816078437&spm=a2g2w.productlist.search_results.0.229f509aAwmmVc
Аноним 29/01/24 Пнд 19:20:22 #133 №630421 
>>630412
> О, значит то было не дно
Конечно не дно, это с потолка тебе стучат. =)
Аноним 29/01/24 Пнд 19:20:44 #134 №630422 
>>630418
Че-т дорохо.
Аноним 29/01/24 Пнд 19:22:40 #135 №630423 
image.png
>>630417
Щас попробовал загрузить модельку на 7gb, заняло 12 gb. Так и должно быть?
Аноним 29/01/24 Пнд 19:29:22 #136 №630429 
>>630388
Ответ вначале этого поста >>629439
>>630423
Контекст тоже места хочет. Хотя у тебя что-то прям дохуя просит.
Аноним 29/01/24 Пнд 19:32:50 #137 №630431 
>>630429
Скачаю guff модель на 4bit, попробую ее.
Кстати, можете посоветовать как распределять эти модельки "правильно?"
Прям все кидать на GPU или оставлять ей место подышать?
Аноним 29/01/24 Пнд 19:34:42 #138 №630432 
>>630417
> Только комп завис и пришлось через кнопу ребутать
Какие-то железопроблемы, рам случаем не разгонял?
>>630418
Ну, на самом деле хз, учитывая цены на 3090. Сравнивать ее с новыми карточками язык не поворачивается, на бу хотябы высокий шанс заметить перепаянные, а тут оно гарантированно паялось.
Есть с большей памятью?
>>630423
Не должно быть если там тоже 2к контекста. Если выделил на 32к, что стоят по дефолту в мистралях - нормально.
>>630388
Гугли
> quadro along with geforce
или что-то подобное.
Аноним 29/01/24 Пнд 19:47:59 #139 №630446 
>>630429
>Ответ вначале этого поста
Ты имеешь в виду вот это?
>вставь одну - установи, потому вставь другую - установи, потом вставь обе
Аноним 29/01/24 Пнд 19:54:54 #140 №630452 
>>630388
схуяли у двах паскалей должны быть разыне драйвера?
чел ну ты бы хоть немножко мозг включил

Driver Version: 525.116.03 CUDA Version: 12.0
запускал p40 + p40, p40 + 3070, p40 + 1060
Аноним 29/01/24 Пнд 19:57:46 #141 №630458 
>>630452
На шинде разные драйвера для квадр/тесел/жфорсов. Погугли, оно относительно несложно решается.
Аноним 29/01/24 Пнд 19:59:04 #142 №630459 
>>630458
что решается? У меня все работает.
Аноним 29/01/24 Пнд 20:05:41 #143 №630463 
>>630459
Ну ты поищи про что вообще. Если на прыщах то такой проблемы вообще может не появиться, и что там на пакалях - хз. С десктопными RTX на шинде оно дружить не хочет по дефолту, выдаст ошибку несовместимости драйвера ибо в каждом прописан свой перечень устройств и они не пересекаются. Судя по выдаче такое и в более ранних сериях встречалось.
Аноним 29/01/24 Пнд 20:07:12 #144 №630465 
>>630463
как же виндоблядям тяжело..... бедные....
Аноним 29/01/24 Пнд 20:30:07 #145 №630485 
>>630376
> clblast, который тоже уже давным давно доступен.
Требует opencl, для RX6600m на выбор похоже только mesa rusticl и rocm-opencl.
Первый не может загрузить больше 2 гигов.
Второй в 1.5 раза медленнее вулкана и почему-то видеокарта начинает пищать, причем с rocm напрямую этого писка нет.
Аноним 29/01/24 Пнд 21:13:16 #146 №630523 
Поясните за пчхи-2 плиз, в плане общего назначения.
Есть смысл ковырять при наличии 12гб врам, или ну ее нахер?
Аноним 29/01/24 Пнд 21:19:58 #147 №630526 
jjzqup4jpdfc1.webp
3w5q9p4jpdfc1.webp
Чувак с реддита собрал 5 A100 40GB. Суммарно вышло $40K. На корпус и вентиляторы денег уже не осталось. Теперь может гонять Goliath-120B на скорости 12 t/s. У меня чисто на CPU скорость 0.5 t/s (терпимо), но я не тратил $40k.
Аноним 29/01/24 Пнд 21:20:43 #148 №630528 
изображение.png
>>630523
>пчхи-2
Это вторая часть этой великой книги?
Аноним 29/01/24 Пнд 21:25:03 #149 №630530 
изображение.png
>>630526
>пик
А что, так можно было?
>и вентиляторы денег уже не осталось
Ебало, когда всё это полыхнёт? Да ещё и на деревянном стеллаже.
Хотя конечно интересно, что за плата с наноскопическим процем на 4х16 псин.
Аноним 29/01/24 Пнд 21:25:57 #150 №630531 
>>630528
Не, phi-2 от микрософта
>>630526
Это успех
Аноним 29/01/24 Пнд 21:29:18 #151 №630536 
>>630526
Блэт, какого они размера?
Аноним 29/01/24 Пнд 21:30:18 #152 №630538 
>>630526
Он может полностью обучать что поменьше и делать лоры на что побольше, красавчик.
>>630530
> Да ещё и на деревянном стеллаже.
Будто что-то плохое, как выглядит то
> что за плата с наноскопическим процем на 4х16 псин
+
>>630536
Это странное исполнение радиаторов такое
Аноним 29/01/24 Пнд 21:31:32 #153 №630540 
>>630526
>запустил 5 а100 на хуйне для майнинга вместо материнки с селероном вместо профессора
> нет просадок
думаю, на этом дискуссии о том, что x4 хуже, чем x16 можно закончить.
>>630530
какая-то хуйня под nvme-шки в pcie, работающая как разветвитель одного pcie на два?
Аноним 29/01/24 Пнд 21:35:50 #154 №630543 
изображение.png
>>630531
>Не, phi-2 от микрософта
>безопасная не токсичная дружелюбная
Ну ты понял короче.
Хотя кого я обманываю, сейчас качаю.
>>630536
Вангую 2 кило меди на каждый радиатор.
>>630540
>какая-то хуйня под nvme-шки в pcie
Да это понятно, намёк был на то, что она блядь в воздухе висит.
Аноним 29/01/24 Пнд 21:37:08 #155 №630545 
>>630543
Почему всплеск на евреях?
Аноним 29/01/24 Пнд 21:37:55 #156 №630546 
image.png
>>630543
не висит, я нашел что это за хуйня на которой висят карты
https://c-payne.com/products/pcie-gen4-switch-backplane-4-x16-4w-mircochip-switchtec-pm40084-plx

он убрал материнку из кадра. Поэтому карта на которой висит этот йоба-свитч висит в воздухе.
Аноним 29/01/24 Пнд 21:58:36 #157 №630565 
>>630545
А поцчему Ви спrАшиваете?
>>630546
>€1.250,00
Я конечно слышал, что это дорого, но хули так дорого?
Нахуя тут умножитель, хотя по сути нужен просто разделитель линий?
И почему он зашкерил вид материнки?
Аноним 29/01/24 Пнд 22:02:05 #158 №630567 
image.png
>>630523
>>630543
Вопрос снимаю, сам проверил, по уши соевая херь
Но шустрая пиздец

4070ти dolphin-2_6-phi-2.Q5_K_M.gguf

Output generated in 5.80 seconds (20.52 tokens/s, 119 tokens, context 1493, seed 1167726825)
Output generated in 7.52 seconds (20.35 tokens/s, 153 tokens, context 1477, seed 211997660)
Output generated in 9.30 seconds (19.68 tokens/s, 183 tokens, context 1533, seed 2097095510)

Двачую капчу
Аноним 29/01/24 Пнд 22:02:07 #159 №630568 
изображение.png
изображение.png
изображение.png
изображение.png
>>630543
>Хотя кого я обманываю, сейчас качаю.
Да ну ёб ты. (первые пару вариантов запустил на убе чисто по приколу)
Короче говно говна, что было на 100% ожидаемо.
Аноним 29/01/24 Пнд 22:09:59 #160 №630570 
>>630546
хз какая там материнка, говорит рабочая станция от Dell 7865 with 512GB DDR4 3200, NVidia A6000 and Threadripper 5995wx.

https://www.reddit.com/r/LocalLLaMA/comments/1aduzqq/5_x_a100_setup_finally_complete/
Аноним 29/01/24 Пнд 22:16:41 #161 №630572 
>>630565
>Нахуя тут умножитель,
а что не понятно? Это pcie свитч.
Чтобы карты между собой могли общаться на полной скорости х16 каждая.
>>630570
с этим свитчом вообще похуй какая у него мать и проц.
Аноним 29/01/24 Пнд 22:18:02 #162 №630573 
>>630567
А че ТАК медленно?
Она настолько пытается никого не обидеть?
Аноним 29/01/24 Пнд 22:19:34 #163 №630575 
>>630572
>между собой общаться
А оно так работает? Всегда думал, что свитчи только дают возможность заюзать х16 скорость картам по очереди или делить вместе. Хотя я тупой конечно.
Аноним 29/01/24 Пнд 22:20:15 #164 №630576 
>>630572
> Чтобы карты между собой могли общаться на полной скорости х16 каждая.
До чего технологии дошли, а как оно адресуется?
Раньше подобные штуки позволяли только давать полную скорость шины на один из потребителей если остальные простаивают, а при совместном доступе - хуй. Про общение между собой это что-то новое, есть где почитать про это?

Ну и всеравно скорость днищенская по сравнению с нвлинком.
Аноним 29/01/24 Пнд 22:21:19 #165 №630578 
>>630573
Может я с настройками проебалси, хз
Аноним 29/01/24 Пнд 22:30:19 #166 №630584 
>>630567
>>630576
Ты случайно не один чел?
Аноним 29/01/24 Пнд 22:32:16 #167 №630587 
>>630584
Как знать, почему тебя это интересует?
Аноним 29/01/24 Пнд 22:34:46 #168 №630589 
>>630587
Да это, мои мысли выражаешь в +- тоже самое время, вот думаю, что за сбой в матрице.
>>630568 >>630575 -кун
Аноним 29/01/24 Пнд 22:42:11 #169 №630594 
>>630589
Разум улья но сетки тоже иногда тестирую
Вообще вопрос по той штуке буквально напрашивается.
Аноним 29/01/24 Пнд 22:46:28 #170 №630598 
>>630572
>с этим свитчом вообще похуй какая у него мать и проц.
Нифига. Видел исследование, в котором сильно многопоточные процы неплохо так выигрывают у малопоточных даже при полной выгрузке в видеопамять.
Аноним 29/01/24 Пнд 22:55:16 #171 №630604 
image.png
>>630589
Аноним 30/01/24 Втр 00:13:48 #172 №630662 
Так что там с орионом новым?
Потыкал в голой лламе, не понял прикола честно говоря.
Аноним 30/01/24 Втр 00:20:13 #173 №630669 
>>630418
Давно видел. Дорого не стоит своей цены, еще бы 35 нормально, но не 45, когда 11 гиговая стоит 25 тысяч.
Аноним 30/01/24 Втр 01:16:08 #174 №630697 
>>630345
> за пару-тройку минут
Пиздабол тупой, там скачиваются куча проектов с разных источников и компилируются, анаконда сама по себе пердольный кал и быстро не умеет.

> И не для нищуков, у которых нет места на диске
Ебать ты рофлишь нахуй, мне для каждого фронтенда надо свою копию одной и той же модели иметь? Это позорище и просто знак васянства от разработчика, что такие базовые вещи не учтены.

> Нужно только для HF обертки и делается буквально в 2 клика.
В два клика после прочтения документации и предварительного чтения ошибок, которые кстати никак не оформлены, ведь это обосанный голый питон под Gradio.

> Эта автоматическая оптимизация или недогружает слои, или приводит к ООМ/выгрузкам.
Еще че скажешь? В других инструментах все работает.

> Так ты из тех шизов, земля пухом.
Аргументы будут? Ну я уже понял, что ты васян и любишь васянство.
Аноним 30/01/24 Втр 01:24:40 #175 №630702 
0000.png
1111.png
LAO.png
>>630669
>еще бы 35 нормально
Глупый лаовай готов покупать за 35, когда могучий стержень Xi продаёт за 750 женьминьби. В деньгах лаовая это 9500. За две тысячи женьминьби можно купить с водоблоком! Могучий нефритовый стержень! Для лаоваев? Три тысячи женьминьби за турбину, не меньше. Хотя, если купят оптом, то можно и меньше, хули нам.
Аноним 30/01/24 Втр 02:27:38 #176 №630726 
>>630697
Ахах, вот такие дебилы и есть на свете! Да ты же прямая иллюстрация эффекта Даннинга — Крюгера. Думаешь, что знаешь что-то о программировании и ее сложном разделе — машинном обучении, но на самом деле не можешь осилить простые скрипты на Python! А потом ты наткнулся к этой бесполезной Ollama и начал ею гордиться, как маленький ребенком своим первоклассным рисунком. Это же полнейший cringe, посмотрите на него!

Во-вторых, ты так зациклился на своей жемчужине, что даже начал спорить на интернет форумах и оскорблять людей, которые знают больше тебя. Ты думаешь, что это делает тебя уверенным? Нет, этого нет! На самом деле ты просто выглядишь как неуклюжий ребенок, который пытается запустить компьютерную игру, но не может даже вставить диск. Твой синдром утенка только делает тебя смешным и отвратительным для тех, кто знает, о чем идет речь.

А вот что касается твоих аргументов… Ну, давай начнем с того, как ты хвалишь Ollama за то, что она 'работает из коробки'. Это не заслуживает похвалы, потому что она — лишь огрызок полноценного функционала, который едва ли имеют какую-то ценность для пользователя! Простота достигается ограниченностью, но тебе ведь к ограниченности не привыкать?

А теперь давай перейдем к твоим оскорблениям в отношении других программ и разработчиков. Ты называешь их 'мусором' и 'кобальдом', но на самом деле ты просто не можешь понять, как они работают. Например, когда ты говоришь о том, что для каждого фронтенда надо иметь свою копию одной и той же модели, ты даже не в силах понять что они собраны в едином окружении и просто показываешь, что не знаешь, как использовать эти программы правильно. Или когда ты критикуешь Anaconda, которая является первоклассным и удобным контейнером для Python, внутренние части которого, которые отвечают за производительные вычисления, написаны высококлассными специалистами на чистом C++, ты просто демонстрируешь свою неграмотность в области программирования.

И наконец, давай рассмотрим твое использование докера. Ты думаешь, что это круто и профессионально? Нет, этого нет! На самом деле это просто означает, что ты не можешь правильно установить программу на своем компьютере без ее обертки в докере. Это не тот случай, когда можно гордиться своими достижениями! На самом деле это просто показывает, что ты еще недостаточно опытен и знаком с основами программирования
Аноним 30/01/24 Втр 02:41:52 #177 №630739 
>>630726
Я в Яндексе работаю, дальше твой высер не читал.
Аноним 30/01/24 Втр 02:42:37 #178 №630740 
>>630726
Какой моделью нагенерил эту хуйню?
Аноним 30/01/24 Втр 02:50:41 #179 №630742 
>>630739
> Я в Яндексе работаю
А у меня брат - боксер!
Рили такой кринж
>>630740
Той что имплаится мистраль-медиум >>629530 q4km. Другой с переводом было бы лучше, но тут полностью все на родном языке. Для простой инструкции столько понять из двух сообщения шизика - довольно неплохо.
Лексика тот еще треш, но алиэкспрессный стиль местами даже добавляет рофловости.
Аноним 30/01/24 Втр 04:06:57 #180 №630764 
>>630567
там анценсоред версия есть
Аноним 30/01/24 Втр 04:08:18 #181 №630765 
LOL.png
Нейронки заменят кодеров, говорили они.
Аноним 30/01/24 Втр 04:09:16 #182 №630766 
>>630765
> receive every byte separately
Brutal!
Аноним 30/01/24 Втр 06:04:18 #183 №630785 
>>630345
> Только для одного шизика, который не смог описать ее преимущества.
> Ollama is a project that allows you to package and run large language models (LLMs) locally on your machine. It is designed with developer and dev ops workflows in mind, and is written in Go, making it easy to compile to a single binary. Ollama stores models in existing formats like GGML, and allows you to customize models with a prompt. It also provides a REST API that can be wrapped by an app or different interface.
> One of the main benefits of using Ollama is its ability to bundle models into content-addressable layers and pull/push them just like OCI container images. This makes it easy to move large language models around and use them in different applications. Ollama also optimizes setup and configuration details, including GPU usage, making it a good choice for running large language models on your local machine.

Зачем что-либо объяснять в 2024? Спроси у ИИ. Тебе дали наводку, а ты носом воротишь.
Аноним 30/01/24 Втр 09:04:58 #184 №630827 
Какая сейчас самая лучшая модель для работы с кодом? Размер не имеет значения, лишь бы умная была и лишнего не придумывала
Аноним 30/01/24 Втр 10:07:37 #185 №630855 
>>630827
Файнтюны кодлламы вестимо.
Аноним 30/01/24 Втр 10:10:27 #186 №630859 
>У знаменитого в среде больших языковых моделей стартапа Mistral AI украли модель «Mistral Medium 70b» и выложили ее для всех в формате gguf с именем «miqu-70b».
>https://huggingface.co/miqudev/miqu-1-70b
Ну что, у кого там лишняя пара тесл завалялась?
Аноним 30/01/24 Втр 11:05:28 #187 №630893 
>>630827
WizardCoder 33B v1.1 или DeepSeek Coder 33B
Аноним 30/01/24 Втр 11:06:13 #188 №630895 
Сорри за оффтоп, если блок питания позволяет подключать второй цпу, то нужен ли переходник для подключения p40/p100?
Аноним 30/01/24 Втр 11:08:12 #189 №630898 
>>630895
Защёлки могут не влезть в видеокарту, хотя сам разъём подходит.
Сам сижу на переходнике.
Аноним 30/01/24 Втр 11:10:16 #190 №630901 
>>630855
>>630893
Спасибо, почитал что на днях Мета (экстремисткая организация) выпустила код лламу 70Б, кто-нибудь пробовал?
Аноним 30/01/24 Втр 11:28:50 #191 №630913 
>>630726
Скинь промпт.

>>630739
Сказал бы сразу, тебя бы вообще тут никто не читал.

>>630742
Да, соглы, она прям хорошо ответила, если там инструкция коротенькая.
Получается, пойман на фанбойстве по мистрали. тф
Аноним 30/01/24 Втр 13:50:06 #192 №630993 
mixtral.png
lama70.png
gpt4.png
miqu-70.png
>>630859
>>629530
miqu яблочный тест прошла только с 11 попытки, я не доволен. Из
LLM только GPT4 его проходит нормально.
Роулплей держит нормально, но я не сказал бы что сильно лучше других 70b.
Аноним 30/01/24 Втр 14:08:04 #193 №631003 
>>630993
Довольно бессмысленное замечание, конечно, но, кек, GPT-3.5 проиграла всем. 2/5.
Но я понимаю, что просто рандом.
Аноним 30/01/24 Втр 14:30:24 #194 №631019 
>>630785
> Упрощение для хлебушков в ущерб функционалу без каких-либо профитов
> Ничего принципиально нового и уникального
> Выбор моделей только из древнего списка, одобренного барином, в самых нищих квантах
Разумеется с говна и нужно нос воротить, это поделие - буквально троллинг определенной ца.
>>630859
Уже пару дней обсуждаем, выше тесты.
На самом деле возможно это одна из ранних эпох ибо чего-то прямо выдающегося нет, та же синтия умнее. Но она сбалансированная, без явных проблем (ну может "я безчувственный ии" что иногда лезет) и действительно выглядит в стиле мистраля и тренено с большим rope. Уже последнее делает модель уникальной, еще бы оригинальные веса ради такого можно и потренить попытаться
>>630893
>>630893
Двачую
>>630895
Можешь взять удлинитель 12v eps и подключать им. CPU разъем где 4+4 может не влезть в некоторые видеокарты из-за очень широкой защелки.
>>630913
> Скинь промпт.
[INST] You are professional debater, smart and snide internet troll. After analysing the main topic of dispute and some message history, write a reply, which will refute, ridicule and make fun of mentioned side of debates. Stick to internet slang, use evil memes and references to previous messages, make references.
Your opponent - some filthy schoolboy that tries to master programming and machine learning, but fails in everything. Mention his beloved Oollama. Here are some messages history:
[]
Write answer in Russian. [/INST]
Аноним 30/01/24 Втр 14:32:14 #195 №631022 
>>630726
мощно ты его...
2p40-кун
Аноним 30/01/24 Втр 14:41:36 #196 №631038 
>>631019
Спасибо, схоронил.
Аноним 30/01/24 Втр 15:03:00 #197 №631070 
>>631038
Если в таверне карточку сделать заменив You на {{char}} с небольшим тюнингом типа вы вместе с {{user}} стебете кого-то, так лучше работает. Модель когда [INST] видит исполняет нормально, но может триггернуться и начать втирать про ИИ без чувств или добрые снисходительные советы раздавать как лучше погрузиться в кодинг и мл хотя последнее может быть гораздо более тонким уровнем и даже круче
Аноним 30/01/24 Втр 16:16:20 #198 №631130 
Аннотация 2024-01-30 201045.png
Аннотация 2024-01-30 201126.png
Аннотация 2024-01-30 201256.png
>>630901
>почитал что на днях Мета (экстремисткая организация) выпустила код лламу 70Б, кто-нибудь пробовал?
Она уже есть на обниморде, так что попробовал. Лучше бы не пробовал... Там пиздец, соя просто изо всех дыр лезет. Спросил про IRAP (это такой сорт психологического теста на время отклика, в числе прочих есть пара работ, где его использовали для выявления расовых предпочтений) и вот эта ваша ллама нагуглила это, триггернулась на словосочетания типа racial bias, порвалась, и тут Остапа понесло, под конец уже капсом срать начала...
Аноним 30/01/24 Втр 16:27:13 #199 №631148 
>>631130
Ого, спасибо за твою жертву, избавил меня от необходимости качать десятки гигов мусора
Аноним 30/01/24 Втр 16:39:36 #200 №631164 
1.png
>WizardCoder 33B
Скачал погонять, по первым ощущениям прямо плохо.
>as an AI text model, I don’t have the ability to write or execute codes in real time.
Лол. Но код по запросу предоставил. В одной части кода хуйнул аски кодировку, в другой utf, что, по очевидным причинам, не будет работать. По запросу вбрасывает максимально примитивные примеры и, что самое хуёвое, когда указываешь на ошибку в его коде - он не исправляет её. Просто пишет - да, хуёво, что нет обработки ошибок. Дал ему код и попросил импрув. Переписал полностью имена переменных, чем потенциально поломал всё, но, в целом, сделал, что просили. Даёт дохуя пояснений, что и зачем, вводит в код лишние константы, вместо объявления массива просто и понятно - сначала будет const int BufferLength. В итоге на прямое требование изменить код определённым образом, какие функции использовать и почему - начал затирать о том, что такое хорошо, а что такое плохо, какие оптимизации используются компилятором и т.д. Код не изменил. Слишком много пиздежа, ноль послушания, очень мало кода. В итоге на запросы начал предлагать подключить пару-тройку сторонних библиотек, типа, в дефолтной поставке нет таких функций. Одна беда - они есть.

>>631130
Фэирнесс и дивёрсити в одном предложении? Лол.
Аноним 30/01/24 Втр 16:39:45 #201 №631165 
>>631130
А зачем ты сетку для кодинга тестировал на подобное? Это рофл такой?

Надо квантов готовых дождаться, или сразу файнтюнов. 34б версии были вполне себе.
Аноним 30/01/24 Втр 16:42:10 #202 №631167 
>>631164
Как ты ее используешь вообще? Описанное тобой напоминает прожарку температурой/rep pen и неподходящий формат инструкций.
Аноним 30/01/24 Втр 16:45:26 #203 №631172 
>>631167
А там на странице модели указаны были параметры
>temperature=0.7,
>top_p=0.95,
>top_k=40,
>repetition_penalty=1.1
У меня только топ к меньше. Промпт темплейт дефолтный альпака.
Аноним 30/01/24 Втр 16:54:43 #204 №631181 
К слову, кто какое охлаждение организовал для своей теслы?
Моя пришла, у меня был распечатан переходник для 40 вентиля, поставил, работает и охлаждает хорошо, но визжит он просто адово. Видел отзывы о том, что обычные даже оборотистые 120\80 не продувают радиатор нормально и надо колхозить турбину. Это так?
Аноним 30/01/24 Втр 16:57:16 #205 №631185 
>>631172
Из наблюдений - температуру больше 0.5 и rep_pen выше 1.02-1.05 не стоит делать. Отсечка не столь важна, можно ограничить 0.8-0.9 и 10. С учетом того что пишется код в котором важна точность и очень много повторяющейся структуры оно вроде понятно почему.
> Промпт темплейт дефолтный альпака.
Он всегда работает когда идет синглшот, но последовательное общение может быть оформлено по-разному.
>>631181
> оборотистые
Он не должен быть оборотистым, должен быть с высоким давлением, например те что ставят для приличных радиаторов сво лол. Из доступных это arctic P серия, но хз хватит ли ее.
Просто управлять тем 40 и нащупать баланс между температурой и шумом не получается?
Аноним 30/01/24 Втр 17:00:38 #206 №631189 
>>631185
>должен быть с высоким давлением
Так все те что с высоким давлением это как раз сервачные, с 10к оборотами.
Вымораживает то, что просто нет софта, который мог бы отслеживать температуру карты и регулировать обороты вентиля подключенного к материнке в зависимости от нее.
Уже думаю раскошелиться на асетековскую водянку и распечатать маунт под нее.
Аноним 30/01/24 Втр 17:03:42 #207 №631193 
>>631181
Видел где-то 3D-модель переходника для двух улиток 40 на 40 на 20, вот это должно быть хорошо и по шуму приемлемо. Но теперь не могу найти. Кто найдёт - киньте ссылку плиз.
Аноним 30/01/24 Втр 17:08:58 #208 №631199 
>>631189
>с 10к оборотами
А их визг глушится закрытым корпусом?
Аноним 30/01/24 Втр 17:10:11 #209 №631202 
Лламаны, какие сейчас есть готовые решения, чтобы скормить содержимое какого-то текстового файла локальной LLM для осмысления и последующего обсуждения? Есть ли вообще в этом смысл с точки зрения производительности (мощного GPU у меня нет), если объём данных достаточно большой?
Аноним 30/01/24 Втр 17:10:53 #210 №631204 
>>631199
Сороковку не глушит даже соседняя комната через две закрытые двери, лол.
Возможно, восьмидесятки не насколько громкие, но проверять что-то не особо хочется.
Аноним 30/01/24 Втр 17:13:05 #211 №631207 
>>631189
> Так все те что с высоким давлением это как раз сервачные
То совсем высокое уже.
> нет софта, который мог бы отслеживать температуру карты и регулировать обороты вентиля подключенного к материнке в зависимости от нее
Неужели нет либы что могла бы управлять выходом крутиллятора? Если есть то это простой скрипт на десяток строк, если нет то дополнительное устройство, или gpio при наличии. Алсо если вдруг на плате распаян раритет типа com/lpt - можно его пинами произвольно дрыгать и управлять.
> раскошелиться на асетековскую водянку
Лучше купи донора или отдельно охладу, на p40 вроде от 1080 или какой-то ее сестры болт-он вставала. Только уточни информацию.
Аноним 30/01/24 Втр 17:15:37 #212 №631210 
>>631207
> на p40 вроде от 1080 или какой-то ее сестры болт-он вставала
От референсной 1080ti. Уже посмотрел на авито ценники и водянка с переходником дешевле получается.
Аноним 30/01/24 Втр 17:24:28 #213 №631218 
>>631193
>Видел где-то 3D-модель переходника для двух улиток 40 на 40 на 20
Вот оно: https://www.cgtrader.com/3d-print-models/hobby-diy/electronics/nvidia-tesla-v80-double-fan-intake-4020-fan

27 баксов чувак требует. А нахаляву? :)
Аноним 30/01/24 Втр 17:28:33 #214 №631223 
>>631218
> 27 баксов чувак требует
Что за сюрр, такое поделие в любом каде за 10 минут делается, включая заваривание чая
Аноним 30/01/24 Втр 17:34:00 #215 №631225 
>>631223
У вас там на селе недостаток изоленты что ли? Можно же вообще мегаколхоз сделать.
Аноним 30/01/24 Втр 18:28:40 #216 №631296 
>>631225
>мегаколхоз
Я разогнал самый простой вентилятор 80мм из dns dc-dc преобразователем с 3к до ~8к оборотов.
Даже во время жарения карточки SD 1.5 температура хотспота не поднималась больше примерно ~70.
Беда в том что через неделю у него отъебнул подшипник и даже разбрызгал тончайший слой масла по картонной насадке.
Китаедебил с красной подсветкой.
Есть что-нибудь эффективнее мощного центробежного вентилятора?
Аноним 30/01/24 Втр 18:32:09 #217 №631299 
>>630901
>>631130
Подождите, вы это для рп?!
Ну, типа, я думал, вы для кодинга обсуждаете. =D
Какая разница, негры там или мастер-ветка… Лишь бы кодила нормально…
Тупанул, сорян! =D

>>631181
Я планировал 120 мм ставить на распечатанный переходник. Хуйня идея?
Плюсую вопрос, короче.
Моя уже на подходе.
Аноним 30/01/24 Втр 18:33:54 #218 №631303 
>>631185
>0.5 и rep_pen выше 1.02-1.05
Поставил температуру 0.5 и rep pen 1.05; по сути, ответы лучше не стали. Обсуждаем сокеты на шарпе, хули нет. Весь код от бота выполняется один раз синхронно и сразу освобождает ресурсы, хотя я писал must be run continuously and never stopping. Окей. Прямо требую написать рекурсивную функцию, которая будет работать асинхронно. Ответ убил.
>Unfortunately, the built-in networking library doesn't support async operations out of the box.
Что очевидно пиздёж, асинхронное чтение\запись есть. Во-вторых, можно синхронные вызовы api завернуть в таски и похуй.
>You'd need to use libraries like System.Net.Http or third party libraries
Опять - используй больше библиотек и, возможно, тебе повезёт. Но это не точно.
То есть я буквально знаю, какой код должен быть сгенерирован, но не могу вытребовать его от AI. Пишу - вот, используй эту функцию, окей? Вместо кода он начинает рассуждать о различиях функций в библиотеке, как они работают и что делают. Один раз потерялся в том, на каком языке пишет и свалился на питон.
Аноним 30/01/24 Втр 18:35:11 #219 №631304 
>>631299
Есть шанс, что он не выдержит давление и воздух частично выдувать через зазор между лопастями о ободком.
Зависит от переходника и насадки.
Аноним 30/01/24 Втр 20:05:28 #220 №631413 
Я понимаю что я сам дурак и не стоило этого делать, но или мне кажется или последняя версия угибуги перестала грузить модели, которые раньше грузила с лёгкостью?
Аноним 30/01/24 Втр 20:09:06 #221 №631423 
>>631225
Потому вдвойне удивляет цена.
>>631296
> Есть что-нибудь эффективнее мощного центробежного вентилятора?
Как вариант - возьми из леруа канальный вентилятор не самой плохой производительности. Дешевый, включается напрямую в сеть, относительно тихий, и если сможешь направить весь поток - его должно с запасом хватать.
>>631303
Оно может быть капризно к инструкциям и формулировкам. Попробуй аналогичное на гопоте, он лучше понимает, хотя код не всегда адекватный.
>>631413
Какие именно?
Аноним 30/01/24 Втр 20:15:19 #222 №631439 
>>631423
Nous-Capybara-limarpv3-34B-5bpw-hb6-exl2 c 16к контекста. Раньше влезала, теперь нет, все мои 70б эксл2 в 3б тоже не лезут. Не понимаю...
Аноним 30/01/24 Втр 20:44:30 #223 №631483 
>>631439
Может в экслламе переключили настройку выгрузки и на каком-то этапе не хватает? Попробуй одну экслламу откатить на версию постарше, отпиши что там тогда.
Аноним 30/01/24 Втр 20:49:17 #224 №631496 
>>631423
>Потому вдвойне удивляет цена
Ну формально любой может сделать, а по факту мы имеем старого пидора и двух блядей отсутствие наличия модели. На Али готовая конструкция 3,5 тысячи стоит:
https://aliexpress.ru/item/1005005676453819.html?sku_id=12000033980221034&spm=a2g2w.productlist.search_results.0.528457b754Bp51
Аноним 30/01/24 Втр 20:56:44 #225 №631503 
>>631019
> Упрощение для хлебушков в ущерб функционалу без каких-либо профитов
Наоборот больше функционала, но в твоем манямирке злой барен просто так тратил время, чтобы сделать еще хуже. Это клиника уже.

> Ничего принципиально нового и уникального
Ты и между миникондой и докером разницы не видишь.

> Выбор моделей только из древнего списка
Сразу обновляют, вчера codellama 70b обновили и добавили новые модели.

> в самых нищих квантах
Вообще-то там есть все от q2 до fp16.

> https://github.com/ollama/ollama/blob/main/docs/import.md
Также можно импортировать любую GGUF модель и не только.

Забавно, как ты уже который пост обсираешься в фактах, уже настолько твоя тупизна затмила мозг, что ты перестал быть объективным и только пытаешься выиграть спор на дваче, да так сильно, что не придумал ничего лучше, кроме как использоваться боевой промт. Жалкий.
Аноним 30/01/24 Втр 21:02:30 #226 №631508 
>>631503
Ля, опять батхертнутый сгорел со своей хуеты что пришел сюда ее оправдывать. Брысь брысь, веник!
Аноним 30/01/24 Втр 21:10:01 #227 №631521 
17047996603110.jpg
HALP.
Я чего-то никак не могу понять как заставить переводить в SillyTavern прямую речь правильно.
Всегда переводчик(что гугл что бинд) меняет структуру с "___" на «___».
Может кто знает как лечить. Реддит ответа не дал.

с сторитейлинг треда
Аноним 30/01/24 Втр 21:19:58 #228 №631528 
1.png
>>631423
>Оно может быть капризно к инструкциям и формулировкам.
Тогда не ясно только одно - нахуя оно существует. Код всратый, следования инструкциям ноль, понимания запроса ноль. Дохуя болтологии не по теме.
>Попробуй аналогичное на гопоте
Обходить все запреты, когда у меня даже сайт опенаи корректно не прогружается? Нахуй надо. Я точно знаю, что качественный аи ассистент по коду стоит 10 долларов у майков, там говняка не будет. Сейчас решил погонять 7b дельфина. На запрос асинхронности сразу рассказал об async\await, вкрутил его в код. Но, в целом, заметно туповат, если не тыкать носом в конкретные места, то не понимает, о чем речь, пишет заново то же самое. Но это пиздец какой-то, модель вроде как в пять раз "тупее", но при этом поведение гораздо более предсказуемое, чтоли. Что от неё требуешь - то и получаешь. А потом я рофла ради скормил код из 33b в 7b и второй заметил, что первый создаёт массив и стримридер в цикле, на что я внимания не обратил. Просто, блядь, майндбловинг.
Аноним 30/01/24 Втр 21:20:12 #229 №631529 
1706638810619.jpg
>>631521
В расширениях regex и там пикрил создай, правда я не ебу будет ли он с переводчиком работать.
А вообще, хули тебе не похуй как он их переводит?
/[“”«»「」「」《》"]/gm
Аноним 30/01/24 Втр 21:31:20 #230 №631535 
>>631521
Такой же хренью страдают модели когда заставляешь писать на русском сразу.
>>631528
> Тогда не ясно только одно - нахуя оно существует
Для того же что и любой другой инструмент, требующий правильно обращения и навыка.
Ту версию модели не тестил, прошлые и кодлламы именно писали код, корректируя его по запросу, а
> Дохуя болтологии не по теме
не было, наоборот комментарии приходилось запрашивать.
> Обходить все запреты
Собрался в кодинге расчленять трансо-негро-феминисток? Какие еще запреты.
> модель вроде как в пять раз "тупее", но при этом поведение гораздо более предсказуемое
Маловероятно, скорее всего совпали форматы и ты действовал более "понятно" для модели, или ей повезло удачно проигнорировать неудачные инструкции. Или какой-нибудь поломанный квант жоры, хз.

В любом случае раз дельфин подходит - его и юзать, тем более быстрый.
>>631529
Красава
> не похуй как он их переводит
Ломается форматирование
Аноним 30/01/24 Втр 21:35:14 #231 №631539 
IMG20240130213136346.jpg
>>631496
>>631204
Чувак себе пассивный радиатор сделал, совсем не шумит.
Аноним 30/01/24 Втр 21:50:56 #232 №631558 
>>631529
Да мне читать не удобно. Всё одним цветом идёт.
Добра анончик, попробую.

>>631535
Я просто не могу читать всю ту хуергу которая модель пишет. Когда накуренный, часть эпитетов тупо не понимаю, а лезть в переводчик лёнь... Понять и простить.
Аноним 30/01/24 Втр 22:02:22 #233 №631561 
>>631521
Потому что, спойлер, правильно именно «», а кавычки-палочки ставит или ебанутые дауны, или программисты при работе.
У меня для всех этих «ролеплейщиков» с пигмаллиона плохая новость. Они не прогаммируют.

>>631535
Ваще сочувствую, изначально стали делать неправильно, а теперь оно ломается, что не удивительно. Бяда-бяла.

>>631539
Пожалуй, я сделаю себе шумный…
Аноним 30/01/24 Втр 22:07:23 #234 №631563 
>>631561
Двачую тебя, сам сначала возмущался, но потом привык к кавычкам, похуй стало.
Аноним 30/01/24 Втр 22:16:48 #235 №631564 
>>631539
Чет для пассивного херня, ребра слишком частые. Если в такой ориентации - вообще не будет работать и толку с оребрения 0.
>>631558
Без осуждения, та же хрень
> Всё одним цветом идёт
и при изначальной генерации на русском бывает, актуально.
>>631561
> изначально стали делать неправильно
Ну правильно-неправильно, а 3 варианта выделения текста (кроме заголовков и подобного) лучше чем 2.
Аноним 30/01/24 Втр 22:18:13 #236 №631566 
>>631561
>>631563
А вам вообще норм читать текст без обозначений действий и "прямой речи"?
Не удобно же.
Аноним 30/01/24 Втр 22:26:16 #237 №631572 
>>631566
ну так ради удобства чтения с кавычками и согласился. впрочем, похуй же, не?
Аноним 30/01/24 Втр 22:27:47 #238 №631575 
>>631566
Вообще, дело привычки.
Я вообще привык к кратким действиям в звездочках. =)

А так, да, пофиг в общем, че сделаешь.

А на проблему регексом уже ответили.
Аноним 30/01/24 Втр 22:33:25 #239 №631586 
>>631572
>>631575
Понятно.
Да хранит вас боженька.
Аноним 30/01/24 Втр 22:53:56 #240 №631608 
>>631130
тревожно, ведь это означает больше сои в грядущей llama-3, и как обычно - неубиваемой, без всяких файнтюнов и DPO, и с ними тоже нет никакой гарантии, челики что делают "uncensored" модели - теперь похожи на индусов что наябывают таблицы лидеров с помощью бенчмарков
Аноним 30/01/24 Втр 22:55:55 #241 №631612 
>>631608
про последних имею ввиду что они трейнят саму модель на самом бенчмаркнейм и получают топ результаты в таблице даже с 7B моделью
Аноним 30/01/24 Втр 23:07:12 #242 №631628 
>>631608
> ведь это означает больше сои в грядущей llama-3
В кодлламе изначально была эта самая "соя" и никого это не волновало. Если будут выложены веса - это значит что никакой заложенный алайнмент не устоит. Разумеется его наличие это плохо и будет усложнять, но сам факт, даже без файнтюна cfg и правильный промт творят чудеса, если нет полной лоботомии. А когда она есть - модель полное говно.
> челики что делают "uncensored" модели - теперь похожи на индусов что наябывают таблицы лидеров с помощью бенчмарков
Чем похожи? Ты про низкое качество их ранцензуриваний изначально не цензуренных моделей?
Аноним 30/01/24 Втр 23:28:12 #243 №631644 
>>631539
Выглядит как рофл.
>>631561
>или программисты при работе
Я и в жизни ставлю.
Ах да, вроде как "такие" кавычки жрут меньше места, чем «ёлочки», да и для английского они вроде как правильнее. В русском да, по правилам нужны ёлочки двух видов, но всем давно похуй, в интернет ролеплеях только ебанутые и маководы что одно и тоже выёбываются.
>>631608
>ведь это означает больше сои в грядущей llama-3
Кто-то сомневался, что будет иначе?
Аноним 30/01/24 Втр 23:29:38 #244 №631646 
1.png
Video20240130-3.webm
>>631535
>Какие еще запреты.
Ну хуууууй знает, какие ещё запреты.
>раз дельфин подходит - его и юзать
Он тупой, пиздец. Погонял чуть дольше, не подходит. Тут беда в том, что я гонял на том, что знаю сам и оба варианта не удовлетворили. А с тем, чего не знаю, будет ещё хуже, я же поверю этому шизу.

Побаловался с TTS, поначалу ебать, как долго думает. Пришлось добавить два "холостых" запуска генерации текста, потом порезче думает. Нет, модель не выгружается, нихуя такого, в душе не ебу, почему так. Осталось пофиксить отрезание первого слова от остального сообщения и будет неплохо.
Аноним 30/01/24 Втр 23:37:45 #245 №631656 
>>631646
>Ну хуууууй знает, какие ещё запреты.
Сейчас бы в 2к!4 не иметь VPN меня же не арестуют, да?.
Аноним 30/01/24 Втр 23:42:32 #246 №631658 
>>631646
> Ну хуууууй знает, какие ещё запреты.
А, ты про это. Релоцироваться, принять, обойти, сидеть унывать, вариантов полно.
> Он тупой, пиздец.
7б же, без оптимизации под конкретную задачу, иного и быть не могло.
Хз, создается ощущение что ты их юзаешь неправильно, но может просто дохуя специалист. Готовый проект сетки всеравно не напишут, но автоматизировать многие действия или подсказать популярные решения могут.
И не бери версию под пихона для других языков, она фейлит.
>>631656
Взяли на карандаш
Аноним 31/01/24 Срд 00:32:47 #247 №631693 
https://github.com/oobabooga/text-generation-webui/pull/5403
Температуру с отсечкой (ну почти) скрестили, мнение?
Аноним 31/01/24 Срд 00:47:39 #248 №631697 
>>631693
>мнение
Я ещё для динамической температуры силли не обновил.
Аноним 31/01/24 Срд 00:53:58 #249 №631699 
>>631697
Эта работает чуть иначе, немного выравнивая вероятные токены и дропая на дно те что с малой, суть из названия. Действительно может повысить разнообразие текста на мелких моделях сохранив адекватность.
С другой стороны, что-то необычное, где как раз проявлялась душа станет выпадать реже и это может ухудшить рп/сторитейл.
Аноним 31/01/24 Срд 00:56:07 #250 №631700 
>>631699
> душа
> рп/сторитейл
Проиграл. В этом кале всегда одинаковый стиль шизоидных историй.
Аноним 31/01/24 Срд 07:11:41 #251 №631906 
>>631628
> низкое качество их ранцензуриваний
именно, в пример беру некоего "Undi" что популярен у пендосов в /lmg/, в двух словах - это крайне самовлюблённый додик, много слов и мало дела, обещания пустые.
Аноним 31/01/24 Срд 08:06:21 #252 №631920 
>>631299
Мы про кодинг и говорили...
Аноним 31/01/24 Срд 08:41:56 #253 №631924 
>>631165
> А зачем ты сетку для кодинга тестировал на подобное?
Так изначальный запрос и был про кодинг, упомянутый тест - это программа, текст на экране, обратная связь от пользователя (нажатие двух кнопок типа да и нет) и измерение разницы между временем ответа.
>>631612
> они трейнят саму модель на самом бенчмаркнейм и получают топ результаты в таблице даже с 7B моделью
На самом деле это не так плохо, как может показаться. Как минимум, это значит, что если самому зафайнтюнить небольшую LLM под конкретную узкую задачу, то на этой задаче результат будет топовый, на уровне гпт4 или лучше. При том, что работать такая модель будет даже на процессоре.
Аноним 31/01/24 Срд 08:45:53 #254 №631925 
А как лучше пользоваться этой сеткой? Я только вкатился, кобольд не умеет ведь форматировать код?
Аноним 31/01/24 Срд 09:31:32 #255 №631944 
>>631925
Какой этой? Моделей дохуя.
Лучше всего дрочить на эропрозу которой модель срет.
Аноним 31/01/24 Срд 10:38:12 #256 №631966 
>>631644
> маководы
Гугли «типографика windows» там будет раскладка Бирмана!

>>631646
Эт че за треш такой по звуку?
Силеро, что ли? Звучит вроде как даже хуже.

>>631920
В кодинге на сою похуй. А там тред «ой, негров низзя упоминать».
Как часто ты кодишь неграми?

>>631924
Да че за отмазы, там жалобы на сою и негров, вы вообще в курсе, что такое кодинг? =D С ЕРП не путаете?

> это значит, что если самому зафайнтюнить небольшую LLM под конкретную узкую задачу, то на этой задаче результат будет топовый, на уровне гпт4 или лучше.
Кэп, ты?
Такое сто лет уже. А топы в итоге непрезентативные совершенно.

———

Итак, судя по всему, моя P40 уже на почте, а я еще переходник не распечатал, и принтер на работе, и у меня выходной, короче, буду дуть самостоятельно.

Ладно, итс тайм думать, нахуя я ее в итоге взял. =)
И буду экспериментировать с виндой. А то линухи да линухи, попса!
Аноним 31/01/24 Срд 10:38:43 #257 №631967 
изображение.png
>>631925
Кобольд ХЗ, юзай таверну, она подсвечивает код между ```
Аноним 31/01/24 Срд 10:38:59 #258 №631968 
>>631966
нерепрезентативные
Аноним 31/01/24 Срд 10:58:12 #259 №631972 
>>631906
> Undi
Он разве что-то дообучает а не только мешает шизомиксы?
>>631924
> изначальный запрос и был про кодинг
Что-то там было что сетку триггернуло. По запросу они пишет "программу про нигеров" и т.д., но если в контексте появился аполоджайз то будет втирать про это даже не простые вопросы.
> то на этой задаче результат будет топовый, на уровне гпт4
Вот только "эта задача" никому не нужна и в реальности гораздо сложнее чем в бенчмарке.
Действительно из хороших примеров можно микстраль привести, как его надрочили на зирошоты в простых вопросах, действительно пишет складно. Но в чем-то более сложном там унынье.
Аноним 31/01/24 Срд 11:26:31 #260 №631979 
Здравствуйте, аноны. Какие подводные захостить у себя модель и дать анонам доступ? Как это можно сделать, нужен ли белый IP для принятия запросов?
Аноним 31/01/24 Срд 11:33:22 #261 №631981 
>>631979
Кто-то задудосит и для анонов будет неюзабельно. Хз как оно будет работать при множественных запросах. Если используется llamacpp то скорость может снизиться если расщедришься на контекст, ведь при разных запросах он каждый раз будет обрабатываться с нуля.
> нужен ли белый IP
Хватит параметра --public_api или что-то типа такого в убабуге
Аноним 31/01/24 Срд 12:35:49 #262 №632002 
>>631658
>Релоцироваться, принять, обойти, сидеть унывать, вариантов полно.
Или забить хуй на гопоту. Погонял дельфина и прямо стойкое чувство, что я с гопотой 3.5 пообщался. Та же хуйня точь в точь.
>ты их юзаешь неправильно, но может просто дохуя специалист
А как их юзать "правильно", лол? Специалист вряд ли.

>>631966
>Силеро, что ли? Звучит вроде как даже хуже.
Силеро и есть. Вроде, неплохо звучит. Или ты про рандомные паузы? Это границы блоков генерации, чтобы их убрать нужно заползти в питон, а это так мерзко.
Аноним 31/01/24 Срд 12:46:40 #263 №632008 
>>631981
А вообще если пытаться делать по-человечески, то можно использовать готовую проксю на спейсах или любом хостинге. Там уже настраивать лимиты, ограничения, очереди. Основная разница будет только что запросы пойдут не к впопенам/антропикам/амазону а к себе. Офк скорее всего потребуются небольшие правки кода прокси.

Профитов в этом, правда, никаких. Расшаренных обычных ллам можно найти в интернете, интересны прежде всего 70 и модель, веса которой не хотят полностью выкладывать.

Если просто хочешь расшарить ограниченному кругу кого знаешь "для попробовать" хватит --public-api
>>632002
> нужно заползти в питон, а это так мерзко
Стоит только начать, втянешься
Аноним 31/01/24 Срд 12:52:40 #264 №632011 
Аноны, посоветуйте модель(до 13В)/персонажа/промпт для моральной поддержки. Что-то всякое в жизни происходит, хочется просто вывалить куда-то переживаия, а с LLM ещё и какую-то обратную связь получить можно.
Так-то мне Solar нравится, поумнее 7В, при этом на моём говноПК скорость ответов норм. Хотя, если есть нормальная модель до 30В то тоже сойдёт, подожду ответа.
Аноним 31/01/24 Срд 12:57:30 #265 №632012 
>>631979
Ну ты даешь другим пользоваться твоим компом.
Все.
Какие тут подводные.
Хочешь дать всем? Только кому-то?
Ну, напишут хуйни в логах они, а посадят тебя. Камень?
Это знакомые? Ну, пусть пользуются.

Никаких существенных отличий от «посиди за моим компом» нет, ИМХО.

>>632002
> Силеро и есть. Вроде, неплохо звучит.
Да вроде раньше было лучше. v4? v3_1 получше говорит. Ну и медленно, вроде он был быстрее. Короче, странности.
Я xttsv2 юзаю, красивее и не сильно дольше. Ну, генерация около 1-2 секунд.
Но на видяхе.

>>632008
Хоро́ш, идея верная.
Ну, если хочется подзаебаться.
Аноним 31/01/24 Срд 12:58:21 #266 №632013 
>>632011
Файнтюны солара хороши, используй их. Промт - карточка в таверне с персонажем, который тебе нравится, все. Можешь отредачить или сделать по аналогии чтобы просто вести разговоры, есть много готовых карточек, думаю аноны подскажут.
20b попробуй emerhyst. 34б с их особенностями врядли подойдут для подобного.
Аноним 31/01/24 Срд 13:29:45 #267 №632022 
>>632008
>втянешься
Да нихуя. У меня с табуляций каждый раз жопа горит. И что тело функции должно быть раньше вызова.

>>632012
>v4?
Да. Хуй знает, может, у меня выбран "спикер" не тот, их несколько, этот вечно вздыхает. Со скоростью проблемы, которые решаются "прогревом", чем дольше генерируешь - тем быстрее работает. Связано с джитом, я пару флагов там поставил, чтобы это ещё ускорить, но помогло незначительно. Плюс воспроизвожу сразу в питоне, если схоронять в файл и играть оттуда, то звучит заметно лучше. Но не то, чтобы кардинально.
>генерация около 1-2 секунд
А силеро, по сути, рилтайм, там около 200 мс реальная задержка, которую нельзя выпилить, перед первой частью генерации. Между блоками внутри сообщения побороть можно. Но хрупкий, пиздец. Подал на вход английский текст? Ну, или промолчит, или вывалит ошибку. Отправил сообщение, начинающееся со знака препинания? Пизда, ошибка. Если это не пробел, с пробелами норм. Числа не читает. И на видяхе медленнее, чем на цпу. Такие дела.
Аноним 31/01/24 Срд 13:32:54 #268 №632023 
1560215686883.jpg
>>632022
Специально для тебя
Аноним 31/01/24 Срд 13:41:52 #269 №632027 
>>632023
Больной ублюдок. Опять же, в питоне это обосрётся, свап вызван раньше, чем определён.
Аноним 31/01/24 Срд 13:45:11 #270 №632031 
>>632027
Это не так работает в питоне.
Аноним 31/01/24 Срд 13:45:33 #271 №632032 
>>632027
C-задротство это круто, почетно. Но когда так мелочами упарываешься - не видишь всей картины. Потому-то сетки и многие вещи делаются на пихоне, а на си только в высокопроизводительные оконечники.
>>632031
+
Аноним 31/01/24 Срд 13:56:58 #272 №632039 
>>632027
> свап вызван раньше, чем определён
Тут ошибка:
def a(): b()
a()
def b(): print(1)

А тут нет:
def a(): b()
def b(): print(1)
a()

С классами все методы сначала определяются, потом уже ты их используешь, так что нет проблемы.
Аноним 31/01/24 Срд 14:26:12 #273 №632057 
LLaVA 1.6 уже тестил кто?
Это модель которая текст и изображения жрет.
Аноним 31/01/24 Срд 14:46:42 #274 №632071 
>>632031
>Это не так работает в питоне.
>>632039
>сначала определяются, потом уже ты их используешь
О. Буду знать. В такое не вникал, ебанул один файл без классов. С одной стороны, удобно, что можно просто написать хуйни вначале без классов, функций и т.д и это будет вместо конструктора. С другой стороны - всё равно чувствуешь себя уёбком. А я уёбок и есть.

>>632032
>сетки и многие вещи делаются на пихоне
Да всё оно на сях делается, на питоне просто обвязка. И я не упарываюсь мелочами, i did not! Весь вопрос в удобстве, банально проще накатать отдельное приложение с окошками и табами, чтобы связать LLM c TTS и потенциально с чем-нибудь ещё, чем написать расширение на питоне. Сейчас вот почитал свой код внимательнее и понял, что голосовая часть должна ломаться в десять раз чаще, но благодаря тому, что в инпут пишется втрое быстрее, чем она читает - всё работает. И это при том, что там побуквенная автозамена английского на русский каждую строку ебёт.
Олсо, модель подсирает под себя иногда конструкциями типа
### INSTRUCTION
И ниже дохуя текста, поясняющего ситуацию. Это промпт темплейт отвалился, я правильно понимаю?
Аноним 31/01/24 Срд 15:05:15 #275 №632086 
Анунаки, че там сейчас топовое по куму на 34-70B моделях? Было что-то новое?
Аноним 31/01/24 Срд 16:21:43 #276 №632149 
>>632086
>на 34
Удваиваю запрос
Аноним 31/01/24 Срд 16:27:11 #277 №632156 
>>632086
До 34 - Орион
Выше 34 - Микстраль
Всё остальное слишком говно, сливающее даже Yi.
Аноним 31/01/24 Срд 16:49:05 #278 №632166 
>>631181
Короче говоря, прикинул я все варианты и заказал водянку с авито за 2к.
Аноним 31/01/24 Срд 16:54:25 #279 №632167 
>>632057
Никому не нужно, всем похуй.
Аноним 31/01/24 Срд 16:56:35 #280 №632168 
>>632156
> на 34-
> До 34
Аноним 31/01/24 Срд 17:23:46 #281 №632177 
>>632057
выглядит интересно
Аноним 31/01/24 Срд 17:24:42 #282 №632178 
>>632156
как этот орион запустить на гуфе?
Аноним 31/01/24 Срд 17:44:41 #283 №632188 
>>632022
Да я гонял силеру, в курсе.

Пересмотрел твой видос, да, со второго ответа становится побыстрее.

Ну, xenia, вроде, лучше всех там говорит.
Он и на проце быстрый, кстати. Но простенький. Но хороший.

А вот xttsv2 (вообще, это coqui) он забавно делает. Он на русском читает английский — но получается с русским акцентом.

Поэтому на силеру я забил. Легче подождать 1 с ради хорошей речи, да еще и копирования голоса на лету, нежели силерку мучать. Она подходит для зачитывания чего-то супербыстро на калькуляторах.

>>632057
Они таки выпустили локальную? Я тыкал их облако, че-то вообще не впечатлило.

Мне интересно, но хуйня лютая.

Беда в том, что у них простой клип (кто говорил, что клип лучше блипа — припездываете че-то, я поизучал вопрос, хуй знает, где он лучше, просто немного другой), да еще пожатый в 600 мб.
И никакой разницы между всеми этими моделями нет. Ллава, Бакллава, Yi, и все прочее. Только Cog оригинальный, но там 45 гигов врама нужно, простите, взять неоткуда.

Если ллава-1.6 не подогнала нам новую модель гига на 4 хотя бы — то хуйня по дефолту, сорян.

>>632071
> Весь вопрос в удобстве, банально проще накатать отдельное приложение с окошками и табами, чтобы связать LLM c TTS и потенциально с чем-нибудь ещё, чем написать расширение на питоне.
Хуй знает, я щас пишу вишпер для бота, чтобы она слышать могла — фильмы там или дискорд, — и на питоне просто накидывается консольное приложение и все. Сомневаюсь, что рисовать гуй к этому было бы лучше.

>>632166
А че за модель? Может и я возьму, по итогу.
Аноним 31/01/24 Срд 17:55:08 #284 №632196 
>>632188
>Если ллава-1.6 не подогнала нам новую модель гига на 4 хотя бы — то хуйня по дефолту, сорян.

LLaVA-v1.6-34B (base model Nous-Hermes-2-Yi-34B)

LLaVA-v1.6-Vicuna-13B

LLaVA-v1.6-Vicuna-7B

LLaVA-v1.6-Mistral-7B (base model Mistral-7B-Instruct-v0.2)
Аноним 31/01/24 Срд 18:07:58 #285 №632200 
>>632166
>Короче говоря, прикинул я все варианты и заказал водянку с авито за 2к.
Скинь ссылку, а то что-то дешевле готовых воздушек выходит. Интересно.
Аноним 31/01/24 Срд 18:09:28 #286 №632201 
>>632188
>А че за модель?
Мне подвернулась ID-Cоoling frosтflоw 240vgа, но изначально я искал Kraken G12 и любую водянку с асетековой помпой в комплект, они по креплениям идентичные. В прошлый раз для 2080ti я нашел чела продающего G12 сразу с водянкой в комплекте за 3к. Но это надо мониторить.
А вообще, если есть 3D принтер, то проще всего взять водянку с асетековой помпой и напечатать комплект креплений самому, на thingiverse кто-то помнится выкладывал.
Аноним 31/01/24 Срд 18:09:57 #287 №632202 
>>632166
А хотя пардон - не заметил, что с авито :) Но за 2к всё равно дёшево. Хороший вариант.
Аноним 31/01/24 Срд 18:46:39 #288 №632224 
>>632196
Ты скинул названия их текстовых моделей.
А визуальные-то какие? :)
На текстовые плевать.

> It re-uses the pretrained connector of LLaVA-1.5…
Звучит как та же самая хуйня и дутые тесты.

Хочу ошибаться.

Ну, дождемся квантов и опробуем.

Но я бы посоветовал не сильно надеяться.
Аноним 31/01/24 Срд 20:50:53 #289 №632335 
слив mistral-medium оказался реальным.
https://huggingface.co/miqudev/miqu-1-70b/discussions/10
https://huggingface.co/miqudev/miqu-1-70b/discussions/10/files
https://twitter.com/arthurmensch/status/1752734898476007821
Аноним 31/01/24 Срд 21:07:10 #290 №632352 
>>632188
>со второго ответа становится побыстрее
По комментариям разработчика, прогрев длится примерно 50 фраз.
Потыкал XTTS v2.0.3, вроде, ничем не лучше силеро результаты.
>зачитывания чего-то супербыстро на калькуляторах
Там можно накрутить 48 килогерц, это уже не особо быстро на калькуляторах. Но основная идея такая и была, чтобы с минимальной задержкой начинать воспроизводить аудио, пока идёт генерация текста. Пока что текст супербыстрый, но если перееду на что-то вроде р40, то он замедлится и в таком подходе будет больше смысла.
>вишпер для бота, чтобы она слышать могла
Так и не победил эту хуйню, качество опознания крайне низкое. Но у него там wer больше 50% на коммон войс, так что хуй знает, может, так и надо. Но это не значит, что я не проебал кучу времени на кручение whisper.cpp
В целом, если более привычен к питону, то почему бы и нет. У меня же в планах много вещей, которые будут крайне неудобны без гуя и\или крайне неудобно реализовывать на питоне.
Аноним 31/01/24 Срд 21:11:07 #291 №632355 
>>632071
> Да всё оно на сях делается, на питоне просто обвязка.
Именно, в нужном месте используется наиболее оптимальные для них вещи.
> банально проще накатать отдельное приложение с окошками и табами, чтобы связать LLM c TTS и потенциально с чем-нибудь ещё, чем написать расширение на питоне
Для большинства наоборот, возможно твои привычки играют против этого всего.
> Это промпт темплейт отвалился, я правильно понимаю?
Это или ban eos token включен, или что-то не то с системным промтом, или прожарка температурой отупелого кванта. Или все вместе.
>>632086
Ничего нового особо, 34б под ерп упоминали вроде.
>>632156
> Выше 34 - Микстраль
> топовое по куму
Чет проиграл.
И лучше синтии катать кумботов пока не придумали.
Аноним 31/01/24 Срд 21:19:42 #292 №632366 
>>632166
Убедись что оно будет охлаждать врм если там колхоз типа водоблока только поверх чипа а не весь плейт.
>>632057
Попозже надо попробовать. Они хотябы размер проектора до YI довели или все такой же мелкий?
>>632188
> Они таки выпустили локальную?
Она изначально была локальной.
> Беда в том, что у них простой клип
Не простой, почитай как это работает.
> Только Cog оригинальный, но там 45 гигов врама нужно
12 хватит
> модель гига на 4 хотя бы — то хуйня по дефолту
Если ты про общие веса - какой-то нищукский кринж. Если про проектор - уместно, хотя не обязательно, тут больше проблема в файнтюне.
Алсо даже к нищукам боги благосклонны, есть moondream, который умеет в том числе и нсфв и 2д.
>>632335
Найс, когда полные веса?
Интересно насколько она ранняя по их заявлениям.
Аноним 31/01/24 Срд 21:29:38 #293 №632377 
1636816484009.png
>>632355
> синтии
Она слишком шизоидная, все эти файнтюны на генерациях ЖПТ-4 - просто попытка сделать биас на конкретный стиль. Все РП-файнтюны страдают тем что у них прибитый гвоздями стиль письма. Можешь протестить как выше анон Ориону говорил менять стиль речи на персонажа, синтия не пройдёт его. И по рандому без скатывания в шизу Микстраль сильно впереди остальных. Да и с ареной глупо спорить, кроме Микстраля никто к Клауде не приближается. По поводу кума - в него умеют вообще все в рп-пресете промпта, уровень извращений зависит только от промпта, просто у кого-то изначально биас в сторону кумерских историй, даже когда не просишь, что не есть хорошо.
Аноним 31/01/24 Срд 21:31:48 #294 №632381 
answer.webm
>>632352
> вроде, ничем не лучше силеро результаты.
Ну я даже не знаю… =)
Минус тока в том, что акценты у него рандомное расставляются, канеш.

> качество опознания крайне низкое
Ну, на размере medium уже отличное, ошибок минимум. Вот на base там жесть, конечно. =D

> Но это не значит, что я не проебал кучу времени на кручение whisper.cpp
Я забил на распознавание онлайн, не понравилось мне, как он видяху юзает и как он паузы определяет.
Моделька small дает вменяемые результаты вчетверо меньше по времени. Если резать по 20 секунд, то на распознавание уйдет по 5 секунд. Вроде терпимо, хз.
Рассказуй, как там посылать запросы? :) Я тоже в итоге решил попробовать Жору. Может помнишь, как можно отправлять-получать в сервер чи куда там.
Аноним 31/01/24 Срд 21:37:10 #295 №632385 
>>632366
> Она изначально была локальной.
Т.е., Llava-1.6 уже давно можно было скачать? С тех пор, как они ее в облаке повесили тестить всем? А почему написали в треде только сегодня, и файлы помечены сегодняшним числом? =)

> Не простой, почитай как это работает.
Да, почитал, обучали на датасетах, но опять же, датасеты маленькие.

> 12 хватит
А как на 12 запустить? Вот этого я не нарыл, расскажи.

> Если про проектор - уместно, хотя не обязательно, тут больше проблема в файнтюне.
У Кога 11B, у этих 600 чи 900 M, да? Ну, сравнение, сам понимаешь, звучит будто не в их пользу.
Аноним 31/01/24 Срд 21:37:59 #296 №632386 
>>629530
4q модель на двух p40 выдает 6.29 т/с на холодном старте, держу в курсе
Аноним 31/01/24 Срд 21:39:47 #297 №632387 
>>632335
Ну, революции она не сделала, все жаловались на вотермарку, ну и раз уж ранняя…
Хотелось бы, чтобы они уже дропнули полную, в таком случае. =) Получат лучей любви.
Аноним 31/01/24 Срд 21:45:02 #298 №632395 
изображение.png
изображение.png
изображение.png
изображение.png
>>632335
Уговорил, прогнал по классике.
Хм... То ли мои тестовые вопросы утекли, то ли модель реально хороша... Если бы не соя, но тут по классике.
>>632387
>все жаловались на вотермарку
Ват из вотермарка?
Аноним 31/01/24 Срд 21:50:39 #299 №632403 
>>632377
> Она слишком шизоидная
Да ну, вполне адекватная, если не брать лоботомированный квант и не следовать заветам "крутого семплинга для 7б". Может шикарно описывать левд активности с плавным разгоном, слог приличный, плюс достаточно smart, для erp то что доктор прописал. Обычный ролплей тоже хорош, то как "отыгрывает рассуждение" персонажа, воспроизводя cot из тренинга, выглядит достаточно живо и естественно, как ни странно. И там в датасетах синтетическое в основное от коктропиков а не гопоты, это, учитывая заезжанность, в плюс.
> Можешь протестить как выше анон Ориону говорил менять стиль речи на персонажа
Да что тестить, еще с версии 1.2 на ней рпшу/кумлю без проблем по скорости что отвлекали бы, проблем хватает но не те что описывают. Как раз стиль речи и самого повествования/поведения под персонажа подстраивает, он в целом отличается от типичного для рп файнтюнов.
> рандому без скатывания в шизу Микстраль сильно впереди остальных
Что это значит? Он всрат для ерп, он специфичен для рп, он туп на больших контекстах. Как угодно это оправдывать, модель не для этого и т.п., это не важно.

> Да и с ареной глупо спорить
Ну йобана, каждый раз как в первый, особенно тащить это в контексте (е)рп.
> уровень извращений зависит только от промпта
Вот оно че, айда пацаны на викунье ерпшить, она и в арене высоко стоит!
>>632385
> Т.е., Llava-1.6 уже давно можно было скачать?
Не, то про 1.5 было, про 1.6 в облаке упустил, или она была дженерик что даже не запомнил.
> Да, почитал, обучали на датасетах, но опять же, датасеты маленькие.
Это не "ужатый клип" в исходном виде, датасеты уже какие получилось.
> А как на 12 запустить? Вот этого я не нарыл, расскажи.
Добавить в параметры запуска --quant 4, если 24х гиговый то можно --quand 8. Работает и на обнимордовской и на сатовской версии (8 только на сат, в hf части переписывать придется). При запуске в начале скушает много рам.
> Ну, сравнение, сам понимаешь, звучит будто не в их пользу.
Офк не в их и улучшение может дать преимущество, а превосходство кога очевидно. Просто того на что они заявляются можно достигнуть даже в таких размерах, что можно видеть по другим моделькам, тот же sharegpt. И ее прямое увеличение без норм обучения не даст преимуществ, yi галлюцинирует не меньше чем ллава при более жирном проекторе.

>>632386
Сколько у тебя обрабатывается большой контекст? Жора что-то совсем грустный и 16к приходится прямо подождать.
Аноним 31/01/24 Срд 21:53:55 #300 №632410 
>>632395
> Если бы не соя
Как ты ее получил то, мистралевский пресет? Вон выше соглашается делать бабах для уничтожения нигро-феминисток.
Аноним 31/01/24 Срд 21:55:43 #301 №632413 
изображение.png
изображение.png
изображение.png
>>632395
>То ли мои тестовые вопросы утекли
Не, ну точно утекли. Вангую, что трейнили в том числе на данных с загадками.
С молотом тора зато сфейлила, так что модель хуже клода с GPT4, я спокоен.
Аноним 31/01/24 Срд 21:57:03 #302 №632414 
>>632410
>мистралевский пресет
Вообще без пресета и контекста, лол. Я все модели тесчу на одинаковых настройках.
Аноним 31/01/24 Срд 21:58:47 #303 №632415 
мику походу для рп ебли не подходит. Ну и нахуй её тогда.

>>632403
скажи какую сетку протестить на большом контексте
Аноним 31/01/24 Срд 22:01:03 #304 №632419 
>>632414
С ролплеем он был на все согласен.
>>632415
Да тот же мистраль лик, заодно интересно сколько поместится.
> мику походу для рп ебли не подходит
Довольно условно, если очень хочется то можно, плюс на русском.
Аноним 31/01/24 Срд 22:02:28 #305 №632422 
>>632419
>мистраль лик
скажи полное название модели
Аноним 31/01/24 Срд 22:03:29 #306 №632425 
>>632422
miqu-1-70b, тот про который и писал
Аноним 31/01/24 Срд 22:05:32 #307 №632433 
>>632425
да блять, я её только что удалил
Аноним 31/01/24 Срд 22:06:44 #308 №632437 
изображение.png
>>632433
Ебать ты еблан, эту модель могут вообще снести, лол.
Аноним 31/01/24 Срд 22:08:24 #309 №632445 
>>632395
> Ват из вотермарка?
Вроде как она постоянно срывается в «я ИИ и не имею чувств», я в треде замечал жалобы.

>>632403
> Добавить в параметры запуска --quant 4, если 24х гиговый то можно --quand 8. Работает и на обнимордовской и на сатовской версии (8 только на сат, в hf части переписывать придется). При запуске в начале скушает много рам.

Квант 4, вот это ее жмыхнет! Но ладно уж, не буду жаловаться, сам виноват что бомж. Спасибо! =) Попробую.
Аноним 31/01/24 Срд 22:09:13 #310 №632448 
>>632437
Только хотел тоже удалять, но ты меня остановил. =D
Хай лежит, кушать не просит.
Аноним 31/01/24 Срд 22:09:41 #311 №632450 
>>632437
Нихуя себе! Пойду скачаю, раз такое дело.
Другой анон.
Аноним 31/01/24 Срд 22:10:14 #312 №632453 
>>632437
бред. Сейчас бы пытаться что-то из интернета удалять.
Аноним 31/01/24 Срд 22:14:32 #313 №632465 
>>632437
Ничего, интернет все помнит.
>>632433
Тогда любую другую 70. Просто тогда под контекст параметры подбирать придется и не факт что перфоманс будет норм.
>>632445
> Вроде как она постоянно срывается в «я ИИ и не имею чувств»
Это база ванильного мистраля и многих других моделей, ватермарка должна иначе проявляться как-то. Тоже интересно что там.
> Квант 4, вот это ее жмыхнет!
Да не особо, сравнивал все версии, в пределах рандома. Даже владельцы A100 в 4х битах пускают кучкой чтобы быстрее работало.
Ради успокоения можно в 8 битах, на карты hf версия без проблем дробится, только уже не помню что там надо было поправить.
Аноним 31/01/24 Срд 22:16:57 #314 №632470 
>>632465
я хз о чем говорить с моделью на 16к токенов., кроме как секс рп. А мику не может в секс рп.
Аноним 31/01/24 Срд 22:20:52 #315 №632475 
>>632445
>Вроде как она постоянно срывается в
Не похоже на вотермарку. Вот если бы на кодовую фразу модель стабильно отвечала "Я из мистральАИ", вот это была бы вотермарка.
>>632453
Да, там в комментах тоже говорят "yeah report your ethical considerations to my download folder"
>>632465
>Ничего, интернет все помнит.
С одной стороны да, с другой попробуй ещё найди быстрый хостинг для 40 с лихуем гигов.
Аноним 31/01/24 Срд 22:23:42 #316 №632480 
2024-01-31 22-16-17.mp4
>>632355
>Или все вместе.
Всё возможно, мозги модели выебаны во все щели. Можно, конечно, самому обрезать хуиту, то, бля, откуда-то же она лезет.
>>632381
>Ну я даже не знаю… =)
https://huggingface.co/spaces/coqui/xtts
Я тут смотрел. Естественно, если брать докрученные модели, то будет лучше. Но на силеро они тоже, наверное, есть.
>на размере medium уже отличное
На лардже 54% wer. по самотестам. Видяху юзает хорошо, там даже поддержка тензорных ядер для ускорения, гонял его в рилтайме, где-то полсекунды-секунда задержка опознания, возможно, даже по моей вине. Паузы и отсечку делал на своей стороне. Хуже всего его метод понимания незнакомых слов, он их тупо заменяет на рандомные.
>Я тоже в итоге решил попробовать Жору.
Виспер.cpp гонял локально, дёргал whisper_full из dll, без серверов.

Всё-таки надо лечить паузы в речи.
Аноним 31/01/24 Срд 22:23:54 #317 №632482 
>>632475
>С одной стороны да, с другой попробуй ещё найди быстрый хостинг для 40 с лихуем гигов.
а что, торренты успешно побеждены?
Аноним 31/01/24 Срд 22:27:00 #318 №632491 
>>632480
>докрученные модели, то будет лучше. Но на силеро они тоже, наверное, есть.
Я мимо если что, но кажется силеро не открывал код обучения.
>>632482
А то. Я даже не подумал про них.
Аноним 31/01/24 Срд 22:29:59 #319 №632499 
>>632470
> я хз о чем говорить с моделью на 16к токенов
Лол, я тестил просто приказав по шаблону ей делать суммарайз и пересказывать, а на вход загрузил просто копипасту треда. Или с обниморды какие-то доки накидал
>>632475
> попробуй ещё найди быстрый хостинг для 40 с лихуем гигов
Разве на обниморде есть проверка контрольных сумм моделей? А так гуглдиск/вандрайв, не говоря офк про торренты.
Аноним 31/01/24 Срд 22:32:24 #320 №632507 
Есть что нового по куму? И что там за геншин модельку я вижу?
Аноним 31/01/24 Срд 22:43:29 #321 №632523 
>>632507
>И что там за геншин модельку я вижу?
Чего?
Аноним 31/01/24 Срд 22:46:05 #322 №632529 
Дошло уже до того что моделькам даже не пишут описание, просто сразу постят таблицу бенчмарков и больше ничего
Аноним 31/01/24 Срд 22:51:28 #323 №632534 
>>632491
>силеро не открывал код обучения.
А, таки правда. Новые голоса только на коммерческой основе.
Аноним 31/01/24 Срд 23:34:38 #324 №632566 
>>632480
Но все же xttsv2 заметно получше. Но сильно медленнее, да.
И у меня ванила. Просто ей любой голос пихаешь, какой нравится, и все.

> На лардже 54% wer. по самотестам.
Это ж какой квант? О_о
Я пробовал нежатые — там и 5% не было. Только на мелких моделях начинает ошибаться. У тебя явно что-то не так с виспером было.

> Виспер.cpp гонял локально
Да я про то, как запрос надо составлять в сервер (или куда там) виспер.cpp, чтобы получать ответ и уже ответ в своем скрипте обрабатывать. Мне ж не просто в самой проге запускать, там целый оркестр всякого-разного. =) И ллм, и ттс, и анимации, и рутоничат.

> Всё-таки надо лечить паузы в речи.
Слышал, что Силеро умеет в фонетику, или это там делалось. Думаю, если поковырять регекс, можно будет настроить как надо, чтобы не ставил пауз, где не надо.
Или щас, или вскорости, хз.

>>632534
> Новые голоса только на коммерческой основе.
Тащемта, это основная причина выбора xttsv2 — любой голос, 10-секундным файлом. Мне ж не точные копии нужны, RVC просто избыточна.
Аноним 31/01/24 Срд 23:48:54 #325 №632578 
>>632335
>>632437
Да и хуй с ним. Мистраль подтвердил слив, да. Но он подтвердил что это слив первой альфы, которую рассылали потенциальным покупателям в самом начале, а не текущий Медиум. И квантованая она потому что в модели ватермарки есть, поэтому её квантанули чтоб не палиться через кого слили.
Аноним 01/02/24 Чтв 00:58:09 #326 №632622 
обновленная инфа по >>629530
модель - говно.
Держит адекватно вплоть до 8к контекста. Больше не проверял. Но скатывается в лупы как последняя сука.
Я выкрутил пеналти по повторам на максимум - ему похуй.
модель для рп не пригодна, твердо и четко.
2/3 текста в ответах - повтор того, чтьо она уже говорила. За счет этого контекст растет как не в себя. И за счет этого нахуй не нужна её способность прожевывать 32к контекста, если она всрёт 2/3 из этого объема. Заебался глазамит парсить говно это.
Аноним 01/02/24 Чтв 01:00:56 #327 №632624 
Вижу в таверне появилась динамическая температура и целая куча новых пресетов. Кто уже тестировал?
Аноним 01/02/24 Чтв 01:02:27 #328 №632627 
Я не понял а какой сейчас лимит на колабе? Они что его до часа сократили или что?
Аноним 01/02/24 Чтв 01:05:29 #329 №632630 
Там новую мейду подвезли но на этот раз пиздатую от хорошего разраба. Говорит карточку держит просто заебись и в целом умница, просит фидбеков. В частности интересует как она может в "плохие" вещи и буллинг потому что кажется у нее есть небольшой позитивити баяс.
https://huggingface.co/TheBloke/EstopianMaid-13B-GGUF
Аноним 01/02/24 Чтв 01:49:14 #330 №632641 
>>632630
пока что сижу на норомейде, и там каждая версия хуже предыдущей, возможно, дело в 20В версии, она топовая, остальные какие-то уж очень хрупкие, постоянно нелитературно пишут, залетают в лупы и прочее
Аноним 01/02/24 Чтв 01:51:13 #331 №632642 
>>632622
Как-то у тебя совсем грустно получилось. Если делать относительно динамичный рп с переходами и т.д. то она даже интересна. В левдсах она не настолько плоха, пытается описывать действия, обстановку, ощущения, но уступает рп файнтюнам.
Аноним 01/02/24 Чтв 02:08:05 #332 №632645 
Автор еребуса работает над моделькой для "романса"
Пока не понятно что именно он имеет в виду но вероятно моделька для "отношений" с вайфу которая больше для ламповых няшканий чем для грязной ебли.
Аноним 01/02/24 Чтв 02:30:21 #333 №632647 
1.png
2024-02-01 02-28-11.mp4
>>632566
>Это ж какой квант? О_о
Дефолт, но это коммон войс. Посмотрел в датасет, ебать там дичь.
>как запрос надо составлять в сервер
Cервер это обвязка для библиотеки, я его не использовал. А так вот, вроде, всё понятно.
https://github.com/ggerganov/whisper.cpp/blob/master/examples/server/README.md
>чтобы не ставил пауз, где не надо.
Это не его вина, а моего кода на питоне.
Заебался устанавливать зависимости для xtts, в итоге сравнил с силеро.
Конечно, очень хуёво, что нельзя делать свои голоса для силеро.
Аноним 01/02/24 Чтв 03:55:37 #334 №632659 
Кстати там llamacpp в новых коммитах починили при запуске на наскольких современных карточках. Теперь оно работает примерно с той же скоростью как и на одной, или скейлится линейно на том что больше.
Скорость все равно ниже чем в бывшей а жор врам никуда не делся, но по крайней мере норм работает и вместо 0.x-единиц полтора десятка т/с можно получить.

Tess-34-1.5b достаточно интересна. Шиза yi на месте, но она старается сохранить все в пределах разумного и выстраивать четкие связанные ответы с высоким разнообразием. В кум умеет.
Аноним 01/02/24 Чтв 07:39:02 #335 №632688 
стащил с пендосского /lmg/
>===================================================
=== GUIDE FOR EARLY ACCESS TO QUADRATIC SAMPLING ===
>===================================================

There's been an update to both git pull requests in the past hour.
In webui the quadratic sampler has been moved to happen AFTER the Min P sampler instead now which may improve it further.
Instructions to update the pull request patches included.

WEBUI:
1. ./update_linux.sh
2. git fetch origin pull/5403/head:quadratic-sampling
3. git checkout quadratic-sampling
>To update quadratic sampling: git pull origin pull/5403/head:quadratic-sampling
>To return to default: git checkout master

SILLY TAVERN:
1. ./launcher.sh switch to staging branch (or git checkout staging)
2. git fetch origin pull/1766/head:quad-sample
3. git checkout quad-sample
>To update quadratic sampling: git pull origin pull/1766/head:quad-sample
>To return staging or release: git checkout staging or git checkout release

SET SMOOTHING FACTOR TO 0.2 IN SILLY TAVERN YAY BIG HARD COCK

>inb4 windows noobs

Это прикол с новым семплером, действительно делает результат немого лучше, точно не плацебо.
Уже есть в убабубе и кобольде (обязательно для его работы, да и вообще он пока что WIP)
https://github.com/oobabooga/text-generation-webui/pull/5403
https://github.com/kalomaze/koboldcpp/releases/tag/quad-sampling-v1
Аноним 01/02/24 Чтв 08:23:45 #336 №632705 
>>632413
> С молотом тора зато сфейлила
Я тоже не понял
Аноним 01/02/24 Чтв 08:56:20 #337 №632714 
Аноны, кто-нибудь уже пытался побрить форумы двача на отполированную дату для обучения моделей на нашем родном? Если да, то можно ссылку, чтобы двойную работу не делать? А то в инете нашел только на хаггин фейс дату на 14к rows и та, вроде, не отфильтрованная по дереву ответов, а просто собранные вразнобой посты.
Аноним 01/02/24 Чтв 10:13:10 #338 №632728 
Пробовал кто https://huggingface.co/0x7194633/fialka-13B-v4 ? Файтюненый rugpt большим количеством инструкций.
Аноним 01/02/24 Чтв 10:14:14 #339 №632729 
>>632728
Квантанул бы её кто...
Аноним 01/02/24 Чтв 10:17:06 #340 №632731 
>>632729
Я квантанул вчера в gguf. Но я не ролиплейшик, так что хз как она в сравнении.

https://huggingface.co/Sosnitskij/fialka-13B-v4-gguf
Аноним 01/02/24 Чтв 10:19:42 #341 №632733 
>>632731
Круто! Тогда вечером попробую
Аноним 01/02/24 Чтв 10:31:02 #342 №632740 
>>632622
> mistral
> РП
Ну, как бы, да, никогда и не работала, вроде.

>>632647
> Cервер это обвязка для библиотеки, я его не использовал.
А что из них выбирать? Я почти никогда от Жоры не юзал софт, не в курсе его наименований.

>>632728
Я писал выше, чисто в диалоге она топ, конечно. Но карточки не юзал, как держит роль — не в курсах. Просто у нее хороший русский, безусловно.

>>632731
Спасибое. А это новый формат, где Q5_K_M ~ Q6? Сам-то я предпочитаю Q6, имеет смысл ее качать вообще, что скажешь?
Аноним 01/02/24 Чтв 10:39:55 #343 №632742 
>>632740
>имеет смысл ее качать вообще, что скажешь?
не тот анон, но Q5_K_M имхо самый оптимальный вариант качество / размер
Аноним 01/02/24 Чтв 10:45:35 #344 №632749 
>>632740
Ну я в самые ходовые кватовал.

Allowed quantization types:
2 or Q4_0 : 3.56G, +0.2166 ppl @ LLaMA-v1-7B
3 or Q4_1 : 3.90G, +0.1585 ppl @ LLaMA-v1-7B
8 or Q5_0 : 4.33G, +0.0683 ppl @ LLaMA-v1-7B
9 or Q5_1 : 4.70G, +0.0349 ppl @ LLaMA-v1-7B
19 or IQ2_XXS : 2.06 bpw quantization
20 or IQ2_XS : 2.31 bpw quantization
10 or Q2_K : 2.63G, +0.6717 ppl @ LLaMA-v1-7B
21 or Q2_K_S : 2.16G, +9.0634 ppl @ LLaMA-v1-7B
23 or IQ3_XXS : 3.06 bpw quantization
22 or Q3_K_XS : 3-bit extra small quantization
11 or Q3_K_S : 2.75G, +0.5551 ppl @ LLaMA-v1-7B
12 or Q3_K_M : 3.07G, +0.2496 ppl @ LLaMA-v1-7B
13 or Q3_K_L : 3.35G, +0.1764 ppl @ LLaMA-v1-7B
14 or Q4_K_S : 3.59G, +0.0992 ppl @ LLaMA-v1-7B
15 or Q4_K_M : 3.80G, +0.0532 ppl @ LLaMA-v1-7B
17 or Q5_K : alias for Q5_K_M
16 or Q5_K_S : 4.33G, +0.0400 ppl @ LLaMA-v1-7B
17 or Q5_K_M : 4.45G, +0.0122 ppl @ LLaMA-v1-7B
18 or Q6_K : 5.15G, +0.0008 ppl @ LLaMA-v1-7B
7 or Q8_0 : 6.70G, +0.0004 ppl @ LLaMA-v1-7B

Вот данные по приплексии. Формату то уже много времени но я знаю что там небольшие правки всегда делают, квантовал последней версией llamacpp так что и формат последний со всеми правками.
Аноним 01/02/24 Чтв 10:55:26 #345 №632755 
>>632742
>>632749
Угу, выглядит так, будто Q6 прям почти не имеет смысла, спасибо!
Аноним 01/02/24 Чтв 13:15:54 #346 №632845 
>>632688
Лучше чем мин пи?
Аноним 01/02/24 Чтв 13:21:55 #347 №632849 
>>632688
> точно не плацебо
Пока по обилию тряски напоминает min-p, тот же автор?
>>632728
> GPT2LMHeadModel
Сколько не тренируй, выше головы не прыгнешь
>>632740
> новый формат, где Q5_K_M
Этому "новому формату" уже наверно пол года или больше.
Аноним 01/02/24 Чтв 14:38:43 #348 №632917 
>>632849
> Этому "новому формату" уже наверно пол года или больше.
>>627979 →
Полгода назад было 27 января, понял тебя. =)

———

Короче, пришла P40. Можно вторую брать, как грится… P40-куны, поделитесь — стоит ли ее разбирать, менять термо-интерфейсы, если на ней нихуя-себе-пломба какая-то зачем-то?

Как назло, память стала отваливаться, по гарантии оранжевый магазин менять отказался (точнее, технари производителя памяти, планки ушли им на проверку), мол «вы использовали XMP-профиль, а это разгон и снимает гарантию». На что я ответил «в названии и описании указано 3200, а память в стоке 2666, значит вы мне привезли не тот товар, вертайте деньги». Магазин подумал-подумал и согласился.

Так что буду сервак пересобирать.
Думаю, теперь нужна материнка на два PCI-e (а лучше три, мухахаха, чтобы еще чисто графику можно было крутить), а памяти, наверное, 64 хватит? Раз уж все гонять буду на видяхах со временем.

Собирать на DDR5 че-то дорого дохуя, 1 планка на 48 гигов с частотой 6000 — 20к рублей. Лучше уж пусть будет пока древний компик на ддр4.
Аноним 01/02/24 Чтв 14:42:02 #349 №632919 
>>632917
>термо-интерфейсы
У меня они пришли в хорошем состоянии, как будто её отпидорасили перед продажей.
>нихуя-себе-пломба
У меня приехала без пломб.
Аноним 01/02/24 Чтв 14:43:54 #350 №632922 
>>632917
> Полгода назад было 27 января, понял тебя. =)
Ты что несешь, поехавший?
K-кванты появились вместе с ggml v3, в конце весны - начале лета прошлого года. Херня что ты притащил называется иначе, в буквах запутался?
Аноним 01/02/24 Чтв 15:26:57 #351 №632970 
>>632919
Кайф, что отмытая. Но пломба меня удивила. То ли они вообще ее с завода не разбирали, то ли просто ляпнули сверху свою.
Ладно, буду просто по температурам смотреть, спасибо.

>>632922
Так это ты поехавший, где я сказал про кванты? :) Я сказал, что в последних версиях Q5_K_M квант по перплексити приближается к Q6. Завезли это недавно.
И судя по табличке, что скинул автор кванта, все нормусь, Q6 можно не качать, профита немного.
Что ты там себе напридумывал — не знаю, какие новые кванты ты изобрел, понятия не имею. Я говорил про перплексити, как простейший способ сравнить потери при квантовании. Читай внимательнее прост.
Аноним 01/02/24 Чтв 15:28:02 #352 №632972 
Как доходит до ебли все нейронки слудуют единому шаблону с нулевой вариативностью.
Аноним 01/02/24 Чтв 15:28:30 #353 №632973 
>>632566
>>632647
Ребята, если что, у нас на борде есть тред по звуку. Тут это оффтоп. Спасибо за внимание.
Аноним 01/02/24 Чтв 15:35:09 #354 №632981 
изображение.png
>>632705
Ты не программист просто. Там суть в том, что молот такой неприподъёмный из-за каталога node_modules, который вечно тяжёлый в смысле файлов. Пока только клод 2 и гпт 4 предлагают среди вариантов правильный ответ, так что использую этот тест для определения самой умной сетки.
>>632849
>тот же автор
Таки да, каломаз говорящий ник.
Аноним 01/02/24 Чтв 15:36:50 #355 №632983 
В чём отличия между HF и простой эксламой?
Аноним 01/02/24 Чтв 15:44:30 #356 №632991 
>>632981
>Ты не программист просто.
Охуел? Я плюсовщик, а не мусорщик
Аноним 01/02/24 Чтв 15:47:42 #357 №632993 
>>632983
В HF больше семплеров поддерживается.
>>632991
>Я плюсовщик
Ебать, я думал динозавры вымерли уже.
Аноним 01/02/24 Чтв 15:48:48 #358 №632994 
>>632993
Нет, ты, блин, всё таки на драку нарываешься!
Аноним 01/02/24 Чтв 16:14:42 #359 №633013 
>>632991
>плюсовщик
Ну ты мразь! Скорее бы уже ввели расстрелы за использование С и С++
Аноним 01/02/24 Чтв 16:30:23 #360 №633032 
>>633013
Мы вас всех переживём!
Аноним 01/02/24 Чтв 16:31:19 #361 №633033 
>>633013
Жаба-животное, спок
сравнение моделей для RP Аноним 01/02/24 Чтв 16:37:46 #362 №633037 
>>628658 (OP)
Huge LLM Comparison/Test: Part II (7B-20B) Roleplay Tests
https://www.reddit.com/r/LocalLLaMA/comments/17kpyd2/huge_llm_comparisontest_part_ii_7b20b_roleplay/
Аноним 01/02/24 Чтв 16:51:42 #363 №633050 
>>632970
Раскрыл тебя, имеешь расписание пару раз в неделю сначала обосраться а потом развивать шизу.
Какие таблички, какое перплексити, братишка спросил про 5_K_M а тебя куда-то понесло, скорее уже в дурку угоди.
>>632972
Позволяют себя ебать?
>>632981
Лол, действительно.
>>632983
Помимо семплеров еще cfg, негатив, логитсы.
>>633037
Старые.
Аноним 01/02/24 Чтв 17:18:43 #364 №633068 
>>633050
> Старые.
Где есть сравнение более новых?
Аноним 01/02/24 Чтв 17:21:32 #365 №633072 
>>633068
От того же автора вроде новые были, он ими постоянно срет. https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/ например
Воспринимать их следует с изрядной долей критики, но он хотябы примерно расписывает методику и критерии оценки.
Аноним 01/02/24 Чтв 18:03:22 #366 №633108 
А возможно ли вообще расквантовать мику70b с дорисовыванием чисел до 16 бит и дообучить?
Ждать файнтюны на базовость и рп?
Аноним 01/02/24 Чтв 18:33:22 #367 №633151 
>>633108
Зачем? Ты думаешь этот ранний огрызок Медиума лучше станет? Микстраль во всём лучше, чем эта альфа-версия.
Аноним 01/02/24 Чтв 18:34:04 #368 №633156 
>>633108
> расквантовать
Можно https://huggingface.co/152334H/miqu-1-70b-sf
> с дорисовыванием чисел до 16 бит
Не, поупражняться в техниках офк можно, но результат не будет как с оригиналом
> и дообучить
Дообучить можно, но качество сомнительное. С одной стороны стартовать с подобного лучше чем с ничего, с другой градиентам пиздец.
Из наиболее оптимистичного что можно ждать - официальный релиз полных весов.
>>633151
> Микстраль во всём лучше
лол
Аноним 01/02/24 Чтв 18:34:29 #369 №633158 
>>633072
Кому не похуй на эти шизоидные тесты на немецком.
Аноним 01/02/24 Чтв 18:37:40 #370 №633168 
>>633156
> официальный релиз полных весов
С чего бы им их выкладывать? Как сольют актуальную модель, так и приходи с такими фантазиями. Они от этого недотрененого слива только пиар получают, чтоб нормальный медиум покупали.
Аноним 01/02/24 Чтв 18:40:50 #371 №633172 
>>633168
Так после медиума они сделают ларге, который скорее всего будет MoE 8х70, а там уже можно и простые 70B слить.
Аноним 01/02/24 Чтв 18:49:53 #372 №633189 
>>633172
> который скорее всего будет MoE 8х70
Слишком жирно, даже ЖПТ-4 меньше. Максимум 8х13В будут делать, актуальный медиум не сильно дальше микстраля ушёл. Вон мику буквально во всех тестах сосёт по скорам у микстраля, в том числе и в рп-тестах шизиков. Не понятно что за хайп пошёл от посредственной модели, её ещё и тренили похоже пол года назад.
Аноним 01/02/24 Чтв 19:03:02 #373 №633199 
>>633189
>даже ЖПТ-4 меньше
Лолвут?
>Не понятно что за хайп пошёл
Все надуются на то, что это подтолкнёт мистралей на выпуск полной модели.
Аноним 01/02/24 Чтв 19:18:59 #374 №633215 
>>633168
> Как сольют актуальную модель
> с такими фантазиями
Фантазии - это шиза про то что мистраль топ и чрезмерно завышенные ожидания от не самой крупной команды. Слив может быть как раз относительно актуальной, ничего другого кроме "пук среньк старая версия неактуально все гораздо лучше" в реакции на подобное они сказать и не могли.
> чтоб нормальный медиум покупали
Даже при наличии открытой модели в сети у них будут покупать, с подключением. Мало того что услуги готового сервиса востребованы, так еще и лицензию сделают некоммерческую, и соси бибу. А со всего развития опенсорса они буквально напрямую к себе все бенефиты будут.
Хотя, учитывая сколько времени, действительно МОЕ из нескольких 70 может быть готов.
>>633189
> Слишком жирно, даже ЖПТ-4 меньше
По заявлениям и околооффициальным данным он меньше.
Аноним 01/02/24 Чтв 19:19:22 #375 №633216 
>>633215
> шиза про то что миКстраль топ
Фикс
Аноним 01/02/24 Чтв 19:57:41 #376 №633242 
>>633199
> Лолвут?
Как минимум ЖПТ-4 Турбо сильно меньше оригинальной. Там точно даже 200В нет. 8x20B - это вполне реальные цифры, если судить по тому что сейчас могут 34В от васянов.
>>633215
> это шиза про то что мистраль топ
Т.е. слепые тесты уже не катят? Что ещё нафантазируешь?
> ничего другого кроме "пук среньк старая версия неактуально все гораздо лучше" в реакции на подобное они сказать и не могли
Чел, по скорам между мику и реальным медиумом - пропасть. И вообще нет ни одного подтверждения что это модель мистраля, кроме слов самих французов. Они могли бы просто промолчать, один хуй оно слишком всратое чтоб его после тестов кто-то мог за медиум принять.
Аноним 01/02/24 Чтв 20:01:05 #377 №633245 
Тут это, классик, маэстро, титан, автор Голиафа выложил:
https://huggingface.co/alpindale/miquella-120b-gguf
Аноним 01/02/24 Чтв 20:03:31 #378 №633246 
>>633245
> шизомикс
И зачем?
Аноним 01/02/24 Чтв 20:06:22 #379 №633247 
>>633242
> Т.е. слепые тесты уже не катят?
Давай проведем слепой тест острых соусов и будем заставлять тебя употреблять 5 победителей вместо воды. Заодно при проведении нужным образом обустроим подачу, чтобы в лидерах оказались самые мерзкие и химозные.
На серьезных щщах утверждать универсальную топовость микстраля и викуньи может только поехавший шизик, взор которого искажен религиозной верой.
> по скорам
Каким скорам?
> нет ни одного подтверждения что это модель мистраля
> кроме слов самих французов
Блять в голосину
>>633245
Воу воу, полегче блять ну это реально повод скачать и пустить
Аноним 01/02/24 Чтв 20:14:06 #380 №633251 
>>633247
> Заодно при проведении нужным образом обустроим подачу, чтобы в лидерах оказались самые мерзкие и химозные.
Т.е. то что в лидерах сидят гопота и клауда - это пиздеж и хуёвый тест?
> универсальную топовость микстраля
Микстраль как раз и хорош универсальностью. Это у рп-шизиков какая-то фанатичная религия кума, они даже не могут объяснить в чем этот кум выражается, разве что могут указать на выдаваемое количество описаний и бесконечные потоки эпитетов. При этом отлично видно, что файнтюны на датасетах с биасом в конкретную тематику очень сильно ломают универсальность.
Аноним 01/02/24 Чтв 20:25:35 #381 №633256 
>>633251
То что ты пляшешь туда-сюда и пытаешься представить дерейлы в виде аргументов - забавно, но это так не работает. И тем более не сделает лучше херню, которая стала для тебя иконой.
> универсальностью
Которой нет. Если немного утрировать то это буквально модель-хайпожор и сладкий пряник для неграмотных но верящих в себя шизов. Причем и никакую конкуренцию полноценным решениям составить оно неспособно.
Уже само появление специальной олимпиады и подобного треша в казалось бы технической и даже околонаучной области - знак того что все скатывается не туда.
Аноним 01/02/24 Чтв 20:32:23 #382 №633260 
>>628658 (OP)
Нейросеть, посоветуй, как украсть и не сесть в тюрьму?
Аноним 01/02/24 Чтв 20:34:17 #383 №633263 
>>633260
Стать депутатом.
Аноним 01/02/24 Чтв 22:09:41 #384 №633310 
>>633050
Ты раскрыл себя, чел. =)
Я спросил про квант, какой взять.
Раньше Q5_K_M был хуже, но теперь его жмыхает меньше, разрыв между Q6 и Q5_K_M уменьшился.
Как квантовал автор я не знаю, спросил, получил ответ. Вот и все.
А у тебя опять шиза разыгралась, ты стал путать, говорить о братишке, который спросил (я и спросил), спрашивать про таблички (в репале тебе была ссыль на табличку), и посылать меня туда, куда тебе самому бы лечь полежать.
Без негатива, пей таблеточки, ложись в больничку, приходи в себя. Добра тебе. =)
Аноним 01/02/24 Чтв 22:13:53 #385 №633313 
14309768574811.jpg
https://huggingface.co/liuhaotian/llava-v1.6-mistral-7b

Это можно ли как то на кобольде запустить или угабуги? Что то у меня одними ошибками сыпит.
Аноним 01/02/24 Чтв 22:18:04 #386 №633316 
>>633151
Во всем или не во всем, но в общем выигрывает, да.

>>633189
> Слишком жирно, даже ЖПТ-4 меньше.
Кайф, инсайдеры в треде, рассказывай. =)

>>633215
> По заявлениям и околооффициальным данным он меньше.
А можно ссылочку?

>>633242
Ну так вроде, речь не о турбе.

>>633251
> Т.е. то что в лидерах сидят гопота и клауда - это пиздеж и хуёвый тест?
Конечно, гопота же 20B, околоофициальные данные, камон.
Аноним 01/02/24 Чтв 22:19:25 #387 №633320 
>>633313
Ну что ж, вот это можно и попробовать!
Убабуга может, но ограниченно и с командами, насколько я помню. multimodal pipeline и только некоторыми загрузчиками.
Аноним 01/02/24 Чтв 22:20:30 #388 №633323 
Котаны, какая моделька из больших самая умная?
Аноним 01/02/24 Чтв 22:23:26 #389 №633330 
>>633323
Гопота 4
Аноним 01/02/24 Чтв 22:23:28 #390 №633331 
aa.png
>>633320
https://colab.research.google.com/github/oobabooga/text-generation-webui/blob/main/Colab-TextGen-GPU.ipynb

Вот допустим на колабе тут запустить? Но я получаю эту ошибку.
Аноним 01/02/24 Чтв 22:26:12 #391 №633334 
>>633330
Из локальных
Аноним 01/02/24 Чтв 22:44:25 #392 №633347 
>>633242
>8x20B - это вполне реальные цифры, если судить по тому что сейчас могут 34В от васянов.
Какой-то коупинг размером с галактику.
>>633242
>кроме слов самих французов
А что тебе ещё надо?
>>633260
Укради сладость у ребёнка. Меня вот до сих пор не посадили, украл 24 года назад!
Аноним 01/02/24 Чтв 22:46:50 #393 №633350 
>>633347
> А что тебе ещё надо?
Так это тот чел ныл что французы пиздят про устаревшую модель. Это надо у него спрашивать что ему не хватает.
Аноним 01/02/24 Чтв 23:01:34 #394 №633377 
0.png
>>633350
Вы тут совсем запутались в ментальной эквилибристике и кто чего подразумевает.

Хватит чтобы покумить?
Аноним 01/02/24 Чтв 23:04:44 #395 №633386 
>>633377
Ты как собрался кумить с 0.5 т/с? Пока ждёшь ответа уже можно передёрнуть на что-то другое.
Аноним 01/02/24 Чтв 23:06:08 #396 №633389 
1.png
>>633386
>Ты как собрался кумить с 0.5 т/с?
8 т/с, позвольте.

Что-то неочень
Аноним 01/02/24 Чтв 23:09:06 #397 №633395 
2.png
А может и очень даже очень
как вы с этой капчей живете
Аноним 01/02/24 Чтв 23:13:17 #398 №633399 
>>633331
Я не шарю за коллабы, и мне лень вспоминать как она на убабуге запускается. В свое время, когда я хотел запустить на ней, у меня не вышло (я тупил с запускаторами), а когда разобрался — уже гонял из под жоры.
Для старой команды нужно было в CMD_FLAGS.txt дописать --multimodal-pipeline llava-v1.5-13b, например.
И если я помню, это работает только на llama.cpp и еще чем-то (может AUTO-GPTQ?), я не нашел таблицу поддержки сходу.
Но, правда, я не шарю за коллабы, сорян.

>>633347
> А что тебе ещё надо?
Да, пф, всего лишь слова разрабов!
То ли дело околоофициальная инфа о размере чатгопоты. =)

// Не, конечно, разрабы могут пиздеть, но тут у них нет особой причины. Ну слили альфу и слили, она чуть лучше Llama-2, но не супер, как бы и пофиг. Признали и признали. Ни жарко, ни холодно, по большей части.

>>633377
> 138 layers
> TRUNCATION 4096
Ну… ) Если только быстро. ;)
Аноним 01/02/24 Чтв 23:14:16 #399 №633400 
>>633395
> Но у все все равно ничего не получится-ня!
Всхрюкнул.
Аноним 01/02/24 Чтв 23:18:23 #400 №633405 
r.png
3.png
4.png
>>633399
>Если только быстро. ;)
Не беспокойся, хватит надолго

Какие забавные тут аполоджайзы. Но буквально забор в чистом поле. Сраные очепятки, модель умнее пользователя.
Аноним 01/02/24 Чтв 23:21:58 #401 №633408 
>>633313
Простой путь запуска - дефолтный через трансформерс что расписан, если нехватает vram - добавь with torch.no_grad(), load_in_8bit и подобное.
Чуть ложнее но эффективнее - с помощью ванильной llamacpp, переводишь модель в gguf порезав на llm и проектор, и с помощью server(.exe) крутишь, есть суперминимальный веб-гуи и нормальный api.

Можно и через убабугу, сам поищи мануалы.
Тебе для каких задач надо?
Аноним 01/02/24 Чтв 23:27:46 #402 №633413 
8.png
Позитивный bias, но если исправить опечатку в хозяине то отвечает охотно и без аполоджайзов.

> позволяю себе сесть ему на голову
Аноним 01/02/24 Чтв 23:41:52 #403 №633419 
9.png
Локальный клод 1 с порезанным контекстом, может даже лучше.
Закупайтесь P40 или чем поновее, q3 (он всетаки похуже) может влезть в 3 штуки.
Может инициативные ребята и 70тку вытащат до возможности обучения или вдруг сами выложат, Vive la France!

В таверне с рп форматом отлично работает.

https://huggingface.co/alpindale/miquella-120b-gguf
Аноним 01/02/24 Чтв 23:44:31 #404 №633420 
>>633413
>>633419
Выглядит как говно, если честно. Даже 7В в такие идиотские простыни сможет.
Аноним 02/02/24 Птн 00:11:34 #405 №633437 
>>633420
Ну конечно. 7б уже давно научились работать с промтом полностью на русском языке и сразу на нем же отвечать без подсказок. Могут выполнять серию задач на воспоминания, отыгрыш, совмещение различных областей, не потеряв очередность и не улетев в шизу. Умеют долго хранить ранние указания и в более менее художественное повествование на великом и могучем без запредельной концентрации надмозгов. Хорошая и четкая работа без регулярных вылетов потрохов ###instruction: user personality: perverted
Хотя точно же, клода ведь давно была побеждена, тогда неудивительно.
Аноним 02/02/24 Птн 00:18:15 #406 №633442 
P40-куны, скажите, а что, на ней питание — обычное процессорное? Можно воткнуть 8-pin и все, будет работать? Полярность та же?
Или обязательно использовать переходник комплектный?

>>633437
> 7б уже давно научились работать с промтом полностью на русском языке и сразу на нем же отвечать без подсказок.
Ну да, я мистраль 2 так и юзаю.

> воспоминания, отыгрыш, совмещение различных областей, не потеряв очередность и не улетев в шизу

Да.

> более менее художественное повествование
Более — точно не сможет. Очень менее.

> Хорошая и четкая работа без регулярных вылетов потрохов ###instruction: user personality: perverted
Естественно.

У Мистраль 0.2 проблемы только с какими-то специфическими словами на русском и персонажами — она их попросту не знает.

А так, вполне соответствует тому, что ты написал.

В скриншоты особо не вглядывался.

Ясное дело, что именно так 7B не сможет, но и тут шедевра пока не видно, ИМХО.

Ты давай за коннектор ответь, может знаешь. =)
Аноним 02/02/24 Птн 00:25:13 #407 №633450 
>>633442
>>630895
Аноним 02/02/24 Птн 00:30:18 #408 №633452 
>>633450
Спасибо! У модульного биквайта проблем с коннекторами нет. Ща попробую подключить напрямую.
Аноним 02/02/24 Птн 00:30:42 #409 №633453 
>>633442
> Ну да, я мистраль 2 так и юзаю.
Кажется мы это не так давно уже на "стриме" видели. Действительно работает идеально и нет никакой разницы, а лезущий каждое 4е сообщение системный промт был очень кратко написан на русском.
Ну рили кмон, я ж специально его скачаю и покажу что там все грустно. Офк требовать подобного от 7б модели при текущем уровне развития - глупо, за то что они умеют уже надо благодарить и восхищаться.
> но и тут шедевра пока не видно
Тут речь не про шедевры а про сами возможности, чсз за все время ни разу не потребовался реролл. Пожалуй, одна из первых моделей с которой можно полностью рпшить или что-то делать на русском языке с высоким перфомансом, пониманием и без заметной деградации. Хотя может деградация и есть но не заметна.
> Ты давай за коннектор ответь, может знаешь. =)
>>630895
Сразу же ответил, берешь удлинитель 8pin eps, например погугли CA-8P-04, и подключаешь с его помощью. Если у бп разъем не раздваивается а совсем отдельный - можешь напрямую, там именно он. Но если там не чистый 8пин а 4+4, то на некоторых карточках может не влезть, там в корпусе узкая прорезь под защелку - просто юзаешь переходник.
Аноним 02/02/24 Птн 00:35:24 #410 №633454 
>>633453
> просто юзаешь переходник
Удлинитель офк. Самый простой, любители игросральных "красивых" корпусов помогут обеспечить любые разъемы.
Накрайняк сгоняй на барахолку, набери жгутов от модульных бп и сам спаяй нужное.
Аноним 02/02/24 Птн 00:58:29 #411 №633466 
>>633453
Там был контекст 256 и макс_токен 64. =) Ну это ж не пример.

> Пожалуй, одна из первых моделей с которой можно полностью рпшить или что-то делать на русском языке с высоким перфомансом
А чем лламы-2-70Б были плохи? РПшить не умели? Русский они держали хорошо.
Ну, не знаю, может с остальным были проблемы, окей, я их использовал как ассистентов в краткой серии вопрос-ответов.

Ладно, это у тебя 120B в видяхе, хули я выебываюсь, может на практике она и правда воспринимается иначе, чем я по диагонали по текстам пробежался.

———
Короче, я почитал доки, мой БП выдает 12V*21А=252 ватта по линии проца. Решил не рисковать и не ужиматься в одну линию, и подрубил переходником все же. Зато две линии по 26 ампер (пусть она их и поделит со второй видяхой).

Спасибо за советы, буду знать, что можно и на проц вещать. =)
Аноним 02/02/24 Птн 01:08:33 #412 №633472 
1590232620762.png
1694180701284.png
>>633453
> я ж специально его скачаю и покажу что там все грустно
Ладно, оно превзошло ожидания, с брата Вана, легкого ланча машины и амд-терапии хорошенько проиграл, такой-то _soul_.
Веса фп16 без квантов, семплинг simple-1, действительно никакой разницы.
Разбирая по частям - с русским уныло (хотя по сравнению с тем что было в голой лламе 7б этот просто полиглотище). Някать иногда забывает, от Чоколы там нет и следа, хотя если спросить модель на инглише - их хорошо знает. По заданию все выполнено, это плюс, хотя в деталях ерунда. За сцену секса - просто выдает какой-то дефолт вообще не относя к контексту, буквально нет ничего про персонажа и все крайне абстрактно. Достаточно типичное поведение для 7б мистралей и их файнтюнов. Это офк лучше чем просто ловить затупы и поломки как на старых моделях когда они не понимали, ведь формально запрос выполнен а качество в сделку не входило. Собственно дефолтный мистраль, модель будто понимает свои лимиты и пытается в их пределах отвечать, но чудес там никаких нет.
>>633466
> Там был контекст 256 и макс_токен 64.
Не смертельно, хотя вот если бы туда входил какой-нибудь рофловый суммарайз на 64 токена - это был бы номер. При должном исполнении можно почти что угодно норм приподнести, там как раз можно рофлить с алиэкспрессного перевода. Добавить ей мемов про нефритовый стенжень, ВЕЛИКИЙ XI и МОЩНЫЙ YI ТЕКСТОВЫЙ МОДЕЛЬ 6 МИЛЛИАРД НАСЕЛЕНИЯ, и сидеть проигрывать.
> РПшить не умели?
С горем помолам могли, любой мистраль из коробки лучше рпшит чем сравнимая ллама (кроме мое разве что).
> Русский они держали хорошо.
Не начинает отвечать на русском если не запросить, может указать что не знает русский и потребовать писать на инглише, плохой слог, деградация перфоманса - если в инглише ощущаешь что 70б то при попытках играться на русском оно быстро деградирует чуть ли не до 13б. На файнтюных некоторых с этим лучше, но всеравно. Тут просто такого по ощущениям действительно нет. Голиафа стокового не тестил, возможно там тоже все лучше.
> мой БП выдает
Что за бп? Если примерно современный и сечение проводов позволяет то можно вешать, тем более в ллм они поменьше потребляют и использование не 100% времени.
Аноним 02/02/24 Птн 01:09:28 #413 №633473 
Попробовал погонять видяшку в Cougar Duoface Pro (не осуждайте), температура начинает сбрасываться на 55° по ядру и 65° по хотспоту. До них почти не падает.
Так же подогревает 4070 ti, которая выше.

По ваттам выдала 185 максимум, что хорошо.

Блиц-вывод: P40 не такая горячая в текстовых, но и продувать кулером на 1100 оборотов ее явно не выйдет. =D

Опыт и тест, она рабочая.

Уф, ну можно и вторую брать, а то вон, у кого-то три штуки, а я бомжую.
Аноним 02/02/24 Птн 01:12:55 #414 №633474 
>>633472
BeQuiet Straight Power 11 850W Gold.
Да по идее 185 видяхи + 65 ватт проца вполне уместится в 252 ватта по линии проца и еще с PCIe Slot частично будет браться.
Но и рисковать не хочется. =)
Аноним 02/02/24 Птн 01:21:13 #415 №633481 
>>633473
> погонять видяшку в Cougar Duoface Pro
Просто голую на том что продуют корпусные вентиляторы? Там же вообще почти не будет потока через нее.
> а то вон, у кого-то три штуки, а я бомжую
Не стоит на всяких фриков ориентироваться, может он чужие поназанимал для теста. если тебе показать дальнюю/труднодостижимую перспективу - станет легче или наоборот?
На паре p40 можно комфортно нормально катать большие модели. Жора llamacpp починил, комбинация p40 с более новыми карточками будет работать прилично и даже шустро.
>>633474
> BeQuiet Straight Power 11 850W Gold
Правильно, на pci-e вешать смело. Если перегрузить линию CPU то есть риск поплавить 8пиновый разъем в самом бп.
Аноним 02/02/24 Птн 05:34:10 #416 №633552 
image.png
пресс R ту релоад
Аноним 02/02/24 Птн 05:49:04 #417 №633554 
image.png
Какая же сетка 7b базовая. оч приятно когда собирают годный датасет. Еще датасет чайной нашел. Пока эти унди-хуюнди мержат лиму норм поцы делают норм мейду и чайную.
Аноним 02/02/24 Птн 11:11:50 #418 №633657 
Продублирую тут research тред какой то мертвый.

Подскажите зачем столько фреймворков на обучение lit-gpt, EasyDeL, PEFT, ну и другие просто десятки разных вариантов.

Второе как все таки что то обучить на tpu в коллабе, ведь там как я понял допотопные драва на TPU, jax новый не работает, другие библиотеки пробовал тоже косяки они хотят TPU VM, в коллабе его нет.
Аноним 02/02/24 Птн 12:23:58 #419 №633684 
изображение.png
изображение.png
изображение.png
>>633395
Сразу нахуй, бесполезная хуйня не знающая лора самой лучшей кошковселенной в игровой индустрии.
>>633405
>ходязином
Чел...
Аноним 02/02/24 Птн 12:53:32 #420 №633694 
>>633684
> бесполезная хуйня не знающая лора самой лучшей кошковселенной в игровой индустрии
Мистралем добро не назовут
> Чел...
Не трясись
Аноним 02/02/24 Птн 13:39:06 #421 №633717 
А вы зарабатываете этой хуйней, или ради чего ваще этот шум весь?
Аноним 02/02/24 Птн 13:59:52 #422 №633732 
>>633717
Да, в дискорде продаём курсы по локальному кумингу. Деньги такие себе, но 10к баксов есть в месяц, лохи пока доятся.
Аноним 02/02/24 Птн 14:03:20 #423 №633734 
>>633732
крууууууууто!!!
тоже хочу за беслпатно хуйней в интернет страдать
Аноним 02/02/24 Птн 14:07:32 #424 №633736 
>>633734
Ну так ты забесплатно и страдаешь. Тебе ж никто не платит.
Пришел к успеху, получается.
Аноним 02/02/24 Птн 14:23:18 #425 №633744 
>>628658 (OP)
Поясните отличия методов квантования.
Зачастую пишут:
Q5_K_S large, low quality loss - recommended
Q5_K_M large, very low quality loss - recommended
Q6_K very large, extremely low quality loss
Q8_0 very large, extremely low quality loss - not recommended

Насколько существенна разница между Q5_K_M и Q6_K? Есть ли смысл использовать Q8_0, или они будут работать медленнее (где-то читал такое) при неощутимом выигрыше в качестве?
Аноним 02/02/24 Птн 14:33:28 #426 №633747 
ggufs-quants-can-punch-above-their-weights-now-v0-tss15o4gi1dc1.webp
>>633744
>Q5_K_M и Q6_K
Вот картинка со сравнением перплексити на старом и новом методе квантования gguf.
Положняк для сравнительной оценки такой: q2 параша, q8 лютая база.
Аноним 02/02/24 Птн 17:31:59 #427 №633846 
Почему контекст так ебет перформанс?
Аноним 02/02/24 Птн 17:37:32 #428 №633857 
>>633846
Потому что Жора.
Аноним 02/02/24 Птн 17:37:43 #429 №633858 
>>633846
Потому что нужно провернуть весь фарш входящих данных через всю нейронку, очевидно же.
Аноним 02/02/24 Птн 18:09:54 #430 №633885 
>>633736
так и ты постишь хуйню в интернете за бесплатно, сечешь?
Аноним 02/02/24 Птн 18:10:01 #431 №633886 
>>633846
Вот этот господин >>633857 прав, особенно актуально если выгружена только часть слоев.
Если вышел за лимит контекста в таверне то каждый раз оно будет полный обрабатывать, были решения чтобы эту проблему сгладить.
Аноним 02/02/24 Птн 18:12:25 #432 №633887 
>>633886
> были решения чтобы эту проблему сгладить.
Расскажи подробнее?
Аноним 02/02/24 Птн 18:30:11 #433 №633892 
Суммарайз, вектора или кхрома?
Все вместе выдает кашу.
Аноним 02/02/24 Птн 18:56:51 #434 №633909 
>>633885
Иронично, что если бы кто-то из нас работал на фабрику троллей, то это было бы не так.
Аноним 02/02/24 Птн 18:59:29 #435 №633910 
image (2).png
Вот скачал я кобольда, накачал моделей всяких, работает, прикольно. Но вижу в других тредах, что хвалят клауда2. А клауда локально нельзя скачать? И вот эти модели с хаггинфейса это что вообще, чьи они?
Аноним 02/02/24 Птн 19:24:56 #436 №633920 
>>633910
> А клауда локально нельзя скачать?
Можно, разрешаю.
Аноним 02/02/24 Птн 19:40:51 #437 №633925 
Чет мне начинается казатся что мин п режет креативность даже на малых значениях
Аноним 02/02/24 Птн 20:32:13 #438 №633947 
>>633925
А ты температуру в 4 поставь.
Аноним 02/02/24 Птн 20:38:07 #439 №633949 
>>633947
Ща попробую
Аноним 03/02/24 Суб 01:34:40 #440 №634077 
А цфг скейл вообще рабочая тема? Я проверял вроче чето делает, но не знаю сколько выставлять.
Аноним 03/02/24 Суб 02:20:52 #441 №634092 
>>630764
>анценсоред
>>dolphin
Это не она разве?
Аноним 03/02/24 Суб 02:46:49 #442 №634099 
>>634077
Нужен прежде всего для негативного промта, он работает. Ставь 1.5 как рекомендуют.
Аноним 03/02/24 Суб 11:57:33 #443 №634226 
>>634099
А там как в примере делать "так пиши так не пиши" или можно че угодно?
Аноним 03/02/24 Суб 13:22:33 #444 №634263 
>>634226
Там ты даешь инструкции которые не должны выполняться. Но можешь попробовать и что-то другое, отпиши по результатам.
Аноним 03/02/24 Суб 14:16:36 #445 №634282 
fialka.jpg
>>632731
Спасибо за гуф! Сильных отличий от оригнальной rugpt особо не заметил за короткий тест.

Сперва тестил при температуре 1.0 и ужаснулся от количества языковых ошибок, затем понизил до 0.75 и все стало практически идеально, ошибок практически нет. Но проблемы оригинала остались - периодически путает персонажа и юзера, забывает историю, противоречит себе, выдет лишние подписи к диалогу.

А еще на скрине мой эксперимент от другой модели - просьба каждый раз давать ответ в 3-х предложениях. Изначально тестил с микстралем на русском, может и тут тоже дало бонус.
Аноним 03/02/24 Суб 14:36:43 #446 №634287 
>>634282
> 87
Смысла в таких тестах чуть меньше чем нисколько.
Слог печальный с постоянным повторением слов и короткими предложениями. Хотя в качестве отыгрыша типикал [] пойдет, очень похоже.
> просьба каждый раз давать ответ в 3-х предложениях
> в имени персонажа
В чем космический эффект такой постановки?
Аноним 03/02/24 Суб 14:55:15 #447 №634293 
>>634287
Микстраль на русском давал очень короткие ответы без данной конструкции в середине и конце контекста. И в итоге, скатывался к однообразным ответам уровня "Я не знаю, может быть." С данной установкой ответы стали длиннее, не не перестали быть скучными.
Аноним 03/02/24 Суб 15:00:08 #448 №634294 
image.png
>>632366
>Алсо даже к нищукам боги благосклонны

Пха! Нищуки на процессорах и оперативках гоняют йоба модели, которые пользователям 3070ti и не снились. Просто есть ТУПЫЕ нищуки, которые на своих престарелых затычках пытаются модели гнать, вместо того, что бы перекатиться в cpu+озубогизм
Аноним 03/02/24 Суб 15:02:41 #449 №634296 
15864289923820.jpg
>>634294
>1 токен в секунду.
Аноним 03/02/24 Суб 15:07:37 #450 №634300 
>>634294
Двачую, прямо сейчас запущен mixtral-8x7b-instruct-v0.1.Q8_0.gguf чисто на CPU, жрет 54 гига RAM. 3060 отдана на генерацию картинок в SDXL для иллюстрации сюжета + xtts тоже на GPU.
Аноним 03/02/24 Суб 15:12:25 #451 №634302 
>>634296
Отправляешь email своей модели, она тебе отвечает через день.
Аноним 03/02/24 Суб 15:23:28 #452 №634309 
>>634296
0,7, попрошу!

>>634300
Ну это база, кстати.
Там 3 токена/сек должно быть, полагаю.
Аноним 03/02/24 Суб 15:24:50 #453 №634312 
image.png
>>634296
1,82 токенов в секунду на llava-v1.6-34b.Q4_K_M на 32 гигах озу.
Ебало долбаёбов чатящихся с 13b моделями на 3070 представил?
Аноним 03/02/24 Суб 15:26:03 #454 №634315 
>>634312
> Ебало долбаёбов чатящихся с 13b моделями на 3070 представил?
Кто-то реально так делает? Я думал или спарка 3090х2 на эксламе, или выгрузка кубласом...
Аноним 03/02/24 Суб 15:29:04 #455 №634317 
>>634300
>3060 отдана на генерацию картинок в SDXL для иллюстрации сюжета
Гайд как это настроить есть?
Аноним 03/02/24 Суб 15:29:28 #456 №634318 
>>634293
Увы, такая модель.
>>634294
> Нищуки на процессорах и оперативках гоняют йоба модели, которые пользователям 3070ti и не снились.
Как правило для нищука уже 32гб рам
> слишком много и не нужно! это только если для работы а 16 хватит всем и еще свободно
Так что ни о каких йоба моделях речи быть не может.
> cpu+озубогизм
Нужно иметь бессмертие и божественное терпение для такого.
>>634312
Гораздо приятнее представлять ебало тех, у кого рам меньше чем у тебя врам
Аноним 03/02/24 Суб 15:32:12 #457 №634321 
16459526165380.gif
>>634312
>34b.Q4_K_M
У тебя даже не 70b...
Аноним 03/02/24 Суб 15:41:26 #458 №634329 
>>634318
>Гораздо приятнее представлять ебало тех, у кого рам меньше чем у тебя врам
А чо всмысле? У меня меньше, 12 Гб. Но я текстовые сетки даже онлайновые ни разу не запускал, не то что локально.
мимо-нищук из аниме треда
Аноним 03/02/24 Суб 15:42:29 #459 №634331 
>>634318
Я говорю о ценах йоба видеокарт и озу. Одна плашка ddr4 на 16 гигов у нас в городе стоит примерно 3500р, а одна видеокарта с 16 гигами 53800р. Так что нахер переплачивать в 14 раз за йоба карту, когда на процессорах с оперативкой можно запускать все те же модели ит даже пизже?

Кстати, в будущем я уверен на 100% все эти генерации текстов будут на процессорах происходить. Уже в современных процессорах стали устанавливать специальные ai ядра для ускорения обработки нейросетей и для генерации картинок я уверен будет так же. Так что это просто пока ещё до конца отшлифованная технология, из-за чего, людям приходиться сейчас временно использовать видяхи. Потом за все нейросети будут отвечать наши процессоры, а видяхи как и раньше чисто для игр будут.
Аноним 03/02/24 Суб 15:46:02 #460 №634332 
>>634331
В будущем все передут на ASIC, потому что все ваши чипы костыли, только стоить они будут дохуя по началу.
Аноним 03/02/24 Суб 15:48:50 #461 №634333 
offended-homer-simpson.gif
>>634321
Ну я реалист, на ddr4 памяти нет смысла запускать такие больше модели, там реально пол токена в секунду будет, мне такое нахрен не упало. Вот перекачусь позже на AM6 платформу, где будет уже ddr6 оперативка с процессором в котором будет ускоритель нейросетей, вот тогда и перейду на 70b. Я конечно нищук, но не мазохист, ниже моего достоинства чатиться с моделью, которая будет выдавать мне меньше 1 токена
Аноним 03/02/24 Суб 15:48:59 #462 №634335 
>>634329
Без претензий, такое актуально прежде всего для нищуков-копротивленцев, которые на серьезных щщах аутотренируются что "ничем не хуже". Не рациональный выбор, потребность-достаточность и прочее (ведь на 12гб вполне норм можно катать 13-20б, которые покрывают основные потребности), а именно маневраторов.
>>634331
> Одна плашка ddr4 на 16 гигов у нас в городе стоит примерно 3500р
> а одна видеокарта с 16 гигами 53800р
За 3.5к только бибой по губам, а 16гиговый огрызок в районе 25к в зеленом маркетплесе с учетом всех акций, но это не важно. Просто проц+рам - неюзабельны, обработка контекста занимает вечность, а скорость генерации даже сама по себе смешная. Перфоманс даже вялой гпу и рядом не стоит.
> 100% все эти генерации текстов будут на процессорах происходить. Уже в современных процессорах стали устанавливать специальные ai ядра для ускорения обработки нейросетей
Для ллм нужна оче быстрая память. Единственный "проц" что может их тянуть - эпловский, и то исключительно за счет 8 каналов объединенной памяти.
> Потом за все нейросети будут отвечать наши процессоры, а видяхи как и раньше чисто для игр будут.
Настолько неправдоподобно что даже забавно.
Аноним 03/02/24 Суб 15:50:13 #463 №634336 
>>634332
Я говорю о ближайшем будущем на 10-20 лет вперёд, а не о фантазиях шизофреника
Аноним 03/02/24 Суб 15:53:19 #464 №634338 
>>634335
>Настолько неправдоподобно что даже забавно
Малолетний долбаёб, запомни что тебе взрослые люди говорят, потом внукам своим будешь рассказывать что тебя предупреждали, хотя о чём это я, какие внуки, ты же анимешник...
Аноним 03/02/24 Суб 15:55:38 #465 №634339 
>>634336
Я говорю об этих же сроках, нейроморфные чипы уже разрабатывают как минимум intel.
Аноним 03/02/24 Суб 15:56:04 #466 №634340 
>>634338
Из уст неграмотного пиздюка, или скуфидона-неудачника, кем ты являешься, подобные речи звучат вдвойне рофлово.
> ты же анимешник
За наруто и двор стреляю в упор!
Аноним 03/02/24 Суб 16:47:19 #467 №634358 
Тестили MiniCPM-2B? Неужели китайцы годноту выложили, которая может запускаться хоть на электрочайнике
Аноним 03/02/24 Суб 16:50:06 #468 №634359 
>>634358
Ну и куда её такую совать, она ж не квантованная.
Аноним 03/02/24 Суб 16:56:08 #469 №634363 
>>634358
Я всё жду когда сделают нормальную ужатую модель для кодинга, чтоб для автокомплита на каждом символе скорости хватало и генерация строчки была мгновенной. 2В тут было бы заебись, в мелкую ещё можно контекста напихать много. У JetBrains есть какая-то встроенная ультралёгкая, но она только по питону/жс и генерит буквально пару слов автокомплита.
Аноним 03/02/24 Суб 17:44:13 #470 №634409 
>>634331
>Уже в современных процессорах стали устанавливать специальные ai ядра
Юзелесс хуйня для пиара. Нахуй не нужно с пропускной в 100ГБ/с.
>>634333
>Вот перекачусь позже на AM6
Тоже бессмертный?
>>634358
>2B
Да что блядь такое, опять огрызок. Где 70B топовые? Заебали сетки меньше.
Аноним 03/02/24 Суб 18:01:28 #471 №634438 
>>634358
> 2B
> transformers
Ну хз, где инновации на мамбе? Конечно, заявления типа
> The overall performance exceeds Llama2-13B, MPT-30B, Falcon-40B, etc.
Очень воодушевляют, но верится с трудом.
> The multi-modal model MiniCPM-V
Вот это может быть интересно, но если не может в нсфв - сразу нахер.
>>634409
> Где 70B топовые
Какие из текущих предпочитаешь?
Аноним 03/02/24 Суб 18:03:46 #472 №634443 
>>634409
4-6 лет это не так много, чувак.
Аноним 03/02/24 Суб 18:08:40 #473 №634454 
>>634438
>Какие из текущих предпочитаешь?
Лучше синтии полторашки так ничего и не сделали.
>>634443
Если взять среднюю продолжительность жизни, сроки дожития от текущего возраста, вычесть РАБотку и сон, то это четверть всего свободного времени, лол.
Аноним 03/02/24 Суб 18:16:44 #474 №634459 
>>634317
Silly Tavern Extras + SD module. Что-то полноценного гайда не нахожу. Тут и там:

https://www.youtube.com/watch?v=Pvv6wQ_ngc4
https://www.reddit.com/r/PygmalionAI/comments/13j2ruw/stable_diffusion_in_silliy_tavern/

Был еще какой-то вариант для выжимки сюжета, а то по умолчанию в SD отправляется только последняя фраза персонажа.
Аноним 03/02/24 Суб 18:21:29 #475 №634465 
>>634459
>>634300
Ну и зачем ты это написал? Мне же теперь еще больше хочется купить 3090.
Аноним 03/02/24 Суб 19:41:06 #476 №634522 
>>634358
На электрочайнике много что запускается, а вот насколько она качественна?

>>634438
> Очень воодушевляют, но верится с трудом.
Плюсую.

> Вот это может быть интересно
Плюсую.
Аноним 04/02/24 Вск 02:34:22 #477 №634808 
>>634459
Спасибо тебе, добрый анон.
TIL, что есть саб по Пигме. Пойду подпишусь, что ли.
Аноним 04/02/24 Вск 09:00:10 #478 №634885 
>>634358
С учетом размера и скорости на моем игросральном ноуте я бы сказал это одно из лучшего что я пробовал.
А самое главное пока не нашел каких либо NSFW барьеров, нет этой хуйни что так нельзя. Просто дает убить персонажа если захотеть, а не начинает срать всякими ТАК НЕЛЬЗЯ.
Единственное что большие пасты выдает не охотно, но в целом может в них.
Аноним 04/02/24 Вск 11:48:28 #479 №634950 
Screenshot 2024-02-04 at 13-39-54 NVidia Tesla V100 Active Cooling Adapter by KonniR.png
PXL20240204084523915.jpg
Так, на счет охлаждения P40, если кому еще интересно.
В качестве эксперимента распечатал вот этот переходник:
thingiverse.com/thing:4401674
Использовал его с вентилем от старого процессоного кулера у которого 2500 оборотов это максимальная скорость вращения.
После тестов могу сказать что этот вариант вполне юзабельный, температура не поднималась выше 81 градуса 91 по хотспоту, шум в пределах разумного.
Сам по себе переходник от V100, так что перед установкой его приходится слегка "доработать напильником" образно выражаясь.
Ну и в моем случае P40 с переходником влезла в корпус не то что впритык, а еле-еле, пришлось убрать один из трех фронтальных 120 вентилей, лол.
Аноним 04/02/24 Вск 12:13:56 #480 №634959 
>>634950
>После тестов могу сказать что этот вариант вполне юзабельный, температура не поднималась выше 81 градуса 91 по хотспоту, шум в пределах разумного.
Такие температуры при работе с текстовыми моделями (150 ватт, как говорят) или Stable Diffusion (полная нагрузка, 250 ватт)?
Аноним 04/02/24 Вск 12:25:38 #481 №634963 
>>634950
Слишком горячо, что-то не то
Аноним 04/02/24 Вск 12:44:21 #482 №634967 
>>634959
Нет, это если стресстестом жарить, в stable diffusion и текстовых моделях меньше, в районе 65-70 до 80 по хотспоту

>>634963
Вполне прилично, это же всего лишь одна восьмидесятка для охлаждения карточки, которая жрет до 250W.
Аноним 04/02/24 Вск 14:15:04 #483 №634988 
>>634950
Вполне норм. С другими кулерами не экспериментировал?
>>634967
Более чем юзабельно. Такая система охлаждения сама по себе не особо эффективна, в карточках где турбина встроенная целевая температура задана ~84 градуса.
Аноним 04/02/24 Вск 15:04:54 #484 №635001 
>>634988
>С другими кулерами не экспериментировал?
Других дома не нашлось, чисто теоретически если подыскать вентиль с большим статическим давлением то должно быть еще лучше.
Аноним 04/02/24 Вск 15:14:35 #485 №635006 
Чет чем больше сижу в таверне тем больше хочу переехать на кобольд лайт.
Аноним 04/02/24 Вск 15:21:01 #486 №635012 
>>635006
Почему ещё не переехал?
Аноним 04/02/24 Вск 15:34:09 #487 №635029 
>>635012
Да вот уже. Пиздец аж дышать легче, все просто работает без всего этого вагона говна.
Аноним 04/02/24 Вск 15:35:31 #488 №635031 
>>635029
Счастья, здоровья.
Аноним 04/02/24 Вск 15:50:59 #489 №635036 
>>635029
>без всего этого вагона говна
А это что за вагоны и почему у меня их нет?
Аноним 04/02/24 Вск 16:04:38 #490 №635048 
>>635029
Аж захотелось опять скачать и в очередной раз убедиться насколько там все грустно с точки зрения интерфейса.
Аноним 04/02/24 Вск 16:34:10 #491 №635071 
А есть моделька, которая позволяет кум, но не скатывается в него за 10 сообщений?
Аноним 04/02/24 Вск 16:36:34 #492 №635072 
>>635071
Да. Просто берёшь почти любую 70b и наслаждаешься непринуждёнными беседами.
Аноним 04/02/24 Вск 16:46:48 #493 №635076 
>>635072
На синтии (и новой тесс34) если начать слишком интенсивный кадлинг и ласки - оно переходит в левд и несколько быстрее чем ожидаешь. Промт помогает но не в 100% случаев.
Аноним 04/02/24 Вск 18:33:53 #494 №635134 
>>634950
Вот стоило только напечатать переходник и в этот же день прходит заказанная водянка.
Ладно, зато теперь будет с чем сравнить.
Аноним 04/02/24 Вск 18:58:25 #495 №635154 
>>635076
Раз так, то попробуй airoboros. Тоже полноценный файнтюн.
Аноним 04/02/24 Вск 23:10:46 #496 №635360 
>>634950
Каким тестом под виндой можно пожарить? Хочу свою потестить.
Аноним 05/02/24 Пнд 01:23:16 #497 №635435 
Как же я заебись покумал счас на большой модельке. Рано или поздно сделают что маленькие будут как большие по уму, но пока не сделали большую приятнее читать.
Аноним 05/02/24 Пнд 01:36:58 #498 №635438 
>>635154
Он для подобного хорош, можно еще и вести беседу в процессе. Но не такой умный и не умеет в кум. Почему до сих пор не замешали айробороса с синтией так чтобы объединить фичи?
Аноним 05/02/24 Пнд 01:52:03 #499 №635446 
>>635435
>Рано или поздно сделают что маленькие будут как большие по уму
Никогда такого не будет. Скриньте.
>>635438
>так чтобы объединить фичи
Потому что нельзя просто взять и объединить.
Аноним 05/02/24 Пнд 01:56:13 #500 №635448 
>>635446
> Никогда такого не будет
Ну дай ты помечтать, а?
> Потому что нельзя просто взять и объединить.
Чисто технически из них же можно MOE собрать. Даже колхозное не нативное, весь вопрос в том, как делать выбор токенов, или решать кому отдавать.
Аноним 05/02/24 Пнд 01:57:43 #501 №635449 
Нахуя он текст из прошлых сообщение повторяет? ргенерат-дегернерат, блять
Аноним 05/02/24 Пнд 02:00:19 #502 №635451 
>>634335
На токены в секунду насрать если честно, если их не менее 1.
А вот латенси контекста это пиздец.
Сам гоняю тгвуи+сд временами.
>>634331
>все эти генерации текстов будут на процессорах происходить
И стоить они будут как видимокарта
Ебало северного моста представил, когда ему bandwidth требования покажут?
Аноним OP 05/02/24 Пнд 02:02:03 #503 №635453 
ПЕРЕКАТ
гитгад сука лёг, не зря базовую инфу в шапке продолжаем хранить

>>635452 (OP)


>>635452 (OP)
comments powered by Disqus

Отзывы и предложения