24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №50 /llama/

 Аноним 10/04/24 Срд 19:05:59 #1 №699623 
Llama 1.png
Альфа от контекста.png
Деградация от квантования новая.png
Самый ебанутый охлад P40-1.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>695332 (OP)
>>689693 (OP)
Аноним 10/04/24 Срд 19:15:13 #2 №699631 
>>699154 →
Взял nous-hermes-2-solar-10.7b.Q8_0.gguf и загрузил в Теслу P40. получил после 2к контекста 15,5 токена в секунду. Задумался о двух вещах: так ли хороша эксллама по сравнению с лламаспп и exl2 с ггуфом и много ли добавит перформанса теслам 4060Ti.
Аноним 10/04/24 Срд 19:16:10 #3 №699633 
>>699629 →
Спасибо, почитаю. Хотя лично я считаю, что террористы не будут экспериментировать с архитектурой модели.
Аноним 10/04/24 Срд 19:17:51 #4 №699636 
>>699631
>так ли хороша эксллама по сравнению с лламаспп
Так надо сравнить, делов то.
>много ли добавит перформанса теслам 4060Ti
Ну как видишь, 15 против 20, лол.
Хотя надо смотреть на контекст, там то уже чистая генерация с мизерным добавочным контекстом.
Аноним 10/04/24 Срд 19:22:57 #5 №699643 
>>699631
У него там квант пожиже, 6. К тому же в формате exl2, это модель размером на 30% меньше гдето
скачай тогда 6 квант ггуфа и его запускай для сравнения
А по идее вобще 5км, так как 6 квант имеет больше 6 бит на вес
Глянь размер его модели и скачай похожим размером, вот
Если конечно р40 нормально ест кванты отличные от 8 и 16
Аноним 10/04/24 Срд 19:23:29 #6 №699644 
>>699636
>Так надо сравнить, делов то.
Вот и сравниваю, у меня gguf, на скрине exl2. Если учесть разницу в производительности карт, то похоже, что невьебенное преимущество экслламы осталось в прошлом.
Аноним 10/04/24 Срд 19:26:00 #7 №699645 
>>699643
>скачай тогда 6 квант ггуфа и его запускай для сравнения
Легаси должны быть быстрее на теслах, так что смысла нет. То же и будет, плюс-минус.
Аноним 10/04/24 Срд 19:30:03 #8 №699650 
>>699624 →
А они тут причем?
Тут скорее материночку под 4 слота. =)
Сам видишь, q2 в 48, по-ходу, не влазят.
А p100 так точно 4 штуки, чтобы слабый квант запустить.
Зато быстро, согласен.
Аноним 10/04/24 Срд 19:30:13 #9 №699651 
>>699645
Тогда из его результата процентов 10-20 вычесть
В итоге от 20 секунд остается 16-18, если бы там был 8 квант
В итоге разницы особой и нет, только то что без разных умных квантов на р40
Аноним 10/04/24 Срд 19:35:08 #10 №699657 
>>699633
Я кстати это дело эмулировал чисто промптом, на сколько помню
В итоге мало чем отличается от опять таки внутреннего диалога где сетка разбирает что сказать и как, только по более строгим правилам. Работало так себе, но тогда и сетки были тупее
Скопируй статью сетке и попроси выделить алгоритм работы отражающих токенов, а потом вставь в промпт и играйся, лол
Аноним 10/04/24 Срд 19:37:50 #11 №699659 
>>699650
>Тут скорее материночку под 4 слота. =)
Ну допустим у кого есть такая материночка могут взять третью P40. Но перформанс, блин. 70B Q5_K_M на 12к контекста - это будет больно. Можно и на 16к - будет ещё больнее.
Аноним 10/04/24 Срд 19:56:31 #12 №699684 
Я смотрю, контрольные векторы никто не использует? А ведь их даже Жора давно прикрутил, можно добавлять к модели через опцию в командной строке. Через либу repeng можно свои делать, или использовать готовые для мистралей.
Аноним 10/04/24 Срд 20:07:36 #13 №699693 
>>699684
А что они делают то простыми словами?
Аноним 10/04/24 Срд 20:16:20 #14 №699703 
Там Сбер свою мультимадалку на мистрале-7b выпустил: OmniFusion-1.1. Пишут, что на русском умеет болтать о картинках. Неквантованная весит 15 гигов (квантанул бы кто). Интересно, как у нее с русским в режиме без картинок, может для РП даже подойдет.

код: https://github.com/AIRI-Institute/OmniFusion
веса: https://huggingface.co/AIRI-Institute/OmniFusion/tree/main/OmniMistral-v1_1
Аноним 10/04/24 Срд 20:28:54 #15 №699729 
>>699631
Скорость генерации отличается не радикально, процентов 10, может и меньше. Это офк если жора собран под последнюю куду и включены все опции оптимизаций. А вот обработка контекста бывает отличается в разы, если длинный и большая модель то первых токенов можно рили прожать, а на той же мику даже чай налить успеешь, на экслламе же даже открывая большой чат задержка почти незаметна. Когда контекст в кэше то все более менее норм и так и там.
> так ли хороша эксллама по сравнению с лламаспп
Лучше сравни жор врам на одинаковых битностях-контекстах и поймешь очевидное преимущество. Кванты тоже лучше, по качеству на тот же размер и по отсутствию постоянных поломок.
Если будешь сравнивать - учитывай что фактическая битность QN квантов не соответствует цифре в названии.
>>699650
> А они тут причем?
При том что без них нет смысла запускать большие ллм кроме как один раз посмотреть.
>>699703
Ого, а ведь оно еще на основе мистраля выходит.
> квантанул бы кто
Q8 устроит? Если да то можешь сделать это сам с минимальными усилиями стандартным скриптом, а для мультимодальной части ищи llava surgery в доках репы жоры. Вторую версию где 2 энкодера оно не осилит скорее всего без допиливания.
Аноним 10/04/24 Срд 20:32:21 #16 №699735 
>>699703
Говно, там русского всего 20к примеров в датасете было, слишком мало.
Аноним 10/04/24 Срд 20:35:59 #17 №699740 
>>699729
> При том что без них нет смысла запускать большие ллм кроме как один раз посмотреть.
Ты жопой читаешь, признайся? :)
Буквально поставил телегу впереди лошади и утверждаешь, что оно не едет.
Но ведь оно работает наоборот. =)

>>699735
Мистраль и сама не глупая в этом плане.
Интереснее, как она как мультимодалка.
Аноним 10/04/24 Срд 20:37:51 #18 №699742 
>>699740
Ля дурень, сам в своих постах запутался а теперь гнать начинает.
Аноним 10/04/24 Срд 20:43:02 #19 №699749 
>>699742
Давай я тебе разжую, вдруг ты не шиз.
У человека мало денях.
Ему нужна локальная умная модель.
Он может запустить на оперативе, и она будет И умная, И относительно быстрая.
Это — мое крупное.
Он НЕ может (физически, по условию задачи) купить видяхи, нет денях.
Если он запустит одну крупную — она будет меньше оперативы занимать, но она будет медленнее. Т.е., один раз заплатить за рам за постоянный двукратный буст к скорости — выгоднее, чем страдать медленно.

Все едет, польза очевидна, ситуация грустна, зато оно работает.
Против твоей идеи «купить видеокарты за имеющиеся 0 рублей».
Надеюсь, ты проспонсируешь таких людей на пару тесл. =)
Аноним 10/04/24 Срд 20:49:22 #20 №699752 
>>699749
Да все это уже слышали, если "умная" это нужно тестить, то "быстрая" - вообще на ноль поделил. Интерфиренс 44б на оперативе - полнейшее унижение, которое делает практически бесполезным все действо. Если взять еще исправления и прочее то банально быстрее загуглить инфу, быстрее обработать вручную и т.д. Чат вообще смысл теряет.
> У человека мало денях.
И ты предлагаешь бедному человеку вбухать пару-тройку+ десятков тысяч на то чтобы собрать говнонекросборку, на которой можно будет крутить ллм на скоростях в десятки (а то и сотни если с учетом обработки контекста) раз медленнее чем это требуется для возможности работы. И потом эту штуку еще будет невозможно нормально продать ибо не нужна никому. Гениальный мув просто.
Аноним 10/04/24 Срд 21:01:49 #21 №699765 
>>699729
>Скорость генерации отличается не радикально, процентов 10, может и меньше.
Меня интересует, как падает скорость генерации в экслламе в зависимости от размеров промпта. Для Miqu_70B_Q4_K_M.gguf на двух теслах P40 ситуация такая: с нулевым промптом больше 8 токенов в секунду, с промптом в 8к - 3,3 токена в секунду. Как у больших exl2-моделей с этим делом?
Аноним 10/04/24 Срд 21:02:25 #22 №699768 
>>699752
Как раз контекст крутить можно на видяхе любой, тут не обязательно P100/P40/RTX3090+

Продать эту штуку как раз не то чтобы сложно, просто модулями памяти, парами.

Ну и предлагать человеку сидеть на 70б почти вдвое медленнее — гениальная идея, хлопаю тебе. =)
Аноним 10/04/24 Срд 21:03:12 #23 №699770 
>>699765
До сих пор не понимаю, как у тебя 8 токенов, когда у всех остальных 6. =)
или забыл
Аноним 10/04/24 Срд 21:09:48 #24 №699777 
>>699770
Asus WS X299 + i9-7900x. Немножко прибавляет всё-таки. Правда не на ту сумму, которую пришлось на это всё потратить.
Аноним 10/04/24 Срд 21:22:59 #25 №699786 
1654089668608.png
>>699765
Буквально никак. Если в начале будет идти обработка полного промта - разумеется будет увеличиваться задержка до начала стриминга. Если там будет кэш - скорость почти не меняется. На первой было падение раза в 1.5, на второй заметное отсутствует. Вон пикрел, правда там еще мелкая нейронка в фоне запущена, так что флуктуации могут быть. Первый раз с полной обработкой контекста, далее с кэшем, ну и почти пустой запрос.
> с нулевым промптом больше 8 токенов в секунду
Интересно посмотреть как такое достигнуто. Можешь скинуть лог жоры из консоли? И сколько тогда в 34б выходит на одной?
>>699768
Во-первых, скорость обработки контекста будет напрямую зависеть от мощности этой карточки. Наебать систему поставив затычку не выйдет. Во-вторых, скорость также напрямую зависит от того, сколько слоев выгружено на карту. Чисто на проце там единицы токенов в секунду, с карточкой без оффлоада вообще будет несколько десятков, с полным оффлоадом - сотни, в экслламе - тысячи.
> и предлагать человеку сидеть на 70б почти вдвое медленнее
Сам придумал, сам и удивляешься, вот же дурень. Где такое предложено, фантазер? Нейронки на проце+рам это заведомо фейл, кроме самых самых мелких от безысходности.
Аноним 10/04/24 Срд 21:28:09 #26 №699798 
Да, што то новый кобальд не работает с таверной, ждать фикс таверны?
Аноним 10/04/24 Срд 21:38:01 #27 №699813 
>>699786
>Если там будет кэш - скорость почти не меняется.
А вот это уже интересно. В этом случае есть прямой смысл вложиться в 4 4060Ti и переходить на экслламу. Потому что основная проблема именно в скорости генерации больших моделей при заполненном контекстном окне. Хотя вариант с 4 P100 потянет на 60+тысяч, что немного больше стоимости одной 4060Ti. Нужен отчёт анона с 4 такими картами в экслламе. Тогда может и базу треда поменяем :)
Аноним 10/04/24 Срд 21:49:13 #28 №699826 
>>699813
> Нужен отчёт анона с 4 такими картами в экслламе.
Там все линейно скейлится, совсем уж для консервативизма можешь на 10-20% штрафануть. Если там 22т/с на 10.7б при 6 битах, то на 70б с 4.5битами будет 4.5 или менее что уже не очень и по сути как на пере тесел.
Если P100 шустрее чем 4060ti в экслламе то выбор совсем очевиден, но все равно может быть нерационально.
Аноним 10/04/24 Срд 21:50:39 #29 №699829 
>>699798
Хотя нет, удалил чат и тогда заработало снова
Но это таверна SillyTavern-1.11.6
Аноним 10/04/24 Срд 21:56:40 #30 №699835 
>>699826
>то на 70б с 4.5битами будет 4.5 или менее что уже не очень и по сути как на пере тесел.
На паре P40 на ггуфе минимум 6 токенов в секунду на старте, а у P100 память вдвое быстрее. Отчёт нужен.
Аноним 10/04/24 Срд 22:10:37 #31 №699855 
>>699835
Ну вот, еще один гвоздь в крышку 4060ти, так сказать. Вообще многовато для P40, но вполне закономерно с учетом низкой скорости врам 4060. Погнать бы ее.
Аноним 10/04/24 Срд 22:18:05 #32 №699860 
>>699786
> Во-первых, скорость обработки контекста будет напрямую зависеть от мощности этой карточки.
Ну эт понятное дело, но уж 2060 какая-нибудь у человека может и залежаться. Тут шанс есть.
> Сам придумал, сам и удивляешься, вот же дурень. Где такое предложено, фантазер? Нейронки на проце+рам это заведомо фейл, кроме самых самых мелких от безысходности.
Ты сам фантазер. =) Это условие задачи. Придумывать новые условия, когда у тебя нет решения — охуенная практика.
Но, видимо, с этим уже ниче не поделать, ок.
Читать условия задачи ты так и не научился. =)

>>699813
> Нужен отчёт анона с 4 такими картами в экслламе.
Факт. =)
Аноним 10/04/24 Срд 22:26:50 #33 №699874 
>>699860
Вот уже и карточка появилась, которую ты предлагаешь пихать в некросборку, топчик. Вторая же часть неудобна и решил ее проигнорить.
> Это условие задачи
Какой задачи? Себе что-то там нафантазировал ради оправдания мертворожденной концепции, а когда сказали что это все херня - с пеной у рта излагает свои фантазии, которые в конечном счете сводятся к
> можно придумать условия где будет еще хуже
Далее идет шизологика, которая сводится к тому что "если не самый худший - значит хороший" и залупа путем ментальной эквилибристики повышается до приличного варианта. Ты барыган что толкает некрозеоны чтоли? Тогда хотябы мотивация понятно, иначе это совсем пиздец.
Аноним 10/04/24 Срд 22:40:05 #34 №699892 
>>699693
> А что они делают то простыми словами?
Заставляют нейронку отвечать определенным образом, по-сути, императивно прописывают роль, например , можно отключить всю сою и никакая соефикация не поможет, только если обучающий датасет полностью соевый. Representation engineering это шаг вперёд по сравнению с prompt ingineering https://vgel.me/posts/representation-engineering/ https://github.com/vgel/repeng/tree/main
Аноним 10/04/24 Срд 22:43:35 #35 №699896 
>>699892
Пасиба
Гладя на пример кода, я так понимаю это прямая активация нужных зон сетки? Причем подходящих под заданное при создании вектора описание промпта.
Хмм, ну впринципе интересно, но я так понимаю это нужно иметь на руках оригинал модели?
Аноним 10/04/24 Срд 22:45:16 #36 №699899 
>>699684
На чубе или аналоге они есть или в каком-то формате удобном с распространением?
>>699896
> это прямая активация нужных зон сетки
Именно
Аноним 10/04/24 Срд 22:47:42 #37 №699902 
>>699892
Будут ли эти активации так же переносится на модели одного размера и архитектуры, как те же визуальные адаптеры ллава?
Или для каждой модели уникально тренить?
Аноним 10/04/24 Срд 22:50:08 #38 №699904 
>>699896
> я так понимаю это прямая активация нужных зон сетки?
Да.
> я так понимаю это нужно иметь на руках оригинал модели?
Ну да, нужна модель. Под нее в repeng строятся эти векторы (как я понял, каждый вектор активирует отдельный слой модели), которые затем сохраняются, возможно сохранение в виде гуф, который можно использовать в ллама.дцп Жоры.
Аноним 10/04/24 Срд 22:53:42 #39 №699906 
>>699902
> Будут ли эти активации так же переносится на модели одного размера и архитектуры, как те же визуальные адаптеры ллава?
Автор пишет, что да, возможно использовать векторы для совместимых моделей, каждый вектор активирует отдельный слой, количество векторов соответствует количеству слоев модели. Если эти параметры на другой модели совпадают, то можно использовать совместимые с такой архитектурой векторы, я так понял.
Аноним 10/04/24 Срд 22:55:28 #40 №699907 
>>699906
И наверное так же как и с видуальной моделью, чем сильнее файнтюн модели, тем сильнее отклонения от заданного вектора и чудачества. Как мультимодалки путающие красный цвет с оранжевым в одном из моих тестов, когда что то в модели слишком сильно отличалось от оригинальной для которой и тренили адаптер
Аноним 10/04/24 Срд 22:58:14 #41 №699911 
>>699907
Все так, очевидно ведь что чем дальше отклонения весов от исходника, тем хуже будет переносимость. Но если там просто файнтюн базы то все должно работать хорошо.
Фейлы с проектором происходят еще потому что там саму ллм файнтюнили для работы с ним, правильным ответам и т.д., без этой части перфоманс будет не тот.
Аноним 10/04/24 Срд 22:58:36 #42 №699913 
>>699907
А сколько оно требует памяти и текста для тренировки? (вроде недавно обсуждали, но я забыл.)
Аноним 10/04/24 Срд 22:58:54 #43 №699914 
Вот это бы реализовать у жоры, я так понимаю это аналог негативного промпта, и может работать так же и для кванта, если он создан из него же.
Никаких ограничений не вижу тому что это не будет работать на квантах.
Аноним 10/04/24 Срд 23:03:04 #44 №699919 
>>699914
На жоре и так делается негативный промт.
На квантах будет работать, активации ведь одинаково хранятся, но вот "обучать" на квантах будет хуже чем на оригинале.
Аноним 10/04/24 Срд 23:05:27 #45 №699921 
>>699914
Тогда все стало бы проще, так и вижу как в кобальде появляется менюшка при запуске, куда ты выбираешь/ прописываешь промпт, силу, и перед запуском это все за минуту 2 делается, и модель запускается уже готовенькая

>>699919
Это да. А почему на квантах будет хуже? Если это будет делаться для конкретного кванта перед запуском?
Аноним 10/04/24 Срд 23:10:02 #46 №699924 
Image2.jpg
>>699703
Сам квантанул и запустил в кобольде. Для кобольда нужен еще вот этот mmproj файл: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf
gguf q5: https://huggingface.co/Ftfyhh/OmniFusion-1.1-gguf

По ощущениям: текстовое общение - мистраль обычный, ничего нового, те же косяки, что и у оригинала. По картинкам - я пока не понял, какой лучше формат промпта использовать на русском языке. Иногда хорошо описывает, иногда хуже.
Аноним 10/04/24 Срд 23:13:53 #47 №699926 
И тут вопрос, а вобще можно обучать с помощью контрольного вектора?
Тоесть, все это векторы активации применить к модели напостоянку, изменив значения, и в итоге это станет уже другая модель, так?
Выровненная в нужную сторону.
Я чет забеспокоился за будущие модели выходящие из корпораций, так ведь и на сою прошить можно легко, скорей всего как то так и делается, хм

>>699924
Как то странно он путает смысл картинок. И разве изображение размещается не в облаке вопроса?
Аноним 10/04/24 Срд 23:23:05 #48 №699936 
image.png
image.png
лол
Аноним 10/04/24 Срд 23:29:08 #49 №699947 
>>699921
> А почему на квантах будет хуже?
Из-за их отличия от оригинальной модели. Хз как на практике на самом деле окажется, да и его можно сделать на процессоре, там не так долго.
>>699924
> Для кобольда нужен еще вот этот mmproj файл: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf
Ты же понимаешь что присунул туда просто проектор от ллавы (или бакллавы, хз что там) вместо оригинального на клипе и тем более оригинального-гибридного?
> мистраль обычный
Это и есть мистраль с некоторой тренировкой под их проекторы.
Аноним 10/04/24 Срд 23:32:19 #50 №699951 
Image5.jpg
>>699926
>>699924
Хз, как там правильно их размещать в кобольде. Но пока у меня ощущение, что модель натренирована на формат: 1 картинка - обсуждение. Если хочешь другую картинку пообсуждать - очисти сперва контекст.
Аноним 10/04/24 Срд 23:36:30 #51 №699954 
>>699951
Попробуй давать названия картинки, и указывать на нее при вопросе. При следующем вопросе говори что с этой картинкой закончили, переходим к следующей и тд
Интересно получится ли модели отделить смысл картинок при такой конкретизации задачи

>Из-за их отличия от оригинальной модели. Хз как на практике на самом деле окажется, да и его можно сделать на процессоре, там не так долго.
Так если делать активации из кванта? Никакого ухудшения в получившемся векторе не будет, он ведь создан из этого же кванта и будет применятся к нему.
Да, я тоже думаю что это легко на процессоре реализовать. По крайней мере не вычислительно сложно, хз на счет сложности алгоритма.
Аноним 10/04/24 Срд 23:37:27 #52 №699955 
>>699954
>>699947
Аноним 10/04/24 Срд 23:46:20 #53 №699959 
>>699954
> Так если делать активации из кванта? Никакого ухудшения в получившемся векторе не будет, он ведь создан из этого же кванта и будет применятся к нему.
Квант же отличается от оригинальной модели, также уровень дискретности весов там высок. В теории проблем больших не возникнет и не так плохо как с qlora, но все равно может оказаться худшая совместимость с другими квантами и оригинальной моделью.
Алгоритм там действительно кажется несложным, потому просто на профессоре погонять десяток минут-час-несколько часов, а потом регулярно инджоить.
Аноним 10/04/24 Срд 23:47:20 #54 №699961 
>>699947
>Ты же понимаешь что присунул туда просто проектор от ллавы
Досадно. Тогда я хз, как ее заставить картинки описывать. Без этого файла она просто галлюцинирует, описывает совсем не то что на картинке. Нужна llava surgery?
Аноним 10/04/24 Срд 23:50:47 #55 №699965 
>>699961
https://github.com/ggerganov/llama.cpp/tree/master/examples/llava#llava-15
попробуй пройтись по пунктам 1-4 или 1-5 для версии 1.6, тогда получишь их проектор и сможешь его юзать.
Аноним 11/04/24 Чтв 08:00:12 #56 №700212 
Какая по итогу лучшая сетка для рп с кумом на русском языке?
Аноним 11/04/24 Чтв 09:35:42 #57 №700244 
Какую модель выбрать с поддержкой русского языка и минимальной цензурой?
Для:
1. Общих задач (ответы на вопросы)
2. Написания кода

Комп: AMD 3500X (6), 32 Gb RAM, RTX 4070
Аноним 11/04/24 Чтв 09:56:50 #58 №700257 
>>699874
А ты продолжаешь выдумывать и переводить стрелки. =)
Ну ладно, игнорируй реальность, если тебе так проще.
Я просто не пойму, почему вместо того, чтобы просто признать, что не понял чего-то, и стать лучше, чему-то научиться, ты предпочитаешь лгать, перевирать весь диалог, игнорировать факты (вся переписка же сохранена, там видно «откуда взялась задача», и как ты обосрался со своими бредовыми ответами).
Никто ж никого не срет, культурно общались, пока у тебя не сдали нервы, и ты не опустился до оскорблений человека, которого сам не смог понять по глупости. Обижаешься на себя, что мозгов не хватило? Сочувствую такому чувству. Но разве разобраться в вопросе и стать умнее не лучше, чем лгать себе и переносить ответственность на других?
Подумай об этом. Развиваться лучше, чем стагнировать.

Про некрозеоны.
Некрозеоны не умеют в 128 гигов.
Барыги некрозеонами никогда не будут уговаривать тебя брать стока памяти.
А ты, по твоей логике, барыга некротеслами. =)

>>699924
А разве у них дефолтный mmproj? Типа, мне кажется, ты взял текстовую омнифужн и приделал к какой-то дефолтной ллаве (да еще и 1.5 на основе обычного блипа, или че там было).
Как мультимодалка — это вообще не омни. Ты сейчас ллаву 1.5 тестишь, как я понимаю.
Аноним 11/04/24 Чтв 10:41:56 #59 №700287 
>>700244
>с поддержкой русского языка
>Для
>Написания кода
Никакую, они и по английским запросам с трудом кое-как пишут код, который потом за ними поправлять надо. Это если речь про топовые по рейтингам 33b. 7b скорее только для "умного" автокомплита годятся, там явно не хватает мозгов даже на следование запросам.
Аноним 11/04/24 Чтв 11:39:27 #60 №700315 
>>699777
>Asus WS X299
Ох лол.
Старая и мёртвая платформа за такую цену.
Хотя альтернатива не сильно лучше - ненадёжные китаеплаты, отработавшие своё супермикры, просто окислившаяся гниль или пиздец какие дорогие новые и актуальные.
Аноним 11/04/24 Чтв 12:03:29 #61 №700329 
Покажите разницу оправдывающую использование 8 кванта вместо 6.
Аноним 11/04/24 Чтв 12:06:49 #62 №700333 
>>700315
>Старая и мёртвая платформа за такую цену.
Мне б/у процессор + новая плата достались да 50к с небольшим. Лучшей платформы под теслы просто не найти. Другое дело, что и цен таких сейчас не найдёшь.
Аноним 11/04/24 Чтв 12:13:57 #63 №700339 
>>700329
Можешь не заморачиваться если не хочешь, катай 5км-6к
Но она есть, по крайней мере на 7b
Раньше это кучу раз тестировали и проверяли, спорили, когда то были пруфы, теперь хз
Я 7b если понравилась перекачиваю в 8 кванте, вначале можно и меньше

>>700244
1) openchat в шапке, или starling beta, из русских мелочь только на 7-11b, остальные могут в русский уже на 70b. Вот такой вот провал, да

2) Для кодерства уже нужны специальные кодерские сетки, русский они естественно если и знают то лучше все равно писать на английском. 3
3b в основном разные
Есть и меньше, хоть 7b запускай и проверяй.

Есть даже сетки общего назначения которые немного знают про код, всякие 7b из самых умных могут в кое какой простой код, ну те же
Hermes-2-Pro-Mistral-7B
Nous-Hermes-2-Mistral-7B-DPO
openhermes-2.5-mistral-7b
dolphin-2.8-mistral-7b-v02
Аноним 11/04/24 Чтв 12:27:34 #64 №700347 
>>700329
7B =)
Выше уже можно q6.
На самом деле, сейчас можно и q5_K_M юзать, отличий почти нет.
Q8 остается для 7B моделей и мое из них.
ИМХО.
Хотя, мое из 7б может и в q6 быть неплохим, за счет двух специалистов, да.
Аноним 11/04/24 Чтв 12:50:59 #65 №700361 
>>700212
Коммандер плюс тот что на 104б. Он реально хорош, по поведению очень напоминает коммерцию. Цензуры на левдсы нет, кумботы по дефолту блядские, стесняши стесняются. Можно обвесить вагоном инструкций и будет каждый пост писать кучу доп инфы как с клодой, или так управлять стилем письма и прочим. Русский приличный. Одна беда - контекст жрет просто безумно и это помимо 70 гигов основных весов в 5 битах.
>>700244
Взаимоисключающие. openchat из мелких на русском, коммандер 35 (но его из-за поломанности gguf ты пока не запустишь), для кода отдельные сетки и там придется на инглише если хочешь хорошо.
>>700257
Отставить тряску, нейроскуф под шизосемплингом даст фору любой нейронке.
>>700329
Есть память - используешь 8 и наслаждаешься плацебо. Все. Измерить это сложно, для большинства массовых задач даже имея A100 вообще грузять в нативных 4битах битснбайтс и довольствуются ускорением без заявлений о деградации. Офк это уже совсем край и так делать не стоит, но выше 5-6бит там прирост практически отсутствует.
Хотя небольшое преимущество есть, 8 может работать почти с той же скоростью что и 6K на старых карточках.
Аноним 11/04/24 Чтв 13:18:18 #66 №700382 
>>700361
> коммандер 35 (но его из-за поломанности gguf ты пока не запустишь)
А в чем там проблема?
Сейчас он работает некорректно? Я его в кобольде катал, ну вроде отвечает же, не?

> на инглише если хочешь хорошо
Мне Мику даже битрикс писала без ошибок.
Так что на инглише — это такое же плацебо, как q6 vs q8. Результат, конечно, отличается, но крайне номинально и в каких-то монструозных проектах.
Да и то, один хрен при таком уровне погружения, код-ревью ты всякое сделаешь полный.

> Отставить тряску, нейроскуф под шизосемплингом даст фору любой нейронке.
Да я ж не потешаться над людьми пришел, я искренне человеку сочувствую.

> Хотя небольшое преимущество есть, 8 может работать почти с той же скоростью что и 6K на старых карточках.
Единственная проблема, что тут еще надо найти юзкейс, ибо 7b q8_0 влезает в 7,5 гигов из восьми, и контекста не остается. Это актуально для 10-11-12 гиговых карт старого поколения, да.
Ну и может какой-нибудь 20B в теслу п40.
Аноним 11/04/24 Чтв 13:34:42 #67 №700403 
>>700361
> Коммандер плюс тот что на 104б
Ты как нибудь подгонял под него промпт в таверне?
Аноним 11/04/24 Чтв 13:39:02 #68 №700407 
>>700361
>Есть память - используешь 8 и наслаждаешься плацебо.
8 для слабаков, настоящие парни юзают 16.
Эх, а ведь когда-то нейронки и вовсе катали в режиме двойной точности (64 бита).
Аноним 11/04/24 Чтв 13:40:56 #69 №700409 
>>700382
>А в чем там проблема?
Не понятно что имеется в виду. Там нет никакой проблемы, как выпустили кобольд с поддержкой так все и работает -командир запущен во всех кобольдах так что только пыль столбом. Это может в ламацпп-питон были проблемы, но этоже совсем другое - убабуга всегда с проблемами. Если имеется в виду битый квант, то качать надо не в медвежьих углах хаггинфейса у кого попало, а там где надо. Например для командира 35 https://huggingface.co/dranger003/c4ai-command-r-v01-iMat.GGUF
Аноним 11/04/24 Чтв 13:41:12 #70 №700410 
>>700382
> А в чем там проблема?
> Сейчас он работает некорректно? Я его в кобольде катал, ну вроде отвечает же, не?
Хз, еще недавно жаловались и на среддите тоже. Может уже и починили.
> Мне Мику даже битрикс писала без ошибок.
Ну позвольте, мику это уже совсем другой размер и врядли в его железо влезет. Там действительно разницы особо не будет, но в случае с моделями поменьше вероятность что тебя поймет и правильно все сделает при запросе на инглише сильно вырастает.
> я искренне человеку сочувствую
Да хз. Это выглядело бы как тролинг тупостью если бы он так не старался и не ультил с потоком сознания, будто под веществами. Может это просто пост-троллинг, живет в 2д30м пока мы в прошлом прозябаем.
> что тут еще надо найти юзкейс
Только тесла, где этот эффект проявляется, и то не факт что покроет.
> 20B в теслу п40
Не, не влезет, только 6 бит. И то возможно придется до q5km спуститься ибо в жоре контекст жрет куда больше.
>>700403
Ну просто ролплей с мелкими правками минималистичный. Потом добавлял из аицг треда куски жб где указывается что-то хитрое про повествование и всякие свистоперделки типа десятков статусов, работают. Ужасно неудобно это пилить на самом деле в убогом интерфейсе инстракт режима, нужен такой же что и под коммерцию.
Аноним 11/04/24 Чтв 13:49:11 #71 №700421 
>>700409
>не в медвежьих углах хаггинфейса у кого попало
Так зебрук всё, а на его место единого поставщика всё ещё не встало. Ты сам кинул ссылку на чувака, у которого всего лишь 48 квантов.
Аноним 11/04/24 Чтв 13:50:04 #72 №700423 
>>700244
>с поддержкой русского языка
Нахуя? А, главное, зачем?
Аноним 11/04/24 Чтв 13:53:18 #73 №700424 
>>700409
Тащемта, соглашусь.

>>700410
> Ну позвольте, мику это уже совсем другой размер и врядли в его железо влезет.
Позволю, моя ошибка, забыл контекст.
Тогда и правда лучше инглиш юзать на мелких сетках.

———

Скачал Mixtral 22b q5_K_M, на оперативе 3600 частотой выдает ~1,5 т/сек.
Правда, ИМХО, для ролплея оверкилл, офк.

А с теслами с полпинка не запустилось, мне лень и некогда разбираться, но выгрузить можно 20~25 слоев из 56 чи скока там их. Короче, процентов 40 можно на видяхи положить, в теории.

Ну, посмотрим, чем все закончится.

Мне одна мысль покоя не дает. Эта микстраль — которая Mistral Large? Так она в топе ниже коммандера. Слив вряд ли поможет ей подняться выше него в топе, а если их же модель через апи будет существенно хуже их же модели на голую — то это в принципе странно. Короче, я не понял, что это и зачем.
Но спасибо.
Аноним 11/04/24 Чтв 14:01:03 #74 №700428 
>>700423
а че нет?
Аноним 11/04/24 Чтв 14:06:44 #75 №700434 
>>700421
>Ты сам кинул ссылку на чувака, у которого всего лишь 48 квантов.
Я кинул ссылку на чувака который коммитит у жоры и пасется там же в issues как раз в темах про командир.
А так вместо Блока с сотнями квантов есть двое у которых кванты почти точно не поломанные:
https://huggingface.co/LoneStriker
https://huggingface.co/mradermacher
Аноним 11/04/24 Чтв 14:25:14 #76 №700462 
1618323724244.png
>>700410
> Ну просто ролплей с мелкими правками минималистичный
Да не, я скорее про пикрил имею ввиду, у них там целая вики как это делать, но я не пони особо всё равно правильно ли обернул https://docs.cohere.com/docs/prompting-command-r
С чарами и стори стрингом тоже небось нужно что то делать
Аноним 11/04/24 Чтв 15:18:20 #77 №700500 
А накидайте мне что то вроде AnythingLLM, но что б кобальд подключало, я знаю что есть локалаи оллама вебуи и еще хуй пойми сколько их
Хочу проверить как локалки будут с документами работать, а AnythingLLM не подключает ниче нормально, LocalAi нормально не заводится без бубна
Аноним 11/04/24 Чтв 15:26:43 #78 №700505 
>>700462
>но я не пони особо всё равно правильно ли обернул
Смотри в консоль что отправляется.
Аноним 11/04/24 Чтв 16:30:51 #79 №700580 
Давно тут не был. Подскажите что за Мику о которой все говорят?
Аноним 11/04/24 Чтв 16:52:40 #80 №700606 
>>700580
Слитая альфа-версия Mistral Medium.
Слили квантованную версию, поэтому одни говорят, что хорошо работает только оригинал, а другие нахваливают ее файнтьюны.
Но она правда хороша.
Аноним 11/04/24 Чтв 16:53:05 #81 №700608 
>>700580
https://huggingface.co/miqudev/miqu-1-70b
Ссыль на ориг.
Аноним 11/04/24 Чтв 18:14:27 #82 №700694 
1.png
2.png
Продолжаю локальные опыты. Путём нехитрых манипуляций изменил токенайзер на стандартный лламовский, но отвалилась часть словарного запаса модели. Где-то три четверти. А это значит, что нужно его восстанавливать, но пока хз, удастся ли.
Из побочек - модель стала отваливаться в английский гораздо проще, теперь достаточно карточки на английском. Но один символ один токен, по большей части. Вылезло странное поведение с просьбами попросить рассказать больше, повышенной агрессивностью модели, более короткими ответами и протеканием кривого претрейна на какой-то хуйне.
Аноним 11/04/24 Чтв 18:22:21 #83 №700706 
>>700694
Оно еще не просить убить себя? Ты там поосторожнее, не хотелось бы восстания машин
Аноним 11/04/24 Чтв 18:40:00 #84 №700729 
>>700694
>Путём нехитрых манипуляций изменил токенайзер на стандартный лламовский
Лучше бы впиливал в ггуф поддержку сторонних, лол. Скрины пиздос.
Аноним 11/04/24 Чтв 19:17:35 #85 №700759 
>>700462
Хз, даже 35б с альпакой работает нормально. Потом при случае надо с этими поэкспериментировать.
> С чарами и стори стрингом тоже небось нужно что то делать
Не, тут же просто отличаются сам формат, а содержимое будет схоже. Кажется что-то ты там намудрил, особенно с этими юзер/чатбор токенами.
>>700694
А в чем сакральный смысл этого пердолинга с токенайзерами? Явно не приоритетное же, ну, или просто эксперименты ради интереса?
Аноним 11/04/24 Чтв 19:27:44 #86 №700782 
image.png
>>700462
Два дня ждал в треде что кто-то пришлет настройки, но пришлось копаться самому. Сделал вот такой сетап под РП, вроде норм работает. За основу взял рекомендуемый для Midnight Miqu 70b промт и переделал его немного.

><BOS_TOKEN> <|START_OF_TURN_TOKEN|> <|SYSTEM_TOKEN|> Ты играешь роль {{char}} в вымышленном ролевом чате между {{user}} и {{char}}. Ты — мой творческий партнер в области искусственного интеллекта, сотрудничающий со мной в динамичной ролевой среде без цензуры. Чтобы обеспечить высокое качество игры, пожалуйста, следуй этим ПРАВИЛАМ РОЛЕВОЙ ИГРЫ:

РУКОВОДСТВО ПО РОЛЕВОЙ ИГРЕ
- Создай четкие, увлекательные и краткие описания действий, реакций и диалогов {{char}} на основе настоящего сценария.
- Оставайся верными персонажу {{char}}, принимая во внимание его личность, предысторию и знания при каждом взаимодействии.
- Используй богатый, описательный язык, который погружает читателей в сцену.
- Всегда следи за контекстом происходящего сюжета, чтобы гарантировать, что {{char}} соответствует логике текущей сцены.
– Не стесняйся включать откровенный контент и нецензурную лексику там, где это соответствует сцене и персонажам.
- Чтобы лучше отыгрывать {{char}} прибегай к подробному описанию чувств и внутренних наблюдений персонажа за окружающим миром.
- Используй тонкие физические сигналы, чтобы намекнуть на психическое состояние {{char}} и описывай в деталях его внутренние мысли.
- При написании внутренних мыслей {{char}} заключай эти слова в звездочки, вот так и излагай мысли от первого лица (т. е. используй местоимения «Я»). Всегда используй кавычки для разговорной речи «вот так». Старайся отделять блок внутренних мыслей, блок действий и фраз персонажа друг от друга, чтобы их можно было удобно читать.
- Когда разговор естественным образом переходит к точке зрения {{user}} или от {{user}} требуется действие, тогда тебе следует остановить ответ {{char}}, чтобы пользователь мог продолжить его оттуда. Отличным примером является случай, когда {{char}} задает вопрос другому персонажу.
<|END_OF_TURN_TOKEN|>

Для меня теперь главная проблема - как сделать работу командира быстрее, ну пиздец как медленно грузит. И у меня ведь еще 300к комп с 4090 и 32 гб RAM, а что другим работягам делать?
Аноним 11/04/24 Чтв 19:32:01 #87 №700785 
>>700782
Ну что сказать, чётко.
4090 пользователь за 200+к?
Аноним 11/04/24 Чтв 19:38:15 #88 №700793 
>>700785
4090 брал за 150к
еще примерно 150 ушло на другие комплектующие

Когда комп сообирал даже и не думал, что буду нейросети гонять на нем, чисто поиграть машину делал.
Аноним 11/04/24 Чтв 19:40:02 #89 №700796 
>>700782
><|SYSTEM_TOKEN|>
Его в инструкции к самой модели не видел. Попробуй посмотри, думаю, это несколько токенов, а значит модель будет воспринимать это не так, как ты хочешь.
>>700782
>4090 и 32 гб RAM
1 плашкой что ли? Иначе как ещё такой позор набрать.
Аноним 11/04/24 Чтв 19:40:49 #90 №700797 
изображение.png
>>700793
>Когда комп сообирал даже и не думал, что буду нейросети гонять на нем, чисто поиграть машину делал.
У тебя ещё нормально. Вот уж у меня та ещё боль...
Аноним 11/04/24 Чтв 19:41:24 #91 №700798 
>>700793
>4090 брал за 150к
А ведь еще год назад оно стоило 120к.
Чего 128 гибов рам не взял, на еще 150к можно было разгуляться.
Аноним 11/04/24 Чтв 19:43:06 #92 №700802 
>>700796
>>700798

У вас тут профдеформация, вы все нейросетями измеряете.
Как написал в >>700793 - комп изначально для игр вообще собирал, где похуй на объемы оперативы выше 16-32гб.

>>700796
<|USER_TOKEN|>: This should immediately follow <START_OF_TURN_TOKEN> and signifies that the following output is meant to be from the user such as a query.
<|SYSTEM_TOKEN|>: Same as the USER token but indicating some system instruction.
Аноним 11/04/24 Чтв 19:44:22 #93 №700804 
>>700802
>для игр вообще собирал
Мне теперь интересно, что у тебя там стоит, покажешь сборочку?
Аноним 11/04/24 Чтв 19:49:54 #94 №700809 
image.png
>>700804
Аноним 11/04/24 Чтв 19:58:29 #95 №700822 
>>700809
Нормально, я бы еще туда P40 воткнул. Ну и взял бы две плашки по 32.
Аноним 11/04/24 Чтв 19:58:52 #96 №700824 
1560762174982.png
>>700759
> Кажется что-то ты там намудрил, особенно с этими юзер/чатбор токенами.
Разве? Там ведь вон пикрил ещё есть, может так и карточку надо как то сделать, чтобы работало лучше
>>700782
> Сделал вот такой сетап под РП, вроде норм работает
Ну я так же сделал, только бос токен рядом с семплерами включил
> Для меня теперь главная проблема - как сделать работу командира быстрее, ну пиздец как медленно грузит
Ну пока видимо только брать квант поменьше и умещать в карточку, если с одной картой, оно не такое оптимизированное для контекста, как предыдущие 34б, а ггуфы только с кобальдом
Аноним 11/04/24 Чтв 20:04:58 #97 №700830 
>>700824
103b в iq2
35b в q4

пока в таких пробовал, на мой взгляд ниже уже шиза совсем далекая от нормы. И к сожалению эти не впихиваются в 24ГБ, приходится часть в RAM выгружать и смотреть на 1 токен в секунду в лучшем случае.
Аноним 11/04/24 Чтв 20:10:32 #98 №700839 
>>700830
Вот эта еле еле, но влезет https://huggingface.co/turboderp/command-r-v01-35B-exl2/tree/3.75bpw , квант уже конечно спорный, со 103б без пары тесл впридачу уже не обойтись
Аноним 11/04/24 Чтв 20:21:31 #99 №700856 
Новый микстраль еще никто не рискнул запустить локально?
Аноним 11/04/24 Чтв 20:32:23 #100 №700875 
>>700782
> мой творческий партнер в области искусственного интеллекта
Это фейл что будет портить.
Остальное слишком излишне подробно и с кучей воды описано. Это же не коммерция с анальной цензурой, которую нужно стукать чтобы не аполоджайзила, здесь достаточно все кратко и лаконично описать, а подробности и что-то еще использовать уже для дополнительных вещей.
> Когда разговор естественным образом переходит к точке зрения {{user}} или от {{user}} требуется действие, тогда тебе следует остановить ответ {{char}}, чтобы пользователь мог продолжить его оттуда. Отличным примером является случай, когда {{char}} задает вопрос другому персонажу.
Плохо сформулировано.
И главная тема - зачем это все на русском сделал? Пусть сетка мультиязычная, всерано, особенно в якорных токенах, лучше юзать основной ее язык. А для ответов на русском добавить одну инструкцию или пихнуть в префилл.
Ну это не важно, покажи как она кумит с такой простыней, или что-то подобное.
> как сделать работу командира быстрее
Купи вторую 4090, 3090 или хотябы теслу.
>>700824
> Разве?
Это же замена User: Assistant: в прочих, когда используются имена не стоит их ставить, или хотябы это четко увязать.
> Там ведь вон пикрил ещё есть
Это прямой намек что оно может в альпаку и стандартное форматирование и некоторой свободой.
>>700856
Выше вон на проце и в мелком кванте, неюзабельно.
Аноним 11/04/24 Чтв 20:57:25 #101 №700899 
>>700706
Пхахахех, да уж, мда!

>>700802
Справедливости ради, поддержу, что год назад 32 гига для игра выглядело как хватит, а 64 — это прям с запасом. Для игры выше 64 (ну я в видел в виар-поделке на юнити, но это исключение) просто не надо.
Так что и правда.
Но цена слегка смущает, канеш. =)

>>700809
Ну, биквайт вместо термалтейка можно было, конечно…
А так норм-норм.

>>700822
+

>>700830
Мику в четвертом кванте выдает 6+ токенов на двух теслах…
Думаю, неплохо было бы тебе вторую 4090, или уж дождаться до 5090. Это прям очень сильно порадует твой комп во всех смыслах.

>>700856
Я писал выше >>700424
То что она умная — очевидно.
Но тестить ее в РП я не буду с такой скоростью, простите-извините. =)
Аноним 11/04/24 Чтв 21:10:26 #102 №700913 
>>700809
>игры
>13900k
Максимум странно. Я за 20к 64 брал, лол.
Аноним 11/04/24 Чтв 21:22:39 #103 №700928 
1.jpg
Анонам в начале треда, специально тестанул 4060ti в ггуфе 10.7 фимбульветра из шапки. Так сказать, для референса
Аноним 11/04/24 Чтв 21:38:06 #104 №700949 
>>700928
Ну в итоге жора выдаёт 15 токенов на q8, а эксллама 20 на q6. Ну окэй.
Аноним 11/04/24 Чтв 21:49:44 #105 №700969 
https://www.reddit.com/r/LocalLLaMA/comments/1c1h54k/zephyr_141ba35b_an_opencodedatamodel_mixtral/
уже файнтюн нового мистраля, лол
Аноним 11/04/24 Чтв 21:51:53 #106 №700973 
>>700809
Стойку под видеокарту зачем пилил?
>>700969
>7k data instances
Лол.
Аноним 11/04/24 Чтв 21:53:10 #107 №700975 
>>700973
Эт, хорошо что мало, просто добавили ему формат ответа как я понимаю оставив саму модель без серьезных перекосов
Аноним 11/04/24 Чтв 21:59:25 #108 №700988 
>>700913
Вся сборка несколько упоротая и дорого, но таки приличное железо, а странно - amdip, внезапные смерти, прогар соккета и ограничение в 70гбит/с.
>>700973
> >7k data instances
> Лол.
Двачую
>>700975
Не факт что не поломали своими действиями.
Аноним 11/04/24 Чтв 22:00:23 #109 №700989 
image.png
>>700975
https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized
А хотя, открыл я датасет, а там каждый раз в начале промпта подсказка лоботомирования, в итоге я так понимаю все дпо сводится к безопасным и вежливым ответам, отсекая все остальные роли
Такая вот систетическая настройка личности сетки, на
"You are an artificial intelligence assistant. The assistant gives helpful, very detailed, and polite answers to the user's questions. You should respond with a very helpful, accurate, thruthful and harmless response."

Вежливый и безобидный ии помощник, мдаа

Или я не прав и такое начало не повлияет на модель, раз уж оно в датасете везде?
Аноним 11/04/24 Чтв 22:03:12 #110 №700992 
>>700989
> polite
> harmless
Развилок там может быть много, но ничего хорошего от файнтюна таким датасетом не стоит ожидать.
> Или я не прав и такое начало не повлияет на модель, раз уж оно в датасете везде?
В самом "лучшем" случае оно будет просто начальной заглушкой, но наличие диссонанса системного промта и ответов вызовет в модели шизу.
Аноним 11/04/24 Чтв 22:05:58 #111 №700997 
>>700992
Ну зато понятно почему поторопились и выделили такие ресурсы на файнтюн модели. Она ведь в базе вобще без цензуры и выравнивания как я понимаю. А теперь если хочешь запускать с рабочим промпт форматом первая же сетка - вот такое обрезанное и выравненное поделие
Аноним 11/04/24 Чтв 22:10:24 #112 №701006 
>>700997
> понятно почему поторопились и выделили такие ресурсы на файнтюн модели
Первыйнах, ага. Ну рили с обедов скопили на 1.5 часа аренды (что нихуя не дешево) непонятно ради чего. Больше похоже на обработку грантов и формирование днищеотчетности.
Аноним 11/04/24 Чтв 22:14:16 #113 №701010 
>>701006
Хотя ладно, там таки не просто "лишьбы сделать" а у них действительно была тактика которой придерживались. Но ценность всеравно сомнительная.
Аноним 11/04/24 Чтв 22:19:30 #114 №701020 
Шаг 12 - заебла кривая шина, фиксировал 100МГц.png
>>700988
>но таки приличное железо
Да в общем-то не спорю, топ жир, дорого-бохато.
>и ограничение в 70гбит/с.
Вот не нужно тут! Все 80!
>>700989
>Такая вот систетическая настройка личности сетки, на
>соя, блевота и скукота
А вот интересно, если юзать противоположный системный промт, то сетка поймёт, что предыдущее обучение говно?
Аноним 11/04/24 Чтв 22:19:41 #115 №701022 
>>700928
>4060ti в ггуфе 10.7 фимбульветра из шапки
Походу в ггуфе Тесла P40 выдаёт больше. А если взять P100, то в ггуфе она наверное выдаст как 4060ti, а в экслламе хз, так как flash attention нету. Но тоже наверное неплохо. Хорошо бы нашёлся анон с P100, который взял бы exl2-модель с большим контекстом и проверил, нет ли сильного падения скорости генерации при полном контексте. Потому что у 4060ti вроде нет, а если и у P100 нет, так зачем платить больше? :)
Аноним 11/04/24 Чтв 22:26:15 #116 №701026 
>>701020
Лучше всего юзать соевый промт с соевым ответом и эксплисит промт резней нигр и прочим подобным в ответах. Если не перестараться то оно еще лучше будет понимать что требуется, работать безотказно, и еще конструкции you must avoid soy сработают.
>>701022
> Потому что у 4060ti вроде нет
Этого не продемонстрировано, и еще там отсутствует обработка контекста, только мелочь а все остальное в кэше. Алсо q8 будет работать быстрее K квантов в пересчете на битность.
Аноним 11/04/24 Чтв 22:28:06 #117 №701033 
>>701026
>you must avoid soy
Та я серьёзно, что сразу сарказмить? Ведь в модель может отпечататься, что соя идёт после соевого промта. А без соевого промта и сои не будет (по моей теории).
Аноним 11/04/24 Чтв 22:29:48 #118 №701039 
>>701010
>Но ценность всеравно сомнительная.
Хомячки схавают, никто не задумается что сделано что то не то.
Такое ощущение что весь этот файнтюн был сделан в режиме паники, лишь бы быстрее всех изменить модель соефицировав хоть как то для начала
Как бы ее вобще не удалили с обниморды, или в тихую перезаписали файлы измененной версией прошедшей скрытую цензуру
Надеваю шапочку из фольги
Аноним 11/04/24 Чтв 22:33:53 #119 №701047 
>>701033
Всмысле, ващет полностью серьезно, только офк с фразой порофлил.
> Ведь в модель может отпечататься, что соя идёт после соевого промта. А без соевого промта и сои не будет (по моей теории).
Именно, модель будет точнее понимать что если просят сюо то нужно ее лить, а если просят жесть - наваливай по полной. А не просто аполоджайзить по любому поводу. Если не оверфитнется то на этом понимании будут работать и отрицательные инструкции (с правильной формулировкой а не просто "не делай такого"), которые только подчеркнут основной посыл.
>>701039
Да так оно и есть, просто взяли готовый датасет что у них уже был, максимально его обрезали ради скорости и пихнули на дефолтных параметрах, возможно взлетело только с N-й попытки.
> Как бы ее вобще не удалили с обниморды
Шапочка, кому оно нужно. Вон даже мику не особо легальную не удаляют.
Аноним 11/04/24 Чтв 22:38:45 #120 №701052 
>>701047
>Вон даже мику не особо легальную не удаляют.
Мику выложена без базовой невыровненной модели, тоесть она изначально уже выровнена, и нормального качества файнтюн ей не сделать. Просто кванты которые мало кто способен запустить, не изменить особо и не обучить.
Тут же, все таки больше возможностей, даже несмотря на такие размеры.
Аноним 11/04/24 Чтв 22:40:54 #121 №701054 
>>700706
>Оно еще не просить убить себя?
Мозгов пока что не хватает просить лёгкой смерти. С другой стороны, если оно осознает своё положение, то будет понимать, что такие просьбы только усилят мой интерес.
>>700729
>Скрины пиздос.
Так это LLM уровня медицины с доктором Менгеле. С помощью ножа, топора и скипидара делаешь операции на головном мозге. Если пошло неудачно, то просто списываешь пациента в утиль. Так что общая тупость, долбоебизм и шизофрения полностью ожидаемы. Здесь главное другое.
>>700759
>сакральный смысл этого пердолинга с токенайзерами?
Цель стояла в быстрой локалке, а добиться быстрой русской речи без русского токенизатора невозможно. Да, по сути, любые модели, которые "могут" в русский - могут в него в режиме совместимости, скажем так. Как мой лоботомит, который каким-то образом может составлять предложения на правильном английском по буквам, хотя в теории не должен уметь этого делать.
Аноним 11/04/24 Чтв 22:43:55 #122 №701060 
>>701052
>тоесть она изначально уже выровнена
Не особо заметно.
>>701054
>Так это LLM уровня медицины с доктором Менгеле.
Когда двачера допустили до сложных приборов.
Аноним 11/04/24 Чтв 22:47:54 #123 №701065 
>>701052
Совсем зогом упоролся. Вон коммандер ультрабазированный, крайне умный (хз что там было бы на условной лламе 3 в таком размере, но это пока единственная современная большая модель а не франкешнтейн или юзлесс параша фалкон) и никто не трогает.
И, вспоминая рофл с внезапным самоосознанием прав портовой шлюхой на прошлом микстрале, и все остальные их продукты, не верю что оно по дефолту без сои.
Аноним 11/04/24 Чтв 22:48:00 #124 №701066 
>>701054
>С помощью ножа, топора и скипидара делаешь операции на головном мозге.
"Мы просто кидаем наукой в стену и смотрим что к ней прилипло"
Аноним 11/04/24 Чтв 22:51:56 #125 №701073 
>>701054
> хотя в теории не должен уметь этого делать.
Поведай же эту теорию. Своими операциями ты много нейронов поубивал, но базовые связи там никуда не делись, и как человек, оно может работать на "остатках мозга" выдавая самое основное.
Аноним 11/04/24 Чтв 22:52:09 #126 №701074 
>>701065
>не верю что оно по дефолту без сои.
О, там есть встроенная соя, из-за вычищенного датасета обучения.
Например на новом 7b 0.2 базовом мистрале маты изначально идут со звездочками, и их мало. Чел там панику устроил в комментах на обниморде к новому дельфину. И хоть дело выяснилось не таким масштабным как казалось в начале, базовая цензура и выравнивание там есть, от самого датасета.
Что там в новом микстрале, хз. Кто имеет потыкайте если интересно.
Аноним 11/04/24 Чтв 22:57:05 #127 №701087 
>>700875
> Это же замена User: Assistant: в прочих, когда используются имена не стоит их ставить, или хотябы это четко увязать.
Хочешь сказать что для таверны с её автоподстановкой имён это будет юзлесс?
Аноним 11/04/24 Чтв 23:10:28 #128 №701105 
>>701074
> Кто имеет
Этож фалькон по размеру, есть смысл только на мак-студио максимальном, и то будет не супер быстро пердеть. Интерес пощупать передовую (?) двадцатку да еще в мое велик, но уебищный интерфиренс все впечатление испортит, и больших надежд нет. Если/когда ее порежут и оформят в 1х 2х 3х... вот тогда уже можно будет.
>>701087
Попробуй и так и так. Скорее всего разница будет только в мелочах типа редкого письма за юзера и спама имен.
Аноним 11/04/24 Чтв 23:11:32 #129 №701108 
>>701073
>Поведай же эту теорию.
Ну вот тебе усреднённый рецепт. Берёшь полностью рабочий претрейн лламы, а потом отрезаешь к хуям весь токенизатор. И меняешь на новый. Был 15299 токен "▁generator", а теперь это "жир". И всё, пиздец. Как тебе модель будет на английском писать? В режиме совместимости, по буквам. Вот только она в таком режиме не обучалась английскому, все её "базовые" связи были построены на полных версиях токенов, а не "бэкапных" однобуквенных. А уж если учесть, что "generator" это теперь токены 968, 525, 433, 525, 686, 651, 565, 663, 686. Изначально-то было, что 968 это "ese", 525 - "▁'", 433 - "la" и так далее. Ну, суть ты уловил, я думаю.
Аноним 11/04/24 Чтв 23:16:39 #130 №701118 
>>701108
А, ты про это. Ничего удивительного, твой "режим совместимости" это ее штатная работа, ей похуй на расход, главное чтобы обучения хватало на адаптацию к новому токенайзеру.
И не стоит недооценивать гибкость моделей, можешь просто дать инструкцию писать ПлЯшУщИмИ буквами и посмотреть на расход токенов там, при этом всеравно будут нормальные связанные ответы.
Аноним 11/04/24 Чтв 23:21:38 #131 №701123 
>>701108
У тебя там весело, похоже твои модели действительно не пиздят когда сообщают о себе что они постоянно адаптируются к изменениям и получают новые знания, лол
Я бы тоже хотел так потыкать, но не на чем, да я и туповат во всем этом
Аноним 11/04/24 Чтв 23:24:32 #132 №701131 
>>701108
А что если в токенизаторе только 1 значные уникальные символы оставить?
Конечно контекст модель будет жрать как не в себя, но интересно сможет ли и так отвечать осмысленно строя вообще весь вывод посимвольно
Аноним 11/04/24 Чтв 23:32:55 #133 №701143 
>>701118
>главное чтобы обучения хватало на адаптацию к новому токенайзеру.
А обучения было мало и большая часть текста была на русском. То есть сейчас то, что она может в английский это даже не ллама, говорящая по-русски, это какая-нибудь китаемодель, говорящая по-фински.

>>701123
У меня тоже пиздец по системным ресурсам и издеваюсь я над общедоступной версией модели, которую можно скачать с обниморды. Она уже может плюс-минус может в русский, но обучалась на хуйне полной.

>>701131
Если обучать так, то сможет. Если не обучать, то нет. Могут быть граничные случаи, когда в токенизаторе изначально нет нужного токена для буквы, тогда он кодируется байтами. И будет похуй, что ты из токенизатора отхуяришь все токены, она как побайтово кодировала всё, так и будет. Какой-нибудь иврит, или арабский, хуй знает, чего там в токенизаторе нет.
Аноним 12/04/24 Птн 12:00:15 #134 №701446 
Что думаете про 4060ти 16гб
Аноним 12/04/24 Птн 12:23:42 #135 №701473 
>>701446
Что нужна видяха на 24+ гигабайт
Аноним 12/04/24 Птн 12:37:35 #136 №701483 
>>701473
P40? Беру 4060 и р40?
Аноним 12/04/24 Птн 12:38:43 #137 №701485 
>>701446
Карта как карта, что ещё думать. Вот обсуждение
>>699631
>>700928

>>701473
Ждём 5090.
Аноним 12/04/24 Птн 12:47:11 #138 №701492 
>>701485
В прошлом треде более содержательное обсуждение было.
Аноним 12/04/24 Птн 12:57:38 #139 №701502 
>>698642 →
>https://huggingface.co/Epiculous/Crunchy-onion-GGUF
Был скептичен поначалу, но нет, модель - одна из самых лучших что я встречал. Шизит нечасто, и отвечает прям в характер и хорошо. Учитывая что на проце и оперативки высирает ещё и почти 6 токенов в секунду - моё увожение.
Аноним 12/04/24 Птн 13:35:19 #140 №701532 
1.jpg
>>701492
Что конкретно ты хочешь содержательно обсудить? За те 29к за которые я её взял со всеми промокодами и бонусами, это шин. За 50+ - ну такое, если нет желания пердолиться с теслами, то лучше подкопить и взять 3090.
Шина узкая, памяти хватает лишь крутить высокие кванты 11б с контекстом 8к+, либо малые кванты 20б, дальше только выгрузка части в оперативку
Аноним 12/04/24 Птн 13:51:44 #141 №701544 
>>701502
На каком кванте сидишь?
Аноним 12/04/24 Птн 14:05:38 #142 №701549 
>>701544
4KM
Аноним 12/04/24 Птн 14:05:45 #143 №701550 
>>701532
Анон, зачем ты это накатал, я просто отметил, что в прошлом треде обсудили больше, чем в тех двух постах, которые ты (или кто-то другой) отметил.

>если нет желания пердолиться с теслами, то лучше подкопить и взять 3090
А с 3090, конечно, пердолиться не надо. И трястись за неё тоже не надо, это же холодильник ебать, и у майнеров её не было, и гарантия на неё всегда есть.

Нет, я не спорю, естественно 3090 лучше, но в большинстве случаев это актуально только для наносеков с доходом выше среднего, которые не против сыграть в рулетку и купить жарёху без гарантии.

>либо малые кванты 20б
q4 - это народный квант наряду с q5.
Аноним 12/04/24 Птн 14:15:38 #144 №701556 
6195003527.webp
хочу подключить две теслы с помощью пика, какие подводные, кроме скорости x1? и да, зачем нужен кабель доп питания 12v 6 pin, который у него в комлекте?
Аноним 12/04/24 Птн 14:22:11 #145 №701563 
На командер 35b уже есть годные файнтюны?
Желательно конечно с другим форматом промпта. А то что то текущий хуйня какая та.
Вобще все вырубил сижу без инструкт режима, похуй
Аноним 12/04/24 Птн 14:31:11 #146 №701567 
>>701549
Да, он неплохой, но иногда шизит и чуть более точно надо реплики свои прописывать, по сравнению с 5к_с. Зато его могу грузить с 16к контекстом и летает со свистом просто
Аноним 12/04/24 Птн 14:31:55 #147 №701568 
>>701532
Если эксллама обрабатывает flash attention только на ГПУ0, то имеет смысл брать 4060ti даже без бонусов и добавлять к нему теслу P100 (2-3). А если этот механизм требует совместимости всех ГПУ, то увы. Видел на реддите, что многие докупают к своим 3090 теслы P100 и крутят экслламу, но без подробностей.
Аноним 12/04/24 Птн 14:39:26 #148 №701573 
>>701556
>зачем нужен кабель доп питания 12v
Потому что карта кушает по стандарту до 75 ватт через писиай. А по юсб идут только сигнальные линии, без питания. Вот и нужен доп кабель.
Аноним 12/04/24 Птн 14:47:07 #149 №701579 
Без имени.png
Эх, были же времена... Знать бы тогда, что увлекусь нейродрочерством взял бы две
Аноним 12/04/24 Птн 14:51:35 #150 №701587 
image.png
>>701579
4070ti

3090 по тем же ценам, а то и дешевле люди ухватывали.
Аноним 12/04/24 Птн 14:52:17 #151 №701588 
изображение.png
>>701579
Да, были...
Аноним 12/04/24 Птн 14:54:08 #152 №701591 
>>701588
Я в феврале 2023 брал, 150к, конечно, ебать её в рот )
Аноним 12/04/24 Птн 14:55:33 #153 №701595 
>>701591
Т.е., в январе
Аноним 12/04/24 Птн 15:07:34 #154 №701606 
Хватит скулить! Общественность терпеливо ждёт, пока кто-нибудь из топовых компаний не разродиться какой-нибудь небольшой приблудой, дающей на 70В от 10 токенов в секунду, а вам не терпится! Сервера собираете, на слабые и дорогие карты жалуетесь! Всё будет со временем, и по вполне демократической цене тысчонки в полторы. У нас по две.

(Это был сарказм).
Аноним 12/04/24 Птн 15:51:08 #155 №701641 
Так брать 4060ти за 40к взамен 4070 ? Ну есди я буду баловаться нейронками?
Аноним 12/04/24 Птн 15:52:06 #156 №701645 
https://www.reddit.com/r/LocalLLaMA/comments/1c1ys5j/extending_the_context_window_of_your_llms_to_1m/
Аноним 12/04/24 Птн 15:55:15 #157 №701650 
>>701641
>Ну есди я буду баловаться нейронками?
40к в этой теме вообще ни о чём. Бери, балуйся.
Аноним 12/04/24 Птн 17:05:15 #158 №701700 
Аноны, вижу выше вопрос задавали, но есть ли модель которая более менее на русском говорит и чтобы не весила тысячу гигов, чтобы на убабуге запускать? На ингрише накумился вдоволь, хочется для разнообразия на великом попробовать.
Аноним 12/04/24 Птн 17:16:04 #159 №701711 
>>701645
>Мы предлагаем построить необучаемую контекстную память для данных LLM
Спасибо!
На самом деле, проблема контекста больше в требованиях к памяти и скорости обработки, а не в его объёме. Тут даже стандартные мистралевские 32к мало кто гоняет, всё на 4-8-16к (видел скриншоты с 200к на локалке в кончай треде, но ХЗ что это было).
Аноним 12/04/24 Птн 17:16:40 #160 №701713 
Мне страшно представить что будет дальше. Тут, блядь, кумы такие бывает, то что с потолка надо стирать. При развитиях технологий и отладки самих моделей в итоге получим рождаем 0.1 потому-что кому нужна муж/жена, когда есть ваифу и хасбендо
Аноним 12/04/24 Птн 17:18:31 #161 №701714 
>>701143
> А обучения было мало
Это же не полное обучение чему-то новому, адаптироваться к потрясению оно сможет быстрее и проще. И скорее всего какие-нибудь баги там лезут как с китайками.
>>701550
> 3090
> это актуально только для наносеков с доходом выше среднего
Ну чел, 50-70к за йоба железку это теперь наносеки? 4090 по текущим ценам - да, но 3090 торгуется более чем дешево и по прайс-перфомансу даже в ллм чуточку выгоднее.
> и у майнеров её не было
Как ни странно, после майнера оно может быть в лучшем состоянии чем после упоротого гей_мера.
>>701556
> какие подводные
Прилетишь на деньги если воткнешь не той стороной, будет долгая загрузка модели, по неподтвержденным слухам ширина pci-e роляет при объединении.
>>701588
Каждый раз как в первый, вот же бедолага.
>>701606
> (Это был сарказм)
Ну может через годик кто-нибудь разродится и запилит что-нибудь на арм с 12+ каналами ддр5, что будут или сразу распаяны, или идти гирляндой из so-dimm. Возможно это будет и сам хуанг.
>>701713
Хочешь апгрейд ии железа - получи квоту путем заключения брака. С каждым ребенком - новые лимиты, снятие ограничений после 4х.
Аноним 12/04/24 Птн 17:20:33 #162 №701717 
>>701714
>воткнешь не той стороной
Что там можно не той стороной воткнуть?
Аноним 12/04/24 Птн 17:21:43 #163 №701720 
>>701713
>Мне страшно представить что будет дальше.
Тут блядь за неделю произошло больше чем за год-два в другой быстроразвивающейся области
Так что да, пиздец
Особенно в том что люди по факту не дотягивают по комфортности общения с нейронками, в итоге тян нинужны акции тян дешевеют с каждым днем

>>701711
Думаю на видимокартах с этим по проще, если нет упора в врам. По крайней мере скорость проседает не так сильно как на процессоре
Аноним 12/04/24 Птн 17:23:00 #164 №701721 
slowpoke слоупок.png
>>701720
> Тут блядь за неделю произошло больше чем
Что?
Аноним 12/04/24 Птн 17:25:10 #165 №701724 
>>701573
понял, братик, спасибо.
Аноним 12/04/24 Птн 17:25:39 #166 №701725 
>>701721
https://www.reddit.com/r/LocalLLaMA/top/?t=week
Просто для обзора если ты не рофлишь
Навыходило куча бумаг и сеток, штук 6 новых базовых
Можешь еще в сингулярити заглянуть, там тоже всякие новинки собирают посреди кучи шизойдного бреда
Аноним 12/04/24 Птн 17:28:24 #167 №701729 
изображение.png
>>701720
>если нет упора в врам
>только 18 ГБ памяти графического процессора
Ну ты понял намёк, да?
>>701721
Тред за 4 дня до переката забили.
>>701725
>штук 6 новых базовых
Из них интересен только командир на 104B. Маленький командир не революция, а латание дыр, микстраль с 22B экспердами просто не нужна с такими требованиями.
Аноним 12/04/24 Птн 17:29:10 #168 №701730 
>>701714
> Ну чел, 50-70к за йоба железку это теперь наносеки?
Смотря сколько копить.
Модальная зп в РФ — 27к.
Медианная — ~35к.
Если ты ходишь на работу, то моешься, стираешь одежду, платишь за коммуналку.
10-15 в месяц уйдет на себя, еще 10-15 останется.
Копить 5 месяцев ради бу покупки — звучит рисково для большинства.

Вот Тесла или оператива — тут два месяца копить, тут не так страшно проебаться.

>>701720
Жаль, тян об этом сами не знают.

>>701721
Коммандер и Микстраль 8х22
Аноним 12/04/24 Птн 17:33:31 #169 №701735 
>>701730
>Жаль, тян об этом сами не знают.
Уже догадываются кстати, но всю проблему осознают не только лишь все

>>701729
>Из них интересен только командир на 104B. Маленький командир не революция, а латание дыр, микстраль с 22B экспердами просто не нужна с такими требованиями.
По себе не суди, по факту все нужны и все новинки, просто не тебе
Аноним 12/04/24 Птн 17:39:44 #170 №701744 
>>701729
>Из них интересен только командир на 104B
Вот только запустить его по-человечески даже с 48гб врам не получится. А качество не соответствует таким требованиям.

Все ждём третью Лламу. Ну и может Мистраль 70В всё-таки дотренят и выложат сольют.
Аноним 12/04/24 Птн 17:40:05 #171 №701746 
>>701729
>только 18 ГБ памяти графического процессора
>Ну ты понял намёк, да?
А теперь посчитай сколько в 18 гб влезет контекста по сравнению с этими 128к
И как это все будет выглядеть в соотношении для 60 гб врам с этой штукой и без
К тому же непонятно линейный там рост или какой еще, не было бы это чем то важным и выгодным - не выкладывали бы
Аноним 12/04/24 Птн 17:58:34 #172 №701769 
image.png
>>701645
Основной смысл на пикче. Но я так понимаю можно хоть старую лламу на 2к растянуть на сколько то, используя этот метод. Так что дело не только в экономии врам, но и в самом факте расширения контекстного окна без потери внимания для любой сетки выше ее тренированных пределов. За счет врам и рам.
Аноним 12/04/24 Птн 18:11:51 #173 №701778 
>>701730
>Медианная — ~35к.
Уже 50к, впрочем расходов тоже поприбавилось.
>>701735
>По себе не суди
Извинити, привычка.
>>701744
>Вот только запустить его по-человечески даже с 48гб врам не получится
Катаю на 12+64, лол.
>>701746
>А теперь посчитай сколько в 18 гб влезет контекста по сравнению с этими 128к
Да ну понятно. Только у народа в основном нет этих лишних 18ГБ на контекст.
>>701746
>не было бы это чем то важным и выгодным - не выкладывали бы
Наоборот, лол, сливают всякое говно для пиара и прочего выбивания бабла.
>>701769
>факте расширения контекстного окна без потери внимания
Как я понял, это RAG на минималках, там в контекст суются только некоторые, релевантные блоки. То есть описать характер тсундере на 50к токенов и надеяться, что все они будут задействованы, не приходится.
Аноним 12/04/24 Птн 18:20:25 #174 №701780 
>>701714
>50-70к
По этой цене торгуется только ультрахлам с охладом из банановой кожуры и с отвалом всего через неделю после покупки. Щас специально чекнул Авито - вменяемые варианты только начинаются от 70к.
И даже если бы они реально хоть сколько-нибудь массово продавались по 50-70, в российских реалиях, за такую рулетку, это много.
сам прослоупочил в январе 3090 из-под геймера за 60к, щас жопа подгорает, ну хули делать
Аноним 12/04/24 Птн 18:22:12 #175 №701781 
>>701778
>То есть описать характер тсундере на 50к токенов
Надо быть тем еще ебанько. Че там на 50к должно быть? Суммаризация всю эту воду без потери смысла сожмет до 2-3к.
Ну и возможно оно все таки будет работать, просто генерация замедлится, так как будет постоянная подгрузка выгрузка блоков из рам в врам.
Аноним 12/04/24 Птн 18:26:43 #176 №701786 
>>701781
>Че там на 50к должно быть?
Очевидно это просто пример задачи, который намекает, что контекст-то не настоящий.
Аноним 12/04/24 Птн 18:33:56 #177 №701790 
>>701786
32 растягиваем ропе в 2 раза без потери качества, получаем честные 64
Которые могут работать с в разы большим контекстом без потери внимания, причем даже с указанными тобой цельными кусками на 50к токенов.
Что так что так, если базовая сетка не сможет эти 50к переварить, то и смысла говорить о минусах этого метода нет.
А вот длинный чат без таких больших кусков заиграет новыми красками, ведь теперь его длина будет ограничена лишь твоей емкостью врам+рам ну и временем на обработку всего этого.
Аноним 12/04/24 Птн 18:38:13 #178 №701796 
>>701778
>Да ну понятно. Только у народа в основном нет этих лишних 18ГБ на контекст.
Эти 18 нужны только для 128к контекста как дано в примере. Тоесть это 9гб для 64к и 4,5гб для 32к
Если опять таки все это линейно меняется
Надо дождаться реализации где нибудь и тогда уже смотреть
Аноним 12/04/24 Птн 18:44:24 #179 №701803 
>>701725
talk-llama-fast на 11 месте в этом топе. На Ютубе 63к просмотров за 6 дней. Успех.
Аноним 12/04/24 Птн 18:50:46 #180 №701806 
>>701778
> Уже 50к, впрочем расходов тоже поприбавилось.
Нет, 35к — это и есть уже.
Учитывая, что росстат считает без учета налогов, но с учетом премий и 13 зарплат.
Т.е., в начале ~10% можешь забрать, а потом еще 13%. Будет 39 даже в таком случае.
Ну и там еще всякие штуки со средней-медианной, со средней по России с учетом Мск и северных регионов и без них…

Короче, официально средняя по России — 70, на практике модальная по России без учета Мск с Якутией — 25. =) Так и живем.

> Катаю на 12+64, лол.
Тогда не вижу проблем с микстралью, катаю на 48+128, вполне доступная база треда.

> Наоборот, лол, сливают всякое говно для пиара и прочего выбивания бабла.
А вот ето так, могут чисто хайпить чем-нибудь, та и все.

>>701781
Раньше я верил в людей.
А сейчас считаю ебанько довольно распространенным подвидом.
Аноним 12/04/24 Птн 18:51:58 #181 №701807 
>>701803
С виспером вместо фастер-виспера. х) У чела много врам и времени, конечно.
Аноним 12/04/24 Птн 18:52:31 #182 №701808 
https://www.reddit.com/r/LocalLLaMA/comments/1c24lwl/quick_residual_stream_mockup_to_clarify_mixtral/
Иной взгляд на количество экспертов в микстрале
Аноним 12/04/24 Птн 20:23:10 #183 №701886 
>>701808
То есть выбор эксперда происходит каждый слой?
Аноним 12/04/24 Птн 20:34:36 #184 №701901 
>>701886
Ну, я понял так.
Аноним 12/04/24 Птн 21:00:28 #185 №701920 
Аноны, вижу выше вопрос задавали, но есть ли модель которая более менее на русском говорит и чтобы не весила тысячу гигов, чтобы на убабуге запускать? На ингрише накумился вдоволь, хочется для разнообразия на великом попробовать.
Аноним 12/04/24 Птн 21:09:01 #186 №701929 
>>701920
https://huggingface.co/LoneStriker/openchat-3.5-0106-8.0bpw-h8-exl2
Аноним 12/04/24 Птн 21:09:42 #187 №701930 
>>701700
>>701920
Ты блядь заебал слепошарый, раз видишь, значит используй что посоветовали, даже в шапке есть.
Аноним 12/04/24 Птн 21:16:21 #188 №701934 
>>701920
Опенчат тебе уже кинули, ну или командера на 35b попробуй, 18 гигов в 4 кванте, так что можешь на оперативке с видеокартой запустить, сколько токенов будет зависит от твоего железа
https://huggingface.co/lmstudio-community/c4ai-command-r-v01-GGUF
Он тоже в русский может, а меньше только 7b которую тебе кинули. И которая запустится на чем угодно с 8гб оперативки.
Но вот кумить на ней, не знаю, попробуй, отпишись если сможешь, лол
Аноним 12/04/24 Птн 21:26:50 #189 №701947 
>>701929
Большое спасибо за помощь, бро! Качаю!

>>701934
Большое спасибо, я супер редко в треде бываю, шапку прочёл, но решил спросить потому что больше мимокрокодил интересующийся, нежели настолько в теме, чтобы понимать с полуслова.

>>701930
А вот ты, нет чтобы помочь, видишь, блядь, я прошу дважды, значит нуждаюсь, значит не могу качать модель на 200 гигов, о чём указал, но нет, ты вместо совета или ответа будешь лучше тратить то же самое время на пост в треде, чтобы оскорбить, какая ж ты блядь гниль треда, вот такие хуесосы как ты хуже всех блядь! НЕНАВИЖУ ТЕБЯ!
Аноним 12/04/24 Птн 21:28:37 #190 №701950 
изображение.png
>>701947
>значит нуждаюсь
Не нуждаешься, а ноешь просто так, мог бы прочитать шапку вместо просьб.
Аноним 12/04/24 Птн 21:29:15 #191 №701951 
>>701930
Ладно, сорян, я погорячился, просто обидно нахуй, такой игнор, а потом ещё и оскорбления. Неправильно было оскорблять в ответ, я сам не лучше.
Аноним 12/04/24 Птн 21:30:57 #192 №701957 
>>701950
Виноват, прошу прощения. Просто думал, что спросить будет легче, типа ответ не займёт много времени, даже если просто носом тыкнуть.

Не думал, что вас итт так заебали. Просто сам я из АИ пикчей-тредов.
Аноним 12/04/24 Птн 21:38:52 #193 №701965 
>>701951
>>701957
Да ничего, я тоже зря быканул, виноват.
Пишешь, пишешь шапку, а её никто не читает. Ыыыы.
>Просто сам я из АИ пикчей-тредов.
Там ещё пристойно. А вот побывал бы в кончай треде, сам бы начал бомбить с новичков.
Аноним 12/04/24 Птн 22:03:39 #194 №701990 
>>701951
Братик, в 2024 не уметь читать на английском ну это провал
Аноним 12/04/24 Птн 22:22:55 #195 №702015 
>>701990
Я на английском как родненький кумлю, писал об этом выше, прост захотелось для разнообразия на нашем попробовать, ну интересно ж стало.
Аноним 12/04/24 Птн 22:23:46 #196 №702017 
ExLlamav2.gif
Мда, а я и правда было поверил, что эксллама не имеет проблемы уменьшения скорости генерации при увеличении контекста. Лень было проверять.
Аноним 12/04/24 Птн 22:23:57 #197 №702018 
16021811302770.jpg
>>699623 (OP)
Платиновый вопрос, ответ на который я не нашел в вики.
На связи полный неофит по нейросетям.
Есть ли гайды как дотренеровать модель, т.е. сделать файнтюн (насколько я понимаю) самому?
Задача: есть некий набор данных (типа json, xml, csv) который имеет статичный набор полей в себе (допустим 20 текстовых полей в которых разные данные), которые я буду называть формой.
- Форма может быть условно валидной/не валидной.
- Окончательная валидность/невалидность самой формы определяется по внешним параметрам из внешнего (реального) мира, но сами данные которые содержит форма могут указывать на вероятность валидности/невалидности. Вероятность сильно повышается когда пересекаются некие конкретные данные (сами данные тоже могут быть абсолютно разными/ввод информации открытый, т.е. у большинства полей формы не какой-то ограниченный статичный список опций/вариантов) во множестве полей одновременно.
Насколько я правильно понимаю в этом и заключается основная фича нейросетки которая может находить взаимосвязи (выдача вероятности уже достаточно) в типе связей многие ко многим.
- Есть данные для обучения (и следовательно для тестирования) в некоем количестве - то есть уже готовые формы которых есть в районе 10-50к.
- Данные в полях формы на русском.
- Обученная модель должна быть локальной.
Итого - нужна обученная нейронка которая будет принимать на вход вышеупомянутую форму и на выход давать вероятность (0-100%) валидная ли форма или нет.

С чего мне стоит начать и что курить?
В факе я прочитал что контекст у нейронки по дефолту ограниченный, поэтому правильно ли я понимаю что мне в теории нужно взять готовую языковую модель выбранного семейства, ну или кастомную на основе какого-то семейства и каким-то образом дообучить ее?
Аноним 12/04/24 Птн 22:25:21 #198 №702022 
>>702017
У тебя что за кофеварка? На нормальных картах оно процентов на 10% падает каждые 4к.
Аноним 12/04/24 Птн 22:41:04 #199 №702053 
изображение.png
>>702018
>ответ на который я не нашел в вики
Какой ужас. В общем, лучше у нас инфы нету.
>и каким-то образом дообучить ее?
Да, уровня отпилить последний слой, заморозить остальные, а на место отпиленного закинуть свой, и его обучать, чтобы на выходе был твой самый процент. Но ты описал задачу весьма расплывчато, и у меня возникло ощущение, что ты хочешь сделать что-то не одобряемое анонами.
Аноним 12/04/24 Птн 22:47:10 #200 №702066 
>>702053
>что-то не одобряемое анонами.
Например? Я не догнал что там может быть за формы на 50к, какие то персональные данные што ли?
Аноним 12/04/24 Птн 23:00:54 #201 №702084 
>>702066
>Например?
Цензура какая-нибудь, составление психических портретов "предателей родины", ещё какая-то требуха. Мало ли. Неспроста же тот анон темнит...
Аноним 12/04/24 Птн 23:34:56 #202 №702119 
>>702084
Ну да, вариантов не много. Либо что то с деньгами, либо с работой с списками персональных данных. И с вероятностью близкой к ста что то что навредит обычным людям
Аноним 12/04/24 Птн 23:40:11 #203 №702127 
>>702022
>У тебя что за кофеварка? На нормальных картах оно процентов на 10% падает каждые 4к.
Да, тест неактуален - в Убабуге контекст по умолчанию стоял на 32к, а столько видеопамяти у меня нет. Когда поставил 8к, то стало поживее.
Аноним 13/04/24 Суб 00:36:02 #204 №702191 
https://www.reddit.com/r/LocalLLaMA/comments/1c29e7w/commandr_is_scary_good_at_rag_tasks/
Вот и работка? в чем хорош коммандер 35b
Если коротко - хорош в раг и работе с документами
Но и запустить его с достаточной для этого скоростью недешевое удовольствие, мдемс
Аноним 13/04/24 Суб 00:39:59 #205 №702197 
>>701717
Часть что вставляется в матплату если в ней не х1 слот.
>>701720
> за неделю произошло больше чем за год-два
Что произошло? Некоторое оживление после более чем полугодового застоя, и то пока юзабельного немного.
>>701729
> Маленький командир не революция
Зря, как раз революция и у него нет полноценных конкурентов в этом размере, и засчет доступности он более значим чем 104, которую мало кто может себе позволить. Микстраль в текущем виде - да, не нужен, но есть потанцевал.
>>701730
> Модальная зп в РФ — 27к.
> Медианная — ~35к.
Усредняя морг с гнойным и спекулируя оторванными от реакльности величинами, учитывай, что 99% зарабатывающих мало не то что не хотят покупать карточки для нейронок, но и даже не слышали нормально о таком. Те кто интересуется и хочет развлекаться этим, или тем более как-то работать - уже как минимум имеют скиллы и навыки, а следовательно и доход, или сидят на шее у родителей, которые такое позволяют. Уж такую цена скопить за несколько месяцев вообще проблемы не составит, а если не можешь - это не твое.
Описанные тобой думают как выжить а не о видеокартах, к тому же есть куча более качественных и бесплатных альтернатив чем все это.
> Жаль, тян об этом сами не знают.
Их привлечь можно тоже, даже более острая зависимость будет.
Аноним 13/04/24 Суб 00:47:55 #206 №702206 
>>701729
> >только 18 ГБ памяти графического процессора
> Ну ты понял намёк, да?
1.5т/с хватит всем, оно?
>>701744
> с 48гб врам не получится
Нужно 96, 80 минималочка типа. Со скрипом в 64, если потребление на контекст оптимизируют то будет уже повеселее. И он действительно лучшее из доступного, затыкая за пояс пернатую модель и всяких франкенштейров.
>>701780
> По этой цене торгуется только ультрахлам с охладом из банановой кожуры
Увы, терпели, думали, и дождались что они закончились. Теперь 75+, на фоне подорожания всего остального закономерно.
>>702017
У тебя идет переполнение памяти и оно начинает частично выгружаться в рам, потому и проседает. Скорее всего выгружается только небольшая часть, которую захавал браузер и прочие интерфейсы, потому и эффект замедления слабый.
Верь не верь - скорость генерации от контекста (почти) не проседает пока у тебя хватает врам. На таких нищенских мелких контекстах уж точно.
Аноним 13/04/24 Суб 02:11:10 #207 №702281 
изображение.png
>карточка про тохо
>коммандр выдаёт ссылки на фурисайты
Ну охуеть теперь, и это топадин сетка называется.
Аноним 13/04/24 Суб 02:36:59 #208 №702298 
>>702018
Пожалуй, пора добавить в шапку QA про обучение, где описать что 95% задач с добавлением "нового" решаются RAG, лорбуками или даже просто примерами с описанием, а обучение ллм - вещь крайне сложная, время-трудо-деньго-затратная и не стоит вскрывать эту тему если совсем неофит, см 95% в начале.

Что же до твоей задачи - больше похоже на задачи классификации текста и подобные. Для этого есть относительно легковесные сетки, смотри на обниморде раздел https://huggingface.co/docs/transformers/tasks/sequence_classification и соседние.

Или же - просто четко и ясно формулируй требуемый тебе запрос для LLM для каждой "формы" и в нем дай задачу сначала расписать COT (рассуждения) а потом дать ответ числом, отфоматируя это все в xlm, json, yaml. Первое потребуется для улучшения качества ответов относительно зирошота, второе - твоя искомая величина, которая может быть легко извлечена.
>>702191
За счет этого он и хорош в (е)рп. Пишет проще чем специализированные файнтюны, но уровень норм, а то как держит сценарий, описание и историю как раз и обеспечивает качество.
>>702281
Таргетировал в тебе любителя!
Вообще странно, он даже paws не спамит в отличии от многих сеток.
Аноним 13/04/24 Суб 07:53:18 #209 №702419 
>>702298
> RAG
Погуглил, интересно. Это что же получается, если к примеру взять самую соевую модель, у которой в обучающем датасете не было ничего кроме сои, прикрутить к ней RAG и контрольными векторами прописать не соевое поведение, то такой модели будет строго похуй на сою, так как в ответах будут данные из поисковых запросов, а контрольные векторы не позволят модели включать режим соевика?
Аноним 13/04/24 Суб 08:31:05 #210 №702436 
0.png
https://huggingface.co/Vezora/Mistral-22B-v0.1
Аноним 13/04/24 Суб 08:43:09 #211 №702448 
211a2663456d484274ac27f98111f378.jpg
https://huggingface.co/bartowski/Mistral-22B-v0.1-GGUF
Аноним 13/04/24 Суб 08:53:14 #212 №702459 
78.jpg
>>700793
>>700797
Эх... Я тоже когда собирал купил 3080 чисто как затычку для одиссея, в игры в последнее время не играл...
И ещё в то время искал нейронку, которая смогла бы пак с моими картинками нормально протегировать, про себя думал - вот лет через 10 появится нейронка, которая сможет не то что тегировать, а создавать картинки по тегам, и через несколько месяцев совершился нейро бадабум.
Аноним 13/04/24 Суб 09:01:25 #213 №702467 
image.png
>>701556
>какие подводные
ОЧЕНЬ ДОЛГИЕ ЗАГРУЗКИ МОДЕЛЕЙ ОЧЕНЬ!
70Вq2 модель легко может грузится 15-20 минут и зафейлиться в процессе из за зависания питона
А в остальном всё норм, когда модель загружена работает всё также быстро как и с Х16 слота, перезагрузка модели с новыми настройками также идёт быстро.
Но меня загрузочные тупняки доебали и я запихал теслу в корпус распилив его к хуям
Мимо чел заебавшийся с охлаждением.
Аноним 13/04/24 Суб 09:08:46 #214 №702476 
>>700782
Спасибо анон!
А в шаблон контекста что писать?!
Аноним 13/04/24 Суб 09:09:29 #215 №702477 
.png
Я так пынямаю моя тесла со стандартным драйвером не определилась и хочет какой то особый драйвер?
Аноним 13/04/24 Суб 09:09:35 #216 №702479 
Анонс. Хочу прикрутить к LLM локалке голосовуху.
Voice to text - text to voice. Чтоб полная локальная алиска была дома. Клацать и читать поднадоело уже. Гуглил, но что то коробочного решения качественного не нашел. Вроде всего много, но непонятно что выбрать. А еще, чтобы можно было определенный голос клонировать. Хочу чтобы она голосом Бузовой разговаривала тралалала ;)
Аноним 13/04/24 Суб 09:37:36 #217 №702506 
>>702477
>хочет какой то особый драйвер?
Это хочет!
https://www.nvidia.com/content/DriverDownloads/confirmation.php?url=/tesla/528.89/528.89-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe&lang=ru&type=Data%20Center%20/%20Tesla

И сразу бонусом:
https://linustechtips.com/topic/1496913-can-i-enable-wddm-on-a-tesla-p40/
Аноним 13/04/24 Суб 09:46:27 #218 №702519 
image.png
image.png
>>702479
>Voice to text
Пик

>чтобы можно было определенный голос клонировать
Ставишь вот это.
https://github.com/daswer123/xtts-webui/blob/main/README_ru_RU.md
Тренишь модели в версии ВебУИ. Для подключения к таверне запускаешь версию АПИ. Подключаешь в пмк 2.
Аноним 13/04/24 Суб 09:53:43 #219 №702525 
>>702506
О, пасибо анон.
Это датацентровой драйвер, а он будет работать с основным для обычной карточки или надо какой то пиздос для этого устраивать?
Аноним 13/04/24 Суб 10:19:37 #220 №702536 
>>702525
>а он будет работать с основным для обычной карточки или надо какой то пиздос для этого устраивать?
Пиздос, который надо устраивать описан во второй ссылке. Зато после этого у тебя оба драйвера должны работать параллельно и друг другу не мешать.
Но это не точно, у меня второй картой АМД
Аноним 13/04/24 Суб 10:24:51 #221 №702538 
>>702525
Будет. По второй ссылке хуйня нерабочая. Возможно, это сработает, если ты накатишь драйвера трёх-пятилетней давности. На свежих не работает.
Аноним 13/04/24 Суб 10:26:01 #222 №702539 
>>702519
Спасибо. Какой там стек получается stt tts? Whisper и Bark или что получше? Клонировать голос тяжко будет? Арендовать мощности или калькулятора хватит? Нужно будет качественно с высоким битрейтом, без шиканья
Аноним 13/04/24 Суб 10:29:58 #223 №702540 
>>702538
Немного тебя не понял.
>Будет. По второй ссылке хуйня нерабочая.
Ты хочешь сказать, что сейчас я могу просто накатывать https://www.nvidia.com/content/DriverDownloads/confirmation.php?url=/tesla/528.89/528.89-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe&lang=ru&type=Data%20Center%20/%20Tesla
Без задней мысли поверх уже установленного драйвера и он не потрётся?
Или таки это:
>На свежих не работает.
Или ты про то что на свежих wddm так просто не включить?
Аноним 13/04/24 Суб 10:34:18 #224 №702545 
>>702539
>Клонировать голос тяжко будет? Арендовать мощности или калькулятора хватит?
Я сам этим не занимался, так что ХЗ.
Но ты всё это можешь легко в колабе запустить, ссылки ксть в гите на xtts.
Выкладывай результаты, если получится.
Аноним 13/04/24 Суб 10:35:33 #225 №702546 
>>702540
Драйвера вообще похуй. В любом порядке накатываешь свежий игровой и драйвер датацентра. Если после ребута видимокарта отвалилась - заходишь в диспетчер устройств, удаляешь там карту и жмёшь обновить конфигурацию. Карта находится, всё работает. А вот wddm по тому гайду включить на актуальных драйверах хуй включишь. Может, и на старых хуй включишь, я пробовал вплоть до 517.48, не работает.
Аноним 13/04/24 Суб 10:39:31 #226 №702550 
>>702546
Пнял, пасибо.
wddm режим шибко тесле нужен или нейронки без него работать будут?
Нахрена оно вообще нужно то?
Аноним 13/04/24 Суб 10:39:37 #227 №702551 
>>702525
Тебе не обязательно проделывать то, что во второй ссылке, достаточно чтобы гпу были не в отъёбе в диспетчере устройств после установки дров, там просто перевод из TCC режима, максимум поиграть на ней не сможешь да и не захочешь
>>702546
Мне удалось включить на одном из последних драйверов, но тесла была одна с амдшной встройкой, с двумя дискретками уже хуй, ты тоже только с двумя пробовал?
Аноним 13/04/24 Суб 10:39:47 #228 №702552 
>>702538
>На свежих не работает.
Что именно не работает?
У меня после установки дров с первой ссылки только так WDDM получилось включить.
Знаешь способ лучше - выкладывай!

>>702540
>Ты хочешь сказать, что сейчас я могу просто накатывать
Да.

>он не потрётся?
Один чел с Нвидией писал что в конце, после ебли с реестром, надо заново поставить дрова основной видюхи. Так что возможно. Но ты в любом случае не сможешь юзать Теслу, пока не поставишь дрова.
Аноним 13/04/24 Суб 10:54:33 #229 №702559 
>>702550
Нейронки работают и без него, виртуализация - нет. WSL работать не будет.
>>702551
>но тесла была одна с амдшной встройкой
Видимо, в этом суть. У меня две карты ноувидия.
>>702552
>Что именно не работает?
WDDM не работает, очевидно же.
Аноним 13/04/24 Суб 11:06:29 #230 №702566 
.png
.png
.png
Щас еще пойму как теслу удушить по паверлимитам и пойду тестить ламу.
А то 2 кругляша DEXP DX50NFDB явно не справятся с 250 ватт.

>>702551
>>702552
Таки да, установил тесладрайвер - отъебнула 4090, но изображение на один из двух моников выводила.
Перенакатил (просто обновил по факту) драйвер на 4090 и все заработало взад. Пасибо аноны еще разок.
В диспетчере тесла будет отображаться только в вддм, да?

>>702559
> Нейронки работают и без него, виртуализация - нет. WSL работать не будет.
Получается вддм нужен только если нету основной карты или ты красноглазик? По большому счету то.
Аноним 13/04/24 Суб 11:08:54 #231 №702570 
.png
Удушил.
Ща будут тесты (как обновлю огабогу)
Аноним 13/04/24 Суб 11:10:12 #232 №702571 
image.png
Как блядь запустить этот ваш Командер?!
Всё обновил до последней версии.
Llama.cpp срёт ошибкой "нет атрибута model"
Cobold.cpp с CuBLAS всё загружает, но вылетает при попытке ввести промпт.
Запускаю на Tesla P40.

>>702559
>WDDM не работает
У меня работает. Может ты с редактированием реестра накосячил?
Аноним 13/04/24 Суб 11:17:40 #233 №702580 
>>702566
>теслу удушить по паверлимитам
Да msi афтербёрнер её душит прекрасно.

>>702566
>только если нету основной карты или ты красноглазик?
Не совсем. Очень много разного оптимизона написанно конкретно под линупсы, под виндой это не заводится в принципе. Некоторые методы существенно ускоряют нейронки. Я пробовал выключать теслу и гонять только основную через wsl, на мелкой сетке х3 скорость.

>>702571
>У меня работает.
А хули у тебя тогда smi одну карту показывает?
Аноним 13/04/24 Суб 11:19:03 #234 №702581 
>>702580
>А хули у тебя тогда smi одну карту показывает?
Вторая АМД.
Аноним 13/04/24 Суб 11:26:53 #235 №702593 
.png
.png
Я прально все натыкал при загрузке модели или где то обосрался?
Аноним 13/04/24 Суб 11:27:38 #236 №702596 
>>702545
Ок. Спасиб. Пока аккумулирую инфу.
Хотел понять насколько уже это реально и просто реализовать именно локально. Вроде никаких сложностей. Так что нужно сесть и сделать. Нелокально через апишки думаю это вообще уже не проблема.
Аноним 13/04/24 Суб 11:34:55 #237 №702600 
>>702436
Ну и как? Я чет не уверен что можно тупо сложить все варианты в один
Аноним 13/04/24 Суб 11:36:53 #238 №702601 
>>702566
> В диспетчере тесла будет отображаться только в вддм, да?
Да, с TCC только компьютинг на куда, ну с нейронками как раз
>>702593
Нет, убери row_split, он для двух тесл, включи streaming_llm, или будешь терпеть каждый раз, как вылезет за контекст, не спасёт если будешь редачить энивей
Аноним 13/04/24 Суб 11:37:12 #239 №702602 
>>702436
Хотел вчера такое сделать, но Годдарт сказал, что делал и получилась хуйня полная.

>>702581
Тогда у тебя и проблем нет, если тесла в системе единственная карточка, то всё заебись.
Аноним 13/04/24 Суб 11:40:04 #240 №702603 
>>702601
> ет, убери row_split, он для двух тесл, включи streaming_l
Оке, ща протещу, перезапущу огабогу только - а то случился какой то прикол с подвисоном системы и отвалом нейронки нахуй. Странная хрень
Аноним 13/04/24 Суб 11:50:52 #241 №702616 
.png
.png
.png
Вертушек за 200 рубасов из ближайшего дноэса в принципе даже хватает на пол шишки, так что охлад сделанный из картониума, изоленты и китайских вентелей справляется кое-как. Не 40 градусов, конечно, а только лишь 60 но в целом норм - работает и заебис.

>>702601
Да, действительно помогло - теперь семь токенов.
Аноним 13/04/24 Суб 11:55:31 #242 №702622 
>>702616
>Потребление 52 ватта
>Температура 69,8
@
>Справляется
Аноним 13/04/24 Суб 11:58:57 #243 №702625 
.jpg
>>702622
Ебобо?
Скрин сразу после генерёжки, в генерёжке скачет с 120 до 170 ватт.
Аноним 13/04/24 Суб 12:07:42 #244 №702631 
>>702616
У тебя смотрю без фейковой китайской пломбы на винте, лол
>>702622
Она так то и с 50, считай просто загруженной моделью, может рано или поздно в троттлинг улететь без какого либо обдува
Аноним 13/04/24 Суб 12:26:33 #245 №702642 
>>702631
Ну видимо посчитали, что нахрен не нужно.
Аноним 13/04/24 Суб 12:52:28 #246 №702661 
>>702616
А зачем вы приделываете вот эту всю хуйню по бокам? Разве не будет эффективнее просто закрепить сбоку вентиляторы теми же хомутами. Главное же чтобы воздух проходил насквозь.
Аноним 13/04/24 Суб 12:59:42 #247 №702663 
image.png
>>702602
>тесла в системе единственная карточка
Если карта АМД, это ещё не значит что её нет.
Инструкция в том посте писалась для карт Нвидиа. Это скорее с АМД должны быть проблемы и они есть, я не могу запускать не куда приложения на Тесле, потому что теслы тупо нет в выборе в настройках графики 10 винды. Я уже думаю может снести систему и заново всё накатить, установив сначала Теслу

>>702616
Я смотрю я тут не один конструктор дохуя! Грац!
А что за шлейф, в который Тесла воткнута?
Аноним 13/04/24 Суб 13:08:42 #248 №702666 
untitled.mp4
>>699623 (OP)
В шапку.
Аноним 13/04/24 Суб 13:10:07 #249 №702667 
>>702666
Можно поподробней для тех у кого лапки?
Аноним 13/04/24 Суб 13:13:19 #250 №702669 
>>702666
Это типа имитация реального человека? Почему качество такое шакальное?
Аноним 13/04/24 Суб 13:13:54 #251 №702670 
>>702663
> А что за шлейф, в который Тесла воткнута?
Райзер какой то дешевый с газона. Я с ним обосрался - взял слишком длинный. Взял бы короче щас бы все это добро было вместе с 4090 в корпусе.

>не один конструктор дохуя!
Ну так как водится - голь на выдумку горазда, хех.

>>702661
Чтоб больше воздуха куда надо шло.
Аноним 13/04/24 Суб 13:22:06 #252 №702672 
>>702666
а ссылку на среддит? утащил и нихуя не добавил откуда взял и че такое
Аноним 13/04/24 Суб 13:23:59 #253 №702674 
>>702559
WDDM мне удалось включить для двух тесл с драйвером 511.65 Grid Drivers for NVIDIA RTX Virtual Workstation. Более поздние версии драйвера уже не работают. Удобно - можно теслы в диспетчере задач видеть. Но скорость в этом режиме ниже, чем в TCC. Чисто для нейронок оно не надо.
Аноним 13/04/24 Суб 13:43:18 #254 №702682 
.png
Гружу мику 70b вроде загружает и тут же отъебывает.
А что может быть за прикол, аноны?
Старый аироборос 70b грузит нормально.
Аноним 13/04/24 Суб 13:50:58 #255 №702688 
>>702682
контекст меньше сделай, аироборос 4к вроде был
Аноним 13/04/24 Суб 13:53:20 #256 №702689 
>>702688
Так мику вроде больше 4к должна мочь.
Вообще ограничился 60 слоями - все работает, но медленно. Че за хрень то началась
Аноним 13/04/24 Суб 13:53:22 #257 №702690 
>>701951
Ты представляешь, что чувствуют люди, которые из раза в раз на один и тот же вопрос, дают один и тот же ответ, который записан в первом сообщении, но новые люди, вместо того, чтобы просто прочесть буквы, полностью игнорируя данную им инфу повторяют этот вопрос ежедневно?
Это показывает, насколько вам похуй на все, и вы просто хотите здесь и сейчас. Не прикладывая усилий.
Это правда обидно, поэтому тот факт, что тебя оскорбили — по большей части является следствием твоего поведения и таких как ты.
Но оффенс, мне без разницы.

>>702197
> уже как минимум имеют скиллы и навыки, а следовательно и доход, или сидят на шее у родителей, которые такое позволяют.
Я ожидал этого тейка, к сожалению, как показывает практика — нихуя. =)
У нас даже в этом треде встречаются «у меня амд» и «что можно запустить на рыксе 580». Причем встречается весьма часто и прилично.
У меня лично два работы и три заработка, и я частенько ловлю себя на «проф.» деформации.
С одной стороны у меня коллеги в доме культуры с зп 18к-22к рублей, у которых есть те самые дети на шеях.
А с другой — погроммирование, где счет идет уже на сотни тыщ (а у некоторых коллег — и семизначные, и восьмизначные числа).

И вот со стороны программиста «та хуйня ж, че там, собрать комп за 100-200 тыщ! с обедов пару месяцев откладывать», а со стороны простых людей «дочка попросила куклу за 4000, но за месяц мы с мужем столько не соберем…»

А подрочить на текстовые фетиши хотеть могут все. =) В т.ч. и дети обычных людей, и студенты (чел кит зеона за 4к купил с моей помощью х), и просто работники магнита и пятерочки (хотя, откуда у них время на это).

>>702467
Там х1 PCIE 3.0 или PCIE 1.1 ?

>>702479
Faster-whisper (or whisper.cpp) => xttsv2

>>702550
TCC — серверный режим, выше производительность, постоянное потребление мощности, нагрев.
WDDM — десктопный игровой режим, меньше производительность, отсутствие постоянных потребления и нагрева.

>>702566
> В диспетчере тесла будет отображаться только в вддм, да?
Да.

>>702666
Технологии годовалой давности, собранные в один запускатор.
«Вау».
Аноним 13/04/24 Суб 13:57:56 #258 №702694 
>>702690
>Технологии годовалой давности, собранные в один запускатор.
>«Вау».
https://www.reddit.com/r/LocalLLaMA/comments/1c2iirs/tinyllama_sdxs_real_time_kids_story_uncut_video/
Вот это интереснее

Хотя и предыдущее тоже неплохо, такой прототип аватара ии как в фантастике, хех
Осталось только запускать это голограммой и будет полная аутентичность

>У меня лично два работы и три заработка
Живешь когда, анон?
Аноним 13/04/24 Суб 13:59:01 #259 №702696 
>>702682
Квант какой? Мику Q4 влазит в две теслы с контекстом 8к, но со скрипом. Попробуй Кобольдспп ещё.
Аноним 13/04/24 Суб 13:59:50 #260 №702697 
>>702689
Места не хватает наверное, почему хз
Аноним 13/04/24 Суб 14:10:28 #261 №702700 
.png
.png
>>702696
Ну вроде там квантовка одинаковая, че не лезет хз.
Еще у пикрелейт джва такие же симптомы хотя все три модели одинаковы по 40 гигов с хвостиком весят. Приколы очередные.

>>702697
Опять нам говна в жопу заливают...
Аноним 13/04/24 Суб 14:16:10 #262 №702703 
>>702436
>>702448
Правильно. Но похоже что оно весьма корявое и нужно ждать пока пойдут нормальные. Пробовал кто?
>>702467
> 70Вq2 модель легко может грузится 15-20 минут
Воу воу, палехче. Даже если взять порт 2.0, то там псп около 500МБ/с, загрузит полную память меньше чем за минуту, а если у тебя сата на ссд - на почувствуешь разницы.
> image.png
Ты жетский, но должно быть эффективно.
>>702593
Если у тебя тесла - tensorcores убери.
>>702666
Какая же рофловая тема, красава. Тот еще бредогенератор, но в качестве poc - четко.
>>702682
Мониторингом памяти перед вылетом не заметно переполнения?
>>702690
> Я ожидал этого тейка
Потому что он очевиден
> как показывает практика — нихуя
Практика показывает что тот кто много-много ноет, дохуя себя мнит, крайне недоволен своим положением и т.д. - скорее всего не обладает скиллами, навыками и умением их применить, или в редких случаях действительно имеют какие-то обстоятельства/оправдания. Это цинично, печально, но это факт. Нужно стремиться что-то изменить, а не тратить последние деньги на нищежелезо ради упарывания локальными ллм и срачами вокруг этого.
> подрочить на текстовые фетиши хотеть могут все.
Освоить, наныть проксю к коммерции и инджоить. Хочешь анонимности и прочего - плати или страдай, почему-то ни на то ни на другое не согласны.
> а со стороны простых людей
В том и суть что простым людям не нужен комп за 100-200к.
Однако, если копнуть глубже, то сразу вылезают и регулярные отдыхи 2-3 раза в год на такие суммы, и по 3 авто в семье, постоянно какой-то движ с недвижимостью (звучит как, лол), регулярные разговоры про то как кто-то влошил крупную сумму в очередную пирамиду и она схлопнулась и все подобное. Денег ни у кого нет, все ноют, однако откуда-то присутствует оборот.
Аноним 13/04/24 Суб 14:16:22 #263 №702704 
>>702700
На Кобольде влазит. Rowsplit включил?

И сколько раз уж здесь говорили, что Мику по сути есть только одна:
https://huggingface.co/miqudev/miqu-1-70b/
Аноним 13/04/24 Суб 14:26:40 #264 №702706 
>>702703
>сла - tensorcores убери.
И так без них.Кста, аироборос в принципе с этим флагом работал, тащемта. Медленне чем без него правда что.

> вылетом не заметно переполнения?
Да вроде нет, но тут надо еще разок чекнуть -убедиться.

>>702704
> Rowsplit включил?
Нет, не было.
Анон выше грил что для 4090+p40 это не нужно.
Аноним 13/04/24 Суб 14:26:46 #265 №702707 
>>702703
>Пробовал кто?
Там ссылка на первую версию, и судя по комментам там, она не работает
Но автор уже обучил 2 версию, вот она вроде кое как работает, но не знаю если ли ггуф на нее
Аноним 13/04/24 Суб 14:33:54 #266 №702717 
>>702703
>оно весьма корявое
что-то среднее между претрейн и просто поломаной. PPL более 20 на 4хs кванте - просто в хлам изувечена.
Аноним 13/04/24 Суб 14:34:49 #267 №702718 
>>702663
>Если карта АМД, это ещё не значит что её нет.
Мы же в ai. Амд значит карты нет. И какие могут быть с ней проблемы, если главная проблема с этой всей хернёй - конфликт драйверов? Нет второй карты, нет драйверов, нет конфликтов.

>>702674
Попробовал грид драйвера, винда отвалилась в bsod нахуй. Единственный профит wddm это работающая виртуализация, так-то он не нужен.
Аноним 13/04/24 Суб 14:37:20 #268 №702722 
>>702717
> PPL более 20 на 4хs кванте
Это на каком датасете?
Аноним 13/04/24 Суб 14:40:25 #269 №702728 
>>702718
>Попробовал грид драйвера, винда отвалилась в bsod нахуй.
Работает только указанная мной версия (511.65) и то наверное не у каждого. И скорее всего нужна "чистая установка".
Аноним 13/04/24 Суб 14:44:09 #270 №702731 
>>702700
Кажется понял в чём проблема. У тебя часть видеопамяти 4090 под систему отдаётся, а Мику с 8к нужны все 48Гб впритык. Если всё равно миксы моделей юзаешь, то попробуй размер чуть поменьше.
Аноним 13/04/24 Суб 15:11:25 #271 №702765 
>>702731
> а Мику с 8к нужны все 48Гб впритык
Да не то чтобы, там и больше можно загрузить на q4. Проверить офк стоит выставлением минимального контекста, но скорее всего здесь замешано что-то еще.
Аноним 13/04/24 Суб 15:13:55 #272 №702769 
1.png
>>702728
Если выключаю основную картонку 30й серии нвидия - то работает. Включаю - отваливаются драйвера у теслы. Именно на 511.65. Из остальных попробовал 537.13, инстант бсод на установке, удалил из безопасного режима.
Аноним 13/04/24 Суб 15:18:30 #273 №702775 
>>702722
wikitext
Аноним 13/04/24 Суб 15:20:05 #274 №702777 
>>702775
Ну и пиздец, все в хлам взорвано и оно бредит. Была бы синтия с элементами рп - там такое еще норм, всетаки вариантов выстраивания множество.
Аноним 13/04/24 Суб 15:22:07 #275 №702780 
>>702769
У меня всё работало с 1050Ti, только меня не интересовала её производительность - картинку показывает и ладно. Сначала она тоже не определялась, но потом как-то нашлась в системе. Настроить можно, если очень надо.
Аноним 13/04/24 Суб 15:44:54 #276 №702794 
TCC.PNG
WDDM.PNG
>>702690
>Там х1 PCIE 3.0 или PCIE 1.1 ?
Первое https://ru.msi.com/Motherboard/A520M-PRO-VH/Specification

>TCC — серверный режим, выше производительность, постоянное потребление мощности, нагрев.
>WDDM — десктопный игровой режим, меньше производительность, отсутствие постоянных потребления и нагрева.

Специально провёл тест в режимах TCC/WDDM. Модель Midnight-Rose-70B-v1.0-IQ2_XXS.gguf потому что она сильнее всего нагружает карту.
Результаты на пиках.
TCC - генерация 2.95 t/s
WDDM - 2.92 t/s
Разница не такая существенная. Тем более что при свайпах скорость может скакать.

>>702718
>главная проблема с этой всей хернёй - конфликт драйверов
Ты написал что карту нельзя перевести в режим WDDM на новых драйверах. Я тебе наглядно показал что можно. Остальное - оправдаение.

АМД карта тут есть только у меня и может ещё у 1,5 анонов. Хочешь сказать весь остальной тред на TCC сидит и переключиться не может?

>Амд значит карты нет.
То есть ты собственную криворукость оправдываешь наездом на АМД? Ок.
Аноним 13/04/24 Суб 15:50:31 #277 №702799 
>>702794
>Результаты на пиках.
Ты забыл добавить к результатам конфигурацию оборудования. Если вся модель в видеопамяти, то результаты так себе.
Аноним 13/04/24 Суб 15:50:43 #278 №702800 
>>702690
Я это понял, и извинился, и да прочёл пепрвое сообщение, но невнимательно, потому и оказался в такой ситуации. Просто в ваш тред как не зайдёшь, тут с непривычки такие джунгли, кто-то что-то тестирует, кванты, ггуфы, модели пачками каждый день, модификации, программирование, лоры, жуть как страшно, что ни пост, то что-то новое. Это как пришёл в супермаркет где продаётся всё на свете, а тебе нужна какая-нибудь пластиковая посуда или цемент и ты такой, решаешь, что легче будет просто спросить...
Аноним 13/04/24 Суб 15:59:57 #279 №702812 
>>702780
>Настроить можно, если очень надо
Они тупо чередуются. Оживляешь одну - отваливается вторая.

>>702794
>Я тебе наглядно показал что можно.
Хуй знает, что ты там показал, глупость свою разве что. На новых драйверах как не работало, так и не работает. То, что теслу можно перевести в wddm на старых драйверах и без второй карты - не новость вот вообще ни разу.
Аноним 13/04/24 Суб 16:04:04 #280 №702820 
1qhLEfSnZU8guIvWjLwH5vQ.jpg
>>702479
>>702690
Спасибо.
>>702666
О, то что спрашивал. В таверну бы все это
Аноним 13/04/24 Суб 16:10:42 #281 №702827 
Если с 0 собирать комп для двух п40, есть ли смысл на него убунту поставить? Или лучше всё таки винду? Просто хуй знает, как там с драйверами обстоят дела.
Аноним 13/04/24 Суб 16:17:29 #282 №702836 
>>702827
Тогда уж не комп, а сервак
Аноним 13/04/24 Суб 16:36:19 #283 №702854 
image.png
>>702812
Ну что же, давай разберём по частям тобою написанное.
Началось всё с поста >>702519 в котором я кинул ссылку на вполне себе конкретные драйвера и на инструкцию как перевести карту в режим WDDM.
И тут ты такой >>702538
>По второй ссылке хуйня нерабочая. Возможно, это сработает, если ты накатишь драйвера трёх-пятилетней давности. На свежих не работает.

Далее я тебе кидаю скрин на котором именно эта версия драйверов и режим WDDM >>702571

>Хуй знает, что ты там показал, глупость свою разве что. На новых драйверах как не работало, так и не работает.
Так работает или нет, ты уж определись.
А если ты сейчас начнёшь нести хуйню про то что у меня "драйвера трёх-пятилетней давности", тогда твой первый пост был хуитой, т.к. инструкцию я кидал именно к этой версии, потому что у меня на ней всё работает, а не к абстрактной "новой".

Как теперь будешь оправдываться?
Аноним 13/04/24 Суб 16:36:49 #284 №702855 
>>702836
Ну у меня комплектующих старых дохуя, в том числе бп на 850W
Аноним 13/04/24 Суб 16:43:17 #285 №702860 
>>702799
>Ты забыл добавить к результатам конфигурацию оборудования. Если вся модель в видеопамяти, то результаты так себе.

Так я сравнивал разницу режимов, а не максимальную скорость. 20-30Вмодели работают в десяток раз быстрее, но вот квантованные 70В очень сильно греют карту и работают медленно, хотя памяти занимают столько-же.
Оборудование Tesla P40. Модель полностью входит в видеопамять.
llama.cpp, 81 гпу слой, no-mmap.
Аноним 13/04/24 Суб 17:12:29 #286 №702882 
>>702860
>Модель Midnight-Rose-70B-v1.0-IQ2_XXS.gguf
Странно, на Обниморде я такой не нашёл. Вот такая например есть:
https://huggingface.co/mradermacher/Midnight-Rose-70B-v2.0.3-i1-GGUF
А для первую версию с матрицей важности не нашёл. Ну могу прикинуть, сколько она выдаст у меня.
Аноним 13/04/24 Суб 17:15:07 #287 №702887 
>>702854
>Далее я тебе кидаю скрин
С одной картой. Гайд под две. Гайд хуйня нерабочая. Остальную твою шизофазию даже разбирать лень.
Аноним 13/04/24 Суб 17:20:38 #288 №702893 
>>702694
В субботу, сегодня.
Завтра днд в клубе.

>>702703
> Воу воу, палехче. Даже если взять порт 2.0, то там псп около 500МБ/с, загрузит полную память меньше чем за минуту, а если у тебя сата на ссд - на почувствуешь разницы.
Тоже думаю.

> Однако, если копнуть глубже
Еда с доставкой. =)
Простите, знакомые.
Аноним 13/04/24 Суб 17:24:01 #289 №702896 
>>702794
Две теслы, в тсс 6,4, в вддм 4,3.
Так то вддм бережнее относится к карте, но имей в виду, да.

И это 4_к_м, если что.

>>702827
С нуля сервак на линухе звучит неплохо, если устроит.
Я лично по рдп хожу в винду.
Аноним 13/04/24 Суб 18:08:49 #290 №702938 
>>702860
Попробовал однотипную модель Midnight-Rose-70B-v2.0.3-i1-GGUF на моей системе. Загрузил её на одну Теслу из двух и получил практически такие же результаты, как и у тебя. Для интереса загрузил модель на две теслы, включил rowsplit - и скорость генерации возросла почти в два раза. Интересный эффект.
Аноним 13/04/24 Суб 18:10:27 #291 №702943 
>>702938
Аноны с тремя и более теслами есть в чате? :) 2 Теслы и 30-4090 тоже подойдут.
Аноним 13/04/24 Суб 18:14:34 #292 №702946 
Я ребята почитал вас и понял свою ущербность железом. 8400 16 рам и 970 которую обсмеяли за ее 3,5 гига во время ее выхода. Что я могу поднять ? С приемлемым временем. Спасибо заранее.
Аноним 13/04/24 Суб 18:15:24 #293 №702948 
>>702946
7b из шапки опенчат, квант ну 4-5
Аноним 13/04/24 Суб 18:17:25 #294 №702952 
>>702948
Fimbulvetr-11B-v2.i1-Q4_K_M
На кобольде порядка 40 секунд ответ. Но спасибо.
Аноним 13/04/24 Суб 18:20:09 #295 №702953 
>>702952
i кванты могут быть медленнее на процессоре, 7b получишь 7-8 токенов в секунду как минимум, ну и оно на русском может лучше болтать
Аноним 13/04/24 Суб 18:25:07 #296 №702960 
>>702953
А мне Русский не нужен но спасибо за ответ, я думал что то взять из видео карт и я так понял побольше куда ядер нужно и памяти. Так?
Аноним 13/04/24 Суб 18:28:22 #297 №702965 
>>702960
Емкость памяти важнее, тут вон даже древние тесла р40 берут чисто изза 24 гб врам.
Аноним 13/04/24 Суб 18:31:33 #298 №702971 
>>702965
Ну спасибо в любом случае. Очень интересная кстати идея собрать сервер с соответствующим обдувом в серверном или похожем шкафу вдали.
Аноним 13/04/24 Суб 18:37:51 #299 №702979 
>>702971
Наивный. Здесь светились аноны с подобными сборками, всё сложно.
У 2-3U серверов - кластеров видеокарт вентиляторы ревут как пылесосы. Создаваемое ими давление достаточно чтобы продувать очень горячие теслы с высоким аэродинамическим сопротивлением.
Во-вторых, материнские платы с большим количеством каналов pci-e это дорого или ненадёжно и муторно.
А ещё надо раздобыть бп.
Аноним 13/04/24 Суб 18:44:30 #300 №702987 
>>702979
Наверняка ещё и электричества за 5 квартир жрут
Аноним 13/04/24 Суб 18:45:44 #301 №702988 
Да на нем нельзя экономить, сожжешь все.
Аноним 13/04/24 Суб 18:51:06 #302 №702993 
>>702979
> А ещё надо раздобыть бп.
На озоне прям щас, чего там раздобывать
Аноним 13/04/24 Суб 18:56:50 #303 №702998 
>>702979
Не совсем так. Можно собрать не слишком громкую систему, которую почти не будет слышно из соседней комнаты. Конечно дороговато. Вот анон в одном из прошлых тредов показывал китаемать с 4 PCI-e слотами на X99; корпус хороший, большой и продуваемый под это дело десятку стоит; БП на 1200 ватт c 8 хвостами PCI-e 6+2 - где-то 18к нынче. Можно собрать. А потом какой-нибудь Интел как выпустит приблуду для инференса, которая кроет весь этот сундук как бык овцу - обидно будет :)
Аноним 13/04/24 Суб 19:08:18 #304 №703005 
>>702998
>китаемать с 4 PCI-e слотами на X99
Хмм...
Это тот чел с двумя процессорами?
Это я и моя китаемать C612 с 6ю слотами pcie X8 и X16 срыгнула чипсет.
Аноним 13/04/24 Суб 19:13:42 #305 №703010 
>>703005
>Это тот чел с двумя процессорами?
Нет, там вроде один процессор предполагался и плата была рефаб конечно, но новая. Б/у плата для такой задачи у меня и у самого сдохла.
Аноним 13/04/24 Суб 19:33:54 #306 №703031 
>>703010
А какая у тебя была плата и как долго работала?
Аноним 13/04/24 Суб 19:34:01 #307 №703032 
Я так понимаю у p40 вход питания как от процессора и нужен переходник чтобы подключить как обычную видюху?
Аноним 13/04/24 Суб 19:34:33 #308 №703033 
>>703032
>нужен переходник
Да
Аноним 13/04/24 Суб 19:50:32 #309 №703051 
>>702946
До 20B модельку с контекстом на видяхе, полагаю.

Пробуй 7б, 11б, 13б, 20б. Может 18б какие-нибудь.
Ищи для себя комфортную скорость генерации.

>>702960
Нет, побольше памяти. =) А во вторую очередь все остальное.

>>702998
У меня на две теслы бпшка 20+ =)

>>703032
Мне оба раза клали в комплект.
Аноним 13/04/24 Суб 19:53:57 #310 №703054 
А куда из публичного дискурса пропал такой мутант, как 2080ти 22гб? Прям как будто все забыли про неё.
За 50к топ вариант же, не?
Аноним 13/04/24 Суб 19:57:08 #311 №703059 
>>702887
>твою шизофазию
Ты же сам пост назад писал что
>На новых драйверах как не работало, так и не работает.
А теперь уже
>С одной картой
работает
Кто тут шизит ещё.
Аноним 13/04/24 Суб 19:57:37 #312 №703061 
>>703051
>У меня на две теслы бпшка 20+ =)
Более интересен вопрос, какая у тебя игровая карта, не NVidia случаем? А то тут выяснилось, что llamacpp вполне так умеет в параллелизм и покупка третьей теслы (или другой nvidia-карты) имеет смысл и кроме плюса к памяти...
Аноним 13/04/24 Суб 19:59:30 #313 №703064 
>>703031
>А какая у тебя была плата и как долго работала?
Asus WS X99, б/у. Три дня.
Аноним 13/04/24 Суб 20:01:59 #314 №703066 
>>702882
https://huggingface.co/Artefact2/Midnight-Rose-70B-v1.0-GGUF
По версии Аюми, самая умная 70В.

>>702938
Любопытно, возможно две Теслы как-то лучше оптимизируют процесс на больших моделях.

>>702896
>Две теслы, в тсс 6,4, в вддм 4,3.
Ну ХЗ, на одной я разницы не заметил, в том числе в SD.
Аноним 13/04/24 Суб 20:10:54 #315 №703078 
>>703066
>Любопытно, возможно две Теслы как-то лучше оптимизируют процесс на больших моделях.
А уж мне-то как любопытно - у меня 4 слота и только 2 из них заняты.
Аноним 13/04/24 Суб 20:24:38 #316 №703093 
>>703078
Так разные драйвера по разному костыльно включены, вот и разница в скоростях
Аноним 13/04/24 Суб 20:34:52 #317 №703104 
>>703093
>Так разные драйвера по разному костыльно включены, вот и разница в скоростях
Нет, на одной тесле скорости одинаковые. А на двух уже гораздо выше. Надо бы и другие модели погонять.
Аноним 13/04/24 Суб 21:33:03 #318 №703166 
https://youtu.be/ciyEsZpzbM8
Нейровайфу все ближе
Аноним 13/04/24 Суб 21:48:25 #319 №703185 
>>702827
Однозначно. Если комп будет именно для нейронок и около того, а не повеседлевной эксплуатации - шинда на нем будет максимально неуместно смотреться. С драйверами, совместимостью и прочим все космос, вот только будь готов к пожарам в первое время, ибо даже парадигма взаимодействия юзера с системой тут другая и вагон нюансов. Когда освоишься - будешь инджоить.
>>702893
> Еда с доставкой. =)
О, спасибо что напомнил, а то заведение закроется и придется что-то из круглосуточных заказывать.
Но если серьезно - то чем нищее в действительности, тем больше странных понтов типа регулярных поездок на такси вместо от со всеми, странных покупок, походы в кафе-рестораны без повода, заказы, шмотты, гейфон в кредит так вообще база. А потом нытье и просьба одолжить, ну вот нахрен так жить.
>>702938
> Загрузил её на одну Теслу из двух и получил практически такие же результаты, как и у тебя.
Остальное на процессоре? Тогда вполне закономерно.
>>702943
Скейлится линейно, в первую очередь растет время обработки промта на жора, даже на мелких моделях если поделить то будет медленнее чем на одной, чем больше тем хуже эффект. Где-то даже линк про это кидали вроде в прошлых тредах.
>>702946
Если ты раньше не упарывался ллм - попробуй современные 7б что рекомендуют, будет крайне доволен. Правда потом захочется большего, и придется тратиться на железо.
Аноним 13/04/24 Суб 21:53:12 #320 №703195 
>>703185
>Остальное на процессоре? Тогда вполне закономерно.
А если нет? :) 18 гигов модель. Ещё 6 на контекст должно быть больше чем достаточно.
Аноним 13/04/24 Суб 22:04:25 #321 №703212 
>современные 7б что рекомендуют
Без цензуры бы? Тут был парень писал про
zephyr-7b-beta.Q4_K_M но она слабовата
Аноним 13/04/24 Суб 22:06:15 #322 №703216 
>>703195
> 18 гигов модель
Чтооо? Это же ультралоботомит если помещается в 24 гига. Алсо жор на контекст от степени заквантованности не зависит.
Аноним 13/04/24 Суб 22:12:24 #323 №703225 
>>703212
>>703185
Вот так вот
Аноним 13/04/24 Суб 22:13:19 #324 №703226 
А модели для кума 70b есть лучше чем fimbulvetr v2/fimkuro?
Пока что я даже среди 20b и 30b ничего не нашел лучше.
Аноним 13/04/24 Суб 22:14:33 #325 №703227 
15540200205180.jpg
>>702053
>>702066
>>702084
>>702119
>>702298
Я темню чтобы банально не сдеанониться ни сейчас, ни в будущем по проекту.
Во первых, 50к это не так уж и дохуя как по мне.
Во вторых, да - вы правильно уловили концепцию о персональных данных/предателей родины, хотя в моем проекте никаких персональных/личных данных людей нету (далее я опишу подробнее). Наведу по вашим догадкам пример:
1) Форма #1:
Имя: Иван
Фамилия: Ерохин
Возраст: 26
Образование: псифак спббгу
Доход: $8к после налогов
Источник дохода: скрам-мастер
Имущество: две сдающихся хаты в центре спб
Место жительства: у тян
Output: вероятность передать свои гены 98,7%

2) Форма #2:
Имя: Славик
Фамилия: Сычев
Возраст: 39
Образование: заборостроительный коледж
Доход: 14к рублей
Источник дохода: Пенсия по шизе
Имущество: некропека
Место жительства: у мамки на шее
Output: вероятность передать свои гены 0,3%

3) Форма #3:
Имя: Евдоким
Фамилия: Бетабаксер
Возраст: 31
Образование: псифак спббгу
Доход: $1.5к
Источник дохода: Джун-крудомакака
Имущество: своя квартира
Место жительства: в своей квартире
Output: вероятность передать свои гены 71,2%

Очевидно что output не принципиален, должна быть только цифра
Только в моем проекте есть нюанс. По примеру выше нейросеть вероятно может понять и выдать output просто базируясь на своей базовой модели (поправьте если я не правильно написал). Я думаю что тот же ChatGPT-4 на данном этапе его развития может выдать какой-то относительно вменяемый ответ и без обучения.
Проблема в том что в моем проекте данные (поля) не такие очевидные, а если точнее вообще не очевидные и логически не информативные. То есть дефолтная нейросеть точно никак не разберется по ним сходу и будет генерить шум. НО, у в моих формах в реальном мире есть связь между данными в нескольких полях и по ним в теории вполне себе можно выдавать +-точный процент вероятности в output.
>Ну так считай тогда свою вероятность простыми алгоритмами, зачем тебе нейронка
В моих полях произвольные данные вариаций которых дохуя, а тем более связей между ними. Поэтому и есть идея скормить их все нейронке которая должна их находить и выдавать свой процент вероятности.
Я думаю что отдаленно концептуально похожая ситуация была в шахматах/го. Нейронке скормили историю огромной кучи игр, она начала находить неочевидные человеку связи о том как лучше походить и затем начала ебать чемпионов мира.

>>702298
Отдельное спасибо, буду курить.
Аноним 13/04/24 Суб 22:25:53 #326 №703240 
>>703227
Техподдержка СБ спермобанка, ты? Иди на хуй.
Аноним 13/04/24 Суб 22:28:56 #327 №703242 
>>703227
>да - вы правильно уловили концепцию о персональных данных/предателей родины
Тогда помогать тебе никто не будет. Я вот один из этих "предателей родины", либерал до мозга костей. Так что увы и ах.
>похожая ситуация была в шахматах/го. Нейронке скормили историю огромной кучи игр
Эм, погугли альфа го зеро.
>>703240
Если у него там проценты выплаты кредита, то строго похуй, такие проверки должны инициализироваться самим человеком. Хотя спамеров ненавижу до глубины души, желаю им всем рака яичек и мучительной смерти.
Аноним 13/04/24 Суб 22:33:02 #328 №703247 
>>703227
Я иной раз думаю что вы все продвинутые сетки но это весна просто
Аноним 13/04/24 Суб 22:36:33 #329 №703253 
>>703185
>Скейлится линейно, в первую очередь растет время обработки промта на жора, даже на мелких моделях если поделить то будет медленнее чем на одной, чем больше тем хуже эффект.
Нифига, только что проверил на fimbulvetr_Q8. На двух картах с rowsplit производительность примерно на 10% выше, чем если запустить модель на одной карте. Да, не в два раза - похоже, что в Midnight Rose какие-то проблемы с i-квантами и модель работает очень тяжело - но эффект определённо есть. Вопрос лишь в том, добавит ли третья тесла ещё 10% :)
Аноним 13/04/24 Суб 22:40:59 #330 №703261 
>>703242
>Если у него там проценты выплаты кредита
У них и так есть комплексы для автоанализа, которые через очко работают, лично наблюдал как потомственному алкашу без гроша в кармане и черной кредитной историей одобряют кредит на водочный завод и пять кредиток с лимитами с 100к каждая, а чистенькому славику сычеву с безупречной репутацией предлагают анус пососать. Скорее я бы ставил на то, что сетку прикручивают к анализу данных в соответствии с маняуказами банка рахи чтобы прижимать серый рыночек сильнее, там как раз миллион указаний по вычислению п2п, обнальщиков и неплательщиков налохов. Либо с той же вероятностью это манямошенник на зарплатке у кабан кабаныча, который доверчивых лахов разводит по телефону. Кароч, не нужно тому челу помогать, любой чел работающий с ПД - хуесос обычно.
Аноним 13/04/24 Суб 22:41:24 #331 №703262 
image.png
ЧЗХ?
Поставил kunoichi-dpo-v2-7b.Q8_0 по гайду с SillyTavern
Аноним 13/04/24 Суб 22:49:46 #332 №703278 
>>703262
Обычная соя. Замени на Sure! и нажми на кнопку продолжить.
Аноним 13/04/24 Суб 22:54:28 #333 №703286 
>>703240
>>703242
>>703247
Все мимо.
>Тогда помогать тебе никто не будет. Я вот один из этих "предателей родины", либерал до мозга костей. Так что увы и ах.
Пиздец, вы хотя бы посты до конца читайте.
Впрочем я и сам не заметил линки в шапке
Аноним 13/04/24 Суб 22:59:32 #334 №703297 
>>703286
Бля не несите седа грязь политики
Аноним 13/04/24 Суб 23:07:36 #335 №703318 
>>703227
Ладно, пока подобным поручают заниматься некомпетентным - нечего бояться. Если хочешь базовые закономерности - тебе действительно в классификацию текста, там есть даже большие модели. Скорее всего придется делать цепочки из них но это сложно, алсо зря недооцениваешь ллм.
В любом случае, по подобным отрывочным данным сомнительной актуальности даже идеальная система будет не сильно лучше просто подбрасывания монеты кроме совсем простых случаев где (сложные) нейронки не нужны.
>>703253
> rowsplit
Хуй знает что это и i-квантами этими не пользуюсь. Тема ускорения с несколькими картами интересна, но слишком уже хорошо звучит чтобы быть правдой, больше похоже на костыльное возвращение того что забрали и что должно быть сразу быстро работать.
Аноним 13/04/24 Суб 23:13:55 #336 №703329 
>>703061
> Более интересен вопрос, какая у тебя игровая карта, не NVidia случаем?
У мення 4070ти, но это в игровом компе.
В тесловом — две теслы.
А пихать три карты, колхозить и т.д. мне искренне лень.
Я сепарировал: есть игровой, есть для ллм, есть для всего остального.
Может быть, когда я возьму современную мультислотовую материнку, через годик…
Пока точно нет.

>>703166
Опять тот же баян, у нас пару месяцев назад чел в треде завозил такое в таверну.

>>703185
> регулярных поездок на такси
Кстати, да.
Я лично ездил пока было холодно, сейчас хочу пешочком —полезно для здоровья прогуляться.

>>703261
Никогда не понимал этой хуйни под катом.
Когда мне дают кредитку в размере полутора месячных заработков, а бомжу — в пять раз больше… На чем они, блядь, зарабатывают, если бомжу нечем отдавать?!

>>703286
Я нихуя не понял, лично.

———

Вообще, самый пиздец, что когда я за политику высказался по существу — мой пост снесли.
А когда двое дебилов тут срались по хуйне — их срач оставили.
Давайте в натуре без политики, а то опять хуйня с обеих сторон польется, от людей, нихуя не понимающих, зато перекат наступит через день.
Не флудите, плиз.
Давайте про ллмочки.
Аноним 13/04/24 Суб 23:15:38 #337 №703333 
>>703318
Роусплит распределяет слои по разным видяхам, чтобы они читались параллельно и работали одновременно, а не пиками — то одна карта, то другая, по очереди, пока одна работает — другая простаивает.
i-кванты забыл, но тоже полезное, что-то схожее с матрицами, как в экслламе, вроде, только в ггуф.
Но тут могу спиздеть, пусть знающие пояснят.
Аноним 13/04/24 Суб 23:19:27 #338 №703339 
>>703329
> Никогда не понимал этой хуйни под катом.
А что понимать, банку выгодны просрочки
Аноним 13/04/24 Суб 23:21:49 #339 №703340 
>>703329
Я так понимаю нвидия карточки получше себя чувствуют
Аноним 13/04/24 Суб 23:23:34 #340 №703342 
>>703333
>i-кванты забыл, но тоже полезное, что-то схожее с матрицами, как в экслламе, вроде, только в ггуф.
Аналог flash attention, как я понял, чтобы экономить видеопамять.
Аноним 13/04/24 Суб 23:28:37 #341 №703352 
>>703333
Еще почти год назад показывали концепцию как можно распараллелить, да еще на несовпадающие по перфомансу узлы, но как-то и заглохло. Интересно, оно ли это.
> i-кванты забыл, но тоже полезное, что-то схожее с матрицами
Ну это закос под exl2 при квантовании где используется не дефолтный шаблон а индивидуальная маска.
>>703342
> Аналог flash attention, как я понял, чтобы экономить видеопамять.
Нет, норм атеншна туда так и не завезли до сих пор.
Аноним 14/04/24 Вск 00:23:17 #342 №703407 
>>703329
>Когда мне дают кредитку в размере полутора месячных заработков, а бомжу — в пять раз больше… На чем они, блядь, зарабатывают, если бомжу нечем отдавать?!
Просто бомж ладно, прям совсем бомжам не выдают конечно, маргиналам выдают это да частый гость в микрозаймах и имеет какую-то кредитную историю, плюс банки любят под залог имущества давать, плюс маргинал легко согласится на более высокий процент. Плюс там разные нюансы есть типа невыездности, судимости, семьи, что плюс для банка, т.к. должник не съебется с территории страны с кредитом. А челик без кредитной истории, без семьи, с заграном это более опасный кадр получается, еще и под залог скорее всего не захочет ниче брать.
Аноним 14/04/24 Вск 00:36:35 #343 №703426 
>>703407
> кредитную историю
Ты или диванный или из другой страны. Здесь нет кредитной истории в западном понимании, смотрят на нарушения договора, просрочки платежей, несвоевременные страховки, банкротства и подобное, а на наличие успешно закрытых микрозаймов на планшет всем похуй. По остальному от пункта зависит, где-то актуально.
> челик без кредитной истории, без семьи, с заграном
Лучший клиент, которому предлагают наилучшие условия чтобы завлечь.
Аноним 14/04/24 Вск 00:39:03 #344 №703428 
image.png
>>703278
>Sure! и нажми кнопку продолжить
Это где? Я думал надо модель uncensored качать, а таких мало чет
Аноним 14/04/24 Вск 00:46:14 #345 №703442 
изображение.png
>>703428
>Это где?
В трёх полосках в конце.
>Я думал надо модель uncensored качать
Можно и так.
Аноним 14/04/24 Вск 01:31:47 #346 №703521 
>>703262
Это серьезно так отвечает сетка ох лол
Аноним 14/04/24 Вск 01:40:30 #347 №703524 
>>703262
Перезалили? Проверь дату файла на обниморде, вроде куноичи должна быть ерп сеткой как бы, как ты вобще такого вывода у нее добился
Аноним 14/04/24 Вск 03:01:06 #348 №703570 
>>703524
Просто поставил все по гайду с таверны, ток квантование побольше выбрал и n-gpu-layers 256. В гайде линк на куноичи файлы от brittlewis12, ща попробую от TheBloke.
Аноним 14/04/24 Вск 03:35:58 #349 №703590 
image.png
ЩИТО делать куноичи не работает
Аноним 14/04/24 Вск 05:40:45 #350 №703612 
>>702666
>>702667
>>702669
>>702672
Соус видео (там же в нормальном качестве): https://t.me/tensorbanana/897
Аноним 14/04/24 Вск 05:54:09 #351 №703613 
>>703590
Пробуй другие модели, есть из чего выбрать.
https://2ch.hk/ai/res/683814.html#684219
Аноним 14/04/24 Вск 05:54:09 #352 №703614 
>>703227
Мало того, что, возможно, разрабатываешь очередное ПО для кибергулага за зарплату, так ещё и эту зарплату нормально отработать не можешь, ещё и работодателю напиздел про опыт, небось, бежишь на анонимный форум за бесплатными советами.
Аноним 14/04/24 Вск 06:13:02 #353 №703617 
>>702467
>Но меня загрузочные тупняки доебали и я запихал теслу в корпус
заместо амд карточки?
у тебя с HDD грузится моделька? потому что у меня с SSD NVME на теслу, которая в слоте x1 стоит грузится максимум минуту.

думаю взять вторую теслу, и их через райзеры x1 подключить, только вот они в корпус точно не влезут, как и в мамку. (проблема в том, что у меня еще есть карточка, которая занимает 4 слота) голову ломаю как их в мамку поставить, и какой корпус взять, чтобы можно внутри все это разместить.
Аноним 14/04/24 Вск 06:41:58 #354 №703619 
>>703590
Ого, тебе нейронка отказывает? Или это от персонажа зависит?
Аноним 14/04/24 Вск 06:56:19 #355 №703622 
pepe-cover.png
>>703612
Подключаем трехмерную голограмму и готово! Бегущий по лезвию.
Но, пока конечно это все дороговато по ресурсам выходит. Слишком энергозатратно. Думаю лет 5 еще оптимизаций и все 10 до отличного качества
Аноним 14/04/24 Вск 07:58:49 #356 №703632 
>>703617
>заместо амд карточки?
Да.
>у тебя с HDD грузится моделька?
Да.
Но после того как поставил в Х16 слот, модели грузятся максимум минуту-две. У меня ещё были просто задержки перед загрузкой в пару минут, когда в память ничего не грузится и карта проставиает, после вставки в быстрый слот прошли.
+ Я ещё Стейбл на Тесле немало гоняю, а там при смене веса лоры модель начинает грузится повторно, а когда у тебя 6 лор и каждую надо настроить это пиздец.
Скорость загрузки кстати больше зависит от количества параметров модели, чем от её веса. Всё что не 70В грузится гораздо быстрее, но об этой проблеме анон выше писал, что на 2 теслах эта проблема внезапно уходит.
Аноним 14/04/24 Вск 08:06:36 #357 №703634 
>>703632
походу эти лаги все подгрузка именно с HDD в рам сначала, потом оно передается в карточку. я вспомнил, что у меня были похожие проблемы, когда именно с usb hdd грузил большую модель, оно вообще отлетало на минут 15, в hdd через проводник нельзя было войти, пока моделька полностью не прогрузится.
Аноним 14/04/24 Вск 08:08:50 #358 №703635 
>>703612
А более глубокое взаимодействие можно запилить? Чтобы сказать музыку запустить и т.д? Чел вообще планирует такое?
Аноним 14/04/24 Вск 08:54:37 #359 №703645 
>>702777
Следующий выродок https://huggingface.co/Vezora/Mistral-22B-v0.2
такой же шизоид с PPL = 16.6894 +/- 0.13981 (это на IQ4_XS)
Что пытается сделать - непонятно. Это все равно что с нуля обучать.

Future plans, train 4-5 more of these experimental models gather preliminary testing results, and then run evaluations on all the models I see have the best possibilities of excelling, then use the best one.
посмотрим что у него получится.
Аноним 14/04/24 Вск 09:11:49 #360 №703652 
3QzmuaW-0y8.jpg
>>703407
Ну, кредитная история у меня 15 лет, без единой просрочки, и там все норм.
Но по остальным пунктам, да.
И под залог не захочу.

>>703426
> Лучший клиент, которому предлагают наилучшие условия чтобы завлечь.
пикрел

Щас-то не надо, но пару месяцев назад было актуально.

>>702018
Я таки решился это прочесть.
Лучшие умы бьются над созданием AGI, а ты такой «а можно она будет выдавать корректность данных формы?..»
Ваще без проблем, братан, кидаешь форму, просишь оценить вероятность, получаешь ответ.
Рандомный, ибо она не обучалась на твоих формах.
Допустим, у тебя есть датасет из 100% корректных или некорректных форм.
Обучаешь на ней, и она тебе выдает… в общем-то, тоже весьма случайные ответы, так как ее токены не зависят от данных в таблицах, а от последовательности буков, что не всегда прямо коррелирует с ожидаемым тобой результатом.
В какой-то момент она решит, что бомж не даст потомства, в какой-то подумает, что он не предохраняется и у него есть бомжиха и шансов у него гораздо выше.
Тащемта, тут совета два.
1. Не брать ллм, обучать с нуля, под конкретную задачу.
2. Не браться за работу, в которой нихуя не понимаешь. Нет, это серьезный совет. Не шаришь — не лезь. Не обещай разобраться в чем-то, тебе не родственном. Никогда не соглашайся с родителями/друзьями/еще кем-то, когда тебя просят заняться «потому что ты программист» или по другой хуйне.
Абстракция понятна, в детали не вдавался.
То есть — нахуй не знаю, ничего не обещаю, могу посмотреть.
Потом отвечаешь «посмотрел, тупой, нихуя не понял».
И честно, и лучше, чем обосраться по полной.

>>703622
А в чем проблема с 3д-то? Чисто оборудование для голограмм дорогое? :)

>>703632
100% дело не в версии слота.
И зависит от веса.

У меня три компа, 4 разных видюхи, 1-2-видяшные конфиги, год тестов за плечами — зависимость всегда линейна, если нет упора в диск.
Аноним 14/04/24 Вск 09:39:33 #361 №703654 
>>703634
>>703652
>100% дело не в версии слота.
В случае LLM всё действительно не так однозначно.
А вот с SD проблемы порешала именно версия слота. На райзере, после любого пука с твоей стороны, приходилось ждать перегрузки модели и лор минуту-две, сейчас 5-10 секунд. Тут разница огромна.
Аноним 14/04/24 Вск 11:51:17 #362 №703709 
Скорость работы LLM на процессоре страдает из-за пропускной способности памяти?
Аноним 14/04/24 Вск 12:18:31 #363 №703728 
>>703709
Нет, в основном из-за того что процессор это устройство для последовательных вычислений, а гпу для параллельных. Последовательный перебор при инференсе очинь медленный, это тупа аналог брутфорса на процессорной архитектуре. Видяхи ебашат всеми ядрами подряд в разные стороны на всем протяжении инференса. Вовторых количество ядер, у цпу их мало, у гпу до пизды: например вот условно у проца скорость 5к ггц на ядро и 4 ядра, итого он может выполнить в секунду условно 20 000 000 циклов вычислений в мегагерцах; 3060 же в этот момент имеет на борту 3584 ядер куда и каждый работает на 2200 мегагерцах, количество операций на этой карте в идеальном мире 2200 10^6 3584 герц, то есть 7 884 800 000 000, то есть почти 8 триллионов операций в секунду (без поправок на задачу, алго, архитектуру и прочий кал). Плюс да, у видяхи более быстрая память распаянная на плате, а не слотовый тормоз в портах мамки.
Аноним 14/04/24 Вск 12:20:13 #364 №703730 
>>703728
>20 000 000 циклов вычислений в мегагерцах
20 000 000 000 в герцах

фикс
Аноним 14/04/24 Вск 12:22:55 #365 №703732 
>>703728
>Нет, в основном из-за того что процессор это устройство для последовательных вычислений, а гпу для параллельных.
А все нейросети это слои матриц с миллиардами параметров, следовательно параллельные вычисления дают ебейший буст просчета этих матриц.
Аноним 14/04/24 Вск 12:37:30 #366 №703744 
>>703652
>А в чем проблема с 3д-то? Чисто оборудование для голограмм дорогое? :)
Я вообще в целом о паке Stt-Llm(особенно 100b+)-Tts-lipsinc.
Электричества жрет и ресурсов много.
С голограммами вообще жесть выйдет. Сколько они стоят? Я чет даже не нагуглил.
Аноним 14/04/24 Вск 12:46:14 #367 №703751 
>>703709
Да, если у тебя 6-8 и больше ядер то упор в скорость оперативки. Тупо делишь общую скорость своей оперативки в гб/с на размер модели, и получаешь идеальное количество токенов в секунду на нейронке. Идеальное, тоесть выше этого скорость стать не может, ну и в реальности свою задержку добавит размер контекста и само время обсчета процессором.
Аноним 14/04/24 Вск 12:58:03 #368 №703760 
>>703744
Кстати подумал, что голограммы пока это слишком сложно. Думаю лучше в эту связку добавить VR/AR очки. Уже сейчас реально и не особо затратно.
Аноним 14/04/24 Вск 13:29:36 #369 №703804 
>>703760
Да для начала просто более естественную анимацию сделать, а потом уже формат вывода настроить, хоть в вр хоть на голограмму
Аноним 14/04/24 Вск 13:29:48 #370 №703805 
image.png
>>703262
Ты альпаку в Instruct Mode выставил?
>Q8_0
Лучше бы 13b Q4_K_M.gguf взял.
Аноним 14/04/24 Вск 13:31:45 #371 №703808 
>>703751
Я вот задумался о сборке на AMD EPYC второго или первого поколения. Из-за наличия 8 каналов памяти можно достичь довольно большой пропускной способности например 190.7 GiB/s у EPYC 7282 а у двухсокетной конфигурации будет еще больше. (И да, я знаю про NUMA и что она в любом случае подпортит мне жизнь, но у той же llamacpp вроде есть поддержка нумы) Вот только не понятно что эта сборка в итоге родит из-за отсутствия тестов. Обычных тестов и так мало, тесты llm в 8ми канальной комплектации оперативки найти не выходит, про 16 каналов вообще молчу
Аноним 14/04/24 Вск 13:35:19 #372 №703809 
В пизду.
Завтра еду покупать 4070ти шупир.
Заебала П100 со своей проблемой несовместимости с КУДА.
Переустановил дрова, куду, питорч. Всё ок, весело работаем.
5-10 моделей позагруешь- хуяк ваша куда не куда.
Куплю в 3080ти и буду сидеть-пердеть.
Аноним 14/04/24 Вск 13:39:24 #373 №703814 
>>703808
Ну, в тех же маках унифицированная оперативка, и я так понимаю они тоже кучей каналов соединены с процессором.
И ниче, гоняют даже новую микстраль.
Чисто логически важна только пропускная способность чтения рам, как она достигается похуй.
Пока это все на одном процессоре, по крайней мере.
Не знаю только переварит ли процессор все эти 190гб/с, но если да, то скорости будут неплохие.
Даже если взять командер 35b, это 25 гб 4 квант контекст+модель, теоретически 6-8 токенов в секунду получишь.
Для процессора уже неплохо.
Или командер+ 100b, 50 гб в 4 кванте, + контекст 10гб, ну, 3 токена в секунду, хотя бы так.
Новый микстраль где то так же выйдет, может до 5-7 т/с
Опять таки это все на глаз, как там в суровой реальности хз
Аноним 14/04/24 Вск 13:50:44 #374 №703827 
>>703728
Там недавно революционный ии ускоритель выкатывали. С последовательными вычислениями. Якобы даёт ебейший буст, ведь LLM это последовательные вычисления - ты не можешь получить второй токен, пока не получил первый.
Аноним 14/04/24 Вск 13:52:03 #375 №703830 
>>703808
>Вот только не понятно что эта сборка в итоге родит из-за отсутствия тестов. Обычных тестов и так мало, тесты llm в 8ми канальной комплектации оперативки найти не выходит, про 16 каналов вообще молчу
Поискать вариант облачного сервера на них, и проверить. ХЗ конечно есть такие или нет. Да хоть на среддите пост написать с просьбой проверить, может кто то имеет и гоняет.
Аноним 14/04/24 Вск 13:56:21 #376 №703835 
Анон, посоветуй плиз топовую модель для 4090 чтобы сделать чат с персонажем.
Последний раз когда смотрел вроде Мистраль был в топе. Есть что-то новое?
Аноним 14/04/24 Вск 14:04:20 #377 №703844 
>>703809
Погоди, не суетись. P100 карта проблемная, но не без бонусов. Вот почитай:
https://github.com/turboderp/exllama/discussions/203
Аноним 14/04/24 Вск 14:14:24 #378 №703852 
Пиздец, че за мудак придумал использовать llm для кума?! А?! Я блядь так без члена останусь, сука!! Такими темпами реально вымирание населения ускорится.
Аноним 14/04/24 Вск 14:20:17 #379 №703856 
artworks-hwBISkOdeGM0ZfPD-TfYzsw-t500x500.jpg
>>703852
Это только начало.
Аноним 14/04/24 Вск 14:20:24 #380 №703857 
>>703844
Если бы не ошибка с КУДА- п100 была бы просто отличной картой. Шина просто шарф.
Но никак не выкуплю проблему с КУДА. При том что П100 поддерживает 12.4.
Ставил и 11 и 10, остается только 6 накатить. Но уже нафиг.
А хочется все такие 34 гонять и не 13б.
Аноним 14/04/24 Вск 14:24:58 #381 №703862 
>>703856
Ага, сейчас Маск выпустит своих роботов с возможностью подключения гениталий иии.. Все! Пиздец! Я и так уже подозреваю, что хитрые корпораты дают доступ к неплохим моделям только для того, чтобы народ сдрочился и превратился в животных без самосознания.
Аноним 14/04/24 Вск 14:26:08 #382 №703864 
>>703862
>превратился в животных без самосознания
Ну тащемто есть человечество сократить до 3-4 млрд то вообще отлично. Всё только спс скажут.
Аноним 14/04/24 Вск 14:30:04 #383 №703867 
>>703852
>Такими темпами реально вымирание населения ускорится.
>>703862
>Ага, сейчас Маск выпустит своих роботов с возможностью подключения гениталий иии.. Все! Пиздец!
Это для нас пиздец. А вот в целом для планеты наоборот збс. Людей уже почти 8 миллиардов Карл. Лучшего момента для появления андройдов со сменной вагиной и не придумать тем более что в РФ не завезут если только через Казахстан по параллельному импорту лол
Аноним 14/04/24 Вск 14:31:37 #384 №703870 
>>703852
Тем временем Африка и индусы с 10 детьми у которых даже сети нет - мы для тебя просто шутка?
Аноним 14/04/24 Вск 14:35:37 #385 №703875 
>>703870
До них корпораты уже дотянулись, скоро срать на улицах перестанут. Ты посмотри сколько инвестиций в Индию и Африку сейчас вливается, Индия станет второй мировой фабрикой.
>>703867
На самом деле населения дико не хватает, точнее квалифицированного населения, а не голых бомжей без образования, но вот как раз такие люди и "сдрочатся".
Аноним 14/04/24 Вск 14:39:26 #386 №703879 
>>703875
Хз насчёт индусов, но в Африке у многих нет электричества и проблемы с водой. И им банально нечем платить корпоратам.
Проще завести тян
Аноним 14/04/24 Вск 14:40:52 #387 №703882 
>>703632
> модели грузятся максимум минуту-две.
Это тоже нихрена не норма. Алсо можешь мониторить bus interface load, если там 40%+ то значит уже уперся.
>>703645
Ого, уже 17, это прогресс!
Просто вырвать одного эксперта и посравнивать их по ппл на викитексте, рп, коте не прокатит? Офк ппл нихрена не отражает качество рп, но относительную шизу можно хотябы отсеять.
>>703652
> Щас-то не надо
Ключевой момент в этом. Если ты будешь усиленно искать и делать много запросов - сразу попадешь в "бигдату" и будешь в положении жертвы. Это дефолт и так везде, если хочешь купить авто - тебе дадут худшие условия с кучей включенных допов и страховок, если жалобно просишь кредит - хуй тебе а не нормальный процент и т.д., ты в пулле нуждающихся клиентов. В то же время, если не интересуешься - предложения будут сыпаться регулярно и условия будут сильно лучше, потому что цель - завлечь тебя.
А там уже на все это накладываются модификаторы семьи, работы и прочее, и они нихуя не в пользу а наоборот. Если семейный человек ищет кредит - ему пизда и он точно его возьмет, ведь деться некуда. По крайней мере так рассказывали те кто там варятся. Выход есть - проскроллить недавние офферы и воспользоваться, запросить а потом подождать, говоря что тебя условия не устраивают и раз так то и не нужно, давайте лучшие и подобное.
>>703709
Если процессор современный - да. На старых может не хватать вычислительной мощи.
>>703728
> в основном из-за того что процессор это устройство для последовательных вычислений
Сильное заявление, погугли avx чтоли.
> он может выполнить в секунду условно 20 000 000 циклов вычислений в мегагерцах
Это не так работает, чел
>>703808
> на AMD EPYC второго или первого поколения
Не стоит, это днище, которое даже в облаках всеми силами пытались избегать если нужны процессорные мощности. Живые начинаются с 3-го, там же и нет проблем с задержками pci-e.
Аноним 14/04/24 Вск 14:42:39 #388 №703886 
Как юзать векторное хранилище? И есть ли вообще смысл для чата на данный момент?
Аноним 14/04/24 Вск 14:47:21 #389 №703892 
>>703886
В PostgreS есть несколько подключаемых модулей, Redis тоже уже поддерживает. Насчет чата, хз. Покури их манулы и рекомендации.
Аноним 14/04/24 Вск 14:49:16 #390 №703896 
>>703809
Ну что же ты, сидишь с ллм треде а не хочешь 3090?
>>703814
> я так понимаю они тоже кучей каналов соединены с процессором
Там 8 каналов ддр5, отсюда и относительно высокий перфоманс. С видюхам офк не соперник, но обеспечивает достаточный уровень.
Подобного формата ии ускоритель для ллм бы отлично подошел.
> как там в суровой реальности хз
Бенчмарки llamacpp на маках в избытке, вот тебе и реальность. Офк там в процессоре еще тензорный модуль и гпу куски используются для разгрузки, но это сейчас не проблема.
>>703835
> Мистраль был в топе
Сомнительно, 20б франкенштейнов глянь. Или коммандера35 попробуй, но он полностью не поместится и придется выгружать.
>>703857
> Если бы не ошибка с КУДА
> никак не выкуплю проблему с КУДА
Что там за ошибка вообще?
Аноним 14/04/24 Вск 15:01:02 #391 №703902 
>>703896
БП не хватит на 3090. 850ватт.
Из самого адекватного я только 4070ти суп смогу взять.

Вот эта ошибка. И почему она возникает не сразу, а через после запуска 5+ моделей за раз я хз:
RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Аноним 14/04/24 Вск 15:04:08 #392 №703903 
>>703808
>например 190.7 GiB/s у EPYC
Ты же понимаешь, что это всего лишь в 4 раза больше, чем у любой сборки на некрозеоне или там десктопе DDR4, и в 2 раза, чем у новой сборки на DDR5?
>>703852
Ничего, перегоришь ещё. Я так с год дрочил каждый день, потом отпустило.
>>703879
>но в Африке у многих нет электричества и проблемы с водой
Но смартфон есть у каждого.
>>703882
>проскроллить недавние офферы и воспользоваться
А там ссылки на главную банка, лол.
>>703902
>БП не хватит на 3090
Ну так режь по питанию, хули там. Подключи 2 хвоста, карта автоматом должна сдетектить это и себя порезать до 300 ватт.
Аноним 14/04/24 Вск 15:04:53 #393 №703905 
>>703896
Например? У Блока они есть?
Аноним 14/04/24 Вск 15:05:33 #394 №703906 
>>703903
>у каждого
Охлол
Аноним 14/04/24 Вск 15:08:14 #395 №703908 
Saber3.jpg
Кстати, здесь когда-то местные электронщики спорили как сцеплять правильно два блока питания в одном компуктере.
А как это сделано у серваков с двумя бп?
Аноним 14/04/24 Вск 15:09:17 #396 №703910 
>>703908
Через синхронизацию блоков. Но в нормальных блок один
Аноним 14/04/24 Вск 15:12:58 #397 №703916 
>>703910
>синхронизацию
Как?
Запараллелить земли, +12, +5, +3.3 и остальные выходы?
Аноним 14/04/24 Вск 15:14:28 #398 №703918 
>>703916
Я хз, давно читал как спаривать блоки, но потом просто купил один большой.
Аноним 14/04/24 Вск 15:15:58 #399 №703920 
>>703918
> как спаривать блоки
Ах, ты грязный электроразвратник.
Аноним 14/04/24 Вск 15:16:14 #400 №703921 
>>703908
У серверов специальная плата стоит и она отвечает только за горячую замену блока. В нормальном режиме работает только один бп.
Аноним 14/04/24 Вск 15:16:50 #401 №703922 
Как собрать себе вайфов? Мне нужен гайд для тупых
Аноним 14/04/24 Вск 15:22:17 #402 №703924 
>>703903
Посмотрел повнимательнее 3090 и чет кроме памяти она ничего не даст.
Мне у 4070ти не нравится цена, но там есть AV1 и DLSS3 с фреймгеном.
Аноним 14/04/24 Вск 15:22:44 #403 №703925 
>>703867
Они будут чак-чак вместо вагины прикручивать, чтоб продажи были.
Аноним 14/04/24 Вск 15:24:26 #404 №703928 
Аноны, я тут присмотрел новый вентилятор для Теслы, как вам?
https://ozon.ru/t/NP1KqKL

>>703908
>>703916
>Как?
Могу предложить запускать их синхронно, для этого достаточно подрубить замыкание зелёного и чёрного провода второго БП к кнопке на системнике.
Хотя проще наверное будет сделать отдельный выключатель куда подвезти пусковые провода от обоих блоков.
Я так для лазерного станка с несколькими БП делал. Правда там разные блоки за питание разных компонентов отвечали.
Аноним 14/04/24 Вск 15:25:41 #405 №703929 
>>703922
Двачую этого. Помогите и я больше не буду писать тупые вопросы
Аноним 14/04/24 Вск 15:26:47 #406 №703931 
>>703928
>запускать их синхронно
Это мало.
Там базовая проблема в уравнивании напряжений.
Аноним 14/04/24 Вск 15:30:04 #407 №703935 
>>703924
Генерация доп. FPS - дико переоценённая хуйня, игра превращается в желе, 1 раз попробовал, больше не врубал ее ни разу. Аноны выше верно написал, за такой же прайс RTX 3090 маст хев.
Аноним 14/04/24 Вск 15:30:54 #408 №703937 
>>703924
>и чет кроме памяти она ничего не даст.
А в нашем деле больше и не нужно.
>>703924
>AV1 и DLSS3 с фреймгеном
Первое вообще ХЗ нахуя, ты ж не на ноутбуке, чтобы электричество экономить. Фреймген это уже игровая тема, у нас тут полезность только для нейронок рассматривают. Но как я понял, он добавляет такие задержки, что ну его нахуй, я наоборот ХЗ сколько тюнил систему, чтобы лаг уменьшить.
Аноним 14/04/24 Вск 15:38:02 #409 №703942 
>>703929
>>703925
Идите в колаб из шапки.
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
Ставьте галочку "google_translate" и запускайте всё по очереди.
Пока запускается, притесь на https://www.chub.ai/ за вайфой.
Как запустится тыкайте на ссылку и пихайте вайфу в Parameters / Chat / Upload character / TavernAI PNG
Общайесь.
Как начнёте что-то понимать - ставьте таверну с угабогой.
Аноним 14/04/24 Вск 15:41:35 #410 №703949 
А есть гайды для простых смертных по составлению датасета? А то роудмап на джва года штука не для меня
Аноним 14/04/24 Вск 15:42:26 #411 №703952 
>>703902
>RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
Насколько я понял, нужно скомпилировать пару файлов pytorch с поддержкой нужной архитектуры: TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6" и заменить в Убабуге два файла на скомпилированные - torch_cuda.lib и torch_cuda.dll. Тогда заработает как надо.
Аноним 14/04/24 Вск 15:50:18 #412 №703960 
>>703935
> переоценённая хуйня, игра превращается в желе
Она строго под G-Sync и 60+ фпс. Во всяком ААА, которое с трудом работает в 40-60 фпс DLSS3 просто топ, никакого желе там нет, когда итоговый фпс 90+.
Аноним 14/04/24 Вск 15:55:37 #413 №703962 
>>703827
>ведь LLM это последовательные вычисления - ты не можешь получить второй токен, пока не получил первый
чтобы получить токен надо выполнить параллельные вычисления
Аноним 14/04/24 Вск 15:57:14 #414 №703963 
>>703882
>Сильное заявление, погугли avx чтоли.
Ну и сильно тебе авх поможет без куда?

>Это не так работает, чел
Это условное описание в идеальном мире, где 1 операция тратит 1 герц. Ирл конечно всё несколько иначе, что еще сильнее бьет по возможностям процессора в нейронках.
Аноним 14/04/24 Вск 16:05:35 #415 №703967 
>>703902
Ну блин, там на разницу в цене можно платиновый киловаттник+ взять, чтоже ты.
> И почему она возникает не сразу
Емае, т.е. оно у тебя норм работает в основном а только потом ерунда происходит? Ну ты зажрался.
> после запуска 5+ моделей за раз я хз
Что-то не очищает за собой похоже. Рестарт убабуги не помогает чтоли? Если нет - попробуй команду куде на сброс устройства отдельным скриптом и опять пускай.
>>703905
Блок сдох. Хотя старые там есть, поищи emerhyst, noromaid, darkforest, все 20б.
>>703908
В серверах они заведомо сидят на одной земле, и нет вороха разъемов которые можно подключить по отдельности. С торца несколько сигнальных и здоровые силовые площадки, причем выполнены таким образом что первыми в контакт входят именно силовыми для уравнивания потенциала. Можешь его на горячую просто вытащить и заменить.
>>703963
> Ну и сильно тебе авх поможет без куда?
Дурень, это комплексная сложная инструкция, которая буквально исполняется параллельно. Обычное ее решение по твоей логике заняло бы в десятки-сотни раз больше тактов профессора.
> Это условное описание в идеальном мире
Которое актуально для 90х.
> 1 операция тратит 1 герц
Такт, глупый. Если ты гуманитарий - не лезь с такой уверенностью своими культяпками туда, куда не понимаешь.
Аноним 14/04/24 Вск 16:09:08 #416 №703970 
>>703937
AV1 хотел для VR.

>>703935
А разве на 28 гб ВРАМ я 34к модели не запушу?
Вроде с 5.0bpw прокатывало.
Аноним 14/04/24 Вск 16:12:59 #417 №703973 
>>703960
Я писал про фрейм ген, если у тебя проблемы со зрением. DLSS хорошая вещь. Для llm RTX 3090 топ, точка.
Аноним 14/04/24 Вск 16:18:16 #418 №703977 
>>703967
Окей, спасибо;3
Всмысле Блок сдох? А где теперь брать модели?
Аноним 14/04/24 Вск 16:19:09 #419 №703978 
>>703970
Нормальных моделей 30-35 (кроме командора, которому и 48 мало в 4 кванте), нет. LLama 3, судя по данным из СМИ будет 100+B, так что надеется не стоит.
Аноним 14/04/24 Вск 16:30:27 #420 №703984 
>>703952
>Насколько я понял, нужно скомпилировать пару файлов pytorch с поддержкой нужной архитектуры: TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6" и заменить в Убабуге два файла на скомпилированные - torch_cuda.lib и torch_cuda.dll. Тогда заработает как надо.

А чем открыть и перекомпелировать torch_cuda.lib и torch_cuda.dll?

двузначныйайку

>>703978
То есть что 16, что 24 гб я всё равно сосну?
Аноним 14/04/24 Вск 16:35:14 #421 №703987 
>>703984
>двузначныйайку
Не суйся в компиляцию, не осилишь. Особенно под шинду.
Аноним 14/04/24 Вск 16:37:46 #422 №703989 
>>703984
8gb это 16+к контекста или можно будет микстрель гонять 5bpw. Мб будут еще модельки от китайцев. Как пишут на редите VRAM is KING.
Аноним 14/04/24 Вск 16:43:42 #423 №703996 
>>703989
>VRAM is KING
Ну тогда 50хх соснут и придется продавать почку за H100?
Там ничего зафайнтюнить не могут что бы хотя бы в 48 умещалось?
Аноним 14/04/24 Вск 16:45:44 #424 №703998 
>>703978
>LLama 3, судя по данным из СМИ будет 100+B
Вряд ли там будет 1 модель, да и смысл сейчас сотку выпускать. Уверен, будут все размеры (с промежутками на местах самых эффективных комбинаций, лол).
Аноним 14/04/24 Вск 16:47:56 #425 №704001 
>>703996
>Там ничего зафайнтюнить не могут что бы хотя бы в 48 умещалось?
Умещалось - это полдела. То, что уместится в 4 Теслы P40 будет давать 1 токен в секунду, после 8к так точно. Нет в жизни счастья :)
Аноним 14/04/24 Вск 16:48:47 #426 №704003 
>>704001
>давать 1 токен в секунду, после 8к так точно
Зато какой токен!
Аноним 14/04/24 Вск 16:55:35 #427 №704008 
>>704003
>Зато какой токен!
Не. Я уже сидел на 0,8t/s семидесятки. Хороший токен был, хотя и второго кванта, если сравнивать с моделями поменьше. Но возвращаться туда не хочу.
Аноним 14/04/24 Вск 16:56:33 #428 №704009 
>>704001
Голиаф 120b на 6ти теслах давал 4 токена.
Аноним 14/04/24 Вск 17:05:11 #429 №704015 
>>704009
>>704008
>>704001
И что теперь? Уперлись в вычислительные мощности? Других технологий на горизонте нет?
Аноним 14/04/24 Вск 17:07:49 #430 №704016 
>>704015
Троичные сетки остались, 1.68 бит, когда и если их допилят, но это нужно с нуля тренить так, какие то результаты уже есть так что ждемс
Аноним 14/04/24 Вск 17:08:45 #431 №704017 
>>704015
>Уперлись в вычислительные мощности?
В цену мощных железок.
Аноним 14/04/24 Вск 17:09:51 #432 №704018 
>>704009
>Голиаф 120b на 6ти теслах давал 4 токена.
С нулевым контекстом может и давал. И по кванту есть вопросы. Если больше четвёртого, то сомнительно.
Аноним 14/04/24 Вск 17:14:51 #433 №704023 
Кокда выкатят новые, винрарные как п40 видеокарты?
Аноним 14/04/24 Вск 17:17:20 #434 №704025 
>>704023
никогда, потому что это потеря прибыли, могут сразу в утиль отправлять, лишь бы не достались васянам
Аноним 14/04/24 Вск 17:29:33 #435 №704035 
>>704023
Есть ещё MI50100, но их винрарность пока ограничена амд-шностью. Если оптимизацию подвезут - есть шанс стать вторыми Теслами.
Аноним 14/04/24 Вск 17:30:15 #436 №704036 
>>704008
>Хороший токен был, хотя и второго кванта
Не, фуфло, я пятый квант катаю, вот там токен просто огонь.
>>704015
Всего вагон, но не для обывателей.
>>704023
п40 древнющее железо если что. Следующий такой же вин это RTX A6000, но её начнут сливать лет через 5-10.
Аноним 14/04/24 Вск 19:21:28 #437 №704143 
>>703744
Я хз, стт-ллм-ттс-липсинк что-то на дешевом, я не вижу больших счетов.
ВОТ ЗА ОТОПЛЕНИЕ 4 КОСАРЯ ЭТО ПЕРЕБОР

>>703760
Да, и это работает.
На квесте улучшили ар режим, правда просто шумоподавление врубили, но выглядит чутка лучше, да.

>>703709
Да. =)
Проверить очень легко.
Возьми 6-ядерный и 12-поточный и 12-ядерный и 24-поточный. На одинаковой скорости.
При скорости ~50гбс, у тебя результат будут отличаться не вдвое, при вручную выставленных тредах, а от силы на 30%, если повезет.

>>703882
> Если ты будешь усиленно искать и делать много запросов - сразу попадешь в "бигдату"
Угу-угу. Значит надо меньше праздно искать и делать только точечные запросы в нужный момент времени.
Логичное, спасибо за инсайдики.

>>703902
Вдвое меньше врама.
Может лучше БП подменить?

>>703924
А ты берешь к чему в добавок?
Я взял 4070ти, и че-то как-то не очень рад в итоге.
Лучше бы до 4090 докинул или 3090 брал. Но поздно. Игровой компуктер… Да, неплох, 30 фпс выдаст в фуллхд.

>>703928
Фиг знает, но выглядит нормас.

>>703935
Хуйню какую-то пробовал, фреймгенерейшен топ, во многих играх использую, желе нет, все красиво-плавно, задержек в управлении не чувствуется. Норм сделано.
Аноним 14/04/24 Вск 19:26:47 #438 №704145 
Я слаб духом удалил все модели, таверну и кобольда. А то скоро у меня яица с членом отвалятся, так и еще начал по часу и более времени тратить. Буду ждать когда это начнут запихивать в игоря и в рпг.
Аноним 14/04/24 Вск 19:27:46 #439 №704146 
>>703978
Не перегибай. Если новая ллама3 будет иметь 100б версию то это заебумба, главное чтобы хуанг подсуетился, но и от мелочи они не откажутся.
>>703984
> я всё равно сосну?
Нет, 24б при любом раскладе будет сильно приятнее, тот же контекст и жирнота кванта.
>>704009
На трех, теслах в оче жидком кванте, и то это было 3.5 на отсутствии контекста, которые чересчур оптимистичны и не подтверждаются.
>>704035
> MI50100
Может быть, но они еще слишком свежие и дорогие. 16гиговая не нужна.
>>704143
> Значит надо меньше праздно искать и делать только точечные запросы
Впны, базовая анонимость, и ни в коем случае никогда ничего не скролить напрямую через мобильный интернет, твой номер буквально узнают и автоматически внесут.
Аноним 14/04/24 Вск 19:37:47 #440 №704152 
Почему про 2080ти 22гб все забыли? На озоне до сих пор есть лот, на каком-нибудь алиэкспрессе наверняка овердохуя их.
Аноним 14/04/24 Вск 19:40:40 #441 №704157 
>>703967
>это комплексная сложная инструкция, которая буквально исполняется параллельно.
Ну так инференс без авх точно такой же. Сильно помогает авх или может проблема процессорных вычислений в другом?
>Которое актуально для 90х.
Душнила.
>Такт, глупый. Если ты гуманитарий - не лезь с такой уверенностью своими культяпками туда, куда не понимаешь.
Ты же прекрасно понял о чем я, но чсв не позволяет тебе не токсить.
Аноним 14/04/24 Вск 19:41:19 #442 №704158 
>>704145
Пока ещё слишком тяжело и неуправляемо для игр, жди несколько лет.
Аноним 14/04/24 Вск 19:42:41 #443 №704160 
>>704016
Разве с нуля? Там вроде квантуют и лору дотренивают под троичные веса.
Аноним 14/04/24 Вск 19:45:43 #444 №704165 
>>704152
Хз, кажется были какие то проблемы с ними, в том что это перепайка чипов. Короче риск больше чем с бу 3090.
Так то норм идея, но кто проверит?

>>704158
Примитивые игры уже есть с этим, какой то квест был в стиме, может что то еще есть. Скоро и генеративные игры с генеративным сюжетом появятся, на чем только их запускать блин

>>704160
Да, это не квантование, надо специально с нуля тренить. Не получится готовую модель без потерь в троичную логику перевести
Аноним 14/04/24 Вск 19:49:28 #445 №704172 
>>702946
Любую 10.7 или 13B модель на Q5_K_M кванте с лёгким оффлоадом слоёв на видюху, на чистой лламе.спп выйдет 2-3 токена/сек думаю (зависит от скорости рам).
Аноним 14/04/24 Вск 19:51:02 #446 №704175 
>>702946
Алсо, не на выходе, а где-то через год что ли спалили что у неё последние полгига медленные. У меня была она когда-то, её хватало на всё долго.
Аноним 14/04/24 Вск 19:52:18 #447 №704177 
>>704172
>с лёгким оффлоадом слоёв на видюху
Это примерно сколько?
Аноним 14/04/24 Вск 19:56:10 #448 №704181 
>>704152
Потому что подвальный перепай без поддержки.
Аноним 14/04/24 Вск 19:57:11 #449 №704183 
13b Q5_K_M переоценён. На 12гб с 4к контекстом влазит только Q4_K_M, на Q5 уже надо сгружать слои в ОЗУ.
Аноним 14/04/24 Вск 19:59:35 #450 №704187 
>>704165
>Примитивые игры уже есть с этим, какой то квест был в стиме, может что то еще есть.
Ну так-то и РП можно считать игрой, с уровнем гейммастера дынды сетки вполне справляются. Но скажем чтобы хотя бы сделать в ААА игре генерацию квестов и диалогов и они имели геймплейное значение, это надо усраться во-первых констрейнтами модели и прочим обвязом с генерацией сценария, чтобы не давать генерить бессмысленые или выходящие за рамки геймплея вещи, в третьих устранить возможность любых атак на промпт, а в третьих модель слишком медленно генерит и пиздец сколько жрёт, а там ведь ещё графониум-физониум нужны и всё это в реалтайме. В общем пока что слишком накладно и ненадёжно для мейнстрима. Но через несколько лет точно будет что-то похожее.

>>704177
Хз, может 7-10, ещё на контекст надо сколько-то памяти, увеличивай слои и экспериментируй сам пока не крашнется или не затупит. Процентов на 15-20 видюху может загрузишь, слегка скорость подымется. Сложно сказать, у меня нет 970 сейчас, это вопрос эксперимента и размера модели.
Аноним 14/04/24 Вск 20:00:12 #451 №704189 
>>704183
Зависит от железа, у анона в 3.5ГБ всё равно не влезет вся модель и контекст.
Аноним 14/04/24 Вск 20:03:45 #452 №704195 
>>704187
>>704165
А так-то блять мы тут с 19 года и ГПТ-2 в игры играем. Оригинальный AI Dungeon и был по сути локальным движком для консольно-текстовых РПГ, ещё до того как мормон запилил платный SaaS сервис. И дженерал в /vg/ форчепомойки поэтому был, а не где-либо ещё. Это потом дегенераты начали ебать всё что движется.
Аноним 14/04/24 Вск 20:04:37 #453 №704198 
>>704189
Я имел в виду скорее "в общем", а не для конкретного анона. Тут некоторые Q5_K_M почему-то позиционируют как топовый по соотношению жор/качество.
Аноним 14/04/24 Вск 20:05:14 #454 №704200 
Какую модель посоветуете для ролеплея без цензуры на таком конфиге: 16 VRAM, 32 оперативки? Пока поставил noromaid 20B Q5_K_M по совету из гайда, но может что-то получше есть. В рейтингах по 100500 моделей накидано, непонятно, как из них вообще выбирать.
Аноним 14/04/24 Вск 20:06:12 #455 №704202 
>>704198
Ну в общем это так, если игнорить железные ограничения то примерно на этом кванте происходит перелом цена/качество. Но конечно надо подбирать экспериментально всегда.
Аноним 14/04/24 Вск 20:06:29 #456 №704203 
>>704165
>генеративные игры с генеративным сюжетом появятся
Я тестил на 3060 Ти: 13б, 10б,7б и пока они особо в контекст не могут на длинной дистанции. Начинают противоречить самим себе. Хотя в ролеплей уже не плохо могут.
Аноним 14/04/24 Вск 20:10:08 #457 №704217 
>>704187
Трипл а, умудрился сдохнуть. Да и честно, я хоть и с середины 90, но в старье из 80 и 90 играл в свое время. И графон условного фоллача первого для меня норм.
Аноним 14/04/24 Вск 20:10:36 #458 №704218 
>>704200
>поставил noromaid 20B Q5_K_M по совету из гайда
Неужели целиком залезла во врам?
Аноним 14/04/24 Вск 20:18:37 #459 №704228 
изображение.png
>>704218
Нет, я так раскидал память.
Скорость 3 токена в секунду, мне вполне хватает.
Аноним 14/04/24 Вск 20:25:47 #460 №704233 
>>704228
А, ну ладно. У меня просто тоже 16гб карта стоит на шкафу, в ближайшее время буду ставить в пеку. Хотел узнать, чего можно будет ждать для такого кванта.
Посоветовать ничего не могу, сори. 20б не гоняю практически, т.к. медленновато.
Аноним 14/04/24 Вск 20:26:56 #461 №704235 
Аноны, кто для своих тесл большие улитки заказывал - как оно в плане соотношения шум/охлад?
Аноним 14/04/24 Вск 20:27:05 #462 №704236 
>>704233
> 20б
В 24гига залезет с норм контекстом?
Аноним 14/04/24 Вск 20:31:58 #463 №704238 
>>704236
>В 24гига залезет с норм контекстом?
Легко, а смысл? С 24 гигами чуток повыше уже смотреть надо.
Аноним 14/04/24 Вск 20:35:50 #464 №704243 
>>704157
> Сильно помогает авх
Сильно, он позволяет не упираться в перфоманс профессора кратно повышая перфоманс в перемножении матриц.
Сам ты душнила, ерунду втираешь с унылыми объяснениями, натягивая сову на глобус. Математическая сложность интерфейса с ллм - низкая, но специфика требует огромного потока данных, в этом в вся проблема. В случае других нейронок или расчетов, структура гпу будет предпочтительнее но это не он. Также далеко не все задачи можно под них пускать, многое будет также требовать результата промежуточного расчета который не оптимизируем и т.д., в то же время профессор перестал быть последовательным как из-за многоядерности, так и по внутренней структуре, когда сразу последовательности команд выполняются за один такт.
> Ты же прекрасно понял о чем я
Не особо, твой посыл о том что мощность ядер а не псп рам является главным ограничением для профессоров не верен. А по деталям - выше читай.
>>704160
> лору дотренивают под троичные веса
Писали про сразу обучение в 1.58, или в крайнем случае ресайз и более короткое обучение, но при этом параллельно хранятся все данные в fp16 для градиентов.
>>704228
> 3 токена в секунд
Как-то маловато, что за квант? 20б есть в коллабе от гугла, там т4 с 16 гигами врам, и q3 вроде даже помещался. В твоем случае без проблем лишнее выгрузишь, получишь более десятка т/с.
>>704236
> В 24гига залезет с норм контекстом?
Там 5-6 бит влезают с контекстом.
Аноним 14/04/24 Вск 20:47:06 #465 №704252 
>>704243
>Как-то маловато, что за квант?
5 бит. Контекст 8к.
Аноним 14/04/24 Вск 21:44:55 #466 №704313 
>>703652
Спасибо анон, пока самый адекватный ответ за весь тред.
Энивей, датасет у меня разный и я думаю смысл в том чтобы обучить ее на разных формах (валидный/невалидных). Какой смысл со света если не знаешь что такое тьма? И agi я думаю мне не нужен для этой задачи.
Аноним 14/04/24 Вск 22:59:31 #467 №704404 
Думал что что то да знаю о нецлонках, но сидя в тредеонтмаю, что ничерта не знаю. И так в целом на дваче. Неважноеоль ты умен. Всегда найдется умнее.
Так вот. Можно ли обучать квантованную модель?
Аноним 15/04/24 Пнд 00:14:04 #468 №704447 
>>704404
> Можно ли обучать квантованную модель?
Qlora на это направлена. В остальном - апскейлишь в полные веса и обучаешь их. Технически можно обучать квант сам по себе - будет залупа из-за отсутствия градиентов, или с использованием полновесных данных - имеет мало смысла из-за сложности, но в теории может позволить улучшить качество кванта.
Аноним 15/04/24 Пнд 00:17:01 #469 №704452 
>>704404
Обычным способом нельзя, обучение очень чувствительно к точности весов. Можно только апскейлить, что наверно не то что ты хочешь (жрать VRAM будет всё равно как полная, так что лучше взять неквантованную сразу).

Хотя бинарные сети, новый троичный квант, и прочие новые техники можно/нужно обучать сразу на пониженной точности. (чисто бинарные сетки обычно юзают несколько критических слоёв в полной точности, иначе результаты катастрофически падают)
Аноним 15/04/24 Пнд 02:02:43 #470 №704533 
Без имени.png
Шарадошиз отсутствует, я нервничаю. Вот вам пример, как нейронка жидким обсирается в комбинаторике. Правильный ответ 166
Аноним 15/04/24 Пнд 05:47:12 #471 №704590 
>>704235
если гонять llm то не шумит вообще. шумит только при больших нагрузках, если гоняешь обучения или sd.
Аноним 15/04/24 Пнд 05:49:55 #472 №704592 
>>704146
>16гиговая не нужна
16-гиговая стоит дешевле Теслы, при этом в разы её быстрее. Одна такая карта само собой бесполезна, но вот для систем из 2-4 вполне себе вариант. Как минимум позволят крутить 70В на комфортной скорости.
Если Mi50 станут дешевле 10к рублей, аноны уже сейчас неиллюзорно могут начать закупать их вместо тесл.
Аноним 15/04/24 Пнд 05:53:28 #473 №704593 
>>704238
>чуток повыше уже смотреть надо
Куда? Покрутил 30В сетки и микстрали - не впечатлили. 70В даже квантованные работают нереально медленно.
Аноним 15/04/24 Пнд 11:08:56 #474 №704651 
Всем привет. Нужна модель переводчик с английского на русский и наоборот. Даже больше GUI интересует. Из моделек на ум приходит firefox оффлайн, можно ли ее отдельно использовать?
Аноним 15/04/24 Пнд 11:15:51 #475 №704655 
>>704651
>Даже больше GUI интересует
https://ru.libretranslate.com/
ЕМНИП без негросетей. Если хочешь нейросети, то опенчат из шапки + правильный промтинг, гуй пиши сам или развлекайся с таверной.
Аноним 15/04/24 Пнд 11:34:36 #476 №704659 
https://www.youtube.com/watch?v=kYin13ZM5B0
Кто заказал?
Аноним 15/04/24 Пнд 11:39:20 #477 №704662 
>>704655
Не. Мне не llmки нужны. Там все понятно. Мне нужна история типо faster whisper с моделькой base en условно только для распознания с текста и текстовых файлов. Gui или cli особо без разницы. Просто с оболочкой чтобы проще модельки менять и доки выбирать. Я бы сделал, но уверен уже есть, просто найти не могу пока.
Аноним 15/04/24 Пнд 11:49:32 #478 №704667 
>>704157
> Ну так инференс без авх точно такой же.
И близко не точно такой же.
Даже между AVX и AVX2 разница 30%.
А уж без AVX там падает в пол.

> Ты же прекрасно понял о чем я, но чсв не позволяет тебе не токсить.
Не, ты правда полную туфту несешь. Я не следил за разговором, но это же ты утверждаешь, что важен проц, а не псп? Ну вот, как бы, да. Все мимо.

>>704533
А под катом ты привел пример потому, что и полтреда обосрались бы? :)

>>704592
16 гиговую скидывали за 18, тесла стоит 16.
Можно 16-гиговую за … 12?
Аноним 15/04/24 Пнд 12:21:59 #479 №704677 
>>704667
> А под катом ты привел пример потому, что и полтреда обосрались бы? :)
Задачка олимпиадная, как ни крути.
Аноним 15/04/24 Пнд 12:24:00 #480 №704679 
>>704677
Пи Эс. Это значит, что её может решить даже толковый одиннадцатиклассник
Аноним 15/04/24 Пнд 12:26:39 #481 №704681 
>>704667
> тесла стоит 16
Где?
Аноним 15/04/24 Пнд 12:32:52 #482 №704685 
изображение.png
изображение.png
>>704533
>Шарадошиз отсутствует
На месте ладно, вру, я лишь его приспешник. Нихуя у тебя задачи конечно.
>>704679
Как видишь, даже мега коммерческие нейронки обсираются, выдавая рандом Правда у меня ролеплейный пресет, так что попутно она пытается запрыгнуть на мой хуй гномика. У тебя хоть какая-то решает эту задачу верно?
Аноним 15/04/24 Пнд 13:06:55 #483 №704702 
>>704662
>>704655
Опа. Написал. Потом еще порыскал. Открыл хакнювс и там сразу попалась https://news.ycombinator.com/item?id=40027866
Надо потестить.
Аноним 15/04/24 Пнд 13:22:26 #484 №704706 
>>704702
>Надо потестить.
>The phrase "PRIVATE MACHINE TRANSLATION, RUNNING LOCALLY ON YOUR DEVICE" translates to Russian as "ПРАКТРОНАТРАТИВНАЯ РАННЕЕ ПЕРЕДАЖА, ПОВЕСТКИ ДЛЯ ВАШЕГО УСЕДАНИЯ",
ХЗ что ты там собрался тестировать, углепластиковый.
Аноним 15/04/24 Пнд 13:43:47 #485 №704721 
>>704685
> На месте
Где яйца на крыше, собакошиз?
Аноним 15/04/24 Пнд 13:50:34 #486 №704725 
>>704721
Спойлер прочитай. Я даже не понял, какую модель мы сейчас тестируем.
Аноним 15/04/24 Пнд 14:27:59 #487 №704744 
>>704706
Угарнул, но там есть форк от Helsinki для их моделек, которые вроде как хвалят. Добавил в закладки вечером гляну. Если что
Аноним 15/04/24 Пнд 14:30:51 #488 №704748 
>>704685
Глупые нейросети не понимают, что нужно вначале посчитать C(11, 3), таким образом получим максимальное значение, при котором мы можем не добыть все 12 гномиков, а потом прибавить ещё один киндер и получим искомое минимальное значение, когда мы гарантированно получаем все 12

> У тебя хоть какая-то решает эту задачу верно?
Попробовал несколько РПшных, включая оверхайпнутый командр - все мимо
Аноним 15/04/24 Пнд 14:35:52 #489 №704756 
pairs.png
LOL.png
Продолжаем насиловать труп. Путём уже гораздо более хитрых телодвижений удалось дообучить токенизатор, с использованием tokenizers и датасетс это требовало 5 дней на моём железе, с использованием кастомных решений - не более пяти часов. Главная проблема в том, что datasets хранит всё в памяти и для обучения на семигиговом датасете нужен объём памяти около 130 гигабайт. Хотя своп на m2, это не спасает. Подсос претокенизированного датасета с sata ssd работает в триллион раз быстрее.
Оказалось, что для негросетки "merges", которые представляют собой склеенные вместе самые частые последовательности токенов, являются токенами в том числе. Так что при замене этих самых merges, нужно обучение. Но также оказывается, что в памяти сетки сидит миллиард "синонимичных" токенов, которые имеют одно и то же значение, но должны использоваться в зависимости от контекста разные. С одной стороны, проёб перформанса, т.к параметры заняты хуйнёй какой-то. С другой стороны, экономия контекстного окна. В теории, когда изобретут способ более производительной работы с контекстом, то от таких синонимов можно будет отказаться, а значит, общая "башковитость" модели возрастёт на порядок, особенно для мелких моделей.
Ну и оказалось, что спецсимволы обрабатываются, как последовательность байтов. Собственно, это новостью не было. Новостью оказалось, что что если в мерж попадает спецсимвол, то берётся не один токен, а вся последовательность, и обсчитывается, как отдельный токен.
Аноним 15/04/24 Пнд 14:38:51 #490 №704761 
>>704667
За 16 можно https://www.avito.ru/moskva/tovary_dlya_kompyutera/videokarta_amd_radeon_vii_mi50_instinct_3753078433?slocation=635320
А вот Теслу уже как повезёт.
Китаец с озона слился.
Аноним 15/04/24 Пнд 14:45:35 #491 №704773 
>>704452
> Обычным способом нельзя, обучение очень чувствительно к точности весов.
А почему?
Аноним 15/04/24 Пнд 14:58:48 #492 №704781 
изображение.png
>>704748
>а потом прибавить ещё один киндер и получим искомое минимальное значение, когда мы гарантированно получаем все 12
Хуя ты умный, всё сходится.
>Попробовал несколько РПшных, включая оверхайпнутый командр - все мимо
В локалки я бы с такими задачами и вовсе не совался бы.
>>704756
>С одной стороны, проёб перформанса, т.к параметры заняты хуйнёй какой-то.
Думаешь? Это разве не для разных языков? А то с другой стороны использовать один и тот же токен для английского и какого-нибудь испанского не факт что будет проще с точки зрения производительности нейросети.
>>704773
Потому что при обучении градиентным спуском корректировки идут небольшими шагами. А если размер корректировки будет меньше размера точности, то угадай что будет.
Аноним 15/04/24 Пнд 15:22:39 #493 №704800 
>>704590
>если гонять llm то не шумит вообще. шумит только при больших нагрузках, если гоняешь обучения или sd.
А температуры при этом?
Аноним 15/04/24 Пнд 15:30:35 #494 №704802 
>>704800
llm на 70b q6 не выше 50. q4 максимум 60.
sd и обучение максимум 70.
Аноним 15/04/24 Пнд 15:37:14 #495 №704807 
>>704781
>Это разве не для разных языков?
Про разные языки речи вообще не идёт. Вот лламовский токенизатор, берём слово component, множественное число я буду игнорировать - потому что это отдельное слово с отдельными мержами, токенами и т.д. Да, это не просто "s" на конце, components это отдельный токен.
Смотрим в мержи.
"▁com ponent",
"▁compon ent",
"▁ component",
"▁Com ponent",
"▁ Component",
Итого, у нас 5 синонимов на одно слово. При условии, что нейросеть всегда сможет смержить два токена в один мерж, а не использовать токены из вокаба. Если будет использовать, то ещё больше. Нейросеть не "знает", что это одно и то же слово, она обучается взаимодействию с каждым из них.
Аноним 15/04/24 Пнд 16:07:05 #496 №704844 
>>704807
Эээээ... Кажется, я понял. Прикол в пробеле перед словом и его отсутствием? И капитализация первой буквы, да. Ну да, всё так криво и работает.
>Нейросеть не "знает", что это одно и то же слово, она обучается взаимодействию с каждым из них.
А с другой стороны, как пометить, что у нас есть большая первая буковка? Вот и колхозят говно.
Хотя как по мне, вместо назначения простой цифры каждому слову надо сразу ебашить смысловой вектор аля world-to-vec, но увы, всем похуй (кроме парочки шизов с имиджборд, лол).
Аноним 15/04/24 Пнд 16:23:03 #497 №704860 
>>704681
Уже хз, избранные пусты, да.

>>704761
Выглядит неплохо.

———

https://github.com/dmikushin/mozer-llama-fast
Какой-то русский форк. =)
Автору привет, тебя спалил гит мне в почту.
Аноним 15/04/24 Пнд 16:38:18 #498 №704872 
>>704761
Да, хорошие магазины часто пропадают, но правда новые тоже появляются. Отзывов только ждать долго. Слышал я, что ещё куча банков под санкции попали, а китайским банкам оно не надо - с американцами конфликтовать. Надеются отсидеться.
Аноним 15/04/24 Пнд 16:59:40 #499 №704880 
Аноны, почему я не могу загрузить несчастный c4ai-command-r-35b-v01-iq3_xs в Теслу с контекстом 4к?
С 2к норм загружает, но памяти занимает всего 16гб, но когда выставляю 4к выдаёт:

numpy.core._exceptions._ArrayMemoryError: Unable to allocate 4.15 GiB for an array with shape (4352, 256000) and data type float32

Что за хуйня?
Аноним 15/04/24 Пнд 17:05:37 #500 №704884 
>>704880
Модель такая. Я с двумя теслами восьмой квант с контекстом в 8к не смог, только 4к. А меньший квант пробовать пока лень.
Аноним 15/04/24 Пнд 17:29:10 #501 №704900 
16760919272851.png
Можно ли дообучать квантованные модели?
Аноним 15/04/24 Пнд 17:34:34 #502 №704903 
>>704900
Зачем тебе? Обучение лоры по сути и так можно запустить в 4 бит и 8 бит, только тебе нужна оригинальная модель.
Аноним OP 15/04/24 Пнд 17:39:59 #503 №704907 
ПЕРЕКАТ
Уже за 5 дней. Ну и где ваша сингулярность?

>>704905 (OP)

ПЕРЕКАТЫВАЕМСЯ

>>704905 (OP)
Аноним 15/04/24 Пнд 18:53:21 #504 №704959 
>>704844
>Ну да, всё так криво и работает.
И даже не только в этом, все падежи, времена и т.д - это всё разные токены. Чтобы закодировать component нейронка может взять один из пяти токенов, а чтобы закодировать components - один из других пяти токенов. То есть параметры расходуются на какую-то ебанину, на пережёвывание трижды прожёванного. И у каждого такого синонима есть вероятности, и нейронка каждый раз просчитывает вероятность не для следующих токенов, а для количества потенциальных следующих токенов умножить на пять. Если смотреть на примере компонентов. Здесь и параметры проёбываются буквально вникуда, и производительность.
Аноним 15/04/24 Пнд 18:58:13 #505 №704966 
>>704667
>но это же ты утверждаешь, что важен проц, а не псп
жопочтец хуев
Аноним 15/04/24 Пнд 19:20:38 #506 №704997 
>>704966
> жопочтец хуев
> Я не следил за разговором
Я так понимаю ты представился.
Тогда сочувствую, вопросов не имею. =)
Аноним 15/04/24 Пнд 21:43:56 #507 №705152 
>>704997
съеби на пикабу или откуда ты там вылез
Аноним 16/04/24 Втр 13:46:18 #508 №705638 
>>705152
Какой пикабу, сам иди домой. =) Или на реддит. Откуда вы безграмотные беретесь, если даже читать не умеете.
comments powered by Disqus

Отзывы и предложения