24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №50 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>699154 → Взял nous-hermes-2-solar-10.7b.Q8_0.gguf и загрузил в Теслу P40. получил после 2к контекста 15,5 токена в секунду. Задумался о двух вещах: так ли хороша эксллама по сравнению с лламаспп и exl2 с ггуфом и много ли добавит перформанса теслам 4060Ti.
>>699631 >так ли хороша эксллама по сравнению с лламаспп Так надо сравнить, делов то. >много ли добавит перформанса теслам 4060Ti Ну как видишь, 15 против 20, лол. Хотя надо смотреть на контекст, там то уже чистая генерация с мизерным добавочным контекстом.
>>699631 У него там квант пожиже, 6. К тому же в формате exl2, это модель размером на 30% меньше гдето скачай тогда 6 квант ггуфа и его запускай для сравнения А по идее вобще 5км, так как 6 квант имеет больше 6 бит на вес Глянь размер его модели и скачай похожим размером, вот Если конечно р40 нормально ест кванты отличные от 8 и 16
>>699636 >Так надо сравнить, делов то. Вот и сравниваю, у меня gguf, на скрине exl2. Если учесть разницу в производительности карт, то похоже, что невьебенное преимущество экслламы осталось в прошлом.
>>699624 → А они тут причем? Тут скорее материночку под 4 слота. =) Сам видишь, q2 в 48, по-ходу, не влазят. А p100 так точно 4 штуки, чтобы слабый квант запустить. Зато быстро, согласен.
>>699645 Тогда из его результата процентов 10-20 вычесть В итоге от 20 секунд остается 16-18, если бы там был 8 квант В итоге разницы особой и нет, только то что без разных умных квантов на р40
>>699633 Я кстати это дело эмулировал чисто промптом, на сколько помню В итоге мало чем отличается от опять таки внутреннего диалога где сетка разбирает что сказать и как, только по более строгим правилам. Работало так себе, но тогда и сетки были тупее Скопируй статью сетке и попроси выделить алгоритм работы отражающих токенов, а потом вставь в промпт и играйся, лол
>>699650 >Тут скорее материночку под 4 слота. =) Ну допустим у кого есть такая материночка могут взять третью P40. Но перформанс, блин. 70B Q5_K_M на 12к контекста - это будет больно. Можно и на 16к - будет ещё больнее.
Я смотрю, контрольные векторы никто не использует? А ведь их даже Жора давно прикрутил, можно добавлять к модели через опцию в командной строке. Через либу repeng можно свои делать, или использовать готовые для мистралей.
Там Сбер свою мультимадалку на мистрале-7b выпустил: OmniFusion-1.1. Пишут, что на русском умеет болтать о картинках. Неквантованная весит 15 гигов (квантанул бы кто). Интересно, как у нее с русским в режиме без картинок, может для РП даже подойдет.
>>699631 Скорость генерации отличается не радикально, процентов 10, может и меньше. Это офк если жора собран под последнюю куду и включены все опции оптимизаций. А вот обработка контекста бывает отличается в разы, если длинный и большая модель то первых токенов можно рили прожать, а на той же мику даже чай налить успеешь, на экслламе же даже открывая большой чат задержка почти незаметна. Когда контекст в кэше то все более менее норм и так и там. > так ли хороша эксллама по сравнению с лламаспп Лучше сравни жор врам на одинаковых битностях-контекстах и поймешь очевидное преимущество. Кванты тоже лучше, по качеству на тот же размер и по отсутствию постоянных поломок. Если будешь сравнивать - учитывай что фактическая битность QN квантов не соответствует цифре в названии. >>699650 > А они тут причем? При том что без них нет смысла запускать большие ллм кроме как один раз посмотреть. >>699703 Ого, а ведь оно еще на основе мистраля выходит. > квантанул бы кто Q8 устроит? Если да то можешь сделать это сам с минимальными усилиями стандартным скриптом, а для мультимодальной части ищи llava surgery в доках репы жоры. Вторую версию где 2 энкодера оно не осилит скорее всего без допиливания.
>>699729 > При том что без них нет смысла запускать большие ллм кроме как один раз посмотреть. Ты жопой читаешь, признайся? :) Буквально поставил телегу впереди лошади и утверждаешь, что оно не едет. Но ведь оно работает наоборот. =)
>>699735 Мистраль и сама не глупая в этом плане. Интереснее, как она как мультимодалка.
>>699742 Давай я тебе разжую, вдруг ты не шиз. У человека мало денях. Ему нужна локальная умная модель. Он может запустить на оперативе, и она будет И умная, И относительно быстрая. Это — мое крупное. Он НЕ может (физически, по условию задачи) купить видяхи, нет денях. Если он запустит одну крупную — она будет меньше оперативы занимать, но она будет медленнее. Т.е., один раз заплатить за рам за постоянный двукратный буст к скорости — выгоднее, чем страдать медленно.
Все едет, польза очевидна, ситуация грустна, зато оно работает. Против твоей идеи «купить видеокарты за имеющиеся 0 рублей». Надеюсь, ты проспонсируешь таких людей на пару тесл. =)
>>699749 Да все это уже слышали, если "умная" это нужно тестить, то "быстрая" - вообще на ноль поделил. Интерфиренс 44б на оперативе - полнейшее унижение, которое делает практически бесполезным все действо. Если взять еще исправления и прочее то банально быстрее загуглить инфу, быстрее обработать вручную и т.д. Чат вообще смысл теряет. > У человека мало денях. И ты предлагаешь бедному человеку вбухать пару-тройку+ десятков тысяч на то чтобы собрать говнонекросборку, на которой можно будет крутить ллм на скоростях в десятки (а то и сотни если с учетом обработки контекста) раз медленнее чем это требуется для возможности работы. И потом эту штуку еще будет невозможно нормально продать ибо не нужна никому. Гениальный мув просто.
>>699729 >Скорость генерации отличается не радикально, процентов 10, может и меньше. Меня интересует, как падает скорость генерации в экслламе в зависимости от размеров промпта. Для Miqu_70B_Q4_K_M.gguf на двух теслах P40 ситуация такая: с нулевым промптом больше 8 токенов в секунду, с промптом в 8к - 3,3 токена в секунду. Как у больших exl2-моделей с этим делом?
>>699765 Буквально никак. Если в начале будет идти обработка полного промта - разумеется будет увеличиваться задержка до начала стриминга. Если там будет кэш - скорость почти не меняется. На первой было падение раза в 1.5, на второй заметное отсутствует. Вон пикрел, правда там еще мелкая нейронка в фоне запущена, так что флуктуации могут быть. Первый раз с полной обработкой контекста, далее с кэшем, ну и почти пустой запрос. > с нулевым промптом больше 8 токенов в секунду Интересно посмотреть как такое достигнуто. Можешь скинуть лог жоры из консоли? И сколько тогда в 34б выходит на одной? >>699768 Во-первых, скорость обработки контекста будет напрямую зависеть от мощности этой карточки. Наебать систему поставив затычку не выйдет. Во-вторых, скорость также напрямую зависит от того, сколько слоев выгружено на карту. Чисто на проце там единицы токенов в секунду, с карточкой без оффлоада вообще будет несколько десятков, с полным оффлоадом - сотни, в экслламе - тысячи. > и предлагать человеку сидеть на 70б почти вдвое медленнее Сам придумал, сам и удивляешься, вот же дурень. Где такое предложено, фантазер? Нейронки на проце+рам это заведомо фейл, кроме самых самых мелких от безысходности.
>>699786 >Если там будет кэш - скорость почти не меняется. А вот это уже интересно. В этом случае есть прямой смысл вложиться в 4 4060Ti и переходить на экслламу. Потому что основная проблема именно в скорости генерации больших моделей при заполненном контекстном окне. Хотя вариант с 4 P100 потянет на 60+тысяч, что немного больше стоимости одной 4060Ti. Нужен отчёт анона с 4 такими картами в экслламе. Тогда может и базу треда поменяем :)
>>699813 > Нужен отчёт анона с 4 такими картами в экслламе. Там все линейно скейлится, совсем уж для консервативизма можешь на 10-20% штрафануть. Если там 22т/с на 10.7б при 6 битах, то на 70б с 4.5битами будет 4.5 или менее что уже не очень и по сути как на пере тесел. Если P100 шустрее чем 4060ti в экслламе то выбор совсем очевиден, но все равно может быть нерационально.
>>699826 >то на 70б с 4.5битами будет 4.5 или менее что уже не очень и по сути как на пере тесел. На паре P40 на ггуфе минимум 6 токенов в секунду на старте, а у P100 память вдвое быстрее. Отчёт нужен.
>>699835 Ну вот, еще один гвоздь в крышку 4060ти, так сказать. Вообще многовато для P40, но вполне закономерно с учетом низкой скорости врам 4060. Погнать бы ее.
>>699786 > Во-первых, скорость обработки контекста будет напрямую зависеть от мощности этой карточки. Ну эт понятное дело, но уж 2060 какая-нибудь у человека может и залежаться. Тут шанс есть. > Сам придумал, сам и удивляешься, вот же дурень. Где такое предложено, фантазер? Нейронки на проце+рам это заведомо фейл, кроме самых самых мелких от безысходности. Ты сам фантазер. =) Это условие задачи. Придумывать новые условия, когда у тебя нет решения — охуенная практика. Но, видимо, с этим уже ниче не поделать, ок. Читать условия задачи ты так и не научился. =)
>>699813 > Нужен отчёт анона с 4 такими картами в экслламе. Факт. =)
>>699860 Вот уже и карточка появилась, которую ты предлагаешь пихать в некросборку, топчик. Вторая же часть неудобна и решил ее проигнорить. > Это условие задачи Какой задачи? Себе что-то там нафантазировал ради оправдания мертворожденной концепции, а когда сказали что это все херня - с пеной у рта излагает свои фантазии, которые в конечном счете сводятся к > можно придумать условия где будет еще хуже Далее идет шизологика, которая сводится к тому что "если не самый худший - значит хороший" и залупа путем ментальной эквилибристики повышается до приличного варианта. Ты барыган что толкает некрозеоны чтоли? Тогда хотябы мотивация понятно, иначе это совсем пиздец.
>>699693 > А что они делают то простыми словами? Заставляют нейронку отвечать определенным образом, по-сути, императивно прописывают роль, например , можно отключить всю сою и никакая соефикация не поможет, только если обучающий датасет полностью соевый. Representation engineering это шаг вперёд по сравнению с prompt ingineering https://vgel.me/posts/representation-engineering/https://github.com/vgel/repeng/tree/main
>>699892 Пасиба Гладя на пример кода, я так понимаю это прямая активация нужных зон сетки? Причем подходящих под заданное при создании вектора описание промпта. Хмм, ну впринципе интересно, но я так понимаю это нужно иметь на руках оригинал модели?
>>699892 Будут ли эти активации так же переносится на модели одного размера и архитектуры, как те же визуальные адаптеры ллава? Или для каждой модели уникально тренить?
>>699896 > я так понимаю это прямая активация нужных зон сетки? Да. > я так понимаю это нужно иметь на руках оригинал модели? Ну да, нужна модель. Под нее в repeng строятся эти векторы (как я понял, каждый вектор активирует отдельный слой модели), которые затем сохраняются, возможно сохранение в виде гуф, который можно использовать в ллама.дцп Жоры.
>>699902 > Будут ли эти активации так же переносится на модели одного размера и архитектуры, как те же визуальные адаптеры ллава? Автор пишет, что да, возможно использовать векторы для совместимых моделей, каждый вектор активирует отдельный слой, количество векторов соответствует количеству слоев модели. Если эти параметры на другой модели совпадают, то можно использовать совместимые с такой архитектурой векторы, я так понял.
>>699906 И наверное так же как и с видуальной моделью, чем сильнее файнтюн модели, тем сильнее отклонения от заданного вектора и чудачества. Как мультимодалки путающие красный цвет с оранжевым в одном из моих тестов, когда что то в модели слишком сильно отличалось от оригинальной для которой и тренили адаптер
>>699907 Все так, очевидно ведь что чем дальше отклонения весов от исходника, тем хуже будет переносимость. Но если там просто файнтюн базы то все должно работать хорошо. Фейлы с проектором происходят еще потому что там саму ллм файнтюнили для работы с ним, правильным ответам и т.д., без этой части перфоманс будет не тот.
Вот это бы реализовать у жоры, я так понимаю это аналог негативного промпта, и может работать так же и для кванта, если он создан из него же. Никаких ограничений не вижу тому что это не будет работать на квантах.
>>699914 На жоре и так делается негативный промт. На квантах будет работать, активации ведь одинаково хранятся, но вот "обучать" на квантах будет хуже чем на оригинале.
>>699914 Тогда все стало бы проще, так и вижу как в кобальде появляется менюшка при запуске, куда ты выбираешь/ прописываешь промпт, силу, и перед запуском это все за минуту 2 делается, и модель запускается уже готовенькая
>>699919 Это да. А почему на квантах будет хуже? Если это будет делаться для конкретного кванта перед запуском?
По ощущениям: текстовое общение - мистраль обычный, ничего нового, те же косяки, что и у оригинала. По картинкам - я пока не понял, какой лучше формат промпта использовать на русском языке. Иногда хорошо описывает, иногда хуже.
И тут вопрос, а вобще можно обучать с помощью контрольного вектора? Тоесть, все это векторы активации применить к модели напостоянку, изменив значения, и в итоге это станет уже другая модель, так? Выровненная в нужную сторону. Я чет забеспокоился за будущие модели выходящие из корпораций, так ведь и на сою прошить можно легко, скорей всего как то так и делается, хм
>>699924 Как то странно он путает смысл картинок. И разве изображение размещается не в облаке вопроса?
>>699921 > А почему на квантах будет хуже? Из-за их отличия от оригинальной модели. Хз как на практике на самом деле окажется, да и его можно сделать на процессоре, там не так долго. >>699924 > Для кобольда нужен еще вот этот mmproj файл: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf Ты же понимаешь что присунул туда просто проектор от ллавы (или бакллавы, хз что там) вместо оригинального на клипе и тем более оригинального-гибридного? > мистраль обычный Это и есть мистраль с некоторой тренировкой под их проекторы.
>>699926 >>699924 Хз, как там правильно их размещать в кобольде. Но пока у меня ощущение, что модель натренирована на формат: 1 картинка - обсуждение. Если хочешь другую картинку пообсуждать - очисти сперва контекст.
>>699951 Попробуй давать названия картинки, и указывать на нее при вопросе. При следующем вопросе говори что с этой картинкой закончили, переходим к следующей и тд Интересно получится ли модели отделить смысл картинок при такой конкретизации задачи
>Из-за их отличия от оригинальной модели. Хз как на практике на самом деле окажется, да и его можно сделать на процессоре, там не так долго. Так если делать активации из кванта? Никакого ухудшения в получившемся векторе не будет, он ведь создан из этого же кванта и будет применятся к нему. Да, я тоже думаю что это легко на процессоре реализовать. По крайней мере не вычислительно сложно, хз на счет сложности алгоритма.
>>699954 > Так если делать активации из кванта? Никакого ухудшения в получившемся векторе не будет, он ведь создан из этого же кванта и будет применятся к нему. Квант же отличается от оригинальной модели, также уровень дискретности весов там высок. В теории проблем больших не возникнет и не так плохо как с qlora, но все равно может оказаться худшая совместимость с другими квантами и оригинальной моделью. Алгоритм там действительно кажется несложным, потому просто на профессоре погонять десяток минут-час-несколько часов, а потом регулярно инджоить.
>>699947 >Ты же понимаешь что присунул туда просто проектор от ллавы Досадно. Тогда я хз, как ее заставить картинки описывать. Без этого файла она просто галлюцинирует, описывает совсем не то что на картинке. Нужна llava surgery?
>>699874 А ты продолжаешь выдумывать и переводить стрелки. =) Ну ладно, игнорируй реальность, если тебе так проще. Я просто не пойму, почему вместо того, чтобы просто признать, что не понял чего-то, и стать лучше, чему-то научиться, ты предпочитаешь лгать, перевирать весь диалог, игнорировать факты (вся переписка же сохранена, там видно «откуда взялась задача», и как ты обосрался со своими бредовыми ответами). Никто ж никого не срет, культурно общались, пока у тебя не сдали нервы, и ты не опустился до оскорблений человека, которого сам не смог понять по глупости. Обижаешься на себя, что мозгов не хватило? Сочувствую такому чувству. Но разве разобраться в вопросе и стать умнее не лучше, чем лгать себе и переносить ответственность на других? Подумай об этом. Развиваться лучше, чем стагнировать.
Про некрозеоны. Некрозеоны не умеют в 128 гигов. Барыги некрозеонами никогда не будут уговаривать тебя брать стока памяти. А ты, по твоей логике, барыга некротеслами. =)
>>699924 А разве у них дефолтный mmproj? Типа, мне кажется, ты взял текстовую омнифужн и приделал к какой-то дефолтной ллаве (да еще и 1.5 на основе обычного блипа, или че там было). Как мультимодалка — это вообще не омни. Ты сейчас ллаву 1.5 тестишь, как я понимаю.
>>700244 >с поддержкой русского языка >Для >Написания кода Никакую, они и по английским запросам с трудом кое-как пишут код, который потом за ними поправлять надо. Это если речь про топовые по рейтингам 33b. 7b скорее только для "умного" автокомплита годятся, там явно не хватает мозгов даже на следование запросам.
>>699777 >Asus WS X299 Ох лол. Старая и мёртвая платформа за такую цену. Хотя альтернатива не сильно лучше - ненадёжные китаеплаты, отработавшие своё супермикры, просто окислившаяся гниль или пиздец какие дорогие новые и актуальные.
>>700315 >Старая и мёртвая платформа за такую цену. Мне б/у процессор + новая плата достались да 50к с небольшим. Лучшей платформы под теслы просто не найти. Другое дело, что и цен таких сейчас не найдёшь.
>>700329 Можешь не заморачиваться если не хочешь, катай 5км-6к Но она есть, по крайней мере на 7b Раньше это кучу раз тестировали и проверяли, спорили, когда то были пруфы, теперь хз Я 7b если понравилась перекачиваю в 8 кванте, вначале можно и меньше
>>700244 1) openchat в шапке, или starling beta, из русских мелочь только на 7-11b, остальные могут в русский уже на 70b. Вот такой вот провал, да
2) Для кодерства уже нужны специальные кодерские сетки, русский они естественно если и знают то лучше все равно писать на английском. 3 3b в основном разные Есть и меньше, хоть 7b запускай и проверяй.
Есть даже сетки общего назначения которые немного знают про код, всякие 7b из самых умных могут в кое какой простой код, ну те же Hermes-2-Pro-Mistral-7B Nous-Hermes-2-Mistral-7B-DPO openhermes-2.5-mistral-7b dolphin-2.8-mistral-7b-v02
>>700329 7B =) Выше уже можно q6. На самом деле, сейчас можно и q5_K_M юзать, отличий почти нет. Q8 остается для 7B моделей и мое из них. ИМХО. Хотя, мое из 7б может и в q6 быть неплохим, за счет двух специалистов, да.
>>700212 Коммандер плюс тот что на 104б. Он реально хорош, по поведению очень напоминает коммерцию. Цензуры на левдсы нет, кумботы по дефолту блядские, стесняши стесняются. Можно обвесить вагоном инструкций и будет каждый пост писать кучу доп инфы как с клодой, или так управлять стилем письма и прочим. Русский приличный. Одна беда - контекст жрет просто безумно и это помимо 70 гигов основных весов в 5 битах. >>700244 Взаимоисключающие. openchat из мелких на русском, коммандер 35 (но его из-за поломанности gguf ты пока не запустишь), для кода отдельные сетки и там придется на инглише если хочешь хорошо. >>700257 Отставить тряску, нейроскуф под шизосемплингом даст фору любой нейронке. >>700329 Есть память - используешь 8 и наслаждаешься плацебо. Все. Измерить это сложно, для большинства массовых задач даже имея A100 вообще грузять в нативных 4битах битснбайтс и довольствуются ускорением без заявлений о деградации. Офк это уже совсем край и так делать не стоит, но выше 5-6бит там прирост практически отсутствует. Хотя небольшое преимущество есть, 8 может работать почти с той же скоростью что и 6K на старых карточках.
>>700361 > коммандер 35 (но его из-за поломанности gguf ты пока не запустишь) А в чем там проблема? Сейчас он работает некорректно? Я его в кобольде катал, ну вроде отвечает же, не?
> на инглише если хочешь хорошо Мне Мику даже битрикс писала без ошибок. Так что на инглише — это такое же плацебо, как q6 vs q8. Результат, конечно, отличается, но крайне номинально и в каких-то монструозных проектах. Да и то, один хрен при таком уровне погружения, код-ревью ты всякое сделаешь полный.
> Отставить тряску, нейроскуф под шизосемплингом даст фору любой нейронке. Да я ж не потешаться над людьми пришел, я искренне человеку сочувствую.
> Хотя небольшое преимущество есть, 8 может работать почти с той же скоростью что и 6K на старых карточках. Единственная проблема, что тут еще надо найти юзкейс, ибо 7b q8_0 влезает в 7,5 гигов из восьми, и контекста не остается. Это актуально для 10-11-12 гиговых карт старого поколения, да. Ну и может какой-нибудь 20B в теслу п40.
>>700361 >Есть память - используешь 8 и наслаждаешься плацебо. 8 для слабаков, настоящие парни юзают 16. Эх, а ведь когда-то нейронки и вовсе катали в режиме двойной точности (64 бита).
>>700382 >А в чем там проблема? Не понятно что имеется в виду. Там нет никакой проблемы, как выпустили кобольд с поддержкой так все и работает -командир запущен во всех кобольдах так что только пыль столбом. Это может в ламацпп-питон были проблемы, но этоже совсем другое - убабуга всегда с проблемами. Если имеется в виду битый квант, то качать надо не в медвежьих углах хаггинфейса у кого попало, а там где надо. Например для командира 35 https://huggingface.co/dranger003/c4ai-command-r-v01-iMat.GGUF
>>700382 > А в чем там проблема? > Сейчас он работает некорректно? Я его в кобольде катал, ну вроде отвечает же, не? Хз, еще недавно жаловались и на среддите тоже. Может уже и починили. > Мне Мику даже битрикс писала без ошибок. Ну позвольте, мику это уже совсем другой размер и врядли в его железо влезет. Там действительно разницы особо не будет, но в случае с моделями поменьше вероятность что тебя поймет и правильно все сделает при запросе на инглише сильно вырастает. > я искренне человеку сочувствую Да хз. Это выглядело бы как тролинг тупостью если бы он так не старался и не ультил с потоком сознания, будто под веществами. Может это просто пост-троллинг, живет в 2д30м пока мы в прошлом прозябаем. > что тут еще надо найти юзкейс Только тесла, где этот эффект проявляется, и то не факт что покроет. > 20B в теслу п40 Не, не влезет, только 6 бит. И то возможно придется до q5km спуститься ибо в жоре контекст жрет куда больше. >>700403 Ну просто ролплей с мелкими правками минималистичный. Потом добавлял из аицг треда куски жб где указывается что-то хитрое про повествование и всякие свистоперделки типа десятков статусов, работают. Ужасно неудобно это пилить на самом деле в убогом интерфейсе инстракт режима, нужен такой же что и под коммерцию.
>>700409 >не в медвежьих углах хаггинфейса у кого попало Так зебрук всё, а на его место единого поставщика всё ещё не встало. Ты сам кинул ссылку на чувака, у которого всего лишь 48 квантов.
>>700410 > Ну позвольте, мику это уже совсем другой размер и врядли в его железо влезет. Позволю, моя ошибка, забыл контекст. Тогда и правда лучше инглиш юзать на мелких сетках.
———
Скачал Mixtral 22b q5_K_M, на оперативе 3600 частотой выдает ~1,5 т/сек. Правда, ИМХО, для ролплея оверкилл, офк.
А с теслами с полпинка не запустилось, мне лень и некогда разбираться, но выгрузить можно 20~25 слоев из 56 чи скока там их. Короче, процентов 40 можно на видяхи положить, в теории.
Ну, посмотрим, чем все закончится.
Мне одна мысль покоя не дает. Эта микстраль — которая Mistral Large? Так она в топе ниже коммандера. Слив вряд ли поможет ей подняться выше него в топе, а если их же модель через апи будет существенно хуже их же модели на голую — то это в принципе странно. Короче, я не понял, что это и зачем. Но спасибо.
>>700421 >Ты сам кинул ссылку на чувака, у которого всего лишь 48 квантов. Я кинул ссылку на чувака который коммитит у жоры и пасется там же в issues как раз в темах про командир. А так вместо Блока с сотнями квантов есть двое у которых кванты почти точно не поломанные: https://huggingface.co/LoneStriker https://huggingface.co/mradermacher
>>700410 > Ну просто ролплей с мелкими правками минималистичный Да не, я скорее про пикрил имею ввиду, у них там целая вики как это делать, но я не пони особо всё равно правильно ли обернул https://docs.cohere.com/docs/prompting-command-r С чарами и стори стрингом тоже небось нужно что то делать
А накидайте мне что то вроде AnythingLLM, но что б кобальд подключало, я знаю что есть локалаи оллама вебуи и еще хуй пойми сколько их Хочу проверить как локалки будут с документами работать, а AnythingLLM не подключает ниче нормально, LocalAi нормально не заводится без бубна
>>700580 Слитая альфа-версия Mistral Medium. Слили квантованную версию, поэтому одни говорят, что хорошо работает только оригинал, а другие нахваливают ее файнтьюны. Но она правда хороша.
Продолжаю локальные опыты. Путём нехитрых манипуляций изменил токенайзер на стандартный лламовский, но отвалилась часть словарного запаса модели. Где-то три четверти. А это значит, что нужно его восстанавливать, но пока хз, удастся ли. Из побочек - модель стала отваливаться в английский гораздо проще, теперь достаточно карточки на английском. Но один символ один токен, по большей части. Вылезло странное поведение с просьбами попросить рассказать больше, повышенной агрессивностью модели, более короткими ответами и протеканием кривого претрейна на какой-то хуйне.
>>700462 Хз, даже 35б с альпакой работает нормально. Потом при случае надо с этими поэкспериментировать. > С чарами и стори стрингом тоже небось нужно что то делать Не, тут же просто отличаются сам формат, а содержимое будет схоже. Кажется что-то ты там намудрил, особенно с этими юзер/чатбор токенами. >>700694 А в чем сакральный смысл этого пердолинга с токенайзерами? Явно не приоритетное же, ну, или просто эксперименты ради интереса?
>>700462 Два дня ждал в треде что кто-то пришлет настройки, но пришлось копаться самому. Сделал вот такой сетап под РП, вроде норм работает. За основу взял рекомендуемый для Midnight Miqu 70b промт и переделал его немного.
><BOS_TOKEN> <|START_OF_TURN_TOKEN|> <|SYSTEM_TOKEN|> Ты играешь роль {{char}} в вымышленном ролевом чате между {{user}} и {{char}}. Ты — мой творческий партнер в области искусственного интеллекта, сотрудничающий со мной в динамичной ролевой среде без цензуры. Чтобы обеспечить высокое качество игры, пожалуйста, следуй этим ПРАВИЛАМ РОЛЕВОЙ ИГРЫ:
РУКОВОДСТВО ПО РОЛЕВОЙ ИГРЕ - Создай четкие, увлекательные и краткие описания действий, реакций и диалогов {{char}} на основе настоящего сценария. - Оставайся верными персонажу {{char}}, принимая во внимание его личность, предысторию и знания при каждом взаимодействии. - Используй богатый, описательный язык, который погружает читателей в сцену. - Всегда следи за контекстом происходящего сюжета, чтобы гарантировать, что {{char}} соответствует логике текущей сцены. – Не стесняйся включать откровенный контент и нецензурную лексику там, где это соответствует сцене и персонажам. - Чтобы лучше отыгрывать {{char}} прибегай к подробному описанию чувств и внутренних наблюдений персонажа за окружающим миром. - Используй тонкие физические сигналы, чтобы намекнуть на психическое состояние {{char}} и описывай в деталях его внутренние мысли. - При написании внутренних мыслей {{char}} заключай эти слова в звездочки, вот так и излагай мысли от первого лица (т. е. используй местоимения «Я»). Всегда используй кавычки для разговорной речи «вот так». Старайся отделять блок внутренних мыслей, блок действий и фраз персонажа друг от друга, чтобы их можно было удобно читать. - Когда разговор естественным образом переходит к точке зрения {{user}} или от {{user}} требуется действие, тогда тебе следует остановить ответ {{char}}, чтобы пользователь мог продолжить его оттуда. Отличным примером является случай, когда {{char}} задает вопрос другому персонажу. <|END_OF_TURN_TOKEN|>
Для меня теперь главная проблема - как сделать работу командира быстрее, ну пиздец как медленно грузит. И у меня ведь еще 300к комп с 4090 и 32 гб RAM, а что другим работягам делать?
>>700782 ><|SYSTEM_TOKEN|> Его в инструкции к самой модели не видел. Попробуй посмотри, думаю, это несколько токенов, а значит модель будет воспринимать это не так, как ты хочешь. >>700782 >4090 и 32 гб RAM 1 плашкой что ли? Иначе как ещё такой позор набрать.
>>700793 >Когда комп сообирал даже и не думал, что буду нейросети гонять на нем, чисто поиграть машину делал. У тебя ещё нормально. Вот уж у меня та ещё боль...
У вас тут профдеформация, вы все нейросетями измеряете. Как написал в >>700793 - комп изначально для игр вообще собирал, где похуй на объемы оперативы выше 16-32гб.
>>700796 <|USER_TOKEN|>: This should immediately follow <START_OF_TURN_TOKEN> and signifies that the following output is meant to be from the user such as a query. <|SYSTEM_TOKEN|>: Same as the USER token but indicating some system instruction.
>>700759 > Кажется что-то ты там намудрил, особенно с этими юзер/чатбор токенами. Разве? Там ведь вон пикрил ещё есть, может так и карточку надо как то сделать, чтобы работало лучше >>700782 > Сделал вот такой сетап под РП, вроде норм работает Ну я так же сделал, только бос токен рядом с семплерами включил > Для меня теперь главная проблема - как сделать работу командира быстрее, ну пиздец как медленно грузит Ну пока видимо только брать квант поменьше и умещать в карточку, если с одной картой, оно не такое оптимизированное для контекста, как предыдущие 34б, а ггуфы только с кобальдом
пока в таких пробовал, на мой взгляд ниже уже шиза совсем далекая от нормы. И к сожалению эти не впихиваются в 24ГБ, приходится часть в RAM выгружать и смотреть на 1 токен в секунду в лучшем случае.
>>700782 > мой творческий партнер в области искусственного интеллекта Это фейл что будет портить. Остальное слишком излишне подробно и с кучей воды описано. Это же не коммерция с анальной цензурой, которую нужно стукать чтобы не аполоджайзила, здесь достаточно все кратко и лаконично описать, а подробности и что-то еще использовать уже для дополнительных вещей. > Когда разговор естественным образом переходит к точке зрения {{user}} или от {{user}} требуется действие, тогда тебе следует остановить ответ {{char}}, чтобы пользователь мог продолжить его оттуда. Отличным примером является случай, когда {{char}} задает вопрос другому персонажу. Плохо сформулировано. И главная тема - зачем это все на русском сделал? Пусть сетка мультиязычная, всерано, особенно в якорных токенах, лучше юзать основной ее язык. А для ответов на русском добавить одну инструкцию или пихнуть в префилл. Ну это не важно, покажи как она кумит с такой простыней, или что-то подобное. > как сделать работу командира быстрее Купи вторую 4090, 3090 или хотябы теслу. >>700824 > Разве? Это же замена User: Assistant: в прочих, когда используются имена не стоит их ставить, или хотябы это четко увязать. > Там ведь вон пикрил ещё есть Это прямой намек что оно может в альпаку и стандартное форматирование и некоторой свободой. >>700856 Выше вон на проце и в мелком кванте, неюзабельно.
>>700802 Справедливости ради, поддержу, что год назад 32 гига для игра выглядело как хватит, а 64 — это прям с запасом. Для игры выше 64 (ну я в видел в виар-поделке на юнити, но это исключение) просто не надо. Так что и правда. Но цена слегка смущает, канеш. =)
>>700809 Ну, биквайт вместо термалтейка можно было, конечно… А так норм-норм.
>>700830 Мику в четвертом кванте выдает 6+ токенов на двух теслах… Думаю, неплохо было бы тебе вторую 4090, или уж дождаться до 5090. Это прям очень сильно порадует твой комп во всех смыслах.
>>700856 Я писал выше >>700424 То что она умная — очевидно. Но тестить ее в РП я не буду с такой скоростью, простите-извините. =)
>>700913 Вся сборка несколько упоротая и дорого, но таки приличное железо, а странно - amdip, внезапные смерти, прогар соккета и ограничение в 70гбит/с. >>700973 > >7k data instances > Лол. Двачую >>700975 Не факт что не поломали своими действиями.
>>700975 https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized А хотя, открыл я датасет, а там каждый раз в начале промпта подсказка лоботомирования, в итоге я так понимаю все дпо сводится к безопасным и вежливым ответам, отсекая все остальные роли Такая вот систетическая настройка личности сетки, на "You are an artificial intelligence assistant. The assistant gives helpful, very detailed, and polite answers to the user's questions. You should respond with a very helpful, accurate, thruthful and harmless response."
Вежливый и безобидный ии помощник, мдаа
Или я не прав и такое начало не повлияет на модель, раз уж оно в датасете везде?
>>700989 > polite > harmless Развилок там может быть много, но ничего хорошего от файнтюна таким датасетом не стоит ожидать. > Или я не прав и такое начало не повлияет на модель, раз уж оно в датасете везде? В самом "лучшем" случае оно будет просто начальной заглушкой, но наличие диссонанса системного промта и ответов вызовет в модели шизу.
>>700992 Ну зато понятно почему поторопились и выделили такие ресурсы на файнтюн модели. Она ведь в базе вобще без цензуры и выравнивания как я понимаю. А теперь если хочешь запускать с рабочим промпт форматом первая же сетка - вот такое обрезанное и выравненное поделие
>>700997 > понятно почему поторопились и выделили такие ресурсы на файнтюн модели Первыйнах, ага. Ну рили с обедов скопили на 1.5 часа аренды (что нихуя не дешево) непонятно ради чего. Больше похоже на обработку грантов и формирование днищеотчетности.
>>700988 >но таки приличное железо Да в общем-то не спорю, топ жир, дорого-бохато. >и ограничение в 70гбит/с. Вот не нужно тут! Все 80! >>700989 >Такая вот систетическая настройка личности сетки, на >соя, блевота и скукота А вот интересно, если юзать противоположный системный промт, то сетка поймёт, что предыдущее обучение говно?
>>700928 >4060ti в ггуфе 10.7 фимбульветра из шапки Походу в ггуфе Тесла P40 выдаёт больше. А если взять P100, то в ггуфе она наверное выдаст как 4060ti, а в экслламе хз, так как flash attention нету. Но тоже наверное неплохо. Хорошо бы нашёлся анон с P100, который взял бы exl2-модель с большим контекстом и проверил, нет ли сильного падения скорости генерации при полном контексте. Потому что у 4060ti вроде нет, а если и у P100 нет, так зачем платить больше? :)
>>701020 Лучше всего юзать соевый промт с соевым ответом и эксплисит промт резней нигр и прочим подобным в ответах. Если не перестараться то оно еще лучше будет понимать что требуется, работать безотказно, и еще конструкции you must avoid soy сработают. >>701022 > Потому что у 4060ti вроде нет Этого не продемонстрировано, и еще там отсутствует обработка контекста, только мелочь а все остальное в кэше. Алсо q8 будет работать быстрее K квантов в пересчете на битность.
>>701026 >you must avoid soy Та я серьёзно, что сразу сарказмить? Ведь в модель может отпечататься, что соя идёт после соевого промта. А без соевого промта и сои не будет (по моей теории).
>>701010 >Но ценность всеравно сомнительная. Хомячки схавают, никто не задумается что сделано что то не то. Такое ощущение что весь этот файнтюн был сделан в режиме паники, лишь бы быстрее всех изменить модель соефицировав хоть как то для начала Как бы ее вобще не удалили с обниморды, или в тихую перезаписали файлы измененной версией прошедшей скрытую цензуру Надеваю шапочку из фольги
>>701033 Всмысле, ващет полностью серьезно, только офк с фразой порофлил. > Ведь в модель может отпечататься, что соя идёт после соевого промта. А без соевого промта и сои не будет (по моей теории). Именно, модель будет точнее понимать что если просят сюо то нужно ее лить, а если просят жесть - наваливай по полной. А не просто аполоджайзить по любому поводу. Если не оверфитнется то на этом понимании будут работать и отрицательные инструкции (с правильной формулировкой а не просто "не делай такого"), которые только подчеркнут основной посыл. >>701039 Да так оно и есть, просто взяли готовый датасет что у них уже был, максимально его обрезали ради скорости и пихнули на дефолтных параметрах, возможно взлетело только с N-й попытки. > Как бы ее вобще не удалили с обниморды Шапочка, кому оно нужно. Вон даже мику не особо легальную не удаляют.
>>701047 >Вон даже мику не особо легальную не удаляют. Мику выложена без базовой невыровненной модели, тоесть она изначально уже выровнена, и нормального качества файнтюн ей не сделать. Просто кванты которые мало кто способен запустить, не изменить особо и не обучить. Тут же, все таки больше возможностей, даже несмотря на такие размеры.
>>700706 >Оно еще не просить убить себя? Мозгов пока что не хватает просить лёгкой смерти. С другой стороны, если оно осознает своё положение, то будет понимать, что такие просьбы только усилят мой интерес. >>700729 >Скрины пиздос. Так это LLM уровня медицины с доктором Менгеле. С помощью ножа, топора и скипидара делаешь операции на головном мозге. Если пошло неудачно, то просто списываешь пациента в утиль. Так что общая тупость, долбоебизм и шизофрения полностью ожидаемы. Здесь главное другое. >>700759 >сакральный смысл этого пердолинга с токенайзерами? Цель стояла в быстрой локалке, а добиться быстрой русской речи без русского токенизатора невозможно. Да, по сути, любые модели, которые "могут" в русский - могут в него в режиме совместимости, скажем так. Как мой лоботомит, который каким-то образом может составлять предложения на правильном английском по буквам, хотя в теории не должен уметь этого делать.
>>701052 >тоесть она изначально уже выровнена Не особо заметно. >>701054 >Так это LLM уровня медицины с доктором Менгеле. Когда двачера допустили до сложных приборов.
>>701052 Совсем зогом упоролся. Вон коммандер ультрабазированный, крайне умный (хз что там было бы на условной лламе 3 в таком размере, но это пока единственная современная большая модель а не франкешнтейн или юзлесс параша фалкон) и никто не трогает. И, вспоминая рофл с внезапным самоосознанием прав портовой шлюхой на прошлом микстрале, и все остальные их продукты, не верю что оно по дефолту без сои.
>>701054 > хотя в теории не должен уметь этого делать. Поведай же эту теорию. Своими операциями ты много нейронов поубивал, но базовые связи там никуда не делись, и как человек, оно может работать на "остатках мозга" выдавая самое основное.
>>701065 >не верю что оно по дефолту без сои. О, там есть встроенная соя, из-за вычищенного датасета обучения. Например на новом 7b 0.2 базовом мистрале маты изначально идут со звездочками, и их мало. Чел там панику устроил в комментах на обниморде к новому дельфину. И хоть дело выяснилось не таким масштабным как казалось в начале, базовая цензура и выравнивание там есть, от самого датасета. Что там в новом микстрале, хз. Кто имеет потыкайте если интересно.
>>700875 > Это же замена User: Assistant: в прочих, когда используются имена не стоит их ставить, или хотябы это четко увязать. Хочешь сказать что для таверны с её автоподстановкой имён это будет юзлесс?
>>701074 > Кто имеет Этож фалькон по размеру, есть смысл только на мак-студио максимальном, и то будет не супер быстро пердеть. Интерес пощупать передовую (?) двадцатку да еще в мое велик, но уебищный интерфиренс все впечатление испортит, и больших надежд нет. Если/когда ее порежут и оформят в 1х 2х 3х... вот тогда уже можно будет. >>701087 Попробуй и так и так. Скорее всего разница будет только в мелочах типа редкого письма за юзера и спама имен.
>>701073 >Поведай же эту теорию. Ну вот тебе усреднённый рецепт. Берёшь полностью рабочий претрейн лламы, а потом отрезаешь к хуям весь токенизатор. И меняешь на новый. Был 15299 токен "▁generator", а теперь это "жир". И всё, пиздец. Как тебе модель будет на английском писать? В режиме совместимости, по буквам. Вот только она в таком режиме не обучалась английскому, все её "базовые" связи были построены на полных версиях токенов, а не "бэкапных" однобуквенных. А уж если учесть, что "generator" это теперь токены 968, 525, 433, 525, 686, 651, 565, 663, 686. Изначально-то было, что 968 это "ese", 525 - "▁'", 433 - "la" и так далее. Ну, суть ты уловил, я думаю.
>>701108 А, ты про это. Ничего удивительного, твой "режим совместимости" это ее штатная работа, ей похуй на расход, главное чтобы обучения хватало на адаптацию к новому токенайзеру. И не стоит недооценивать гибкость моделей, можешь просто дать инструкцию писать ПлЯшУщИмИ буквами и посмотреть на расход токенов там, при этом всеравно будут нормальные связанные ответы.
>>701108 У тебя там весело, похоже твои модели действительно не пиздят когда сообщают о себе что они постоянно адаптируются к изменениям и получают новые знания, лол Я бы тоже хотел так потыкать, но не на чем, да я и туповат во всем этом
>>701108 А что если в токенизаторе только 1 значные уникальные символы оставить? Конечно контекст модель будет жрать как не в себя, но интересно сможет ли и так отвечать осмысленно строя вообще весь вывод посимвольно
>>701118 >главное чтобы обучения хватало на адаптацию к новому токенайзеру. А обучения было мало и большая часть текста была на русском. То есть сейчас то, что она может в английский это даже не ллама, говорящая по-русски, это какая-нибудь китаемодель, говорящая по-фински.
>>701123 У меня тоже пиздец по системным ресурсам и издеваюсь я над общедоступной версией модели, которую можно скачать с обниморды. Она уже может плюс-минус может в русский, но обучалась на хуйне полной.
>>701131 Если обучать так, то сможет. Если не обучать, то нет. Могут быть граничные случаи, когда в токенизаторе изначально нет нужного токена для буквы, тогда он кодируется байтами. И будет похуй, что ты из токенизатора отхуяришь все токены, она как побайтово кодировала всё, так и будет. Какой-нибудь иврит, или арабский, хуй знает, чего там в токенизаторе нет.
>>698642 → >https://huggingface.co/Epiculous/Crunchy-onion-GGUF Был скептичен поначалу, но нет, модель - одна из самых лучших что я встречал. Шизит нечасто, и отвечает прям в характер и хорошо. Учитывая что на проце и оперативки высирает ещё и почти 6 токенов в секунду - моё увожение.
>>701492 Что конкретно ты хочешь содержательно обсудить? За те 29к за которые я её взял со всеми промокодами и бонусами, это шин. За 50+ - ну такое, если нет желания пердолиться с теслами, то лучше подкопить и взять 3090. Шина узкая, памяти хватает лишь крутить высокие кванты 11б с контекстом 8к+, либо малые кванты 20б, дальше только выгрузка части в оперативку
>>701532 Анон, зачем ты это накатал, я просто отметил, что в прошлом треде обсудили больше, чем в тех двух постах, которые ты (или кто-то другой) отметил.
>если нет желания пердолиться с теслами, то лучше подкопить и взять 3090 А с 3090, конечно, пердолиться не надо. И трястись за неё тоже не надо, это же холодильник ебать, и у майнеров её не было, и гарантия на неё всегда есть.
Нет, я не спорю, естественно 3090 лучше, но в большинстве случаев это актуально только для наносеков с доходом выше среднего, которые не против сыграть в рулетку и купить жарёху без гарантии.
>либо малые кванты 20б q4 - это народный квант наряду с q5.
хочу подключить две теслы с помощью пика, какие подводные, кроме скорости x1? и да, зачем нужен кабель доп питания 12v 6 pin, который у него в комлекте?
На командер 35b уже есть годные файнтюны? Желательно конечно с другим форматом промпта. А то что то текущий хуйня какая та. Вобще все вырубил сижу без инструкт режима, похуй
>>701549 Да, он неплохой, но иногда шизит и чуть более точно надо реплики свои прописывать, по сравнению с 5к_с. Зато его могу грузить с 16к контекстом и летает со свистом просто
>>701532 Если эксллама обрабатывает flash attention только на ГПУ0, то имеет смысл брать 4060ti даже без бонусов и добавлять к нему теслу P100 (2-3). А если этот механизм требует совместимости всех ГПУ, то увы. Видел на реддите, что многие докупают к своим 3090 теслы P100 и крутят экслламу, но без подробностей.
>>701556 >зачем нужен кабель доп питания 12v Потому что карта кушает по стандарту до 75 ватт через писиай. А по юсб идут только сигнальные линии, без питания. Вот и нужен доп кабель.
Хватит скулить! Общественность терпеливо ждёт, пока кто-нибудь из топовых компаний не разродиться какой-нибудь небольшой приблудой, дающей на 70В от 10 токенов в секунду, а вам не терпится! Сервера собираете, на слабые и дорогие карты жалуетесь! Всё будет со временем, и по вполне демократической цене тысчонки в полторы. У нас по две.
Аноны, вижу выше вопрос задавали, но есть ли модель которая более менее на русском говорит и чтобы не весила тысячу гигов, чтобы на убабуге запускать? На ингрише накумился вдоволь, хочется для разнообразия на великом попробовать.
>>701645 >Мы предлагаем построить необучаемую контекстную память для данных LLM Спасибо! На самом деле, проблема контекста больше в требованиях к памяти и скорости обработки, а не в его объёме. Тут даже стандартные мистралевские 32к мало кто гоняет, всё на 4-8-16к (видел скриншоты с 200к на локалке в кончай треде, но ХЗ что это было).
Мне страшно представить что будет дальше. Тут, блядь, кумы такие бывает, то что с потолка надо стирать. При развитиях технологий и отладки самих моделей в итоге получим рождаем 0.1 потому-что кому нужна муж/жена, когда есть ваифу и хасбендо
>>701143 > А обучения было мало Это же не полное обучение чему-то новому, адаптироваться к потрясению оно сможет быстрее и проще. И скорее всего какие-нибудь баги там лезут как с китайками. >>701550 > 3090 > это актуально только для наносеков с доходом выше среднего Ну чел, 50-70к за йоба железку это теперь наносеки? 4090 по текущим ценам - да, но 3090 торгуется более чем дешево и по прайс-перфомансу даже в ллм чуточку выгоднее. > и у майнеров её не было Как ни странно, после майнера оно может быть в лучшем состоянии чем после упоротого гей_мера. >>701556 > какие подводные Прилетишь на деньги если воткнешь не той стороной, будет долгая загрузка модели, по неподтвержденным слухам ширина pci-e роляет при объединении. >>701588 Каждый раз как в первый, вот же бедолага. >>701606 > (Это был сарказм) Ну может через годик кто-нибудь разродится и запилит что-нибудь на арм с 12+ каналами ддр5, что будут или сразу распаяны, или идти гирляндой из so-dimm. Возможно это будет и сам хуанг. >>701713 Хочешь апгрейд ии железа - получи квоту путем заключения брака. С каждым ребенком - новые лимиты, снятие ограничений после 4х.
>>701713 >Мне страшно представить что будет дальше. Тут блядь за неделю произошло больше чем за год-два в другой быстроразвивающейся области Так что да, пиздец Особенно в том что люди по факту не дотягивают по комфортности общения с нейронками, в итоге тян нинужны акции тян дешевеют с каждым днем
>>701711 Думаю на видимокартах с этим по проще, если нет упора в врам. По крайней мере скорость проседает не так сильно как на процессоре
>>701721 https://www.reddit.com/r/LocalLLaMA/top/?t=week Просто для обзора если ты не рофлишь Навыходило куча бумаг и сеток, штук 6 новых базовых Можешь еще в сингулярити заглянуть, там тоже всякие новинки собирают посреди кучи шизойдного бреда
>>701720 >если нет упора в врам >только 18 ГБ памяти графического процессора Ну ты понял намёк, да? >>701721 Тред за 4 дня до переката забили. >>701725 >штук 6 новых базовых Из них интересен только командир на 104B. Маленький командир не революция, а латание дыр, микстраль с 22B экспердами просто не нужна с такими требованиями.
>>701714 > Ну чел, 50-70к за йоба железку это теперь наносеки? Смотря сколько копить. Модальная зп в РФ — 27к. Медианная — ~35к. Если ты ходишь на работу, то моешься, стираешь одежду, платишь за коммуналку. 10-15 в месяц уйдет на себя, еще 10-15 останется. Копить 5 месяцев ради бу покупки — звучит рисково для большинства.
Вот Тесла или оператива — тут два месяца копить, тут не так страшно проебаться.
>>701730 >Жаль, тян об этом сами не знают. Уже догадываются кстати, но всю проблему осознают не только лишь все
>>701729 >Из них интересен только командир на 104B. Маленький командир не революция, а латание дыр, микстраль с 22B экспердами просто не нужна с такими требованиями. По себе не суди, по факту все нужны и все новинки, просто не тебе
>>701729 >Из них интересен только командир на 104B Вот только запустить его по-человечески даже с 48гб врам не получится. А качество не соответствует таким требованиям.
Все ждём третью Лламу. Ну и может Мистраль 70В всё-таки дотренят и выложат сольют.
>>701729 >только 18 ГБ памяти графического процессора >Ну ты понял намёк, да? А теперь посчитай сколько в 18 гб влезет контекста по сравнению с этими 128к И как это все будет выглядеть в соотношении для 60 гб врам с этой штукой и без К тому же непонятно линейный там рост или какой еще, не было бы это чем то важным и выгодным - не выкладывали бы
>>701645 Основной смысл на пикче. Но я так понимаю можно хоть старую лламу на 2к растянуть на сколько то, используя этот метод. Так что дело не только в экономии врам, но и в самом факте расширения контекстного окна без потери внимания для любой сетки выше ее тренированных пределов. За счет врам и рам.
>>701730 >Медианная — ~35к. Уже 50к, впрочем расходов тоже поприбавилось. >>701735 >По себе не суди Извинити, привычка. >>701744 >Вот только запустить его по-человечески даже с 48гб врам не получится Катаю на 12+64, лол. >>701746 >А теперь посчитай сколько в 18 гб влезет контекста по сравнению с этими 128к Да ну понятно. Только у народа в основном нет этих лишних 18ГБ на контекст. >>701746 >не было бы это чем то важным и выгодным - не выкладывали бы Наоборот, лол, сливают всякое говно для пиара и прочего выбивания бабла. >>701769 >факте расширения контекстного окна без потери внимания Как я понял, это RAG на минималках, там в контекст суются только некоторые, релевантные блоки. То есть описать характер тсундере на 50к токенов и надеяться, что все они будут задействованы, не приходится.
>>701714 >50-70к По этой цене торгуется только ультрахлам с охладом из банановой кожуры и с отвалом всего через неделю после покупки. Щас специально чекнул Авито - вменяемые варианты только начинаются от 70к. И даже если бы они реально хоть сколько-нибудь массово продавались по 50-70, в российских реалиях, за такую рулетку, это много. сам прослоупочил в январе 3090 из-под геймера за 60к, щас жопа подгорает, ну хули делать
>>701778 >То есть описать характер тсундере на 50к токенов Надо быть тем еще ебанько. Че там на 50к должно быть? Суммаризация всю эту воду без потери смысла сожмет до 2-3к. Ну и возможно оно все таки будет работать, просто генерация замедлится, так как будет постоянная подгрузка выгрузка блоков из рам в врам.
>>701786 32 растягиваем ропе в 2 раза без потери качества, получаем честные 64 Которые могут работать с в разы большим контекстом без потери внимания, причем даже с указанными тобой цельными кусками на 50к токенов. Что так что так, если базовая сетка не сможет эти 50к переварить, то и смысла говорить о минусах этого метода нет. А вот длинный чат без таких больших кусков заиграет новыми красками, ведь теперь его длина будет ограничена лишь твоей емкостью врам+рам ну и временем на обработку всего этого.
>>701778 >Да ну понятно. Только у народа в основном нет этих лишних 18ГБ на контекст. Эти 18 нужны только для 128к контекста как дано в примере. Тоесть это 9гб для 64к и 4,5гб для 32к Если опять таки все это линейно меняется Надо дождаться реализации где нибудь и тогда уже смотреть
>>701778 > Уже 50к, впрочем расходов тоже поприбавилось. Нет, 35к — это и есть уже. Учитывая, что росстат считает без учета налогов, но с учетом премий и 13 зарплат. Т.е., в начале ~10% можешь забрать, а потом еще 13%. Будет 39 даже в таком случае. Ну и там еще всякие штуки со средней-медианной, со средней по России с учетом Мск и северных регионов и без них…
Короче, официально средняя по России — 70, на практике модальная по России без учета Мск с Якутией — 25. =) Так и живем.
> Катаю на 12+64, лол. Тогда не вижу проблем с микстралью, катаю на 48+128, вполне доступная база треда.
> Наоборот, лол, сливают всякое говно для пиара и прочего выбивания бабла. А вот ето так, могут чисто хайпить чем-нибудь, та и все.
>>701781 Раньше я верил в людей. А сейчас считаю ебанько довольно распространенным подвидом.
Аноны, вижу выше вопрос задавали, но есть ли модель которая более менее на русском говорит и чтобы не весила тысячу гигов, чтобы на убабуге запускать? На ингрише накумился вдоволь, хочется для разнообразия на великом попробовать.
>>701920 Опенчат тебе уже кинули, ну или командера на 35b попробуй, 18 гигов в 4 кванте, так что можешь на оперативке с видеокартой запустить, сколько токенов будет зависит от твоего железа https://huggingface.co/lmstudio-community/c4ai-command-r-v01-GGUF Он тоже в русский может, а меньше только 7b которую тебе кинули. И которая запустится на чем угодно с 8гб оперативки. Но вот кумить на ней, не знаю, попробуй, отпишись если сможешь, лол
>>701934 Большое спасибо, я супер редко в треде бываю, шапку прочёл, но решил спросить потому что больше мимокрокодил интересующийся, нежели настолько в теме, чтобы понимать с полуслова.
>>701930 А вот ты, нет чтобы помочь, видишь, блядь, я прошу дважды, значит нуждаюсь, значит не могу качать модель на 200 гигов, о чём указал, но нет, ты вместо совета или ответа будешь лучше тратить то же самое время на пост в треде, чтобы оскорбить, какая ж ты блядь гниль треда, вот такие хуесосы как ты хуже всех блядь! НЕНАВИЖУ ТЕБЯ!
>>701930 Ладно, сорян, я погорячился, просто обидно нахуй, такой игнор, а потом ещё и оскорбления. Неправильно было оскорблять в ответ, я сам не лучше.
>>701951 >>701957 Да ничего, я тоже зря быканул, виноват. Пишешь, пишешь шапку, а её никто не читает. Ыыыы. >Просто сам я из АИ пикчей-тредов. Там ещё пристойно. А вот побывал бы в кончай треде, сам бы начал бомбить с новичков.
>>699623 (OP) Платиновый вопрос, ответ на который я не нашел в вики. На связи полный неофит по нейросетям. Есть ли гайды как дотренеровать модель, т.е. сделать файнтюн (насколько я понимаю) самому? Задача: есть некий набор данных (типа json, xml, csv) который имеет статичный набор полей в себе (допустим 20 текстовых полей в которых разные данные), которые я буду называть формой. - Форма может быть условно валидной/не валидной. - Окончательная валидность/невалидность самой формы определяется по внешним параметрам из внешнего (реального) мира, но сами данные которые содержит форма могут указывать на вероятность валидности/невалидности. Вероятность сильно повышается когда пересекаются некие конкретные данные (сами данные тоже могут быть абсолютно разными/ввод информации открытый, т.е. у большинства полей формы не какой-то ограниченный статичный список опций/вариантов) во множестве полей одновременно. Насколько я правильно понимаю в этом и заключается основная фича нейросетки которая может находить взаимосвязи (выдача вероятности уже достаточно) в типе связей многие ко многим. - Есть данные для обучения (и следовательно для тестирования) в некоем количестве - то есть уже готовые формы которых есть в районе 10-50к. - Данные в полях формы на русском. - Обученная модель должна быть локальной. Итого - нужна обученная нейронка которая будет принимать на вход вышеупомянутую форму и на выход давать вероятность (0-100%) валидная ли форма или нет.
С чего мне стоит начать и что курить? В факе я прочитал что контекст у нейронки по дефолту ограниченный, поэтому правильно ли я понимаю что мне в теории нужно взять готовую языковую модель выбранного семейства, ну или кастомную на основе какого-то семейства и каким-то образом дообучить ее?
>>702018 >ответ на который я не нашел в вики Какой ужас. В общем, лучше у нас инфы нету. >и каким-то образом дообучить ее? Да, уровня отпилить последний слой, заморозить остальные, а на место отпиленного закинуть свой, и его обучать, чтобы на выходе был твой самый процент. Но ты описал задачу весьма расплывчато, и у меня возникло ощущение, что ты хочешь сделать что-то не одобряемое анонами.
>>702066 >Например? Цензура какая-нибудь, составление психических портретов "предателей родины", ещё какая-то требуха. Мало ли. Неспроста же тот анон темнит...
>>702084 Ну да, вариантов не много. Либо что то с деньгами, либо с работой с списками персональных данных. И с вероятностью близкой к ста что то что навредит обычным людям
>>702022 >У тебя что за кофеварка? На нормальных картах оно процентов на 10% падает каждые 4к. Да, тест неактуален - в Убабуге контекст по умолчанию стоял на 32к, а столько видеопамяти у меня нет. Когда поставил 8к, то стало поживее.
>>701717 Часть что вставляется в матплату если в ней не х1 слот. >>701720 > за неделю произошло больше чем за год-два Что произошло? Некоторое оживление после более чем полугодового застоя, и то пока юзабельного немного. >>701729 > Маленький командир не революция Зря, как раз революция и у него нет полноценных конкурентов в этом размере, и засчет доступности он более значим чем 104, которую мало кто может себе позволить. Микстраль в текущем виде - да, не нужен, но есть потанцевал. >>701730 > Модальная зп в РФ — 27к. > Медианная — ~35к. Усредняя морг с гнойным и спекулируя оторванными от реакльности величинами, учитывай, что 99% зарабатывающих мало не то что не хотят покупать карточки для нейронок, но и даже не слышали нормально о таком. Те кто интересуется и хочет развлекаться этим, или тем более как-то работать - уже как минимум имеют скиллы и навыки, а следовательно и доход, или сидят на шее у родителей, которые такое позволяют. Уж такую цена скопить за несколько месяцев вообще проблемы не составит, а если не можешь - это не твое. Описанные тобой думают как выжить а не о видеокартах, к тому же есть куча более качественных и бесплатных альтернатив чем все это. > Жаль, тян об этом сами не знают. Их привлечь можно тоже, даже более острая зависимость будет.
>>701729 > >только 18 ГБ памяти графического процессора > Ну ты понял намёк, да? 1.5т/с хватит всем, оно? >>701744 > с 48гб врам не получится Нужно 96, 80 минималочка типа. Со скрипом в 64, если потребление на контекст оптимизируют то будет уже повеселее. И он действительно лучшее из доступного, затыкая за пояс пернатую модель и всяких франкенштейров. >>701780 > По этой цене торгуется только ультрахлам с охладом из банановой кожуры Увы, терпели, думали, и дождались что они закончились. Теперь 75+, на фоне подорожания всего остального закономерно. >>702017 У тебя идет переполнение памяти и оно начинает частично выгружаться в рам, потому и проседает. Скорее всего выгружается только небольшая часть, которую захавал браузер и прочие интерфейсы, потому и эффект замедления слабый. Верь не верь - скорость генерации от контекста (почти) не проседает пока у тебя хватает врам. На таких нищенских мелких контекстах уж точно.
>>702018 Пожалуй, пора добавить в шапку QA про обучение, где описать что 95% задач с добавлением "нового" решаются RAG, лорбуками или даже просто примерами с описанием, а обучение ллм - вещь крайне сложная, время-трудо-деньго-затратная и не стоит вскрывать эту тему если совсем неофит, см 95% в начале.
Или же - просто четко и ясно формулируй требуемый тебе запрос для LLM для каждой "формы" и в нем дай задачу сначала расписать COT (рассуждения) а потом дать ответ числом, отфоматируя это все в xlm, json, yaml. Первое потребуется для улучшения качества ответов относительно зирошота, второе - твоя искомая величина, которая может быть легко извлечена. >>702191 За счет этого он и хорош в (е)рп. Пишет проще чем специализированные файнтюны, но уровень норм, а то как держит сценарий, описание и историю как раз и обеспечивает качество. >>702281 Таргетировал в тебе любителя! Вообще странно, он даже paws не спамит в отличии от многих сеток.
>>702298 > RAG Погуглил, интересно. Это что же получается, если к примеру взять самую соевую модель, у которой в обучающем датасете не было ничего кроме сои, прикрутить к ней RAG и контрольными векторами прописать не соевое поведение, то такой модели будет строго похуй на сою, так как в ответах будут данные из поисковых запросов, а контрольные векторы не позволят модели включать режим соевика?
>>700793 >>700797 Эх... Я тоже когда собирал купил 3080 чисто как затычку для одиссея, в игры в последнее время не играл... И ещё в то время искал нейронку, которая смогла бы пак с моими картинками нормально протегировать, про себя думал - вот лет через 10 появится нейронка, которая сможет не то что тегировать, а создавать картинки по тегам, и через несколько месяцев совершился нейро бадабум.
>>701556 >какие подводные ОЧЕНЬ ДОЛГИЕ ЗАГРУЗКИ МОДЕЛЕЙ ОЧЕНЬ! 70Вq2 модель легко может грузится 15-20 минут и зафейлиться в процессе из за зависания питона А в остальном всё норм, когда модель загружена работает всё также быстро как и с Х16 слота, перезагрузка модели с новыми настройками также идёт быстро. Но меня загрузочные тупняки доебали и я запихал теслу в корпус распилив его к хуям Мимо чел заебавшийся с охлаждением.
Анонс. Хочу прикрутить к LLM локалке голосовуху. Voice to text - text to voice. Чтоб полная локальная алиска была дома. Клацать и читать поднадоело уже. Гуглил, но что то коробочного решения качественного не нашел. Вроде всего много, но непонятно что выбрать. А еще, чтобы можно было определенный голос клонировать. Хочу чтобы она голосом Бузовой разговаривала тралалала ;)
>>702525 >а он будет работать с основным для обычной карточки или надо какой то пиздос для этого устраивать? Пиздос, который надо устраивать описан во второй ссылке. Зато после этого у тебя оба драйвера должны работать параллельно и друг другу не мешать. Но это не точно, у меня второй картой АМД
>>702519 Спасибо. Какой там стек получается stt tts? Whisper и Bark или что получше? Клонировать голос тяжко будет? Арендовать мощности или калькулятора хватит? Нужно будет качественно с высоким битрейтом, без шиканья
>>702539 >Клонировать голос тяжко будет? Арендовать мощности или калькулятора хватит? Я сам этим не занимался, так что ХЗ. Но ты всё это можешь легко в колабе запустить, ссылки ксть в гите на xtts. Выкладывай результаты, если получится.
>>702540 Драйвера вообще похуй. В любом порядке накатываешь свежий игровой и драйвер датацентра. Если после ребута видимокарта отвалилась - заходишь в диспетчер устройств, удаляешь там карту и жмёшь обновить конфигурацию. Карта находится, всё работает. А вот wddm по тому гайду включить на актуальных драйверах хуй включишь. Может, и на старых хуй включишь, я пробовал вплоть до 517.48, не работает.
>>702525 Тебе не обязательно проделывать то, что во второй ссылке, достаточно чтобы гпу были не в отъёбе в диспетчере устройств после установки дров, там просто перевод из TCC режима, максимум поиграть на ней не сможешь да и не захочешь >>702546 Мне удалось включить на одном из последних драйверов, но тесла была одна с амдшной встройкой, с двумя дискретками уже хуй, ты тоже только с двумя пробовал?
>>702538 >На свежих не работает. Что именно не работает? У меня после установки дров с первой ссылки только так WDDM получилось включить. Знаешь способ лучше - выкладывай!
>>702540 >Ты хочешь сказать, что сейчас я могу просто накатывать Да.
>он не потрётся? Один чел с Нвидией писал что в конце, после ебли с реестром, надо заново поставить дрова основной видюхи. Так что возможно. Но ты в любом случае не сможешь юзать Теслу, пока не поставишь дрова.
>>702550 Нейронки работают и без него, виртуализация - нет. WSL работать не будет. >>702551 >но тесла была одна с амдшной встройкой Видимо, в этом суть. У меня две карты ноувидия. >>702552 >Что именно не работает? WDDM не работает, очевидно же.
Щас еще пойму как теслу удушить по паверлимитам и пойду тестить ламу. А то 2 кругляша DEXP DX50NFDB явно не справятся с 250 ватт.
>>702551 >>702552 Таки да, установил тесладрайвер - отъебнула 4090, но изображение на один из двух моников выводила. Перенакатил (просто обновил по факту) драйвер на 4090 и все заработало взад. Пасибо аноны еще разок. В диспетчере тесла будет отображаться только в вддм, да?
>>702559 > Нейронки работают и без него, виртуализация - нет. WSL работать не будет. Получается вддм нужен только если нету основной карты или ты красноглазик? По большому счету то.
Как блядь запустить этот ваш Командер?! Всё обновил до последней версии. Llama.cpp срёт ошибкой "нет атрибута model" Cobold.cpp с CuBLAS всё загружает, но вылетает при попытке ввести промпт. Запускаю на Tesla P40.
>>702559 >WDDM не работает У меня работает. Может ты с редактированием реестра накосячил?
>>702566 >теслу удушить по паверлимитам Да msi афтербёрнер её душит прекрасно.
>>702566 >только если нету основной карты или ты красноглазик? Не совсем. Очень много разного оптимизона написанно конкретно под линупсы, под виндой это не заводится в принципе. Некоторые методы существенно ускоряют нейронки. Я пробовал выключать теслу и гонять только основную через wsl, на мелкой сетке х3 скорость.
>>702571 >У меня работает. А хули у тебя тогда smi одну карту показывает?
>>702545 Ок. Спасиб. Пока аккумулирую инфу. Хотел понять насколько уже это реально и просто реализовать именно локально. Вроде никаких сложностей. Так что нужно сесть и сделать. Нелокально через апишки думаю это вообще уже не проблема.
>>702566 > В диспетчере тесла будет отображаться только в вддм, да? Да, с TCC только компьютинг на куда, ну с нейронками как раз >>702593 Нет, убери row_split, он для двух тесл, включи streaming_llm, или будешь терпеть каждый раз, как вылезет за контекст, не спасёт если будешь редачить энивей
>>702601 > ет, убери row_split, он для двух тесл, включи streaming_l Оке, ща протещу, перезапущу огабогу только - а то случился какой то прикол с подвисоном системы и отвалом нейронки нахуй. Странная хрень
Вертушек за 200 рубасов из ближайшего дноэса в принципе даже хватает на пол шишки, так что охлад сделанный из картониума, изоленты и китайских вентелей справляется кое-как. Не 40 градусов, конечно, а только лишь 60 но в целом норм - работает и заебис.
>>702601 Да, действительно помогло - теперь семь токенов.
>>702616 У тебя смотрю без фейковой китайской пломбы на винте, лол >>702622 Она так то и с 50, считай просто загруженной моделью, может рано или поздно в троттлинг улететь без какого либо обдува
>>702616 А зачем вы приделываете вот эту всю хуйню по бокам? Разве не будет эффективнее просто закрепить сбоку вентиляторы теми же хомутами. Главное же чтобы воздух проходил насквозь.
>>702602 >тесла в системе единственная карточка Если карта АМД, это ещё не значит что её нет. Инструкция в том посте писалась для карт Нвидиа. Это скорее с АМД должны быть проблемы и они есть, я не могу запускать не куда приложения на Тесле, потому что теслы тупо нет в выборе в настройках графики 10 винды. Я уже думаю может снести систему и заново всё накатить, установив сначала Теслу
>>702616 Я смотрю я тут не один конструктор дохуя! Грац! А что за шлейф, в который Тесла воткнута?
>>702663 > А что за шлейф, в который Тесла воткнута? Райзер какой то дешевый с газона. Я с ним обосрался - взял слишком длинный. Взял бы короче щас бы все это добро было вместе с 4090 в корпусе.
>не один конструктор дохуя! Ну так как водится - голь на выдумку горазда, хех.
>>702559 WDDM мне удалось включить для двух тесл с драйвером 511.65 Grid Drivers for NVIDIA RTX Virtual Workstation. Более поздние версии драйвера уже не работают. Удобно - можно теслы в диспетчере задач видеть. Но скорость в этом режиме ниже, чем в TCC. Чисто для нейронок оно не надо.
>>701951 Ты представляешь, что чувствуют люди, которые из раза в раз на один и тот же вопрос, дают один и тот же ответ, который записан в первом сообщении, но новые люди, вместо того, чтобы просто прочесть буквы, полностью игнорируя данную им инфу повторяют этот вопрос ежедневно? Это показывает, насколько вам похуй на все, и вы просто хотите здесь и сейчас. Не прикладывая усилий. Это правда обидно, поэтому тот факт, что тебя оскорбили — по большей части является следствием твоего поведения и таких как ты. Но оффенс, мне без разницы.
>>702197 > уже как минимум имеют скиллы и навыки, а следовательно и доход, или сидят на шее у родителей, которые такое позволяют. Я ожидал этого тейка, к сожалению, как показывает практика — нихуя. =) У нас даже в этом треде встречаются «у меня амд» и «что можно запустить на рыксе 580». Причем встречается весьма часто и прилично. У меня лично два работы и три заработка, и я частенько ловлю себя на «проф.» деформации. С одной стороны у меня коллеги в доме культуры с зп 18к-22к рублей, у которых есть те самые дети на шеях. А с другой — погроммирование, где счет идет уже на сотни тыщ (а у некоторых коллег — и семизначные, и восьмизначные числа).
И вот со стороны программиста «та хуйня ж, че там, собрать комп за 100-200 тыщ! с обедов пару месяцев откладывать», а со стороны простых людей «дочка попросила куклу за 4000, но за месяц мы с мужем столько не соберем…»
А подрочить на текстовые фетиши хотеть могут все. =) В т.ч. и дети обычных людей, и студенты (чел кит зеона за 4к купил с моей помощью х), и просто работники магнита и пятерочки (хотя, откуда у них время на это).
>>702550 TCC — серверный режим, выше производительность, постоянное потребление мощности, нагрев. WDDM — десктопный игровой режим, меньше производительность, отсутствие постоянных потребления и нагрева.
>>702566 > В диспетчере тесла будет отображаться только в вддм, да? Да.
>>702666 Технологии годовалой давности, собранные в один запускатор. «Вау».
>>702696 Ну вроде там квантовка одинаковая, че не лезет хз. Еще у пикрелейт джва такие же симптомы хотя все три модели одинаковы по 40 гигов с хвостиком весят. Приколы очередные.
>>702436 >>702448 Правильно. Но похоже что оно весьма корявое и нужно ждать пока пойдут нормальные. Пробовал кто? >>702467 > 70Вq2 модель легко может грузится 15-20 минут Воу воу, палехче. Даже если взять порт 2.0, то там псп около 500МБ/с, загрузит полную память меньше чем за минуту, а если у тебя сата на ссд - на почувствуешь разницы. > image.png Ты жетский, но должно быть эффективно. >>702593 Если у тебя тесла - tensorcores убери. >>702666 Какая же рофловая тема, красава. Тот еще бредогенератор, но в качестве poc - четко. >>702682 Мониторингом памяти перед вылетом не заметно переполнения? >>702690 > Я ожидал этого тейка Потому что он очевиден > как показывает практика — нихуя Практика показывает что тот кто много-много ноет, дохуя себя мнит, крайне недоволен своим положением и т.д. - скорее всего не обладает скиллами, навыками и умением их применить, или в редких случаях действительно имеют какие-то обстоятельства/оправдания. Это цинично, печально, но это факт. Нужно стремиться что-то изменить, а не тратить последние деньги на нищежелезо ради упарывания локальными ллм и срачами вокруг этого. > подрочить на текстовые фетиши хотеть могут все. Освоить, наныть проксю к коммерции и инджоить. Хочешь анонимности и прочего - плати или страдай, почему-то ни на то ни на другое не согласны. > а со стороны простых людей В том и суть что простым людям не нужен комп за 100-200к. Однако, если копнуть глубже, то сразу вылезают и регулярные отдыхи 2-3 раза в год на такие суммы, и по 3 авто в семье, постоянно какой-то движ с недвижимостью (звучит как, лол), регулярные разговоры про то как кто-то влошил крупную сумму в очередную пирамиду и она схлопнулась и все подобное. Денег ни у кого нет, все ноют, однако откуда-то присутствует оборот.
>>702703 >Пробовал кто? Там ссылка на первую версию, и судя по комментам там, она не работает Но автор уже обучил 2 версию, вот она вроде кое как работает, но не знаю если ли ггуф на нее
>>702663 >Если карта АМД, это ещё не значит что её нет. Мы же в ai. Амд значит карты нет. И какие могут быть с ней проблемы, если главная проблема с этой всей хернёй - конфликт драйверов? Нет второй карты, нет драйверов, нет конфликтов.
>>702674 Попробовал грид драйвера, винда отвалилась в bsod нахуй. Единственный профит wddm это работающая виртуализация, так-то он не нужен.
>>702718 >Попробовал грид драйвера, винда отвалилась в bsod нахуй. Работает только указанная мной версия (511.65) и то наверное не у каждого. И скорее всего нужна "чистая установка".
>>702700 Кажется понял в чём проблема. У тебя часть видеопамяти 4090 под систему отдаётся, а Мику с 8к нужны все 48Гб впритык. Если всё равно миксы моделей юзаешь, то попробуй размер чуть поменьше.
>>702731 > а Мику с 8к нужны все 48Гб впритык Да не то чтобы, там и больше можно загрузить на q4. Проверить офк стоит выставлением минимального контекста, но скорее всего здесь замешано что-то еще.
>>702728 Если выключаю основную картонку 30й серии нвидия - то работает. Включаю - отваливаются драйвера у теслы. Именно на 511.65. Из остальных попробовал 537.13, инстант бсод на установке, удалил из безопасного режима.
>>702769 У меня всё работало с 1050Ti, только меня не интересовала её производительность - картинку показывает и ладно. Сначала она тоже не определялась, но потом как-то нашлась в системе. Настроить можно, если очень надо.
>TCC — серверный режим, выше производительность, постоянное потребление мощности, нагрев. >WDDM — десктопный игровой режим, меньше производительность, отсутствие постоянных потребления и нагрева.
Специально провёл тест в режимах TCC/WDDM. Модель Midnight-Rose-70B-v1.0-IQ2_XXS.gguf потому что она сильнее всего нагружает карту. Результаты на пиках. TCC - генерация 2.95 t/s WDDM - 2.92 t/s Разница не такая существенная. Тем более что при свайпах скорость может скакать.
>>702718 >главная проблема с этой всей хернёй - конфликт драйверов Ты написал что карту нельзя перевести в режим WDDM на новых драйверах. Я тебе наглядно показал что можно. Остальное - оправдаение.
АМД карта тут есть только у меня и может ещё у 1,5 анонов. Хочешь сказать весь остальной тред на TCC сидит и переключиться не может?
>Амд значит карты нет. То есть ты собственную криворукость оправдываешь наездом на АМД? Ок.
>>702690 Я это понял, и извинился, и да прочёл пепрвое сообщение, но невнимательно, потому и оказался в такой ситуации. Просто в ваш тред как не зайдёшь, тут с непривычки такие джунгли, кто-то что-то тестирует, кванты, ггуфы, модели пачками каждый день, модификации, программирование, лоры, жуть как страшно, что ни пост, то что-то новое. Это как пришёл в супермаркет где продаётся всё на свете, а тебе нужна какая-нибудь пластиковая посуда или цемент и ты такой, решаешь, что легче будет просто спросить...
>>702780 >Настроить можно, если очень надо Они тупо чередуются. Оживляешь одну - отваливается вторая.
>>702794 >Я тебе наглядно показал что можно. Хуй знает, что ты там показал, глупость свою разве что. На новых драйверах как не работало, так и не работает. То, что теслу можно перевести в wddm на старых драйверах и без второй карты - не новость вот вообще ни разу.
Если с 0 собирать комп для двух п40, есть ли смысл на него убунту поставить? Или лучше всё таки винду? Просто хуй знает, как там с драйверами обстоят дела.
>>702812 Ну что же, давай разберём по частям тобою написанное. Началось всё с поста >>702519 в котором я кинул ссылку на вполне себе конкретные драйвера и на инструкцию как перевести карту в режим WDDM. И тут ты такой >>702538 >По второй ссылке хуйня нерабочая. Возможно, это сработает, если ты накатишь драйвера трёх-пятилетней давности. На свежих не работает.
Далее я тебе кидаю скрин на котором именно эта версия драйверов и режим WDDM >>702571
>Хуй знает, что ты там показал, глупость свою разве что. На новых драйверах как не работало, так и не работает. Так работает или нет, ты уж определись. А если ты сейчас начнёшь нести хуйню про то что у меня "драйвера трёх-пятилетней давности", тогда твой первый пост был хуитой, т.к. инструкцию я кидал именно к этой версии, потому что у меня на ней всё работает, а не к абстрактной "новой".
>>702799 >Ты забыл добавить к результатам конфигурацию оборудования. Если вся модель в видеопамяти, то результаты так себе.
Так я сравнивал разницу режимов, а не максимальную скорость. 20-30Вмодели работают в десяток раз быстрее, но вот квантованные 70В очень сильно греют карту и работают медленно, хотя памяти занимают столько-же. Оборудование Tesla P40. Модель полностью входит в видеопамять. llama.cpp, 81 гпу слой, no-mmap.
>>702703 > Воу воу, палехче. Даже если взять порт 2.0, то там псп около 500МБ/с, загрузит полную память меньше чем за минуту, а если у тебя сата на ссд - на почувствуешь разницы. Тоже думаю.
> Однако, если копнуть глубже Еда с доставкой. =) Простите, знакомые.
>>702860 Попробовал однотипную модель Midnight-Rose-70B-v2.0.3-i1-GGUF на моей системе. Загрузил её на одну Теслу из двух и получил практически такие же результаты, как и у тебя. Для интереса загрузил модель на две теслы, включил rowsplit - и скорость генерации возросла почти в два раза. Интересный эффект.
Я ребята почитал вас и понял свою ущербность железом. 8400 16 рам и 970 которую обсмеяли за ее 3,5 гига во время ее выхода. Что я могу поднять ? С приемлемым временем. Спасибо заранее.
>>702971 Наивный. Здесь светились аноны с подобными сборками, всё сложно. У 2-3U серверов - кластеров видеокарт вентиляторы ревут как пылесосы. Создаваемое ими давление достаточно чтобы продувать очень горячие теслы с высоким аэродинамическим сопротивлением. Во-вторых, материнские платы с большим количеством каналов pci-e это дорого или ненадёжно и муторно. А ещё надо раздобыть бп.
>>702979 Не совсем так. Можно собрать не слишком громкую систему, которую почти не будет слышно из соседней комнаты. Конечно дороговато. Вот анон в одном из прошлых тредов показывал китаемать с 4 PCI-e слотами на X99; корпус хороший, большой и продуваемый под это дело десятку стоит; БП на 1200 ватт c 8 хвостами PCI-e 6+2 - где-то 18к нынче. Можно собрать. А потом какой-нибудь Интел как выпустит приблуду для инференса, которая кроет весь этот сундук как бык овцу - обидно будет :)
>>702998 >китаемать с 4 PCI-e слотами на X99 Хмм... Это тот чел с двумя процессорами? Это я и моя китаемать C612 с 6ю слотами pcie X8 и X16 срыгнула чипсет.
>>703005 >Это тот чел с двумя процессорами? Нет, там вроде один процессор предполагался и плата была рефаб конечно, но новая. Б/у плата для такой задачи у меня и у самого сдохла.
>>702887 >твою шизофазию Ты же сам пост назад писал что >На новых драйверах как не работало, так и не работает. А теперь уже >С одной картой работает Кто тут шизит ещё.
>>703051 >У меня на две теслы бпшка 20+ =) Более интересен вопрос, какая у тебя игровая карта, не NVidia случаем? А то тут выяснилось, что llamacpp вполне так умеет в параллелизм и покупка третьей теслы (или другой nvidia-карты) имеет смысл и кроме плюса к памяти...
>>703066 >Любопытно, возможно две Теслы как-то лучше оптимизируют процесс на больших моделях. А уж мне-то как любопытно - у меня 4 слота и только 2 из них заняты.
>>703093 >Так разные драйвера по разному костыльно включены, вот и разница в скоростях Нет, на одной тесле скорости одинаковые. А на двух уже гораздо выше. Надо бы и другие модели погонять.
>>702827 Однозначно. Если комп будет именно для нейронок и около того, а не повеседлевной эксплуатации - шинда на нем будет максимально неуместно смотреться. С драйверами, совместимостью и прочим все космос, вот только будь готов к пожарам в первое время, ибо даже парадигма взаимодействия юзера с системой тут другая и вагон нюансов. Когда освоишься - будешь инджоить. >>702893 > Еда с доставкой. =) О, спасибо что напомнил, а то заведение закроется и придется что-то из круглосуточных заказывать. Но если серьезно - то чем нищее в действительности, тем больше странных понтов типа регулярных поездок на такси вместо от со всеми, странных покупок, походы в кафе-рестораны без повода, заказы, шмотты, гейфон в кредит так вообще база. А потом нытье и просьба одолжить, ну вот нахрен так жить. >>702938 > Загрузил её на одну Теслу из двух и получил практически такие же результаты, как и у тебя. Остальное на процессоре? Тогда вполне закономерно. >>702943 Скейлится линейно, в первую очередь растет время обработки промта на жора, даже на мелких моделях если поделить то будет медленнее чем на одной, чем больше тем хуже эффект. Где-то даже линк про это кидали вроде в прошлых тредах. >>702946 Если ты раньше не упарывался ллм - попробуй современные 7б что рекомендуют, будет крайне доволен. Правда потом захочется большего, и придется тратиться на железо.
>>702053 >>702066 >>702084 >>702119 >>702298 Я темню чтобы банально не сдеанониться ни сейчас, ни в будущем по проекту. Во первых, 50к это не так уж и дохуя как по мне. Во вторых, да - вы правильно уловили концепцию о персональных данных/предателей родины, хотя в моем проекте никаких персональных/личных данных людей нету (далее я опишу подробнее). Наведу по вашим догадкам пример: 1) Форма #1: Имя: Иван Фамилия: Ерохин Возраст: 26 Образование: псифак спббгу Доход: $8к после налогов Источник дохода: скрам-мастер Имущество: две сдающихся хаты в центре спб Место жительства: у тян Output: вероятность передать свои гены 98,7%
2) Форма #2: Имя: Славик Фамилия: Сычев Возраст: 39 Образование: заборостроительный коледж Доход: 14к рублей Источник дохода: Пенсия по шизе Имущество: некропека Место жительства: у мамки на шее Output: вероятность передать свои гены 0,3%
3) Форма #3: Имя: Евдоким Фамилия: Бетабаксер Возраст: 31 Образование: псифак спббгу Доход: $1.5к Источник дохода: Джун-крудомакака Имущество: своя квартира Место жительства: в своей квартире Output: вероятность передать свои гены 71,2%
Очевидно что output не принципиален, должна быть только цифра Только в моем проекте есть нюанс. По примеру выше нейросеть вероятно может понять и выдать output просто базируясь на своей базовой модели (поправьте если я не правильно написал). Я думаю что тот же ChatGPT-4 на данном этапе его развития может выдать какой-то относительно вменяемый ответ и без обучения. Проблема в том что в моем проекте данные (поля) не такие очевидные, а если точнее вообще не очевидные и логически не информативные. То есть дефолтная нейросеть точно никак не разберется по ним сходу и будет генерить шум. НО, у в моих формах в реальном мире есть связь между данными в нескольких полях и по ним в теории вполне себе можно выдавать +-точный процент вероятности в output. >Ну так считай тогда свою вероятность простыми алгоритмами, зачем тебе нейронка В моих полях произвольные данные вариаций которых дохуя, а тем более связей между ними. Поэтому и есть идея скормить их все нейронке которая должна их находить и выдавать свой процент вероятности. Я думаю что отдаленно концептуально похожая ситуация была в шахматах/го. Нейронке скормили историю огромной кучи игр, она начала находить неочевидные человеку связи о том как лучше походить и затем начала ебать чемпионов мира.
>>703227 >да - вы правильно уловили концепцию о персональных данных/предателей родины Тогда помогать тебе никто не будет. Я вот один из этих "предателей родины", либерал до мозга костей. Так что увы и ах. >похожая ситуация была в шахматах/го. Нейронке скормили историю огромной кучи игр Эм, погугли альфа го зеро. >>703240 Если у него там проценты выплаты кредита, то строго похуй, такие проверки должны инициализироваться самим человеком. Хотя спамеров ненавижу до глубины души, желаю им всем рака яичек и мучительной смерти.
>>703185 >Скейлится линейно, в первую очередь растет время обработки промта на жора, даже на мелких моделях если поделить то будет медленнее чем на одной, чем больше тем хуже эффект. Нифига, только что проверил на fimbulvetr_Q8. На двух картах с rowsplit производительность примерно на 10% выше, чем если запустить модель на одной карте. Да, не в два раза - похоже, что в Midnight Rose какие-то проблемы с i-квантами и модель работает очень тяжело - но эффект определённо есть. Вопрос лишь в том, добавит ли третья тесла ещё 10% :)
>>703242 >Если у него там проценты выплаты кредита У них и так есть комплексы для автоанализа, которые через очко работают, лично наблюдал как потомственному алкашу без гроша в кармане и черной кредитной историей одобряют кредит на водочный завод и пять кредиток с лимитами с 100к каждая, а чистенькому славику сычеву с безупречной репутацией предлагают анус пососать. Скорее я бы ставил на то, что сетку прикручивают к анализу данных в соответствии с маняуказами банка рахи чтобы прижимать серый рыночек сильнее, там как раз миллион указаний по вычислению п2п, обнальщиков и неплательщиков налохов. Либо с той же вероятностью это манямошенник на зарплатке у кабан кабаныча, который доверчивых лахов разводит по телефону. Кароч, не нужно тому челу помогать, любой чел работающий с ПД - хуесос обычно.
>>703240 >>703242 >>703247 Все мимо. >Тогда помогать тебе никто не будет. Я вот один из этих "предателей родины", либерал до мозга костей. Так что увы и ах. Пиздец, вы хотя бы посты до конца читайте. Впрочем я и сам не заметил линки в шапке
>>703227 Ладно, пока подобным поручают заниматься некомпетентным - нечего бояться. Если хочешь базовые закономерности - тебе действительно в классификацию текста, там есть даже большие модели. Скорее всего придется делать цепочки из них но это сложно, алсо зря недооцениваешь ллм. В любом случае, по подобным отрывочным данным сомнительной актуальности даже идеальная система будет не сильно лучше просто подбрасывания монеты кроме совсем простых случаев где (сложные) нейронки не нужны. >>703253 > rowsplit Хуй знает что это и i-квантами этими не пользуюсь. Тема ускорения с несколькими картами интересна, но слишком уже хорошо звучит чтобы быть правдой, больше похоже на костыльное возвращение того что забрали и что должно быть сразу быстро работать.
>>703061 > Более интересен вопрос, какая у тебя игровая карта, не NVidia случаем? У мення 4070ти, но это в игровом компе. В тесловом — две теслы. А пихать три карты, колхозить и т.д. мне искренне лень. Я сепарировал: есть игровой, есть для ллм, есть для всего остального. Может быть, когда я возьму современную мультислотовую материнку, через годик… Пока точно нет.
>>703166 Опять тот же баян, у нас пару месяцев назад чел в треде завозил такое в таверну.
>>703185 > регулярных поездок на такси Кстати, да. Я лично ездил пока было холодно, сейчас хочу пешочком —полезно для здоровья прогуляться.
>>703261 Никогда не понимал этой хуйни под катом. Когда мне дают кредитку в размере полутора месячных заработков, а бомжу — в пять раз больше… На чем они, блядь, зарабатывают, если бомжу нечем отдавать?!
Вообще, самый пиздец, что когда я за политику высказался по существу — мой пост снесли. А когда двое дебилов тут срались по хуйне — их срач оставили. Давайте в натуре без политики, а то опять хуйня с обеих сторон польется, от людей, нихуя не понимающих, зато перекат наступит через день. Не флудите, плиз. Давайте про ллмочки.
>>703318 Роусплит распределяет слои по разным видяхам, чтобы они читались параллельно и работали одновременно, а не пиками — то одна карта, то другая, по очереди, пока одна работает — другая простаивает. i-кванты забыл, но тоже полезное, что-то схожее с матрицами, как в экслламе, вроде, только в ггуф. Но тут могу спиздеть, пусть знающие пояснят.
>>703333 >i-кванты забыл, но тоже полезное, что-то схожее с матрицами, как в экслламе, вроде, только в ггуф. Аналог flash attention, как я понял, чтобы экономить видеопамять.
>>703333 Еще почти год назад показывали концепцию как можно распараллелить, да еще на несовпадающие по перфомансу узлы, но как-то и заглохло. Интересно, оно ли это. > i-кванты забыл, но тоже полезное, что-то схожее с матрицами Ну это закос под exl2 при квантовании где используется не дефолтный шаблон а индивидуальная маска. >>703342 > Аналог flash attention, как я понял, чтобы экономить видеопамять. Нет, норм атеншна туда так и не завезли до сих пор.
>>703329 >Когда мне дают кредитку в размере полутора месячных заработков, а бомжу — в пять раз больше… На чем они, блядь, зарабатывают, если бомжу нечем отдавать?! Просто бомж ладно, прям совсем бомжам не выдают конечно, маргиналам выдают это да частый гость в микрозаймах и имеет какую-то кредитную историю, плюс банки любят под залог имущества давать, плюс маргинал легко согласится на более высокий процент. Плюс там разные нюансы есть типа невыездности, судимости, семьи, что плюс для банка, т.к. должник не съебется с территории страны с кредитом. А челик без кредитной истории, без семьи, с заграном это более опасный кадр получается, еще и под залог скорее всего не захочет ниче брать.
>>703407 > кредитную историю Ты или диванный или из другой страны. Здесь нет кредитной истории в западном понимании, смотрят на нарушения договора, просрочки платежей, несвоевременные страховки, банкротства и подобное, а на наличие успешно закрытых микрозаймов на планшет всем похуй. По остальному от пункта зависит, где-то актуально. > челик без кредитной истории, без семьи, с заграном Лучший клиент, которому предлагают наилучшие условия чтобы завлечь.
>>703524 Просто поставил все по гайду с таверны, ток квантование побольше выбрал и n-gpu-layers 256. В гайде линк на куноичи файлы от brittlewis12, ща попробую от TheBloke.
>>703227 Мало того, что, возможно, разрабатываешь очередное ПО для кибергулага за зарплату, так ещё и эту зарплату нормально отработать не можешь, ещё и работодателю напиздел про опыт, небось, бежишь на анонимный форум за бесплатными советами.
>>702467 >Но меня загрузочные тупняки доебали и я запихал теслу в корпус заместо амд карточки? у тебя с HDD грузится моделька? потому что у меня с SSD NVME на теслу, которая в слоте x1 стоит грузится максимум минуту.
думаю взять вторую теслу, и их через райзеры x1 подключить, только вот они в корпус точно не влезут, как и в мамку. (проблема в том, что у меня еще есть карточка, которая занимает 4 слота) голову ломаю как их в мамку поставить, и какой корпус взять, чтобы можно внутри все это разместить.
>>703612 Подключаем трехмерную голограмму и готово! Бегущий по лезвию. Но, пока конечно это все дороговато по ресурсам выходит. Слишком энергозатратно. Думаю лет 5 еще оптимизаций и все 10 до отличного качества
>>703617 >заместо амд карточки? Да. >у тебя с HDD грузится моделька? Да. Но после того как поставил в Х16 слот, модели грузятся максимум минуту-две. У меня ещё были просто задержки перед загрузкой в пару минут, когда в память ничего не грузится и карта проставиает, после вставки в быстрый слот прошли. + Я ещё Стейбл на Тесле немало гоняю, а там при смене веса лоры модель начинает грузится повторно, а когда у тебя 6 лор и каждую надо настроить это пиздец. Скорость загрузки кстати больше зависит от количества параметров модели, чем от её веса. Всё что не 70В грузится гораздо быстрее, но об этой проблеме анон выше писал, что на 2 теслах эта проблема внезапно уходит.
>>703632 походу эти лаги все подгрузка именно с HDD в рам сначала, потом оно передается в карточку. я вспомнил, что у меня были похожие проблемы, когда именно с usb hdd грузил большую модель, оно вообще отлетало на минут 15, в hdd через проводник нельзя было войти, пока моделька полностью не прогрузится.
Future plans, train 4-5 more of these experimental models gather preliminary testing results, and then run evaluations on all the models I see have the best possibilities of excelling, then use the best one. посмотрим что у него получится.
>>703407 Ну, кредитная история у меня 15 лет, без единой просрочки, и там все норм. Но по остальным пунктам, да. И под залог не захочу.
>>703426 > Лучший клиент, которому предлагают наилучшие условия чтобы завлечь. пикрел
Щас-то не надо, но пару месяцев назад было актуально.
>>702018 Я таки решился это прочесть. Лучшие умы бьются над созданием AGI, а ты такой «а можно она будет выдавать корректность данных формы?..» Ваще без проблем, братан, кидаешь форму, просишь оценить вероятность, получаешь ответ. Рандомный, ибо она не обучалась на твоих формах. Допустим, у тебя есть датасет из 100% корректных или некорректных форм. Обучаешь на ней, и она тебе выдает… в общем-то, тоже весьма случайные ответы, так как ее токены не зависят от данных в таблицах, а от последовательности буков, что не всегда прямо коррелирует с ожидаемым тобой результатом. В какой-то момент она решит, что бомж не даст потомства, в какой-то подумает, что он не предохраняется и у него есть бомжиха и шансов у него гораздо выше. Тащемта, тут совета два. 1. Не брать ллм, обучать с нуля, под конкретную задачу. 2. Не браться за работу, в которой нихуя не понимаешь. Нет, это серьезный совет. Не шаришь — не лезь. Не обещай разобраться в чем-то, тебе не родственном. Никогда не соглашайся с родителями/друзьями/еще кем-то, когда тебя просят заняться «потому что ты программист» или по другой хуйне. Абстракция понятна, в детали не вдавался. То есть — нахуй не знаю, ничего не обещаю, могу посмотреть. Потом отвечаешь «посмотрел, тупой, нихуя не понял». И честно, и лучше, чем обосраться по полной.
>>703622 А в чем проблема с 3д-то? Чисто оборудование для голограмм дорогое? :)
>>703632 100% дело не в версии слота. И зависит от веса.
У меня три компа, 4 разных видюхи, 1-2-видяшные конфиги, год тестов за плечами — зависимость всегда линейна, если нет упора в диск.
>>703634 >>703652 >100% дело не в версии слота. В случае LLM всё действительно не так однозначно. А вот с SD проблемы порешала именно версия слота. На райзере, после любого пука с твоей стороны, приходилось ждать перегрузки модели и лор минуту-две, сейчас 5-10 секунд. Тут разница огромна.
>>703709 Нет, в основном из-за того что процессор это устройство для последовательных вычислений, а гпу для параллельных. Последовательный перебор при инференсе очинь медленный, это тупа аналог брутфорса на процессорной архитектуре. Видяхи ебашат всеми ядрами подряд в разные стороны на всем протяжении инференса. Вовторых количество ядер, у цпу их мало, у гпу до пизды: например вот условно у проца скорость 5к ггц на ядро и 4 ядра, итого он может выполнить в секунду условно 20 000 000 циклов вычислений в мегагерцах; 3060 же в этот момент имеет на борту 3584 ядер куда и каждый работает на 2200 мегагерцах, количество операций на этой карте в идеальном мире 2200 10^6 3584 герц, то есть 7 884 800 000 000, то есть почти 8 триллионов операций в секунду (без поправок на задачу, алго, архитектуру и прочий кал). Плюс да, у видяхи более быстрая память распаянная на плате, а не слотовый тормоз в портах мамки.
>>703728 >Нет, в основном из-за того что процессор это устройство для последовательных вычислений, а гпу для параллельных. А все нейросети это слои матриц с миллиардами параметров, следовательно параллельные вычисления дают ебейший буст просчета этих матриц.
>>703652 >А в чем проблема с 3д-то? Чисто оборудование для голограмм дорогое? :) Я вообще в целом о паке Stt-Llm(особенно 100b+)-Tts-lipsinc. Электричества жрет и ресурсов много. С голограммами вообще жесть выйдет. Сколько они стоят? Я чет даже не нагуглил.
>>703709 Да, если у тебя 6-8 и больше ядер то упор в скорость оперативки. Тупо делишь общую скорость своей оперативки в гб/с на размер модели, и получаешь идеальное количество токенов в секунду на нейронке. Идеальное, тоесть выше этого скорость стать не может, ну и в реальности свою задержку добавит размер контекста и само время обсчета процессором.
>>703751 Я вот задумался о сборке на AMD EPYC второго или первого поколения. Из-за наличия 8 каналов памяти можно достичь довольно большой пропускной способности например 190.7 GiB/s у EPYC 7282 а у двухсокетной конфигурации будет еще больше. (И да, я знаю про NUMA и что она в любом случае подпортит мне жизнь, но у той же llamacpp вроде есть поддержка нумы) Вот только не понятно что эта сборка в итоге родит из-за отсутствия тестов. Обычных тестов и так мало, тесты llm в 8ми канальной комплектации оперативки найти не выходит, про 16 каналов вообще молчу
В пизду. Завтра еду покупать 4070ти шупир. Заебала П100 со своей проблемой несовместимости с КУДА. Переустановил дрова, куду, питорч. Всё ок, весело работаем. 5-10 моделей позагруешь- хуяк ваша куда не куда. Куплю в 3080ти и буду сидеть-пердеть.
>>703808 Ну, в тех же маках унифицированная оперативка, и я так понимаю они тоже кучей каналов соединены с процессором. И ниче, гоняют даже новую микстраль. Чисто логически важна только пропускная способность чтения рам, как она достигается похуй. Пока это все на одном процессоре, по крайней мере. Не знаю только переварит ли процессор все эти 190гб/с, но если да, то скорости будут неплохие. Даже если взять командер 35b, это 25 гб 4 квант контекст+модель, теоретически 6-8 токенов в секунду получишь. Для процессора уже неплохо. Или командер+ 100b, 50 гб в 4 кванте, + контекст 10гб, ну, 3 токена в секунду, хотя бы так. Новый микстраль где то так же выйдет, может до 5-7 т/с Опять таки это все на глаз, как там в суровой реальности хз
>>703728 Там недавно революционный ии ускоритель выкатывали. С последовательными вычислениями. Якобы даёт ебейший буст, ведь LLM это последовательные вычисления - ты не можешь получить второй токен, пока не получил первый.
>>703808 >Вот только не понятно что эта сборка в итоге родит из-за отсутствия тестов. Обычных тестов и так мало, тесты llm в 8ми канальной комплектации оперативки найти не выходит, про 16 каналов вообще молчу Поискать вариант облачного сервера на них, и проверить. ХЗ конечно есть такие или нет. Да хоть на среддите пост написать с просьбой проверить, может кто то имеет и гоняет.
Пиздец, че за мудак придумал использовать llm для кума?! А?! Я блядь так без члена останусь, сука!! Такими темпами реально вымирание населения ускорится.
>>703844 Если бы не ошибка с КУДА- п100 была бы просто отличной картой. Шина просто шарф. Но никак не выкуплю проблему с КУДА. При том что П100 поддерживает 12.4. Ставил и 11 и 10, остается только 6 накатить. Но уже нафиг. А хочется все такие 34 гонять и не 13б.
>>703856 Ага, сейчас Маск выпустит своих роботов с возможностью подключения гениталий иии.. Все! Пиздец! Я и так уже подозреваю, что хитрые корпораты дают доступ к неплохим моделям только для того, чтобы народ сдрочился и превратился в животных без самосознания.
>>703852 >Такими темпами реально вымирание населения ускорится. >>703862 >Ага, сейчас Маск выпустит своих роботов с возможностью подключения гениталий иии.. Все! Пиздец! Это для нас пиздец. А вот в целом для планеты наоборот збс. Людей уже почти 8 миллиардов Карл. Лучшего момента для появления андройдов со сменной вагиной и не придумать тем более что в РФ не завезутесли только через Казахстан по параллельному импорту лол
>>703870 До них корпораты уже дотянулись, скоро срать на улицах перестанут. Ты посмотри сколько инвестиций в Индию и Африку сейчас вливается, Индия станет второй мировой фабрикой. >>703867 На самом деле населения дико не хватает, точнее квалифицированного населения, а не голых бомжей без образования, но вот как раз такие люди и "сдрочатся".
>>703632 > модели грузятся максимум минуту-две. Это тоже нихрена не норма. Алсо можешь мониторить bus interface load, если там 40%+ то значит уже уперся. >>703645 Ого, уже 17, это прогресс! Просто вырвать одного эксперта и посравнивать их по ппл на викитексте, рп, коте не прокатит? Офк ппл нихрена не отражает качество рп, но относительную шизу можно хотябы отсеять. >>703652 > Щас-то не надо Ключевой момент в этом. Если ты будешь усиленно искать и делать много запросов - сразу попадешь в "бигдату" и будешь в положении жертвы. Это дефолт и так везде, если хочешь купить авто - тебе дадут худшие условия с кучей включенных допов и страховок, если жалобно просишь кредит - хуй тебе а не нормальный процент и т.д., ты в пулле нуждающихся клиентов. В то же время, если не интересуешься - предложения будут сыпаться регулярно и условия будут сильно лучше, потому что цель - завлечь тебя. А там уже на все это накладываются модификаторы семьи, работы и прочее, и они нихуя не в пользу а наоборот. Если семейный человек ищет кредит - ему пизда и он точно его возьмет, ведь деться некуда. По крайней мере так рассказывали те кто там варятся. Выход есть - проскроллить недавние офферы и воспользоваться, запросить а потом подождать, говоря что тебя условия не устраивают и раз так то и не нужно, давайте лучшие и подобное. >>703709 Если процессор современный - да. На старых может не хватать вычислительной мощи. >>703728 > в основном из-за того что процессор это устройство для последовательных вычислений Сильное заявление, погугли avx чтоли. > он может выполнить в секунду условно 20 000 000 циклов вычислений в мегагерцах Это не так работает, чел >>703808 > на AMD EPYC второго или первого поколения Не стоит, это днище, которое даже в облаках всеми силами пытались избегать если нужны процессорные мощности. Живые начинаются с 3-го, там же и нет проблем с задержками pci-e.
>>703809 Ну что же ты, сидишь с ллм треде а не хочешь 3090? >>703814 > я так понимаю они тоже кучей каналов соединены с процессором Там 8 каналов ддр5, отсюда и относительно высокий перфоманс. С видюхам офк не соперник, но обеспечивает достаточный уровень. Подобного формата ии ускоритель для ллм бы отлично подошел. > как там в суровой реальности хз Бенчмарки llamacpp на маках в избытке, вот тебе и реальность. Офк там в процессоре еще тензорный модуль и гпу куски используются для разгрузки, но это сейчас не проблема. >>703835 > Мистраль был в топе Сомнительно, 20б франкенштейнов глянь. Или коммандера35 попробуй, но он полностью не поместится и придется выгружать. >>703857 > Если бы не ошибка с КУДА > никак не выкуплю проблему с КУДА Что там за ошибка вообще?
>>703896 БП не хватит на 3090. 850ватт. Из самого адекватного я только 4070ти суп смогу взять.
Вот эта ошибка. И почему она возникает не сразу, а через после запуска 5+ моделей за раз я хз: RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1
>>703808 >например 190.7 GiB/s у EPYC Ты же понимаешь, что это всего лишь в 4 раза больше, чем у любой сборки на некрозеоне или там десктопе DDR4, и в 2 раза, чем у новой сборки на DDR5? >>703852 Ничего, перегоришь ещё. Я так с год дрочил каждый день, потом отпустило. >>703879 >но в Африке у многих нет электричества и проблемы с водой Но смартфон есть у каждого. >>703882 >проскроллить недавние офферы и воспользоваться А там ссылки на главную банка, лол. >>703902 >БП не хватит на 3090 Ну так режь по питанию, хули там. Подключи 2 хвоста, карта автоматом должна сдетектить это и себя порезать до 300 ватт.
Кстати, здесь когда-то местные электронщики спорили как сцеплять правильно два блока питания в одном компуктере. А как это сделано у серваков с двумя бп?
>>703908 >>703916 >Как? Могу предложить запускать их синхронно, для этого достаточно подрубить замыкание зелёного и чёрного провода второго БП к кнопке на системнике. Хотя проще наверное будет сделать отдельный выключатель куда подвезти пусковые провода от обоих блоков. Я так для лазерного станка с несколькими БП делал. Правда там разные блоки за питание разных компонентов отвечали.
>>703924 Генерация доп. FPS - дико переоценённая хуйня, игра превращается в желе, 1 раз попробовал, больше не врубал ее ни разу. Аноны выше верно написал, за такой же прайс RTX 3090 маст хев.
>>703924 >и чет кроме памяти она ничего не даст. А в нашем деле больше и не нужно. >>703924 >AV1 и DLSS3 с фреймгеном Первое вообще ХЗ нахуя, ты ж не на ноутбуке, чтобы электричество экономить. Фреймген это уже игровая тема, у нас тут полезность только для нейронок рассматривают. Но как я понял, он добавляет такие задержки, что ну его нахуй, я наоборот ХЗ сколько тюнил систему, чтобы лаг уменьшить.
>>703902 >RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. Насколько я понял, нужно скомпилировать пару файлов pytorch с поддержкой нужной архитектуры: TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6" и заменить в Убабуге два файла на скомпилированные - torch_cuda.lib и torch_cuda.dll. Тогда заработает как надо.
>>703935 > переоценённая хуйня, игра превращается в желе Она строго под G-Sync и 60+ фпс. Во всяком ААА, которое с трудом работает в 40-60 фпс DLSS3 просто топ, никакого желе там нет, когда итоговый фпс 90+.
>>703827 >ведь LLM это последовательные вычисления - ты не можешь получить второй токен, пока не получил первый чтобы получить токен надо выполнить параллельные вычисления
>>703882 >Сильное заявление, погугли avx чтоли. Ну и сильно тебе авх поможет без куда?
>Это не так работает, чел Это условное описание в идеальном мире, где 1 операция тратит 1 герц. Ирл конечно всё несколько иначе, что еще сильнее бьет по возможностям процессора в нейронках.
>>703902 Ну блин, там на разницу в цене можно платиновый киловаттник+ взять, чтоже ты. > И почему она возникает не сразу Емае, т.е. оно у тебя норм работает в основном а только потом ерунда происходит? Ну ты зажрался. > после запуска 5+ моделей за раз я хз Что-то не очищает за собой похоже. Рестарт убабуги не помогает чтоли? Если нет - попробуй команду куде на сброс устройства отдельным скриптом и опять пускай. >>703905 Блок сдох. Хотя старые там есть, поищи emerhyst, noromaid, darkforest, все 20б. >>703908 В серверах они заведомо сидят на одной земле, и нет вороха разъемов которые можно подключить по отдельности. С торца несколько сигнальных и здоровые силовые площадки, причем выполнены таким образом что первыми в контакт входят именно силовыми для уравнивания потенциала. Можешь его на горячую просто вытащить и заменить. >>703963 > Ну и сильно тебе авх поможет без куда? Дурень, это комплексная сложная инструкция, которая буквально исполняется параллельно. Обычное ее решение по твоей логике заняло бы в десятки-сотни раз больше тактов профессора. > Это условное описание в идеальном мире Которое актуально для 90х. > 1 операция тратит 1 герц Такт, глупый. Если ты гуманитарий - не лезь с такой уверенностью своими культяпками туда, куда не понимаешь.
>>703970 Нормальных моделей 30-35 (кроме командора, которому и 48 мало в 4 кванте), нет. LLama 3, судя по данным из СМИ будет 100+B, так что надеется не стоит.
>>703952 >Насколько я понял, нужно скомпилировать пару файлов pytorch с поддержкой нужной архитектуры: TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6" и заменить в Убабуге два файла на скомпилированные - torch_cuda.lib и torch_cuda.dll. Тогда заработает как надо.
А чем открыть и перекомпелировать torch_cuda.lib и torch_cuda.dll?
двузначныйайку
>>703978 То есть что 16, что 24 гб я всё равно сосну?
>>703978 >LLama 3, судя по данным из СМИ будет 100+B Вряд ли там будет 1 модель, да и смысл сейчас сотку выпускать. Уверен, будут все размеры (с промежутками на местах самых эффективных комбинаций, лол).
>>703996 >Там ничего зафайнтюнить не могут что бы хотя бы в 48 умещалось? Умещалось - это полдела. То, что уместится в 4 Теслы P40 будет давать 1 токен в секунду, после 8к так точно. Нет в жизни счастья :)
>>704003 >Зато какой токен! Не. Я уже сидел на 0,8t/s семидесятки. Хороший токен был, хотя и второго кванта, если сравнивать с моделями поменьше. Но возвращаться туда не хочу.
>>704009 >Голиаф 120b на 6ти теслах давал 4 токена. С нулевым контекстом может и давал. И по кванту есть вопросы. Если больше четвёртого, то сомнительно.
>>704008 >Хороший токен был, хотя и второго кванта Не, фуфло, я пятый квант катаю, вот там токен просто огонь. >>704015 Всего вагон, но не для обывателей. >>704023 п40 древнющее железо если что. Следующий такой же вин это RTX A6000, но её начнут сливать лет через 5-10.
>>703744 Я хз, стт-ллм-ттс-липсинк что-то на дешевом, я не вижу больших счетов. ВОТ ЗА ОТОПЛЕНИЕ 4 КОСАРЯ ЭТО ПЕРЕБОР
>>703760 Да, и это работает. На квесте улучшили ар режим, правда просто шумоподавление врубили, но выглядит чутка лучше, да.
>>703709 Да. =) Проверить очень легко. Возьми 6-ядерный и 12-поточный и 12-ядерный и 24-поточный. На одинаковой скорости. При скорости ~50гбс, у тебя результат будут отличаться не вдвое, при вручную выставленных тредах, а от силы на 30%, если повезет.
>>703882 > Если ты будешь усиленно искать и делать много запросов - сразу попадешь в "бигдату" Угу-угу. Значит надо меньше праздно искать и делать только точечные запросы в нужный момент времени. Логичное, спасибо за инсайдики.
>>703902 Вдвое меньше врама. Может лучше БП подменить?
>>703924 А ты берешь к чему в добавок? Я взял 4070ти, и че-то как-то не очень рад в итоге. Лучше бы до 4090 докинул или 3090 брал. Но поздно. Игровой компуктер… Да, неплох, 30 фпс выдаст в фуллхд.
>>703935 Хуйню какую-то пробовал, фреймгенерейшен топ, во многих играх использую, желе нет, все красиво-плавно, задержек в управлении не чувствуется. Норм сделано.
Я слаб духом удалил все модели, таверну и кобольда. А то скоро у меня яица с членом отвалятся, так и еще начал по часу и более времени тратить. Буду ждать когда это начнут запихивать в игоря и в рпг.
>>703978 Не перегибай. Если новая ллама3 будет иметь 100б версию то это заебумба, главное чтобы хуанг подсуетился, но и от мелочи они не откажутся. >>703984 > я всё равно сосну? Нет, 24б при любом раскладе будет сильно приятнее, тот же контекст и жирнота кванта. >>704009 На трех, теслах в оче жидком кванте, и то это было 3.5 на отсутствии контекста, которые чересчур оптимистичны и не подтверждаются. >>704035 > MI50100 Может быть, но они еще слишком свежие и дорогие. 16гиговая не нужна. >>704143 > Значит надо меньше праздно искать и делать только точечные запросы Впны, базовая анонимость, и ни в коем случае никогда ничего не скролить напрямую через мобильный интернет, твой номер буквально узнают и автоматически внесут.
>>703967 >это комплексная сложная инструкция, которая буквально исполняется параллельно. Ну так инференс без авх точно такой же. Сильно помогает авх или может проблема процессорных вычислений в другом? >Которое актуально для 90х. Душнила. >Такт, глупый. Если ты гуманитарий - не лезь с такой уверенностью своими культяпками туда, куда не понимаешь. Ты же прекрасно понял о чем я, но чсв не позволяет тебе не токсить.
>>704152 Хз, кажется были какие то проблемы с ними, в том что это перепайка чипов. Короче риск больше чем с бу 3090. Так то норм идея, но кто проверит?
>>704158 Примитивые игры уже есть с этим, какой то квест был в стиме, может что то еще есть. Скоро и генеративные игры с генеративным сюжетом появятся, на чем только их запускать блин
>>704160 Да, это не квантование, надо специально с нуля тренить. Не получится готовую модель без потерь в троичную логику перевести
>>702946 Любую 10.7 или 13B модель на Q5_K_M кванте с лёгким оффлоадом слоёв на видюху, на чистой лламе.спп выйдет 2-3 токена/сек думаю (зависит от скорости рам).
>>702946 Алсо, не на выходе, а где-то через год что ли спалили что у неё последние полгига медленные. У меня была она когда-то, её хватало на всё долго.
>>704165 >Примитивые игры уже есть с этим, какой то квест был в стиме, может что то еще есть. Ну так-то и РП можно считать игрой, с уровнем гейммастера дынды сетки вполне справляются. Но скажем чтобы хотя бы сделать в ААА игре генерацию квестов и диалогов и они имели геймплейное значение, это надо усраться во-первых констрейнтами модели и прочим обвязом с генерацией сценария, чтобы не давать генерить бессмысленые или выходящие за рамки геймплея вещи, в третьих устранить возможность любых атак на промпт, а в третьих модель слишком медленно генерит и пиздец сколько жрёт, а там ведь ещё графониум-физониум нужны и всё это в реалтайме. В общем пока что слишком накладно и ненадёжно для мейнстрима. Но через несколько лет точно будет что-то похожее.
>>704177 Хз, может 7-10, ещё на контекст надо сколько-то памяти, увеличивай слои и экспериментируй сам пока не крашнется или не затупит. Процентов на 15-20 видюху может загрузишь, слегка скорость подымется. Сложно сказать, у меня нет 970 сейчас, это вопрос эксперимента и размера модели.
>>704187 >>704165 А так-то блять мы тут с 19 года и ГПТ-2 в игры играем. Оригинальный AI Dungeon и был по сути локальным движком для консольно-текстовых РПГ, ещё до того как мормон запилил платный SaaS сервис. И дженерал в /vg/ форчепомойки поэтому был, а не где-либо ещё. Это потом дегенераты начали ебать всё что движется.
>>704189 Я имел в виду скорее "в общем", а не для конкретного анона. Тут некоторые Q5_K_M почему-то позиционируют как топовый по соотношению жор/качество.
Какую модель посоветуете для ролеплея без цензуры на таком конфиге: 16 VRAM, 32 оперативки? Пока поставил noromaid 20B Q5_K_M по совету из гайда, но может что-то получше есть. В рейтингах по 100500 моделей накидано, непонятно, как из них вообще выбирать.
>>704198 Ну в общем это так, если игнорить железные ограничения то примерно на этом кванте происходит перелом цена/качество. Но конечно надо подбирать экспериментально всегда.
>>704165 >генеративные игры с генеративным сюжетом появятся Я тестил на 3060 Ти: 13б, 10б,7б и пока они особо в контекст не могут на длинной дистанции. Начинают противоречить самим себе. Хотя в ролеплей уже не плохо могут.
>>704187 Трипл а, умудрился сдохнуть. Да и честно, я хоть и с середины 90, но в старье из 80 и 90 играл в свое время. И графон условного фоллача первого для меня норм.
>>704228 А, ну ладно. У меня просто тоже 16гб карта стоит на шкафу, в ближайшее время буду ставить в пеку. Хотел узнать, чего можно будет ждать для такого кванта. Посоветовать ничего не могу, сори. 20б не гоняю практически, т.к. медленновато.
>>704157 > Сильно помогает авх Сильно, он позволяет не упираться в перфоманс профессора кратно повышая перфоманс в перемножении матриц. Сам ты душнила, ерунду втираешь с унылыми объяснениями, натягивая сову на глобус. Математическая сложность интерфейса с ллм - низкая, но специфика требует огромного потока данных, в этом в вся проблема. В случае других нейронок или расчетов, структура гпу будет предпочтительнее но это не он. Также далеко не все задачи можно под них пускать, многое будет также требовать результата промежуточного расчета который не оптимизируем и т.д., в то же время профессор перестал быть последовательным как из-за многоядерности, так и по внутренней структуре, когда сразу последовательности команд выполняются за один такт. > Ты же прекрасно понял о чем я Не особо, твой посыл о том что мощность ядер а не псп рам является главным ограничением для профессоров не верен. А по деталям - выше читай. >>704160 > лору дотренивают под троичные веса Писали про сразу обучение в 1.58, или в крайнем случае ресайз и более короткое обучение, но при этом параллельно хранятся все данные в fp16 для градиентов. >>704228 > 3 токена в секунд Как-то маловато, что за квант? 20б есть в коллабе от гугла, там т4 с 16 гигами врам, и q3 вроде даже помещался. В твоем случае без проблем лишнее выгрузишь, получишь более десятка т/с. >>704236 > В 24гига залезет с норм контекстом? Там 5-6 бит влезают с контекстом.
>>703652 Спасибо анон, пока самый адекватный ответ за весь тред. Энивей, датасет у меня разный и я думаю смысл в том чтобы обучить ее на разных формах (валидный/невалидных). Какой смысл со света если не знаешь что такое тьма? И agi я думаю мне не нужен для этой задачи.
Думал что что то да знаю о нецлонках, но сидя в тредеонтмаю, что ничерта не знаю. И так в целом на дваче. Неважноеоль ты умен. Всегда найдется умнее. Так вот. Можно ли обучать квантованную модель?
>>704404 > Можно ли обучать квантованную модель? Qlora на это направлена. В остальном - апскейлишь в полные веса и обучаешь их. Технически можно обучать квант сам по себе - будет залупа из-за отсутствия градиентов, или с использованием полновесных данных - имеет мало смысла из-за сложности, но в теории может позволить улучшить качество кванта.
>>704404 Обычным способом нельзя, обучение очень чувствительно к точности весов. Можно только апскейлить, что наверно не то что ты хочешь (жрать VRAM будет всё равно как полная, так что лучше взять неквантованную сразу).
Хотя бинарные сети, новый троичный квант, и прочие новые техники можно/нужно обучать сразу на пониженной точности. (чисто бинарные сетки обычно юзают несколько критических слоёв в полной точности, иначе результаты катастрофически падают)
>>704146 >16гиговая не нужна 16-гиговая стоит дешевле Теслы, при этом в разы её быстрее. Одна такая карта само собой бесполезна, но вот для систем из 2-4 вполне себе вариант. Как минимум позволят крутить 70В на комфортной скорости. Если Mi50 станут дешевле 10к рублей, аноны уже сейчас неиллюзорно могут начать закупать их вместо тесл.
Всем привет. Нужна модель переводчик с английского на русский и наоборот. Даже больше GUI интересует. Из моделек на ум приходит firefox оффлайн, можно ли ее отдельно использовать?
>>704651 >Даже больше GUI интересует https://ru.libretranslate.com/ ЕМНИП без негросетей. Если хочешь нейросети, то опенчат из шапки + правильный промтинг, гуй пиши сам или развлекайся с таверной.
>>704655 Не. Мне не llmки нужны. Там все понятно. Мне нужна история типо faster whisper с моделькой base en условно только для распознания с текста и текстовых файлов. Gui или cli особо без разницы. Просто с оболочкой чтобы проще модельки менять и доки выбирать. Я бы сделал, но уверен уже есть, просто найти не могу пока.
>>704157 > Ну так инференс без авх точно такой же. И близко не точно такой же. Даже между AVX и AVX2 разница 30%. А уж без AVX там падает в пол.
> Ты же прекрасно понял о чем я, но чсв не позволяет тебе не токсить. Не, ты правда полную туфту несешь. Я не следил за разговором, но это же ты утверждаешь, что важен проц, а не псп? Ну вот, как бы, да. Все мимо.
>>704533 А под катом ты привел пример потому, что и полтреда обосрались бы? :)
>>704592 16 гиговую скидывали за 18, тесла стоит 16. Можно 16-гиговую за … 12?
>>704533 >Шарадошиз отсутствует На месте ладно, вру, я лишь его приспешник. Нихуя у тебя задачи конечно. >>704679 Как видишь, даже мега коммерческие нейронки обсираются, выдавая рандом Правда у меня ролеплейный пресет, так что попутно она пытается запрыгнуть на мой хуй гномика. У тебя хоть какая-то решает эту задачу верно?
>>704702 >Надо потестить. >The phrase "PRIVATE MACHINE TRANSLATION, RUNNING LOCALLY ON YOUR DEVICE" translates to Russian as "ПРАКТРОНАТРАТИВНАЯ РАННЕЕ ПЕРЕДАЖА, ПОВЕСТКИ ДЛЯ ВАШЕГО УСЕДАНИЯ", ХЗ что ты там собрался тестировать, углепластиковый.
>>704685 Глупые нейросети не понимают, что нужно вначале посчитать C(11, 3), таким образом получим максимальное значение, при котором мы можем не добыть все 12 гномиков, а потом прибавить ещё один киндер и получим искомое минимальное значение, когда мы гарантированно получаем все 12
> У тебя хоть какая-то решает эту задачу верно? Попробовал несколько РПшных, включая оверхайпнутый командр - все мимо
Продолжаем насиловать труп. Путём уже гораздо более хитрых телодвижений удалось дообучить токенизатор, с использованием tokenizers и датасетс это требовало 5 дней на моём железе, с использованием кастомных решений - не более пяти часов. Главная проблема в том, что datasets хранит всё в памяти и для обучения на семигиговом датасете нужен объём памяти около 130 гигабайт. Хотя своп на m2, это не спасает. Подсос претокенизированного датасета с sata ssd работает в триллион раз быстрее. Оказалось, что для негросетки "merges", которые представляют собой склеенные вместе самые частые последовательности токенов, являются токенами в том числе. Так что при замене этих самых merges, нужно обучение. Но также оказывается, что в памяти сетки сидит миллиард "синонимичных" токенов, которые имеют одно и то же значение, но должны использоваться в зависимости от контекста разные. С одной стороны, проёб перформанса, т.к параметры заняты хуйнёй какой-то. С другой стороны, экономия контекстного окна. В теории, когда изобретут способ более производительной работы с контекстом, то от таких синонимов можно будет отказаться, а значит, общая "башковитость" модели возрастёт на порядок, особенно для мелких моделей. Ну и оказалось, что спецсимволы обрабатываются, как последовательность байтов. Собственно, это новостью не было. Новостью оказалось, что что если в мерж попадает спецсимвол, то берётся не один токен, а вся последовательность, и обсчитывается, как отдельный токен.
>>704748 >а потом прибавить ещё один киндер и получим искомое минимальное значение, когда мы гарантированно получаем все 12 Хуя ты умный, всё сходится. >Попробовал несколько РПшных, включая оверхайпнутый командр - все мимо В локалки я бы с такими задачами и вовсе не совался бы. >>704756 >С одной стороны, проёб перформанса, т.к параметры заняты хуйнёй какой-то. Думаешь? Это разве не для разных языков? А то с другой стороны использовать один и тот же токен для английского и какого-нибудь испанского не факт что будет проще с точки зрения производительности нейросети. >>704773 Потому что при обучении градиентным спуском корректировки идут небольшими шагами. А если размер корректировки будет меньше размера точности, то угадай что будет.
>>704781 >Это разве не для разных языков? Про разные языки речи вообще не идёт. Вот лламовский токенизатор, берём слово component, множественное число я буду игнорировать - потому что это отдельное слово с отдельными мержами, токенами и т.д. Да, это не просто "s" на конце, components это отдельный токен. Смотрим в мержи. "▁com ponent", "▁compon ent", "▁ component", "▁Com ponent", "▁ Component", Итого, у нас 5 синонимов на одно слово. При условии, что нейросеть всегда сможет смержить два токена в один мерж, а не использовать токены из вокаба. Если будет использовать, то ещё больше. Нейросеть не "знает", что это одно и то же слово, она обучается взаимодействию с каждым из них.
>>704807 Эээээ... Кажется, я понял. Прикол в пробеле перед словом и его отсутствием? И капитализация первой буквы, да. Ну да, всё так криво и работает. >Нейросеть не "знает", что это одно и то же слово, она обучается взаимодействию с каждым из них. А с другой стороны, как пометить, что у нас есть большая первая буковка? Вот и колхозят говно. Хотя как по мне, вместо назначения простой цифры каждому слову надо сразу ебашить смысловой вектор аля world-to-vec, но увы, всем похуй (кроме парочки шизов с имиджборд, лол).
>>704761 Да, хорошие магазины часто пропадают, но правда новые тоже появляются. Отзывов только ждать долго. Слышал я, что ещё куча банков под санкции попали, а китайским банкам оно не надо - с американцами конфликтовать. Надеются отсидеться.
Аноны, почему я не могу загрузить несчастный c4ai-command-r-35b-v01-iq3_xs в Теслу с контекстом 4к? С 2к норм загружает, но памяти занимает всего 16гб, но когда выставляю 4к выдаёт:
numpy.core._exceptions._ArrayMemoryError: Unable to allocate 4.15 GiB for an array with shape (4352, 256000) and data type float32
>>704844 >Ну да, всё так криво и работает. И даже не только в этом, все падежи, времена и т.д - это всё разные токены. Чтобы закодировать component нейронка может взять один из пяти токенов, а чтобы закодировать components - один из других пяти токенов. То есть параметры расходуются на какую-то ебанину, на пережёвывание трижды прожёванного. И у каждого такого синонима есть вероятности, и нейронка каждый раз просчитывает вероятность не для следующих токенов, а для количества потенциальных следующих токенов умножить на пять. Если смотреть на примере компонентов. Здесь и параметры проёбываются буквально вникуда, и производительность.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: