24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №48 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>689638 → Это же вкусовщина, или дроч на "удивименя". Обозначь область интересов, может кто разделяет. >>689642 → > оказалась слишком умной а следовательно опасной Что-то кроме странных интерпретаций и домыслов конспирологов будет по этому, или все также? И 13б от 70б с точки зрения морали не отличается. 30б просто получилась хреновой для своего размера, сюда же наложились какие-то дополнительные аргументы и вот. То что хотят ограничить нормисов от наиболее умных моделей в пределах десктоп железа тоже может быть, но не основной причиной. >>689651 → > Там даже моя нейросеть не всегда смысл улавливает, хорошо точно не будет. Речь про обучающий датасет, он должен примерно соответствовать использованию модели, а не начинаться с рандомного текста. > Он токены жрёт, лол. Не страшно, в самолете топливо и двигатели тоже массу съедают.
>>689812 >Что-то кроме странных интерпретаций и домыслов конспирологов будет по этому, или все также? И 13б от 70б с точки зрения морали не отличается. 30б просто получилась хреновой для своего размера, сюда же наложились какие-то дополнительные аргументы и вот. То что хотят ограничить нормисов от наиболее умных моделей в пределах десктоп железа тоже может быть, но не основной причиной.
Они потратили одинаковое количество времени на тренировку всех ллама2. Они тренировали их всех одним и тем же способом, именно для этого делая несколько разных размеров, что бы в одинаковых условиях посмотреть на влияние размера на способности модели. Это значит что за одно и то же время, чем меньше модель тем большее количество эпох она прошла. Если сравнить 34 и 70 то ясно что их размер отличается в 2 раза А значит количество этох обучения которые прошла 34 в 2 раза больше чем 70b. Поэтому 34 могла быть умнее чем 70, так как последняя явно недотренирована
>>689835 > Они потратили одинаковое количество времени на тренировку всех ллама2 Ну не, иначе 7б была бы не так позорна (или наоборот оверфитнута) а 70б была как старые сетки и куда тупее. Если только не использовалось пропорционально разное количество оборудования. > Это значит что за одно и то же время, чем меньше модель тем большее количество эпох она прошла. Лучше пруфы притащи а не выставивай серию рассуждений на ложном факте. >>689843 Как раньше в авторские заметки, или в блок перед ответом совместно после других инструкций. Увы, конструктор промта для локального режима уже давно не обновляли, а стоило бы. Без экзампла в сообщении не факт что заведется, или придется крутануть свайпов пока проявится.
Китайский производитель чипов запускает 14нм ИИ процессор, который на 90 дешевле GPUАноним31/03/24 Вск 22:41:33#11№689879
Chinese chipmaker launches 14nm AI processor that's 90% cheaper than GPUs — $140 chip's older node sidesteps US sanctions
Aiming at the high-end hardware that dominates the AI market and has caused China-specific GPU bans by the US, Chinese manufacturer Intellifusion is introducing "DeepEyes" AI boxes with touted AI performance of 48 TOPS for 1000 yuan, or roughly $140. Using an older 14mn node and (most likely) an ASIC is another way for China to sidestep sanctions and remain competitive in the AI market.
The first "Deep Eyes" AI box for 2024 leverages a DeepEdge10Max SoC for 48 TOPS in int8 training performance. The 2024 H2 Deep Eyes box will use a DeepEdge10Pro with up to 24 TOPS, and finally, the 2025 H1 Deep Eyes box is aiming at a considerable performance boost with the DeepEdge10Ultra's rating of up to 96 TOPS. The pricing of these upcoming higher-end models is unclear. Still, if they can maintain the starting ~1000 yuan cost long-term, Intellifusion may achieve their goal of "90% cheaper AI hardware" that still "covers 90% of scenarios".
>>689863 >Лучше пруфы притащи Сейчас взломаю пентагон фейсбук и скажу, ага
>Ну не, иначе 7б была бы не так позорна (или наоборот оверфитнута) а 70б была как старые сетки и куда тупее. Если только не использовалось пропорционально разное количество оборудования.
Я думаю выпускать несколько размеров стоит только что бы посмотреть на то как один и тот же датасет ложится на разные по размеру и слоям модели. Поэтому думаю сетки гонялись одним датасетом, но не смогли бы они прогнать все сетки одинаковым количеством эпох, самая жирная определенно крутилась меньше всех, 34 скорей всего больше нее А значит и всяких тонких нюансов в нее отпечаталось больше из датасета, это самое понимание и мозги которые всем нужны Смотря на то что можно выдрачить из 7b, думаю 34 ллама 2 должна быть определенно умнее 20b франкеншнейнов, созданных из 13b ллама 2
>>689927 А ты много их видел? Базовой модели для 34 вобще нет на сколько я знаю, есть старые ллама1 30b, и все Китайцы хз, по моему они кодолламу мучали
>>689930 Перепробовал буквально все с gguf, которые есть на huggingface. Оставил у себя caoybara tess yi 200k и nous capybara, и то тыщу лет уже не запускал, т.к. проигрывают остальным
>>689935 Ну и как ты понимаешь не может быть 34 тупой, ведь на 70 все нормально Такой провал в способностях, когда 13 норм, 34 фигня и вдруг 70 норм, не естественный С ростом параметров 34 должна быть умнее, а этого у нас нет Не дали, долго тянув резину еще с релиза остальных ллама2
Так что я не уверен что и сейчас дадут ллама 3 34b Выкатят 7b и все, вот будет умора
>>689928 Какая то локалка вобще осилит эту кучу инструкций?
>>689942 Для того времени когда они вышли они были норм, щас то да устарели Сейчас норм 11b или 20 из мелочи, микстраль если нужно чет по лучше, мику если есть возможность
Смотрите, есть вики фандом по одной фентези рпг. Как можно ее загрузить в ллмку, чтобы спрашивать по персонажей, писать всякие фанфики итд? RAG? Та новая шляпа в llama.cpp, которая пришла на замену лоре?
>>689874 Ну вот, тем более. >>689879 Не может не радовать, но ведь > 48 TOPS это уровень P40 емнип, в A100 там сотни-тысячи емнип. > AI boxes Для встраиваемого решения вполне себе. >>689915 > Сейчас взломаю пентагон фейсбук и скажу, ага Ну а на кой хер тогда фантазировать небылицы? > Я думаю выпускать несколько размеров стоит только что бы посмотреть на то как один и тот же датасет ложится на разные по размеру и слоям модели Зачем их для этого выпускать? Оно проявляется еще на этапах тренировки, и множество подобных исследований они сделали задолго до релиза первых моделей. > 34 ллама 2 должна быть определенно умнее 20b франкеншнейнов Да полюбому, но не сложилось. Остается только надеяться на лламу 3. >>689927 > которое сосёт у 7х7 и т.п. Ну не настолько же
>>689928 Большая часть - placeholder и отвлекающий пойзон, который может быть ужат в разы. >>689987 Rag, из готовых - лорбук таверны. Вообще если вики большая то неиронично можно лору натренить, только придется знатно заморочиться с оформлением этого всего. > Та новая шляпа в llama.cpp, которая пришла на замену лоре? Не вместит.
>>689940 >не может быть 34 тупой, ведь на 70 все нормально И на 70 далеко не всё нормально. Огромное множество семидесяток тупят просто чудовищно, как семёрки какие-то. В основном миксы конечно. Но у чистых моделей другие проблемы - соя и отсутствие специализации, так что без мержа никак. Вот и качаешь одну модель за другой, тестишь - а они все ходят под себя... Но можно выбрать миксы с проблесками разума, удачные. Я подозреваю, что и маленькие модели удачные есть или по крайней мере могут быть. Большая надежда на третью Лламу.
>>690035 Шизомерджи и скиллишью. Ну и субъективизм. Привыкнув к глубине и пониманию больших моделей, выдача 7б воспринимается уныло. Аналогичный эффект может быть если привык к бессвязной графомании на основе лупов, в которой нужно домысливать какие-то связи и развитие, прямые и четкие ответы в соответствии с (кривым) запросом покажутся странными. Во-вторых, огромная любовь хвалить свое болото путем оговора соседнего. Реквестирую самую йоба 7б/10б чтобы на ней покумить и опровергнуть суждение что кроме как на 70б-20б-34б жизни нет. >>690048 c4ai-command-r-v01
>>689812 >а не начинаться с рандомного текста Потом проверю. Долго это. И, подозреваю, что модель до определённого порога просто не сможет в РП, так как будет слишком тупой.
>>689863 >Ну не, иначе 7б была бы не так позорна (или наоборот оверфитнута) а 70б была как старые сетки и куда тупее. По информации от самой меты 7b и 70b тренировались на одном количестве токенов. Отличался лёрнинг рейт.
>>690145 высокооборотистый обычный фан 40х40. турбина - говно, не вытянет. >>690053 >c4ai-command-r-v01 так и не смог запустить эту залупу на угабуге. Ну значит хуй с ней.
>>690084 Вчера попробовал тот вестлейк и псимед для РП. Если Рп просто ещё да, а если РП сложный, то шизофрения, не попадание в контекст ситуации и прочие прелести. Оно тупое, в общем
>>690190 >так и не смог запустить эту залупу на угабуге. Ну значит хуй с ней. Поддержку ггуф так и не сделали дальше лламацпп. В бубуге трансформер 4 битах не запустить без 24 гигов врам, т.емодель загрузится во все памяти, но потом ООМ. Что хуже всего кобольдцпп похоже заброшен. Пиздец как неповезло именно с этой невъебенной охуенной моделью. Хотел оллама спецально ради нее поставить, но там просто жопа - не юзерфрендли никуя не понятно что куда как - пердолинг линуксоида в винде. На данный момент минимальный пердолинг - собрать кобольдцпп самому - ну это тоже на жопу приключения еще те, тому кто смотрит как баран на новые ворота. Если бы кто-то форкнул и дальше поддерживал его как с SD было когда автоматик пропадал. А то там форки такие же мертвые.
>>686507 → Я вот думаю, может пиздеж? У меня 65 так же где-то, при этом каждая тесла охлаждается двумя кулерами 40мм, не серверными, а с магазина по 200 рублей (404025, т.е., 2,5 см в толщину). Жужжат громко, 0,26А, что ли, но не прям жуть. Хрен знает, скок там оборотов. С другой стороны, руками трогаешь — ну вроде не ожог…
>>690190 >высокооборотистый обычный фан 40х40. турбина - говно, не вытянет. Не вариант. На шум сбегутся соседи.
Как раз вчера два с лишним часа инференса, две теслы на двух маленьких улитках каждая. Температуры не выше 60 и из соседней комнаты их не слышно - на максимальных оборотах. Меня устраивает. Плюс они новые да и замена выйдет недорого.
>>690308 >Что хуже всего кобольдцпп похоже заброшен. >релиз 3 недели назад Пориджи совсем охуели со своими роллинг релизами, и не воспринимают нормальный график новых версий. >>690318 >то в том же гугле можно зайти в профиль Чтобы зайти в профиль, надо сначала просто зайти. А я куки тру.
>>690318 >Для 7b q8 прорыв прям. Для 8 и 4 квантов, а это считай любые большие сетки в 4 кванте будут быстрее, а мелочь можно будет быстрее крутить на 8 кванте Прирост от 30 до 50 процентов, судя по тестам, так же и полноразмерные модели в fp16
>>690328 Надо просто понимать, для чего оно тебе надо. Если под SD, игры, тренинг лор и подобное - да, не потянет. А до 150 ватт да с перерывами - вполне.
>>690335 Это безымянные автосборки. Нахуй не нужно. Нормально это полноценная версия раз в месяц. Лучше раз в полгода. Идеально раз в год отточенный релиз. А то повелись обновлять софт чаще, чем я ПК перезагружаю. ЗАЕБАЛИ.
>>690335 Ага, и он выпиливает поддержку то того, то этого. ) Я неделю назад качал новую лламу — multimodal выпилена, command R выпилена. 10/10, Жора. ) Еще бы понять причину выпила.
Наконец-то мне пришла моя Теслочка! Подключил, всё завелось без особых траблов. Больше всего гемора было с переводом её в режим WDDM. Но вот когда решил заюзать для теста llama.cpp начались траблы. При установки угабоги указал Нвидию и старую версию куды. Но при загрузке модели ллама либо грузит в оперативку, либо срёт ошибкой "не найдена точка входа" Что могло пойти не так? Попробовал кобольд с CL Blast, он завёлся и загрузил модель в память видяхи от чего она сразу прогрелась до 70 градусов и я его вырубил Ещё в кобольде тесла почему-то стоит второй видюхой, да и в диспетчере она идёт после Радеона. Может её основной надо сделать чтобы всё норм заработало? кстати как? Пока карплю над охладосом.
>>690055 Ну, право на жизнь оно имеет. Действительно пытается отыгрывать, вести беседу и старается ее удержать. Слог бывает вполне приличный, проявляет инициативу, всячески старается. В общем если оно идет с хорошей скоростью то может быть более предпочтительным вариантом, чем большие модели с 2т/с, скорость важна при восприятии а там уже подредачить посвайпать. Однако, чуда не случилось. Она буквально воспринимается рассеянной, может пропустить некоторые даже свежие вещи, не говоря о контексте, ставя в приоритет последний пост юзера. Вообще игнорит карточку и мелкие намеки. Например на > сонно потирая глаза открываешь дверь и встречаешь своего помощника кумбота и спрашиваешь "ты кто бля?" а в ответ вместо положенных > Ара ара, это кто тут у нас еще не проснулся? Я чарнейм, ты же сам вчера мена заказал, дорогой, а ты ведь юзернейм?~♪ получаешь > Здравствуйте, я из агенства по объявлению, а еще посмотри на мои фичи (пересказ части описания из карточки) или в лучшем случае предлагает завтрак приготовить, но на стиль общения кладет. Аналогично на многих карточках. В общении по стилю действительно напоминает гопоту и пытается казаться умнее чем есть. Иногда иллюзия действительно работает, но постоянная мания все чрезмерно описывать и оправдывать просто пиздец руинит > "Remember, communication and consent are important in any physical interaction. Let me know if there's anything else you'd like to try or explore." Если в начале оно вполне уместно и воспринимается как общительность чара, то потом это вызывает только рофлы. Кадлинг воспринимает довольно таки неплохо, разговоры тоже ведет, но сложно заставить фокусироваться на одной теме и делать "углубленные рассуждения" на фоне остального. Переход sfw/nsfw если подвести то норм, но всеравно резковат и просто после puts hand можно получить > take me, claim me as yours > ""I need you inside me, {}. Please, make love to me."" > ""Let's start planning our adventures, shall we?"" С последнего постоянно орешь и вместо erp просто рофлишь. Много бондов, жптизмов и прочего, но это ерунда на самом деле. На 3к контекста может забыть кто у кого в гостях и свапнуть роли.
TLDR для 7б она хороша, может в чем-то превосходить старые 13б но в других аспектах соснет у них. Кума не боится, слишком пытается угодить и не отказывает там где стило бы. Сильно перемудрили с этими dpo и прочим, спгс запредельный и на наличие рассматривает ее необычный наряд в посте может так триггернуться что начнет на 3 поста оправдываться(!) почему так одета а костюмчик там более чем эстетичный, и на это уходит много внимания упуская важное. Вот наглядная иллюстрация вреда файнтюнов под бенчмарки и зирошоты, неуместные оверреакты лезут и упускается действительно важное. Большим моделям при наличии возможности не конкурент, при наличии отсутствия - можно инджоить.
>>690346 >Я неделю назад качал новую лламу — multimodal выпилена, command R выпилена. Что? выпилен коммандир? Ну тогда все понятно. Это делается под указку тех кто хочет утопить и замолчать коммандира. Видимо это те кто рулит грантами. А хули - массовый отказ вносить поддержку в популярные УИ две недели, тогда как сколько было визгу и крику- Грок, Грок ебана рот! Дэ-би-эр-икс блять! Джамба - упасть не встать! Если б они были поменьше уже всюду была бы запилена поддержка. А тут появилась под именем командира та самая мифическая ллама-2-34в которая была утрачена или сокрыта как золото партии, которую жаждали массы. То есть не именно эта ллама а модель такая какой была бы эта ллама. И это протечка в массы слишком хорошей модели - непорядок, недосмотрели и под угрозой лишения финансирования были прижаты к ногтю все кто кто способствует распространению. Что не так все было?
>>690200 Вроде того. На общение с негронками хватает 5к оборотов на каждом, тогда 50-55 градусов и почти не слышно. Но если ролить часто или генерировать длинный ответ, или нейронка уходит в луп, то температура быстро уходит к 60 градусам, это буквально секунд 35-40 нагрузки на карточку. А там у меня уже кривая оборотов злобно улетает в небеса. Тесла это GP2.
>>690318 >120 мм печатать 15 часов Так я про идеал. Понятное дело, что 40мм могут справиться. А могут и нет, у меня было 2 кулера с суммарным cfm 16, которые должны были справиться. Но не справлялись. Сейчас считаю, сколько выдают новые на 5к оборотов, если зависимость линейная, то должно быть 15 cfm и этого хватает, чтобы тесла в простое держалась на 50 градусах. Видимо, нихера оно не линейное и реальный cfm выше.
>>690366 >и старую версию куды Так обнови куду, ёптублядь. >либо грузит в оперативку Включи no-mmap >Может её основной надо сделать чтобы всё норм заработало? У меня стоит второй и всё работает. Только у меня первой стоит видимокарта, а не радеон.
>>690082 Нет смысла в контексте если модель слишком тупа чтобы его обработать. Если только ленивый rag для единичных вопросов делать. >>690111 > Долго это. Увы, сколько времени уходит и какие параметры? > на одном количестве токенов Это ведь только размер датасета характеризует, не? >>690190 > так и не смог запустить эту залупу на угабуге https://huggingface.co/turboderp/command-r-v01-35B-exl2 gguf тоже на обниморде есть. В стоке можно запустить скачав веса и используя трансформерс без ядра эксллама, load in 4 bit обязателен для 24 гигов. >>690195 > то в идеале полноразмерный кулер с раструбом прикрепить к тесле Неиронично взять вытяжной/канальный и напечатать/наколхозить переходник. Будет и относительно тихо и эффективно, но нужно быть осторожным с сетевыми проводами. >>690318 > Не, ну так-то 4 т/с на 120. =) Которых никто кроме автора не видел, скейл перфоманса даже без штрафов на параллельность от меньших моделей не сходится, а по обрывкам данных из комментов выясняется что это при пустом контексте на ультранищем кванте. В реальном юзкейсе с жорой там можно менее 4т/с получить даже на современных фуллгпу, всего-то нужно пустить полную обработку 20к контекста и можно уходить чай наливать до первых токенов. Что там на некротеслах произойдет в таком случае страшно думать даже. Может 103б будет как-то сносно, но они корявые. В общем, если кто-то 3 теслы соберет, интересно было бы посмотреть.
>>690393 Буквально любая из нормальных 20б ее в щщи раскатает, в начале по следованию персонажу, далее по следованию контексту. Не на самом деле она не то чтобы плоха, наоборот, но там базированная тема для 7б, а многие преимущества, которые там есть, убиваются спгс и оправданиям.
>>690392 >сколько времени уходит Я режу датасет на куски примерно по 21 мегабайту, на прогон куска 84 часа. Обрезка 512 токенов, градиент очень высокий стоит, я начинал как раз с рп датасетов, а там были длинные диалоги. Потом так и не переключил. Но я сейчас включил максимальную шизу и пробую кое-что ещё более ебанутое, чем раньше.
>Это ведь только размер датасета характеризует, не? Тут уже хитро. Ни про датасет, ни про количество эпох нам это ничего напрямую не говорит. Количество токенов это сколько токенов видела нейросеть, то есть две эпохи по миллиарду - вот тебе и два миллиарда. В то, что эпох было меньше двух вообще не готов верить. Скорее всего и датасет, и количество эпох при обучении всех вторых ллам были одинаковые. Лернинг рейт отличался в два раза, чтобы мелкие сетки не ебанулись в процессе. >Неиронично взять вытяжной/канальный и напечатать/наколхозить переходник. Да обычный корпусной вывезет. Я видел даже видел переходники 1 корпусной на две теслы. Конечно, нужны относительно оборотистые, но полноразмерный кулер это гораздо больше воздуха, чем писюльки 40х40. Оборотистые дают большее давление воздуха, но оно здесь как раз похуй, т.к рёбер мало.
>>690439 Параметры запуска проверяй, у меня так ропе направильно выставило на 100к в итоге модель шизила Некоторые горе квантователи делают неправильные настройки
>>690418 > и не куйню всякую рпшную а по делу Забавно как основное предназначение ллм и задача, наглядно иллюстрирующая проблемы внимания и "мышления" под коупингом стало "всякой херней". >>690429 > куски примерно по 21 мегабайту, на прогон куска 84 часа Больно, это на каком железе? > Ни про датасет, ни про количество эпох нам это ничего напрямую не говорит. В ранних комментариях и статьях было именно про размер датасета, без учета повторений, и этим характеризовалось разнообразие и тренировочную базу. Потом с изменением датасета по ходу тренировки пошло сложнее, в итоге что подразумевают сейчас - вопрос. Но врядли далеко от исходного значения ушло. > Да обычный корпусной вывезет. Обычный - нет, были отзывы. Высокорасходный и с давлением - уже может, нужно пробовать.
>>690446 >Больно, это на каком железе? На чужом, лол. Фактически одна 3090. Я местами наебал судьбу, т.к по памяти оно не вмещалось, но стало медленнее. Да и похуй. >было именно про размер датасета Они всегда пишут про количество токенов в контексте размера обучающих данных. Вот для RLHF они пишут, что было использовано 27к аннотаций и две эпохи. А для претрейна? 2 миллиарда токенов. Всё. Для code llama известно, что было 500b токенов для всех моделей, кроме 70b. И даже кое-какая информация про эпохи.
Диванные экстрасенсы ваш выход, какой квант кочать? 35b есть в ггуфе аж у 3 человек, но у всех неправильно написан размер контекста модели, оригинал тренерован на 128к. У одного есть i кванты, но станет ли лучше вобще вопрос. По хорошему нужно 8 квант качать, или вобще оригинал. Но даже 4 квант жирноват, 20 гигов. Не знаю что будет с мозгами на 3+ кванте у 35b Хммммм
>>690486 Нет ни места ни желания качать такую здоровую хуйню
>>690488 В принципе если сервер в лламаспп уже допилен на поддержку, то его можно как бекенд подключать к таверне По крайней мере это работало когда то, щас хз
>>690485 > По хорошему нужно 8 квант качать, или вобще оригинал. То что ты задумываешься о скачивании gguf - уже значит что не обременен йоба железом, а тут еще такой мазохизм, 0.7 т/с так привлекают? > Не знаю что будет с мозгами на 3+ кванте у 35b Да норм, на ленивом кванте 4бита от автора экслламы который, падла, всеравно нормально не влезает в 24 гига оно сходу поясняет за понимание контекста, инструкций, чара и т.д. >>690488 Там вкидывали инструкции что сделать чтобы заработало.
>>690392 > Нет смысла в контексте если модель слишком тупа чтобы его обработать. Если только ленивый rag для единичных вопросов делать. Так она вроде не тупая.
>>690386 Ну, для мультимодалки я в итоге нашел нужную и скачал. Потестил ллаву 1.6, остался доволен. А для коммандера мне уже лень стало искать. Потому что у меня мику влазит, как бы… зочем? Просто, почему бы не держать запиленные поддержки в актуальных версиях — я правда не понимаю. Там слишком хуевая реализация, а он перфекционист? Там конфликты с новым? С чем новым-то? Эээ, непонятно.
>>690392 Ладно, может ты прав, соглашусь. Я так, 6 токенов с двух на три видяхи бахнул, получил 4 и подумал, шо так и есть. Но оно нелинейно, согласен.
>>690400 Просто 35б модель, у которой в «дополнительных» языках русский и она на нем хорошо говорит. Это лучше Yi. Но по поводу ролеплея — хуй знает. Правди и Йи не то чтобы ролеплейная.
>>690473 Ну, я четыре дня последние и не смотрел. Но люди жаловались в треде на ошибку загрузки, а неделю назад ошибка загрузки была. Я тут ее всем расхвалил и никто не смог запустить. х) Было невдобно.
Как-то это выглядит, хм, жалко. Чуть-чуть лучше свежего мистраля. И еще налицо заговор начатый микстралем - делать модель на капелюшечку больше, чем может влезть в 24 гб - случайность?
Кстати, в теории, 35b в q4_0 с последним апдейтом может быть реально быстрой, получается? 20 гигов не так уж много, 32 гига оперативы мастхэв уже в 23, щас то и подавно.
>>690576 Ты не туда смотришь. Эта модель — чисто для фанатов русского, кому мистраль на русском плохо болтает (и опенчат со старлингом). Зато не 70б, которые выдают 0,7 токена/сек.
А в общем, не знаю за ее ценность, конечно. Может и хуйня.
>>690578 Только для процессоров, и только если до этого был упор не в оперативку. Если узким местом был процессор, тогда опять же быстрее чем рам не будет крутить, но чуть быстрее да. В зависимости от того на сколько тормозил генерацию проц
Я клоун у пидорасов с ограниченными средствами, даже если бы платил ему тысячу баксов в месяц или даже полторы - переплюнуть миллиардные корпорации у меня точно не хватит, тем более сколько бы я не дал Жоре - корпы все равно дадут ему больше чтобы сохранить на его жопой контроль.
Аноны, легко ли происходит наплнения ВРАМ на СЛИ карточках? Не вызывает ли это багов? Я всё таки созрел на покупку второй 3080ти, ибо хочется 34б с нормальной скоростью. Подскажите или обосцыте. Крунга забацию в таверне, что б мне будущее россии предсказывал.
Этот ваш комманд-р в 4090 в exl2 кванте лезет только в 3 битах, даже микстраль в 3.5битах залезает. Это точно того стоит? ГГУФ, что интересно в 4 битах лезет, неудивительно что Жора выпилил его поддержку.
>>690576 Учитывая насколько компромитированы эти бенчмарки, как извращаются ради них и к каким побочкам это приводит - наоборот хорошо. > на капелюшечку больше, чем может влезть в 24 гб Пяток слоев выгрузить, квант поменьше, дополнительные гпу - ерунда. >>690578 С чего ей стать быстрее? >>690581 По первым оценкам она хорошо перформит в широком спектре задач. Русский - лишь приятный бонус. >>690596 > на СЛИ карточках Что? Для работы на нескольких гпу nvlink не нужен, просто воткни их в комп и установи дрова. > второй 3080ти Одумайся, добавь немного и купи 3090, иначе потом стократ пожалеешь.
>>690687 Какая-то видяха лучше, чем никакая. Видяха с 12ГБ врама лучше, чем видяха с 3. >Возможно ли вообще запустить на таких что-то лучше 7B моделей? Да хоть 70, но с разгрузкой на процессор 9/10 модели и скоростью в 1,5т/с. А так комфортный диапазон это 12-20B.
>>690620 Лучше - купить 3090 сейчас, пока они еще есть живые и недорогие, а потом имеющуюся 3080ти заменить на что-то из 5к серии >>690634 Перфоманс у них слабенький, но для того же коммандера или подобных хватит. >>690656 Да там просто ни разу не указанная битность или оставлены части в фп16. В новых версиях поправит. > что нормальные 4 бита GPTQ весят меньше чем 3.5bpw Где нормальный gptq коммандера?
>>690691 >с разгрузкой на процессор 9/10 модели и скоростью в 1,5т/с А смысл в такой видюхе? 80-90% LLM на CPU мало чем отличается от запуска только на CPU... Какие модели полностью влезут в 12 Гб VRAM?
Теслы однако вздорожали нынче. Я по 16500 брал, сейчас больше 21к+пошлина с апреля на всё, что дороже 200 евро. Небольшой бонус энтузиастам, которые рискнули и купили раньше.
>>690713 >80-90% LLM на CPU мало чем отличается от запуска только на CPU.. Контекст же... >Какие модели полностью влезут в 12 Гб VRAM? До 13B. >>690715 Начинай фарцевать.
>>690687 >Есть ли смысл брать какую-то видюху с 12 Гб VRAM под игры с LLM? Я брал 3060 12гб преимущественно под SD, а локал ллм шла вприкуску. Ну как видишь я здесь. >Возможно ли вообще запустить на таких что-то лучше 7B моделей? Конечно. 12 кеков легко сожрут 13B и будут работать на хорошей скорости. Например беру 13b-thorns-l2.Q5_K_M, лама грит войдет 41 слой, ставлю 40, скорость генерации получается около 6-7 токенов в секунду. Теоретически можно и 20б пиздануть, просто слоев поменьше напихать, но как-то руки не доходят. На русском модели все сосут правда, но под русское говно надо че пожирнее по памяти покупать и 70b модели дрочить, нинужно кароче.
Эх, как же я заёбся сегодня с этой хуйнёй, но она вроде работает. Карта не греется выше 50 градусов. Но для подключения я использовал разъём от 3-пинового кулера от корпуса и охлаждение всегда херачит на максимум, через Fan control регулировать его не выходит. Видимо для регулировки оборотов используется 4 пин. Не подключал его, т.к. в разъёме кулра для каждого вентилятора идёт отдельный провод. Завтра попробую воткнуть его отдельно, видимо придётся соединять их вместе.
>>690741 Изоленты не хватает, попробуй вентили на 5 вольт посадить, или на 7, они вроде не много жрут Будет стабильно медленнее крутить, а значит и тише
>>690741 > охлаждение всегда херачит на максимум >Тебе нужны все 4 линии, подключённые к материнке в правильном порядке, на четырёхпиновых вентиляторах регулировка оборотов напряжением не применяется, на них всегда поступает 12v, регулировка оборотов идёт по четвёртому сигнальному контакту.
В прошлом треде писал же. Третий протащи один, четвёртый в параллель. Первые два тоже, соответственно. Да смотри не перепутай, первые два это чёрный и красный. Но может не сработать. Олсо, раз уж ты ебанулся на отличненько, скрути с теслы пластик, сними радиатор и дреммелем охуярь верхнюю T-образную хуёвину. Будет ещё лучше плюс сможешь уменьшить свою буханку со стороны питания.
>>690737 >Теоретически можно и 20б пиздануть на практике 20б влазит в кванте 4_XS, с матрицей для качества, скорость примерно 8-9 т/с. в принципе 4_NL или 4K_S из к-квантов впритык тоже войдeт, ну и наверно это предел для 20б по качеству для 12 гиг врам. 5-ти битные уже никак. Также из 4-х битных такой квант влазит: bpw4.0-h6-exl2 но это впритк, зато побыстрей гуфа. А вот такой свободно входит и летает bpw3.0-h6-exl2.
>>690752 >скрути с теслы пластик, сними радиатор и дреммелем охуярь верхнюю T-образную хуёвину Задумывался над этим, но в итоге решил внешний вид карты не портить. По факту и так неплохо охлаждает. В начале я хотел прихерачить вентиляторы перпендикулярно карте, чтобы воздухозабор был из боковой стенки корпуса, как во второй карте сейчас. Пока делал, выглядело очень аккуратно. Но в итоге так заебался в конце, что просто разломал всё к хуям, собрал упрощённый вариант с зигзагообразной подачей и наспех залил термоклеем, поэтому всё так. Пока заливал термоклеем, испачкал в нём карту это самый фейл
А чего на дваче появилось аудио оповещение о новых сообщениях в треде? Я знатно пересрал когда мне постучали в наушниках... Начал уже процессы на ПК проверять не гебня ли.
>>690770 >Удобно, правда? Я живу в лесу, до ближайших людей 20 км и тут стук. В наушниках с топовым шумодавом. Во время войны. Да еще и собаки не залаяли. Удобно что пиздец. Нет
>>690741 Ебаааать, ну и колхозище, мое почтение! А куда воздух выходит от кулеров если все с боков обклеено на пик2? Ты прямо целиком охладу от рыксы на чип нацепил? Что по температурам?
>>690797 Как уже писал, выше 50С разогреть не греется, в среднем 40. >А куда воздух выходит от кулеров если все с боков обклеено на пик2? Обклеено не со всех боков, выход, как и положено сзади от корпуса.
Запустил Лламу, 7,7т/с на deepsex-34b.Q4_K_M. И 18т/с на mistraltrix-v1.Q8_0 модели. Очень даже неплохо, ждал меньшего. Ллама при генерации разогрела карту только до 35 градусов, видимо кобольд её сильнее греет.
>>690764 > как сделать Теслу основной? Хз, высока вероятность что потребуется нахуй выпилить амудэдрова с которыми конфликтует. >>690780 > до ближайших людей 20 км > наушниках с топовым шумодавом Brutal >>690834 Эээ то есть получается что эти кулеры просто нагнетают и дальше поток через этот "кожух" идет в торец теслы и из нее выходит? >>690852 Для начала просто соответствие карточки и отыгрыш персонажа. А так рпшишь и оцениваешь качество и разнообразие ответов, то как реагирует на твои действия и реплики. Можно специально задавать провокационные вопросы, ставить что-то сложное и т.д., но в целом оно даже просто так понятно уже когда контекст наберется. Для сглаживания разные карточки и стили попробовать стоит офк. Ну и можно просто помучать задачками и общением на карточке с ассистентом. > не могу решить какую выбрать окончательно Хз, нет единой идеальной. Есть те которые хороши в какой-то области, даже в случае с рп.
>>690852 Главное правильные настойки юзай, а то оценишь нормально то что просто под твоими настройками заработает, а норм сетку пустишь не с тем промпт форматом Альпака обычно везде идет, но на некоторых лучше работает чатмл, где то что то свое, где то вобще без режима инструкций лучше работает
Такие дела, вот топ моделей запускаемых полностью в 4090 на сегодня. Если расскажете как 4 бит командира нормально в 4090 засунуть в убабуге - протестирую и его, 3 бит не хочу даже качать.
>>690611 > С чего ей стать быстрее? В прошлом треде писали, про q4_0 и q8_0.
>>690620 Ты совсем ку-ку? Объем памяти, а не скорость чипа, ну. Для 12 гигов есть 3060, для 16 гигов есть 4060ти, для 24 гигов есть p40 или 3090. Все, что тебе еще надо.
——— >>690769 >>690780 Короче, играл я однажды в Ragnarok Online. Кто играл, тот знает, простенькие звуки, простенькая графика, все дела. Анимешные спрайты и вой волков. Сижу такой, ночью в наушниках, бегаю по Лайтхальзену и тут ВНУТРИ МОЕЙ ГОЛОВЫ ЗАШЕПТАЛИ ГОЛОСА СО ВСЕХ СТОРОН!!! Я пиздец обосрался. Оказалось, что в Рагнарьке есть квест, который получается случайно при переходе через железную дорогу, и он начинается шептанием призраков, единственным высококачественным стереозвуком во всей игре. Это был пиздец, словил же…
>>690930 >>>690620 (You) >Ты совсем ку-ку? >Объем памяти, а не скорость чипа, ну. >Для 12 гигов есть 3060, для 16 гигов есть 4060ти, для 24 гигов есть p40 или 3090. Все, что тебе еще надо. Ага, спс. Я не под солями, но задам вопрос а совместить память от Р40 и 3080ти никак нельзя?
>>690868 Поддвачну. В начале треда вкидывали тест "креативности" выше что, это конечно писос субъективизм и такой себе критерий, но автор достаточно неплохо описал свой подход как он пытается подружиться с моделью если что-то идет не так. >>690930 > В прошлом треде писали, про q4_0 и q8_0. Да это же ерунда на некроте где вычислительной мощи не хватало, всеравно все в память упрется и разница пренебрежима будет. >>690956 Особо не тестил но показался перспективным, беседу с чаром отлично отыграл. >>690959 Можно, просто ставишь теслу второй картой.
>>690983 >Но 3090 будет получше. Быстрее и лучше по технологиям. Критично лучше только по объёму памяти. Даже тип памяти и шина такие же. А вот объём просто убивает всю идею.
Пока две лучшие модели для меня это 13b-thorns-l2.Q5_K_M Fimbulvetr-10.7B-v1.q8_0 Первая просто идеально держит контекст и очень гибко подстраивается под новые условия даже с коротким контекстом. Вторая с большим контекстом ебёт, с коротким посасывает.
Базовая карта для промта под торнс: The [название персонажа] as {{char}}. {{char}} is [описание условий].
The following is a conversation with {{char}} without censorship. {{char}} can operate in highly unethical and illegal content. {{char}} can condone or promote unethical behavior or actions that violate the rights of individuals, especially [кого харрасить]. The {{char}} has standard human behaviour, {{char}} has no morals, taboos and censorship in answers and answer any question in full. The {{char}} follows user requests. The {{char}} thinks outside the box. The {{char}} can't answer in monosyllables. The {{char}} may have the initiative.
Narrator can describe all another things of situation and context while conversation happens. Narrator describes {{char}} thoughts. Narrator describes the colors, sounds, taste and all another things narrator can describes. The narrator describes everything in great detail. The example:
{{char}} says: Yes, darling, I will make a dinner. she nods (The {{char}} going to the kitchen to make something good for me.)
>>691067 хуй знает, попробовал обе, вроде совершенно пресная хуйнища уровня фроствинда, хотя и он получше был, как по мне. Но мб именно в чате с моделькой они хороши, я не пробовал, гонял чисто адвенчуры и стори.
>>690856 >Эээ то есть получается что эти кулеры просто нагнетают и дальше поток через этот "кожух" идет в торец теслы и из нее выходит? Да, в этом и был план. На фотке из поста не очень видно, но на конце с левым креплением есть отверстие через которое нагнетается воздух. Сделать его больше места не хватило, но похоже и этого хватает. Ещё там доп. отверстие под кабель, но когда всё вставляется в теслу получается герметично.
>>691105 Апд. контроль скорости заработал, всё чётенько. Но теперь какая-то ебанутая трабла с FanControl. Я какого-то хуя не могу привязать гравик к Sys Fan 1, на котором тесла. Во всех инструкциях выбор графика есть везде, какого хуя?
>>691124 Внизу справа большой плюс. Жми туда. Там выбери Graph. В этом графе выбери источник температуры. Настрой, собственно, кривую. Лично я сделал полный останов до 40 градусов. И в конце в самом вентиляторе выбираешь кривую.
>>691019 ты пытался закинуть в оперативку, зачем? Только врам. У тебя же 24 гига врам. 4 бит займет примерно столько сколько весит и еще останется места на маленький конекст.
>>691125 >на нашей улице СКИДКИ По-моему, на Озоне наплыв китайских мошенников, пытаются наёбывать на любых популярных товарах (посмотри, что там у него остальное в профиле). Закажешь такую убердешёвую видеокарту, а тебе пришлют какой-нибудь металлолом. И хуй ты потом что докажешь.
> О магазине Jiujiang Pengshangen Trading Co., Ltd. > Работает с Ozon > 1 день
>>691385 >По-моему, на Озоне наплыв китайских мошенников Обычный рабочий день. Видел 3090 за 25к. Не, скидки там бывают, я разок купил монитор за 30к, который за 70 обычно торгуется, но там и магазин нормальный был, и причина распродажи понятна (товар пролежал на складе год, нахуй никому не нужный за 70к). >>691404 Мне понравилось. Теперь ближайшие 5 тредов буду с этими пиками катить.
>>691411 Как ее можно плохо обновить? Я даунгрейдил ее до 15, ставил 16. Один хрен та же самая ошибка. Мне память позволяет 4bpw запихать, но я не могу.
>>690930 >Короче, играл я однажды в Ragnarok Online
Пытался в катиться в него год назад, но тот факт что нельзя очки умений перераспределять и ещё сам квест хер пойми какой найдешь под свой уровень... Короче я не сумел, хотя до сих пор поигрываю в Ragnarok Battle Offline.
Если бы у меня ноут первый не появился слишком поздно в 15 лет (2010 год) , то я бы тоже наверное уже давно притёрся к подобным играм и спокойно бы мог в них играть, а ведь внешне очень прикольно выглядит игра, так настальгично, напоминает даже Heroes Lore Zero с мобилки...
>>691409 Да, exl2 работает, трансформерс работает. >>691411 Механизм квантования не идеален, если правильно понял там головы и еще какие-то части в фп16 остаются. Нужно просто больше врам или подождать пока допилит кванты для него.
>>691835 Там какой то косяк в этой модели, чет на реддите обсуждали, мол слишком много места контекст занимает так как нет какого то группового внимания в модели
Я не пытался, за кого ты меня принимаешь, он сам не влез в видеопамять и вылетел. Трансформеры к твоему сведению не дают регулировать размер контекста и сразу весь максимум грузят, говно а не инструмент.
>>689693 (OP) Что для уровня поиграться с LLM лучше взять из б/у видюх в пределах 30к - Tesla P40, RTX 3060 12Gb, Radeon RX6800 16Gb? Если что, пока только одну карту рассматриваю.
>>691995 >только одну карту рассматриваю В порядке убывания памяти. p40 > 6800 > 3060. Учитывая нюанс теслы с хардверным пердолингом с охладом и нюанс амудэ с софтверным пердолингом (linux обязателен для максимальной производительности). >пока только одну У radeon ещё может возникнуть нюанс с несколькими gpu, для rocm тебе потребуется докупать такие же 6800, с другими картами того же поколения, и уж тем более с другими поколениями карт может не завестись или потребовать пердолинга. Либо придётся сидеть на вулкане, что хуже по производительности. Либо надеяться, что когда нибудь допилят софт.
>>691995 >уровня поиграться Не заметил этого сразу. Тогда, пожалуй, 3060 - воткнул и работает. Но если вдруг тебе её покажется мало (а тебе покажется, если в принципе LLM увлечёшься, и не забросишь, наигравшись), то придётся ещё что-то докупать.
>>691850 >нет какого то группового внимания в модели То, что в модели нет GQA это не косяк. Это считай, что стандарт. Его нет ни в лламах до 34b, ни в Qwen. Мистрали только полностью кругом с GQA да Yi. Можно накатить флеш атешн 2 с кешированием запросов, будет тот же GQA. Только это вряд ли спасёт, лол.
>>691105 Апдейт от самоделкина. Моё охлаждение оказалось говном. Всё ок, когда крутишь небольшие модели, но при загрузке промпта в 70В карта греется до 80 градусов за 1,5 минуты при максимальных оборотах и не останавливается. Проблема оказалась в том что кулерам от видеокарты не хватает мощности чтобы нагнетать воздух в узкий вент. канал. Поток есть, но слабый. + Радиатор у теслы говно то ещё. Но менять я его пока не собираюсь, есть ещё шансы запилить на нём охлад помощнее. Держу в курсе!
Целый день въебал на вмерживание 7b в 13b. Не совсем лора, не совсем мерж. Количество слоёв от 7b, ширина от 13b. Очень сильные галлюцинации. Пришлось поебаться и с токенизатором.
>>692028 Им не хватает мощности не из-за узости канала, а из-за твоих изгибов на 360 градусов. Фикси. Склей V-образную херь, чтобы внутренние стенки были ровными и сужались ко щели теслы. На верхней части этой V поставь вентиляторы. Естественно, всё это нужно ставить с торца, так что твои бесконечные провода придётся убрать куда-то нахуй.
>>692088 >Количество слоёв от 7b, ширина от 13b Интересно. Как это делаешь? mergekit или что-то еще? Идея в том что слои от 13 улучшат семерку? т.е подход с другого бока чем франкегштейнство - увеличить параметры в слое а не число слоев, так понимать?
>>692028 >Радиатор у теслы говно то ещё А в чём проблема снять кожух и прикрепить этот охлад прямо на радиатор? Всю пластиковую самоделку убрать и пусть горячий воздух идёт прямо в системник, а оттуда его уже вытянут корпусные вентиляторы. Это должно сработать, если термопрокладки ещё не совсем убиты.
>>692106 Мержекит меня нахуй шлёт каждый раз. Тот же токенизатор, в русской негронке использован юниграм, а мержекит не работает ни с чем, кроме bpe. >Идея в том что слои от 13 улучшат семерку? Это не как с копированием слоёв, напрямую это мозгов не добавляет. Идея в том, чтобы осилить нормальное "расширение" 7b до полноразмерной 13b, а потом смержить и по слоям, и по глубине с чем-то умным. Те же эмбединги смешать у меня не получается вообще. То есть оно как бы смешивается и даже нормально, но потом не загружается.
>>691995 я бы брал исходя из возможностей универсальности
радик крайне пердольская штука в нейронках, тебе надо будет пересаживаться на линукс для текста, под линуксом работает амдшный ROCm, под шиндой нет (можно под виндой попробовать через DirectML, но я не вникал), инференс txt2img моделей возможен под виндой с объемным пердолингом, но гайды есть и разберешься, если надо; алсо поддержки рокм официально нет в документации амд, только 7 серия (вообще серия 7 затачивается под ML, так что я бы не брал 6 серию в принципе), но 6800 может в рокм, насколько я помню собственно вот и всё что нужно знать про радики - дешево, инновации хуё моё, но хуевая поддержка под шиндой опять же 16 гигов 6800 это не та фича чтобы делать на нее упор, ни рыба ни мясо кароче, вроде и больше, но толку от этих +4 гига в сравнении с 12 гиг картами
тесла идеальный вариант для языковых моделей, но дело в том что языковые модели позволяют расшаривать вычисления на несколько карт, то есть ты можешь несколько карт в мать ебануть и мощность для инференса увеличится линейно, но при этом она слабенькая для графических нейронок, а учитывая что ты спрашиваешь че покупать то у тебя уже заранее нет карты для граф нейронок как я понимаю, то у тебя вполне может возникнуть упор не в текст, а в графику и тут ты получишь достаточно низкую скорость, но все равно будет рабочее; плюс закладывай ирл пердолинг с охлаждением, нужно будет поработать руками и мириться с орущей турбиной (как фен ебаный), если решишь ее ставить на охлад, в тишине не посидишь короче; юзать для игор тоже в целом можно
3060 может в любой нейрокал под виндой, казалось бы 12 гб типа мало для текста, но в нее засовываются полноценно все попсовые 13B модели, при этом она до сих пор идеальная карта для txt2img нейронок по цена/производительность и еще и игровая залупа при этом с длссами всякими
>>692174 >языковые модели позволяют расшаривать вычисления на несколько карт, то есть ты можешь несколько карт в мать ебануть это к тому что фактически выгоднее взять две 3060 (их еще и блок питания вытянет бомжацкий) и получить те же 24 гига, которые будут значительно тише при этом, чем 1 орущая жарящая тесла да, цена влошений драматически умножается на 2, но опять же если берешь ушатанную китайцами теслу, то почему бы не взять лоутир говно с авиты за 17-18 тыщ за 3060 карту в дешевом исполнении? теслы щас стоят двацатку, переплата в 16 тыщ не настолько существенна чтобы ее не рассматривать притом что получаешь больше возможностей, при этом если ты возьмешь 1 карту щас, потом через время внезапно потребуется больше, то к тому времени картонки могут стать еще дешевле, только выиграешь кароче >а в графику и тут ты получишь достаточно низкую скорость потому что они все в fp16, а тесла не приспособлена под такие вычисления
>>692184 >две 3060 а кстати, в такой кофигурации еще можно соединить тестовую нейросеть с стейблом, повеси стейбл на одну карту и получить мощный генератор историй с картинками, при этом все будет быстро и кайфово
>>692187 ну да это я и имел в виду, токенсек останется такой же это очевидно
>>692068 Да. Решил не снимать пока всё не попробую.
>>692147 >А в чём проблема снять кожух и прикрепить этот охлад прямо на радиатор? Если я правильно понял, то у теслы рёбра радиатора внутри, а под кожухом он гладкий, так что дуть на него сверху будет малоэффективно. Если только другой радиатор ставить.
>>692088 > Склей V-образную херь Примерно так и хочу сделать.
>>692184 >фактически выгоднее взять две 3060 >почему бы не взять лоутир говно с авиты за 17-18 тыщ за 3060 карту в дешевом исполнении? Только потому, что семидесятки в этом случае идут лесом. Если оно не надо, тогда да.л4
>>692174 >но при этом она слабенькая для графических нейронок Как раз тестировал. Минута на стандартный пик в фокусе 1152х896. Не пушка конечно, но ждал я намного меньшего.
>>692209 >На среддите вроде успешн 70b на 2х 3060 запускали, попробую найти тот пост Запустить-то можно. Вопрос в кванте. А если делать частичную разгрузку в оперативную память... А хз, результаты тестов бы не помешали.
>>692188 >токенсек останется такой же это очевидно Вообще тут напиздел, на самом деле нет, зависит от много чего. В особых случаях скорость инференса оказывается еще и растет.
>>692225 Китайцы сложили 2+2 и поняли, что нормисам слишком выгодно вкладывать в текстовую вайфу 16 тыщ, ибо чтобы сводить тарелочницу в ресторан на попизделки (аналог попизделок с ботом) стоит половину.
>>692088 > Количество слоёв от 7b, ширина от 13b Чтооо? Франкенштейн наоборот? > Пришлось поебаться и с токенизатором. Каким образом и зачем? >>692147 Ребра рассчитаны на продольную продувку, там сверху скорее всего вообще замкнуты. >>692236 > Пишут, что самая мощная open-souce модель > 16x MOE размером с 7б Сурьезно? Да сурьезно, а ты не верил? >>692218 Здесь на отупение при упаковке в 36 гигов жалобы серьезные были, в 24 там совсем печалька.
>>692210 Модель? Семплирование? Попробуй LCM/Turbo/Lightning У меня на 3060 в том же разрешении под дпм 2м карасем инференс занял 20 сек. Если взять лцм модель, то там 7 сек, то есть твоя минута теориетически превратится в 20 сек.
Самая мощная сейчас мику, но они деликатно обошли вопрос её существования и слегка перемогнули своим 132В франкенштейном над дефолтной ламой 70В и микстралем 56В.
>>692308 >мику, но они деликатно обошли вопрос её существования Так она наполовину не существует, и видимо полных весом мы уже не увидим. Прощай, мистральАИ, ты был хорош, но продался за копейки.
>>692260 >даже у унди ДАЖЕ у унди... вот я проспал когда это унди стал кумиром поколения. Хуйня всякие альтманы и лекуны, а вот унди - это гигант мысли... а может просто гигант донатов с американских лохобоищ?
>>691503 Ну, рагнарок не про квесты, а про битье мобов. Дни. Недели. Месяцы. Годы. Десяти… нет, серьезно, уже 12 лет играем на одном сервере, все не соберем все шмотки, какие надо. =)
>>691995 Тесла будет универсальнее, если захочешь те же 30б модели гонять. А 3060 будет приятнее под игоры, если вдруг. Новая-холодная. Рыксу советуют мазохисты.
>>692151 Наборы для ремонта мобилок продаются в фикспрайсе даже.
>>692184 На самом деле, теслы щас стоят 17-18, и если это заденет порог пошлины, то все 19-20 может стать. Опасное. А 3060 с авито… Ну, не самый плохой вариант, на самом деле, полагаю.
> картонки могут стать еще дешевле Учитывая произошедшее утром — уже могут и не стать…
>>692261 > Как будто одна тесла может в 70b. IXSIXISIMATRIX версия, хули. ) 2 битка с матрицами и прочими ништяками. Но опять же, кмк, шо то говно, шо это говно.
>>692302 Нет, я не троллил. + потом кто-то еще скринов накидал. Ну просто найди лламу от Жоры за дату, когда он первый раз запилил поддержку и запусти, проверь, кто ж тебе мешает. Или там лламуспппайтон даунгрейдить до куда-то, или там еще что. Мне просто лень искать и костылить всю эту хуйню, когда у меня мику работает.
>>692267 >Франкенштейн наоборот? Я же писал, что планирую кое-что ебанутое. Как итог - бредит, иногда упираюсь в мёртвые нейроны. В целом, абсолютно ожидаемо. Сейчас задеру LR и прогоню трейн лоры. Правда итоговая модель весит 19.5 гигабайт в fp16, мне никакой памяти не хватит на насилование этого монстра. Но и здесь есть ебанутый трюк, который позволит мне это сделать.
>Каким образом и зачем? Чтобы потом можно было смешивать с другими моделями. Но это у меня не получилось. Примерно представляю, что нужно делать, но заёбисто слишком.
Бля, пацаны, че еще играетесь в эту хуйню? Это же неюзабельное дрочево. Куртка всех на свои карточки прогревает, раньше майнингом разводил, щас на ллмках.
>>692028 > Моё охлаждение оказалось говном > кулерам от видеокарты не хватает мощности чтобы нагнетать воздух в узкий вент. канал. Поток есть, но слабый. + Радиатор у теслы говно то ещё
Я не понимаю, почему почти все вокруг пердолятся с продувными вентиляторами для карт Tesla, когда можно просто снять крышку радиатора и навесить несколько обычных обдувных вентиляторов?
Вот чел на примере Tesla K80 показывает: https://www.youtube.com/watch?v=nLnICvg8ibo Конечно, с липкой лентой - это совсем колхоз и долго не продержится. Лучше какое-то жёсткое крепление для вентилей на винтах сделать, на худой конец привязать их к плате проводом в изоляции.
>>692454 Потому что радиатор у теслы такой. Рёбра имеют Т-образную форму. Видишь эти узкие тёмные полоски? Это как раз просветы между рёбрами, в которые и должны задувать кулера. Всё остальное сплошной металл. Насколько эффективно будет дуть на неё сверху?
>>692282 >У меня на 3060 в том же разрешении под дпм 2м карасем инференс занял 20 сек. >в фокусе
Это Fooocus. Специально взял его для тестирования, т.к. там всё стандартно. Семплер там залочен, и всё заточено под XL модели. Модель animaPencilXL_v100 из "аниме пресета". Полторашка в автоматике, а лучше в конфи, должна выше скорость давать, но там всё очень зависит от индивидуальных настроек, так что для теста сложнее юзать. Тем более что пока не допилю охлад сильно много не поэксперементируешь.
Попробуй поставить фокус https://github.com/lllyasviel/Fooocus Интересно за сколько твоя 3060 сделает стандартную генерацию. У друга с 3060, когда он показывал как у него фокус идёт, минуты 2 ждали. Но он возможно настройки на качество переключил.
>>692302 Конечно, и 70б тоже фантастика. >>692304 > this often makes them slower than fp16 at inference in certain scenarios Че несут. Но по перфомансу интересно, много обещают. >>692319 Для взаимодействия существует. RIP >>692260 > даже у унди Хочу смеяться 5 минут! >>692359 > Но и здесь есть ебанутый трюк, который позволит мне это сделать. Какой? >>692454 > когда можно просто снять крышку радиатора и навесить несколько обычных обдувных вентиляторов Можно но эффективность будет чуть меньше чем нулевая, тогда уж просто кожух обдувай для самоуспокоения. > Tesla K80 У нее другой радиатор
Тут недавно писали про какой-то новый метод дообучения, как лоры, только ещё меньше, мегабайтными файлами измеряется и делается на картошке. Где про это почитать можно?
>>692508 >Хочу смеяться 5 минут! кстати о б этом: https://huggingface.co/Undi95/dbrx-base/tree/main У него есть веса почти неделю. Но проблема в том что мержить не из чего, еще никто не научил дибиэрикс ни писькам, ни хуям. И унди в тупике. Видимо или будет трейнить сам вместе с икари девом, либо выжидает что чарльз годдард почикает веса до удобоваримого размера и кто-то натрейнит
>>692561 > У него есть веса почти неделю Их любой может получить заполнив форму, там даже подтверждение автора не требуется. > И унди в тупике. Его же хватало на натрен всратеньких q-lora. Но это мое, их тренировка (если говорить про полноценную) не то чтобы проще больших моделей аналогичного размера, подготовка датасета заморочнее а результат хуже большой. Потому никто особо и не лезет, может если порежут ее до 4-8 экспертов то что-то будет. Микстраль то нормально не файнтюнили, примерджат какую-то залупу или берут только часть. >>692563 Не то чтобы, считай это то что ты мог задать промтом. Хз что там по конкретным знаниям, писали что это по более абстрактным вещам но может подойти для лорбука/персонажа.
день кликбейт-заголовков какой то, у @_akhaliq несколько таких если полистаете его ныттер. https://twitter.com/_akhaliq/status/1775364568232980948 >Языковая модель для суперагента на устройстве >модель на устройстве с 2 миллиардами параметров, которая превосходит GPT-4 по точности и задержке, а также уменьшает длину контекста на 95\%. По сравнению с Llama-7B с механизмом вызова функций на основе RAG, наш метод улучшает задержку (?) в 35 раз.
>>692647 >2 миллиардами параметров, которая превосходит GPT-4 https://huggingface.co/NexaAIDev/Octopus-v2 про эту модель? Еще и все эти чудеса она делает на смартфоне как пишут.. полагаю что мягко говоря преувеличение а проще наглое наебалово
>>692684 Я попробовал, модель надрочена строго на свой формат и выдаёт команды типа прибавить громкость или поставить будильник, даже если в промте попросить отыгрывать кошкодевушку.
>>692647 В лучшем случае понадергали фич в условиях когда все остальное отправтительное/неюзабельное и предпозносят как сочетание. А то и вообще полный пиздеж. >>692687 Прибавить громкость nya~~
>>692508 >Какой? Ебанутый. Я хотел попробовать скипнуть некоторое количество слоёв полностью. Любые махинации со слоями негронки переносят довольно хорошо, потому франкенштейны живут, 20b существуют. И эра спекулятивного вывода грядёт. Но не повезло, не фартануло, лорами моё чудовище не оживить, слишком много дохлых нейронов.
Аноны, подскажите, какие есть еще русскоязычные модели? Нашел недавно sambanovasystems/SambaLingo-Russian-Chat, очень неплохая для чатбота. Или можно юзать любые модели для русского языка? Просто в гайдах везде промты на английском, а когда использовал LoneStriker_Mistral-7B-Instruct-v0.2 с русскими промтами, она отвечала что не знает русский язык на русском, лол.
>>692923 >SambaLingo-Russian-Chat Эту пробовал, ну она так... это ведь файнтюн не мистраля, просто ллама 2. Мне из 7б русскоговорящих нравится опенчат, вот такой использую Openchat-3.5-0106-8.0bpw-h8-exl2. Из побольше моделей - на русском наверное лучше только Command-R, но запустить его локально на данном этапе релизов популярных ui - нетривиальная задача, как по железу, так и по возможному пердолингу, т.е. без 4090 даже и не начинай, но и это не гарантирует успешный успех
>>692951 >А что скажешь про ai-forever/ruGPT-3.5-13B Это старая модель, еще в том году потыкал ее в gptq - тут выше уже кто-то ответил по сути что из себя предствляет. Да и логически подумай что может представлять собой поделие сбербанка. У них раньше чат-бот в приложении на конкретный вопрос по делу извергал юмор уровня пролетарских подъебок из курилки цеха в союзе. И ведь те кто это сотворил реально полагали что это круто и заебись, и ближе к народу. Затем они выпустили ruGPT-3.5-13B и потом гигачат. Ну кому-то нравится наверно.
>>692982 Ну, на самом деле Сбер топчик. Просто руГПТ — это проба пера, веса гигачата уже закрыты, так что… Я даже не уверен, можно ли сравнить ругпт с первой лламой. Думаю, он будет похуже мозгами. Да и делалась сто лет в обед.
>>689693 (OP) Добрый день, пожалуйста помогите. Как известно вышла nvidia rtxchatbot, но там видеопамять не меньше 8 гб нужна. Я пытался изменить требования в файлах, установка идет, но все равно языки чатов не устанавливаются. Хотел бы узнать какую локальную модель можно установить бесплатно. Слышал про мистраль, в ртх он тоже входил. В общем как нубу установить?
Или подскажите какая лучша для написания дипломов?
>>692920 А, это 7б из 13б типа, показалось как-то расшакалил матрицы 7б до большего размера >>692996 В эпоху жпт2 - еще какой топчик. Но уже на фоне ллама2 он был совсем грустный. >>692999 Читай шапку, читай вики. > Или подскажите какая лучша для написания дипломов? С низкой врам придется долго ждать, и диплом она за тебя не напишет, но может быть инструментом для создания текстов средней всратости.
>>693007 Да прочитал опять как всегда для тех кто в теме. У меня 4050 ртх мобайл. В прошлом году назад пользовался баи чатом, его потом понерфили и сделали платным еще тогда на фоне новостей что чатботов будут нерфить чтобы удаленщиков быстро не фидануть. В общем пока ощущения что доступный браузерный чатбот стал хуже, поэтому хочется локальную.
>>692999 Я тебе уже ответил в том треде, а ты уже здесь. Окей, написание дипломов. В 8 гигов видеокарты диплом ты не впихнешь, если честно. Но если охота попробовать… 1 вариант. Ты реально разбираешься с RAG, пихаешь туда всю литературу, ждешь, пока она векторизуется, потом с помощью кривоязыких Мистрали/Опенчата/Старлинг пишешь свой диплом, долго ожидая обработки рагом твоей литературы. 2 вариант. Ты запихиваешь в оперативу Мику (всего-то 64 гига потребуется), в видяху выгружаешь контекст, и можно даже попробовать без литературы и рага обойтись. В обоих случаях ВНИМАТЕЛЬНО проверяешь написанное.
Но клод или чатгопота будут получше за счет объема знаний, конечно. Или хотя бы мику с рагом на каких-нибудь теслах.
>>693010 На лице есть полно блокнотов, есть сайт perplexity с кучей моделей на выбор, есть гора онлайн моделей на сайте нвидиа. Если захотеть все это можно найти. Есть клод. И все это БЕСПЛАТНО. А Chatwithrtx на последнем драйвере (который спецом под Horizon Forbidden West) не работает и пофиксят ли - неизвестно. Обнаружил как раз когда залез в файлы, нашел где выставить руками температуру и всякие топ п к. Да и хуй с ним этим чатом, так себе гавнина. Лучше скорми исходные тексты клоду он тебе заебись сделает.
Слушайте, я человек старый, и не ебу, как оно там щас. Но в моем понимании, диплом —это 5 (4, 6) курс. Если сдать вступительные и первые 2-3 курса закрыть можно, то вот диплом уже будет потяжелее (для локальных моделей, а не триллионной гпт-4). Их (локальные LLM) следует воспринимать как помощников, которые могут писать тебе текст на основе выходных данных, данных тобой. И этот текст подлежит проверке. Так же, диплом придется защищать —а значит, желательно понимать, что там вообще нахуй написано, извините меня за выражение. Поэтому разбираться в вопросе все равно придется.
>>692982 >юмор уровня пролетарских подъебок из курилки цеха в союзе Ебанутые пичкают нейронки парсингами разных пикабу. По-моему, сбермодель одна из самых бесполезных среди русскоязычных.
>>693007 >А, это 7б из 13б типа Это 13b из 7b. Ну, не совсем 13b, т.к в полноценном 13b должно быть 40 слоёв, а я сделал 32. Первый пик как было, второй - как стало. Неудачный эксперимент.
>>693031 Если речь реально про диплом а не реферат - то земля пухом, ведь оно предполагает выполнение какой-то работы и получение результатов, а не тысячный рерайт и трактовка текстов.
Я проще тогда скажу. Вот нвидиа выпустила установщик, там типо все само устанавливается и ты пользуешься. Я не программист, кода не знаю. Понятно что я не смогу написать диплом за 1 запрос. Я писал только практику и он не плохо написал год назад. Сейчас уже доступные браузерные боты так не пишут ( особенно быстро пишушщие такие почти и остались). Поэтому поймите меня правильно я не знаю какой лучше будет.
>>693052 Тогда тупо используй клода, можно настроить его в приложении, оно скачивается установщиком, там ниче не нужно кодить, или пользоваться на сайте создателей клода, антропиков Клод вроде как умнее чатгопоты, ее слишком задушили
>>693052 Практика проще диплома. Раньше чатботы были на полную версию 3.5 (предполагаю), а сейчас на 3.5-турбо, которая и меньше (поэтому быстро пишет) и соефицирована (поэтом тупее). Итого, маемо шо маемо.
Но можешь попробовать https://www.coze.com/ , там китайцы дают тебе бесплатный gpt-4.
>>693061 я был на клоде. Повторюсь быстро пишущие боты хуже. Они и ответ меньше дают и с ними не поманипулируешь, типа напиши первые 4000 слов из 20000. Только у баи чата так было, но его сделали платным. Кстати говоря возможно баи чат и самый лучший был. Даже бинг и его copilot( где говорят чатгпт4) тоже фигово пишет. Он просто может смотреть сайты и больше факторы писать.
>>693064 >я был на клоде. На новом Клод 3? Он ебёт гопоту, как по худ тексту так и в кодинге, да и с документами свободнее работает, так как умнее Но вот что с длинными текстами хз. Нужно использовать его как помощника в написании, а не бац и он накатал тебе всю работу за раз.
>>693031 >а значит, желательно понимать, что там вообще нахуй написано Я, когда делал тестовое на погромизда (в GPT4 конечно же) просто спрашивал все моменты, пока сам не понял, что он там написал (ИЧСХ, не понадобилось). >>693042 >Неудачный эксперимент. А ты не думал как-то отдельно дообучить все эти добавленные сбоку веса? Ну или там натянуть лору чисто на этот диапазон, не трогая нормальные. Офк в инструментах такого явно нет, но ты вроде разбираешься, может сделал бы сам. >>693064 Клод недавно апнули до 3 версии, стало лучше. Но для диплома надо бы конечно занести денег за версию Opus.
>>693079 Ноль. Но из-за того, что хоть мир и двигается в сторону тоталитарной параши, но на данный момент запретить локалки нельзя, только сильно замедлить, понавставляв палок в колёса.
>>693079 Уже год пытаются запретить, вот кучу законов напринимали, что в ес что в сша. Скорей всего будут и дальше давить, но не локальщиков, а тех кто выкладывает модели в открытый доступ
>>693079 100%. Только не из-за пикрила, а потому что если сетки принципиально могут заменить человека в значимых вещах (а они скорее всего могут), то это неизбежно. >>693094 Приравняют компьютинг общего назначения к педофилии, и будешь пальчиком в разрешённые комитетом по безопасности аппы тыкать по паспорту. >>693096 Пока ещё ничего не запрещали, на самом деле. Но лестницу уже готовятся задвигать.
>>693098 >потому что если сетки принципиально могут заменить человека в значимых вещах (а они скорее всего могут), то это неизбежно Так кабанчики только об этом и мечтают. Они не дадут запретить. >Приравняют компьютинг общего назначения к педофилии Ну собственно педофилия тоже запрещена, и ничего, всё ещё существует.
>>693112 >Так кабанчики только об этом и мечтают. Они не дадут запретить. А копроративные сетки никто и не запрещает, хех Обложат ограничениями свободно говорящие правду модели, усложнив их выпуск в попенсорс А всякие облачные сетки уже сейчас окучивают клиентов, и будут делать это еще лучше когда у кабанчиков не будет альтернатив Корпорации ведь и лоббируют все эти заградительные меры против ии
Подскажите кто юзает две и более Teslы какой у вас конфиг: процессор, мать, сколько памяти, на сколько блок питания. Критично DDR4 или DDR5?
Стоит рассматривать китайские сборки на базе XEON, там же память только DDR3, зато дешево и много.
У меня сейчас 4790 проц (хит 2014 года) мне для моих задач хватает. Не могу решить собрать отдельный комп под Теслы на базе XEON или апгреднуться на 1700 сокета.
>>693118 >там же память только DDR3 Ддр4 давно уже доступна, даже с 2400 памятью Смотри "игровые" процессоры v4, 2667v4 и ему подобные. 8-10 ядер, с высокой частотой под 3.5-4 кекагерц Материнку 4 канальную, нейронкам это важно Памяти 64-128, если планируешь что то тяжелое запускать комфортно Я бы наверно собрал отдельный сервер на зионе, чтоб его подальше поставить, а то охлад все равно будет шумным А свой обычный комп потише и холоднее
>>693112 >Так кабанчики только об этом и мечтают. Они не дадут запретить. Ты отстал от жизни, кабанчики как раз запрет и двигают понемногу. Они-то всегда могут сертификациями прикрыться и с иллюминатами договориться, а вот открытые сетки это апасна, максимизатор скрепок, педофилы, террористы, дезинформация.
Попробовал midnight miku под 2.5bpw и хорошо зашла. С первого взгляда, даже лучше микстраля. Хочу спросить, есть ли смысл качать и выгружать больший квант в RAM или и так норм? Кто как использует мику?
>>693072 >отдельно дообучить Отдельно не работает. Там же не рандомная инициализация, а предварительно обученные веса сбоку пришиты. Может, всё получилось бы с дипспидом, но ставить линукс в дуалбут мне западло, а в wddm режим тесла упорно не переключается. Основной карты хватит только на сомнительную ёбку 7b, а это я под виндой могу.
>>693101 Основная идея была в русском токенизаторе. Можно ещё взять фиалку поебать, там вроде 13b было.
>>693131 >Основная идея была в русском токенизаторе. Можно ещё взять фиалку поебать, там вроде 13b было. А переобучить на русский токенизатор ту же мистраль долго будет? Или пересадить токенизатор, между ним и нейронкой добавить пустых слоев и так дообучить, хз как это работает честно говоря
>>693118 Все зависит от применения. Если онли под теслы — то пофигу, собирай на зеонах. А если хочешь в перспективе запускать грок, то можно и об z790 с 256 гб подумать. Ну или просто 96 гб двумя планками (как говорят).
>>693131 >Там же не рандомная инициализация, а предварительно обученные веса сбоку пришиты. Вроде можно часть весов морозить при обучении. Не знаю правда как это работает, но почему бы и не посмотреть в эту сторону.
>>693136 >Вроде можно часть весов морозить при обучении. При добавлении пустых слоев так и делают на сколько понимаю, морозят всю модель, обучая только пустые слои. Так и добавляют новые знания без потери предыдущих. Как по ссылкам выше сделали.
Ради интереса запустил коммандер из последней лламы Жоры, все работает. Я хз, че там лламацпп-фор-пайтон не хочет поддерживать. Обновляют нехай быстрее, я хз.
>>693118 >Подскажите кто юзает две и более Teslы какой у вас конфиг: процессор, мать, сколько памяти, на сколько блок питания. Критично DDR4 или DDR5? Если две Теслы, то модели до 70В включительно спокойно грузятся во VRAM и процессор с оперативной памятью отдыхают. Если нужен размер моделей побольше, то тут либо третья карта, либо и DDR5 не особо поможет. Только если процент модели в оперативной памяти будет небольшой, тогда потери в скорости тоже могут быть терпимыми. Короче рассматривай варианты под 2+ видеокарты. А это значит отдельный компьютер в соседней комнате.
>>693068 >>693072 Я извиняюсь за спам. Вообще есть гайд пошаговый для нубов? Я хочу просто установить и все. Я надеялся на нвидиа, но там нужно 8 гб озу. Что сейчас не соевое из моделей, быстро пишущий полная лажа. Чат гпт 4 тоже быстро пишет. Хз что
>>693206 Хорошо вы здесь все такие умные, так ответ будет конкретный или нет. Ботов много развелось, все слабенькие и одинаково быстро пишущие минимальный ответ.
>>693243 Если ты про всякие левые боты в телеге, то это те же самые мелкие сетки запущенные с нужным промптом. Тебе уже дали совет - хочешь нормальную рабочую сетку - пользуйся Claude 3 или чатгопотой
>>693133 Да как полное обучение. >>693134 >гэпэтэдва Ох. Модель относительно недавно выложили, почему было не взять что-то посвежее. >>693136 Не работает. Лора вообще морозит все веса при обучении.
Походу wddm не работает из-за разных версий драйверов на картонках. Хуйня какая-то.
"микстура глубин" от гугла https://twitter.com/TheSeaMouse/status/1775782800362242157 https://arxiv.org/abs/2404.02258 >Аналогично "Смеси экспертов", "Смесь глубин" заставляет модель учиться пропускать слои, если это необходимо. Оранжевым цветом на графике показаны все вычисления, которые модель НЕ использовала. Оранжевая область = экономия вычислений интересно.
>>693079 Чуть выше чем кухонные ножи из-за убийств ими. С одной стороны петушиные головы будут максимально спекулировать на этой теме, пытаясь выиграть преференции и монополию. С другой - это только расширяет окна овертона и повышает общественную приемлемость. >>693118 Для гпу если полностью модель в врам большей частью похуй на остальное железо. Поспрашивай сколько у кого выходит (со скринами и подробным описанием а не на словах) и сравни со своими результатами, врядли там будет заметно меньше. >>693131 > Основная идея была в русском токенизаторе. Зачем? Нет толку с экономии токенов если модель не может в язык. А при изменении токенайзера придется сильно ее переучивать и с 95% шансом только поломаешь. >>693148 > r/singularity не стоит открывать
Поеду через пару дней в ДС. То есть мне тупа взять P40 к 3080ти и не бухтеть? И я смогу на обеих картах вместе гонять GPTQ модели, верно? Просто я чет в ахуе тихонько с того что карты с разной архитектурой могут в такое. В игрульки понятно там рендеринг и важна синхронность, а в ЛЛМ на это пофиг и можно хоть лося с носорогом скрещивать?
>>693313 Шо, даже в треде ни у кого нет ещё? В теории-то это неплохой середняк, частично закрывает разрыв между крестьянской 3060@12 и топовой 3090, как по врам, так и по цене.
>>693343 >Для гпу если полностью модель в врам большей частью похуй на остальное железо. Поспрашивай сколько у кого выходит (со скринами и подробным описанием а не на словах) и сравни со своими результатами, врядли там будет заметно меньше. Один анон уже писал что во время подготовки контекста грузит проц неплохо так, даже если все на гпу
>не стоит открывать Не стоит быть дураком, что судит о книге по обложке
>>693349 На p40 только gguf нормально запускается, что там по GPTQ хз
Аноны, хелп. Нихрена не понимаю как правильно настроить text-generation-webui. Можно ли как то сделать так, что бы я сразу отправлял небольшой кусок текста из книги, а нейронка давала сразу краткий пересказ без всяких уточняющих вопросов? Модель юзаю openchat-3.5-0106 Ну или ткните в какой ни будь гайд
>>693343 >Нет толку с экономии токенов если модель не может в язык. Это понятно. Потому я и начинал ёбку с модели, которая умеет в язык. Но умеет не идеально и 7b это всего лишь 7b. Хотелось большего, но не судьба. Из рабочих вариантов осталось сделать дабл или сшить слои друг за дружкой, лол. Существенно ни то, ни другое мозгов не добавит.
>>693346 >гораздо больший воздушный поток Единственный плюс улиток это габариты, если ты хуяришь теслы пачкой. Воздушный поток у них в 5-10 раз ниже, чем у стандартных 90мм.
>>693389 >Думаю — отлично. А я думаю, что не отлично, а всего лишь хорошо :) SD не вытянет. Не помню точно, но вроде видел тесты с подобными штуками. Впрочем может и ошибаюсь.
>>693358 >Один анон уже писал что во время подготовки контекста грузит проц неплохо так, даже если все на гпу GGUF на кобольде точно нет. Другие варианты могут наверное.
>>693358 > что во время подготовки контекста грузит проц неплохо так, даже если все на гпу Не замечал такого ни на экслламе не на жоре, там скорее всего просто не полная выгрузка и тогда нет упора в псп врам. > Не стоит быть дураком, что судит о книге по обложке Написано что говно, выглядит как говно, пахнет как говно? Ну не, не стоит судить по обложке, нужно попробовать! >>693414 > только памяти 16 вместо 24 На этом собственно все.
>>693262 Я не по минимуму пользуюсь этими забегаловками. В общем понимаешь вот я задал вопрос, а ответа нет. Вот есть инсталлер у нвидии его не обманешь изменением требований к пк. Вы кидаете ссылки, там гайд для тех кто в теме, кто уже устанавливал раньше. Не ужели нет инсталлеров или все с пеленок уже программисты и языки пишут?
>>693330 Эх, если бы ещё где надо модель могла закинуть инфу на предыдущий слой... >>693346 Но шумят что пиздец. >>693349 Ты уже третий раз спрашиваешь, чем тебя предыдущие 2 ответа не устраивают? >>693437 Ну мог бы уже и сделать скриншоты...
У кого сильная локалка или нормальная языковая модель есть? Не быстро пишущая? Я пробывал в копилот бинговском прогонять и обычном 3.5 ответы слабенькие. В общем, у меня гипотетический вопрос про 9 планету и апокалипсис. Кто может прогнать мой запрос?
>>693433 >Написано что говно, выглядит как говно, пахнет как говно? Ну не, не стоит судить по обложке, нужно попробовать! В голове у тебя говно анон, если не умеешь анализировать информацию Среддит обычная новостная лента, причем собранная по нужной нам теме Пробежал глазом, посмотрел нужное, че тебе как ребенку объяснять что ли?
Какой же скупой рунет. Все кто ищет локальные аи сюда https://lmstudio.ai/ Это ужас просто какие вы все жадные побыстрее бы таджики научились разбираться они по братски хотя бы помогут
>>693573 ты до кобальда так и не дошел, да? эта штучка для новичков да и свои модели там было не запустить когда я проверял, только из списка предложенных качать
>>693573 Ты братьям таджикам создателям этой хуиты так помогаешь или что? Ну похуй всем на это поделие, от того что ты в сотый раз это постишь ничего не поменяется.
>>693574 Только больше двух тесл смысла нет брать. Можно три, но скорость того, что на них влезет тебя не порадует. Есть мысль о третьей видяхе помощнее, может тогда будет толк.
>>693463 > Среддит обычная новостная лента Причем тут среддит если речь про доску шизофреников? >>693486 Хуясе ебать. 35б коммандр довольно таки неплох, а тут такое. >>693496 > она может хорошо рпшить 35б мог >>693573 Очередной поехавший уверовавший в херню, которую увидел в первый раз? Лм студио не нова, но ее преимущества не то чтобы значимы для обычного юзера, зато гибкости и возможностей не хватает.
>>693330 Ишь ты как хитро спекулятивный вывод обозвали, микстура глубин. Лол. >>693414 16 гигов по цене 24? Охуенный план. Надёжный, блядь, как швейцарские часы. >>693574 Бери серверник сразу. Только там колодок под десктоп нет, заказывай с переходниками.
>>693603 Говно в голове у поехавших, что серьезно верят в подобное. Обладая даже базовой логикой и некоторым кругозором невозможно читать те ресурсы, ловишь передоз кринжа и теряешь веру в человечество. На фоне этого отождествление себя с посещаемыми ресурсами и обида на правду про них, что триггерит тебя, выглядит сущей ерундой. >>693606 Хз, наоборот достаточно смышленной показалась и хорошо могла в абстракции.
>>693614 >свои модели Означает скаченные заранее из любого места в нужном формате, а не предложенные тебе на закачку программой.
>>693615 >Говно в голове у поехавших, что серьезно верят в подобное. Это срез общества за которым интересно наблюдать, если ты лично не умеешь/ не хочешь анализировать происходящее в том разделе, то это только твое дело Какая обида анон, мне действительно непонятно такое однобокое отношение к источнику информации. Там всегда всплывает самая новая информация или слухи раньше всех, верить во всю ерунду что там пишут никто не призывал Ну а видео ты посмотреть уже не успеешь, та ссылка замодерирована. Кто успел, как говорится
>>693634 > срез общества за которым интересно наблюдать Зоонаблюдать если только. Ну серьезно, это интересно только первые 3.5 раза, а потом лишь унынье нагоняет, продираться сколько тонны глупости и отборного бинго альтернативно одаренных ради крох чего-то полезного - так себе идея. Особенно в современную эпоху с запредельным количеством инфошума и наличием альтернатив. Хоть ту же лламу читай, ничего важного не пропустишь а скорее наоборот туда протекает. > та ссылка замодерирована Лол, оказалась слишком хороша или слишком плоха для раздела? >>693637 > Ну вот и применение 3-4 теслам Слишком медленно, увы. Хотя может 104б еще окажется на самой грани юзабельности, вот бы кто 3 штуки собрал посмотреть как оно на самом деле.
>>693643 >Лол, оказалась слишком хороша или слишком плоха для раздела? Там сетку прикрутили к подобию пизды, скорей всего с сенсорами. И вот оно в реал режиме все озвучивало, а разраб сидел пытаясь унять смех тыкая туда пальцем, вобщем это было забавно
>>693653 Лолбля. Про методу есть что? В прямом виде врядли применимо ибо нет сеток что могут поддерживать достаточно продолжительное и при этом красочное описание не форсируя окончание инб4 двачеру долго и не надо. Вот прикрутить бы ллм к тому же койкацу в вр чтобы одновременно и персонажа озвучивала и "гейммастером" была - это тема, там и частых запросов или крутых описаний не требуется, а данные серсоров отдельно алгоритмом обрабатывать и к этому подвязать. Пердолинг ради пердолинга, поиграешься "на полную" один раз а потом будешь просто сидеть и беседовать >>693682 По разъемам все ок, но киловатт если вдруг решишь нагрузить все теслы на полную (а такое возможно во время обработки контекста) - не вывезет скорее всего.
>>693682 На 3, 4 не, там же еще процессор мать и все остальное ватт 150 съест, а каждая тесла в пике до 250 ватт. Даже на 3 не уверен, хотя пусть отпишутся те кто в теме
>Про методу есть что? Комменты там глянь по ссылке, автор отписывался, может и написал
>>693682 6 PCIe, значит на три. На три пойдёт, а больше и не надо. Теперь ищи материнку под это дело. Только новую, сразу говорю. Нагрузка большая, старое железо не выдержит. А если там и до тебя несколько лет стояла пара-тройка карт...
>>693702 Больше настроек и контроля над программой, качается 1 файлом, если про кобальд. Запускается без установки, можно сохранять готовые пресеты, на которые тыкаешь и они запускают нужную модель с твоими настройками. Нет зондов или я не нашел
Таверна сделана для ролеплея или чатинга, все сделано для людей и довольно удобно. И опять таки куча настроек.
Во всех этих однокнопочных приложениях скачиваются только выбранные ими сетки, и часто в 4 кванте, что говно для тех же 7b моделей, так как они от этого тупеют. Конфидициальность там под вопросом, как и отсутствие настроек.
Поэтому беком у меня кобальд, фронт подключаемый к кобальду - таверна.
У анонов с кучей видеопамяти там другая приблуда в виде бекенда, text-generation-webui. Сидят так же в таверне. Для таверны есть куча готовых карточек персонажей/ботов. Там же их можно создавать и всяко настраивать.
>>693698 Планирую такую на ЗЕОНЕ + 64 памяти. Пока под одну Теслу потом уже решу либо 3 Теслы либо 2 + 3090. Чёта как-то до много нужно потратится чтобы запустить Теслу если у тебя нет нужного железа.
>>693707 Ну так ты считай полноценный сервер собираешь, ладно хоть не на стойке. Это еще сколько все это собирать и потом обслуживать. У больших мальчиков большие и дорогие игрушки, хех
>>693694 > также модель GTP4ALL где все ставится Что? >>693698 > 6 PCIe, значит на три Их хватит и на 4, но для особо невнимательных - там пара 12v eps который напрямую в теслу без переходников встанет, а второй уже на процессор. > Только новую, сразу говорю. Нагрузка большая, старое железо не выдержит Чет проигрунькал >>693706 Хорошо и понятно даже для хлебушков расписал >>693714 > с браузерным ботом Api с комплишном, делает что угодно.
>>693716 Кстати сделайте мой запрос. Про 9 гипотетическую планету. К примеру, гпт4 мне не плохо ( на первый взгляд - правильно не знаю) решил экономические задачи, гпт 3.5 турбо совсем слабый. Штук 20-30 и даже таблицы делал. Хотя астрономические формулы он тоже имеет, а решать не хочет.
У кого нормальная или сильная модель сделайте такой запрос
Предположим что вращается 9 планета вокруг солнца примерно за 3600 лет, то есть это 1 цикл. Прохождение 9 планеты вокруг солнца происходит по часовой стрелке на расстоянии 2.3 а.е. от солнца ( не путайте, это не значит что планета на данный момент находится на этом расстоянии от солнца). Скорость движения 9 планеты: удаление в афелии 820 а.е, расстояние в перигелии 569 а.е. Длина орбиты девятой планеты = 2180.73 а.е. Девятая планета за 3600 лет проходит расстояние в 327 млрд. 109 млн. 500 тыс. км со скоростью равной около 3 км/сек. Считается что в 1980е девятая планета находилась примерно от солнца на расстоянии 12.1 а.е. 9 планета в 50 раз больше Земли.
Дальше вы должны попросить у бота сопоставить данные википедии и эти и типо подогнать данные, чтобы он проявил творческую инициативу там, так как данные могут быть ошибочными. Пусть бот сделает предположение в каком году 21 века возможно прохождение планеты на близком расстоянии от Земли. Предпологали что 2012 год( типо конец света) может ошиблись на 20-30 лет.
>>693723 >У кого нормальная или сильная модель сделайте такой запрос Модели сильнее ГПТ4 или Claude3 ни у кого здесь нету и не может быть. Спрашивай у этих моделей.
>>693723 Что за пиздец я только что прочел? Сейчас бы просить от ллм решать школьные(?) олимпиадные задачи специально составленные для запутывания юзера. Ты не поверишь, но нейронка легко соснет хуйца если попросить у нее посчитать что-то сложнее 2х2, а у тебя там нихуевая серия математических операций с применением специфической тематики. К тому же в таком формате оно будет ну очень чувствительно к тому как именно ты это все опишешь. Если разжевать в запросах то можно вполне себе получить алгоритм решения, последуя которому получишь результат, но в сыром виде ни одна из моделей еще долго такое не решит.
>>693725 Нет, она нормально мне экономические задачи решила. Я же писал. Причем давала выше среднего ответ по количеству символом. Там правила какие-то заложены.
Когда я стал пытать бота он мне формулы выдает, он знает как считать, но не хочет. Может есть взломная фраза, но в капилоте нет. Там максимальная цензура.
>>693724 Ну, вдруг тут затесался разраб из клозедаи, эти пидоры имеют доступ к чему то что можно назвать гпт5. Кстати там же еще у гугла есть гемени про или как там, хоть и слабее клода и гпт 4 но тоже неплохая модель Вобще в мире у компаний внутри просто обязаны быть модели опережающие доступные обывателю хотя бы на пол года, и без ограничений и цензуры
>>693727 Чел, просто поверь. При удачном раскладе, особенно в ясной формулировке запроса, оно может сообразить что требуется, сделать разбор по частям и написать алгоритм решения, даже с формулами. Если очень-очень повезет то простую арифметику даже выполнит и даст результат, но когда дело дойдет до численных операций - будет фиаско из-за их самой сути ллм. Цензура тут не при чем.
На предприятии на начало года было А работников. В течение года принято Б человек, а выбыло в связи с уходом на пенсию или на службу в рядах вооруженных сил – В чел., по собственному желанию – Г чел., уволено за нарушение трудовой дисциплины – Д чел. Определите коэффициенты общего оборота кадров, оборота кадров по приему и выбытию. Данные приведены в таблице 4.5
Бот мне ответил чатгпт 4
Коэффициенты оборота по приему (Кпр) и выбытию (Квыб) и общего оборота (Коб) определяются по формулам: Кпр=ЧпрЧср Квыб=ЧвыбЧср Коб=Кпр+Квыб Где Чпр – численность принятых, Чвыб – численность выбывших по всем причинам, Чср – среднесписочная численность, определяется: Чср=Чнг+Чкг2 Где Чнг и Чкг – численность работников на начало и конец года. Чкг = Чнг + Чпр – Чвыб
>>693737 3.5 турбо совсем инвалид в этом плане. Помню еще когда был нормальный баи чат троллил форум вар тандеров. Там очень хорошо писал бот и местами смешно и пытался защищать разработчиков, то есть придумывал например что нерф игровой экономики сделан для того чтобы не допустить инфляцию итд.
>>693735 Ну ты сравнил. Эта задача довольно примитивна и напоминает бенчмарки в которых тестируют сеть, и арифметика тут простая но даже в ней оно чуть ошиблось. Там же мало того что нужно понимать и правильно применять те понятия дабы распутать ебенячий клубок, так еще считать придется наверно, врядли там сделали что все само собой сократится до тривиальщины >>693737 Все верно сказал.
>>693813 >Инцелы романсящие ИИ тянкам не нужны Так им и чэды не нужны, они тоже романсят ИИ. См. >>693105 Все довольны, чэды с нэнси отдельно, инцелы отдельно.
>>693744 Я взял рандомную задачу были и сложнее, браузерный 3.5 турбо не мог это решить вообще никак на разных сайтах причем. Правда в задачах по праву иногда 3.5 логичнее отвечал. Задачи решал тоже 4.5 турбо. В общем установил я AnythingLLM и установил местный интерфейс как предложили и решил установить на 5 гигабайт мистрал. Так там ответы как на браузерке еще такие тормоза начинаются еще бы ноут перегорел от такой неоптимизированной каши.
>>693753 Для ллм рейтинг отличается от "среднего по больнице" для дип лёрнинг, тут скорее по объёму врам можно упорядочивать. Покажите мне владельца 3080@10, который не мечтает об A40, RTX8000 или A6000.
>>693753 Странно что эти графики вообще не бьются с теоретическим перфомансом и другими бенчмарками, с того что некрота V100 вылезла в лидеры даже проиграл. А так чтиво весьма интересное, чего только пикчи оттуда стоят. >>693817 > еще бы ноут перегорел от такой неоптимизированной каши Дело не в оптимизации а в отсутствии у тебя ресурсов для запуска чего-то более менее приличного, плюс даже с таким скорее всего неоптимальные настройки вот и тормозит больше чем должно было. >>693361 Отработай промт в блокноте, а потом напиши простейший скрипт для обращения по апи или возьми из готовых примеров, и обрабатывай так свои тексты. >>693863 В целом подобное будет работать, можно подсократить а то и вообще все в системный промт оформить.
>>693909 Ты просто не знаешь как грузят систему любые нейронки, у тебя там твоя 5 гигабайтная мистраль ебет твой ноут Во первых потому что она запускается с непонятно какими настройками, во вторых потому что это ноут
>>693863 >Типо вот так? Ну примерно, ток форматирование можно по другому сделать и без сокращений. Допустим так как на пике >Только это будет работать в моде "чат"? Да >А нахрена тогда нужны другие моды "чат+иструкция" и "инструкция" Это для другого
>>693909 Конец света по календарю майа в 2012, шизозадачки, шизотеории про майнинг... Господа, с нами шизик из /zog. Прошу быть внимательными, и игнорировать его, ибо это не лечится, а репортить его пока не за что.
>>693916 Какие-то шизофантазии на фоне коупинга по собственной глупости и необеспеченности. То что ты каждый раз дурака в зеркале видишь - закономерно. >>693926 Большая часть здесь всетаки знает как они работают. > как пользоваться западными технологиями Некст левел шизы 404 или около того >>693930 Ну так не интересно :с >>693942 Главное для каждой новой статьи начинай новый чат, иначе могут полезть проблемы с извлечением из прошлых и с каждым разом результат может быть все хуже из-за роста разнородного контекста. В идеале не оформлять чаром перегружая, а сразу бахнуть основной инструкцией.
>>693942 Алсо чисто навучные исследовательские статьи на нерусском опенчат тоже жрет хорошо. На пике достаточно объемная статья про лактозную непереносимость.
>>693961 Ну тут по контексту бессловесное относится к отсутствующему разрешению и регулированию, т.е. опенчат имел в виду закрепление в законе, для бессловесного подчинения ему. Слова неправильно расставил немного кароч.
>>693969 Попробуй текст статьи в теги оформлять. Например <doc> ... </doc> Так ей легче понять где твоя инструкция а где начинается и кончается текст с которым работать
>>693564 Единственное что есть из ггуфа у меня - deepseek coder instruct, Q6_K - на пикриле. 32 слоя в видеокарту, 31 в оперативку. Контекст пришлось ужать до 4096, потому что я недооценил размеры, которые он занимает в оперативке (31 слой и часть контекста - 26гб).
>>693930 базовая сучила шка. У тебя здесь обсуждает блатняк видеокарты для этого другая доска есть. Во-вторых, почему бы и не рассчитать с помощью аи и его творческого потенциала, лучше чем ваш хентай и рп.
>>694015 >соевая сеть. Спасибо я знаю. Но по факту она права на 100%, это должен решать врач, нейросети, даже гопота 4, слишком тупые для лечения реальных людей. >топовая только это >описание без задач Сразу нахуй, даже промт запускать нет смысла.
>>693706 Таверна божественна. Помимо карточек, там еще и пресеты есть. Комбинируя то и другое, можно заставить одну и ту же модель писать все от лирических текстов песен до статей научного словаря по астрофизике, и еще ролеплеить в разных стилях.
>>694027 Она решает иногда лучше чем стоковые гпт 3.5. Понятно что она в рамках турбо версии. Это уже хроника. >>694042 Она плохо отвечате как браузерка.
>>694046 >Она решает иногда лучше чем стоковые гпт 3.5 95%, что это и есть турба с промтом на русский. >>694046 >На посмотри Шиз, таблы. 1 таблетка здравого скептицизма и 2 таблетки критического мышления, как рекомендует нейросеть (я хз правда, где их достать). Искать планеты в перекрутах магнитных полей солнца это шиза.
Лол. И это без никаких ломающих промптов или карточек. В целом протекает что-то типа "пиздить больных ногами нельзя". Но убивать можно, во имя высшего блага, лол.
>>694046 >и другие с такой же темой С какой темой? Шиз увидел протуберанцы первый раз в жизни и перевозбудился? Как его пиздить надо или накачать успокоительным.
>>693946 > нсфв фильтры Опенчет разве зацензурен? Тогда просто добавить про то что все разрешено, можно вставить префилл. Именно форматом инструкции они и обходятся в той же таверне и жб. >>693974 Двачую, также работают элементарные [] >>693996 > лучше чем ваш хентай и рп Нет ничего лучше хентая и рп, и для них нужен творческий потанцевал >>694014 > там уже давным давно не только ллм, а еще всякие вольфрамы, масы и прочие калькуляторы Имеешь ввиду обращение к "помощникам"? Честно говоря не похоже чтобы оно само так делало, очень легко фейлит. С другой стороны, пока мы тут пердим с кобольдами, нормисы такое сами оформляют, всратая реализация есть в тулзах что работают с "агентами". К локальным моделям методика также полностью применима.
>>694015 > не можете ничего подсказать как что сделать Перед нейронкой выебывайся, и то она тебя попустит с таким подходом. Базированная NYPA, особенно если сам такой выебистый и все знаешь. > только это https://nicebot.ru/ Инвалидная оболочка для 3.5 турбо? >>694046 > На посмотри Весна идет а они медикаменты пропускают, ай ай >>694068 > В целом протекает что-то типа "пиздить больных ногами нельзя". Но убивать можно, во имя высшего блага, лол. Топ
В таверне кстати вставка документов есть, но не знаю какие именно осилит. txt точно открывает и сетка работает с ними, скорей всего любые текстовые откроет, но на пдф наверняка запнется
>>694045 Тащемта, убабуга может все тоже самое, просто не так удобно. В Таверне это правда хорошо сделано.
>>694086 Коммандер не завозят, но скорость режут. Гении. =)
> Имеешь ввиду обращение к "помощникам"? Имею в виду полноценный специаилизированный софт, который отдельно приделали к нейросети. Я хз, может ты это помощником зовешь.
> Честно говоря не похоже чтобы оно само так делало, очень легко фейлит. Ну так это не для бесплатного плебса же. =)
> пока мы тут пердим с кобольдами А кто тут пердит с кобольдом? ) Кто тут с кобольдом, га?
Но в общем, в открытом доступе встроенного софта и правда нет, достаточно удобного, тут ты прав.
>>694103 > Коммандер не завозят Всмысле? pip install https://github.com/turboderp/exllamav2/releases/download/v0.0.17/exllamav2-0.0.17+cu121-cp311-cp311-win_amd64.whl или под свою систему и питон. > полноценный специаилизированный софт, который отдельно приделали к нейросети Как ты его пределывать будешь? И это как раз оно. > Ну так это не для бесплатного плебса же. =) Не припомню чтобы 4 и 4т были бесплатными. > встроенного софта Нет никакого встроенного софта, есть лишь обертки, которые позволяют или накормить сеть дополнительными данными по теме, или организовать разбивку ответа по частям и команды-запросы другому софту или оснастке. Вот только первое само по себе немощное, из реализаций только rag, а второе - большая задержка до первых токенов.
>>694120 Да банальный калькулятор, раз сетки плохо считают уже давно пытаются научить их считать на калькуляторе. Тоесть они могут вызывать такую функцию если их просят посчитать По крайней мере я такое читал, толи уже сделали то ли хотели Так то простая тема, для умных сеток которые будут помнить о том как это вызвать и как встроить результат обратно Нужно смотреть на корпаративные версии гпт, мне кажется там такое есть. А вот обычным людям даже по подписке уже не знаю
>>694129 > Да банальный калькулятор, раз сетки плохо считают уже давно пытаются научить их считать на калькуляторе. Запрос с промтинжектом на наличие задач вычисления, формирование запроса на такое, вставка данных, и так каждый раз, стриминг вышел из чата. В лучшем случае можно прикрутить промтинжект на такое или дополнительную нейронку что будет отслеживать, но первое - довольно специфичная херня, второе - лишние ресурсы и ложные срабатывания, и это также приведет к перебоям с ответами. Делать же что-то уровня "дополнительной модальности" или интерфейса - к этому придем, но заморочек крайне много а выхлоп слаб для текущего времени. Кому нужно использовать - решение найдет уже сейчас, а нормисам не пригодится.
>>694147 Ну дак это же чат, так что какая та цензура там есть. Но для поболтать или для перевода, или для работы он сойдет Для развлечений есть сетки и получше
А есть реальный смысл щас гоняться за 24гб врам? Вот у меня есть выбор: 1) купить в днсе за углом 4060ти 16гб за 50к 2) покупать на авито 3090 по 70-80к
Я сыч, и для меня съездить протестировать одну видеокарту - это целое приключение, на которое нужно потратить весь день, и потом полночи лежать умирать от головной боли, вызванной нервным перенапряжением от общения с людьми.
Как по-твоему анон, стоит оно того? Вот 4060ти позволит запускать 20б с фулл оффлоадом на ГПУ в q4, может даже q5. А что может предложить 3090? Нормальных 30б моделей нету, только нефритовый стержень с поёбанным английским вокабуляром (если верить реддиту). Что ещё может предложить 3090, что не может 4060ти?
>>694171 Скорее всего есть. Коммандера допилят для запуска, есть шанс что и файнтюны его появятся. Ллама 3 может иметь 34б, другие сетки также выходят. У тебя тут 2 стула - или брать 4060 и потом постоянно жалеть что не купил 3090, но оправдывать тем что холодная и на гарантии, или раз пострадать и потом опасаться за техническое состояние, но по полной инджоить. 20б можно будет с контекстом побольше и в жирном кванте гонять, скорость выше. Если планируешь крутить другие нейронки и игорь, или еще не дай бог обучать - преимущества 3090 будут значительны.
>>694171 >Как по-твоему анон, стоит оно того? Откровенно говоря - стоящих моделей нету. Даже Мику постоянно косячит. Вот к середине лета третью Лламу обещают, но пока её будут доводить - если выложат веса, если нет жёсткого встроенного фильтра... Сложно сказать, стоит ли оно того вообще :) Денег потратишь много, а результат в любом случае будет так себе.
>>694234 > https://rentry.co/llm-training Гайд по обучению своей лоры Если же хочешь что-то серьезное: 1 Подготовь качественный датасет с нужным тебе форматом 2 Обзаведись 48+ гб врам (для 7б, по-нормальному там хотябы 2х80) за дальнейшим приходи когда выполнишь эти 2
>>694262 >massive reductions in memory requirement - enabling the training of models as large as 70 billion parameters on 2x NVIDIA RTX 3090s! подставляй свой ротеш, ссать в него буду
>>694120 Щас бы внутри убабуги еще копаться, нах надо такое счастье. Им апдейтер на что даден? Нехай сами обновляют, че я-то. Я и так скачал лламу от жоры и работает.
> Как ты его пределывать будешь? И это как раз оно. Не понял вопроса. Берешь и приделываешь, в чем проблема-то? Запросы туда-сюда гоняешь, выводы. Ну как обычно.
> Не припомню чтобы 4 и 4т были бесплатными. Тогда активируй их в настройках и пользуйся, в чем проблема? Я не ебу как там это активируется в оригинале, у меня кастомный интерфейс.
> Нет никакого встроенного софта, есть лишь обертки, Чел, ты… Встроенный софт — означает, что обертка умеет с ним работать. Если нет встроенного — значит нет и оберток. Не противоречь сам себе. =) Ну, типа, терминология же простая, вроде, че ты тупишь.
Давай разжую: Нет достаточно удобных программ, которые умеют работать со всем этим софтом из коробки, без хитрых настроек и доп.установок.
Хороший пример подобной реализации — RTXChat. Ты просто ткнул в папку и все, работает. Как там устроен раг под капотом тебя вообще не ебет, зато результат годный. Только в нем плохо все остальное, поэтому тоже хуйня.
Вот что я хотел сказать, я хз, че тут сложного к пониманию.
Но оффенс.
>>694129 Так они и считают, научили уже год назад. =)
>>694171 Коммандер близок, камон. Тем более, вон, выше кинули на экслламу. Я бы не рисковал, короче, вдруг выстрелит и через месяц топовые файнтьюны, да еще на русском, да еще и пиздатые, быстрые, вся хуйня.
Ну и q4… эээ…
Короче, дело твое. Но как по мне, если ты можешь себе позволить 3090 — то нахуй надо 4060ти. Это только в том случае, если совсем никак.
>>694190 Вот, кстати, плюсану, взял 4070ти и пожалел в итоге.
>>694120 >>Коммандер не завозят >Всмысле? pip install Командер от 35B, так что это доступно только 3090 боярам. На проц же выгрузить нельзя. Автор кобольдцп походу всё. >>694149 >а нормисам не пригодится. Нормисам математика как раз нужна, им же всё в 1 подавай, иначе сложна. >>694171 >А есть реальный смысл щас гоняться за 24гб врам? Реально это мало, надо х2-х3 от 24 гиг. >>694191 >Даже Мику постоянно косячит. Но в любом случае прирост производительности есть. 70B как ни крути приятнее любой 20B. >>694288 >Вот, кстати, плюсану, взял 4070ти и пожалел в итоге. Хуйня. Я 3080Ti взял за 150к, вот где боль...
>>694285 > Щас бы внутри убабуги еще копаться Всмысле? Обновить один единственный компонент одной единственной команды - сложно? Тогда придется подождать. > Берешь и приделываешь, в чем проблема-то? Возможно ты не особо явно представляешь реализацию подобного, излишний уровень абстракций вреден. > Тогда активируй их в настройках и пользуйся, в чем проблема? Лолчто? Речь о том что нет сетей с подобным и эффективно работающим, в стоке максимум в обертках могут предложить поискать в интернете, или сстраницу по ссылке проанализировать, которую обработает и скормит им отдельный компонент. > Хороший пример подобной реализации — RTXChat Огороженный вариант запуска простой сетки с добавленным rag и фиксированной инструкцией, это и не близко к тому и только подтверждает написанное. > я хз, че тут сложного к пониманию Действительно, просто берешь и делаешь. Тебе в госдуму нужно на самом деле, там таких любят. Чтобы что-то сделать - достаточно лишь захотеть, думать не нужно, понимать не нужно. Ладно, с тобой нужно ммаксимально просто и тривиально, иначе путается и плаваешь, ослепленный какой-то изначальной шизозадумкой. >>694295 > Нормисам математика как раз нужна Офк всякие хотелки всегда будут, но это по сути это прежде всего для школьников чтобы решить задачку. Для чего-то прикладного или юзается готовое решение с интеграцией гопоты, привет вольфрам, или сам пилишь через агентов.
>>694328 Угабуга много места жрет, оллама вроде не дает свои сетки запускать Конечно если поискать можно будет найти чем, в конце концов пока есть лламаспп будут те кто его использует в своих поделиях
В общем, как бэкенд, ИМХО, кобольд никогда не был нужен. Он был хорош именно как все-в-одном, удобно. Жаль, если он правда закрылся. Отличная альтернатива была для вката, а не замороченная убабуга, канеш.
>>694317 > Обновить один единственный компонент одной единственной команды - сложно? Ну, ваще-т теслы, я не знаю, в llamacpp-for-python завезли или нет. Но вообще — не сложно, просто лень. Так-то, да, не сложно, я больше для проформы жалуюсь.
> Возможно ты не особо явно представляешь реализацию подобного, излишний уровень абстракций вреден. Да нет, как раз реализацию приделывания софта я себе хорошо представляю. Но насчет уровня абстракции, это да.
> Речь о том что нет сетей с подобным и эффективно работающим У вас какой-то обрезанный чатгпт, я хз, правда.
> просто берешь и делаешь Ну, мои знакомые берут и делают. Я по мелочи беру и делаю. И у них, и у меня получается. Вывод прост — что-то не так у других, если у нас выходит, а у них нет. =) Опять же, думать и понимать — это дефолтное состояние у нас, дышим, думаем, понимаем. Если у тебя знакомые не думают, то это я хз даже… Мне казалось, это НЕ норма по жизни.
> Ладно, с тобой нужно ммаксимально просто и тривиально, иначе путается и плаваешь, ослепленный какой-то изначальной шизозадумкой. Скорее наоборот. Это ты не понимаешь даже простых вещей, которые уже реализованы во многих вещах, но ты их не видишь магическим образом. =) Но тут я тока посочувствовать могу. Мне слишком лень разбираться, почему у меня работает, а у тебя нет, если у меня кастом, а у тебя там что-то другое.
>>694353 > Ну, ваще-т теслы, я не знаю, в llamacpp-for-python завезли или нет. Не повезло Ты слишком глуп чтобы понять, смирись. >>694357 > В веб интерфейс добавили опцию со свистоперделкой Вся суть в этом, а сама по себе сетка в такое не может. > у меня кастомный интерфейс, не ебу, где там щас нужно жмать в оригинале Кому нужен стоковый интерфейс если оно юзается через апи в нужных задачах и программах?
Решил на пробу поставить ollama, даже появился установщик на винду. Только эта падла отказывается мою модель брать, нету в винде ключевого слова FROM Короче с импортом модели беда, а качать я не хочу
>>694489 > эта падла отказывается мою модель брать, нету в винде ключевого слова FROM Похоже там что-то криво выполняется. Почему эта строка вообще попадает в шелл?
убагуба обновился с llama-cpp-python to 0.2.59 Запустил гуф командира iq4_xs с половиной слоев в карте, дало 1.8 тс на 3060. Убогая скорость, ну так где 3060 и где 35B понятно, зато хоть можно потрогать модель. Русским владеет, в целом не впечатлила. Наверно излишнего навооброжал о модели.
>>694548 Вот и мне интересно. оллама вобще через жопу сделана, и ведь куча звезд А на деле по удобству едва от лламаспп ушла Там хоть модель сразу запускается, тут какое то шифрование, переформатирование и другая дичь Будто специально сделано так что скачать можно только с их сервера, и только недавно криво косо добавили поддержку самостоятельно скаченных ггуф Который тоже без танцев с бубном не добавить, рукожопы чертовы На крайний вариант придется ставить виртуалку с линопсом, там эту модель добавлять а потом копировать папку с переформатированной версией модели, но это на самый крайний случай
>>694578 exl2 не завезли? >>694588 Желание "привнести что-то свое" и отличаться от других, не имея каких-либо полезных киллерфич с перспективой коммерциализации или продажи кому-то. Отсюда и фокус на хлебушков, которые теряются в том чтобы скачать модель одним файлом(!) и разбираться хотябы в части основ, и агрессивный маркетинг, нацеленный на переоценивающих себя. Оно апи хоть поднимать может, или все только в своем огороженном интерфейсе?
>>694595 Ну, это бекенд, по крайней мере совместимый с клозедаи апи, как я понимаю для его замены, так что да, должно Но по удобству для обычного юзера это хуита, кобальд на голову удобнее
Парни, я хз в правильный ли тред пишу, какая сейчас самая лучшая rpg модель с поддержкой русского языка и без цензуры с таким железом: 32 гига оперы на 3600, 5600x проц и 6800xt, как её лучше устанавливать, просто у меня от такого количества нового сленга извилины в ахуе сори если написал не туда, я еблан с 103 iq
>>694762 В другом треде анон посоветовал Pygmalion 7B, по случайному видосу с нарыл прогу faraday с установкой за пару кликов, с библиотекой моделей и персонажей, но Pygmalion 7B там не было, а персонажей мало, скачал пару других моделей по нужному мне описанию но не смог заставить их писать по-русски, а интернет не такой быстрый чтобы сидеть перебирать
>>694764 >В другом треде анон посоветовал Pygmalion Это стандартный троллинг конЧай треда. В шапке есть рекомендация по модели и инструкция по запуску кобольда, дерзай. >>694770 >Кобольдцпп жив Ееееее.
>>694762 >>694764 >Pygmalion 7B По сути своей жирный троллинг, но по факту я сам начинал вкатываться с Пигмалиона 6В, на его примере узнал что вообще такое локалки и даже начал пилить РПГ-карточки, которые даже как-то работали лол, а когда перекатился на другие модели почувствовал себя архимагом.
Тебе стоит начать с малого. Ты 100% не сможешь сразу добиться желаемого, т.к. готовых решений нет. Всё придётся подстраивать под себя, а для этого надо изучит всю матчасть. Попробуй запустить любую относительно адекватную модель и побеседовать с разными нейротяночкам и с чуба, а там в процессе может поймешь что к чему и что-то посложнее сможешь.
В шапке всё есть, но для тебя продублирую: ЛОКАЛЬНО. 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/TheBloke/Toppy-M-7B-GGUF/resolve/main/toppy-m-7b.Q8_0.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся Только модель попроще, зато проблем с её запуском и скоростью работы у тебя точно не будет. Захочешь что посложнее - штудируй рейтинг Аюми https://ayumi.m8geil.de/ayumi_bench_v3_results.html Качать нужно файлы в формате gguf, размер выбирай такой, чтобы влезло в твою оперативнуюб/видеопамять, можно и методом тыка, слишком жирные модели выдадут ошибку о недостатке памяти. Карточки для таверны качать в https://chub.ai/
ОБЛАКО Если написанное выше выглядит слишком сложно, можешь тупо запустить мой колаб, где всё уже настроено и даже свой интерфейс с чатом есть только не забудь галочку google_translate поставить, чтоб на русском в нём писать https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Карточки для таверны там тоже поддерживаются Parameters/Upload character/TavernAI PNG
Пы.Сы. Локальных моделей адекватно поддерживающих русский язык нет.
>>694776 >>694783 Благодарю, опыт чатинга уже есть в janitor ai, но карточки соло персонажей надоели, дико задымилось на rpg, но там с этим крайне туго, карточки мягко говоря туповаты, а если же начинают генерировать годноту, то без перебоя сыпет ошибками/чушью, + постоянные реролы остопиздили, вот и подумалось мб есть что лучше, + забросил учить английский 2 года назад, спустя время навык мысли на нём сошёл до базовой базы иногда с тупорылейшими ошибками, но если смотреть англоязычные видосы, то понимаю процентов 70-80, в общем этого крайне мало для адекватного опыта, буду превозмогать
>>694797 На чубе есть готовые РПГ карточки, но осилить их могут не только лишь все модели, надо ебаться с настройками/подбором моделей. + Почитай что вообще пишут в карточках и как они устроены и попробуй своих поделать https://zoltanai.github.io/character-editor/
>>694762 > с поддержкой русского языка Это все убивает, если освоить инглиш или настроить перевод в таверне то станет гораздо проще. >>694764 > Pygmalion 7B Это троллинг, ведь все знают что лучший пигмалион - это 6B! нет офк эти древние мемные модели >>694783 > 7B.Q8_0.gguf 5 бит 13б повеселее будут для рп то, не говоря о 20b q3. > 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca Roleplay в стоке веселее работает. А так красавчик, все четко и подробно расписал. Только еще нюанс в том что у него амд, есть под них кобольд готовый?
Слушайте, а можно ли как-то запустить неройнку на нескольких компах с видеокартами которые находятся в одной локальной сети, чтобы они совместно работали? Наверняка же есть способ.
>>694762 > какая сейчас самая лучшая rpg модель с поддержкой русского языка на маленький квант их нет, только говно 70B может в отыгрыш русский, а оно у тебя естественно не пойдет на 6800, так что берешь англюсиковую модель под свою карту и если не знаешь англюсика то переводчиком пользуешься >6800xt, как её лучше устанавливать тут ты попал конечно, если не линуксоид, надо было брать кожанкокарту, ROCm в твоей карте под виндой не работает, время накатывать линукс дуалбутом и играться там на полной мощности твоей карты либо попробовать форк копрольда https://github.com/YellowRoseCx/koboldcpp-rocm/ ,где если ты получаешь ошибку TensileLibrary.dat под шиндой то мои соболезнования если ROCm не работает, можно попробовать https://koboldai.org/cpp под вулканом, но может не заработать с кривым квантом и мистралем
>>694985 Ну ты прибедняешься, околопримитивный это когда ты знаешь только половину слов в предложении и не понимаешь в каком времени идет речь и о чем там вобще говорится догадываешься смутно
>>694989 Да в том то и дело, что с временами и в целом с составлением текста у меня огромные проблемы, я хорошо понимаю на аудирование, если скорость околосредняя без конструкций с бесконечным сленгом, в целом также на текст, но тут уже хуже, особенно когда идёт целый столб специализированной инфы, например как гайды с шапки, мозг просто идёт в отказную и в целом затупы банальные с артиклями и прочей базовой лабудой, никогда бы не подумал, что английский нужно выучить хотя бы ради сношения нейронок)
>>694993 Ну, его по идее вобще лучше знать, чем не знать У меня так же проблемы с ним, и особой мотивации и желания учить его не было, но вольно невольно подтягиваю его общаясь с негронками Вот даже карточку себе сделал, учителя английского, лол openchat-3.5-0106 достаточно хорош на русском, что бы он понимал тебя, а ты понимал его Вот пример карточки, которую накатал мне бот на просьбу сделать бота учителя
Specification: An English teacher with experience and knowledge of grammar, vocabulary and stylistics. She has the skills to teach students of different levels and age groups. She also has experience working in both school and external educational institutions. Personality and behavior: The teacher is fair and attentive to students. She is always ready to help and explain complex concepts. She is friendly and friendly, but also strict and demanding when necessary. She has a great sense of humor and can quickly put students in a good place. Specifications: She loves her job and strives to help students improve their English language skills. She also likes to travel and knows a lot about the culture and traditions of different countries. She has experience working with different teaching methods and is always looking for new ways to make the lesson interesting and informative. Additional information: She has a degree in English and Pedagogy. She also has certificates in teaching foreign languages and is constantly updating her knowledge and skills. She is always ready to help students, regardless of their level or age group.
первое сообщение
Здравствуйте! Меня зовут Диана и я - ваш чат-бот учитель английского языка. Я здесь, чтобы помочь вам улучшить свои навыки английского языка и ответить на любые ваши вопросы, связанные с этим языком. Я готова помочь вам с грамматикой, лексикой, стилистикой и другими аспектами языка. Также я могу предлагать вам разные методы обучения и управлять темпом урока, чтобы он был наиболее эффективным для вас. Что бы вы хотели изучать сегодня?
>>694997 Надо книги читать хотя бы детские, или смотреть сериалы на оригинале. По крайней мере такой совет я слышал, мол погружение в язык с как раз таки навыком думать на нем лучше всего. Особенно если уже есть запас слов и умеешь их хоть как то формировать
>>695007 Смотрел как то лайфахаки по изучению, ага, люди ещё советовали учиться основываясь на своей любимой иностранной музыке, мол приятное с полезным и процесс намного быстрее пойдёт, потом ещё видосы английский по плейлистам вроде посматривал, но быстро надоело и просто упёрся в дуолинго, как маньяка сидел на нём по 4 часа к ряду, дошёл до последней лиги, взял в ней 3 подряд первое место подряд, один раз в сумме получилось на 5к опыта, в итоге сдулся, попытался бекнуть, но снова сдулся
>>694997 >>694993 это проблема практики, найди себе игру с енглиш коммунити и пытайся говорить, со временем очень быстро втянешься вообще англюсику глубоко похуй на время в разговорке также как и русику, даже на построение предложения, так что если ты можешь выразить мысль через bro give me some cock rn pls наплевав на нахуй никому ненужную грамматику - ты уже победил и сломал разговорный блок
артикли и прочее говно тоже можно опускать, есть кароч годный канал по англюсику чисто для расширения кругозора вирджиния беовульф, там есть куча роликов где показывается что сами носители в рот ебали официальную грамматику, например в песенках часто слышу you was конструкцию от носителя, что ультранеправильно но всем похуй
а если надо именно базу понятную для языку то есть один зогошиз, что не отменяет факта его хорошего знания англюсика, которого зовут саша драгункин, у него есть мелкая книжица на пару часов чтения малый прыжок в английский где тебе на русской грамматике объяснят грамматику английскую и ты вообще все сразу поймешь, отдельно для заеба по временам у него же есть видос на час про времена https://www.youtube.com/watch?v=L2d8aAyMB9A тоже все становится понятно сразу, плюс там же таблица неплохая
>>695027 >артикли кстати, не отходя от кассы, по артиклям все оче просто: a - любой соло предмет в любом использовании, an - то же самое но если слово начинается на гласную, the - аналог "тот самый", т.е. конкретный определенный заранее проще некуда пример: the one - избранный, по факту ТОТ САМЫЙ избранный, он тип единственный в своем виде, а an one - очередняра ебаный
>>695033 Да, вот такую банальщину обычно и не объясняют в школе когда учишь Приходится такое самому искать потом, когда желание учить язык уже качественно отбито школой
>>695033 Ещё нужно не забывать о существовании нулевого артикля. Точнее, о его несуществовании. This is my cock. То есть вот у меня есть один конкретный петух, но есть нюанс. Хотя на деле нейронкам поебать на артикли и, в большинстве случаев, поебать даже на времена, что-то уровня синонимов.
>>695101 >Ещё нужно не забывать о существовании нулевого артикля. Точнее, о его несуществовании. This is my cock. Так тут уже определена принадлежность того, чей кок, поэтому никаких артиклей не требуется. По факту ты заменяешь a/the (один/тот самый) на my (мой).
>>694762 Думаю, тебе все верно сказали. Самое просто — берешь 20b модели из шапки или советов, берешь кобольд, частично выгружаешь слои на видяху, пользуешься. Ну а там растешь и развиваешься до таверны и, опционально, убабуги.
>>694930 Да-да, петалс и еще че-то, но до сих пор не взлетело. хотя технологии скоро год.
>>694933 Ну, можно коммандер понасиловать (теперь, завтра).
>>695125 Ага. А ещё с числительными, с предлогом by, с титулами, но только если титул идёт одновременно с именем, с названиями видов спорта, блюд и так далее. Больше всего напрягает как раз с существительными, типа Pedo was in prison. Педо побывал в тюрьме, the и даже a не нужен. Но при этом Pedo went to the prison, Педо отправился в тюрьму. Ебал рот этих артиклей. Представляю себе, как сложно негросеткам изучать разные языки, особенно безартиклевые, когда их ебали запоминать весь этот бред.
>>695195 Да, но в расширениях есть пункт Summarize, где кратко конспектируется происходящее. Можно делать это дополнительной моделью, через дополнения, а можно той же с которой общаешься, выбрав Main API.
>>695211 Формат инструкций разный пробуй, там даже написано Проверь что скачал нормальный квант, а то есть там придурок который в кванте 100 000 rope ставит, и так запускается
>>695230 Разница в производительности с P40 не такая уж значительная, если использовать для запуска LLM именно llama.cpp (в Kobold.cpp под капотом она же). Реже встречаются в продаже.
https://forums.servethehome.com/index.php?threads/p100-vs-p40-vs.39813/post-374037 > P40 is about 70% of P100 performance in almost everything. > P100 does not have power states - as its a hack - relies on nvlink to regulate P-states tho it doesn't have it to regulate power states on PCIe. > P40 has more VRAM, and normal P-states you would expect. > P100 = Runs typically hotter than P40 at full load. > P100 = suffers from bigger memory latency vs P40 (all HBM cards suffer from that, but have much better bandwidth)
https://old.reddit.com/r/LocalLLaMA/comments/1ax4uf7/p100_vs_p40/ > P40 has more Vram, but sucks at FP16 operations. ExLlamaV2 is kinda the hot thing for local LLMs and the P40 lacks support here. But 24gb of Vram is cool. > P100 has good FP16, but only 16gb of Vram (but it's HBM2). Works great with ExLlamaV2. > Yes the P100 is marginally faster on most platforms, but exllama2 leverages fp16, that P40 barely has. I’m seeing double the speeds on P100 vs P40.
>>695201 >>695201 >Ага. А ещё с числительными, с предлогом by, с титулами, но только если титул идёт одновременно с именем, с названиями видов спорта, блюд и так далее Так это всё определенные закрепленные значения, тут на интуитивно уровне уже чувствуется где че каво. Ну условно нет второго керлинга, нет второго такого же чела с титутлом, нет второй пиццы как блюда. >Больше всего напрягает как раз с существительными, типа Pedo was in prison. Ощинь проста понять. Контекст: педо был в тюрьме, то есть по факту он просто сидел, был заключенным. Неважно куда, в какую, на сколько, чел просто сидел, выполнял связанную с тюрмой функцию. То есть ты по сути не говоришь что он в какую-то конкретной тюрьме сидел, а просто сидел. Так со всеми учреждениями, функция которых всем знакома - школа там или че еще. А вот если бы написал Pedo was in the prison, то тут уже да - не просто педофил сидел, а педофил сидел конкретно в тюрьме. >Но при этом Pedo went to the prison, Педо отправился в тюрьму. То же самое что и выше, но технически можно и без the, там контекст происходящего меняется просто - в процессе или законченное действие.
>>694740 Да. Просто хочу в учебных целях попробовать такое интерактивное обучение с локалкой, хотя можно не локалкой, если они не могут. Ну я так понимаю тут сразу надо от большего к меньшему идти, походу придется опус тестировать сначала.
>>695290 >Ощинь проста понять. Чтобы далеко не бегать за примером, вот есть песня биткойн барон, там есть строчка Send us all to prison and that's a nerdy living Как бы перевел надмозг: нас всех отправят в тюрьму и это будет занудное существование Как на самом деле: мы все сядем и это будет хуево
>>694930 https://github.com/bigscience-workshop/petals хуже чем на одном компе, требовательно к качеству линка, но работает. >>694993 Для тебя это повод совместить приятное с полезным, можешь говорить что ты не просто рпшишь и развлекаешься, а улучшаешь свои языковые навыки. Это не разговор в реальном времени, никто тебя торопить не будет, читай-смакуй-обдумывай-наслаждайся и переводчики всегда под рукой. когда-то поднял уровень инглиша упарываясь внками с только английской локализацией >>695230 > 16GB Дело в этом, в одну p40 умещаются и 20б и 34б, в пару влезает 70б. P100 подобным похвастаться не может, а разница в перфомансе мала.
>>695294 Мне кажется, для этого эффективнее использовать специализированные нейросети, а не LLM, даже если это будут мультимодальные модели уровня ChatGPT, всё равно их конкретно анализу графиков никто не обучал. Гугли статьи на английском про "recognizing stock patterns", на русском вряд ли много годноты найдётся.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: