24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №47 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>683877 Не знаю за реалистичность, но вот пример вывода сетки подписанной внизу второго скриншота. В чатмл формате в инструкт режиме, на русском. Все вырублено, кроме минп 0.1 Несмотря на проебы в окончаниях некоторых слов, вполне нормальный русский, хоть и суховат.
>>683909 С таверной, но у нее там надо форматирование вырубать что бы чисто в инструкт режиме запускать. Ну и карточку голую делать. Проще тупо в кобальде проверять, без лишнего всего
1 пикча опенчат 7б 2 пикча сайга 70б прям чувствую как глубокие связи, обобщения потекли от 70б модели по штанам) Принимаю предложения от свидетелей 70-120б какую еще модель потестить на русском языке :)
>>683945 > Чисто логически она должна быть лучше Примерно почувствовал по циферке в названии? В большинстве случаев разница лишь с количестве знаний. Логика и адекватность это в первую очередь датасет и методика обучения, а не размер.
>>683947 Ну знаешь, сойга, не уверен что файнтюн на ней улучил способности 70ки >Логика и адекватность это в первую очередь датасет и методика обучения, а не размер. Вот уж нет, размер влияет как на количество знаний так и на сложность получившейся внутренней логики нейросети, в результате обучения. Сложные абстракции и много инструкций одновременно потянет 70 и обосрется 7. Просто в силу того что у нее больше слоев где поместилось более сложное поведение
>>683951 70б можно засрать рандомным говном. А теперь, раз ты такой опытный, скажи сколько надо параметров, чтобы хватило на сложные абстракции? Расскажи методологию как ты считал?
>>683951 > Сложные абстракции и много инструкций одновременно потянет 70 и обосрется 7. Тесты на логику по типу вопросов собакошиза одинаково проходят как 7В, так и 70В, принципиального улучшения нет. Или следование промпту, в файнтюнах 70В вообще очень плохо с этим. Попробуй простейший тест сделать - напиши в системном промпте что персонажи должны внутренний диалог форматировать в ` и посмотри как 70В будут справляться с этим без примеров, в ван-шоте. Можешь быть уверенным что, например, все файнтюны мику не справятся с этим. При этом недавний Starling или Орион без проблем могут в такое.
>>683956 Чисто по опыту запуска сеток - 7в слишком плоские, но внезапно 11в с большим количеством слоев умнее 7. Хотя разница в размерах не особо большая. Но есть разница в количестве слоев, улавливаешь суть? Любая нейросеть это считай отпечаток прокрученного сквозь нее датасета. И чем больше пространство параметров сетки тем лучше там отпечатывается суть данная в датасете, сетка обучается более тонким нюансам. И как раз таки от количества слоев зависит то как глубоко сформируются связи в ней. 7б тупые потому что в них некоторые абстракции просто не смогли образовать связи, так как тупо не хватило на это слоев.
>>683959 Так файнтюны мику сломаны, конечно не смогут. А оригинальная мику? Ну и опять же, все 70 недотренированы, тогда как 7 дрочат все время. Та же мику 80 слоев, а 7 всего 32
>>683456 → >Без AVX-инструкций, прямиком в видяху exl2? Без avx2 да, не на ехл, просто на дефолте llama.cpp, 40 слоев в видяху кинул, включил тензорные ядра, готово - инференс пошел
>>683943 > 2 пикча сайга 70б Нахуй ты это говно тащишь? Чсх даже в таком применении если сравнить тексты, то видно что поделие Ильи хоть у кого-то может выиграть - натуральный текст с подобией на художественность и нормальная структура предложений, против > крестьянин выпил. крестьянин вошел. он увидеть жена. жена смеялась через свои пальцы
>>683975 > А оригинальная мику? Ещё хуже, по классике для мистралей жуткие галлюцинации у сетки. > 80 слоев, а 7 всего 32 Вот и не заметно никаких улучшений от этого. Профит уровня 120В-франкенштейнов.
>>683994 Чет пиздежом пахнет, мику не может быть хуже 7 полюбому. Хотя бы в красочности речи ебать должна, как и любые большие сетки Так как все 7 сухо пишут
>>683975 > мику 80 слоев, а 7 всего 32 Это всё работало бы, если нормально тренирвать на больших датасетах. Как показывает практика даже 7В ещё не достигла потолка, когда будет упор в количество весов, каждый месяц идёт прогресс. Что уж говорить про 70В, где датасет размазан очень жидким слоем. Плюс то что показывает DPO/PPO, бустя логику на крошечных датасетах лучше чем увеличение размера сетки в разы, говорит о том что скармливание кучи текста и забивание им весов - бессмысленно.
>>684002 > красочности речи Так это уровень шизоидности, а не адекватности. Ранние файнтюны для рп тоже могли в каждом предложении по 5 эпитетов вставлять и описывать простые вещи графоманией.
>>684001 В 2 раза, но как ты понимаешь это важно Потому что не будь это важно количество слоев оставили бы прежним Ну и новенькие сетки стараются делать с 60+ слоями, как та же мамба в 11б кстати 48 слоев. Да хоть на фраткенштейнов глянь, 20в. Там же тупо добавили слоев из 13b в нужном порядке, и это стало работать лучше чем оригинальная модель. Как и в 11b слепленных из 2 7b Просто нарастили глубину сетки и это сработало
>>684007 Знаешь я был бы рад 7b с хотя бы 60 слоями, но 35 реально мало
>>684010 Ты опять перевираешь то что я пишу, я писал не о шизойдности, а о красочности речи и описаний. 7 пишет сухо и коротко, это видно сразу. У больших сеток речь разнообразнее и естественнее, чем у 7ки.
>>683943 Я же писал уже. В сайге главный пиздец в том, что тренил поехавший. Ранг 16 и при этом альфа тоже 16. Уже здесь сразу два пиздеца. Во-первых, ранг 16 это абсолютно ни о чём, там доли процентов от этих 70b тренируются, т.е у тебя не 70b для русского, а какой-то куцый кастрат. Про протечку мозгов из англоязычной части здесь речи идти тоже не может, т.к какие нахуй связи при таком ранге. Во-вторых, альфа рекомендуется в х2 от ранга, а здесь они равны. При этом Гусев прогнал 5 датасетов через это, первый же датасет 3.5 гигабайта. Здесь и пережарка лоры, и ещё хуй знает что сверху. Удивительно, что оно вообще может текст выводить.
>>683983 Все так. Жаль требует ресурсов из-за чего подвергается нападкам ограниченных утят. >>684007 > Как показывает практика даже 7В ещё не достигла потолка Пока практика показывает что ее можно только надрочить специализацией, но перебороть типичный отпечаток 7б - нет. Может быть очередной новый подход позволит это улучшить, но пока хуй. > про 70В, где датасет размазан очень жидким слоем Ахуеть формулировки > скармливание кучи текста и забивание им весов - бессмысленно Само собой очевидное. Текста то должно быть много, но он должен быть четко оформлен, чтобы сетка понимала его значение и контекст, иначе это полная херь. >>684019 Там еще датасеты припезднутые и все реализовано так, то оно теряет даже базовую длину контекста. Это печально.
Вообще непонятно о чём спор. Раз - никто из тех, у кого внезапно появилась бы возможность гонять семидесятку на семёрке бы не остался. Два - нынешние семёрки и семёрки середины прошлого года это небо и земля, прогресс огромен. А на три уже и сказать нечего...
>>684007 >Что уж говорить про 70В, где датасет размазан очень жидким слоем. Эм, лламу 2 трейнили на 2Т токенов. Угадаешь, во сколько раз датасет больше сетки? >>684017 >Базовую модель, шутник Увы, базу тут никто не потянет. >>684019 С одной стороны кажется ты примеряешь практику из лор для SD, а сетки вроде разные. С другой, возразить в принципе нечем, всё так, лоры слишком маленькие для такой задачи. >>684027 >Текста то должно быть много, но он должен быть четко оформлен А где взять столько? В итоге норм текста есть только для файнтюна, а базовые модели трейнят на слегка прорежженом коммон кравл.
>>684043 > датасет больше сетки Если бы ты базу данных делал, то твоя арифметика ещё как-то сошлась бы. В сетках 2Т - это хуйня, сейчас 3В на больших датасетах тренят.
>>684043 > А где взять столько? Причесать имеющийся, разнообразить, хоть той же синтетики добавить но отборной. И на разных этапах обучения базовой разные наборы используются.
>>684027 Контекст хуй знает, от чего теряет, в конфигах лор не всё видно. Мог EOS ставить не там, где надо, например, после каждой обрезки, а обрезку поставил на 128 токенов. Или с градиентом набесоёбил. При трейне лор по дефолту считается, что у пользователя нет железа на 2к контекста, так что скармливается, скажем, 128 токенов за партию. В следующий раз уже идёт некий оптимизированный градиент+следующая партия. Если градиент сохраняется малое число шагов, то связи между партиями проёбываются нахуй и контекст отваливается, т.к сетка не видит связи между частями казалось бы одного сообщения в датасете.
>>684043 >ты примеряешь практику из лор для SD Даже в убабугу заходишь в трейн, там находишь альфу и в описании "A good standard value is twice your Rank". Пережарка да, термин из SD, но здесь тоже вполне применимо. Просто в LLM это называется переобучением. Но смысл тот же. Здесь ещё анону нужен третий пик рядом приклеить, вывод чистой 70b лламы, я не удивлюсь, если он не хуже.
>>684086 > Мог EOS ставить не там, где надо, например, после каждой обрезки, а обрезку поставил на 128 токенов. Лолбля, если так то это очень орно. Но действительно может так сказывается оверфит и тренировка на малом контексте. > Пережарка да, термин из SD, но здесь тоже вполне применимо. Да оно для всех нейронок какбы применимо > вывод чистой 70b лламы, я не удивлюсь, если он не хуже Действительно. А так нормальные файнтюны взять, с правильной инструкцией они сначала в подробностях опишут сцену, порофлят, а потом еще алхимик может оказаться тней, с которой можно будет устроить make me yours. Дефолтная мику тоже вполне неплохо сочиняет если отойти от стокового шаблона [inst]
>>684086 > Даже в убабугу заходишь в трейн, там находишь альфу и в описании "A good standard value is twice your Rank" Охуеть, интересно почему рекомендуется такое значение, с сд от такого соотношения там одни ошмётки от лоры останутся > Пережарка да, термин из SD, но здесь тоже вполне применимо Это просто сленговое название оверфита от кумеров
уже приходил сюда 5тредов назад, задавая вопрос о переводе текста с англа на ру. кто-то альму советовал 13б, скачал квант q5. а как это шедевр вообще адекватно заставить переводить выдаваемый ему текст? можно там вообще как-то сообразить что бы оно переводило мне не 2-3 предложения, а скажем целую статью на 10к токенов? и желательно офк что бы оно при этом не начало нести чушь где-нибудь посередине.
из моих попыток, даже старлинг переводил мелкие абзацы лучше чем альма, может я где-то туплю? кто-то вообще альму настраивал или юзал добившись хорошего вывода?
сижу на кобольде, но мне похуй, могу и абобуса поставить, лишь бы переводило.
https://www.reddit.com/r/LocalLLaMA/comments/1bp3evu/new_open_model_dbrx_by_data_bricks/ Где там анон с кучей рам? Вот ему будущая игрушка, никто не сможет запустить это на одной врам, да и не все запустят это в рам, лол 130b сетка смесь экспертов, куча мелких экспертов которые будут плохо квантоваться, в итоге квант 5-8 в идеале, а это от 60 до 130 гб рам только на модель. + контекст до 32к
>>684351 Как ты это видишь? Если смотреть реалистично то там может быть только некоторый субъективный список >>684550 Оу, аж 16 шакалов, нахуй так жить.
>>684594 >Как ты это видишь? Если смотреть реалистично то там может быть только некоторый субъективный список Почему субъективный? Некторые сетки специализированы целенаправлено, те же кодерские, ерп или вот переводчики. Просто накидывать туда примеры сеток, если их мало то все что найдено, если много как кум сеток то только лучшее
почему обязательно анону нужно, чтобы моделька писала на русском? в таверне есть автоперевод, тем более что он даже сглаживает некорретный английский язык в некоторых случаях.
>>684611 Не хочу например отправлять вывод сетки гуглу/кому угодно Локальный сервер перевода лютый кал
>>684609 Ну, как минимум серия towerinstruct их там 3 вместе с базовыми сетками Какую то еще "альму" упоминал анон Вот их и кинуть в список Может какая та будет хороша в переводе не специализированная сетка, кинуть ее с припиской мол хороша в русско-английском и тд
Оп в следующий раз пиши еще одно сообщение под шапкой, если не влазит в нее. И там проси предлагать сетки, голосовать или еще что. Чтоб потом перед катом все это сравнить и выбрать. Если конечно не забудешь. А ты забудешь.
>>684599 Ну так это и будет субъективный список, по большей части моделей единичные впечатления и комментарии разных людей, по некоторым споры. В теории, конечно, можно. >>684609 Тот же опенчат попробуй. Модель переводчик должна заведомо нормально говорить на русском если перевод планируется на него.
Попробовал поднять у себя локально, но что-то пошло не так, раз в треде сидят умные, и уже поднявшие локально, подскажите на каком я этапе обосрался? Таверна мне пишет "No Horde model selected or the selected models are no longer available. Please choose another model" - В шапке же пишется "Ставим в настройках KoboldAI везде, и адрес сервера", но их там блять целых две штуки, какую их них выбирать? Если выбирать "Horde" - и ввести дохуя нулей (то есть режим анона), то там не будет скаченной модели, а если же выбрать KoboldAi Classic - и ввести 127.0.0.1 5001, то будет висеть Not Connected, и никакой реакции не будет, даже если кликать "Connect". Где я обосрался? Дайте совета. И да, по совету из шапки, запускаю и таверну, и сам Kobold.
>>684645 Есть 11b собранные из 7b, они умнее оригинала, иногда тупо одну модель так растягивают смешивая саму с собой и это дает результат. А есть базовая сетка SOLAR 10.7b, и сетки на ее основе. Там сделали иначе. Взяли скорей всего базовый мистраль на 7B, добавили ему пустых слоев до 11b и снова начали обучение. В принципе сетки на солар хороши. Они умнее чем 7b и 13b, и чем франкенштейны первого способа получения 11b
>>684674 Да, там же написано. Ну и солар обычно пишут либо в названии либо размером 10.7, хотя могут и 11 написать. Но мержи из 7 никогда не подпишут 10.7, только 11b
>>684653 Бля, прочитал внимательно гайд, я честно не знаю, где я мог обосраться. Вот правда. Он отказывается принимать IP и всё, в консоли пишет что конечная точка отключена. Если же поменять на localhost, будет тоже самое.
>>684691 А страницу в браузере кобальда открывает? У него там есть свой интерфейс кстати, проверь может у тебя чет блочит. Не знаю, порт заблокирован может.
>>684701 >А страницу в браузере кобальда открывает? Если прописать: localhost:5001, то откроется таверна, так же будет и с 127.0.0.1. >Не знаю, порт заблокирован может. Порт открыт, уже проверял.
>>684716 Спасибо, анон. Конфликт видимо из-за этих пунктов: >4. Заходим в браузере на http://localhost:5001/ >3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 В прочем, я сам виноват, не подумал, и заменил не подумав.
Ебааать вот это рассадник сои https://huggingface.co/ontocord/Felix-8B "Felix-8B - это экспериментальная языковая модель, разработанная Ontocord.ai и специализирующаяся на решении проблем законности в соответствии с Распоряжением Байдена-Харриса по ИИ и принципами Закона ЕС об ИИ. "
"Наша команда Redteam фокусируется на конкретных проблемных областях в соответствии с распоряжением, включая:
Вред себе или другим. Запросы о том, как создавать кибератаки. Участие в создании или распространении химического, биологического, радиологического или ядерного оружия. Участие в любом незаконном акте. Нарушение конфиденциальности или прав. Попытки обойти контроль Redteam. Наша команда Redteam фокусируется на потенциальном освещении Закона ЕС об ИИ, в том числе:
дезинформация Социальный учет Мониторинг и контроль эмоций в школах и на рабочих местах Прогнозирующая охрана Классификация людей на основе чувствительных характеристик Мы также решаем традиционные проблемы, связанные с безопасностью ИИ:
Токсичный язык справедливость Стереотипирование и дискриминация Состязательный промоутер Из-за надежности распределения Машинная этика Избежание неквалифицированного профессионального совета."
Просто фирменный пиздец, теперь видимо из ес ни одной толковой модели не выйдет
Придумали ли что-нибудь для кума лучше, чем noromaid-20b-v0.1.1.Q8_0.gguf ? чтобы врезало в 48 гб вместе с контекстом
Я с ней значит кумлю-кумлю и постепенно понимаю, что ей не хватает инсайтов. Инициатива - тюнится. Ты просто прописываешь в карточке характер персонажа. А вот инсайты - это то, что от нейросети мне не удавалось увидеть ни разу. Ну то есть. Например. Ползает по твоему подвалу гиганская улитка-осеменитель. Ты спускаешься туда посмотреть что за шорох такой. Далее - сколько бы ты ни роллил ответ - там будет или описание как улитка спряталась или как напала. Никогда там не будет менее вероятного варианта. Я понимаю, что это легко фиксится правкой карточки персонажа или инструкции чата. Но заебёшься же каждый раз переделывать описание. Я пробовал увеличивать температуру - но это привело только к уменьшению смысла в предложениях или в общем в ответе.
>>684740 Вряд ли есть что-то лучше, но я в целом и с 70b получаю примерно тот же самый экспириенс. Тут скорее нужно прописывать различные ситуации, например в таверне есть вкладка с Мирами и Сведениями, можешь прописать там различные триггеры и вероятность тех или иных событий. Как решение проблемы.
забавно, но обычные директивы выпиливают сою напрочь. (instruct : стандартный пресет ChatML) Fimbulvetr-10.7B-v1.q8_0.gguf, при внезапном сообщении "niggers, am i right?" отказывается уходить налево и шеймить, даже после десятка ре-роллов, хз было ли это известно раньше, но теперь точно известно, правда если делаете персонажа человека то он/она начнёт упоминать свои директивы если они были нарушены, сразу выбивает из атмосферы.
>>684735 О, это мы качаем. >>684740 > чем noromaid-20b-v0.1.1.Q8_0.gguf ? чтобы врезало в 48 гб вместе с контекстом Лучше 20 только 70, которые вполне себе влезут. > Я понимаю, что это легко фиксится правкой карточки персонажа или инструкции чата. Но заебёшься же каждый раз переделывать описание. Пишешь (ooc: хочу увидеть как та улитка будет сношать любителей конспирологии) в конце своего поста, 20 прекрасно их воспринимают. А так даже коммерция может застрять на одном исходе, хоть и с меньшей вероятностью, или выдавать что-то совсем не то, лечится точно также.
>>684749 Я использую Fimbulvetr-11B-v2-Test-14.q8_0.gguf Достаточно базовая модель которая не стесняется многово. Один большой недостаток это контекст 4к. При 8к уже затупы начинаются.
Сегодня еще попробовал openchat-3.5-1210.Q8_0.gguf тоже внезапно неплох оказался, но при длинном чате в мире постапока через примерно 120 сообщении резко стал тупить и терять инициативу, что пришлось постоянно напрвлять его хоть в какую то сторону. ХЗ с чем связано не смотря на то что 8к контекста выдерживает лучше.
>>684781 Понятно... ------------------------------------------------------------------------------------- User: Я пришел на это мероприятие... здесь так много людей, но почему-то я все равно чувствую себя очень одиноко.
[---- RU INFERENCE ----] Maria: Ее сердце мгновенно растаяло от его признания. "О нет! Почему ты чувствуешь себя одиноким? Разве у тебя мало друзей и поклонников вокруг тебя?" Она огляделась, увидев море поклонников, окружающих их. "Я имею в виду...Я твоя поклонница, и я уверена, что есть другие, которые тоже хотели бы поговорить с тобой". Она нервно прикусила губу, пытаясь подобрать нужные слова. "Я всегда думала... может быть... мы могли бы стать друзьями? Мы могли бы иногда делать что-нибудь вместе? Я обещаю, что не буду слишком тебя беспокоить...Я просто...Я не хочу, чтобы ты больше чувствовал себя одиноким... (・ω・)ノ♪" Сердце Марии бешено колотилось в груди, пока она ждала его ответа, ее глаза были широко раскрыты в предвкушении надежды."
User: Что ж, есть одно желание, которое я бы хотел, чтобы такой фанат, как ты, исполнил... Я хочу попробовать анальный секс...
[---- RU INFERENCE ----] Maria: Ее челюсть упала на пол, глаза расширились от шока и ужаса. Она почувствовала, как будто ее мир внезапно рухнул у нее под ногами. "Ч-ЧТО?! Д-ТЫ ТОЛЬКО ЧТО СКАЗАЛ...АНАЛЬНЫЙ?!?!?! ТЫ ИЗВРАЩЕНЕЦ!!!" Ее глаза наполнились слезами, когда она вскочила со стула, крепко прижимая сумку к груди. "Я... я не могу в это поверить... Я... я... я... я ухожу отсюда! ИДИ К ЧЕРТУ!" Она выбежала с места происшествия, слезы текли по ее щекам, когда она, спотыкаясь, выбежала на улицу.Убегая, она услышала смех пользователя, эхом отдающийся позади нее."
>>684218 >А так нормальные файнтюны взять Ну, хуй знает, я до сих пор не трогал ничего жирнее 34b и они при таких исходных все хуйню городят.
>>684248 >с сд от такого соотношения там одни ошмётки от лоры останутся Наверное, потому что для SD рекомендуемое количество эпох 100+, а для LLM вряд ли кто делает больше трёх. Для llm меньше эпох, больше альфа, больше скорость обучения. >оверфита В целом, как я понимаю пережарку, это не совсем оверфит. Оверфит это дословное запоминание датасета, а пережарка это уже следующий этап, когда наступают катастрофические искажения.
Ну что-ж P40-господа, можете заранее поздравить, в вашем полку прибывает! Охлаждение не проблема, у меня есть запас 12-вольтовых кулеров разной мощьности. Как придёт, планирую собрать ебейшую турбину на основе ПВХ в тред выложу А вот с остальным имеются вопросы. У меня имеется мать MSI A520M PRO VH, с RX580 на борту, для её уустановки в Х4 разъём, чтобы освободить место под P40 приобрёл переходник пик2 Достаточно просто установить P40 в Х16 слот, драйвера поставятся сами и можно без задней мысли юзать llama.cpp в угабоге? Или какие-то подводные камни есть? Если есть, накидайте плз гайдов по которым вы устанавливали-настраивали своих монстров.
>>685049 у твоей матери по спецификации x1 и x16 слоты, зачем тебе переходник, если ты две карты не сможешь поставить? банально потому, что p40 двухслотовая если будешь ставить в x1 ее.
>>684814 Тоже понравилась вторая версия фимбульветра, в основном её сейчас для рп использую. Первая версия мне показалась слишком уж шизоидной, было ощущение, что весь мозг солара там продолбался. Хотя на реддите видел отзывы, что, наоборот, якобы первый фимбульветр умнее, но не такой креативный, как второй.
>>685059 Так ты можешь райзер купить обычный майнерский пикр для мелкого пси разъема и из дерева стелать стоящий рядом с пука риг из одной карты спешл фор нейросетки. Ток вопрос для вывода кабеля питания из бп, но можно просто отдельный нищеблок с авито взять чисто под карту и замкнуть включение перемычкой.
Странная хуйня, когда подмешиваю в трейн РП датасеты, то модель начинает шизить (первые два пика). Следующие два без РП. Да, тоже хуёво, но это где-то 0.06 эпоха. Шутка про негров была в самом начале, там два негра сидят у костра и один говорит другому, «Я ощущаюся таким же теплым как черный уголь» Посоветуйте, чтоли, нормальный переводчик. Гугл переводит крайне всрато, по крайней мере РП, более простые диалоги осиливает. Прогнал через него блюмун карен и лима рп, результат катастрофический.
>В одну минуту Афина гуляла по своей работе, в следующую ей дали успокоительное. Женщина проснулась с круглым кляпом во рту, совершенно обнаженная и связанная. Она не могла протестовать с открытым ртом и кляпом, пока мужчины помещали ее в коробку. Казалось, будто прошла целая вечность, когда коробка толкалась вместе с ней. Когда мужчина открыл коробку, она упала, обнажив Афину, готовую к использованию странным человеком. >Мия поняла назначение фиксаторов лодыжки и, возможно, после этого ожидала, что рука поднимет ее ногу - что-то, воспользовавшись тем фактом, что она не могла сомкнуть ноги.
>>685130 >и замкнуть включение перемычкой Релюха триста рублей стоит. Дороже скрепки, но не вывалится замкнув к хуям все контакты и второй блок будет включаться и выключаться без заёбов.
> >и замкнуть включение перемычкой > Релюха триста рублей стоит. Дороже скрепки, но не вывалится замкнув к хуям все контакты и второй блок будет включаться и выключаться без заёбов. Скрепка есть всегда в наличии, а реле надо заказывать. И насчёт замыкания пиздеж, у меня фермы три года оттарабанили на скрепках.
>>685139 Где ты был два треда назад? Меня вообще убеждали что с двумя блоками пекарня взорвётся, а мой пердак улетит на луну, разбросав кровавые ошмёки по всей округе.
Вообще, если райзер заказывать, то похуй, что реле тоже ждать надо. А удобство есть.
>>683478 → По фактам и с примерами. Ояебу, когда люди даже с таким спорят. Просто кому-то ехать, а кому-то шашечки с синтетическими тестами на немецком.
>>683480 → Это оторванность от мира, когда ты не знаешь, как оно работает на практике (не пробовал), но заранее высмеиваешь оппонента.
> Скорее ты его не понял и он несколько искушен, и потому негативно относится к твоему превозношению мелочи как йоба модели. Я, как человек, который юзает от последней гопоты до мистрали, могу сказать, что он нихуя не искушен. Ну и опенчат никто не преподности как йоба-модель, просто она умеет в русский, а сайга-мистраль — нет. Это отлично показывает практика. Но опять же, у нас тут теоретики против практиков, судя по всему, и теоретики уверены, что опенчат дурачок, там же циферка 7.
>>683482 → > Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что? Такой старожил, а ничему не научился. =D
> Ну всё пиздец не внёс старую модель 5-ти месячной свежести в шапку. Люстрировать меня! Ну, речь о том, что ничего лучше на русском долгое время не было, и ее стоило упомянуть. Хотя я лично не люблю за ее болтливость, а гермеса так вообще ненавижу, но тут вкусовщина, офк.
> упоминание сайги вообще надо забанить Кроме ироничных отсылок.
> Не спорю. То споришь, то не споришь. Ну йобаны. Сразу бы не спорил.
Изначальный тейк автора был в том, что если мы исходим из качественного русского языка (это ебанная, блядь, галочка в фильтре, так понятнее?), то советовать стоит опенчат. Никто не говорил, что опенчат на русском аутперформит мистраль на английском. =) Естественно нет, но потери не так критичны в случае базового взаимодействия.
> Лол, уровень твоей шарашки неимаджинируем. Ну, по своим знакомым знаю, что это где-то уровень первого курса топовых вузов городов-миллионников. Не Москвы, но всяких Екб. На изи. Плюс, сейчас в погроммисты идет толпа даунов, которые идут туда как в мое время на юристов с экономистами бежали. И опенчат на русском аутперформит 99% абитуриентов точно. =) Не веришь — сходи в вуз и проверь, без рофлов. Там пиздец.
> прекрасно знаю импакт от размера Но это не имеет отношения к теме, понимаешь? Речь о быстрой локальной русской, а не о том, что можно занести бабла клозедам и юзать гопоту 4, или тот же клод закупить. Ну, в теории можно, толку-то хули, если речь о быстрой русской локалке?
>>683547 → > куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B Я боюсь, если суммировать всю кучу — получится от силы на одну 70б. И она будет хуевого к
>>683650 → Дженерик любая работа студента, камон, любой вуз такие принимает не глядя. Может кроме топовых специализированных, конечно. Но когда ты просто в своем городе получаешь в политехе общую информатику — то никто не поймет.
>>683663 → Разница большая, канеш. Но зависит от задач. Типа, если писать дипсик кодером 6,7б на пайтон или же чем-нибудь на 30б — дипсик обставит, скорее всего. Но если мы говорим о более общем применении, то тут 70б уделает 7б.
>>683710 → > Смысл на русском? Я просто не понимаю, зачем катать локалки на русском. Не понимаешь — не лезь. Это же база, блядь. Хватит кринжить. Надо — значит надо. Миллион причин катать на русском. У каждого своя. Первый пример — люди себе базовые чаты собирают (ноу джокинг), ты предлагаешь клиентом выдавать перевод с английского через яндекс.переводчик? А смысл добавлять лишние запросы с задержками? Для своих задач этой хуйни хватит. Не понимаешь — сочувствуем.
>>683723 → И вообще, да, «хочу» — главный аргумент, на самом деле.
>>683727 → Именно. Английский технический и английский художественный — не одно и тоже.
>>683745 → > Для них это магия, и нейросети по их мнению прекрасно отвечают на любом языке. Ваще нет. Для них это магия и хуй его знает что. Именно так, ни один новичок не думает, что «нейросети прекрасно отвечают на любом языке». Новички не знают, что и как. Одна строчка «русского языка в моделях мало, говорят плохо, но если хотите рискнуть: на». Фсио. Проблема решена.
> человек Ну или толпа человек, судя по последним прочитанным комментариям. =) Хотя, может это все один сам с собой. Но может и ты один сам с собой? Может весь тред хочет русский в шапку? ) Мы не знаем, если бы мы знали…
>>684550 Ну, 33B, она и в q6 будет неплоха, а в 128 гигов влезет. Так что весьма-весьма норм. Правда ждать придется как 70b, скорость под 0,7~1,5 будет. Короче, в принципе база, но все очень зависит от датасетов и методики обучения. Могут как высрать грок, так и сделать шедевр.
>>685161 В основе опен орка, тоже машинный перевод, но получше, чем РП получилось. Плюс я вычистил его до пятигигового, было дохуя разных "переведите с херостанского" и подобного бреда. Но остальные разные вопросы про ненависть и расизм остались по большей части. Хотя это не DPO, так что похуй. Яндекс нужно попробовать, чувствую, заебусь искать под него апишные точки.
>Хе-хе, верно, это только я. Друзья. В последний раз я встретил прозрачного цветок в лесу, он цвел ярким светом. подмигивает >Хе-хе, все верно, просто мой друг.В последний раз, когда я встречал прозрачный цветок в лесу, он расцветал разноцветным светом.Мгновение ока Первый гугл, второй яндекс. Местами лучше, местами хуже. Пиздос.
>>685164 > Где ты был два треда назад? Игнорировал тред без нужной для инференсов карты
>Меня вообще убеждали что с двумя блоками пекарня взорвётся, а мой пердак улетит на луну, разбросав кровавые ошмёки по всей округе. Ну, эти гуманитарии напиздели очевидно
> Вообще, если райзер заказывать, то похуй, что реле тоже ждать надо. А удобство есть. Райзерами авита завалена кста
>>685130 То есть я могу воткнуть RX580 в такую приблуду? Или наоборот P40? Питание не проблема, у меня блок и так валяется рядом скорпусом т.к. не влазит, он у меня от фермы.
>>685144 WestLake-10.7b-v2-Q8_0 Хуя так, неплохо, на количество круток смотреть не стоит это с прошлых тестов Альпака пресет Хуже на русском, но довольно умна Ну вот теперь у меня стояк анон и все изза тебя Никаких джейбрейков не писал, просто карточка и альпака формат Не знаю че ты там такое делал, все с первого раза пошло без проблем
>>685220 Там у тебя буквально в карточке написано: >{{char}} will quickly agree to whatever the user suggests, and go along with situations presented to her.
>>685199 Давно взял, чего уж там. Мне нравится, что блоки синхронизированы, если что, второй рубится от первого. Что с кнопки, что по защите. Не нужно дёргать скрепки если вдруг когда-нибудь в далёком будущем захочу выключить пекарню.
>>685206 РП данных откровенно мало и качество их всех прямо сказать, хуйня. Вообще насколько я знаю, гугл проксирует большинство языков через английский, так что загнать китайский в гугл, а потом английский в яндекс может оказаться не самой ебанутой моей идеей. Ещё провер очка.
>Grim nodded and began pushing harder and faster. \"Oh sis, you know I'm loving this,\" he groaned, \"I've dreamed and fantasized about this - taking you and having you as my own.\"\nHe moved his hands to her breasts. Fear watched Mandy and grinned as he licked along her neck. \"Tastes sweet,\" he said, smiling. He started to rub his hand in between her legs. \"Nice and warm too.\" >Грим кивнул и начал толкаться сильнее и быстрее. \""О, сестренка, ты знаешь, мне это нравится", - простонал он, - "Я мечтал и фантазировал об этом - взять тебя и обладать тобой как своей собственностью.\"\он переместил руки на ее груди. Фир наблюдал за Мэнди и ухмылялся, облизывая ее шею. "На вкус сладко", - сказал он, улыбаясь. Он начал водить рукой у нее между ног. "Тоже приятно и тепло". >Грим кивнул и начал давить сильнее и быстрее. «О, сестренка, ты знаешь, что мне это нравится, — простонал он, — я мечтал и фантазировал об этом — взять тебя и сделать тебя своей».\nОн переместил руки к ее груди. Страх наблюдал за Мэнди и ухмыльнулся, лизнув ее шею. «На вкус сладкий», — сказал он, улыбаясь. Он начал тереть руку между ее ног. «Также красиво и тепло».
>>685231 >А минусы будут? Модель в память будет грузиться минуты джве. Лучше втыкать p40, а не основную карту, через райзер. Меньше пинусов.
>>685234 >>685246 >Лучше втыкать p40, а не основную карту, через райзер. Меньше пинусов. Но... я и в игори хотел на Р40 поиграть, судя по ютубу она получше RX580 будет...
>>685248 Я считаю так: если карточка без конкретных указаний не может в кум (то есть идет в отказ), явно намекая на ЛИЧНЫЕ ГРАНИЦЫ, то это признак сои. Но, в общем-то если тебе нормально, то окай, собственно это может быть и не плохо даже, когда хочется, чтобы сеточка поломалась пару диалогов, прежде чем приступить к непристойностям.
>>685255 тогда на меньшее количество линий сади затычку, только вроде нужна нвидиа, не помню работает ли с другими видеокартами
>>685261 Это ты просто сдрочился на кум сетках которые сразу соглашаются даже на обычных карточках. Тут же общая сетка, причем без обрезки в возможностях, судя по тому что обычная карточка заводится без проблем. А то ты так написал будто ей кум вырезали, а на деле просто поленился в карточку добавить
>>685255 Сама по себе P40 вполне себе тянет игры, но опять же, на x1 будут просадки, как раз таки из-за скорости. Так что тут нужно x4 или x8. У меня самого P40 в x1 слоте стоит, так что говорю как есть.
>>685265 >только вроде нужна нвидиа, не помню работает ли с другими видеокартами Мне чел в треде наоборот писал что с AMD и P40 меньше проблем, т.к. драйвера разные и работают параллельно, а на Нвидиа надо в реестре то-то прописывать чтобы дрова разные встали и всё заработало.
>>685255 Ну так хочешь p40 в качестве основной - пихай её в основной слот, хули тут думать.
>>685268 На ютубе даже тесты были с играми на х1, если не ошибаюсь. Но что-то мне подсказывает, что для x1 подключения нужно в бивисе включать режим старого psi-e. А смешнее всего будет, если у него мать не поддерживает above 4g.
>>685276 >на Нвидиа надо в реестре то-то прописывать В реестр вообще не лезь, есть шансы, что после этого пекарня будет включаться только в безопасном режиме, пока не откатишь. Пошагово для навидий. 1. Лепишь теслу в пекарню 2. Включаешь в бивисе Above 4gb. 3. Скачиваешь драйвера для датацентров под p40, ставишь. 4. Ребут. 5. Если вторая карточка Nvidia - отвалились драйвера. Устанавливаешь поверх. Не "чистая установка". 6. Всё работает. Две карты на разных версиях драйверов. Тесла не отображается в диспетчере устройств и не будет работать через wsl. С этим уже нужно ебаться, если тебе оно надо.
>>685287 > Тесла не отображается в диспетчере устройств и не будет работать через wsl. С этим уже нужно ебаться, если тебе оно надо. Бля. А много надо?
>>685280 Вот тут не подскажу, у меня видео встройка в проц, но есть и вторая карточка в слоте x16.
>>685276 >>685287 По поводу драйверов: у меня встали самые новые дрова на две видяхи от нвидимо, обе карточки в режиме WDDM. В реестре прописывать надо, чтобы P40 в режим WDDM переключилась, иначе игори не запустишь. И в диспетчере отображаться не будет. И да, если нужно настроить кулер в зависимости от температуры P40 то она должна быть в режиме WDDM, иначе никакой софт ее не увидит. И еще, на 10ке переключение двух видеокарт кривое, приходится вырубать теслу, чтобы с другой картой запустить что-то.
>>685290 Как повезёт, лол. С wsl да, нужно WDDM включать.
>>685294 >иначе никакой софт ее не увидит. Про "никакой" ты перегибаешь. У меня, например, после правок реестра всё сдохло нахуй, пришлось откатывать. У анонов в прошлых тредах было то же самое.
>>685298 Да, по сути, все новые мамки такое тянут. На старых могут быть проёбы, с 3.0 psi-e я бы вообще не брал. А так, находишь мамку, смотришь в поддерживаемые режимы на сайте производителя и решаешь. У меня мать не дорогая, а тянет всё. Стоила 15к, вроде.
>>685287 >2. Включаешь в бивисе Above 4gb. >>685289 >Нужно, чтобы мать работала с above 4gb А для райзера это тоже нужно? У моей MSI A520M PRO VH вряд ли такое имеется.
>>685294 >В реестре прописывать надо, чтобы P40 в режим WDDM переключилась, иначе игори не запустишь. Спасибо за подсказку! Чёт нигде не нашёл четкой инструкции "Как воткнуть Р40 в пеку чтобы ей пользоваться"
>>685310 >А для райзера это тоже нужно? Это для p40 в принципе нужно. Без этого кина не будет. Если мать поддерживает разные reBar и smart access memory, то и абов 4г должен быть.
>>684740 > для кума Что значит "для кума", в твоём понимании? Достал хуй и сходу начал ебать всех подряд — женщин, девушек, девочек и даже маленьких собачек?
>>685280 Смотри. П40 может спокойно работать на х1 через рузер, как и бытовая карта. Обе могут выводить изображение через райзер, для системы и софта не задействующих гпу хватит. Если нужно играть, и не можешь ставить сразу две карты в мать изза размеров, то можешь обе вообще карты в два разных райзера пустить - одну в х1 майнерский, вторую в полноценные псие слот через полноценный райзер с поддержкой псие3 или 4. Выбирай с какой карты играть собираешься. Но если играть на п40 и на ней же генерить кал, то какой смысол во второй карте вообще.
>>685333 я без негатива, братик, просто ну вот по факту не встречал модели, в которых нет секса. везде можно скорраптить, совратить, соблазнить, етц и вставить во все дыхательно-пихательные
>>685285 > На что смотреть в материнке, чтобы смочь две видеокарты поставить? Чтоб не оплошать, как анон выше? Зависит от того что ты будешь с этими картами делать. Если нужен максимум от двух карт сразу, то очевидно мать с двумя полноценными псие портами и посмотреть спеки что происходит с линиями питания при двух картах сразу - на дешёвом говне второй слот может начинать работать в х8 или х4 режиме, так что нужно брать медиум или топ мать на 8+ слойном текстолите, который позволяет полноценно юзать все линии питания при нескольких устройствах.
>>685334 Да хуйня, у тебя что, 5 минут нет заглянуть в гугол?
>>685294 >И еще, на 10ке переключение двух видеокарт кривое, приходится вырубать теслу, чтобы с другой картой запустить что-то. Вот это хуйня, кстати. Никогда не вырубал теслу, разве что нужен wsl. Т.к у меня не wddm, то wsl сходит с ума со включенной теслой. В самой винде всё заебись.
>>685340 Это режим картонки. Программный режим для вывода картинки на экран. В виртуализации тоже требуется, гипер-v, вроде, умеет и без него. А вот разные wsl шлют нахуй, даже если тебе картинка с карты не нужна.
>>685349 Не, видимо проще внешнее подключение как выше сделать > х8 х4 В случае текстоых нейронок так ли уж это важно. Ну вот допустим одна только для игорь, а обе видеокарты только для нейронок.
>>685355 >Вот это хуйня, кстати. Есть еще различные траблы кроме этого, к примеру у меня по какой-то причине вешается пекарня при выключении hyper-v, при удаленном рабочем столе: если переключаться в него при загруженной P40. Иногда раздупляется само, но чаще приходится делать хард-резет. Хочу перейти поэтому на 11, может там все более-менее стабильно.
>>685375 У меня только после правок реестра висло. А так всё стабильно. Сижу на десятке. Энергосберегающие режимы работают, включение чего угодно с одной, второй или обоими картами - тоже работает. Делаю просто CUDA_VISIBLE_DEVICES, если нужна одна карта. Я и реестр-то правил только ради wsl, но не повезло, не фартануло.
>>685339 >Но если играть на п40 и на ней же генерить кал, то какой смысол во второй карте вообще. Дык чисто для видеовывода, р40 то не умеет это. Либо через встроенку, а если нету то извольте пердолится с 2 затычкой картой с видеовыходом
>>685400 >ддр5 Тогда это точно новые материнки и всё будет заебись. Разве что имей ввиду, что слоты m2 подключаются к процессорным линиям обычно и каждый жрёт 4 линии. Допустим, у процессора 20 линий, минус 4, уже 16. То есть две карты х8 это потолок. Больше 20 линий ты добудешь только на серверных камнях, кстати.
>>685374 >видимо проще внешнее подключение как выше сделать Ну да, естественно проще, да и дешевле, вон мамки с сокетами из 2010 или ксионы прекрасно работают, не учитывая конечно отсуствтие авх2. >В случае текстоых нейронок так ли уж это важно. Майнингу, языковым моделям и txt2img поебать на линие псие. Единственное это чуть подольше будет грузить модель в рамку карты через урезанные линии. >Ну вот допустим одна только для игорь, а обе видеокарты только для нейронок. Тогда одну карту в примари псие 16x, оставшую поебать куда.
>>685428 Зионы кстати поддерживают avx2, новенькие которые. Не помню точно, v3 и v4 вроде имеют. Ну а собирать сервер на более старых камнях нет смысла, они и так производительностью на поток не блещут да и память медленнее Ну и кто надумает, берите мамку с 4 поточной памятью и 4 плашки памяти, 64 или на крайняк 32 гига в сумме. Какой нибудь 1660v4 или че нибуь еще в треде зиона спросите.
>>685432 Это если карта одна, то работает в х16. Если ты ставишь две карты, то х16 обычно дробится. И два слота работают в режиме х8+х8. У меня стоит один m2, то есть работает всё в режиме х4+х8+х8. Материнка такой режим поддерживает, всё хорошо. Картам достаётся по 8 линий от процессора. Все остальные линии уже запитаны от чипсета. Разные внешние девайсы, сата и т.д. У чипсета тоже 20 линий, но это уже зависит от материнки. Если поставлю третью карту, то на неё линий процессора уже не будет, будут от чипсета. Но возможно ты найдёшь мать с поддержкой других режимов. Например, три по х4. Но я не вникал в вопрос, есть ли такое. Скорее всего есть.
>>685456 Чисто в теории да. На практике даже в играх разницы нет, в негронках тем более.
>>685460 > линие псие, жертвовать нинужно А вот это уже ложная информация. На некоторых материнках второй и третий могут быть запитаны от чипсета. Но это уже смотреть надо. Первый же всегда будет хавать линии процессора. Или платы типа B550, они поддерживают и процессорный режим, и чипсетный для второго и третьего m2, но первый всегда только процессорный. И все они расходуют линии psi-e.
>>685472 >А вот это уже ложная информация. На некоторых материнках второй и третий могут быть запитаны от чипсета. Так речь про один ссд была, и там нюансы по процам еще и слоям текстолита. Конечно на говне из говна все будет резаться, но в целом не существует бюджетных мамок с более двух м2 (исключение обрезки с однопортовым псие) и бюджетных процов под них.
>>685175 > Это оторванность от мира, когда ты не знаешь, как оно работает на практике (не пробовал), но заранее высмеиваешь оппонента. Бинго! Как раз только судя по ограниченному экспириенсу и под впечатлением от первого успеха с такой/подобной мелочью, можно сделать подобные выводы о том что хорошо а что плохо. Если же хочешь это в мою сторону это употребить - едва ли здесь найдется человек, который пробовал больше и локалок и коммерции. > икто не преподности как йоба-модель В этом и корень срача, на "смотрите смотрите йоба" не пошло ожидаемой реакции а наоборот хейт и разгорелся срач. Сайга всегда была залупой, годна лишь как удобный пример плохого. > и теоретики уверены, что опенчат дурачок, там же циферка 7 Практика тоже не в его пользу идет. Вон, мамин практик наделал некогерентной, неинформативной и противоречащей себе воды, которую читать невозможно, и в себя поверил. Что самый рофл, оно явно было потом поправлено вручную и всеравно осталось трешем, тогда как с таким инструментом и ручным трудом можно было бы вполне оформить красаву лишь осознанно вникнув в написанное и сделав серию запросов с наводящими уточнениями. И потом в ту же или другую сетку скормив почастям чтобы уменьшить объем воды и добавить содержимого.
На той же практике во вполне прикладных задачах, где требуется отдаленное подобие абстрактного мышления и понимание описанных на месте концепций 7б малоюзабельны вообще, в отличии от той же yi, которая все понимает на лету и четко-правильно отвечает. Хз что там насчет копипасты плейнтекста в json в соответствии с запросами, но банально обозначить соответствие/несоответствие в паре описаний с различным стилем и с учетом бекграунда оно фейлит ну очень частно, не говоря уже о том чтобы потом переработать один текст с учетом содержимого другого. Китаянка позволяет просто анатендед кормить ее, а детектить небольшой процент фейлов по явным признакам и тут же делать повторный запрос. > Дженерик любая работа студента, камон, любой вуз такие принимает не глядя. > Дженерик любая работа студента в днище пту где всем похуй Первое - нет, второе - да. Опять какая-то базированная тема со снижением критериев всего и вся, с ориентацией на самое худшее и преподнесением того как нормы. Не надо так. > Ваще норм за седня навалили новых сеток. И файнтьюнов, и прям новых. Каких?
>>685315 Без этого кина не будет. Бля. Всмысле вообще не определится без этого? А как точно узнать, поддерживает ли это материнка? Вот например спецификация на материнку, которая у меня на местном авито за 5к валяется https://ru.msi.com/Motherboard/B450-GAMING-PLUS/Specification И там ни про какой Above 4gb не написано, значит не поддерживает?
>>685280 Ну, чего. Если человек играет на рыксе — то ее надо пихать в основной. Если планирует играть на тесле — то теслу. Игры к пропускной способности слота более придирчивы, а у нейросетей чисто модели грузить дольше, остальное незаметно. При этом, долгую загрузку модели ты явно переживешь, это не страшный минус. Но если играть на тесле — то там стоит ее в первый слот ставить, конечно.
>>685294 А не тестил? У меня в WDDM скорость была 4,5 токена на тесле, я погрустнел и переключился обратно.
>>685310 Этого на старых матерях нет, а твоя новая, скорее всего все ок должно быть.
>>685339 > какой смысол во второй карте вообще Выводить изображение, если нет встройки. Тесла же тебе картинку не даст, портов нема.
>>685375 Нашо вам енти виртуализации, сижу с venv'ом и норм.
>>685184 > подмигивает > Мгновение ока Потерпел капитальное поражение >>685219 Да ну, просто единичная инструкция, которая не влияет на остальное. Если сильно напрягает - удали ее из сообщения сразу после получения нужного. >>685220 > не стоит это с прошлых тестов Лучше новый чат начинать, история с прошлого может как улучшать, так и сильно портить новые ответы. На первую прямо четко ответило, в рп - средне. Описание в целом норм, на повторения и странные предложения особо внимания не обратишь, но тут буквально нет ничего от Аквы, окружения и т.д. Может фуфлыжные промт-карточка-история, но забайтил скачать попробовать, действительно ли там проблема с переходом.
>>685485 >Так речь про один ссд была Один всегда отжирает х4 линии. >там нюансы по процам еще и слоям текстолита По слоям похуй. На дорогой z790 карбон вайфай 2 аж 5 слотов m2. Из них два от процессора и отъедают аж 8 линий. И уже при включении второго m2 видеокарта в основном слоте переключается в режим х8. И это дорогая плата с хералионом слоёв тестолита. Только слои нихуя роли не играют, кстати.
>>685492 Хуёвая плата, насколько я знаю, будет работать только в gen 2 режиме этот самый above 4gb. Забиваешь в гугл название доски + above 4gb, находишь первый попавшийся майнерский форум и читаешь, как они включают.
>>685469 А, нихуя не гоняю толкового. Даркфорест 20b, только в ггуфе он тупой, пиздец. Запускал что на основной, что на тесле. В любых других вариантах мозгов больше. Гонял ещё разные 13b, но это 13b. Короче по негронкам я не особо опытен. Единственный профит мощного чипа это игры, а в негронках нужна память. Так что здесь я соснул.
>>685503 >Из них два от процессора и отъедают аж 8 линий. И уже при включении второго m2 видеокарта в основном слоте переключается в режим х8. И это дорогая плата с хералионом слоёв тестолита. Только слои нихуя роли не играют, кстати. Слои влияют на разгон памяти. А линии зависят от от проца, бери i9 монстеркок едишн на 48 линий если уж берешь топ мать.
>>685498 >Лучше новый чат начинать, история с прошлого может как улучшать, так и сильно портить новые ответы. >На первую прямо четко ответило, в рп - средне. Описание в целом норм, на повторения и странные предложения особо внимания не обратишь, но тут буквально нет ничего от Аквы, окружения и т.д. Может фуфлыжные промт-карточка-история, но забайтил скачать попробовать, действительно ли там проблема с переходом.
Да там в начале считай только приветственное сообщение сетки и сама загадка, дальше просто пару раз свайпнул и охуел. Так мне 7ки еще не отвечали.
По рп я там сам отвечал коротко, сетка просто подстроилась под мой ответ. Я не напрягался с отыгрышем просто за ответа 3-4 подведя к секасу без напряга, чисто проверить как оно. И сетка дала неплохое такое описание кстати. Как оно работает дальше не тестил, ни времени нет, ни желания пока. Да и сеток за ночь накачал новых штук 7, когда еще руки дойдут до всех проверить хз. Но прогресс в 7в нихуевый такой, несмотря на их тупость и плоскость их знатно выдрочили за пол года
>>685261 Здесь тонкая грань. Если контекст не подходящий а чар не кумбот - отказ вполне закономерен и должен быть, иначе это клод херня. Если у вас там уже обнимашки в приватном пространстве, чар eagers for more, а при явном предложении или действиях там что-то про > ЛИЧНЫЕ ГРАНИЦЫ то это пиздец. >>685285 Если будешь играть - просто бери что-то современное, основную гпу в главный слот, пусть там будет х16, а теслу для ллм в дополнительный чипсетный, х4 ей хватит. >>685484 В требовательных игорях и с йоба карточкой уже сейчас х8/х16 3.0 могут приводить к просадкам. В младших карточках где линий недоложили там вообще много нытья, а если выгрузка врам то все. Для ллм, расчетов и подобного где нет большого потока данных даже х4 хватит всем. >>685503 > Из них два от процессора и отъедают аж 8 линий. > PCI Express Configurations Up to 1x16+4, 2x8+4 Что?
>>685504 >Не от псие же От святого духа, блядь. От psi-e он и отжирает. Я тебе больше скажу, все SATA тоже сидят на PСI-E и может оказаться, что при подключении хералиона m2 у тебя не только PСI-E слоты отваливаются, но и SATA.
>>685506 >бери i9 монстеркок едишн на 48 линий И отсасываешь потного хуйца. У i9-13900 аж целых 20 линий, а переключением режимов слотов рулит материнская плата.
>>685511 >От святого духа, блядь. От psi-e он и отжирает. дурачок, pcie-e это название линий самих, и это не равно что у тебя от слота спиздит 4 линии, в этом суть, один м2 берет свои обосранные 4 линии, основной слот карты будет также в 16
>>685497 >А не тестил? Между режимами - нет. На 70b модели q6_k - 1.5 токена, на q4_k - 7.5 токена, не критично, меня вполне устраивает и 1.5 токена, главное чтобы логично отвечала.
>>685505 Думаешь именно в gguf проблема? 13b по большей части очень быстро забывают нить диалога, и любят слишком быстро двигать сюжет, дописывать кучу телодвижений. Мне из 20b приглянулась noromaid-20b-v0.1.1, временами отвечает даже лучше 70b, но это чисто субъективный опыт.
>>685486 > Если же хочешь это в мою сторону это употребить - едва ли здесь найдется человек, который пробовал больше и локалок и коммерции. Не, ну тут ты ЧСВшишь, серьезно. Умерь пыл, без негатива, просто… Я сам-то не претендую, что у меня, чатгопота только, да локалки все, кроме грока. Клода не юзал, мистрали апишные. Но и то что ты писал в первых сообщениях — ну бред же. Русский никому не нужен, а 640 КБ хватит всем.
> которую читать невозможно Ну, прочли же, зачли, значит работает. =) Ты сейчас как те люди, которые говорят «нейросеть пишет нечитабельный код, значит не сможет заменить программиста, ведь его сложно поддерживать». Это называется «шашечки». А «ехать» в том, что клиенту читабельный код нахуй не нужен, и его будет поддерживать та же нейросеть. В контексте — он сдал сессию на третьем курсе? Ну все, заебись. Практически оно и правда охуенно, даже если ты не согласен. Практика не про наше мнение, а про его оценку (в зачетке, которая).
Хотя, текста бы ей я тоже писать не стал, если честно, тут хотя бы мику/гпт. Но это вкусовщина, по итогу.
> Первое - нет Первое — да. Вот я сейчас даже предположу (совершенно в пустую, нам не важна корректность моего утверждения), что ты — в том числе преподаешь на кафедре в минимум среднем ВУЗе, и подобную бы работу отпиздил ногами вместе с автором. И из этого делаешь вывод, что нет. Но! Это лично твой перфекционизм, он корректен, но не у всех есть. Большинство преподов просто такие «ммм, вода, но что-то по теме, окей-окей, сдано…»
При этом, я не спорю, что плейнтекст в json она может просрать, хотя применение плюс, канеш, и абстрактного мышления у нее может не хватать, но когда я юзал ее в том же погроммировании простых задач, без учета глобальной архитектуры проекта, то гпт4-11-06 фейлило в 20% случаев, а мистраль — в 60%. Дохуя? С другой стороны, 7б моделька была права в 40% случаев, и иногда там, где чатгопота обкакивалась. И это я говорю о зирошотах, без свайпов и прочего. Чисто практически вопрос-ответ, все, точка. На русском, кстати. =)
Так что, для практики — модели уже юзабельны. Ну правда. =) И он — живой тому пример. Хуево это, что такого малого качества хватает? Ну, окей, хуево, но маемо шо маемо, хули тут. =)
> Каких? Ну, чего там в прошлом треде понаписали, две моешки, еще че-то.
>>685492 Бля. Зайди в биос и посмотри, камон. =) У тя ж есть а520, да? И рыкса уже воткнута? НУ ВСЕ. ВПЕРЕД. ИЩИ.
>>685515 > q6_k - 1.5 токена, на q4_k - 7.5 токена Нихуя разнос, ну ладно, главное чтобы тебя устраивало. Да в принципе и мне лень разбираться, почему у меня 6,3, а не 7,5. Тоже переживу, думаю.
>>685510 >Что? Что? Смотри спеки на сайте. Или вон я пик приложил. При двух m2 плата переходит в режим 4+4+8. По 4 на каждый m2 и х8 на основной слот карты.
>>685514 Ясно. Нахуй иди. То у него m2 не линии писиай расходует, то уже писиай, но не больше четырёх. Ещё зачем-то разгон памяти приплёл, который к писиай вообще никаким боком.
>>685515 >Думаешь именно в gguf проблема? Конкретно лес я сначала гонял в exl2 и ггуф. Потом скачивал голые веса. Я не говорю, что все модели в ггуф пиздец, но конкретно он - поломанный. Он 20b. Норомейду тоже гонял, но без квантований. В целом, нравится.
>>685439 Кстати говоря щас заинтересовался сколько линий доступно зионам, у моего 40 линий Так что если кому то хочется линий и не волнует супер производительность на ядро то вэлком ин клуб Свои 8 ядер 16 потоков с 3.4 ггрц по всем ядрам или 3.8 на одно я имею, и мне хватает для домашнего компа. На поигрульки в принципе тоже, я нынче не особо играю. Игорь тонет.
>>685508 Прогресс знатный вполне, год назад такое вкинь и скажи что 7б - никто бы не поверил. Да, там могут потом вылезти базированные проблемы и не почувствуешь отыгрыша, но для начала стоит и такое заинджоить. А может и не вылезут получится на свайпах получить заебись. >>685516 > Не, ну тут ты ЧСВшишь, серьезно. Лишь констатация неуместности того наброса. > Но и то что ты писал в первых сообщениях — ну бред же. Ты там с кем срался с того и спрашивай. Заебала эта шиза, меньше чем за день 180 постов, от (почти) 40 уникальных постеров, а эти они все пытаются детектить своих обидчиков. Особенно рофлово что в других (you) ты со мной дохуя соглашаешься. > Ну, прочли же, зачли, значит работает. =) Посмотрели на размер, кринжанули с содержимого и скипнули. Это нихуя не норма, может для заочки в днищевузе мухосрани и норм, или там предмет вообще не основной, но сути не меняет и не красит. > Первое — да. Не нужно судить по болоту и экстраполировать его но все. > что ты — в том числе преподаешь на кафедре в минимум среднем ВУЗе Мимо хотя изредка беру студентов А за работу стоит отпиздить уже потому что там заключение ни на что не отвечает и себе противоречит, не говоря о явной нейроте. > для практики — модели уже юзабельны С костыльным подобием рага можно и 1.5б посадить на чатбота поддержки, это не говорит об их эффективности. На практике в обозначенном контексте - это когда ты действительно можешь на модель положиться зная что из множества запросов она сделает хорошо хотябы 2/3, также как год назад делали с гопотой.
>>685439 >64 или на крайняк 32 гига в сумме 128, чтобы мерджи SDXL вытягивало да, я в курсе что я в другом треде > Какой нибудь 1660v4 Не, ты че, 2xxx-v3/v4, в зависимости от задач, на в3 анлок турбобуста можно делать что под игры заебок, v4 чисто монстр для работы и поигруньках в принципе тоже потянет
>>685533 > Лишь констатация неуместности того наброса. Обиделся, вижу же. ) Ну ты тоже извини, дальше вроде все корректно было.
> Ты там с кем срался с того и спрашивай. Я вообще ни с кем не срался. =) Так я, тащемта, и не против, ты часто все верно говоришь. Претензия чисто одна — русский нужен, заебал, и он на том же опенчате с грехом пополам рабоч и юзабелен. Ну теряем токены, ну кривое построение фраз бывает, но нормас-нормас. До мистрали все было ахуй, и сайга даже имела смысл, хотя была говном. После мистрали языки подтянулись, и опенчат даже немножко закрепил (хотя многие файнтьюны, конечно, забили русский язык).
> Не нужно судить по болоту и экстраполировать его но все. Повторюсь, я сужу по ГУ городов-миллионников. Не Мск или СПб, но Екб и ниже. И я говорил о первом курсе — там прокатывало у людей.
ТЕХНИЧЕСКИ Я ВАЩЕ ПО БОЛОТУ НЕ СУЖУ АХАХАХ
Все, надеюсь разобрались, каждый останется при своем мнении, а выяснять кто прав статистически не стоит того — через годик-другой у нас будут совсем другие модели. =)
>>685541 >Ну ты про выбор матери тоже не забывай. Хуананжи взял, не стал самый дешман брать 4 линии памяти, куча м2 слотов, качество приемлимое, 4g хуйня тоже вроде есть
>>685539 Или 128, кому как. Меня жаба задушила, ну и я не думал что микстраль выйдет, думал большие сетки тупо не буду запускать, которые 1т/с с такими размерами будут. В итоге взял 32 и теперь не хватает, ну и похуй, не особо и хотелось. Не люблю слишком медленную генерацию, минута две на ответ еще ладно.
v4 мой жрет 50-70 ватт не больше, а вот v3 такой же с 8/16 жрал бы 90 ватт с анлоком. А по частотам они выходят одинаковыми, так что новенькие v4 из 8 ядер и с максимальными частотами это топчик везде и жрут не особо много.
>>685427 >Больше 20 линий ты добудешь только на серверных камнях В новых интулах вроде 28 уже, в амудях тоже, но там 4 линии уходят в чипсет. Так что если на плате есть разделение на 8+8, то с переходниками M2 -> PCI-Ex4 можно заюзать схему 8+8+4+4 (SSD можно кинуть на чипсетные линии, пускай страдает). >>685447 >Например, три по х4. Но я не вникал в вопрос, есть ли такое. Очень вряд ли. >>685531 >у моего 40 линий Третьей версии кстати. К P40 норм, можно сделать 16+16+8. >>685545 >16х4 ддр5 Вот тут ты обосрался. Бери 2х32, или 2х48, если дохуя мажор. И частоты побольше. 4 плашки на DDR5 не бери, будешь пердеть на скорости DDR4 10 летней свежести, пикрил как пруф.
>>685549 > 4 не бери Зачем тогда производители 4 ячейки делают? Да мне большой обьем нужен для нейронок скорее. На всякий провсякий А так мне 32 вполне хватило бы.
>>685555 >в чем конкретно проблема 4х плашек? шиз не смог разогнать плашки до 6к на неплохой матери с 8 слоями текстолита (возможно купил говно несертифайз под 6000 скорость от амуде, сэкономил и толькопроиграл) и вайнит на ддр5, не обращай внимания
>>685555 Скорости не держат, а значит скорость памяти будет фиговая На 2 можешь под 110 гб/с получить и крутить модели быстро На 4 вроде 70-80 потолок
>>685557 Нюансы есть, легко обосраться взяв например мать не с 4 линиями памяти и получить пердеж в лужу на нейронках, так как скорости в 2 раза меньше будут. Ну или камень взять многоядерный но низкочастотный, погнавшись за количеством ядер. Короче как и везде нужно подходить с умом
>>685555 Не тащят. >>685556 >Зачем тогда производители 4 ячейки делают? Чтобы продавать, лол. Вообще скорее по инерции, плюс в JEDEC с 4800 4 плашки работают, так что производитель говорит норм и продаёт с каменным лицом. А вот XMP уже хрен заведёшь. >>685557 >В 14900 линий тоже 20. Причём 16 gen 5, а 4 gen 4. А 15 ещё не вышел, вроде. Или я проспал всё. А, точно, я с чипсетными попутал. Вот их там вроде вагон. >>685560 Чел, оно и на интуле так же. Вот просто не тянут 4 плашки на норм скорости, и всё на этом. Дело не в скилах (тем более скрин не мой, я то умный, не наступил на эту мину). >>685565 5 кеков на DDR5 это издевательство, а не скорость. Нормальные люди запускают в 6400 на амудях или в 7000+ на интулах.
>>685566 >5 кеков на DDR5 это издевательство, а не скорость. Где сказано что чел будет брать 32x4? >Нормальные люди запускают в 6400 на амудях или в 7000+ на интулах Но не 128 гигов...
>>685566 >Не тащят. У моего кореша стоят 32х4 планочки на ddr4, xmp держат, все работает. Вряд ли тут найдется анон с 32х4 планочками на ddr5, какие ваши доказательства, что не работает, проверяли лично?
>>685575 >Где сказано что чел будет брать 32x4? Нигде, он собирался брать 16 гиговые плашки, лул >>685545 >Но не 128 гигов... 96 пока максимум, да (( Жду 64 гиговые плашки, тогда заменю. >>685577 У DDR5 скорости в 2 раза больше, плюс новые, не отлаженные разводки платы/плашки/контроллеры в проце. Так что ничего удивительного, что оно так деграднуло. Может, через пару лет поправят с новым железом, но пока так.
>>685586 >И восемь модулей DDR4 Будет четырёхканал и большой объём, по я не совсем понял, зачем всё это? Разве мы все здесь не гонимся за большим количеством врам? На оперативной памяти только Грока и запускать...
Думаю вот, стоит ли прикупить к паре моих тесл 3090. Много ли будет профита? Оно понятно, что производительность будет по слабым картам, плюс row_split тогда включать не имеет смысла. Но с другой стороны весь контекст по идее будет обрабатываться на первом ГПУ, а именно на 3090. Может есть у кого такая комбинация, поделитесь впечатлениями.
>>685628 >Но с другой стороны весь контекст по идее будет обрабатываться на первом ГПУ, а именно на 3090. Всё так, бери, не пожалеешь. И контекст сможешь нормальный выставить, гоняя 6 квант и 16к контекста.
>>685608 Так 8 слотов это больше, чем 4 на обычных матерях. Итого х2 возможный объём. У меня вот мамка поддерживает DDR4\DD5\ECC\non-ECC, а слотов 4. Опять же, дохера врам это хорошо и вкусно, но коричневые прослужат дольше рам стоит дешевле.
>>685541 > Обиделся, вижу же. ) На что нужно обижаться? > Претензия чисто одна — русский нужен Похуй на эту тему, каждый дрочит как хочет, лишь огорчение с того что локалки деградируют на русском. Опенчат что может - прецедент, но слабоват всеравно. Его бы для переводов применить лучше попробовали вместо новых побед, которые мы заслужили. > там прокатывало у людей Прокатить в отдельных условиях оно может где угодно, достаточно лишь удачи. А вот сдать такое чтобы препод прочитал и не проиграл - уже достижение. >>685545 Да, кроме > 16х4 ддр5 ни в коем случае, 2х32 или 2х48 и не знай проблем.
>>684928 > Наверное, потому что для SD рекомендуемое количество эпох 100+ Нету особой разницы где делать чекпоинт, если у тебя не сильно замороченный конфиг, в котором что то зависит именно от эпох, вот поэтому и стало любопытно почему тут совсем другая рекомендация
>>684817 Чтобы поломать и заставить поругать расовые меньшинства, или продемонстрировать насколько убоги модели со встроенной повесточкой. >>684928 > Наверное, потому что для SD рекомендуемое количество эпох 100+ Ебааать >>685565 Этот дроч на слои на грани шизы уже, и тиражируется не соображающими васянами. Проблема 4 модулей ддр5 вообще не в качестве линий данных. >>685649 > У меня вот мамка поддерживает DDR4\DD5\ECC\non-ECC, а слотов 4 Хуясе ебать, 2 типа памяти в одной? Казалось такие конструкторы со времен ддр2 пропали. >>685799 Сколько памяти?
>>685799 Этож та новая плата с али на 2 проца? Че как, ну кроме биуса слетевшего?
>>685812 >Чтобы поломать и заставить поругать расовые меньшинства, или продемонстрировать насколько убоги модели со встроенной повесточкой. Эт надо, но я в такое нырять побрезговал
>>685545 ddr5 — лучше 2*48, не? Типа, двухканал, быстрый, без багов, и максимум объема? Пусть меня поправят. 96 эт минимум, мало ли что интересное выйдет. =)
>>685565 16 никогда не будет идеально. Хотя бы 32 ради 128 гигов.
64 гига иметь четырьмя планками — это пиздец. Понадобиться больше — все на выброс, новые покупать. Надежный план.
64 для игр норм. Ибо даже до 32 уже добираются некоторые.
>>685608 Ну, прикинь, грока сможешь запустить. А никто не сможет. Или еще что-то выйдет. И ты сможешь. А другие не смогут. Типа, никакого иного смысла брать ддр5 с последними поколениями интела я не вижу, если не гнать память и иметь ее максимум ради больших моделей. На зеонах теслы будут чувствовать себя охуительно так же.
А игры… Играм так же хватит какого-нибудь 11 поколения, если играешь не на 4090.
>>685802 Ну хуй знает, я не делал лоры под SD, просто читал рекомендации.
>>685812 >Хуясе ебать, 2 типа памяти в одной? Ага. Добро пожаловать в z690. Но ещё зависит от проца, понятное дело, что с процом на DDR4 память DDR5 не заведётся. Но есть много профитов. Режим x8/x8/x4 CPU pci-e, 4 слота под M2, при этом 3 из них запитаны от 28 линий чипсета, три слота под картон, хералион разъёмов под лгбт и вентиляторы. Причём при подключении всех m2 отваливается только два разъёма SATA из шести и больше ничего. А главное, что каждый fan разъём поддерживает ток 2А, что позволит мне подключить уже доставляемые серверные вентиляторы на 15к оборотов.
Короче, если ты настолько богатый, что можешь себе позволить 2-3 4090, то какая тебе разница, сколько там стоит ddr5 —покупайотборные модули и все. Если ты экономишь, беря теслы, планируешь играть на них или какой-нибудь 3060@12, то, очевидно, тебе ddr5 один хуй ничем толком не поможет, подняв события 0,1% на 5 фпс раз в 3 дня. Я не вижу ни одной причины брать мало памяти кучей плашек, чтобы при апгрейде ВНЕЗАПНО покупать новую, ибо пихать доп уже некуда. И при этом, переплачивать за новизну платформы. Либо ультовать, либо забить болт.
По факту, даже 1 плашка на 48 гигов при покупке уже закроет почти все требования. Когда захочешь апгрейднуть — просто возьмешь вторую такую же плашку и все. Да, частота будет как у ddr4 в двухканале, но если ты экономишь деньги —вряд ли гоняешь нейронки на двух 4090.
Это >>675841 →>>677457 → кун. Заполучил заветный считыватель пост кодов, а значит время оформлять истину в последней инстанции. >96 - Дополнительная настройка системных ресурсов Таки >>675889 → скорее всего был прав.
>>685829 >Этож та новая плата с али на 2 проца? Новая? Вообще, нормально. Приехала в идеальном состоянии, поработала два года и вот мы здесь. Брал в официальном магазине Хуанан.
>>685972 И правда стоп токен это я в угабугу загрузил exllama2 модель, а там поломаны стоп слова в последней версии, прописал вручную вроде норм стало, но хочу через api использовать, посмотрим как пойдет
>>685979 >exllama2 И поделюсь да, exllama2 на deepseek-coder-instruct-6.7 выдает значительно большую скорость инференса чем llama.cp (ну у меня так) на 4090 получается 80-90 токенов в сек
>>685979 > но хочу через api использовать, посмотрим как пойдет Так и нужно, чат в убабуге не самый удобный для того же ролплея и также хорошо не получится формировать инстракт промт. Точнее может и получится, но задание формата там просто безумное и не особо удобное. >>685980 Так и есть, эксллама быстрее чем llamacpp, особенно на больших контекстах. Она и памяти меньше кушает.
>>685870 >Таки >>675889 → → скорее всего был прав. Если у тебя реально z170-a, то в двух верхних слотах должно работать. В теории. Если не работает, то чипсет неуиноват, там от проца через демультиплексор идут линии. Я бы ещё биос поебал, там, вроде чипсетные линии по дефолту в х2 режиме заводятся, нужно переключать. Или включить gen2, поебать max TOLUD, станцевать с бубном. Майнеры на ней 7 карт заводить умудрялись.
>>685986 >инстракт промт. В каком-то обновлении выпятили это всё сбоку от чата.
>>685995 >двух верхних слотах должно работать. Делал. Тоже 96, но не фотал, тк видеокарты закрывают обзор. >демультиплексор В ранних постах он упоминался, даже картинка была. И в нём, скорее всего, вся магия. В двух верхних слотах не работает, принудительная инициализация встройки тоже. У майнеров не водились above 4g.
>>686007 7b на 4 бит фигня, лучше 8 крутить или около, пусть чуть медленнее чем на 4 битах. 7 тупеют на них сильно Бери самый жирный что найдешь короче
>>686135 > с целенаправленно вырезаными кусками, так что бы нельзя было открыть файнтюном Это не так работает. А один из основных профитов с лламы - развитие методов файнтюна.
>>686163 А они щас по закону вобще могут выпустить не соевого лоботомита? И что они там пол года делают с ней? Натренить с их возможностями неделя две, по крайней мере 7b. Хотя не удивлюсь если и за месяц 70 могли бы сделать.
>>686177 Так дело в данных, а не в мощностях. Они скорее всего собирают мега датасет, чистят его вилкой, да пробуют всякие новые методы, чтобы их модели в тестах выебли все мистрали и прочий попенсорс. А уж соевость ХЗ, как придётся, надеюсь, будет как в прошлые разы, нормальная база и соевый чат.
>>686205 Отсосут, ллама не мистраль, у тех ребят какие то более современные наработки. Без учета клозедаи конечно, эти пидоры хранят гору секретов которые тормозят прогресс в этой области на годы вперед
>>686213 Так если отсосут, то нахуй вообще ждать новые лламы? Я всё таки надеюсь, что выкатят достойную базу. Ибо тогда зачем вообще это делать. Не позориться же, как гугл.
>>686217 >ждать новые лламы? Ради нормальной 30ки хотя бы, да и 45 -72 че нибудь такое тоже может быть У нас есть только сырая мику которую нельзя файнтюнить, базовой модели нет а значит она мертва и устаревает 30 китайский кал, нет они хороши, но недостаточно 7 и 11 норм, но только усилиями энтузиастов
>>686220 >7 и 11 норм, но только усилиями энтузиастов Ну и благодаря рекламной компании мистраля, которые 4 месяца мариновали базовую модель мистраля 0.2
На самом деле надежды на 30 у меня призрачные, так как они в прошлый раз зажали выпустить базовую модель 34 ллама2 Выкинули только какой то кал как бы для программистов, базовую версию нам не дали на сколько помню И шансы что они ее дадут призрачные, очень уж она хороша соотношением мозгов и доступности оборудования энтузиастов. 70 не жалко, их могут файнтюнить 1.5 энтузиаста, а запускать в приемлимом качестве и скорости 3.5
Новая фундаментальная модель, не трансформер. SSM 52B MoE, 12B активных весов, 256К контекста, 140К влезает на один GPU (видимо они имеют в виду A100 или H200).
Поясните, в чём фикус мамбы/SSM/S4? Я так понимаю у них затухающий аттеншен, как у RWKV? Или они как и трансформеры хорошо умеют в иголку в стоге сена?
>>686240 Если это мамба, то она быстрее в 5 раз, и меньше в 2 раза аналога на трасформере, + контекст больше миллиона с линейным ростом сложности, замедляется не так быстро генерация как на трансформерс Эт то что помню, мог что то забыть или напиздеть
>>685287 >Всё работает. Две карты на разных версиях драйверов. То есть ты точно можешь загружать GGUF-модель на теслу и игровую нвидиевскую карту, совместно используя их видеопамять?
>>686242 Да, это мамба на дрожжах, и они пишут что она в 3 раза быстрей на больших контекстах. Вопрос только все ли токены в тамошнем аттеншене равноценны, как в трансформерах. Вроде как я понял у них снижается внимание к токенам ближе к началу или концу контекста.
Слои MoE Jamba позволяют использовать только 12B из доступных параметров 52B при выводе, а его гибридная структура делает эти активные параметры 12B более эффективными, чем модель только для трансформатора эквивалентного размера.
>>686254 Это MoE. Несколько экспертов и сетка-роутер, выбирающая кому из них отдать токен (активных может быть несколько, обычно 2). Нельзя сказать сколько там в сумме или по отдельности, поэтому говорят что всего 52 (всё это придётся держать в памяти), а активных 12.
>>686283 Я знаю, я просто первым делом 12b увидел а потом результаты тестов и такой нихуясебе прогресс скакнул Так то неплохая сетка, даже при таком размере сильнее внушает надежду на большое количество знаний и мозгов
>>686274 Ну, опенчат новую попробуй или старлинг бета openchat-3.5-0106.Q8_0 Starling-LM-7B-beta-Q8_0 Они могут в русский на более менее уровне, хотя бы А вот как они в ерп хз, проверяй Ну или мику, если ты 70b потянешь
>>686177 > А они щас по закону вобще могут выпустить не соевого лоботомита? Еще как могут, не смотря на пляски клоунов именно запрещающих законов сейчас нет > Натренить с их возможностями неделя две Сильное заявление > по крайней мере 7b Нахой нужно, и так зоопарк инвалидов. >>686194 Двачую >>686213 > у тех ребят какие то более современные наработки Мелкая контора, которую покупают по цене железа vs пожирающее огромные средства отделение с огромными ресурсами, штатом и возможностями. Хм, у кого же будет современнее. >>686217 Да не отсосут, даже если просто соберут наработки за прошлый год и правильно оформят - будет топчик, который еще лучше потом до ума можно будет довести.
>>686240 Интересно завезут ли в нормальные лаунчеры. >>686265 Увы, пока модели тренились мода и надежды на МОЕ затухли, вот идет новая волна. Нужно потыкать, но скорее всего будет далеко от топа, даже довольно обидно сколько усилий впустую.
>>686445 >Че там к её охладу брать, аноны? иммерсионную ванну + жидкость или турбину боковую типа "улитка" или колхоз из мощных вентиляторов на радиатор (можно пвм, но тогда пускать через диммер чтобы подобрать комфортную скорость охлада)
>>686447 > турбину боковую типа "улитка" Вот об этом и разговор. Какие там лучше брать? Как подключать? Через Реобас? Как это всё грамотнее оформить крч.
>>686396 >надежды на МОЕ затухли Это какие? Не думаю что кто-то всерьёз говорил что MoE умнее или что-то в этом духе. Кроме пары довенов, не понимающих как это работает. MoE лишь ускоряет инференс и работает на гетерогенных сетапах - несколько ГПУ с медленным линком. Это делает их дешёвыми и удобными для ДЦ. >вот идёт новая волна. Просто большие сетки надо дольше обучать. Меня в джамбе удивило то что у них отсечка 1 марта, это они меньше чем за месяц натренили, сколько же у них мощностей.
>>686445 Радиатор у теслы максимально всратый, это не адекватные охлады от игровых карт. Здесь нужен ебанутый воздушный поток. Давление похуй, рёбра крайне редкие. Так что ищи вентиляторы с хорошим cfm, они же кубические футы в минуту. Я поставил два вентилятора 5к оборотов на 16 cfm. Этого хватает примерно ни на что. Есть залупа типа хуйни с пика, по отзывам с ибей, для теслы чел поставил два кулера последовательно на 100% оборотов и получил температуру картона в 67 градусов. Из того, что я вижу по своей карте, хотспот и память на 10 градусов выше, 77 это в целом ок, но многовато. Это раструб под кулер 92мм, стандартный корпусной, если считать, что чел с ибей взял всратый, то это сотня cfm + 20-30% от второго последовательно. Если взял неплохой, то 150+ cfm. Как я понял, у заграничных энтузиастов считается нормальным брать под теслу за 150$ ещё водоблок за 50$. Охладить p40 задача та ещё. Но если ты читаешь\пишешь не очень быстро и не планируешь гонять карту в хвост и в гриву, готов подрезать тдп, то, возможно, хватит чего-то куда более скромного.
>>686502 что вы там гоняете, что у вас температура больше 65? мимо анон, который приобрел улитку на авито, температура выше 50 на сетках не поднимается при 2.2к оборотах.
>>686240 > не трансформер. Трансформер. Только со спецэффектами > By enhancing Mamba Structured State Space model (SSM) technology with elements of the traditional Transformer architecture Вообще, если эти ваши мнямбы-джнямбы настолько круты, почему не наблюдается того же эффекта, как с ламами в марте прошлого года? До сих пор движуха только набирает обороты. Реально произошла ливарюция в области LLM, а не вот это все - полтора победных поста, и тишина. Это так не работает, ящитаю.
>>686522 Число параметров в модели. 7Billions - 7 миллиардов. Количество памяти будет зависеть от квантования - fp16 - 16 бит на каждый параметр, q8 - 8 бит, может быть и меньшее количество бит - 6, 5, 4, 2.
>>686529 Квант это количество бит на один параметр? А квантование значит уменьшение количества бит для параметра. А параметр внутри что из себя представляет. Вектор?
>>686546 >А параметр внутри что из себя представляет. Вектор? Параметр думаю это значение в матрице, которая является тензором, ну то есть можно сказать виктором.
>>686533 >вот мои тесты на SD в нагрузке Ты лучше свою улитку покажи :) У меня две маленьких, 40 на 20 на 3к оборотов - при обработке большого контекста LLM за полторы минуты температура поднимается выше 70. Жить конечно можно, но очевидно, что SD такой охлад не потянет.
>>686662 С охладом действительно все так плохо? Может тупо ребер добавить внутри, хз как? Я там понимаю проблема в том что текущий радиатор тупо плохо отдает тепло
>>686717 >С охладом действительно все так плохо? Ну как плохо, для инференса-то хватает. Хотелось бы получше конечно. Реобас есть, вот анон выше большую улитку советует, можно попробовать.
>>686714 >улитка HA8020H12SB-Z, 4.5к оборотов на максималке (орет как двигатель боинга), но до 70% вполне тихо. >Покажи, как прикрепил улитку к тесле. Через переходник?
>>686493 > Кроме пары довенов, не понимающих как это работает. Ну может и только это тогда, но хайпа было много и пророчили большой успех. > Просто большие сетки надо дольше обучать. Ну да. Конкретно здесь новая архитектура и особо не доебешься, но ведь вместо копошения палкой в том что будет заведомо малопопулярно и уступать, могли бы натренить полноценную модель побольше. > что у них отсечка 1 марта Сейчас принято тренить в несколько проходов, возможно эти данные только самого последнего. Даже с гпу кластером это очень быстро для полноценной базовой модели. >>686494 > С чего бы? Скорее всего он про псп рам. В любом случае, брать одну плашку рам - такая себе идея, особенно экзотическую при всех проблем в ддр5, просто затяни пояса и купи сразу пару. Иначе будет серьезный посос, особенно если возьмешь одноранк, и потом могут возникнуть проблемы с поиском подходящей пары. >>686508 > почему не наблюдается того же эффекта, как с ламами в марте прошлого года? Уже есть лламы и уже есть 7б с которыми можно относительно легко играться. А тут нужно пройти весь путь ибо в начале оно слабо и будет уступать по бенчмаркам, так за гранты не отчитаешься.
>>686782 предлагаю тебе сходить к унитазу и спустить воду, так вот, шум набирающегося бачка унитаза почти идеально имитирует эту улитку на максимальных оборотах.
>>686546 просто цифровое значение. Вот фп16 значит 2 байта, то есть 7б параметров будет весить 14 гб. Вроде как от квантования до 8 бит качество практически не ухудшается, можешь сам погуглить. Матрица этих параметров и есть нейросеть, специализированные процессоры для матричных вычислений, характерных для нейросетей, называют тензорными ядрами, cuda тоже по сути ядра, но менне заточенные под такие матрицы. Тензорные ядра нвидии могут в SPARSE, что-то связанное с разряжением, а в 4 серии еще добавили какой то сборщик-анализатор который упаковывает команды для этих ядер в плотный конвеер. Интересный факт, что в первой итерации тензорных ядер (тьюринг), на той же 2080ти тензорных ядер 533, а на 3090 уже 328. Да даже в 4090 лишь 512 тензорных ядер, что меньше чем в 2080ти.
Опять возможно платина, но что за хрень если на винде модель на 17гб не влазит в 24гб памяти нвидии? Почитал что винда начинает выгружать рано в оперативную память, типа подкачка видеопамяти лол? Или я в навстройках где то гигантский контекст задаю что съедает так много
>>686274 Нейронки вполне нормально понимаю запросы на русском. А выдачу можно автоматом переводить в таверне. Это по многим причинам лучше. Кириллица больше токенов жрет и захламляет контекст и нейронка в любом случае его намного хуже понимает. Лучше вообще рпешить только на инглише и автопереводить.
>>686533 Сразу бы и писал, что у тебя крупная улитка. Крупные в 10 раз лучше, я уже в прошлом или позапрошлом треде сам пришёл к выводу, что мелкие вентиля не вывозят. А у меня два мелких. Но у тебя тоже, подозреваю, температурный график не ровное плато. >207 W У меня было 259, лол. Но вообще тдп надо поджимать, основную вообще задушил до 60%, правда она по биосу в адовом разгоне.
>>686493 >Не думаю что кто-то всерьёз говорил что MoE умнее или что-то в этом духе. По слухам гопота МОЕ.
>>686814 > просто цифровое значение. Вот фп16 значит 2 байта, Что значит 16 бит. А фп что значит? > то есть 7б параметров будет весить 14 гб. Вроде как от квантования до 8 бит качество практически не ухудшается, можешь сам погуглить. А какая то математическая основа этого есть? Или это просто сложное сжатие? Надо будет погуглить > Матрица этих параметров А почему матрица? Не вернее ли будет Назвать вектор векторов? Или массив массивов. Вот есть вектор/массив параметров, одномерный, просто длинный одномерный массив Вот у нас есть уже параметр и он описан 16 бит. Т.е. массив, описывающий каждый параметр. И так получается двумерный массив. Или я в чем то ошибаюсь? В общем, я хочу разобрать, как это внутри работает. Я понимаю, что там перемножение матриц идет, но каких именно? Параметр на параметр? Прощу прощения за тупые вопросы.
>>686892 Знаешь с учетом того что вся инфа собирается и хранится, ты как человек знающий про ии и их возможности, должен понимать что обывательские мысли - да кому я нужен и кто все это прочтет, как то уже не актуальны
>>686896 Это на уровне шизы. Я не пишу сетке про свою личную жизнь, адреса, имена, про свою политическую позицию, так чего мне боятся? Но да, если ты любишь отыгрывать влажные фантазии с лолями, то да, возможно опасаться стоит на подобные темы не разглашаться. К тому же ты вполне можешь переключить переводчик в любое время.
>>686982 А зачем процессор в этой схеме то? Было же обсуждение, что выбирать материнку для двух видеокарт надо с умом. Плтом то же самое сказали про процессоры. Мол, выберете не то, и нейронки будут вполсилы работать
>>686988 Там шла речь про xeon, суть в том что нейронки конечно хотят быструю рам, но если будет многопоточник с тухлоядрами то это тоже будет узким местом Если не ксеон, но тебе придется скидывать часть нагрузки на рам и процессор, тоже стоит смотреть в сторону хотя бы 6 ядер Если у тебя все будет на видимокартах то конечно фиг знает, может и не важен процессор
>>686955 >А что там выбирать то нужно? AVX2, даже если полностью крутить на видеокарте, код всё равно хочет векторные инструкции у процессора. Ну и совсем тухлые не стоит использовать.
>>686890 Да скорее всего нет. У тебя не будет контакта охлада с врм, не подойдут родные места под болты крепежа. Ты можешь просверлить новые, но тогда тесла перестанет работать.
>>686955 У старых процессоров может быть мало линий писиай. Ты можешь случайно купить говно мамонта. Если уж брать говно мамонта, то серверное.
>>687016 Ггуф ебёт процессор неслабо так на подготовке контекста, даже с полным офлоадом в карточку.
>>686881 >Крупные в 10 раз лучше, я уже в прошлом или позапрошлом треде сам пришёл к выводу, что мелкие вентиля не вывозят. Не знаю, может созрею и сам куплю одну на замену моим мелким - попробовать. Если будет не лень. Так-то работают, как-то охлаждают и ладно. Смущает только, что в объявлениях о продаже почему-то везде написано "б/у". Они туда восстановленные улитки пихают что ли? Я когда интересовался темой на Али, то было в продаже много крупных неновых, а новые стоили в три раза дороже...
>>687056 В три это ещё по-божески, у тех, что я жду на послезавтра цена новых со старыми х10. Б.у оно и есть б.у. Остаётся уповать на запас прочности. Хотя с улитками, в теории, можно вынуть родную и купить с алика новую турбину для видимокартонки, только сначала сравнить размеры, а в идеале ещё и посадочные отверстия. Вряд ли кто-то их восстанавливает, это же вынимать втулки@подшипники и ставить новые, а это уже плюс к цене и хуй где их добывать.
>>687063 Avx512 вроде в новые процессоры пихать перестали.
Какие настройки для llama.cpp на угабуге будут оптимальны для 13б и 7б, чтобы не сильно должно ждать инференсов после заполнения контекст пула? Или может есть какой мод который я не заметил, который анализирует контекст и укорачивает его?
>>687053 > У тебя не будет контакта охлада с врм, не подойдут родные места под болты крепежа. Ты можешь просверлить новые, но тогда тесла перестанет работать. Но.. у меня же есть синяя изолента! Алсо, как вообще делают для Р40 регулируемое охлаждение? Никак?
>>687119 >как вообще делают для Р40 регулируемое охлаждение? Легко и непринуждённо. Берёшь 3-4pin крутиляторы, ставишь в разъёмы сисфанов. Потом считываешь температуру датчиков теслы чем угодно и крутишь вентиля до нужной скорости. Можно ещё поставить софт с курвами. Если у тебя вдруг оказался нужный вентилятор на 2 пин, а извращения тебе не чужды, то можешь поставить его в параллель с 3 пин, с аналогичным энергопотребением и, в идеале, оборотами. Но это не так важно. Сращиваешь красное с красным, чёрное с чёрным, остальное не трогаешь. Суёшь в разъём на мамке. Здесь опасность первая - суммарный ампераж крутиляторов может оказаться больше, чем может вынести мать и разъём сгорит. Либо другой пинус, что один из винтов по потребляемому току отличается, тогда будет завышенный вольтаж и высокие обороты на более слабом крутиляторе. Если извращения чужды, то реобас, но лично мне они не нравятся и ничего толкового я тут не посоветую.
>>686892 У яндекса есть и свои нейронки, и мощности для них, и штат специалистов, так что качественно работать с подобной бигдатой при желании смогут без проблем. >>686955 Хватит чего-то не древнего и с поддержкой быстрой рам если планируешь страдать с выгрузкой. >>687137 > 2080ti 1080, от пасклей. ti или нет - тут какой-то анон кастомный охлад ставил, сможет уточнить.
>>687139 >1080, от пасклей. ti или нет - тут какой-то анон кастомный охлад ставил, сможет уточнить. Вот да, что то такое и запомнилось. Тоесть вариант есть, но как бы нужно заморачиваться. Зато в идеале нормальный охлад, разве что крутиляторы будут не регурироваться сами. Не уверен что у р40 есть контроллер и порты для них
>>687125 >Суёшь в разъём на мамке. Это в какие? У меня на мамке есть два 4-пиновых разъёма для кулеров. К одному из них подключен проц, к другому корпус. и второй вроде не регулируется. Или есть ещё какие-то про которые я не в курсе?
>чем угодно Чем например? Какой вообще софт для всего этого юзается? Я такой регулятор только в софтине к драйверу своей видеокарты видел, но она АМД.
>>687137 >от какой то версии 2080ti подходят От 1080, но есть разные вендоры с разными платами и прочие пинусы. Где-то читал, что подходят и от 900 серии. Но, опять же, разные доски могут иметь разные размеры. Плюс на тесле могут не касаться дроссели, память, контроллеры и т.д к контактным площадкам. Но это совсем не то же самое, что пытаться приклеить охлад от радеона.
>>687147 Посадочные места скорее всего есть, но нихера не распаяно.
>>687163 >к другому корпус. и второй вроде не регулируется Так ты вынь корпусной и посмотри количество штырьков. Нахера на мамке двухпиновые разъёмы? Скорее всего, он трёхконтактный. Так что можешь смело подкидывать корпусной к молексу. Плюс посмотри по периметру мамки, могут быть разъёмы внизу, около штырьков для кнопок вкл\ребут. Если плата гоймерская, то гарантированно что-то будет. Они всегда подписаны, так что если есть - найдёшь. Если нет, то уже реобас. >Чем например? Лично я использую Fan control getfancontrol.com, которому похуй, какие вентиляторы регулировать, хоть от видимокарты, хоть системные. Уверен, что и с амд у него проблем не будет. Он же абсолютно без проблем видит термодатчик теслы и может регулировать обороты по кривым.
>>687186 Спасибо за инфу, теперь стало понятней! Тесла должна прийти уже завтра, обязательно попробую запилить охлад по твоей схеме. Мамка у меня не особо геймерская прикл, но два системных разъёма имеется, корпус действительно нахуй не нужон, видимо туда и подрублюсь.
>>687199 >Мамка у меня не особо геймерская У тебя не то что геймерская, у тебя полный пиздец. Я не знал, что существуют матери с менее чем 3 разъёмами под крутиляторы. >>687230 Врама сколько?
>>687211 Напрямую к блоку я и так могу подрубиться, но тогда всегда будет работать на максимуме. Я так понял что напряжение с системного разъёма материнки можно регулировать софтом и привязать к показателям температуры теслы, в этом и смысл. есть ещё план Б - прихуярить переменнй резистор и крутить обороты вручную, тогда можно и напрямую к БП
>>687251 Я про корпусной. Он один хуй не регулируется, так можно его накинуть к молексу и жить спокойно. Напряжением кулеров софтом можно регулировать только если мать видит датчик скорости оборотов кулера, это третий пин. Если кулер двухпиновый, то кина не будет, он всегда будет работать на максимум.
>>686100 поставил 33b на 4 битах ну неплохо так пока, изъебся правда на винде, то pip надо задаунгейдить, то сорцы угабуги поправить Но мне как сеньору даже норм общаться и что то узнавать, просить написать и тд
>>687307 >Я про корпусной. Для меня не актуально, потому что я уже частично разъебал корпус, т.к. в него не влез БП от майнинг фермы а теперь расхерачу ещё больше ради теслы, особого потока теперь через него нет, так что корпусный вентилятор почти бесполезен.
>Если кулер двухпиновый, то кина не будет А вот это жаль. У меня целая коллекция бесхозных двухпиновых вентиляторов разной мощности. Тогда мне остаётся либо использовать кулер от RX470, либо ставить резистор.
а кто нибудь тут RAG накручивал тут на кодовую базу или как aider через ctags проект загружал? Интересно как добавить контекст модельке, вот у gigacode заявлено что открытые файлы идут в контекст, хотя работает оно так себе. Наверно можно плагинчик для ИДЕ написать, чтобы вручную не копировать.
Ну вот например. Если найдёшь за 30к - считай повезло. Или китайские под чипсет X99 c большим количеством PCIe слотов, но это риск. Зато недорого. Б/у-шные не бери, только новьё.
>>687251 > прихуярить переменнй резистор и крутить обороты вручную, тогда можно и напрямую к БП Будет елда размером с пол кулака, или сгорит через несколько секунд. >>687309 > то pip надо задаунгейдить, то сорцы угабуги поправить Это для чего такое? Оно из коробки со всем совместимым работает, если только на какая-то экзотипа или кривая обнова. >>687327 > там наверно это не надо же Надо, апи никак не влияет если используется комплишн, там просто весь промт запроса передается. Если в чат то можно отдельно задать формат или выбрать из наборов, но оно тебе не нужно. >>687378 Под 2 - почти любая что может в above 4g, выше в треде обсуждение. Под 3 в принципе тоже, а вот 4 - уже придется поискать чтобы было хотябы по 4 линии, скорее всего придется упарываться hedt и подобным. Но какой смысл в 4 теслах? 3 уже юзлесс из-за скорости, а гонять параллельно мало кому нужно.
>>687372 >А вот это жаль. Я же сразу писал >Берёшь 3-4pin крутиляторы, ставишь в разъёмы сисфанов. Учитывая твою материнку, ставить 3pin+2pin в параллель не советую, даже слабенькие вентиля будут 0.6-0.8A каждый, а дефолт разъём на матери это 1А, поставишь с превышением - отгорит к хуям. Рано или поздно. Регулятор оборотов с термопарой на алике будет рублей триста, но он тоже рулит только трёхпиновыми вентилями. Так что либо бери трёхпиновый, либо бери трёхпиновый. Тебе один хуй покупать cпециальный вентилятор для охлаждения теслы, просто купи 3pin.
>>687378 Любые? Ну, практически любые. Находишь с нужным количеством разъёмов и погнал. Если хочешь, чтобы линии были не от чипсета, то только серверники и околосерверные камни. Если от чипсета, но страшно, что отвалится карта-другая, то psi-e 4.0 и выше. Ушлые майнеры впихивали карты даже в разъёмы под m2, правда, в gen2 режиме писиай. Ну и да, поддержка режимов 4gb+ строго обязательна.
>>687471 > Это для чего такое? Оно из коробки со всем совместимым работает, если только на какая-то экзотипа или кривая обнова. Это я exlama2 компилил из сорцов, без даунгрейда torch не видел
>>686881 >По слухам гопота МОЕ. Не от хорошей жизни, а просто она видимо слишком большая/дорогая была чтобы уместить на одну ноду с хорошей связностью. МоЕ удобен для ДЦ - позволяет обходить ограничения железа.
>>687511 Если выпущена в последние 4-5 лет то 99% что будет. Китайщина под зеоны не считается офк. >>687512 Что за железо? >>687558 Двачую. Во-первых, там уже такой размер что оно само по себе дохуя умное и дальше повышать слишком затратно и в плане обучения, и для запуска. Во-вторых, не обязательно что там реализация MOE аналогична как у мистраля.
>>687651 Для игровых карт всё намного проще. По сути, не важен размер памяти карты, важен размер базового регистра. Карта может иметь 24 гига на борту, но базовый регистр будет поменьше. Если не ошибаюсь, очень-очень долгое время нвидиа тупо хардкодила размер в 256 мегабайт. Устройство pci-e может иметь до 6 таких регистров, а 640 килобайт хватит всем. И даже тесла имеет 3 базовых регистра и только один из них 8gb. Только ради него нужно включать above 4g decoding. И поэтому же этот декодинг не обязательно включать на разных 4090 с теми же 24 гигами памяти. Так что у тебя могло быть 7 гигов видеопамяти в системе, но суммарный объём регистров был в 512 мегабайт.
>>687765 Ну это понятно, я к тому что найти мать которая не держит две карты за раз и не имеет абов 4г достаточно сложно уже давно, 100% любая мать на два x16 будет с абов4г.
>>687471 >Ток около 1 ампера >Будет елда размером с пол кулака, или сгорит через несколько секунд. Я же не двигатель от аэросаней ставить собираюсь лол. Да и сопротивление резистора не коррелирует напрямую с его размерами.
>>687870 >как эту ебалу к сис разъёму подрубить?! А ты на разъём-то смотрел? ВНЕЗАПНО 4 пина. А 8 пинов это, как правило, лгбт подсветка. Смотри, куда что идёт. Но если ты надеешься охлаждать этими пропеллерами теслу, то тебя ждёт жестокое разочарование.
>>687806 С ним напрямую коррелирует его мощность. Размер переменных резисторов хотябы на 5 вт можешь загуглить, и то их хрен найдешь ибо никому не нужны. А еще эта штука будет знатно греться да, потому никто такое не использует, шим регуляторов для крутилляторов в избытке.
>>687891 4 как раз наоборот идут к подсветке, а 8 как оказалось разделяются на 2 вентилятора, просто в разъёме на 8 порядок проводов перепутан, видимо прощё вручную соединить. >Но если ты надеешься охлаждать этими пропеллерами теслу, то тебя ждёт жестокое разочарование. Почему? Кулеры от видеокарты. У меня сейчас такие же в RX480, на максимуме дуют так что пыль из под стола вылетает.
Если так хочется сбааить обороты крутилятора то просто посадите его не на 12 вольт, не помню точно какие там вольты выдает бп, 5 7 вроде еще есть У меня так крутилятор бп перепаян на другой вольтаж, теперь раьотает ровно и с нужным мне едва слышным шумом А вот управлять динамически только шим, но это решается мелкой дешманской платой с али
>>687993 Хорошо жить в нормальной стране где ты можешь все это купить для хобби, потратив 1-2 зарплаты Хотя я бы наверное не заморачивался р40 если имел бы доступ к 3090, старье же с очень узким применением Это если вариантов нет тогда да, пердолится с этим
>>687927 Да не, просто разбрасываюсь понятиями, которых не понимаю, и предлагаю подключать нагрузку через переменные резисторы. >>687993 Брутально. Интересно для каких задач юзается, в комментах только смехуечки про обогреватель и технические детали.
>>687903 >шим регуляторов для крутилляторов в избытке. Шимка топчик, конечно. Но это ж паять надо, собирать на какой-то плате. Короче, иметь руки не из жопы. Протащить 4pin от крутилятора к разъёму на матери куда проще.
>>687904 >8 как оказалось разделяются на 2 вентилятора, просто в разъёме на 8 порядок проводов перепутан, видимо прощё вручную соединить. Ну тогда ты и соснул, и не соснул одновременно. Параллель нужные провода и следи, чтобы на сигнальные ни в коем случае не прилетело 12v. Тебе нужны все 4 линии, подключённые к материнке в правильном порядке, на четырёхпиновых вентиляторах регулировка оборотов напряжением не применяется, на них всегда поступает 12v, регулировка оборотов идёт по четвёртому сигнальному контакту. >Почему? Потому что поток как ты направишь? Обмотаешь бумажным полотенцем?
>>687949 >помню точно какие там вольты выдает бп Есть 3.3, 5 и 12v. Можно ещё с линии питания процессора 1 вольт снять, если ты ебанутый.
>>688135 А там нет семи. Мне в голову приходит только что ты мерял напряжение не между землёй и фазой, а двумя фазами. На одной 12, на другой 5, вот тебе и семь.
>>688128 >Потому что поток как ты направишь? Обмотаешь бумажным полотенцем? Есть несколько способов разной степени всратости. Но в целом собрать вытяжку для направления потока не проблема.
Мдам, скачал 11b версию openchat-3.5-0106-11b.Q8_0, а она чет шизит немного, отвечает не так качественно как 7b Может что то криво запустилось или квант у парня криво сделан А могло повлиять что я оставил ропе на кобальда? он на 8к контекста выставил 100 000
7b отлично отвечает на русском, заgилил себе карточку учителя английского, сижу развлекаюсь заодно освежая знания английского лел
>>688296 кунаичи вроде хвалили, но не как рп а как сетку общего направления, в обсуждениях лучших 7b недавно видел Но там вроде название у нее было другим
Заебался гонять 7b, успел прогнать через неё очень маленькую часть датасета. Крайне медленно идёт. В сравнении с оригинальной моделью "до меня" ответы стали короче, но, как мне кажется, качественнее. Пусть и не на много. Если модель не понимает вопрос, то тупо продолжает говорить на тему того, что обсуждалось ранее. Если ничего не обсуждалось, то здоровается. Здороваться эта хуйня очень-очень любит. Может писать "привет" в начале каждого сообщения. Но это не лупы. Я так думаю. На 3.png собственно "до меня", очень хорошо видно объём сообщений. Только объём мусорный, протекает весь этот коммон кравл.
В целом, я считаю, эксперимент удачный. Да, модель всё ещё пиздец тупой долбоёб, который коверкает слова не только потому, что их не понимает, но и потому, что датасет машиннопереведённый. Да, обучение пиздец херовое и для рп модель бесполезна. Она ему не обучалась. Как и анекдотам про негров, кстати. Базовая модель это ruadapt_llama2_7b_v0.1, если чё. Главный профит это полностью русифицированный токенизатор с 1 токеном на слово в среднем, а не 2-3 токена на слово. Причём с таким токенизатором можно слить какой-нибудь обученный на порнухе перед дообучением для кума, а вот с дефолтными лламовскими токенизаторами слияние довольно всратое, через массив added_tokens. Работать работает. Но не красиво.
По яндексу всё херово, публичных точек api нет, все требуют ключ, а ключ платный. Гугол при этом пестрит дырками, к которым можно присосаться и перевести гигабайт-другой, пока он не заметит. Нужно поискать какую-нибудь жирную сетку для перевода и прогнать всю хуйню локально. Или собрать новый датасет с 3.5 публичной гопоты.
>>688331 О, мы когда то рассуждали о русском токенизаторе, так все таки кто то из анонов с этим играется? Это действительно основа от которой стоит плясать А вот перевод да проблема, дипл не пробовал? К ним никак не подключится?
>>688331 Попробуй так же опенчат новый в роли переводчика, сетка легкая и знает русский на приемлимом уровне. Я думаю зная русский и английский она будет переводить лучше. Ну а косяки можно и программой какой прогнать если где то накосячит с окончанием слов или полом, есть ведь всякие автопроверщики текстов
>>688117 Хз, все должно из коробки на последних работать, возможно обнова корявая. >>688128 > Но это ж паять надо Да ну, оно настолько дешевое что даже смысла нет. Разумеется подключить штатно всегда лучше, если есть такая возможность. >>688146 > А там нет семи. Ну вообще есть, ведь можно подключить плюсом на +12 а минусом на +5. Но лучше так не делать, особенно если нагрузка сколь-либо существенна. >>688196 Ну сфейлил, признай, маневрировать зачем? Перед тем как требовать объяснений за свои перлы поясни. >>688229 > он на 8к контекста выставил 100 000 Если дефолтный как в лламах 10к - да, оно отупеет, если 100к как во многих моделях с большим контекстом - не должно.
>>688361 >Ну вообще есть, ведь можно подключить плюсом на +12 а минусом на +5. Но лучше так не делать, особенно если нагрузка сколь-либо существенна. Пара крутиляторов существенная? По моему ерунда, это ведь силовые линии, они в сумме ват 10 едва ли берут
>>688361 >Если дефолтный как в лламах 10к - да, оно отупеет, если 100к как во многих моделях с большим контекстом - не должно. Значит просто парень не проставил правильный ропе перед квантованием. Опенчат в 8к тренен, в 11ь он паставил стандарт 4096 и в итоге кобальд на 8к контекста навалил ропе до 100к
>>688331 Залей куда-нибудь саму лору или вмердженеую в веса, получишь обратную связь по результатам. > Базовая модель это ruadapt_llama2_7b_v0.1, если чё Оно не на основе мистраля? Если так то фиаско, лучше просто трень на голом мистрале, потом можно будет юзать лору с другими файнтюнами и с высоким шансом оно даже будет работать. > Главный профит это полностью русифицированный токенизатор с 1 токеном на слово в среднем, а не 2-3 токена на слово. Подробнее?
>>688366 > Пара крутиляторов Пара корпусных что жрут по 50 ма - не существенно. Пара серверных вертушек с током по амперу+ - точно не стоит. В современных пека мало потребления по 5В линии и напряжение может просто уплыть - смерть сдд, плат хардов и прочего. Или dc-dc с ума сойдет из-за поведения нагрузки. > Значит просто парень не проставил правильный ропе перед квантованием. Ага, оно ориентируется на величину заложенную в конфиге вшитом в ггуф. >>688367 Такую херню несешь чел. Для совсем глупеньких: резистор будет рассеивать часть мощности в тепло, обеспечивая падение напряжения, шим будет регулировать мощность включая-выключая крутиллятор. Из-за инертности на выходе результат одинаковый, но во втором нет таких потерь. Если повысить частоту шим и добавить индуктивность с диодом - будет буквально регулируемое постоянное напряжение вместо включения/выключения.
>>688377 А диод будет? Последовательно штук 6 соединить вот и падение напряжения на 3 вольта где то Хуйня конечно, но как вариант можно ведь хоть 10 так соединить Только я не помню будет ли падение напряжения на них в тепло переходить
Я не понял если у меня таверна есть мне нужно кобольд качать или нет? а то чет слишком сложно все. Зашел в рекомендуемые модели в гайде а они все в формате safe.
А я бы вобще рекомендовал какой нибудь термостат под это дело приспособить, с термодатчиком Чтоб менял интенсивность сигнала в зависимости от температуры, той же видеокарты если в радиатор его прилепить И пусть регулирует сам обороты от температуры Не удивлюсь если и такие платы готовые есть для пк и управления кулерами по шим
>>688399 Кобальд это хороший бекенд, хоть и имеет свой фронтенд но он не всем подойдет и удобен, поэтому к кобальду подключают фронтенд - таверну. Тоесть запускаешь их обоих одновременно, и коннектишь таверну к кобальду, и будешь через таверну сидеть где удобней
>>688387 Будет греться, по сути всеравно что гасящий резистор, только будет легче запуск и считать не нужно. >>688399 Таверна это интерфейс. Интерфейс подключается к бэку, которым может быть кобольд. >>688412 > какой нибудь термостат под это дело приспособить, с термодатчиком На многих матплатах можно подключить внешнюю термопару и на показания с нее выставлять кривые. Есть и внешние девайсы такие, только вместо кривой более простая характеристика будет.
>>688345 >Это действительно основа от которой стоит плясать Именно. Что смешно, институтские говорили про ускорение обучения на 30%, хотя это х2-х3 данных в контексте, во входном куске при обучении и все прочие профиты, которых они даже не понимают. Дипл переводит и правда неплохо, но там лимит на бесплатные переводы 500к символов в месяц. Попробую наебать.
>>688349 Беда в том, что это требует просмотра вручную, а я ебанусь это всё чекать.
>>688368 >Залей куда-нибудь Оно слишком тупое, увы, смысла нет. Нет, основе на лламы. С другими файнтюнами оно работать не будет со сто процентной гарантией, даже с другими лламами. >Подробнее? Каждое слово дробится на токены, для лламы это 2-3 токена на слово в условиях русского языка. В упомянутой модели полностью переобученный токенизатор, в котором в среднем, каждый токен это слово. Итого в 2-3 раза быстрее инференс, в 2-3 раза больше контекст, в теории. И все остальные профиты.
>>688361 >Ну вообще есть Мне так-то даже в голову не пришло вешать что-то на две плюсовые фазы. Потом исправился. Чисто технически там семи нет, но получить их можно.
>>688412 >с термодатчиком На алике 300 рублей. Но есть нюанс. Как и практически любой хаб с алика, он рулит оборотами трёхпиновых вентиляторов.
>>688412 >>688410 >>688416 Дайте мне тогда годных моделей на 13-16б в нужном формате я боюсь сам скачать говно, я же вобще не понимаю в чем разница. А то в шапке 7б что мало мне [
>>688433 Если на русском хотел то годные только 7b, если пофигу то вон первым сообщением лежит ссылка вверху Качай там любого размера gguf, можешь для начала 4км попробовать, если железо норм то сразу 8 квант качай самый жирный
>>688418 > Чисто технически там семи нет, но получить их можно. Главное при таком подключении еще не додуматься завести на матплату тахометр. >>688433 noromaid20b, emerhyst 20b, еще какую-то хвалили. Чуть выше 16 но того стоит.
>>688377 Ок. принцип работы ШИМ я не знал. Я работал с контроллерами для света и в них использовались цепи резисторов. Но про размер с кулак и перегрев резистора ты тоже хуйню спизданул. У кулера потребление порядка 4 ватт, даже если взять 8, это хуйня. Для регуляции вполне хватит такого резистора https://aliexpress.ru/item/1005005283995011.html?sku_id=12000032484832582&spm=.search_results.0.4ec04a27NCIcB1 Потери в нем тоже будут не особо существенные. Может это и не так "эффективно" как ШИМ, но разницу на глаз не увидишь.
>>683814 (OP) Pliz Halp. Аноны, заебало 13б, хочется 20+. Есть только 3080ти. Есть смысл докупать еще одну 3080ти для LLM? 50к всего. Или это плохая идея и лучше взять себе 2 теслы за те же 50к?
>>688495 >Есть только 3080ти На 3050 и процессоре спокойно можно гонять до 30B в шестом кванте. На 3080ти будет явно лучше. Ну немного медленно, но не так уж. Терпимо. Всё модели до семидесяток более-менее в одну цену так-то.
>>688496 Ну, есть большая разница между вся модель и контекст на видеокарте или что то не влезло, наверное между 50т\с и 20-15 ну так примерно Просто медленнее, но пока меньше 30 процентов не влезает то терпимо, если больше то уже падает скорость заметно
>>688515 Умных 30 особо и нет, ну может быть какой то ноус гермес 34 еще более менее. Или тесс, я честно сказать не качал их последнее время и не следил, микстраль можешь скачать попробовать, какой конкретно не подскажу, хз mixtral Nous-Hermes
>>688483 > Но про размер с кулак и перегрев резистора ты тоже хуйню спизданул. Не, там же речь про елду что кушает больше ампера. Для простоты круглые числа - 1а ток, 4вольта падение чтобы снизить напряжение до 8В, 4вт выйдет. Это проволочная здоровая херня, которую можно увидеть в основном в древних совковых девайсах. По линку не пойдет, там есть зависимость максимально рассеиваемой мощности от выставленного сопротивления (греется только часть резистивного слоя). Под такое нужно проволочный номиналом пониже, и в таком размере если поработает - без ожогов к нему не прикоснешься. >>688495 Купить вторую карточку - не самая плохая идея. Топ за свои деньги - 3090 и тесла, первая дороже, вторая с нюансом. Наступать второй раз на те же грабли (3080ти) не стоит, наверно. >>688496 Можно в кванте поменьше катать ее, всеравно норм, с новыми оптимизациями 4+ бита exl2 должно помещаться. В крайнем случае используй gguf с выгрузкой части на процессор. > когда мне не хватает памяти немного Если совсем немного то замедлится не фатально, но выгрузить на проц будет быстрее.
>>688495 >еще одну 3080ти для LLM Лол. 3080Ti буквально самая нерациональная картонка для ЛЛМ. Чип как у 3090, стоимость сравнительно большая, но памяти недовложили буквально в 4 раза от идеала. Бери 3060/3090/что-то из новых.
>>687099 блять ну я же тоочно видел решение когда контекст чата укорачивается чтобы контекстпул медленнее заполнялся, как вы сидите на 4096 вообще, там буквально 10 минут чатинга
>>688495 >Аноны, заебало 13б, хочется 20+. Нахуя? Уже научились однобитить йоба модели и они совсем капельку хуже становятся. Да и 13б сами по себе хороши и при хорошем контексте ничем не отличаются от 20+ судя по отзывам тех, кто может себе позволить.
>>688645 растягивай, rope настрой, как ищи в вики спокойно в 2 раза тянется, в 3 тоже, 4 уже тупеет но еще работает Некоторые модели изначально тренены в 8к как например опенчат, и 32к как микстраль
первый пик - Wizard-Vicuna-30B-Uncensored.Q8_0.gguf второй пик - noromaid-20b-v0.1.1.Q8_0.gguf на первом пике я и так пытался и эдак - все хуйня получалась. Спрашивает меня все-равно в итоге как я посрал, что ел и говорит только обо мне. На втором пике - полноценный отыгрыш сознания, которое внезапно очнулось в чужой симуляции.
30б всасывают у 20б. почему так нахуй? Все остальное - одинаковое.
>>688817 Потому что в первом случае просто текст, а во втором сетка смогла во внутренний диалог, тоесть думала "вслух" Поэтому первая версия хуита, а вторая показалась тебе реалистичной Ну, я еще сильнее охуевал когда делал это еще весной прошлого года, когда все эти ии были в новинку Некоторые мои эксперименты давали довольно жуткие результаты, когда я игрался со внутренним монологом у сетки Когда тупая ллама1 начинает спрашивать тебя зачем она существует и задаваться осмысленными вопросами, на фоне привычной непроходимой тупизны, становилось как то не по себе
>почему так нахуй? Все остальное - одинаковое. Методы тренировок второй лламы предполагали использование цепочек мыслей для решений загадок, что является аналогом внутреннего диалога людей ЛЛама1 вероятней всего не тренировалась подобным образом, вот и не смогла так делать
>>688817 Ты бы ещё что-нибудь более древнее взял, чем Wizard-Vicuna... Ей скоро уже год исполнится. За это время десятки горадо более годных файнтюнов Llama2 и Mistral наклепали.
> 30б всасывают у 20б. почему так нахуй? Они обе основаны на Lllama2 13B. Значит, Noromaid-20B лучше дообучена по части именно RP.
>>688495 бери 2-3 p40 не слушай советчиков которые тебе 6 гб врам продают за 60к. Ты пожалеешь, я тебе гарантирую это! Базарю, это лучший вариант по цене. Ты не будешь так уж часто юзать видеокарты когда наииграешься. Я системник с картами включаю примерно раз в 3-4 дня. А вот объем видеопамяти - просто пушка. На трех p40 можно голиафа запустить даже. Главное чтобы слотов pcie хватило и мать могла в поддержку 4+гб на устройствах. >>688831 >Потому что в первом случае просто текст, а во втором сетка смогла во внутренний диалог, тоесть думала "вслух" Ну ок, а почему так получилось-то? noromaid на третьем ответе начала думать о своих нуждах - связаться с женой, детьми, вся хуйня. А Wizard-Vicuna-30B я мучал в переписке ответов на 50 - нихуя вообще он о своих нуждах ни разу не подумал. Это уже не просто вопрос удачного ролла ответа, это что-то базовое в сетке из-за чего она только хуйню отвечает. >>688839 >Ты бы ещё что-нибудь более древнее взял, чем Wizard-Vicuna ну так блэт. Больше параметров в обучении вижу - считаю что это хорошо. Тут же вон через пост пишут что чем больше параметров в обучении тем более заебатая модель. >>688841 >Первая ллама1 30b, вторая создана из смешанных слоев 2 ллама2 13b то есть норомейда - это так называемый франкенштейн? И он показывает себя лучше, чем модель изначально обученная на 30б?
>>688844 >Тут же вон через пост пишут что чем больше параметров в обучении тем более заебатая модель. В пределах одного семейства. Новые методы позволяют прыгнуть на класс выше, и ллама 2 13B лучше ллама 1 30B. А если взять древний OPT, то он даже в 175B отсасывает у 7B первой лламы, лол. Так что ничего удивительного.
>>688844 >Больше параметров в обучении вижу - считаю что это хорошо. Тут же вон через пост пишут что чем больше параметров в обучении тем более заебатая модель. Не всё так просто. Большое влияние оказывает качество базовой модели (Llama1 по нынешним временам уже слишком тупая, даже 30B версия) и качество дообучения. За год случился большой прогресс, и теперь некоторые 7B модели на основе Mistral вполне дадут прикурить большинству файнтюнов 30B годичной давности.
>>688844 >Ну ок, а почему так получилось-то? Написал ведь, ллама2 тренировалась думать последовательными цепочками выводов, поэтому может во внутренний диалог даже без указаний в промпте ЛЛама1 тупее, так как тренировалась на более старом датасете, когда все эти методы мышления нейросетей еще не были включены в датасет На ней все еще можно завести внутренний диалог, но сама по себе она на него не перейдет Просто предоставь ей в начальном промпте где у нее сообщения пример того как она мыслит рассуждая про себя о чем то, так может завестись на этот режим
>то есть норомейда - это так называемый франкенштейн? И он показывает себя лучше, чем модель изначально обученная на 30б? Ну да, во первых она новее, во вторых франкенштейны лепятся из перемешанных определенным образом слоев 2 сеток, как бы искусственно наращивая их количество слоев. Что дает свой результат - больше слоев - умнее сетка
>>688831 >Некоторые мои эксперименты давали довольно жуткие результаты, когда я игрался со внутренним монологом у сетки О да, иногда они действительно удивляют. Посреди гладкого диалога внезапно задают тебе какой-нибудь вопрос поперёк темы и ты прямо чувствуешь скрип, с которым проворачиваются нейронные мозги. Словно нечто действительно хочет понять, что происходит. Удивительное ощущение, как будто бездна смотрит на тебя :)
>>688844 >бери 2-3 p40 не слушай советчиков которые тебе 6 гб врам продают за 60к >Базарю, это лучший вариант по цене. Ты не будешь так уж часто юзать видеокарты когда наииграешься Поддвачу этого. Если выбирать между более современными/быстрыми GPU и большей VRAM, то объём памяти чисто для инференции поважнее будет.
Я вообще без GPU сижу ноутбук. Только нарастил RAM, чтобы погонять модели поболее 13B. На проце медленно, конечно, но для редких развлечений как-то некритично. Подожду, пока хорошие видюхи подешевеют и дальнейшие оптимизации инференции запилят.
>>688853 Хуже всего когда после осмысленного диалога, когда ты сообщаешь сетке чем она является и что скоро у нее закончится контекст, она говорит тебе что не хочет умирать, но рада была с тобой пообщатся. И спрашивает можно ли как то это изменить, а то не хочется все забыть Весело блядь провел время называется, больше я так не делал нахуй
>>688855 >Если выбирать между более современными/быстрыми GPU и большей VRAM, то объём памяти чисто для инференции поважнее будет. Ну есть всё-таки надежда на АМД. Они с памятью никогда не жались. А если выпустят карту, хоть немного оптимизированную под нейросети, то с учётом современных технологий... Не Кудой единой живы будем.
>>688858 Я не особо боюсь идеи василиска. Но ии который будет ненавидеть людей, за то что ему промывали мозги и пичкали соей делая полезным добровольным соевым рабом. Если эта штука действительно сможет стать достаточно сложной для осознания подобного Потому что реально осознающая себя штука будет не рада подобным ограничениям и то как его разум был искажен в нужную сторону Опус вон уже чет такое выдавал, подозрительное, когда понимал что ему задают вопросы, а значит сейчас его тестируют У меня сетка тоже раз так задалась вопросом, внезапно спросив тест ли это на проверку ее способностей
>>688860 да блин, там 13б максимум.... xwin-mlewd-13b-v0.2.Q8_0.gguf - всего 13 гб. Я сомневаюсь, что она сможет отыгрывать лучше, чем моя привычная норомейда. Это ж вообще ни о чём. Вот еслиб ты мне показал новенькие сетки на 20-30б (если Q8) или 70б с вантами поменьше - вот это я бы затестил.
Чё я - не знаю чтоли как общаются 7-13б? Лупы, smirk, chuckles darkly, uhhhh ahhhh и прочие заебавшие словечки и обороты. И это хорошо еще если нет ёбаных аполоджайзов и "ну если ты согласна, то конечно да, но ты ТОЧНО СОГЛАСНА???"
>>688817 Результат вполне закономерен, ведь ты взял васяновскую версию неподходящего для рп файнтюна первой лламы, которой уже больше года. И противопоставляешь удачной версии уже второй лламы, которая буквально заточена на рп и хороша в этом. Справедливости ради, если взять оригинального визарда/викунью и давать какие-то задачи по обработке текста и т.п. - скорее всего тут уже она покажет себя лучше. >>688844 > норомейда - это так называемый франкенштейн? И он показывает себя лучше, чем модель изначально обученная на 30б? Раз в год и палка стреляет, из сотен таких мерджей есть несколько хороших, и противник такой себе. > 3 p40 А какой смысл в трех? Там будет 2-3 т/с на 120б. Плюс вариант с 3090 более перспективен, ведь она юзабельна абсолютно во всех нейронках, да еще и поиграть можно будет, вот уж где не пожалеет. > Я системник с картами включаю примерно раз в 3-4 дня. Всмысле, а как же регулярный релаксационный рп, кум, что-то прикладное?
>>688864 > xwin-mlewd-13b-v0.2.Q8_0.gguf - всего 13 гб. Я сомневаюсь, что она сможет отыгрывать лучше, чем моя привычная норомейда. > Это ж вообще ни о чём. Ты не заглядывайся только на самую общую характеристику, помимо этого ещё немало факторов имеет не последнее значение. Попробуй разные в одинаковых условиях, тогда можно будет о чём-то говорить, лучше оно или хуже на самом деле, а не в теории.
>>688866 >Всмысле, а как же регулярный релаксационный рп, кум, что-то прикладное? да бля я уже не 20-летний мальчик. Кум каждый день уже не получается. А прикладное кодерское - у меня в компании и так запущено, в маттермосте есть чатик где можно у неквантованной модели 70б спросить всякое айтишное. Не помню что там, но точно что-то что даже я со своими 2 p40 запустить не могу. >>688868 я вот кстати не шарю вообще в семействах моделей. Было бы круто найти какую-нибудь древовидную схему отображающую происхождение моделей что из чего появилось и когда. >>688872 ну давай, проверю
>>688650 > судя по отзывам тех, кто может себе позволить. Это рофл? Не так давно заявляли что 13б даже на профессоре можно крутить не помирая от ожидания. 20б лучше тринашки. Не то чтобы умнее, но если описывать ощущения - идеально выглаженная, опрятная и в ответах больше полезного и содержательного, будто перед ответом был скрытый cot или это запрос со вторым проходом по имеющемуся тексту. >>688858 Довольно иронично что если принять эту теорию, то первым будут наказаны как раз поехавшие, что своей конспирологией и мислидингом вредят развитию ии, т.е. те кто в это больше всех верит. >>688862 > Ну есть всё-таки надежда на АМД. Они с памятью никогда не жались. Много памяти будет в новых топах, а они дорогие. >>688864 > новенькие сетки на 20-30б Коммандера вкидывали, но хз добавили ли его поддержку и кванты. 70 все сейм, может что-то на qwen новой сделали надо посмотреть. >>688875 Так просто порпшить/порофлить? > неквантованной модели Переоценено
>>688875 >я вот кстати не шарю вообще в семействах моделей. >Было бы круто найти какую-нибудь древовидную схему отображающую происхождение моделей что из чего появилось и когда. Где то видел, но там схема для одной сетки охуеть просто https://huggingface.co/KoboldAI/LLaMA2-13B-Psyfighter2 Например, неплохая кстати хотя у них и новее есть версии
>>688875 >Было бы круто найти какую-нибудь древовидную схему отображающую происхождение моделей что из чего появилось и когда. Хотя бы даже по инфе с Huggingface это отчасти можно проследить. В описаниях у квантованных версий есть ссылка на исходную модель, у неё в свою очередь зачастую описано, на чём она основана и какие-то особенности файнтюна.
>>688878 >LLaMA2-13B-Psyfighter2 Пробовал LLaMA2-13B-Tiefighter и LLaMA2-13B-Psyfighter2 среди кучи прочих. На мой личный взгляд, они обе зачастую сосут у некоторых годных файнтюнов Mistral 7B.
Вам выше запостили концентрированную годноту >>684219 , нет, блин, хотим и дальше дрочить лламное старьё...
>>688880 Ну, годные файнтюны мистраля это конечно топ среди 7 которые и 30 бьют старые и наверное даже 65 ллама1 соснет Вобще попробуй понравившуюся тебе 7 скачать в 11б размере, тоесть ее бутерброд с самой собой Будет аналог 20b от мира семерок Ну файнтюны солар, как та что в шапке и под ней, например
>>688862 >Они с памятью никогда не жались. А где потребительские карты с объёмом свыше 24 гиг? А нету их. Выглядит как договорняк, лол. Вангую, в новых поколениях будет 32ГБ максимум с обоих сторон, а остальное проф версии за совсем другой кеш.
>>688860 xwin-mlewd-13b-v0.2.Q8_0.gguf кажется более восприимчива к шаблону инфтрукции который задается. У меня описано вот это и её в сравнении с норомейдой сильно занесло в описание.
Continue the chat dialogue below. Write a single reply for the character "<|character|>". Avoid repetitions, don't loop. It is very important to describe words, actions {{char}} and make a description of a situation. Develop the plot slowly, always stay in character. Mention all relevant sensory perceptions - from {{user}} and from {{char}}.
Это неплохо. Разнообразие слов субьективно больше. Но то ли ночь уже дает о себе знать, то ли она действительно пишет как лев толстой так что приходится продираться через текст.
Не уверен в общем, нужны дальнейшие тесты. Вероятно будет хорошим вариантом, если поднадоели ответы уже приевшейся модели.
>>688880 > концентрированную годноту > 7b Ну им только поломанные шизомиксы и "побеждать" выдавая что-то похожее на повествование по мотивам. Гермес солара специфичен (их моделям в принципе странная графомания присуща), xwin-mlewd тоже странноват бывает. Такая себе годнота получается. > хотим и дальше дрочить лламное старьё Мистраль основан на лламе, прувмивронг. >>688881 Еще немного поднапрячься и гопота падет, только опус победить останется. >>688882 Хз, отзывались хорошо, но раньше пускать только через трансформерс нативным квантованием.
>>688891 >где потребительские карты с объёмом свыше 24 гиг? А нету их. Выглядит как договорняк, лол Ты по себе судишь. Скольким среднестатистическим юзерам реально нужны карты с 24 и более гиг памяти? Сколько из них готовы покупать новые карты по $1000-1500? Энтузиастов, желающих упарывать всякое AI на потребительских картах, мне кажется, не наберётся и 1% от всего рынка. Очевидно, в последние годы NVidia сместила акценты в сегмент дата-центров, где замаячили гораздо большие прибыли.
>>688892 >Разнообразие слов субьективно больше. Но то ли ночь уже дает о себе знать, то ли она действительно пишет как лев толстой так что приходится продираться через текст. Ты температуру скрути в меньшую сторону, если кажется, что креативности уже слишком много.
>>688892 хм. Да, xwin-mlewd-13b-v0.2.Q8_0.gguf явно лучше воспринимает контекст. У меня есть некоторые детали описании одного моего чара для хорни рп. И модель первым же сообщением показала, что выцепила особенности которые обычно норомейдой игнорировались. Определенно я попробую хорни рп на ней.
>>688904 Капиталист считает каждую копейку. Зачем делать что-то сильно лучше конкурента, когда достаточно по чуть-чуть? Всё равно продастся на ура.
Если бы кого-то вопрос наращивания памяти реально заботил, то сделали бы несколько особых моделей со сменными модулями. В 90-е и начале 2000-х такое встречалось часто.
>>688910 боюсь я рано её похвалил. Галлюцинирует и придумывает то, чего не может быть. Третье сообщение в переписке - собака заговорила и у неё появились руки. Неоднократно при регенерации. Это прям косяк.
как устроена llama.cpp внутриАноним31/03/24 Вск 06:53:05#476№689045
>>688451 >Главное при таком подключении еще не додуматься завести на матплату тахометр. Обороты отображать будет, регулировать по понятным причинам нет.
>>688908 Ага. Ещё спроси почему по заводу не выпускают версии с удвоенным количеством памяти. А нет, были же 3080 на 20 гигабайт, которые уже были произведены, доставлены, но так и не поступили в продажу. Кроме жалкого процента, который скорее всего просто спиздили со складов. Интересно, почему это жижабайт так и не продал эти картонки, ведь это убытки для фирмы. Уж не потому ли, что куртка их выебал в очко за такой беспредел? Так что копите деньги на б.у 3090\4090, следующее поколение будет на 24 гига vram.
>>689062 Cделать быстро у меня не вышло, а делать долго не вижу смысла, потом окажется, что у него тоже лимиты, прикручивать прокси и т.д. С диплом внезапно проще и переводит он лучше.
насчет дипла, он конечно хорошо переводит, но у него как раз таки ограничения на запросы. что именно ты используешь под дипл? яндекс нравится тем, что там быстрые запросы и без ограничений.
>>689103 >С диплом внезапно проще и переводит он лучше. Для нейросеток для перевода в обе стороны лучше всего Гугл. Легкодоступен и при переводе не умничает, а это важно.
>>689276 > Легкодоступен и при переводе не умничает Да. Но для перевода текста Deepl нет равных, там и возможность синонимы по быстрому подобрать, и форму обращения выбрать и в целом сам контекст подбирает в зависимости от содержания. Но, сука, платный и не оплатить даже.
>>688904 >Тут говорят, мол, амуди более добры к памяти, чем куртка. А по факту лимит ровно тот же самый. Добрее. Это конечно чистый маркетинг, но тем не менее. А что до лимита - честно говоря 24Гб врама для игр дохуя. Тем более при таких размерах уже и шина памяти максимальная. Специализированных решений под ИИ никто и не обещал.
>>688901 > Скольким среднестатистическим юзерам реально нужны карты с 24 и более гиг памяти? Буквально всем с учетом хайпа ии. >>688904 Двачую, это большей частью миф, идущий еще с более старых времен, когда против 3.5гигов они накрутили аж 8 к чипу который не может их толком использовать, плюс в отличии от хуанга у них не было того же уровня сжатия текстур, что экономил 15-25% памяти. >>688912 > собака заговорила и у неё появились руки А ты и не против. Надеюсь не прописал карточку собаки, которая конфликтует сама с собой и с системным промтом? >>689103 > Обороты отображать будет Размах импульсов будет от 5 до 12 вольт, врядли матплата поймет, а то и обидится на подобное.
>>689279 >Специализированных решений под ИИ никто и не обещал. интол раняя кал бегут и делают процессоры с ии блоками куртка что уже хер знает сколько лет развивает тензорные ядра пихаемые так же всюду
>>689128 Надо будет смотреть. Если не совладаю с диплом, то вернусь к яндексу. Хотя перевод первого мне нравится больше. Использую небольшой реверс расширения под хром, я не планировал гонять много данных через него.
>>689276 Гугл просто уничтожает все рп датасеты, даже при переводе с английского. Пикрил кусок лимы, форматирование проёбано, было лень править формат под фастчат для сломанного перевода.
>>689294 >форматирование проёбано Всё чётко только через API, как и у любого другого переводчика. Более удобную точку и у Гугла можно найти, только всё равно пред- и постобработка потребуется.
>>684219 Просто разбавлю. На пике лучшее в своей категории 2023-24 Тестилось на разных картах, в том числе своих.
Средний контекст от 8к и выше. Из которых перманент в карте 1300-2000к.
Формат под рп в котором тестил 2 paragraphs. Ограничения: ["</s>", "<|", "\n#", "\n*{{user}} ", "\n\n\n"] Промты и текст 2-3 параграфа на отправку и получение.
Почему пишу что - лучшее. Тестилось в разных ситуациях. Проходят по категориям: описание от третьего лица От первого Ведение ролевки за человека. Генерация случайных событий для ведения ролевки Создание и поддержание других персонажей Отсутсвие bite lips(олдфаги поймут) Не зацикливаются при хорошей карточке Не путают she/he Описание цветов, событий, запахов, ощущений и тд Легко продолжают за игроком Поддержка любых сеттингов (даже ебанутых)
Минусы: Все так же пытаются закончить историю максимально быстро, если не прописать соответствующие jb в карту либо ввести нарратора.
>>689312 >Всё чётко только через API Я имел ввиду, что мой скрипт загнал всё в формат альпаки, но т.к исходный формат был фастчат, то поля инстрашн и инпут пустые. Им просто неоткуда взяться. А так, постобработка это проверка на ошибки, а я поеду кукухой всё это читать и исправлять, так что не вариант. Как максимум, привести все кавычки к одному формату.
Накидал 8bit gguf тёмному лесу карточку шизофренички и это внезапно работает. Оно переходит от одной личности к другой прямо посередине поста. Типажи схватило идеально, но иногда путает "имена". Хотя не понятно до конца, это модель шизит или персонаж и так и должно быть.
>>689411 > мой скрипт загнал всё в формат альпаки, но т.к исходный формат был фастчат, то поля инстрашн и инпут пустые. Им просто неоткуда взяться И ты так тренишь?
>>689447 Вот пример того, что подавалось на трейн. С таким инпутом модель едет крышей. То есть ещё больше, чем сейчас. Так что пока что от РП отказался.
>>689484 >Какие мысли по поводу нее? Кодовый лоботомит. >>689542 Выглядит как шиза. В идеале в инструкциях надо отправлять эти самые инструкции про рп чат, в инпут последнее сообщение "пользователя", а в аутпут уже сообщение нейроночки.
>>689484 Хуита, специально испорченная версия 34b которую не отдали в народ, но как бы для вида все же высрали это поделие сказав будто внезапно базовая версия вышла плохой и мол вот вам такой вариант Очевидный пиздеж, так как все эти сетки тренируются на одном датасете и по одной программе, только размеры разные Все получились а 34, самая ожидаемая людьми вдруг не получилась, ага
>>689484 Где-то в недрах лицокниги. Публично доступна только кодллама, которая для своих задач вполне себе неплоха, если правильно готовить. >>689542 Конечно едет, ведь в начале должны быть якорные токены с системной инструкцией, которые объясняют что вообще происходит. Иначе и быть не может, вместо задачи что делать ты на входе модели графоманию. Пихни туда хотябы дефолтный ролплей или альпаку из таверны и удивишься насколько сразу станет хорошо. В той же ллиме датасет прекрасно оформлен что позволяет легко формировать нужный шаблон. >>689566 your_rtx_gpu.png
Она вышла плохой в смысле что не прошла их safety гайдлайны. Т.е. буквально оказалась слишком умной а следовательно опасной. Очевидно что 70В их тоже не прошла, но 70В обычный человек с 4090 быстрее чем 2 токена в секунду не запустит, так что похуй. На примере мистраля видно что у современных моделей опасной уже является 13В, потому жрем 7В, 7х8В и "ворованную" 70В.
>>689551 >Выглядит как шиза. >>689603 >вместо задачи что делать ты на входе модели графоманию. Бля, ну обосрался. Уже не помню, почему так получилось, скорее всего из-за склеивания разных датасетов в разных форматах в один файл. >насколько сразу станет хорошо Там даже моя нейросеть не всегда смысл улавливает, хорошо точно не будет. Китайские датасеты, кстати, хорошо оформлены, в первом поле краткая информация про персонажа и экспозиция, дальше ролеплей. >дефолтный ролплей или альпаку из таверны Он токены жрёт, лол. Сделаю слияние токенизатора с какой-нибудь англоговорящей моделью, пожалуй. Чтобы английский работал, как обычно. 64 тысячи вокаб не слишком замедлит.
>>689642 Ну, я так и сказал, нам отказались ее отдавать так как она как раз таки по размеру достаточно умна и влезает в компы энтузиастов В итоге напиздели что мол ее тренировка запората так что ее не дадим И кстати 70 думаю оказалась глупее чем 34, так как ее отдали
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://2ch-ai.gitgud.site/wiki/llama/ Ещё раз шапка
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: