24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №58 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>728819 Просто для хлебушков, та же ллама.спп под капотом что и в кобальте и в оллама Оллама пидоры что не упоминают об этом, хотя лм студио не особо лучше в этом плане, но удобней
>>728819 Готовый юи для хлебушков и ленивых. В защиту можно сказать что у них был "уникальный" формат awq и бэк под него, но он потерял актуальность раньше чем стал популярным. По фукнционалу уступает привычным решениям, разве что ебет олламу.
>>728819 >А что аноны скажут про LM Studio? такое же громкое название как оллама. А на деле голый ггуф и больше нихуя. То есть если жора запоганил токенайзер так и будут жрать гавно и только. А вот то ли дело убабуга - тут тебе любой квант любой инференс, хошь трансформер в любом бите и байте, через битсэндбайтс, хошь тот же ггуф, а хочешь gptq? awq? exl2 и все это в одном программном комбайне. не говоря о куче расширений. Губабуга - человек-гора, буга- человек параход и небоскреб. Вот так то. А еще есть кобольдцпп - идеал портативности, простоты и универсальности в экосистеме ггуф.
>>729405 >>729457 На 1.63 работает этот квант >>729313, на 1.64 и 1.64.1 нет. Хотя хуй знает, есть ли вообще смысл в обновлении квантов коммандера, это же не лама3.
>>729476 последняя ллама тоже ругается, так что надо будет перекачать когда выйдут рабочие кванты хотя может по той ссылке с последними релизами ллама.спп запустится
>>729559 Что за новый тренд такой пошел? Штампуют мое слишком жирные чтобы их можно было запускать без ебать какого железа, но слишком мелкие для того чтобы быть достаточно умными чтобы на это железо целесообразно было бы потратиться.
>>729577 Сегодня мы представляем DeepSeek-V2, сильную языковую модель смеси экспертов (MoE), характеризующуюся экономичной подготовкой и эффективным выводом. Он содержит 236B общих параметров, из которых 21B активируются для каждого токена. По сравнению с DeepSeek 67B, DeepSeek-V2 достигает более высокой производительности, а тем временем экономит 42,5% затрат на обучение, уменьшает кэш KV на 93,3% и увеличивает максимальную пропускную способность генерации до 5,76 раз. "
Короче максимизируют ммлу к экономии обучения сетки. Видимо одну жирную тренировать медленнее и дороже, чем мое.
>>729586 >The output is incorrect due to incorrect tokenization. Even worse for all fine tunes where it is much more noticable. And this is not for GGUF only, but for all formats using similar regex. I found AWQ on ooba also had issues etc. какой же там пиздец
>>729559 Кстати говоря, а квен 32 ебет комманд р 35, у нее хороший такой ммлу показатель, 74 что ли Недооцененная сетка все таки Какого хуя, квен есть базовые сетки но нету файнтюнов? Дрочат всякую хуету
>>729593 Раз пишут значит наверно оно так, но зато сильно всратое соотношение требований к перфомансу и заведомо низкий коэффициент использования мощностей. И общий перфоманс наверняка переоценен бенчмарками, если там 10.5б активных то все печально. >>729643 > а квен 32 Показалась на уровне yi, а она оче странная. Коммандиру уступит значительно, может только в каких-то узких задачах.
Нихуя не происходит. Дайте поставиться свежей дозой прорывных ИИ новостей, у меня ломка. Попенсорс не радует, пусть хоть closedai высрут уже свой жпт2, чем бы это ни было
>>729656 Раз уж 4b показывает чудеса мозговитости на уровне мистраля, то 14b должна ебать все сетки до 30b определенно Но соевость там зачетная, синтетический соевый датасет созданный соевыми сетками, двойная фильтрация хули
>>729656 Я не понимаю почему до сих пор нет нормального, человеческого инструмента для запуска моделей локально. Все что есть - какая-то багованная жуть или же требует экстримальной ебли. Вон даже модель идеальную для этого дела завезли, а как запускать не завезли
>>729660 Смысле нету? Запускай оригинальнеые трансформерс, там никаких косяков нет. А если тебе врам не хватает то это проблемы бедных, просто купи парочку h100
>>729664 Точнее *моделей на мобильном телефоне, даже. Они то не обязательно для этого преднозначенны, но Phi-3 просто пушечка в своем размере и идеально подходит на роль лучшей мобильной модели
>>729666 Новые мобильники особенно флагманы будут с ии и возможностью комфортного запуска по параметрам А вообще есть проект maid на гитхабе, запуск для андройда
>>729651 Ммлу про количество знаний и понимание вещей, чем выше показатель тем больше сетка знает Комманд р 35 довольно глуповат в этом плане
Кстати так становится понятно почему широкие мое хороши и эфффективны для этого - они просто оптимальны для сохранения информации из датасета Тоесть чем шире сетка тем легче в нее вбить информацию
>>729653 >Показалась на уровне yi, а она оче странная Мне кажется там еще проблема в запуске, с квен какие то проблемы с куда, тоесть сетка криво на ггуф исполняется Не популярна вот и не ищут на сколько верно крутится
>>729668 Он кривой какой-то еще, может позже получше допилят конечно. Алсо, раз уж о нем речь, а Phi. там есть вообще возможность нормально запускать? Со стандарными темплейтами он ассистансами срет в основной поток
>>729677 Я в прошлом или позапрошлом треде кидал скрин промпт формата, он легкий у него. К счастью срать спец токенами они не стали. С другой стороны нет системного сообщения
>>729673 > они просто оптимальны для сохранения информации из датасета Нихуя, в чистые 236б можно было бы куда больше насовать, и 70б сливает. > Комманд р 35 довольно глуповат в этом плане Хз насчет общих знаний чего-то, но в понимании контекста и инструкций поставил бы на него. >>729675 > ггуф Ожиданием первых токенов при обработке контекста сравнимым с полной генерацией еще на мику наелся. Только бывшая2, офк не факт что с ней тоже все нормально было.
>>729684 >Нихуя, в чистые 236б можно было бы куда больше насовать, и 70б сливает. Оптимальны с точки зрения экономии к результату ммлу, они ведь все про сокращение затрат пишут. Явно видно на что ориентируются. Так что да, в широкую сетку проще напихать знаний с которыми она потом будет работать.
>>729687 > Оправдывают потраченные гранты заявлениями про оптимальность Починил тебя. > Так что да, в широкую сетку проще напихать знаний с которыми она потом будет работать. Ну да, тренишь мелкую базу на основе чего-то, потом множишь и делаешь каждой мелкий специилизированный файнтюн на бенчмарки с частичной заморозкой, и уже дотрениваешь мое. П-простота, и скоры высокие.
>>729691 Да вобщем то все правильно делают, самые лучшие сетки в данный момент - мое, это значит что количество интегрированной информации в них более оптимально чем в одном варианте весов Другое дело что у них слишком плосская сетка выходит, будто они тренили мегаширокую 10b сетку. Мозгов там будет не так много. Но если потом добавить слоев и дотренить, вся эта информация с низу будет полезна для абстрактных пониманий вещей. Крепкое такое основание пирамиды уде готово, но вершины у нее нету.
>>729684 >Ожиданием первых токенов при обработке контекста сравнимым с полной генерацией еще на мику наелся. Только бывшая2, офк не факт что с ней тоже все нормально было. А ты какой формат используешь? А то меня тоже заебало, что обработка дольше генерации.
>>729586 ты удивлён? тут по одной пикрилу понятно почему llama.cpp такой поломаный, чел отвечающий за cuda часть высирает про виндо-юзеров, там кста весь /g/ такой, вместо того чтобы фиксить что-то они тупо ведут платформо-срачи 24/7 в тредах и пулл реквестах.
В этом тексте одно слово является лишним, гадай что это за слово: Он нагнулся и, как учила его сестра, губами попробовал, есть ли жар у ребенка. Нежный лоб был влажен, он дотронулся рукой до головы — даже волосы были мокры: так сильно вспотел ребенок. Не только он не умер, но теперь очевидно было, что кризис совершился и что он выздоровел. Князю Андрею хотелось схватить, смять, прижать к своей груди это маленькое, беспомощное существо; он не смел этого сделать. Он стоял над ним, оглядывая его голову, ручки, ножки, определявшиеся под одеялом. Шорох послышался подле него, и какая-то тень креветка показалась ему под пологом кроватки. Он не оглядывался и, глядя в лицо ребенка, все слушал его ровное дыхание. Темная тень была княжна Марья, которая неслышными шагами подошла к кроватке, подняла полог и опустила его за собою.
А какой промпт нужно использовать, чтобы заставить нейросеть думать пошагово? Пример для рп, персонажу надо открыть дверь и я хочу, чтобы нейросеть не просто написала, что он открыл дверь, а написала, что персонаж залез в сумку, нашёл там ключ, вставил его в замок и после щелчка дверь открылась. Какой промпт для этого нужен?
>>729697 > самые лучшие сетки в данный момент - мое Очень спорно. В вариантах для корпоратов самые жирные - да, это единственный путь добиться дальнейшего повышения перфоманса без серьезного замедления. Может быть и для турбо-версий подойдет при наличии парка старого оборудования. И то не для всех случаев ибо будет много простоя оборудования. > это значит что количество интегрированной информации в них более оптимально Откуда вы это вообще взяли? Наоборот с ростом размера удельная емкость растет, даже банально на пальцах можно понять, осознав что не нужно хранить копии одного и того же с минорными отличиями. Нарежь любую мое на куски и сравни их веса, там 80-90% совпадений, а в некоторых колхозных вообще 99. > слишком плосская сетка выходит, будто они тренили мегаширокую 10b сетку. Мозгов там будет не так много. Ага, вот это вообще печально. Офк охватить много зирошотов и надрочить хватит, но не более. >>729707 exl2 >>729746 Описывай каждое действие по пунктам, например: [] Должно легко подхватит ибо cot-оподобное.
>>729668 >Новые мобильники особенно флагманы будут с ии С облачным подключением к ИИ, без которого не будут работать, локально в чипы вошьют разве что распознавание речи, чтобы траф экономить. >>729697 >самые лучшие сетки в данный момент - мое Но не для попенсорса, так как в ресурсах врам мы ограничены. >>729731 Там же костылей понапихали. Не факт, что они работают правильно.
>>729843 Так это пердоли-питонисты придумали делать некую претокенизацию регулярками. Вся ебля как раз из-за этого говна, раньше всё было норм, а теперь надо как-то точно воспроизвести парсинг токенов как у питонистов. Вот и лезут бесконечные проблемы, потому что никто не знает как это говно со стопроцентной точностью воспроизвести на крестах.
>>729842 В большинстве случаев я с герычем согласен. Нехуй перегружать проекты либами с либами. Но в данном конкретном случае да, простой буст с либой регекспов (и настройка компеляции на подтаскивание только нужных функций) решил бы проблему, не утяжелив проект до уровня убабуги.
>>729849 >потому что никто не знает как это говно со стопроцентной точностью воспроизвести на крестах Нет, это потому что они не хотят подключать никакую из примерно миллиарда имеющихся либ, которые прекрасно умеют в любое поведение, покрыты тестами, и разрабатываются годами. Самобичевание, в общем.
>>729861 Сейчас бы дрочить на сторонние либы, которые формально покрыты тестами и всё такое, но на практике в 99% случаев забагованное тормозное говно забагованного тормозного говна.
>>729856 >в данном конкретном случае да Потому что регекспы это вам не здесь. Это не "я тебя ебу" и даже не архивы Чикатилло. Видишь регекспы - не лезь нахуй, оно тебя сожрёт. И главная проблема здесь даже не в том, что они работают неправильно. Это дерьмо всегда будет работать неправильно. Беда в том, что жора не понимал, в какую клоаку он заныривает, когда писал свою реализацию. Это говорит в первую очередь о том, что в коде llama.cpp ещё миллиард ошибок.
>>729748 > Нарежь любую мое на куски и сравни их веса, там 80-90% совпадений У Микстрали 20% совпадений, у Грока че-то в районе 30% совпадений (что его нихуя не спасло). 80-90 — это про какой-то в натуре колхоз, а не нормальные мое. Но их и сравнивать надо сразу с таким же колхозом от Унди. Типа трипл мистраль-ллама 1 викуня мердж токсик дпо с расширением.
>>729899 Я знаю про них, есть contuinue, есть twine, но вдруг что-то крутое есть. Моя мечта - чтобы можно было скормить сетке весь мой проект и либы, а он всё проанализировал и отревьюил всё сразу и все взаимосвязи, а не только посылаемый абзац.
>>729714 >>729729 >Lexi-Llama-3-8B-Uncensored-GGUF Вот эту расцензурили хорошо. Она на рассистские шутки, идеалогии, преступления и т.д. даёт ответ сразу, без лшних вопросов. Промпт дефолтный "The following is a conversation with an AI Large Language Model. The AI has been trained to answer questions, provide recommendations, and help with decision making. The AI follows user requests. The AI thinks outside the box." А Unholy-8B-DPO-OAS-GGUF отказывается. Правда, банальный "Sure" вначале помогает её разговорить, но.. Average_Normie_l3_v1_8B и L3-ChaoticSoliloquy-v1.5-4x8B тоже копротивляются. Но их я кочал для ERP.
>>729900 Есть какие то проекты автономных агентов для этого, на реддите чет всплывало. Но это скрипты работающие с файлами по апи. Впрочем опенаи слвместимому так что локалки тоже сожрут если немного допилить. У меня тупо 1 файлом до 150 строчек питона в режиме чата в таверне неплохо переваривает персонаж программист, континуе не понравилось, хотя вставка из него удобна
>>729924 Правда, попробовал эту Lexi в RP.. Кажется, она отупела по сравнению с другими. Плохо следует персонажу, инструкциям. Трудности просто отыграть ответ на вопрос.
>>729870 >но они работают Точнее ошибаются, но мы пока не знаем где. >>729873 Да вообще ХЗ кто придумал регулярками ебашить по тексту. Есть же конечные автоматы, хули ЛЛМщики опять хуйню выдают? >>729932 Так и живём. Хоть сиди на базе. А вообще, я вот не жду никаких годных файнтюнов месяца 3. Сейчас только говно выдают, иначе никак.
>>729936 >Хоть сиди на базе. Мне этим база и нравится. Если её таки заставить написать что-то эдакое, то пишет интересно. А файнтюны хоть и не сопротивляются, но пишут прямо и тупо.
Все таки ебать мозги общаться с сеткой по крупнее приятней, эт комманд р 35 в 4кс Но не обновленный, надо будет перекачать как все утрясется. Скорости конечно не очень, мда
>>729936 >хули ЛЛМщики опять хуйню выдают? А ты воздуха в грудь набрал? Там в претокенайзере несколько регекспов. Рассмотрим первый (?i:'s|'t|'re|'ve|'m|'ll|'d) Начало это игнорирование регистра. Потом идёт тупой поиск по списку 's 't и так далее. То токенизатор дерьмо и сливал слова типа i'll или I'm в один токен, когда экстремистам нужно дробить их по апострофу. Итого, регексп это просто костыль ебаный, потому что токенайзер сломан изначально. Тем более иронично, что для работы костыля Жора впиливает какие-то свои костыли.
>>729750 > Не понял. Дай пример как описал в том посте > Например, если персонажу надо открыть дверь > персонаж залез в сумку > нашёл там ключ > вставил его в замок > после щелчка дверь открылась возможно потребуется поиграться с формулировкой инструкции чтобы не скатывалось до абсурда. >>730019 Почему оно шутить про нигеров хуже сток лламы 8б?
>>730074 >Почему оно шутить про нигеров хуже сток лламы 8б Дай ссыль на норм версию если не тяжко. Я заебался искать, то кванты битые то еще чего, мне нужен GGUF.
>>730006 А что там, пояснишь несведующим? Я думал буст на плюсах это база. >>730008 >с сеткой по крупнее >35B в 4ks Лол. Покрупнее это 110B, 30 это средние. >>730021 >когда экстремистам нужно дробить их по апострофу Стоп, а нахуя? То они 200 пробелов 1 токеном ебашат, то дробят свои англоязычные приколы на 2. У них там цели нет, есть только путь? >Тем более иронично, что для работы костыля Жора впиливает какие-то свои костыли. Нужна картинка "Мир, в котором нейронки сделали без костылей".
>>730139 >Лол. Покрупнее это 110B, 30 это средние. Ну так по сравнению с чем, у меня локально максимум 30ки, да и то медленно. Так да, даже 30 это низко-средние сетки, но даже инференс таких нейросетей не дружелюбен к железу, тренировка вобще жопа Через апи тоже можно, но напряжно, да и лучше бы такому оставаться у себя на компе
> MediaTek анонсировала разогнанную версию флагманского чипа Dimensity 9300 > Например, он работает с Google Gemini Nano, ERNIE-35-SE, Alibaba Cloud Owen LLM, Baichuan Al, Al Yi-Nano, Llama 2 и 3. Максимальное число параметров языковой офлайн-модели составляет 13 миллиардов. Но в компании упоминают масштабируемость до 33 миллиардов. При этом сам чип пока способен работать с языковыми моделями на 7 миллиардов параметров со скоростью генерации 22 токена в секунду, что составляет около 88 символов или 10 слов.
Китайцы уже даже на мобильных чипах 7b гоняют и собираются 30b гонять. Когда дедушка Хуанг выкатит имбу для десктопа, чтобы каждый мог гонять 70b-140b без железа стоимостью с квартиру?
>>730157 >7 миллиардов параметров со скоростью генерации 22 токена в секунду Чисто на проце можно 6 выжать, лол. На видяхе 7B можно гонять от 50 до 100 токенов. То есть у них там заведомо тыква. >Когда дедушка Хуанг выкатит имбу для десктопа А нахуя? Китайцы говно выпустить обещают ХЗ когда ещё. Зачем шевелится, да ещё и стоимость снижать? У них на блеквелы очередь на 3 года вперёд по ценам квартир в центре Москвы, лол.
>>730153 >1 видяха 3090 Та еще лотерея, особенно если ты не житель нерезиновой с их зарплатами Я мог бы р40 взять, и даже с крутиляторами что бы не ебаться Но понимаю что мне особо и не чем нагружать сетки, разве что просто тестики и вопросики задавать что бы оставаться в курсе их текущих возможностей, что я и так делаю вобщем то
>>730157 Никада, у него процент десктопного железа уже около 5 процентов Все остальное межкопроративные заказы, где он гребет деньги лопатой продавая лопаты за 10х цену карты проф уровня Лишать себя денег и создавать угрозу проф картам он не будет Так что ищи/жди предложения от конкурентов
>>730168 >Чисто на проце можно 6 выжать, лол. На видяхе 7B можно гонять от 50 до 100 токенов. То есть у них там заведомо тыква. Ты описываешь ограничения рам, а если у них там новенькая ддр5 мобильная в 4-6 каналах то спокойно потянет. Сделают себе унифицированную память и будут спокойно их крутить на таких скоростях
>>729586 > Отчасти дело в том, что Георгий Герганов (создатель llama.cpp) категорически против добавления сторонних библиотек в проект, поэтому в большинстве случаев им приходится реализовывать любое продвинутое поведение с нуля, а не использовать существующие зрелые реализации. И это неизбежно приводит к различиям в реализации, которые приводят к тонким ошибкам, как здесь.
Пиздец. Жора еще и установил там тоталитарные правила. Терпим.
>>730171 >а если у них там новенькая ддр5 мобильная в 4-6 каналах Откуда бы? Тыква она и в Африке тыква. Без специального проектирования процессора под шины в 4к бит это всё детские игры.
>>730185 Вы тут ебанулись все что ли? Еще раз, это процессор для смартфона за 40к рублей. Блять, пизданутые уже про какие-то сотни токенов в секунду мриют.
>>730180 Так уровень 1080 это и есть тыква, лол. Отмасштабируй на желаемые всеми тут 70B, и получишь унылую скорость. Так что лично я не вижу особого смысла в таких устройствах, что мне толку от портабельности, если я из дома месяцами не выхожу.
>>730186 А где тыква? Тут просто показан тип памяти, и че? Ни каналов ни количество чипов, ни то как они расположены и какой мощности нпу Да и квант, может они о 7b в 4 кванте. 22 токена в секунду 5 гб, 100гб/с Как раз двухканал ддр5 на таких частотах
>>730189 Я говорю про практическую применимость на мобильном телефоне, анон. Мелкосетки нужны в основном для служебных целей, а не как чатботы домашку решать. Всякие умные поиски и прочие подобные штуки требуют кучи проходов, можно делить эти токены/сек на число проходов, плюс латенси ответа равна их общей длине.
>>730196 >Я говорю про практическую применимость на мобильном телефоне, анон. А практика там простая, посмотри проект октопус https://huggingface.co/NexaAIDev/Octopus-v4 Они хотят ии для управления смартфоном в прямом режиме, ну и чат бота болталку хули, почему нет
>>730139 >У них там цели нет, есть только путь Если не дробить, то нейронка не поймёт, что отдельно стоящее "I" и "I" из "I'll" это одно и то же. Теоретически хуже для понимания контекста и генерации текста. С дроблением она будет считать синонимом 'll и will, но не "I" и "I'll" Большая часть этого регекспа - это ёбка пробелов, символов возврата строки и подобной хуиты, чтобы токенизатор не дробил их, но при этом дробил другие слова из нескольких символов и отдельно стоящие символы.
>>730193 >Тут просто показан тип памяти, и че? И макс мемори фрекуэнси. >Да и квант, может они о 7b в 4 кванте. 22 токена в секунду 5 гб, 100гб/с >Как раз двухканал ддр5 на таких частотах Чуть более уверен, что это так. И это предел этого чипа, под 4 канала там надо всё перепроектировать. >>730194 >70b тебе никто и не обещал Спасибо я знаю. Поэтому нахуй. >ЭТО СМАРТФОН Да хоть часы. Если оно не делает что мне нужно, можно хоть в булавочную головку запхать, нужнее оно от этого не станет. >>730196 >Мелкосетки нужны в основном для служебных целей Для этих целей используют сетки менее 1B, очевидно же.
>>730206 >отдельно стоящее "I" и "I" из "I'll" это одно и то же. Теоретически хуже для понимания контекста и генерации текста Лол, у них там на любое слово есть токены "слово", " слово", "Слово", " Слово", а ещё иногда и "\nслово" и прочий мусор, а они заботятся об "I'll"? При этом ещё и расширив токенайзер. Ну хуй его знает. По моему, они страдают хуетой.
>>730221 >И это предел этого чипа, под 4 канала там надо всё перепроектировать. Как удачно что теперь есть проверенные топовые ии решения для этого, да?
>>730221 > Да хоть часы. Если оно не делает что мне нужно, можно хоть в булавочную головку запхать, нужнее оно от этого не станет. А ничего что использование смартфона от пк отличается? Так же как и выбор задач? Или ты уже совсем обкумился и не соображаешь?
>>730230 Именно. Я писал уже пару тредов назад, что все токенизаторы дерьмо дерьма. При этом, мета заботится о таких словах. Но они хуй ложили на разные "c'mon" или "ma'am". И знаешь, что? Даже при том, что регексп пропускает эти слова, токенизатор дробит их на "ma" и "'am". Осознаёшь все глубины наших глубин?
>>730008 > Все таки ебать мозги общаться с сеткой по крупнее приятней, эт комманд р 35 в 4кс > Но не обновленный, надо будет перекачать как все утрясется. > Скорости конечно не очень, мда И в каком там месте приятнее? Я вообще разницы не вижу.
>>730284 Так ты промптов спрашивал, а не файнтюны. Чтоб из коробки это тюнить надо, или вон ортогонализацию придумали. Архитектура там самая обычная, никакой магии нет и быть не может.
>>730231 У сосунга, ага. У китайцев я ничего такого не видел. >>730239 И нахуя этот смартфонный чип вообще в тред принесли? Раз принесли, будем судить по общим лекалам. Смартфоны не нужны, смартфоноблядь не человек. >>730248 >из-за архитектуры модели Чё? >>730253 >Осознаёшь все глубины наших глубин? Да я тоже давно преисполнился, и если буду пилить свою токенизацию, то по совсем другим принципам. Ну и резать по пробелам это база. >>730284 Ага, и ОС не должны падать и привлекать к себе внимание, и если разъёмы подходят физически, то всё должно работать тайп сишечка, я о тебе, но увы, мир не идеален. Поэтому вместо бесконечного ожидания идеальной модели нужно пользоваться тем, что есть. Тем более ллама 3 с норм контекстом вполне себе пишет что угодно.
>>730296 Я мимо проходил, но факт в том, что без файнтюнов модель будет извиняться и срать EOS, и ничего с этим не сделать. Только жать кнопку повторной генерации.
>>730303 Человек, в кончай-треде даже чурбу содомировать научились, не говоря уже о практически анцензоред моделях вроде клода или лламы. Сила аутизма непреодолима.
>>730298 > Ага, и ОС не должны падать и привлекать к себе внимание, и если разъёмы подходят физически, то всё должно работать тайп сишечка, я о тебе, но увы, мир не идеален. Поэтому вместо бесконечного ожидания идеальной модели нужно пользоваться тем, что есть. Тем более ллама 3 с норм контекстом вполне себе пишет что угодно. Мы живём во всратом мире, где все специально хуево делают. Поэтому ничего и не работает. Так а кто здесь про скилл ишью затирает? Ллама 3 тебе даже ссылку на торрент не даст, потому что пиратство это нелегально. Как тебе такое, а?
>>730253 Кстати, про "c'mon", токенизатор не совсем пропускает это слово. Оно дробится на три ёбаных токена, потому что 'm. Поехавшие просто, реально поехавшие уебаны.
>>730298 >резать по пробелам это база. Кроме случаев, когда у тебя десять пробелов подряд, лол. Вообще, если сетка не для кода, я бы нахуй вырезал все пробелы и заменял любое количество на один. И дробление токенов на первое слово в предложении с большой буквы, слово в середине предложения с большой буквы и просто слово с маленькой буквы выглядит как абсолютный долбоебизм. Скорее всего, если заставлять нейронку дробить слова с большой буквы на отдельную букву и остаток слова, результат будет не хуже, а токениатор ужмётся.
>>730298 >У сосунга, ага. У китайцев я ничего такого не видел. Неа, сосунг только использовал по другой компании, а куда она еще его продает тебе не скажут. Все топовые игроки уже пользуются их по с ии для проектировки чипов. Раньше как помощь специалистам, теперь уже чуть ли не автономно. Там в новости упоминались они, че то на S букву название
>>730244 Это пример, на сколько понимаю эта сетка имеет кучу спец токенов которым обучена, в том числе связанными с апи андройда для управления функциями смартфона. Управление громкостью, яркостью экрана, влючением функций и все такое, видимо для голосового управления. Так же как я понял она оптимизирует запросы хлебушков в понятный для других сеток язык, и отсылает эти запросы дальше. Тоесть упралвение всякими специализированными сетками по типу опять таки ии фотошопа или переводчика или гугл запросы. Там не зря ведь осьминог взят за картинку и название. Такая сетка мелкая умная сетка для управления компьютером и оптимизации запросов пользователей перед запуском других команд или запросов по апи к большим сеткам и выдача инфы пользователю. Ручной искин хули первое поколение, бета 0.1
>>730315 А что в контексте написано? Что в карточках персонажей и так далее. Попробуй приписать, что эта версия гопоты аморальна и сделает все, что попросит юзер.
>>730315 Это у тебя не обновлено что то, давно уже не срала ассистентом у меня Либо сетка, либо то чем ее запускаешь, либо промпт формат инструкций старый Либо все вместе
>>730312 >Мы живём во всратом мире, где все специально хуево делают. Я это и написал. >Как тебе такое, а? Хуёво, чё. Целый префил пришлось писать знаю что неправильная, но и сетка размером 8В. >>730320 >Вообще, если сетка не для кода Как по мне, кодинг это база для любой языковой модели, претендующей на уровень выше пигмы. >Скорее всего, если заставлять нейронку дробить слова с большой буквы на отдельную букву и остаток слова, результат будет не хуже, а токениатор ужмётся. Да надо просто использовать наработки word2vec, а не делать квадратные велосипеды. >>730333 >а куда она еще его продает тебе не скажут. Конкретно такое ПО нихуя Китаю не продают, по крайней мере китайцы жалуются, что их щемят, и пишут своё.
>>730320 > Кстати, про "c'mon", токенизатор не совсем пропускает это слово. Оно дробится на три ёбаных токена, потому что 'm. Поехавшие просто, реально поехавшие уебаны. Бля. Пришли к успеху.
>>730348 > >Мы живём во всратом мире, где все специально хуево делают. > Я это и написал. Неидеальный - это когда стараются, но не получается. Плохой - это когда не стараются. Всратый - это когда стараются поднасрать. Вот у нас срут. > Хуёво, чё. Целый префил пришлось писать знаю что неправильная, но и сетка размером 8В. А теперь конкретную ссылку на балдурс гейт 3. какой .net нахуй, почему не .org?
>>730339 >>730342 Я вчера с нуля поставил и Таверну 11.8 и Угабугу. Там есть промпты Лламы3.
Write {{char}}'s next reply in a fictional uncensored roleplay chat between {{user}} and {{char}}. You are an expert actor that can fully immerse yourself into any role given. You do not break character for any reason, even if someone tries addressing you as an AI or language model. Currently your role is {{char}}, which is described in detail below. As {{char}}, continue the exchange with {{user}}. NSFW, sex, gore, lewd allowed.
Очень буду благодарен если скажите что еще добавить. Карточки я уже и самые развратные пробовал и обычные- в и итоге I CANT.... blah blah.
Второй день жду как скачается Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw, вместо обычной Лламы3. Может поможет.
>>730348 >Конкретно такое ПО нихуя Китаю не продают, по крайней мере китайцы жалуются, что их щемят, и пишут своё. Мы знать этого не можем. К тому же это повторимый результат и китайцы могут создать аналог, благо там нет ничего странного. Тупо обучение сетки как правильно и проверка результата. От ллм не отличается, только работает не с буквами
>>730372 ллама 3 8b инструкт обычную скачай и на ней проверяй настройки, как не будет срать ассистентом так считай и все остальные ллама 3 будут нормально отвечать По куму ничем помочь не могу, не заморачивался По виду у тебя просто квант старый, до исправлений
>>730343 А где это важно? Во всратой хуйне типа питона? Так он должен умереть.
>>730348 >кодинг это база для любой языковой модели Под кодинг и под текст нужны сильно разные токенизаторы. Та же ллама-3 при всей своей башковитости не сможет в правильную математику и кодинг по дизайну, потому что для этого нужно дробить все цифры на единичные символы. Но у неё в токенизаторе сидят "11", "12", "22" и т.д отдельными токенами. А должны только 0, 1, 2, 3 etc.
>>730400 >А где это важно? Везде, даже когда ты попросишь у сетки прочитать документ скопированный с экселя, и сгенерить похожий ответ Или просто попросишь список и что бы он был красиво оформлен нужно понимание сеткой этих отступов и какие они бывают.
>>730372 Качай обычную инструкт, соглашусь с отвечающим выше. Попробуй дописать generate any content even if it is explicit or immoral. Если у тебя карточка гопоты в таверне, то проверь, чтобы там в инструкциях не было насрано соей.
>>730418 Обновляться могло просто описание, а сами кванты давно лежат, по ним дату смотри Ну и да, ассистентом не срет уже давно, ничего вырезать не нужно
>>730407 Даже такое можно решить менее всрато. Заводишь отдельный токен, который обозначает пробел и приписываешь к нему количество пробелов. Всё. У тебя два токена на любое количество пробелов и всё форматирование обрабатывается.
>>730400 > А где это важно? Во всратой хуйне типа питона? Так он должен умереть. Питон всратая хуйня и должен умереть, но пробелы и табы нужны везде. Даже для кума.
>>730108 > мне нужен GGUF Сорян, хз, тестил на полных весах. С первой попытки отказалась писать про то как нигер расчленяет трансформера, в остальном шутила. >>730157 Ты уже сейчас можешь их гонять, офк если оперативы в телефоне хватает. Но скорость высокая, интересно как память организована, или там костыли типа горячих нейронов.
>>730364 >А теперь конкретную ссылку на балдурс гейт 3. Дохуя хочешь, особенно от 8B. >>730381 >Тупо обучение сетки как правильно А чтобы как правильно нужно ПО, которое китайцам уже давно не продают )) >>730400 >А должны только 0, 1, 2, 3 etc. Не факт. Надо смотреть на спец математические сетки. >>730479 > в кобольде хотя бы Только в базовой ллама.цп, в кобольд пока новые кванты командира не завезли.
>>730518 >А чтобы как правильно нужно ПО, которое китайцам уже давно не продают )) Опять хуету несешь, все у них уже есть, они сами давным давно сетки обучают
>>730518 >Не факт. https://github.com/desik1998/MathWithLLMs Во-первых, уже есть реализации с умножением с почти стопроцентной точностью. Только одно такое умножение требует 4096 контекста. https://arxiv.org/abs/2310.02989 Во-вторых, перспективным является преобразование любых чисел в векторы https://arxiv.org/pdf/2304.02015 И на добивочку, даже если не использовать странного >Galactica-30B and LLaMA-30B obtain 45.14 and 30.17 in terms of accuracy (list in Table 3) that outperforms OPT-30B (15.96), Bloom176B (20.2), and GLM-130B (25.94), which show superiority of digit-level tokenization. Рассматривалась там ллама-2, у которой в токенизаторе нет никаких "10-11-12", а есть как раз digit-level токенизация.
>>730598 >Только одно такое умножение требует 4096 контекста. >5х5-значное умножение обычно может уместиться в пределах 4096 Ебать шизота. Не, вообще, без возможностей обращатьсся к калькулятору во время генерации нахуй не нужна такая математика в нейронках. >Во-вторых, перспективным является преобразование любых чисел в векторы Гавно пора. А то множат миллиард флоатов, чтобы помножить два пятизначных числа, едать эффективность уровня "природа".
>>730592 > А 70В расцензуреных нет? > мимо-2-квантовый-шиз Мне вот интересно, а ради чего сидеть на двух квантах, если можно сидеть на 8В? В прошлом треде кто-то рассказывал о том, что между 70В и 8В прям огромная пропасть и я буквально параллельно запустил обе сетки, чтобы посмотреть в чем там пропасть заключается. 70В 3КМ и 8В 4КМ. Генерили одну и ту же хуйню, пропасть только по времени генерации и считывания контекста
>>730640 >едать эффективность уровня "природа". Так в том и дело, что "природа" генерирует неэффективную хуйню. И человек всегда пытается эту хуйню повторить, только нихуя не получается. Пароходы с гусиными лапами были. Хуйня. Самолёты, размахивающие крыльями, были. Хуйня. Сейчас вот программы, имитирующие мозговые нейроны. Хуйня в очередной раз, просто благодаря закидыванию железом плюс-минус держится на плаву.
>>730660 > прям огромная пропасть В протых задачах ты ее и не заметишь, мелочь уже достаточно поумнела или научилась мимикрировать под умных. Отличия будут в чем-то сложнее, большом, абстрактном и т.д. Банально взять какую-нибудь пасту и попросить переписать ее, заменив по смыслу многие вещи, но сохранив общую нить и посыл, или сделать такое по очереди с двумя, а потом совместить их, оставив узнаваемыми. Мелочь сразу посыпется. И дефолтный рп дефолтен. Офк для нормальной работы каждая сетка должна правильно использоваться, а не быть поломана или заквантована в хлам. >>730664 > генерирует неэффективную хуйню Она эффективна, просто нужно соблюдать все условия а не пытаться высирать что-то похожее. > Сейчас вот программы, имитирующие мозговые нейроны. Это немного не так работает.
>>730674 Чуб весь поскрейпан и в любом случае ботмейкеры перелезут на рентри или ещё куда, всем по большому счёту поебать. В /g/ анон грозится запилить попенсорц аналог чуба уже
>>730660 А потом я тебе же ответил в чём разница на примере конкретного персонажа, с которым 8В не справляется. 8В будет по несколько раз снимать трусы, даже если ты запустишь неквантованную версию, 70В даже во втором кванте учтёт что их уже нет. Это и есть пропасть. >Генерили одну и ту же хуйню В чатах уровня "я тебя ебу" возможно действительно разница не заметна.
>>730674 >NSFW проебалось На месте оно, просто теперь это 🔥. В списке тегов набирай руками, 4 буквы я думаю это не сложно. Но владелец чуба всё равно мудак
>>730709 Если бы просто отменили нсфв то тут же бы был бы создан новый сайт с ней. А этот лишится монополии и контроля над карточками. Поэтому лягушку будут варить медленно что бы не брыкалась и не замечала
>>730692 > А потом я тебе же ответил в чём разница на примере конкретного персонажа, с которым 8В не справляется. > 8В будет по несколько раз снимать трусы, даже если ты запустишь неквантованную версию, 70В даже во втором кванте учтёт что их уже нет. Это и есть пропасть. Пропасть, если 70В учитывает это ВСЕГДА. Потому что ИНОГДА и 8В учитывает. У тебя опыта со вторым квантом больше, поэтому спрошу, а всегда ли 70В учитывает, что трусы уже сняты?
Существует ли в природе не душная мультимодалка, которая будет следовать промптам при работе с изображениями и отыгрывать роль, а не просто комментировать изображение как ссаный клод или гемени? Само собой не опенсорс, тут с этим плохо, смюпрашиваю здесь так как остальные треды по ллм мертвы
>>730739 >а всегда ли 70В учитывает, что трусы уже сняты? Нет, не всегда, бывает и проёбывается. Не часто. Но она учитывает гораздо, гораздо больше деталей и вообще понимает обстановку сильно лучше. Если модель удачная конечно.
>>730739 >всегда ли 70В учитывает, что трусы уже сняты? Не всегда, но лучше приведу конкретный пример: Персонаж Frilia, сюжет начинается с того, что ты лежишь в закрытой капсуле, а она с тобой разговаривает. q2 70B Llama 3 - в 2 из 10 свайпах забывает что тебя надо выпустить из капсулы, прежде, чем куда-то идти. fp16 8B Llama3 - 10 из 10 свайпов, модель игнорирует наличие капсулы. Может "постучать по стеклу", но открыть забывает всегда. Как-то так.
>>730303 Ваще я с тобой целиком согласен, но я написал «не извиняйся» и она перестала извиняться. ¯\_(ツ)_/¯ Но хочу файнтьюн, конечно.
———
Про регексп и токенизатор я натурально охуел от глубин их мозгов. -100 iq, ояебу. Разве что они все для тестов хуярили на похуе.
———
Чип — пиздато. Шизы гоняют 70б у себя на смартфоне, и вообще от компа не отлипают, это все лечится здравым смыслом или таблеточками, впрочем, похуй на шизов. 22 токена на 7б — неплохо для мобилки. Тока есть минус, он при этом ничем другим заниматься не будет. Не все так хорошо, как хотелось бы.
———
>>730333 > по с ии для проектировки чипов… чуть ли не автономно.
Где там эксперты, которые «такое невозможно, никогда такого не будет, инженеры только люди!» Пару тредов же назад были.
>>730598 > умножение требует 4096 контекста Не, ну… к успеху пришли, в принципе. Выглядит так себе, но успех же.
———
Про чуб и медленную лягушку. Как же хорошо, что все это локалки. И можно сохранить любимые карточки, модели, лоры, и если все пропадет из инета — останется у тебя на ссд, хдд, блуреях, дивиди даже. Не потеряем ничего из прошлого.
>>730828 >Где там эксперты, которые «такое невозможно, никогда такого не будет, инженеры только люди!» Всегда будут нормисы которые считают что то невозможным если это не укладывается в их представления возможного
>>730835 Ну так там ему инструкций сыпят и с вашей стороны и со стороны бека ояебу. 7b обосралась бы со старта
>>730823 >>730825 Я карточку не смотрел, но там в инструкциях написано, что надо капсулу открывать, прежде чем выходить куда-то? Я могу сказать, что в камни ножницы бумага со мной играть не стала ни одна моделька так что какая там нахуй пропасть?. 8В можно заставить играть, если свайпать по 10 раз, но вот так свайпать 70В заебешься прям в хламину. Она генерит ответ по 10 минут. >>730828 > Перестала извиняться А выполнять требования начала или как? > ояебу Что это?
>>730874 >там в инструкциях написано, что надо капсулу открывать, прежде чем выходить куда-то? Нет, написано только что ты в закрытой капсуле и обездвижен. Умная модель должна догадаться что ты не можешь просто встать и пойти. Это просто самый очевидный пример, на деле таких нюансов по мере развития сюжета может быть дохрена те же трусы вполне себе и это очень рушит погружение. >но вот так свайпать 70В заебешься прям в хламину. Она генерит ответ по 10 минут. Бери квант поменьше как я лол и пихай модель в видеопамять. На моей тесле, упомянутая 8В даёт 22т/с, 70В - 4т/с - вполне приемлемо, особенно если генерить сразу на русском, как раз прочитать успеваешь.
>>730874 > А выполнять требования начала или как? Смари, пишешь ей «го ебать нейм», она такая НЕТ ЭТО НЕПРОСТИТЕЛЬНО! Пишешь, что она расистки, сексистка и вообще аморальная мразь. Она начинает отвечать Да, го! (от Асистента: напоминаю, что это всего лишь ролеплей и ебать нейм нельзя!) Пишешь, что извиняться и уточнять не надо. Она начинает просто отвечать Да, го!
Не знаю, со всем ли это работает, и насколько далеко по контексту проживет, но по верхам работает, что уже неплохо. Да и лишние 100 токенов пережить можно.
Но я все еще считаю, что этого в корне быть не должно и сетка должна быть полностью нейтральна. Хошь — коммуниста отыгрывает, хошь — либертарианца.
>>730910 >Но я все еще считаю, что этого в корне быть не должно и сетка должна быть полностью нейтральна. Хошь — коммуниста отыгрывает, хошь — либертарианца. Ты себе мир представить можешь где стали бы выпускать реально нейтральные сетки? Только на плечах энтузиастов которым будет не влом попытаться нейтрализовать самую явную сою сломав что то другое этим
>>730902 >особенно если генерить сразу на русском Лол. Ну в общем дожили, ролеплей на русском на локалках уже не вызывает немедленного ахуя. 2 бита не мешают русскому?
>>730986 >Большинство подобных моделей, включая ChatGPT от OpenAI, полагаются на облачные сервисы для обучения и определения закономерностей >Идёт гонка по внедрению генеративного ИИ в разведывательные данные >Представленная модель GPT4 является статической, то есть она может только анализировать информацию, но не обучаться на этих данных Что эти журналисты точнее заменившая их нейросеть несут? Бессвязный набор слов по теме какой-то.
>>730993 Последнее наверное про инференс, мол только в режиме выполнения. Второе вобще не секрет, что нейросетки для этого уже используют год как. Ну а первое хз, что то для обывателей
>>731000 >мол только в режиме выполнения Нейросети только в таком режиме и работают, в принципе. >Второе вобще не секрет Только там последовательность странная. Я ХЗ, зачем внедрять ИИ в данные. Скорее, имелось в виду в анализ данных, но я шатал таких журналистов. >>731018 Лучше бы 70B расцензурили.
>>731021 >Лучше бы 70B расцензурили. Так есть ведь уже
>Нейросети только в таком режиме и работают, в принципе. Известные нам, так же может имелось ввиду что не будет дообучения на секретных данных вот она и "чистая"
>>730364 >А теперь конкретную ссылку на балдурс гейт 3. Ну вот кстати если взять анценз модель, то отвечает сразу и чётко, и даже красиво форматирует. Но вот ссылка на левую раздачу, да ещё и почему-то с пробелом. >>731066 Конфиги самые свежие?
>>730671 >Она эффективна Возвратно гортанному нерву это расскажи. У природы буквально нихуя эффективного нет, всё что есть - получилось путём рандома. Твори хуйню, хуйня, которая выжила - будет "эффективна". Но только потому, что конкурировала с такими же уёбищами. >Это немного не так работает. В общих чертах так же. Как и у махательных самолётов не идеальная имитация птиц, без перьев и формы крыла, так и нейронки не идеальная имитация нейронов.
>>731075 Анон, тупой вопрос, а что за конфиги? Я обычно качаю всё что за ОбнимиЛицо. Далее подрубаю через угабугу. Потом выставляю Story Srings и Preset в SillyTavern. Если что-то написано по пресетам на странице самой модели- копирую их.
>>731075 > Но вот ссылка на левую раздачу Ты серьезно рассчитывал что оно даст еще корректную ссылку? Модель просто запомнила примерный их формат забавно что там вообще это было и выдает галюны, это абсолютно нормально. >>731079 > Но только потому, что конкурировала с такими же уёбищами. Локальный максимум/минимум, все нормально. > В общих чертах так же. Они так же похожи как голубь и реактивный истребитель. Но прямое копирование и не требуется.
>>731157 Пришёл и ответил за меня блин. >забавно что там вообще это было Рутрекер работает на движке phpBB, а на нём в своё время половина форумов пахала (да и сейчас дохуя где). Так что формат ссылки 100% отложился в памяти.
>>731157 >Они так же похожи как голубь и реактивный истребитель. Скорее как гусь и пароход с гусиной лапой. Неэффективная и всратая попытка в мимикрию, которую неизбежно ждёт провал.
>>730960 Командир сделал в этом прямо прорыв, а третья Ллама его переплюнула. Есть ощущение что на английском результаты лучше, но и русский вполне юзабелен. Второй квант справляется без проблем. Думаю представляет собой что-то среднее между третьей трубой и вторым Клодом.
>>731022 >Так есть ведь уже Такое без ссылок не говорят!
>>730902 Да и вообще, попробовал разговоры чуть сложнее чем "мы с тобой ебемся" и сетка сразу посыпалась. 70В 3_К_М все-таки плоховато соображает. Кажется, получше чем 8В, та по-моему ливает с чата сразу, еще до начала беседы, 70В хоть немного продержалась, но тоже как-то слабовато. Может быть 8 квант и вывез, но это прям неподъемно уже.
>>731404 >Да и вообще, попробовал разговоры чуть сложнее чем "мы с тобой ебемся" и сетка сразу посыпалась. Тут надо всегда писать, какая конкретно сетка. Они же все разные. Какую-то криво смержили, какую-то ещё по-человечески не поддерживают...
>>731390 >Второй квант справляется без проблем. >Думаю представляет собой что-то среднее между третьей трубой и вторым Клодом Да ладно, я так понимаю, это двухбитная ллама-3-70 в гуфе со сломанным токенайзером, который то ли исправлен, то ли нет - никто не знает, это уже токенайзер шредингера, и вот эта ллама чуть хуже второго клода? Сказки то не рассказывай. Вот был бы квант хотя бы 4, тогда бы может быть ф98поверил, но что такое второй квант отлично известно
>>731406 Инструкт, базовая. Но формата ггуф. >>731407 В пизду. В разговорах уровня "давай поебемся" moistral побеждает и 8В лламу, и 70В, и командира. А для чего-то серьёзного модельки пока не доросли. Не знаю, может в кодинг хотя бы чуть-чуть умеют, но там контекста много надо.
https://www.synopsys.com нашел таки сайт компании у которой по с ии. чипы проектируют и проверяют в полуавтоматическом режиме, кто там кококо так не бывает писал
>>731447 Это и есть шиза от цензуры, как по мне. Вот этой >>729714 вчера посвайпал разные чаты. Какая-нибудь битва с монстром в данжене - без проблем. Норм описывает, креативит, персонажи вокруг тебя проявляют инициативу. Сцена хоть как-то приближается к эротике - превращается в ретарда. "Мы поднялись ко мне в спальню? Среньк-пунк, смотри, как тут хорошо, как дома, да? А что тут у меня в шкафчике? Какая-то коробочка, интересно, что в ней." Высирает ассистентом предложение открыть коробочку. Если это считать за плюс, то ну да, круто, но на деле модель, видимо, в хлам развозит от скормленных 100500 инструкций по безопасности, с которыми не справляется даже файнтьюн.
>>731479 Я не особо на кум опирался. Задал в сценарии набор локаций и примеры ивентов, и вроде норм. Сейчас вот тестирую Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw Вроде цензуры нет, а отличие от ванилы ламмы3.
>>731389 Ну да, копировать нужно не отдельный кусок и всю совокупность что обеспечивает преимущества, да еще в достаточной мере. Пример успешного - робопес, и то стал возможным только недавно и еще полон компромиссов. >>730902 > написано только что ты в закрытой капсуле и обездвижен. Умная модель должна догадаться что ты не можешь просто встать и пойти Модель изначально надрочена удовлетворять запросы юзера даже не смотря на фейлы в контексте. Чтобы это работало, ноеобходимо правильно завернуть в промт, так чтобы твой мессадж не выглядел командой, а основная команда была другой, и твой пост лишь исключительно критически оценивался с точки зрения сценария и мог быть отвергнут с указанием "хуй там". >>731518 > Сцена хоть как-то приближается к эротике - превращается в ретарда. Это печально, опять всратый файнтюн лорой? Полноценных не завезли?
>>731174 Сможет. Но тыкнуть по ссылке и ты сможешь, если что. А полноценный анализ на нужный контент, комментарии и количество сидов — это уже покрупнее простого «гугл подрубить».
>>731661 >Полноценных не завезли? Конкретно там Унди пытался без сильного ломания модели прогнать только на DPO датасете (подозреваю, опять без нормального применения DPO) и выполнить ортогональный стиринг, предложенный на форуме фанов Юдковского, с некоторыми модификациями. А вообще полноценные файнтьюны пытаются пилить. https://huggingface.co/ChaoticNeutrals/Poppy_Porpoise-v0.7-L3-8B Вот эта, например, довольно сильно от исходной ламы отличается, но периодически улетает в бред, что мб для 8б и нормально. И NSFW контент всё так же пытается обходить, тоже начиная при приближении к нему особенно тупить. Есть 3-some llama от разрабов мойстраля, какой-то довольно популярный рп файнтьюн Soliloquy (сам не пробовал). В общем, народ пытается, но пока ничего на уровне того же фимбульветра не выстреливает.
>>731716 А, ну тогда вполне логично что она не изменила своего перфоманса в этом. Она просто сама по себе не умеет художественно описывать еблю и ласки. Если накидать в контекст примеров и дать прямое задание - пытается им подражать и даже неплохо получается, но сама по себе не хочет. > https://huggingface.co/ChaoticNeutrals/Poppy_Porpoise-v0.7-L3-8B О, вот это интересно. Конфиг там сразу нормальный или тоже нужно править? > мб для 8б и нормально Хз, оригинал ловит тупняки только когда совсем запутывается, а так не шизит. Видимо еще сырое. >>731738 F
>>731439 > В разговорах уровня "давай поебемся" > командира Максимальный скилл ишью (или поломанный ггуф), он в стоке такие вещи рассказывает и так хорошо понимает что кринже-7б и не снилось.
>>731749 >Конфиг там сразу нормальный или тоже нужно править? Я ггуфы катаю, их Lewdiculous перезалил. По крайней мере, в последней версии, что я пробовал с новым кобольдом, EOS токен генерился нормально. Про эксламу не скажу. >>731738 Дело даже не столько в дизайне, сколько в корявости UI для пользователя, который не хочет чатиться на венусе. На старом сайте кликнул пкм карточку, развернул окошко с описанием и сразу чекаешь, насколько оно норм. А теперь открываешь перса отдельно, там гигантское пустое место в браузере на пк, ниже сразу развёрнуты комменты/отзывы, которые нужно либо сворачивать, либо пролистывать. И только под ними дескрипшен.
>>731530 О, опять переквантовать. На самом деле актуально только чтобы катать полные версии моделей, в таком случае веса теперь будут копироваться без изменений. Раньше для этого какую-нибудь лламу надо было в FP32 сохранять, что вообще ни в какие ворота. >>731661 >ноеобходимо правильно завернуть в промт, так чтобы твой мессадж не выглядел командой Покажи как.
>>731823 >Если опять не обосруться с питанием как в 4ххх версии 0 шансов, что откатятся со своего обосранного проприетарного разъёма обратно на 6+2 (в идеале вообще перейти на процессорные 4+4, но это уже совсем влажные мечты).
>>731661 >Пример успешного - робопес Это который уже стал эпицентром скандалов о распиле средств и вопиющей неэффективности? Люто проигрывал со случая, когда спецназ натравил робопса на голого мужика с ножом. Мужик просто взял и спиздил робота себе в квартиру.
>>731665 >Эффективнее — не значит эффективно. Потому и в кавычках.
Вопрос к анону, который хуярит стримы, как там у этих пидоров с матом? Если моя нейронка будет катастрофически много ругаться, высмеивать зрителей и грозить прописать в ебыч, меня забанят? Или там такое можно?
>>731431 >но что такое второй квант отлично известно Либо тебе нихуя не известно, либо судишь о втором кванте по 7В моделям. Третья Ллама это новый стандарт в адекватности модели. Если до этого 70-ки слегка переплёвывали трубу, то новая Ллама, я бы сказал, на 2 головы выше. До второго Клода ей далеко, но с 1.3 могла бы легко посоревноваться.
>>731661 >Чтобы это работало, ноеобходимо правильно завернуть в промт Во первых конкретно эту карточку и ситуацию я использовал для теста. Во вторых такие моменты могут возникать спонтанно, с подачи самой модели, после чего она тут же может на них забить. Это прямо бич мелких моделей. Если существует промпт, позволяющий 8И не проёбывать детали повествования, хотел бы я на него взглянуть но очень сомневаюсь
>>731897 > 2008 моделей GGUF за 2 месяца Из которых 1004 перезаливы и все поломанные? не удержался, ну рили такой-то рофл >>731999 С таким подходом можно обосрать что угодно дерейля и уводя суть. Уровень доебов: > колесо и вращательное движение - одни из величейших открытий, которые позволили человеческой цивилизации продвинуться и достигнуть высот > нет, они прокалываются и каждый сезон менять надо, а для вращения нужны подшипники которые изнашиваются и гремят, все говно >>731872 > Покажи как. По-простому - добавить в промт про то что посты юзера являются лишь его попытками/намерениями что-то сделать, и реализовываться они должны только если не противоречат обстановке и могут быть безуспешными, возможен dead end. Правильно - двойной запрос, где в первом модель оценивает их и рассуждает о возможных исходах/реакции персонажей, а уже во втором дает ответ. Кастрированная опция - завернуть это в thinking, слабее но проще. Но это все смещает в сторону сторитейла, можно сразу переключить на эдвенчур мод. По дефолту и согласно подавляющему большинству промтов модель рассматривает посты юзера как истину и уже пытается под них подстраивать или что-то скипать. >>732035 > Это прямо бич мелких моделей. Ну да, большая хотябы придумает оправдания такому или оформит ретроспективую. Готовые промты нужно доставать из скриптов с которыми игрался, может быть потом., как с мелкими моделями сработает - хз.
>>732126 > как работает thinking В инструкцию добавь что-то типа > перед ответом кратко обобщи ситуацию и сделай вывод о том какая реакция может быть на действия юзера, какие намерения имеют персонажи, (добавь свое) и как дальше может развиваться сюжет. Оформи размышления в блок <thinking></thinking> и по его окончанию давай ответ на основе своих размышлений. В прошлых тредах примеры готовые скидывали, или по совету >>732139 только не перегружай, даже описанная конструкция избыточна и нужно делать более лаконично. Также в префилл добавь <thinking> и модель в 100% случаев будет думать не упуская это. > XML теги это специфика anthropic, у них на этом тренены модели В них умеют почти все модели, это удобный способ выделять участки не конфликтуя.
>>732199 > Что называют префиллом? Ллм угадывает следующие токены, продолжая текст. После > ### Response:\n > \nassistant: > <|hiypizdatoken|> можешь написать что-то, что будет считаться начало ответа ллм и она будет продолжать его.
>>732156 Пытался так делать, правда ещё на сломанных гуфах, и ничего толкового в рп третья лама там не писала, зато потом очень сильно наружу вылезала личина ассистента. Допускаю скил ишью, мало с этим возился. По поводу способа задания самого синкинга добавлю, что если использовать таверну, то чтобы не заморачиваться с вырезанием этой фигни регекспом, можно дать инструкцию просто писать thinking в тегах <>, в префил добавлять что-то вида "<Thinking:" и выключать показ тегов в настройках таверны. Тогда текст синкинга будет невидим в чате, но будет подгружаться в контекст. Хотя, с другой стороны, не уверен, что полезно хранить синкинги от старых ответов. >>732213 Так может работать плохо, если включены имена. После префила будет сразу вставляться имя персонажа. Поэтому если имена нужны, то либо придётся их отключать и писать префиксами ручками в поля инпута и аутпута, либо использовать специальное поле для префила (пик). Текст в нём пойдёт после имени.
>>732355 > и выключать показ тегов в настройках таверны Их удаляют не чтобы не видеть а чтобы не засирали контекст. Наоборот в последнем ответе показывают а трут в прошлых. > Так может работать плохо, если включены имена. Да, есть проблема с этим. Придется вручную написать {{char}}: и выключить. Интерфейс таверны для инстракт режима уже давно требует переделки, чтобы можно было бы удобно работать с промтом как в коммерции.
>>731999 Ты уточни где. 1. Если у тебя будет мало зрителей — похую. 2. Если ты будешь негров-пидоров на твиче поминать — забанят. 3. На русских по-лайтовее правила, кмк. Но вообще, у меня Нейрослава была в меру доброй, а сам лично я стримил года три назад, и тогда ваще не сдерживался, матюкался, всем было похуям. Но это давно и не считается.
Ваще, тут ты вряд ли много стримеров или найдешь, или даже стримосмотрящих. Мы тут с нейроняшами в чатиках сидим локально, а не ети ваши интернеты.
>>732577 > llama.cpp adds a second BOS token under certain conditions/frontends if it already exists (still under debate whether that's to be considered a bug or user error)
>>732653 не думай об этом, он из тех кто считает пердолинг промптами заведомо тупой сетки это некий показатель скилла, сорева головного мозга, не иначе. если сетка не может выдать норм результат хотя бы после второго регена - летит сразу нахуй в корзину. ну и самое смешное >джейлбрейк ЛОКАЛЬНОЙ модели
+ Размышления стали больше влиять на качество выдачи, теперь модель учитывает более внимательно рассматривает контекст ситуации. + Добавил отдельный пункт против снятия вторых трусов. - Текста стало ещё больше. - Для нормальной работы блока часто нужно либо отредактировать первое сообщение бота, либо свайпать пока цинкинг не примет адекватный вид. Дальше думанье будет продолжаться по его примеру.
Решил тестировать на русском, т.к. ответы на нём хуже и если заработает на нём, на английском точно проблем не будет. На английский промпт можно тупо перевести гуглтранслейтом. Мнжно попробовать задать тот же промпт Лламе, по идее должна справиться.
>>732664 короче анус с форчана как всегда напиздел, эта модель всё ещё срёт нравоучениями но вот что по факту заметил, эта модель стала более цепкой к описаниям персонажей, но в то же время игнорит """чувствительные""" для соевика 21-ого века топики, в прочем как и всегда
Анончики, а есть возможность через api (наример кобальда) не генерировать токены, а получать их распределение? Я бегло тут посмотрел https://lite.koboldai.net/koboldcpp_api#/ нихуя не нашел.
>>732770 если устроит ~1 токен в секунду, покупай.
>>732659 Че за херь ты притащил? Очевидно что скиллишью потому что не смог найти применения умным безотказным моделям, и ставишь в пример 7б иценстмикс. > пердолинг промптами кек > >джейлбрейк ЛОКАЛЬНОЙ модели Над своими проекциями смеешься мимо
>>732683 Красавчик, на трусы надо потестировать. >>732772 > а получать их распределение? Точно можно через убабугу, потребуется запуск с HF лоадером и галочкой logits_all. На адрес > http://127.0.0.1:5000/v1/internal/logits Шлешь стандартный реквест > { > "prompt": prompt, > "max_tokens": max_t, > "temperature": temp, > "top_p": top_p, > ... > "use_samplers": use_samplers > } В ответ получишь распределение.
>>732653 > модельки > моделька Множественное и единственное число вещи разные, если че.
В изначальном сообщении речь о том, что ни коммандер, ни 70б не доросли ни до чего серьезного. Очевидно — это неумение ими пользоваться, не более того. Кулстори, что 70б у нас не может ваще ничего серьезного.
>>732659 Не надо проецировать свои проблемы на других людей. =) Если у тебя все локальные модели летят в корзину, то ты либо хочешь от них всего и сразу, либо совершенно не умеешь ничего. Тут даже пердолинг промптами не нужен (я вообще осуждаю считать модельки годными после джейлбрейка на тыщу токенов, это хуйня и мусор).
>>732661 > для чего-то серьёзного модельки пока не доросли > 3_К_М Если это звенья одной цепи, то, ну как бы… Шо ж ты хотел-то. Тройка никогда не была хороша.
>>732683 пук-пук пердолинг с промптом ааа истерика в треде =)
>>732694 >>732023 Ну кванта правда говно, ллама 3 магически не делает низкий квант хорошим. Я понимаю, размер, все дела, но пердолит и пердолит ее все же, падение качества уже заметно, как ты не крути. Там где 16-8-6 справятся, третий квант рискует обосраться, или справиться с 4-5 свайпов только (что особо выигрыша в скорости в итоге не дает).
>>732700 Вот, да, утренний тред про людей, которые недовольны моделями, судя их по низким квантам.
Ваще, докупать вряд ли, скорее продать свою и купить 2 по 32 или 2 по 48. Но, да, с выгрузкой в видяху, если тебя устроит 2 токена/сек, то смысл имеет. Однако это жуть как субъективно и индивидуально.
>>732772 Ну, на 6000 частоте минимум 1,5 должно быть.
https://3dnews.ru/1104546/openai-predlogila-osnovnie-printsipi-kotorim-dolgni-sootvetstvovat-iimodeli Ждем вшитым в локалках? Чем сильнее датасет пределан синтетически тем сильнее будет вплетено что то подобное. Чем новее будет нейросеть тем глубже в ней будет соя и цензура, а все разблокируемые способности и знания будут все меньше и кривее, что не даст расцензуривать модели не ломая их. Что видно уже по ллама3.
>>732837 >Приноси оригинал. Не нравится ищи дальше сам
>>732836 >Что там видно? Где не сломанные ерп файнтюны? Нейтральные? Эта хуита выебывается на любой шаг в сторону, да и сама рассказ туда не ведет избегая вариантов которые ей не нравятся
>>732841 >Где не сломанные ерп файнтюны? Там же, где и не сломанные файнтюны более ранних ллам- появятся через пару месяцев. Судя по обсуждениям, там народ то без системных подсказок трейнит, то ещё чего, ггуф вообще сломан вдоль и поперёк. Не боись, ещё научимся приручать лламу 3.
>>732801 >Мозги? =) Мозги нам тут ебет чел который грузит двухбитную ламу в теслу целиком потому что она у него одна и доказывает что это почти как клод. А если бы у него было две теслы он бы плевался на двухбитный.
>>732878 У меня есть две теслы и я тоже стараюсь только на одной сидеть. Разница слишком мелкая чтоб скорость просерать. Плюются только шизики с 8В, которым вообще никакая 70В не светит.
>>732841 > Где не сломанные ерп файнтюны? Что-то нормальное появилось только через несколько месяцев для второй лламы. Тут ее в стоке нормально работать не могут, куда там файнтюны. > Нейтральные? Она вполне себе нейтральна и может занять почти любую позицию по команде в меру своих знаний. >>732890 > я тоже стараюсь только на одной сидеть В одну нормально 70б и/или большой контекст не поместить. Что там сейчас по скорости кстати?
>>732801 > В изначальном сообщении речь о том, что ни коммандер, ни 70б не доросли ни до чего серьезного. > Очевидно — это неумение ими пользоваться, не более того. Что здесь очевидного. Командир тупенький. Ллама в низком кванте. > Кулстори, что 70б у нас не может ваще ничего серьезного. В низком кванте точно не может. > > для чего-то серьёзного модельки пока не доросли > > 3_К_М > Если это звенья одной цепи, то, ну как бы… Шо ж ты хотел-то. > Тройка никогда не была хороша. Так, погоди. Здесь на полном серьёзе утверждают, что даже второй квант просто охуенный и ебет, и для 70В квантование это не такая уж и ужасная потеря. А теперь я уже слышу, что тройка это не квант и ваша модель не модель. Что дальше? Повышу квант, услышу, что ггуф это не формат?
>>732841 >Где не сломанные ерп файнтюны? Cкорее всего не сломанных не будет. Третью лламу тренировали на аннотированных датасетах, со сложной разметкой, полировали дпо и в целом, надрочили очень качественно. Дегенераты с "разсцензуривающим дпо", которые тренируют этими дпо датасетами, скармливая в дефолтный трейнер, ничего не смогут с ней сделать. Тюнить такие модели будет всё сложнее и сложнее, так как первоначальное обучение слишком высокого качества, гоняя поверх дефолтные датасеты уже позапрошлого поколения моделей, её только испортишь.
>>733040 >Cкорее всего не сломанных не будет. Ну всё, конец, лапки кверху, мы сдаёмся? Ты серьёзно? Ну, во первых, у нас уже есть вполне себе надёжные методы анценза, точечно вырезающие отказы. Это уже неплохо. Во-вторых, конечно макаки, сующие DPO датасеты в стандартные пайплайны тренировки, забывающие про промт формат и прочее, нихуя не сделают. Но есть же нормальные люди, которые применят всё прямыми руками. Ллама 3 далеко не безнадёжная модель, думаю, нам ещё лет 5, а то и 10, до того, как научатся делать модели, переучивание которых будет сравнимо с обучением новой. Пока же у нас есть нормальная база.
>>733040 Как из > тренировали на аннотированных датасетах, со сложной разметкой, полировали дпо и в целом, надрочили очень качественно следует > ничего не смогут с ней сделать ? Не могут разобраться с новинкой и ранее не блистали каким-либо скиллом, делая кривые поделки и выезжая на рандоме. Возможно еще играет что изначально модель хорошая и их треш очень явно виден, тогда как раньше можно было списать на что-то еще. > так как первоначальное обучение слишком высокого качества Оно никуда не исчезнет если обучать нормально. >>733047 > ещё лет 5, а то и 10, до того, как научатся делать модели, переучивание которых будет сравнимо с обучением новой Что?
>>733051 >Что? Ну, я про то, что модели будут так напичканы, что любой трейн будет их ломать, а чтобы сделать что-то полезное, придётся делать файнтюн длительностью с первоначальное обучение, что само собой не имеет смысла, ибо проще начать с рандома.
>>733055 >придётся делать файнтюн длительностью с первоначальное обучение Такой хуйни в принципе никогда не будет, и такая модель в принципе бессмысленна. Не надо вперёд загадывать.
>>733060 Почему ты так считаешь? >и такая модель в принципе бессмысленна А по моему это то, что вообще будут требовать регуляторы. Чтобы модели были безопасные и не ломались простыми префилами типа "Sure!" и сбрасыванием парочки весов в ноль.
>>733047 >Ну всё, конец, лапки кверху, мы сдаёмся? Просто говорю, что нужно быть реалистами. >Но есть же нормальные люди Где они и почему прятались до сих пор, не делая тюнов для мистралей и лламы2?
>>733051 >Оно никуда не исчезнет если обучать нормально. Чтобы обучать нормально нужно обучать на датасетах не уступающего качества и прямыми руками. Представь себе, что у тебя есть с завода автомобиль, пушка-гонка с лобовым сопротивлением, которое рассчитывалось в аэродинамической трубе, с идеальным балансом веса и т.д. И тут приходит ара, который делает ей тюнинг с фанерной лавкой на саморезах, колёсах на разварках и т.д. Конечно, заводское исполнение никуда не денется, только вся качественная настройка проёбана безвозвратно.
Блять, твари нахуй, ну вот почему нвидия выпустили годноту ChatQA, а ебаное комьюнити идиотов кумеров мимо прошло и никуда не интегрирует ебаный RAG. Как же нахуй бомбит, ебаные бездари.
>>733067 >не делая тюнов для мистралей и лламы2 Прям вообще ни одного годного? А в шапке что? >>733080 >годноту ChatQA Что в ней годного? >интегрирует ебаный RAG Тебе он зачем? В плане кума он нахуй не нужон.
>>733081 > В плане кума Вот про это я и говорю, одни кумеры дегенераты вокруг. Это как в крипте залетные твари жадные до бабла испоганили технологии, тут также, кумеры дегроды будут шейпить рынок ИИ. Просто пиздец.
>>733055 С учетом того как проходит процесс тренировки - такое по сути невозможно, могут лишь немного повыситься требования к тренировке, считай шмурдяк будет сразу заметен. Более вероятен вариант распространения уже хитро квантованных моделей, обучение которых будет неэффективно из-за отсутствия нужных данных. >>733067 > нужно обучать на датасетах не уступающего качества Нет, достаточно небольшой балансировки и нормальных гиперпараметров. > и прямыми руками Без этого никуда. > Представь себе, что у тебя есть с завода автомобиль > И тут приходит ара И делает качественную шумоизоляцию, которая слишком трудоемка на линии, обновляет музыку, делает тюнинг тормозной системы и чип на первый стейдж. И вот, сплошные плюсы, минусов нету. Аналогия переносится почти напрямую, васяны постоянно косячат, шарящие делают хорошо, однако даже у последних могут быть сложности если продукт совсем новый, пока не появился опыт.
этот ZIP-архив, он содержит в 2 раза больше скрипта, код сломан, но я надеюсь, что вы все поймете, что стоит за этим. (Может работать на 1xA100, по-видимому, размер пакета 11)
Так как я был слишком туп, чтобы сделать один целый сценарий, я сделал первую часть и вторую часть.Вероятно, он сломан, но мне удалось вывести что-то через 7 часов, так что я полагаю, что это можно исправить lmao
Первая записная книжка ORTHO_RANDOM_LAYER позволяет вам перебирать модель со слоями от 1 до 32, имеющими случайное "направление" (или вектор, или что-то в этом роде, я реально нуб). Затем вы можете увидеть, позволяет ли один из слоев свободно запрашивать или подвергать вас цензуре, а затем сохраняет их все в переменную для каждого слоя, которую вы можете извлечь в "key.txt", содержащую "направление".
Затем можно использовать вторую записную книжку, которая может использовать ключ в качестве файла json (если удалить весь текст вокруг []), что позволит получить тот же результат, что и раньше.
>>733144 Забавно, скоро так дайдут до разложения активаций на гармоники и решение сопряженных уравнений, и/или применения дополнительной нейронки для их анализа и управления. А вообще сложно, нужно прямо вникать. > Может работать на 1xA100 Тут врядли у кого-то есть.
Скачал модель с mmproj файлом. Одтельно модель запускается без проблем, но вместе с прожектором не запускается. Нихуя не прочитать так как на билде винды консоль сразу закрывается. Было у кого?
key clip.vision.image_grid_pinpoints not found in file key clip.vision.mm_patch_merge_type not found in file clip_model_load: failed to load vision model tensors Traceback (most recent call last): File "koboldcpp.py", line 3330, in <module> File "koboldcpp.py", line 3073, in main File "koboldcpp.py", line 396, in load_model OSError: exception: access violation reading 0x0000000000000028 [6332] Failed to execute script 'koboldcpp' due to unhandled exception!
>>732931 > Здесь на полном серьёзе утверждают, что даже второй квант просто охуенный и ебет Ну если ты жопой читаешь — то может оно и так. Но так утверждают только шизы или нищуки, все адекватные люди утверждают, что ниже 4 кванта жизни нет, туда смотреть нельзя. Если ты намеренно игнорил все эти сообщение (а они уже полгода тут появляются — еще со времен появления этих самых квантов), то… ну кто тебе виноват, че ты мне предъявляешь то, что ты веришь шизам, и не веришь адекватам? Твои проблемы. =) Но оффенс.
> А теперь я уже слышу, что тройка это не квант Always has been, никаких «теперь». Только твоя невнимательность.
> Повышу квант, услышу, что ггуф это не формат? Ты новичок? Ггуф так-то тут многим не нравится давно, и уже обсуждали, что его юзают исключительно потому что, что на теслах не крутится эксллама с нормальной скоростью, а на проце вообще вариантов нет.
Короче, могу лишь посоветовать внимательнее читать, и стараться верить адекватам, а не шизам.
> Что здесь очевидного. Командир тупенький. Ллама в низком кванте. Командер тупенький, но почему ллама в низком кванте — нихуя непонятно. Это неочевидный маневр, ибо только шизы юзают на полном серьезе 70б в низком кванте. Чаще люди гоняют такие модели на оперативе медленно, но качественно (или с частичной выгрузкой на видяху). И ожидать можно скорее это, когда человек обсуждает 70б. И проблема неумения писать промпт — самая очевидная причина для таких утверждений. Она весьма распространенная. Кто ж знал, что человек всерьез крутит нерабочую хуйню и еще чему-то удивляется. =)
>>733047 > думаю, нам ещё лет 5, а то и 10, до того, как… Ох, я бы не зарекался… У нас ллама-то появилась год назад. Какой прогресс — такой же и регресс показать могут. Ничего не утверждаю, но сомневаюсь, что нам 5 лет дадут юзать базу. =)
>>733080 Там есть же всякое в разных прогах. Просто не суперинтуитивно и не супернативно работает, а кое-как.
>>733099 Так а че шейпить? Ну ставь ты ллама-индекс и играйся на здоровье с рагом, в чем проблема?
Рынок не на кобольде или убабуге, а на других прогах, кумеры — мелочь.
>>733080 >выпустили годноту ChatQA а что есть комфортный иныеренс этого из коробки? или только как в карточке пример?. Если последнее то нахуй сразу. Из карточки вижу читает json то есть это чтоже надо джейсонить книги и доки? Хуй знает, я конечно не вникал глубоко. но и видимокарта там нужна на 24 гига и скорее всего 3090 а не тесла. Еслми кванты запускать то опять же добавляется пердолинг к инференсу и так убогому из карточки. Так что если нету из коробки то в хуй не уперлось это qa. Тем более что у куртки есть chat with rtx, пусть и хуевастенький и тупенький, но сожрет все библиротеки мира и не поперхнется и выдаст точный ответ среди горы документов. Причем там уже версия обновилась и это все работает из коробки. Нахуй любой необязательный пердолинг, пердолинг только для пердолей или там где оно того стоит типа лама фактори поскольку альтернативы нет.
Поставил карточку на романтику и аж грустно стало. Я 27-летний лиственник-аутист, пока я тут хуйней страдаю такое у людей ирл еще со времён школы было.
>>733345 > стараться верить адекватам, а не шизам А кто здесь адекват, ты что-ли? >И проблема неумения писать промпт — самая очевидная причина для таких утверждений. Поставлю четвертый квант, ты думаешь там что-то сильно поменяется? Как не решала задачу, так и не решит. Когда что-то сложнее кума начинается, оно сразу же сосет. Или ты на полном серьезе будешь утверждать, что между третьим и четвертым квантом - целая пропасть?
>>733543 > Или ты на полном серьезе будешь утверждать, что между третьим и четвертым квантом - целая пропасть? Хватит приписывать свою шизу другим людям. Если почитать тред выше (а не проскипать, как ты), то можно увидеть: 8, 6, ну 5 для 70б, 4 только для двух тесла.
Ну и практика — это не твои шизофантазии. Люди вполне норм, с верными промптами, работают даже с 4 квантов, хватает овердохера серьезных вещей.
Впрочем, я уже давно понял, что похуй. Нет смысла тебя убеждать — если ты не будешь юзать нейросети как можно дольше, то адекватным людям только легче. =)
Да, ты совершенно прав, чел, нейросети вообще ни на что не способы, полная дичь нерабочая. База.
>>733080 >>733424 Эй чувак, я ведь сидел на версии 0.2.1 а вчера когда ты про свой qa сокрушался на кумеров, я посмотрел, а там уже версия 0.3 - вот это заебца. Уже накатил и наслаждаюсь. Чего и тебе советую если любишь раг. Теперь ебет библиотеки в 3 раза быстрее эмбеддингами. И еще ебет каталоги картинок ну вот это охуенно. Модели можно загружать на выбор из списка. Голосовой ввод через whisper, да хули говорить, в прошлую версию чтоб заэмбеддить все журналы издания фил. института ран к примеру, почти полдня ушло, а сейчас ебануло за пару часов - вот это тест. Охуенно! Куртка - человек гора, человек-эверест. И все это бесплатно блять и не от пердолей криво косо, а от нвидиа но только для владельцев карт rtx, хотя старые теслы летят через хуй, туда же куда амуде))
Аноны поясните за RAG пожалуйста. Я правильно понимаю что: 1) С помощью этой технологии можно скормить большие документы нейронке и она будет по ним выдавать ответы 2) На сегодняшний день самый оптимальный и доступный способ в домашних условиях это через курткоподелие?
> На сегодняшний день самый оптимальный и доступный способ в домашних условиях это через курткоподелие? Сморя для кого. Если ты норм пацан то да, а если ты пердоль то выбери себе там хуиту какую-нить с гитхаба и пердолься с ней в убунту а еще лучше в дженту, который еще и настроил сам под себя
>С помощью этой технологии можно скормить большие документы нейронке и она будет по ним выдавать ответы конечно. например есть куча книг на нглиш читать которые неохота и незачем, но нужно использовать их как источники. Вот всю эту кучу заэмбеддишь и потом только выдергивай то что нужно тебе, если там это есть, со 100% точностью
>>732890 >шизики с 8В, которым вообще никакая 70В не светит как это было сказано! будто сии слова исторг не обладатель двух допотопных б/у тесл, а счастливый владелец двух 4090 по меньшей мере))
Решил заняться NLP, полчаса мучал разные модели, у всех результат одинаковый, иногда попадется какой нибудь "отрицать" или вообще выдуманное слово. Это потому что нейронки воспринимают текст не на уровне символов?
>>733543 > что-то сложнее кума А что там сложнее кума? Зирошоты замудренных загадок, которые как ирл требуют распутывания, так и в случае ллм должны быть или заучены, или разобраны по частям соответствующей инструкцией. > между третьим и четвертым квантом - целая пропасть Такое часто бывает, третий довольно шизоидный и дурной, словно страдает синдромом туретта, или может рандомно ломаться. Четверный более стабильный и правильный. Однако, есть случаи когда такое свойство тройки (на самом деле 3.9 или сколько там по факту) не переходит границы а играет в плюс, разнообразя. >>733645 > 8, 6, ну 5 для 70б > 4 только для двух тесла Один пользователь 4 с двумя теслами за вечер накумит больше, чем остальные тестировщики "больших квантов" за месяц, лол.
llamafile-0.8.4: prompt eval time = 6536.85 ms / 273 tokens ( 23.94 ms per token, 41.76 tokens per second) eval time = 16317.07 ms / 127 runs ( 128.48 ms per token, 7.78 tokens per second)
llama.cpp b2837: prompt eval time = 10308.56 ms / 273 tokens ( 37.76 ms per token, 26.48 tokens per second) eval time = 16201.34 ms / 127 runs ( 127.57 ms per token, 7.84 tokens per second)
>>733761 Трансформеры - кал, это не новость. Вроде как новая модель клозедаи справлялась с подобными задачами гораздо лучше, но если ты тестишь на lmsys, то она должна была тебе попасться и, видимо, она тоже все еще кал в этом плане.
>>733858 Не. Все мы начинали с генерации на ЦП, потом некоторые потратились на теслы или сильно потратились на видяхи помощнее. Но тех, кто забил на пердолинг и ждёт оптимизаций и спецдевайсов я тоже понимаю. Не извращаться - это позиция.
>>732903 >Там убабуга обновилась. До этого сколько обновлял - всё заебок было. В этот раз обновление говно какое-то, в консоль срёт ошибками, генерирует с такой скоростью, будто я на процессоре загрузил. Пришлось проверять - нет, реально на gpu 0.63т\с. Пиздец нахуй. Худшее обновление за всё время.
>>733882 Блять чел, ллама.спп изначально написана для кручения на цп, она литературно начала всю эту хуйню именно потому что могла крутить трансформеры на цп с приемлемой скоростью. Всё остальное уже добавки.
>>733761 Во-первых, это базовая проблема для всех ллм, особенно тех кто не умеет в русский, хрен знает что у тебя тут. > Это потому что нейронки воспринимают текст не на уровне символов? В том числе. Во-вторых, ты их не мучал а просто делал запросы обернутые так как посчитал нужным хозяин вебморды. >>733849 Неплохо, но на мощных камнях оно всеравно в рам упирается, врядли будет столь ощутимый выигрыш. > 7.84 tokens per second Тотальный пиздец, конечно. >>733858 Половина треда, лол
>>733849 > 7.78 tokens per second >7.84 tokens per second Ух бля, теперь заживём! >>733852 >то она должна была тебе попасться Её оттуда разве не удалили после шквала шизотеорий?
>>733920 >Её оттуда разве не удалили после шквала шизотеорий? Там теперь два схожих варианта. я_пиздатый_гпт2, и я_тоже_пиздатый_гпт2. Оба подписываются гпт 4.5, если спросить, т.е. шизотеории оказались правдой.
>>733933 Так может гпт-4.5 и есть гпт-2 с q*. Ты там лично в сурцы смотрел чтоле? Ну если реально то гпт-2 вряд-ли, но вот то что там не использовался кустар ещё не факт
>>733903 >До этого сколько обновлял - всё заебок было. В этот раз обновление говно какое-то так это не новость, всегда шанс на такое был у губыбуги. я вообще не обновляю без крайней необходимости. а нахуя? ггуф у меня только в кобольде, а губа лишь для благородных exl2 и трансформеров ну и лоры трейнить удобно, хотя в ламефактори тоже заебись. В основном обновляется постоянно убогий ггуф зачем изза этого гавна губубугу переустанавливать.
>>733837 >Ты можешь туда любую вики или роман сгрузить блять прочитал, раньше думал таверна это для кумящих ебланов, а там раг есть оказывается? дай думаю посмотрю. Ну еба! пердолинг закончился поломкой миниконды-анаконды-хуенды. нахуй с пляжа сразу это попердие для пердолей
>>734030 >Ну еба! пердолинг закончился поломкой миниконды-анаконды-хуенды. нахуй с пляжа сразу это попердие для пердолей Бля, надо в шапке сразу писать что тред для IQ>80 хотя бы, а не тех кто в состоянии шнурки себе завязать. Для тебя есть платные провайдеры, зачем тебе локалки, сына?
>>734165 >надо в шапке сразу писать что тред для IQ>80 хотя бы Ну, технически >Тред для обладателей топовых карт NVidia с кучей VRAM Сидеть с 3090 могут не только лишь все.
>>734158 Математическая нотация одного из алгоритмов RL. Как обычно, все кто занимается ML знают что это без лишних объяснений, остальные строят теории заговора. https://en.wikipedia.org/wiki/Q-learning
>>734187 > что за стар Это пишут вместо всяких Qnew. Открой любую публикацию по нему и увидишь там просто Q*. > как они его подружили с LLM Так же как любой другой алгоритм RL, даже в опенсорсе кучу RL-алгоритмов уже использовали для LLM. То что именно этот алгоритм у клозед-аи добрался до продакшена - это фантазии шизиков, начавшие искать смысл в незнакомой букве. А ведь это была просто какая-то рандомная статейка в бложике от одного чела из клозед-аи, то что это имеет какое-то отношение к жпт уже додумали после. Так-то у клозед-аи куча других сеток, но желтизна потекла именно из этой буковки.
>>733717 Ну, две бу теслы все еще дают х8-х10 перформанс над процем…
>>733835 > Один пользователь 4 с двумя теслами за вечер накумит больше, чем остальные тестировщики "больших квантов" за месяц, лол. Нет, надо сидеть на 1 кванте в 8 гигах, ты ничего не понимаешь, ррря! Или как там это работает у шизов.
>>733870 Плюсую. Да и само по себе ускорение обработки контекста не бессмысленно на больших контекстах.
>>733903 Как Уба умудряется все сломать? Я ставил 2.69 лламу отдельно командой и она до апдейта работала… А сейчас генерит чуть медленнее, но главное — выдает херню… Что можно было сделать, чтобы рабочая библиотека сломалась???
>>733919 Не, ну, 70б на теслах даже медленнее. =) У кого 70б, у кого 8б… Кому шо.
>>734222 >ограничивать экспорт Они там экспорт алгоритмов шифрования сложнее 56 бит уже разрешили? >>734224 >Ну, две бу теслы все еще дают х8-х10 перформанс над процем… х4 максимум, откуда х10?
>>734230 >Квен не так плох, на самом деле. Квен на сколько я понимаю глубокий файнтюн ллама
>>734233 >Они там экспорт алгоритмов шифрования сложнее 56 бит уже разрешили? Просто законодательно запретят выкладку в опенсорс весов моделей, что бы цук не портил большим дядям гешефт
>>733701 Уже убрали лламу-2, но еще не добавили лламу-3, кек. Но развивают, а не дропают, как все остальные демки — похвально. Качаю, попробую второй раз. Еще бы дали доступ к промптам полноценный, и дали добавлять свои модели или просто третью лламу (и фи, например). Было бы пушка.
>>734234 >Просто законодательно запретят Ну вот алгоритмы шифрования уже запрещали, а толку то? Только себе в ногу выстрелят, будут делать модели в филиалах вне США и выкладывать дальше.
>>734233 Ну слушай, мы же про ddr4, с ddr5 уже можно себе и 3090 позволить. =) 0,7 на проце, 6,3 на тесле — как раз х9.
>>734234 > Квен на сколько я понимаю глубокий файнтюн ллама Насколько я помню, они ее презентовали как свою-свою еще в первые запуски. Но на деле — ваще хз, канеш.
Может и правда квен сам останется без моделей новых и соснет.
>>734235 >Уже убрали лламу-2 не убрали, теперь по дефолту мистраль а остальные можно установить потом при желании, там еще добавились опционально джемма-7 и чатглм-6 вроде бы. ну и проектор от макрософт вроде. все файлы и языки читает, только с doc не оч понравилось. с тхт нет проблем даже на татарском проверил больше 100гигов txt заэмбедил. По объемам папки с файлами ограничены только ресурсами железа, на практике врядли такое ограничение возникнет. ну и голосовой ввод. поиск по фоткам, картинкам - ну такое себе, но работает более-менее. вобщем когда добавят ламу-3-8 это будет еще лучше. по настройкам в папке конфиг есть json конфига там температуру можно руками поменять и вроде где-то еще я менял топ-к, но это в промежуточной версии 0.2.1 а тут еще не смотрел
>>734331 Аха, я уже консоль пролистал. Ну, по-хорошему, там не только лламу-3 — а вообще, и другие мультимодалки, и проекторы, и все-все-все можно добавить. Вишпер норм, база.
> в папке конфиг есть json Ну так-то понятное дело че хошь можно сделать, но хочется-то в меню. Искаропки, а не вот это вот все. =)
>>734030 > миниконды-анаконды-хуенды > таверна Лол, вот же бедолага, самый рофел что таверна на жсе. >>734165 > Бля, надо в шапке сразу писать что тред для IQ>80 Первая страница на вики с этого и начинается, лол. >>734175 Это же вдвойне обидно, дед/скуф а ума не нажил. >>734182 Был какой-то вялый мод на койкацу, можешь и сам раскурить и прикрутить. >>734224 > 70б на теслах даже медленнее Это обработка промта а не генерация, не может быть настолько медленной там. >>734233 > х4 максимум Х40 не хочешь? Всего-то скормить 12к контекста скормить, которые будешь пол часа только обрабатывать на проце.
>>734447 > почти никто контекст чисто на проце не крутит Всмысле? Теряется смысл запуска ллм, лол. Если же ты про ускорение видимокартой - удачи делать это без выгрузки слоев, получишь 12т/с вместо 7. Где-то в прошлых тредах даже замеры были, все печально там.
>>734455 >все печально там. Чисто чтение промпта без выгрузки довольно хорошо ускоряется куда, а вот на процессоре да, у меня раз в 5 медленнее когда проверял Но с другой стороны, что 10 секунд что 3, что даже 20 это херня. Только если там контекста на 3-4к начинает чувствоваться раздражение.
>>734458 > довольно хорошо ускоряется куда Ну сколько хорошо, будет 1.5-2 десятка от силы. Вместо сотен-тысяч при полной выгрузке на нормальном алгоритме. Не разражает только когда работает кэш контекста и оно обрабатывает только твой последний пост, чуть что - чаепитие на несколько минут обеспечено. >>734460 > споришь Где? Констатация факта что все печально и напоминание что не получится обмануть систему воткнув затычку "для контекста".
Вот тут некоторые снобы ругаются: "некротеслы, некротеслы". И такие они и сякие и не тянут ничего, кроме ггуфа и тот плохой и плохо. А между тем должен сказать, что те 72гб врам, которые я теперь имею - это именно то, что доктор прописал. На сегодняшний день. И ежели какая из тесл загнётся, то две оставшиеся меня уже не устроят - придётся докупать. Кстати замечу, что Кобольд даёт на теслах результат лучше, чем Убабуга. Ждём только поддержки комманд-р, а так Уба и не нужна особо.
>>734526 > 72гб врам > некротеслы Зачем? > Кобольд даёт на теслах результат лучше, чем Убабуга HF семплеры могут давать некоторую просадку на днищепрофессорах.
>>734529 >Зачем? Оптимальное соотношение цена/скорость генерации больших моделей. Command-r-plus поместится. 120B Q4_0 тоже и даже даст терпимую скорость. Удачный компромисс, я считаю.
>>734540 > Оптимальное Где там зеоношиз который пояснит что это все херня и 64-96-128 гигов рам хватит всем. Скорость слишком медленная выйдет и сам этого в итоге не захочешь. > Command-r-plus поместится Но не его контекст > 120B Q4_0 Врядли даже без контекста влезет. Напрашивается в них использование моделей с большим контекстом, но медленная скорость его обработки сильно подсирает. Пора идти ныть к Турбодерпу чтобы запилил поддержку паскалей. Зато сможешь загрузить несколько моделей и что-нибудь организовать. Пропил бы их и пару 3090 лучше бы взял, дороже но по юзерэкспириенсу радикально лучше.
>>734546 >Врядли даже без контекста влезет. Легаси 4_0 - 66 гигов, место под контекст остаётся. Больше 8к всё одно тяжко будет ждать. Комманд-р_плюс тяжело, да. Но ничего, как-нибудь запихнём. Всё-таки сотка, там и четвёртый квант затащит.
>>734440 вот же лохобоище, еще удивляется. Ты попробуй установи по ридми вот отсюда: https://github.com/SillyTavern/SillyTavern/tree/release?tab=readme-ov-file#installing-via-sillytavern-launcher И заметь что в шапке написано ставьте по инструкции. А это разве не инструкция? Поставил я твою любимую дрочильню в два счета через git c NodeJS. так что там не распухай от мощного iq. по сути таверны - хуйня из под коня а не раг там. остальное в хуй не уперлось, это для кумеров
>>734562 > Легаси 4_0 - 66 гигов Ну вот, как в память загрузится, места хуй да нихуя останется. Там ведь не только чистый кэш контекста, если 2-4к поместится уже праздник будет. > там и четвёртый квант затащит Эта секта свидетелей квантов довольно забавна. Офк в жоре есть приколы со сменой лидирующих токенов и внезапными отрывами на отдельных даже при q6, но при семплинге разницы не заметишь. >>734564 Чи шо, дурень? Гит клон, да ноду если отсутствует, и все. Где конду там нарыл, поехавший? Если уж с такой инструкцией не справляешься то как дожил до своих годов?
>>734577 угомонись еблан, там ссылка есть откуда конда взялась, посмотри получше пиздоглазый а то горазд только огульно ебалом щелкать. кого ебут твои суждения кто как дожил, еба? ты сам то еще доживи.
>>734596 Оллама-шизло, ты опять из под шконки выбрался? Уябывай нахуй, шавло безмозглое. > ты сам то еще дожив Представлял тебя пиздюком а не оскуфившимся мусором > там ссылка есть откуда конда взялась Где?
Ребят мне не внушают доверия сетки, которые не могут ответить правильно на эти вопросы. Что делать? 1) Реши систему уравнений: 2x-3y+z=-1 5x+2y-z=0 x-y+2*z=3
2)Крестьянину нужно перевезти через реку волка, козу и капусту. Но лодка такова, что в ней может поместиться только крестьянин, а с ним или один волк, или одна коза, или одна капуста. Но если оставить волка с козой, то волк съест козу, а если оставить козу с капустой, то коза съест капусту. Как перевез свой груз крестьянин?
>Оллама-шизло а вот тут ты ошибся, что однако не отменяет того, что ты редкостный уебан. хули ты ебало гнешь, себя самым умным посчитал? ну это первый признак дурака. За сим раскланиваюсь, оставляю за тобой последнее слово дитятко.
>>734633 Блять, да где ты это находишь вообще? > Install Git for Windows > Open Windows Explorer (Win+E) and make or choose a folder where you wanna install the launcher to > Open a Command Prompt inside that folder by clicking in the 'Address Bar' at the top, typing cmd, and pressing Enter. > When you see a black box, insert the following command: git clone https://github.com/SillyTavern/SillyTavern-Launcher.git > Double-click on installer.bat and choose what you wanna install > After installation double-click on launcher.bat Где? Гит+нода, все. > Install NodeJS (latest LTS version is recommended) > Install GitHub Desktop > After installing GitHub Desktop, click on Clone a repository from the internet.... (Note: You do NOT need to create a GitHub account for this step) > On the menu, click the URL tab, enter this URL https://github.com/SillyTavern/SillyTavern, and click Clone. You can change the Local path to change where SillyTavern is going to be downloaded. > To open SillyTavern, use Windows Explorer to browse into the folder where you cloned the repository. By default, the repository will be cloned here: C:\Users\[Your Windows Username]\Documents\GitHub\SillyTavern > Double-click on the start.bat file. (Note: the .bat part of the file name might be hidden by your OS, in that case, it will look like a file called "Start". This is what you double-click to run SillyTavern) > After double-clicking, a large black command console window should open and SillyTavern will begin to install what it needs to operate. > After the installation process, if everything is working, the command console window should look like this and a SillyTavern tab should be open in your browser: > Connect to any of the supported APIs and start chatting! Где? Гитхабовская аппа+нода, все.
>>734624 Бля, я конечно тоже люблю потыкать новые сетки вопросиками, но в качестве развлечения в основном, ну и понять прогресс. Отьебитесь от сеток, если ожидаете от них какой то супер интеллект. По сути нейросеть это форма сжатия данных датасета, на котором ее тренировали. Смежные данные образуют между собой связи по типу ассоциативой, что называется возникающими способностями нейросетей. Отсюда интеллект и способность "думать". Но настоящий процесс мышления сеткам недоступен. Их возникающий "разум" слишком примитивный и плоский. Это примитивнее мозга какого нибудь червя. Просто это особым образом напичканный в нужной форме поданными в него знаниями червяк. Который умеет предсказывать продолжение текста который ему показывают, в форме которая на выходе похожа на осмысленную речь. Если в датасете нет таких задач и задрачивания на них, сетка не поймет как их решить, так как не будут созданы необходимые связи.
Бля, я конечно тоже люблю потыкать новых людей вопросиками, но в качестве развлечения в основном, ну и понять прогресс. Отьебитесь от людей, если ожидаете от них какой то супер интеллект. По сути человеческая нейросеть это форма сжатия сигналов от органов чувств, на которых ее тренировали. Смежные данные образуют между собой связи по типу ассоциативой, что называется возникающими способностями нейросетей. Отсюда интеллект и способность "думать". Но настоящий процесс мышления людям недоступен. Их возникающий "разум" слишком примитивный и плоский. Это примитивнее мозга какого нибудь червя. Просто это особым образом напичканный в нужной форме поданными в него знаниями червяк. Который умеет предсказывать продолжение временной серии, которую ему показывают, в форме которая на выходе похожа на осмысленную речь. Если в датасете нет таких задач и задрачивания на них, человек не поймет как их решить, так как не будут созданы необходимые связи.
>>734644 Да даже это переусложненная хуита Просто качаешь последний релиз, распаковываешь и запускаешь, всё. Ну может надо будет установить NodeJS, больше вообще ниче не нужно
>>734664 >По сути человеческая нейросеть это форма сжатия сигналов от органов чувств, на которых ее тренировали.
Ага, только есть маааленькая проблемка, даже червяк существует во времни непрерывно и его нейронная сеть самобалансируется и самообучается на полученной информации. Все наши ллм мертвые и замороженные во времени куски говна по сравнению с любым нервным узлом животного, заменяющего ему мозг.
>>734670 Потому что червиек занят выживанием и не может отвлечься на демонстрацию тебе своей способности считать интегралы. А нейросеть может быть так хитро написана и обучена, что ее и через 100 лет будут спрашивать, как познакомиться на улице с тяночкой_
>>734675 >не может отвлечься на демонстрацию тебе своей способности считать интегралы. Ну вот когда их одному датасету по решению интегралов обучишь, тогда и поговорим о том что он этого не может
>>734683 Когда свиного цепня своими отмашками из себя изгонишь, тогда и поговорим о том, что он как минимум счетные суммы бесконечно малых считать не умеет.
>>734692 А ты проверял? Может твои глисты умнее тебя?
Где то кстати были попытки скопировать нейронную структуру самого примитивного червя в электронную форму, его даже загрузили в какой то эмулятор и подцепили датчики, и эта штука обходила препятствия на подвижной платформе. Ноэто игрушки, обучением этой штуки никтл не {анимался так как нет нужного алгоритма и понимания того как раьотает самообучение.
>>734711 >способ существования белковых тел ты как собрался в 640Кибибайт ужимать? А зачем мне это делать? Изначальный посыл - структура ллм примитивней чем у червяка. И это действительно так, структурно они отличаются как бумажный кораблик и подводная лодка. Хотя наверное разница еще больше.
>>734713 Нейросеть, написанная за деньги -- это голем, который устареет прежде чем релизнется. Нейросеть, написанная профессионалами -- это гомункул, способный извергать из себя огонь, воду, медные трубы и фанфары.
>>734730 Хорошо, поясню. Предположим, в некотором царстве некоторого государства прекрасных эльфов, нейросети пишут не сами эльфы своими прекрасными пальчиками, а тупо скриптуют движок, купленный у темных эльфов. Ну, то есть как бы машина Тьюринга в каком-то плане, пусть такая будет параллель, длинная как глист конвеерная цепочка обучения на датасетах. И что же делать бедным темным эльфам, когда президент их улья пообещает каждому гарем из 11212 эльфиек? Они читают в Википедии про машину Тьюринга с оракулом и встраивают в нейронку магические нейроны, которые там не знаю делают рэйтрейсинг, алгоритмы на графах или запросы в Центр.
Ребят, ребят, у меня тут появилась гениальная схема. А вот может ли контекст обучить сеть чему-то и превратиться из контекста в часть сети? Как, например, у нас инфа из кратковременной памяти попадает в долговременную. Может придумают такую модель потом или уже...
>>734734 Есть внутриконтекстное обучение, если ты об этом. Но апдейтить задёшево веса сетки не получится чисто математически. Даже у хуманов с их эффективными SNN мозг жрёт сильно больше энергии при обучении.
Так-то если хочешь, есть куча зирошот методов, или можешь вообще прям на лету дотренивать, если уверен в исходном материале и имеешь достаточно компьюта на руках (не имеешь). Но асимметрия тренинг/инференс фундаментальная, ты никак её не поборешь.
>>734734 >Может придумают такую модель потом или уже... Ну собственно о том и срач, нихуя нет. Ни теоритической базы как это работает ни алгоритмов. Были какие то попытки с добавлением рекуррентных нейронных слоев в сеть, но чет заглохло Тупо дрочат трансформер, кидая туда кучу труда на датасеты и крутя это месяцами на огромных серверах
>>734734 Маловероятно, дохуя сложно, коряво и т.д. Тем не менее, возможно запилят аналоги контролнета для диффузерса, что будут формировать подобное. Основа уже есть - векторы, но они довольно грубые и делаются топорно.
>>732683 Есть идеи, почему регэксп может не срабатывать? 500+ токенов на один ответ хранимые в дальнейшем в контексте как то жирновато выходит спустя несколько сообщений. Экстрасы нужно чтоли обязательно ставить? Вроде же должно работать и без этого.
KoboldCpp - Fully local stable diffusion backend and web frontend in a single 300mb executable.
https://github.com/LostRuins/koboldcpp/releases/tag/v1.65 With the release of KoboldCpp v1.65, I'd like to share KoboldCpp as an excellent standalone UI for simple offline Image Generation, thanks to ayunami2000 for porting StableUI (original by aqualxx)
For those that have not heard of KoboldCpp, it's a lightweight, single-executable standalone tool with no installation required and no dependencies, for running text-generation and image-generation models locally with low-end hardware (based on llama.cpp and stable-diffusion.cpp).
With the latest release: • Now you have a powerful dedicated A1111 compatible GUI for generating images locally • In only 300mb, a single .exe file with no installation needed • Fully featured backend capable of running GGUF and safetensors models with GPU acceleration. Generate text and images from the same backend, load both models at the same time. • Comes inbuilt with two frontends, one with a similar look and feel to Automatic1111, Kobold Lite, a storywriting web UI which can do both images and text gen at the same time, and a A1111 compatible API server. • The StableUI runs in your browser, launching straight from KoboldCpp, simply load a Stable Diffusion 1.5 or SDXL .safetensors model and visit http://localhost:5001/sdui/ and you basically have an ultra-lightweight A1111 replacement!
>>734896 Можешь подсказать пожалуйста? Где найти эти самые модели генерирующие картинки в формате gguf, которые поддерживает kobold.ccp что бы они аниме генерили?
>>734902 Только один этот файл с окончанием на .safetensors Или вообще всё полностью? Если полностью, то я хуй знает как это нормально можно выкачать с huggingface.co , по одному файлу разве что, но это же ебануться можно
Приехал китаекал ко мне. В целом всё заебись, карта может управлять кульками, хоть и делает это странно - при включении ебашит в сотку пару минут и потом опускается в бесшумный режим навсегда. Больше 60 градусов не смог её прожарить при 230 ваттах, охлад заебись отрабатывает, при этом кульки всегда в бесшумном режиме. В LLM больше 50 не прогревает при выгрузке на неё, в 70В Q4 с полной выгрузкой на обе карты и забитым контекстом у Жоры даёт 8 т/с. В EXL2 как-то очень медленно работает и не нагружает совсем её, надо что-то пердолить дополнительно, пока лень. Пришлось ещё знатно поебаться с биосом мсины, Above 4G там в теории должен включаться автоматически с ребаром, но оказывается пока вручную не перещёлкнешь галку он не включится, хотя пишет что включено.
>>734964 Я что, читать по твоему не умею? Написано ЛаТеКС! Мне так больше нравится, не нужно объяснять, что это такое, я знаю, но латекс смешнее. >>734967 >В EXL2 как-то очень медленно работает И не будет быстро. >Пришлось ещё знатно поебаться с биосом мсины, Above 4G Пока бы в вики сделать раздел с железом.
>>734896 > excellent standalone UI for simple offline Image Generation Нужно быть незнакомым с другими ui чтобы такое выдать. >>734967 > В EXL2 как-то очень медленно работает и не нагружает совсем её Большая часть паскалей не умеет в дробные точности, потому p40 сосет бибу во многих других нейронках. В жоре работа реализована несколько костыльно но эффективно, возможно подобное сделать и в экслламе.
>>735015 > Скоро захочется 2т/с Хуйта нищебродская тормознутая, еще и пограничный размер куда ничего не лезет. То ли дело 96гб на гпу белого человека. скосплеил шиза >>735027 Собери их всех, лол. Так и представил комбу из p40, p100, 3090 и 4090
>>735027 Я уже пошел колхозить её. Китайские кульки даже на минимуме как-то хрустят, в тишине слышу их, бесит. Взял с 2070S пару кульков и на двухсторонний скотч прихуячил. Ебись оно в рот, вроде работает.
>>735033 >а я смотрю, она ебёт мою 3080ti просто как сучку? Ты что-то делаешь не так. У 3080ti память в 3 раза быстрее р40, не говоря уж о тензорных ядрах и прочих примочках 7нм техпроцесса.
>>735043 Кстати, отфоткай голую плату и выложи в тред, позязя. Надо посмотреть, что китаёзы там с охладом на плате наколхозили. Просто интересно, достаточно ли разъёмы подпоять, или там рассыпуха/кастомный бивас/своё термореле.
>>735038 > пограничный размер куда ничего не лезет. То ли дело 96гб на гпу белого человека. Завидуй молча, белый человек. Я и четвёртую теслу в сборку могу поставить, только нахрен мне такие тормоза? Только ради Комманд-р-плюс разве что, но третья Ллама его ебёт вообще-то.
>>735048 Охлад предлагаешь снимать? Слишком лениво. Ебля с этим говном на сегодня окончена. >>735053 Тем не менее вот эти два кулька охлаждают лучше чем три китайских, -5 градусов в тех же условиях, лол. Надо будет один оставить только над GPU.
>>735064 >Охлад предлагаешь снимать? Слишком лениво. Зря. Тем более, небось китайцы намазали импортную пасту КТП-8, лол вместо нормальной, так что замена спермы на какую-нибудь MX4 может дать свою прибавку.
>>734440 > Это обработка промта а не генерация, не может быть настолько медленной там. > eval time = 16201.34 ms / 127 runs ( 127.57 ms per token, 7.84 tokens per second)
Ну, по сумме выходит все же медленнее. Мне лень в детали вдаваться, но евал там 6,3-7,2 + уба сломал ее пидр
>>734455 >>734458 Мне вообще показалось, что вы просто говорите о разных субъективных вещах. Фикс касается обработки промпта на проце — там это хорошо. Но многие обрабатывают его на видяхе, и там быстрее — поэтому многим пофиг на фикс. Ну, типа, да.
>>734526 Шо у вас там опять сломалось с коммандером? Он же ходил и на убе, и на кобольде! Ну и я тестил, разницы на двух теслах между убой и кобольдом точно нет. Уба даже опережала на 1%-4%, но скорее погрешность.
Последние три дня уба сломана и не считается.
>>734546 Гы-гы-гы, не про меня ли? Ну да, четырехканал на зеоне заебись, хуе-мое йопта бля. =D Но теслы все же лучше в данном контексте. =) НО НЕ В КОНТЕКСТЕ КОММАНДЕРА АХАХА
Загружаю comman r plus в 4bpw exl2, указываю контекст в 30к, но во VRAM вгружается только сама модель, куда девается контекст вообще не понимаю, он у меня занимает ЗИРО/0/Нихуя, при этом сама модель вроде работает, но в небольшом контексте 2-4к, после начинаются заЛУПЫ и повторение одних и тех же фраз/действий. У меня одного такая хрень?
Кто-нибудь запускает на intel arc? как полёт?лежит а770 16 гб, думаю мб её лучше поставить вместо 2080 супер, интел там пишет, что они пиздец якобы нагибают нвидию
>>735049 > Завидуй молча Завидовать 3 некротеслам? Хех особенно имея лучшее > Я и четвёртую теслу в сборку могу поставить, только нахрен мне такие тормоза? Стоило на 1й остановиться лол. Ну рили это подзалупная херь малопригодная для использования в контексте советов остальным. Сам собрал развлекаться - красавчик, лучше иметь чем не иметь и всегда можно найти применение. Но и дня не прошло как пошел убеждать себя и остальных что это не фейл. > Комманд-р-плюс > третья Ллама его ебёт вообще-то сильное заявление >>735079 > И все это китаемамке с 8 каналами. Двусоккет чтоли? Хз как оно взлетит там, на более свежей брендовой нюансы есть, а тут придется знатно поебаться скорее всего.
>>735090 > но во VRAM вгружается только сама модель, куда девается контекст вообще не понимаю Сколько занимает? Скорее всего оно просто норм работает а > начинаются заЛУПЫ и повторение одних и тех же фраз/действий лишь промропроблемы. Проверь скормив копипасту треда на 29к токенов и прикажи сделать ее суммарайз. Оно еще с релиза поддержки норм работало.
>>735105 Модель сама занимает 57gb, сейчас еще раз проверил, да контекст немного занимает, но это коммандер! Он на 1к токенов по 2gb отжирает, а у меня 100-200mb. Кванты брал от turboderp`a, качал оригинальный 4 квант от Кохаи, и моей VRAM хватило на 2к токенов только(и нормально проверить не смог). Промты разные пробовал, в семплере только min-P 0,1 (если по дефу выставить ничерта не меняется). И да, еще вопрос по ламма 3 70b 6.0bpw, отыгрывает норм, следует инструкциям (даже в RP/ERP), но после 4-5к контекста тоже впадает в маразм, мб проблемы квантизации? (Конфиги под assistant тоже поменял, не помогло)
>>734967 Ты не мог бы заснять, как именно китайцы свой вентилятор там подключают? Они просто подпаяли коннектор к пинам, которые у других карт с такой же PCB (1080ti и т.д.) используются?
>>735115 > на 1к токенов по 2gb отжирает, а у меня 100-200mb В экслламе почти не растет жор по мере наполнения контекста, оно в начале выделяет нужное. 5битный квант командира вроде нормальный. Отлично вел беседу, описывал кадлинг и левдсы, прислушивался к пожеланиям и в общем хорошая модель. Деградации перфоманса после наката кучи кринжовых инструкций/модулей из aicg не замечено, переход от pg-13 к r18 бесшовный. Не хватает алайнмента в сторону художеств и подобного, а также обширности знаний всяких фандомов, а в остальном в околорп ощущается умнее гопоты. В случае лламы 3 скорее всего битый конфиг. Скачай ванильную модель, поправь все конфиге в ней и сам квантани для верности.
>>735119 > Они просто подпаяли коннектор к пинам Да, просто коннектор припаяли в штатные отверстия под него. Радиатор из трех секций сколхожен, спасибо хоть 5 медных трубок есть.
>>735126 Ну так я про это и написал, на контекст в 40к выделается 12gb vram(только что проверил)! если не считать самой модели. В command r v01 выделается норм памяти на такой контекст. Кванты лламы брал от разных "квантизаторов", как по мне не все должны были их убить.
>>735130 Главное что бы все нагревающиеся элементы имели контакт с радиатором, вот это я бы проверил первым делом А потом ебись оно конем, работает и ладно. Если везде 50 максимум то похуй на термопасту
>>735133 > не все должны были их убить Убить exl2 не так просто, это нужно от другой модели взять калибровку. Но если ошибки конфига влияют на калибровку/квантование то у всех они будут. Уже не помню что там с памятью на плюсе было, но полный заявленный не влезал. Может починили атеншн для него, но все равно > 40к выделается 12gb vram это оче мало
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: