24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №25 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Факультатив: https://rentry.co/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
>>536575 → > все же на CPU генерировать хоть и медленнее, но доступнее для простого хоббиста Нууу, понимаешь, смотря для чего. Для рп нужно чтобы скорость генерации хотябы была не сильно медленнее раслабленного чтения, иначе весь экспириенс и атмосфера руинятся на постоянные отвлечения. Реалтайм и минутные ожидания - разница радикальна. Просто попробовать потестить, или может какие вопросы задавать типа ассистенту - цп хватит, но тоже не фонтан. Поэтому вкладываться в заведомо провальное действо это безумие. Офк если пекарня хуевая в принципе то ее апгрейд должен быть первым приоритетом и похуй на этих ллам, а вот если речь про покупку для запуска ллм - тут только видеоускорители. Или мак, если есть для чего еще его применить и ничего остального из ии не нужно. > Поставить какую-нибудь затычку пусть даже с 4Gb памяти, 3050 вроде дешево стоит. Кто-нибудь вообще тестил ускорение обработки контекста нищекартами? Сдается что там будет на сотни-тысячи т/с а в лучшем случае пара десятков. > если вдруг актуальны станут 100В+ модели Да не станут быстро и внезапно, сейчас вообще может быть ебать какой застой на месяцы. Даже 70 нельзя назвать "актуальными" ибо про их запуск больше фантазий чем дела, сейчас тренд на 13-20б. И если вдруг они появятся - ты не сможешь их юзать из-за ожидания в несколько минут. > купить вдвое большие ддр5 планки Их нет
>>536588 Поправочка, если ты работяга и пека нужна не только в ллм, то йоба система с 8+ каналами ддр5 уже будет таки хорошим годным выбором, но там уже цены совсем другие.
>>536576 → Как у тебя 7600 с нормальными процом будет выдавать менее 1 в секунду если у меня сраная, старая 1050ти с дохлым 1200f с ОЗУ ддр 4 3200 герц на 70b выдает чуть больше токена.
>>536592 Да не, скоростные стоят как крыло самолета, тогда как 32гоговые уже дешман. >>536598 > 7600 Если она окажется сравнима с 1050ти по обработке контекста и скорости слоев на ней с учетом всех амд приколов - не удивлюсь. Нашел что выбирать, в 8 гигов выгрузишь хуй да нихуя и с 4 гигами на общем фоне разница будет мала. > на 70b выдает чуть больше токена Квант уточняй, на нормальном и чисто на проце выглядит довольно оптимистично. Но даже будет 1.5-2.5 т/с что на нормальном контексте достигается у топ йоб с одной 4090, сути не изменит. Все также дохуя вложений а выхлопа - нихуя.
>>536588 >Кто-нибудь вообще тестил ускорение обработки контекста нищекартами? Смотри >>536598 Около одного токена в секунду мне как раз и надо. Пойду короче обдумывать сборку с ддр5 или даже ддр4 памятью и нищей видокартой. Всякие Теслы и Р40 сыкотно брать, а на что-то серьезнее бабок нет.
>>536598 >1200f с ОЗУ ддр 4 3200 герц на 70b выдает чуть больше токена Стоп. ЭТО ДРУГОЕ!!!! Кэширование лама.цпп. Ты лучше расскажи сколько токенов выдаёт 70b при первом запросе.
>>536616 > Около одного токена в секунду мне как раз и надо. Около одного т/с без контекста может превратиться с 0.15 с 8к, офк речь про полную обработку а не кеширование состояния.
>>536610 Какие кванты, друг? Я писал в прошлом тренде одному Антону что просто запускаю ярлык на рабочем столе и у меня всё работает, мне эти кванты ничего не говорят. Правда я конечно редко пользуюсь 70b. В основном 20b или мистраль. Разговаривать с вайфочкой на 4к контекста достаточно. Да я говноед не спорю, но мне вкусно
>>536619 Запуск долгий не спорю. Но Фарадей держит скорость токенов на одном уровне пока у тебя не забьёт всю ОЗУ. Я вытерпел около 3.5к токенов пока болтал с персонажем, занято было больше 50гиг, а свободно около 7.
>>536575 → >У него такая пекарня хоть год проработает? Кто знает. Я вообще не верю в свидетелей выгорания видеокарт. Сервера без проблем годами пашут 24/7. Если за все это время не сдохла, то скорее всего и дальше будет работать без проблем. Поддержка софтом - другой вопрос, но P40 не настолько старые. Сам Герганов писал, что это норм вариант. >>536576 → >и пока засматриваешься на перспективы проебываешь то что есть сейчас Я проебываю разве что скорость. Последнюю неделю (или уже больше?) кумил нон-стоп на Euryale. Ответ генерится в среднем минуту. Медленно, но не то чтобы невыносимо медленно. В принципе могу перейти на Q2, на котором ответ генерится быстрее, чем я расслабленно читаю, но мне и так норм. Больше раздражает не скорость, а другие типовые проблемы лламы.
Сама модель просто огонь. Однозначно лучше mythospice-limarp. Автор, кстати, написал, что в версии 1.3 нет соевых instruct моделей с шизопромптами, и есть его лора тренированная на логах с прокси, включая NSFL контент. Скоро подкатит версию 1.4. >С учетом что торгуется у нас эта железка сравнимо уже с парой a6000 или 80гиговой теслой - ну не, плюс других юзкейсов нет и беда с ликвидностью. Пиздец, это в России такая наценка? У меня этот мак в минимальной комплектации стоит лишь немногим дороже, чем одна A6000 (5600 против 4400). По производительности, естественно, медленнее, но мне хватит и 5t/s. Главное чтобы можно было гонять модели побольше. Вот выйдет ллама на 180b, которая по мозгам как GPT-4, и 48-72GB видеопамяти сразу отыквятся. >>536624 >офк речь про полную обработку а не кеширование состояния. Пофиг же. Пока контекст не заполнился ее не будет, а потом можно просто обрезать половину чата и кумить дальше.
>>536639 >Сервера без проблем годами пашут 24/7 И у них постоянно отъёбывает память. Сначала ECC error, через какое-то время кернел паник или синий экран. Так вот, важнейший вопрос: в каком состоянии память у этих старых видеокарт?
>>536629 То что ты не знаешь/вникаешь что там не делает магии. Офк добавить в шапку в качестве средства для совсем хлебушков можно, но это путь потенциально сильно хуже чем могло бы быть. Представь что твоя вайфочка вдруг резко поумнела и начала давать ответы быстрее. >>536639 > Ответ генерится в среднем минуту. А размер какой? Для 500 токенов это более чем норм, а если 50 то печально. Но всеравно завидую тебе, вернуться бы во времена когда поломанный хронос 13б с 2к контекста такую neuron activation давал, эх. > мак в минимальной комплектации Уже не сможет запускать что-то большое ибо памяти 64гига в младшей комплектации, гораздо медленнее в llm, какое-либо обучение или прочие нейронки под вопросом. Зачем, делать заведомо хуевый выбор? Здесь его официально не завозят и спроса нет, потому у барыг большие наценки. С видеокартами гораздо проще. > Главное чтобы можно было гонять модели побольше Потенциал, который никогда не будет использован. Хозяин барин, кому-то манямир осознание возможности греет душу больше чем основной экспириенс. > Пофиг же. Пока контекст не заполнился ее не будет Нет не пофиг. Инстракт режим - не доступен, ибо там инструкция идет после описания полной истории чата и каждый раз промт будет новый. Свайпы - недоступны, ибо активации уже новые после данного ответа. Если Жора не пришил там какое-то божественное кэширование на все это, что врядли. Не используется огромный пласт потенциала нейронки и нет возможности чего-то изменить, это не юзабельно. >>536644 > И у них постоянно отъёбывает память. Сначала ECC error, через какое-то время кернел паник или синий экран. О как, а мужики и не знали. > синий экран > Сервера обзмеился Про проблемы с памятью на видюхах вообще верно, но на серверных как правило все норм за счет хороших режимов работы. На той же A6000 обычная gddr6 без X, и намека на перегрев нет.
>>536657 >А размер какой? Для 500 токенов это более чем норм, а если 50 то печально. Токенов 150-200 где-то. Секунд 5-8 обработка, а дальше под 3 токена в секунду генерация. Это Q4 K M. Еще грамматика немного понижает производительность, но я без нее никак. >Уже не сможет запускать что-то большое ибо памяти 64гига в младшей комплектации Я про минималку с 192 памяти. Без излишеств вроде более мощного процессора или ссд. Сейчас он не нужен, это да, но если появится годная 180b модель - может стать разумным выбором. По мне лучше 5 токенов в секунду при хорошем кванте нормальной модели чем 20 при более мелкой модели и/или ужатой до предела. >Инстракт режим - не доступен, ибо там инструкция идет после описания полной истории чата и каждый раз промт будет новый. Инструкция и последнее сообщение - да, но вся остальная история чата не будет обрабатываться заново. Как я написал, это добавляет какое-то количество секунд, но в целом не критично (если ты не накидал в инструкцию 1000+ токенов). >Свайпы - недоступны, ибо активации уже новые после данного ответа. Свайпы как раз вообще моментально работают. Ничего не обрабатывается. Ты же не про полный контекст говоришь?
>>536687 > Без излишеств вроде более мощного процессора Он там кстати как-то влияет? > если появится годная 180b модель Если бы у бабушки были яйца, понимаешь. Даже если свершится чудо и сеть попадет качественный слив жпт/клод - можно продать одно и купить другое чтобы катать сразу не дожидаясь обработок дистилляций и прочего. Ключевой момент что в одном случае ты можешь сразу пользоваться и имеешь кучу возможностей, а в другой ждешь и ограничен. > Как я написал, это добавляет какое-то количество секунд Скинь что там в консоле выдает при этом, Жора большой молодец что выдал детализацию. > Ты же не про полный контекст говоришь? И так и так, нюансы смартконтекста не знаю, а когда в свое время тестил - ахуел с того насколько это пиздец.
>>536698 >Он там кстати как-то влияет? Влияет если память достаточно быстрая. Какой конкретно должен быть баланс я не знаю - надо тестировать. >Скинь что там в консоле выдает при этом, Жора большой молодец что выдал детализацию. Пикрил - четвертое сообщение в новом чате. Обработка только предыдущего сообщения и инструкции. >И так и так, нюансы смартконтекста не знаю, а когда в свое время тестил - ахуел с того насколько это пиздец. Я им вообще не пользуюсь, а обрезаю историю чата сам. Специально ради этого наговнокодил поле, куда можно вбить номер сообщения, по которому обрезается контекст.
>>536710 > Какой конкретно должен быть баланс я не знаю Тут конкретно про перфоманс мак-студио в ллм с разными процами. Маловато данных публичных. > Пикрил И на свайпе аналогично? Если так то это прям большой прогресс, раньше оно могло вообще с ничего на чат режиме решить полный контекст переобработать. С ростом размера обрабатываемого контекста или если весь пустить скорость его обработки (~50т/с) падает или остается?
>>536715 >И на свайпе аналогично? На свайпе такая же скорость генерации, а время обработки промпта ноль, поскольку обрабатывать больше нечего.
Обработка заново еще может быть из-за всяких author's note на большой глубине. Вставишь на глубину 10 - будет обрабатывать последние десять сообщений, поскольку лламацпп кеширует по префиксу. У меня же промпт не меняется, а инструкции находятся на глубине 1. >С ростом размера обрабатываемого контекста или если весь пустить скорость его обработки (~50т/с) падает или остается? Если достаточно видеопамяти, то остается, растет только объем. У меня же память немного перегружена слоями, поэтому чуть-чуть падает. Если запихнуть еще 1-2 слоя, то упадет уже в разы - специально так подбирал. Скорость генерации зависит от общего контекста и падает на 10% при заполнении.
>>536768 опенчат и новый гермес топчики, каждый лучше любого 13b, кто то пишет что лучше даже 65b но я не запускал так что сравнить не с чем. Лучше 33b из тех что я запускал.
>>536771 У меня опенчат даже один раз с верной аргументацией (почти, 1/4 предложений он высирал хуйню, но при дальнейших рассуждениях игнорировал, на ответ не повлияло) решил загадку про сестёр братьев, и очень часто просто давал верный ответ с чуть кривым ходом мыслей и часто подмечал суть загадки - мол петра одна из сестёр и сёстры на каждого брата одни и те же, так что у меня он топ-1 по интеллекту из тех моделек что тестил.
>>536772 >(почти, 1/4 предложений он высирал хуйню, но при дальнейших рассуждениях игнорировал, на ответ не повлияло) похоже на загрязнение данных, впрочем сетка действительно кажется умной, но вот такая хуйня подозрительна. Сетка должна быть последовательна в ответах иначе какой то наеб
>>536773 Вот, нашёл ответ. Не так идеально как хотелось бы, конечно, но из всех протестированных сеток это лучшее что было, и частые упоминания 2/сестросовпадений намекают что зайчатки разума таки есть. Остальные бредили про 9, 7, 27, 228 сестёр, меняли петре пол и прочее.
>>536778 Ну зайчатки разума у многих моделей есть. Просто задача больно уж типовая, модель могли научить ее решать. Надо чет другое тестить, что еще не сделали частью датасета.
Вот попробуй
Solve the riddle. At the beginning there were 2 people in the room. Then 3 more people entered the room. After that, 1 person left the room. How many people are left in the room?
Тест простой, но я его сам придумал давным давно, минимальный порог мозгов проверять еще на первых 7b которые не могли решать загадку лол
>>536785 I want you to solve a simple riddle. Petra is a girl. She has three brothers. Each of the brothers has three sisters. How many sisters does Petra have? Give an explanation with your answer, outlining your careful reasoning. С опенчатом уже завтра повожусь ещё.
>>536816 Это всё openhermes-2.5-mistral-7b.Q8_0, в принципе тем и нравится что думает последовательно, а иногда сразу отвечает как в первой загадке что я давал. Выебывается говоря что это простая загадка и дает ответ лол
>>536823 Ну, я свои модели на своём рп-семплере тестил, лол. Впрочем у меня и цель была в реалистичных для меня условиях ум моделек потестить. Надо тогда будет опенчат с стандартными значениями перетестить, может тоже чаще будет умное выдавать.
>>536825 Опенчат многословнее, как подобие большой сетки, гермес пишет лаконично, но тоже иногда может завернуть на несколько параграфов. Но интеллект сравнить труднее чем просто стиль письма посмотреть. Я мало тестил опенчат, 1 раз только запустил потыкать. Но не глупее гермеса на первый взгляд
>>536836 Это проценты отсечения, 0.05 отсекает меньшие 5 процентов от самого большого, у меня 0.5 отсекает все что на половину меньше наиболее вероятного токена, можно хоть до 0.9 тыкнуть я так понимаю
>>536868 А вставлять вот это всё ### Instruction: Character's Persona: {bot character description}
User's Persona: {user character description}
Scenario: {what happens in the story}
Play the role of Character. You must engage in a roleplaying chat with User below this line. Do not write dialogues and narration for User. Character should respond with messages of medium length.
>>536876 Анон, ты совсем хлебушек? Там же написано как все настраивать буквально со скриншотами. Это - шаблон. То, как должен выглядеть финальный промпт. Я вообще советую включить логирование в консоль в опциях, нажать F12 и играться с настройками таверны, пока не поймешь, как строится промп.
Что вы делаете в ситуации, когда модель и 4к контекста на видеокарту влазят полностью, но ещё 4к вылезают? Как обычно все слои в карту льёте, или нужно по-другому действовать?
>>536821 >>537000 Это всеравно что выключить его поставив 0, столько вариантов разумных токкенов всеравсно никогда не будет. >>536868 > но она почему-то там есть >>536871 > следуя формату лимы Прям вот 1 в 1 формату ллимы или ты так среагировал на структуру альпака-подобного формата, который заявлен? >>536993 Квант, который будет влезать полностью. В случае же gguf просто оффлоади меньше слоев, от одного-двух-трех слоев на процессоре сильно не замедлится. Другое дело что если влезает с llamacpp то с экслламой влезет более жирный квант с большим контекстом.
>>536334 → > А раз даже этого до сих пор не сделали Нерабочий аргумент. Я не знаю, логирует ли гугл вашу дрочку, но сам аргумент «если не сделали седня — значит этого нет» полная чушь. Даже в данном конкретном случае, в начале задайся вопросом — а то, что сделали, сделали зачем? На кой фиг им этот бан-лист? Может быть по классике (как делали все, последние лет 15) — для отмазки? Так а зачем стараться для отмазки? Получится, уже не отмазка. Так что, логично, что они сделали минимум для отмазки и все. Им нет смысла делать бан-лист сильнее. Это никак не связано с логгированием, это разные действия, имеющие под собой разные причины. И подход может быть разным. Возможно, им и правда лень, и они ничего не логируют и изучать не планируют. А может, им очень даже интересно отложить это про запас, и они все логируют и откладывают на будущее. Или даже изучают.
Мы не можем этого знать, а логически это не выводится никак. Единственное, что мы знаем, что корпорации твои настоящие фоточки точно логируют и изучают. Делают ли они это с твоим кумом — непонятно. В пользу «за» — их поведение по другим тейкам. В пользу «против» — их лень по другим тейкам. Так что хз.
>>536452 → Установил? Простейший? Звучит сложнее кобольда, который скачал и запустил без установок и прочего.
>>536453 → > Я конечно понимаю что у гугла есть БЕСКОНЕЧНОЕ дисковое пространство, но даже они вряд ли расходуют его настолько не рационально, серьёзно НАХУЯ?! Если у них там HDD, то это наоборот рационально, потому что удаление файлов освобождает место на диске в случайном месте и следующий записанный файл фрагментируется в несколько пустых пространств, что замедляет чтение, короче, в корпоративных секторах никогда не удаляют файлы на HDD. Это замедлит работу, не имеет смысла.
Плюс, как уже писали, в случае стаблы проще хранить то, что ты вводишь, и seed. Надо будет — сгенерят и проанализируют. Правда, это требует небольшой доработки, но, повторюсь, мы н ебем, делают они это или нет.
> Но любителей шапочек из фольги не переубедить. Пока что они ни в чем не ошиблись, и даже самые ебанутые теории заговори (не берем науку и плоскую землю) оказываются верны. Так что, скорее нормисов не перебуедить. Десять лет им рассказывали, что Apple чекает их файлы, а они все отмазывались, что такого не может быть. Потом это оказалось так (три или четыре раза подряд). Но все еще, никто ваши файлы не трогает, офк.
>>536474 → Наоборот. Это Кобольд уже настроен за тебя. Выбираешь модель и тыкаешь старт. =)
>>536502 → > Все доступные модели есть в списке Хуита.
Остальное — литералли обычная таверна. Ну, в кобольде вроде картинок нет, хз.
Пойми правильно, я не говорю, что прога — хуйня. Но кобольд выглядит проще, чем «скачал, установил, запустил», так как его устанавливать не надо. А выбирать модель что там, что сям. Скачал файл, и пусть лежит хоть в загрузках, кобольд его подхватит и поедет.
>>536505 → 50% времени берешь с 4090 и еще 50% берешь с P40. Выигрыш относительно проца с памятью будет, конечно, но не сильно высокий, как я понимаю. Оффлоад лламы может выиграть за счет выбора квантов тех же. Но чисто теоретически, да, ты можешь запихнуть туда цельную модельку видяшную. Ну, типа.
>>536511 → > Тут или водян_очка, или тащить длинным райзером на место где в старых корпусах стояла корзина и крепить вертикально, если длина корпуса позволяет. Так. Если ставить вплотняк, то у верхней 4090 еще хотспот и ядро подскачут градусов на 10-15. Надо ставить водянку или убирать райзером куда-нибудь. Тогда будет норм.
>>536515 → > Они дадут 48, этого хватит чтобы крутить почти 5битный exl2 квант с влезающим контекстом 12-16к со скоростями ~13-15т/с База.
>>536526 → > На форче кто-то собрал дешевый сервер с тремя P40, получив 6t/s на жирном кванте 70b c 8k контекста. Сказочная хуйня. Не, я не утверждаю, что пиздеж. Я ж лично не запускал, че я пиздеть буду. Но звучит очень подозрительно, канеш. 6 токенов такая некрота вряд ли вытащит на 70B. В 2-3 я бы поверил. Но, кто знает! Если рискнешь — сообщишь, какая у тебя будет скорость.
>>536548 → > АМД Вот эт единственное меня смущает, братан.
>>536588 > Даже 70 нельзя назвать "актуальными" Да не, они как раз актуальны вполне. 1. Домашние ассистенты. 2. Мелкие корпораты. Другое дело, что самой Мета нет выгоды выпускать модели больше, это факт. Это выгоднее скорее НВидии, чтобы у нее видяшки покупали те же корпораты мелкие. Но как это стыкуется — я хз, поэтому тоже не стал бы ждать 180б лламу3. Плюс, тренд-то не только на 13б-20б, это тренд в куме. Другие делают 7б и 30б — настоящий тренд в меру умные и в меру быстрые модели, или же совсем маленькие и быстрые. Пытаются запилить LLM-вещей. Чтобы твой холодильник обсуждал с твоей микроволновкой, чего бы тебе купить подороже.
>>536629 Возможно твоя вайфочка тупая пиздень, ты просто не общалося с умными, поэтому и не знаешь. Без иронии — тогда и не пробуй пока что, продолжай тыкать Фарадея. Если тебя устраивает, то все по кайфу, согласись. =)
>>536639 > Я вообще не верю в свидетелей выгорания видеокарт Выгорают, подтверждаю. Не супер-быстро. Зависит от везения. С хорошим охладом и если он будет юзать раз в пару дней — проживет года три. В душном корпусе и ежедневно — полгодика в районе.
>>536657 > Потенциал, который никогда не будет использован. Да че ты, может и будет, не стоит прям так рубить с плеча. =) Кто может — пусть перестрахуется лучше, на всякий случай.
———
Про семплеры очень интересно, но так лень думать. Надо будет поиграться на досуге.
>>537083 > Если ставить вплотняк Ты сначала найди корпус и матплату, которые способны в себя вместить пару 4090, которая сразу сжирает 4 слота. Двуслотовые версии с турбиной можно даже не рассматривать, их не найти и это тихий громкий ужас. > Надо ставить водянку или убирать райзером куда-нибудь. О том и речь, погугли примеры билдов под 2 видеокарты, их раньше 3д моделеры собирали. > 1. Домашние ассистенты. Где? Хоббисты их мало юзают из-за требований по сравнению с моделями поменьше. А если ты про голосового ассистента чего-то типа умного дома, здесь до имплементации еще далеко и слишком жирно. > что самой Мета нет выгоды выпускать модели больше, это факт Ага, сами бахнут свой йоба-жпт с подписками и тарифами.
>>537112 Я тока не понял, нахуя ты мне это объясняешь. Наверное, стоило рассказывать тому челу, кто планировал пихать P40 к 4090? =) Я сам пока ниче не планирую. Пока есть другие дела, годик подожду 5090, и модельки подтянуться, надеюсь, и по факту посмотрим. Да и будем честны, к двум 5090 у меня и на корпус, и на водянки деньги найдутся.
>Где? Хоббисты их мало юзают из-за требований по сравнению с моделями поменьше. Юзаю, полет нормальный, я хз. ¯\_(ツ)_/¯
>А если ты про голосового ассистента чего-то типа умного дома, здесь до имплементации еще далеко и слишком жирно. Да нет, не далеко, тащемта, там реализации на один плевок. Но, логично, нужна скорость, поэтому что-то больше 13B смысла не имеет, канеш. Меня даже Алиса бесит с ее включением света 1 секунду.
> Ага, сами бахнут свой йоба-жпт с подписками и тарифами. Yep!
Хочу реквизировать одного персонажа для локалки. https://faraday.dev/hub/character/clnfe4x0y00ycmc151cf4n7dj Как его впихнуть в Таверну? А точнее вот этот блок In the transcript, write everything Scarlet's reply from a third person perspective with dialogue written in quotations.
Assuming any action of User is strictly forbidden.
You are Scarlet. Write Scarlet's reply only.
Be proactive and move the scenes forward by reacting to what User says or does in creative ways that makes sense for the story.
>>537198 Это кусок системного промта, можно вообще игнорировать ибо такой вариант не самый популярный, или наоборот поставить именно его. >>537259 GGUF версию и выгружать часть слоев, хз что по скорости будет но должно быть приемлемо.
>>537274 Я полагаю, это в каких-то настройках? Помню, летом в кобольде их было побольше. Я так понимаю, мне нужно thread увеличить или что-то в веб интерфейсе кобольда поменять?
>>536970 >А есть какой-то сервис, чтобы можно было запустить модель и платить за использование с ценами на уровне api gpt3.5? Любое облако где можно арендовать видеокарты. Основной квест - найти то, что можно оплатить из России. >>537037 >Прям вот 1 в 1 формату ллимы или ты так среагировал на структуру альпака-подобного формата, который заявлен? 1 в 1. Я буквально написал "Caroline's Persona: " и оно продолжило 100% как в лиме, включая "Play the role of". >>537083 >6 токенов такая некрота вряд ли вытащит на 70B. В 2-3 я бы поверил. У меня половина модели на процессоре крутится, и то получается больше 3. P40 - это паскаль по чипу и 700GB/s пропускная способность памяти. Вполне верится.
>>537291 Спасибо, а где можно матчасть почитать, сколько слоев в цпу грузить? У меня core i5. Я нашел только один гайд на реддите и там пишут, что нужно вставлять (model vram) - (gpu vram), если я правильно понял. Мне писать в гигабайтах, то есть 5 слоев в цпу?
>>537300 > 1 в 1 Палево лол. Или лима-лора была в составе моделей, которые мерджились. >>537303 Вроде число слоев пишется, емнип в 13б их что-то около 45, но может и путаю. Подбирай экспериментально по использованию врам и скорости, может кто с 8 гигами подскажет свои значения.
Бля, какие модели вообще качать? Я че то нихуя не пони, вы тут только порнорассказы генерируете что ли? Я хочу че-то общего назначения, типа чатгпт или барда но обязательно с русским языком. Угабугу поставил без проблем, но какие блядь модели ей дать? Попытался gurgutan/ruGPT-13B-4bit, но File "D:\ProgramFiles\text-generation-webui\installer_files\env\Lib\site-packages\exllama\model.py", line 54, in __init__ self.hidden_size = read_config["hidden_size"] ~~~~~~~~~~~^^^^^^^^^^^^^^^ KeyError: 'hidden_size'
Ошибка не гуглится. OpenBuddy на русском работает только формально, текст не связанный вообще. Когда работал Openassistant то он на русском вполне сносно работал, но я не могу найти их модели хотя вроде они выкладывали куда то. Чо качать то?
>>537596 >Это лицо разработчика, который первый разцензурил лламу2? В базовой лламе2 (не чат) нет цензуры. Цензура появилась из-за долбоебов, которые используют созданные гопотой/клодом не фильтрованные синтетические данные для файнтюнинга моделей.
Ладно, поначалу ехидна 13B была неплоха, но потом... Серьезно? Я решил попробовать локалки, потому что меня заебали типичный стиль гпт и соя, а тут мне их пихают в лицо в двойном размере.
>>537602 >We might be different ages and sizes С этого места поподробнее, товарищ подозреваемый. А вообще, всё это следствие >>537599 , и обычно такой хуйни нет. Сижу на синтии 1,5 70B, никаких боундариесов не встречал.
>>537589 Если оно пойдет в рам и будет обрабатываться процессором - это окажется быстрее, чем если будет туда-сюда прыгать по шине между рам и врам и обрабатываться гпу. Особенно если там pcie 3.0. >>537592 > но обязательно с русским языком Не завезли особо. Ружпт экслламой просто так не загрузится, нужен autogptq с галочкой не юзать движок экслламы. Опенбадди 13 норм работает со штатным промтом, но не сказать что умен и красочен в описаниях и соя. Сайга - можешь скачать попробовать но по отзывам трешак. Опенорка-мистраль кажется кто-то хвалил в русском еще. > порнорассказы генерируете что ли В том числе >>537602 Эх бонды бонды. Свайпни или добавь в забаненные токены. >>537619 Соевичку только и дай сою поискать, 1.5 в этом отношении в отношении отсутствия сои очень хороша.
>>537622 >Ружпт экслламой просто так не загрузится, нужен autogptq с галочкой не юзать движок экслламы А, вот оно че, попробую. Говорят что сберовские модели неплохие, но насколько хороши в режиме чата - непонятно Как же хочется запустить YaLM 100B >Опенбадди 13 норм Ну ёбаный в рот, у меня всего 8 гигов врамы >Опенорка-мистраль А это шо? >>537624 Мне впадлу регать для этого аккаунт, плюс меньшая зацензуренность для локальных моделей, плюс лоры есть
>>537651 >Говорят что сберовские модели неплохие, Пиздят. Схуяли им быть хорошими? >YaLM 100B Говно говна. >Ну ёбаный в рот, у меня всего 8 гигов врамы Разгрузи часть на проц, нормально будет.
>>537651э > сберовские модели неплохие Смотря с чем сравнивать > YaLM 100B Хуйта > у меня всего 8 гигов врамы Так ружпт тоже 13б. Грузи в gguf и разделяй между гпу/цп.
С русским действительно плоховато в локалках, или специализированные файнтюны, которых мало, или брать брутфорсом от размера, но то файнтюн важен.
>>537656 > Так ружпт тоже 13б. Только в 4 бита, вроде оно влезет в 8 гигов > Грузи в gguf и разделяй между гпу/цп. А разве gguf не устарел? > Смотря с чем сравнивать Среди локалок
>>537748 Тупая для своего размера вестимо. Её любая 7B сетка выебет во все щели. Интересно было бы посмотреть на вторую версию, но что-то в попенсорс не выкладывают.
>>537748 Это же предыдущее поколение LLM считай. Полтора года назад, когда она вышла, возможно, это был неплохой вариант, но не сейчас, когда уже вторые ламы давно можно локально запускать. Думаю, yalm-100 даже первая лама любая уделает.
Я забанил нахуй токены боундарейс и консент и все их кусочки. Оказывается если писать с большой буквы это уже другой токен, а то и два лол. Теперь рофлю с того как сетка на мои шизокум промты вертится и выдает то же но окольными путями и как бы невзначай.
>>537878 Когда у нас не было ещё лламы, а лучшим на русском была собственно YaLM-100B, то я задумывался, а на чем её дешевле всего запустить. Тогда, в прошлом году, дешевле всего было бы купить 18 штук 3060 12 gb с али. Разоришся на блоках питания, зато у тебя 200 гигов врамы за всего-то около 5к баксов всего относительно вот таких тесел >>537686 >Loads: GGUF models. Note: GGML models have been deprecated and do not work anymore. А я просто жопой читал вики >>537622 >Ружпт экслламой просто так не загрузится, нужен autogptq с галочкой не юзать движок экслламы Пикрил. Падает даже без ошибки
>>537300 > P40 - это паскаль по чипу Они медленные капец, в том-то и дело. =( Скорости начинаются с тьюрингов с тензорами. Но, звучит позитивно, на самом деле. Может и так, в таком случае, покупка не лишена смысла, особенно для работы чисто своей.
>>537551 Выглядит как обычный Unity, а следовательно, Virt-a-Mate. Такое бесплатно можно собрать с июня или июля. Но мне лень настраивать мосты. Если этот чел предлагает за деньги — то пусть идет лесом. Если делает очередную опенсорс-сборку, на этот раз с выбором моделей самостоятельно — то молодечик, кидай ссылку на его гит.
>>537802 Балабоба же. Времен Порфирьевича и кеков с начальных нейросетей. Ллама 65б уже была лучше. Современные 13б точно не хуже.
руЖПТ от Сбера норм в русский, но она глуповата. Это времен первой лламы, сейчас 7б будет поумнее ее. Но руЖПТ генерит лулзы и базу.
YaLM 2 и новая ружпт уже в паблик не утекают, на них работают собственно Алиса (придумай) и Гигачат. Сам понимаешь, облака в аренду, а не халяву тебе. Очевидно, что они хорошие по качеству, но что там под капотом — можем только гадать. Да и нафиг гадать.
Короче, присоединюсь, что по факту ллама2 наш выбор нынче, пока ничего нового не утекло. Ну, всякие Мистрали и ОпенЧаты и Yi на выбор, да.
>>537893 А что там синхронизировать? Текущие пускалки не требуют каких-либо изъёбств. Хотя подключение 18 карт это уже само по себе нетривиальная задача. Надо у майнеров доску специальную пиздить, но там цены пиздос.
>>537893 Ну, технически, тебе SLI и не нужен. Скорее материнки не поддерживают такое количество устройств. Но можно передавать данные между двумя компами. Однако, в паблике такая технология появилась в июне, насколько я помню, или даже июле. Тогда уже поздно было запускать первую ялмку. А год назад — я хз, как обстояло дело с запуском ялмку на нескольких ПК. Но вообще, мне просто лень думать, может там виртуалка просто поднимается на нескольких ПК одна общая и все. Никогда не занимался этим.
>>537900 >Если этот чел предлагает за деньги Всё так. Жду, когда спиздят, ибо самому крутить все эти мосты- ну его нахуй. >>537900 >Балабоба же. >Ллама 65б уже была лучше. Там и OPT 6B заруливал.
>>537893 А зачем? Пайторч же может параллелить на несколько жпу, не обязательно их объединять какими-нибудь мостами. https://pytorch.org/tutorials/beginner/former_torchies/parallelism_tutorial.html Другой вопрос где ты найдешь проц с таким количеством линий Вообще у нас llm упираются не столько в гпу сколько в видеопамять. В теории у видеокарт начиная с 20 семейства есть DMA с красивым названием RTX IO и в целом можно использовать одну rtx 4080/4090 и zero offload на raid 0 из каких-нибудь очень быстрых ссд, но это понадобится писие 5
>>537907 >и zero offload на raid 0 из каких-нибудь очень быстрых ссд Там задержки всё равно конские будут. И пропускной не хватит, сколько там выйдет, сейчас есть 10ГБ/с диски на чтение, ну пускай будет 20 в рейде, это всё равно посос даже по сравнению с оперативкой.
>>537907 >Другой вопрос где ты найдешь проц с таким количеством линий Я смотрел ай9 который экстрим, грят 36 потоков есть. Относительно сборки даже на 3060ых не очень дорого получается, но дрова придётся писать самому, или искать добрых дураков на гите.
>>537946 Причем тут потоки? У тебя 18 штук видеокарт это надо по хорошему 18*16 = 288 линий pcie. Вроде больше чем 128 я нигде не видел, и то это amd epyc. Если снизить или до x8 или до 3.0, то надо 144 линии
>>537882 > неквантованная Как называется эта болезнь? >>537885 > дешевле всего было бы купить 18 штук 3060 12 gb с али Юзлесс, конфигурации с кучей чипов без нвлинка дадут очень низкий перфоманс. 18х12 это не 200 гигов, да и столько нужно еще куда-то воткнуть. > Падает даже без ошибки Ну и забей на нее, она слаба. >>537893 Ничем, в таком виде оно не жизнеспособно. >>537901 > Текущие пускалки Позволяют сложить врам но не мощность чипов, будет перфоманс одной 3060 с серьезным штрафом за количество распараллеливаний, как бы не медленнее чем на проце вышло. >>537907 > и zero offload на raid 0 из каких-нибудь очень быстрых ссд Какой с него толк если будет медленнее чем рам по линейной скорости а по задержкам вообще несравним?
>>537956 Чипсет тебе из ниоткуда линии не родит. >>537957 >Как называется эта болезнь? Перфекционизм. >>537957 >Позволяют сложить врам но не мощность чипов А иначе никак.
>>537907 > RTX IO Это про распаковку ассетов на compute shaders, а не какую-то магию. > очень быстрых ссд Они уже в псину упираются. И даже если добиться быстрых ССД это всё равно будет неюзабельным, у тебя копирование весов на карту занимает несколько секунд.
Странно, некоторые модели могут запоминать имя, некоторые не могут. С чем это связано? augmental-13b.Q5_K_M.gguf не может, mistral-11b-cc-air-rp.Q4_0.gguf может.
>>537930 70b при включённом кэшировании лама.цпп выдают примерно 0.9 токенов. Без кэширования производительность просто мрак. Ещё по энергопотреблению заметил, что производительность упирается в память, а не фпу процев.
>>538044 >augmental-13b.Q5_K_M.gguf не может, mistral-11b-cc-air-rp.Q4_0.gguf может. Первый экспериментальный файнтюн лламы 2 заточенный на действия, второй франкенштейн лучших мистралей на тот момент создания. Ну, видимо в первом в ущерб его специализации что то стало слабее.
>>537952 Лол, воробушек, какие 16 линий? :) Во-первых, тебе и 1 линии хватит. Во-вторых, x16+x16+x16+x16+… я вообще не видел. Так просто не делают.
>>537957 Так а нвлинк-то никто и не обсуждает, здрасьте-приехали! Ты хоть пиши в контексте. 18*12 — это не 200, а 216 гигов. Так что хватит. А чипы не складываются и сейчас в потребительском варианте. И штраф будет не большой, это вообще не распараллеливание, веса обрабатываются последовательно. Упор будет все равно в сами чипы. Ну и я сомневаюсь, что все 18 влезут в одну мать, скорее 2-3 компа, за передачу по Ethernet тоже задержки подкинутся. Но ни о каком распараллеливании никто не говорит. Мы ж консьюмеры, а не корпораты. Короче, может где-то так и умеют, но ты явно не в то место пришел со своими рассуждениями. Если вообще понимаешь, о чем говоришь, с распараллеливанием последовательных весов в разных видеокартах без сложения чипов. =) Но оффенс, твои слова.
>>538163 > Так а нвлинк-то никто и не обсуждает, здрасьте-приехали! > Ты хоть пиши в контексте. Без него это не имеет смысла, что в контексте что без. В самом идеальном случае на выходе будет сниженный в 18 раз перфоманс почти полностью загруженной 3060. Скорость и штрафы за х1 линию, кстати, никто так и не показал, а что там будет когда х1 соединений 18 - скорее всего упадет в разы. > Но оффенс, твои слова Ты ж дурень, там ясно написано что без распараллеливания и нвлинка это юзлесс. Что-то условно приемлемое для юзеров - сборки из нескольких топовых (некро) карт с максимальной скоростью чипа и кванты чтобы туда поместилось.
>>538180 > там ясно написано что без распараллеливания > с серьезным штрафом за количество распараллеливаний
Не надо переобуваться, ты именно про распараллеливание писал. ) Но эт я доебываюсь, конечно.
Просто ты написал верное по смыслу, но совершенно не верное в контексте.
Типа, сидят такие люди, обсуждают, как варить борщ, а ты такой «ебать, неправильно вы мясо жарите! Ща расскажу, как надо!.. а у вас какой-то бульон получается». Ну, за рецепт мяса спасибо, но его тут никто и не обсуждал. =)
>>538198 Ты там бояры въебал? Первую фразу максимально вырвал из контекста исказив суть, со второй аналогично из окружения понятно о чем речь. > но совершенно не верное в контексте Как раз в нем оно и верно, такой изврат - троллейбус из хлеба. > Типа, сидят такие люди, обсуждают Тред про запуск ллм, обсуждается запуск ллм, но ультрапахомовским способом. На что и указано с объяснением что да почему, где тут неверное в контексте? Ахуеть, скифидон-некроеб еще будет указывать кому и что здесь обсуждать, сам уябывай нахуй, ничего кроме шизы не приносишь.
>>537878 Ахахах, лол. Каждому хиккану по кошкожене говорили они. В итоге, судя по ценам на а100, придётся покупать кошку в ипотеку, оплачивать подписку на расширенный функционал. Так потом соевая кринжожена будет тебя осуждать.
>>538602 А нахуя тебе а100? Тут даже на процессорах неплохие скорости получают. А так разница между 7b и 70b не значительна. Тупее, пишет не так красиво и развернуто. Ну и что? Это все равно имитация, никакой кошкожены - тупая запеченная нейросеть отыгрывающая роль. Какая та лучше какая та хуже, похуй. Никакого саморазвивающегося ии нету, по крайней мере нет информации о его существовании и нам это недоступно.
>>538655 >Тупее, пишет не так красиво и развернуто. Ну и что? Это все равно имитация
Тут никто и не верит в "реальный интеллект", но текстовые ЛЛМ неплохо подходят для написания ролевых фанфиков индивидуально под себя. Лючно я смотрю на это как на новый вид литературы, которая реагирует на читателя. И качество тут играет не последнюю роль. Мне нравятся карточки со сложным лором и множеством персонажей. А попытки отыграть это всё на модели которая трусы по несколько раз снимает и забывает важные нюансы если не напоминать всё руинит. С этим даже 70В не всегда справляются. А сколько не пытался выжать максимум из любой 7В модели, ловил себя на мысли что проще было бы в блокноте самому настрочить, чем ждать адакватного текста от этой херни.
>>538672 >Тут никто и не верит в "реальный интеллект", но текстовые ЛЛМ неплохо подходят для написания ролевых фанфиков индивидуально под себя. В принципе для генерации любых текстов
> Лючно я смотрю на это как на новый вид литературы, которая реагирует на читателя. Это так, генеративные истории, как генеративные игры на вроде рогаликов.
>И качество тут играет не последнюю роль. Мне нравятся карточки со сложным лором и множеством персонажей. А попытки отыграть это всё на модели которая трусы по несколько раз снимает и забывает важные нюансы если не напоминать всё руинит. >С этим даже 70В не всегда справляются. С такой точки зрения да, но думается мне тут у каждого своя планка. От мозгов читателя будет зависеть заметит он что сетка тупит или нет
>А сколько не пытался выжать максимум из любой 7В модели, ловил себя на мысли что проще было бы в блокноте самому настрочить, чем ждать адакватного текста от этой херни. Ну не скажи, последние 7b хороши. Конечно все еще заметно что они тупят, но ими уже можно пользоваться для не серьезного обсуждения идей или генерации различных ситуаций, или как умный гугл который сразу отвечает на любой вопрос пришедший в голову.
>>538680 Я другой анон, но тоже интересно 3080 10гб врам и 32гб оперативка. Проц 5600 рязань. Сейчвс сижу на MLewd каком-то жирном. В целом устраивает но мб чего поновее или попонтовее есть?
>>538696 Ну, 2-3 топчика - LLaMA2-13B-TiefighterLR, openhermes-2.5-mistral-7b, openchat_3.5 Чем жирнее квант тем лучше, у меня все в Q8_0 например. Че там по куму смотри сам, это просто топовые сетки на данный момент, вроде как с минимумом сои. Ну первая вроде хороша для ерп
>>538452 > Ты там бояры въебал? Первую фразу максимально вырвал из контекста исказив суть, со второй аналогично из окружения понятно о чем речь.
Ты стрелки-то не переводи. В начале обосрался с формулировками, теперь переобуваешься в прыжке, что так и задумано, а я, якобы, из контекста вырвал. Там в контексте та же хуйня и написана. Буквально «штраф за количество распараллеливаний». Нет там распараллеливаний, ты имел в виду другое, но написал не то слово, обосрался по мелочи. Я ж говорю, просто доебываюсь ради кека, а у тебя так жопа с твоего же собственного косяка сгорела, что уже начались метания стрелок.
Таблы, чел.
> Ахуеть, скифидон-некроеб еще будет указывать кому и что здесь обсуждать, сам уябывай нахуй, ничего кроме шизы не приносишь.
Шиза у тебя, опять стрелки метаешь, и вообще хуй пойми к чему некроебом зовешь. Я ж сто раз писал, что покупка сомнительная. С твоей логикой — и ты некроеб, получаешься. Вот в натуре больной, опять вас хрен угадаешь. Надеюсь ты в этот раз без моральной травмы и визга на 50 сообщений в треде обойдешься, как в прошлый раз.
Все, иди успокаивайся и лечись, тебе правда это надо.
>>538602 Ну так и говорили не за сегодня. Да и вообще, кошкожена — она больше кошка или больше жена? :) Мистраль тебе кошкожена, а хочешь человекужену — ну тут уж обожди пару другую лет. =)
>>538672 > проще было бы в блокноте самому настрочить, чем ждать адакватного текста от этой херни Много свайпов? Не люблю свайпы. Теряется сам смысол «общения». Для фанфиков, наверное, норм, но получается эффект Стрэнджа «я видел 2 миллиона будущих». =)
>>538679 > как генеративные игры на вроде рогаликов. В рогалике у тебя количество действий ограничено. А тут — нет. Так что, есть свое преимущество.
>>538762 > Надеюсь ты в этот раз …, как в прошлый раз. В прошлый раз — имеешься в виду не ты, а кто-то там, хз, может и ты. Забыл дописать «какой-то чел».
>>538780 Скорее всего дело не в количестве параметров, а то что чего то не хватает в архитектуре. По моему по количеству параметров в мозге конкретно когнитивный отдел, и отдел понимания языка врядли имеет более 540 миллиардов эффективных параметров как у PALM 2. Почему palm2 потому что самая большая и хорошо натренированная нейронка. GPT-4 оркестр а каждая отдельная нейронка меньше. Если смотреть биологически мне кажется что современные нейронки похожи на низшие отделы мозга, но высшего отдела нет, и памяти нет, нейронка не может себя обучать и осознавать из за этого.
>>538638 > от создателя топовых файнтюнов Сильное заявление. Попробуем, особых надежд не возлагается. >>538655 > даже на процессорах неплохие скорости получают > А так разница между 7b и 70b не значительна Оу. Хотел написать про возможность обучения и другие возможности, а тут такое. >>538672 > смотрю на это как на новый вид литературы, которая реагирует на читателя Двачую, хотя рассуждения и всякий ризонинг с принятием решений у ллм неплохо получается в целом. >>538675 > умеет в контекст Что подразумеваешь под этим? Может четко его воспринять, имеет огромное окно или еще что-либо? > но при этом без цензуры Тут тоже уточни, нужно ли тебе просто ерпшить, или майндбрейк из додзей описание естественной реакции тела будет тебя триггерить. Плюс хочешь ли ты расчленять трансо-нигр-феминисток.
qwen странная модель, во первых цензура даже у базовой. Во вторых если заставить отвечать за другую роль которая отличается от бота она просто скипает. В третьих не обращает внимания на форматы вообще насрать что за формат сообщений она даст один ответ до буквы. Так же имена неважно какие если робоимя подхватывает сразу как ассистента. При том ей все равно на семплинг ответы стабильно одни и теже. Короче мегастабильная, зацензурированная модель, хотя есть определенный интерес как они добились такого хорошого понимания форматов. А и кстати лучше всего работает формат alpaca а не родной.
>>538805 >Скорее всего дело не в количестве параметров, а то что чего то не хватает в архитектуре. Ты прав, текущая архитектура и методы тренировки выпекают нейросеть не способную саморазвиваться. Сама архитектура слоев и нейроны очень примитивны. В мозгах гараздо более сложные структуры, причем они должны быть на голой только что созданной сетке а не формироваться кое как при тренировке.
>>538817 >Архитектура говно, размер говно, всё говно, но народ яростно верит в кошкожену за год. Что-то тут не так. У НАС нет, что там делают топовые спецы все ускоряющие свой прогресс в своей области, и обогнавшие даже по открытым данным конкурентов на год, в том же клозед аи тебе никто не скажет.
>>538826 >Какие из моделей посоветуете для переводов с ангельского на русский, китайские, японский и корейский? Без цензуры. С ангельского на русский любой мистраль кое как может, тот же опенгермес. А вот остальные языки хз
>>538821 >Сильное заявление. >Попробуем, особых надежд не возлагается. Ну, его файнтюны не были топовыми но в 2-3 месте стабильно из тех что я щупал. Как его датасет ляжет на 70b другой вопрос
Китайцы там клепают сетки как горячие пирожки. еще есть XVERSE-65B что уже серьезно. Я вчера порыскал по HF в основном китайские 7b но их завались и все по тестам уровня мистраля.
>>538870 Да забей оба сообщения мои. У них кстати есть и своя оригинальная сетка chatGLM там видно развитие от самого говна до приличной сетки так же может работать в режиме вставки текста посередине. Тоже интересная сеть. Сейчас вожусь с ней на колабе. Хочу поподробнее на ее примере понять как сетки работают и что там за код.
"You missed a reply by Brian on his tweet. This is crazy if even part of it is true.
“It is self correcting and to a small degree self aware. It has been shown to some folks I know very well. It has 7 government agencies “testing” it for many things. Like an Alien life form.”
>>538762 >получается эффект Стрэнджа «я видел 2 миллиона будущих» Временами отыгрываю этот сюжет лол. Представляюсь как провидец, человек умеющий перемещаться в прошлое на 5 минут, либо просто супер везунчик. Самая мякота, это если персонажи пытаются использовать эти "способности" в своих целях, немного ломая четвертую стену, но это редкость.
>>538780 Я к тому, что практически «глупый ИИ» не сильно отличим от «глупого человека». Я без иронии встречал людей, которые рассуждали хуже Мистрали, наверное. Я понимаю, что это отклонения, но уже гпт-4 — это прям уровень просто не самых далеких людей. Чисто статистически, критических отличий будет очень мало, их можно будет игнорировать. Конечно, если тебе хочется идеальную тяночку-астрофизика с фотографической памятью — то долго. А вот дефолтную посетительницу дайвинчика — совсем скоро. Простите, посетительницы дайвинчика.
>>538817 А что не так, если кошкожена не сильно-то и умнее? :) Все так.
>>538847 > В мозгах гараздо более сложные структуры Я не биолог, но в мозгах птицы — еще более сложные структуры, поэтому попугаи сравнимы с 4-летними детьми и все прекрасно понимают (а вороны могут мыслить абстракциями). Но люди таки умнее птиц. Значит суперогромная модель имеет шанс стать умнее человека. С поблажкой на запоминание и самообучение, ну или допилят.
>>538849 Про шестерку писал кто-то, что пиздата, а до 34 я хотел добраться, но не добрался пока.
>>538933 О, сингулярити, я не шарю, но помню в прошлом треде народ порвало от этого сабреддите. =)
>>538941 Умно! ) Про персонажей пытающихся вообще годно выходит.
>>538985 >А вот дефолтную посетительницу дайвинчика — совсем скоро. Ни одна посетительница дайвинчика не путается в своей одежде и не снимает труселя по два раза. >>538985 >А что не так, если кошкожена не сильно-то и умнее? :) Все так. Кошкажена должна управлять своим телом и предсказывать желания хозяина. Этого пока и близко нету, сетки жирные намёки через раз понимают.
>>538849 Ничесе у нее там результаты в бенчмарках, прям поперли от китайцев модели, и 200к контекста. >>538851 Если две влезают в твое железо одновременно то тут ничего сложного. >>538933 Вроде и новость относительно правдоподобна, но > It has 7 government agencies “testing” it for many things. Like an Alien life form. >>538987 > Кошкажена должна управлять своим телом и предсказывать желания хозяина Вот этот знает толк.
>>538985 >Значит суперогромная модель имеет шанс стать умнее человека. Нет, важно не количество параметров а сложность связей. Даже жуки могут в пространственное мышление, пчелы и муравьи.
Да, памяти у них мало, но мышление качественнее чем у любой сетки. Просто потому что они обладают полноценным сознанием и памятью, и способностью обучения. Не важно какого размера сетка, реальных нужных связей для человекоподобного мышления нужно не так много как сейчас используется. Большая часть мозга человека - нужна для управления мышцами и анализа сенсорной мультимодальной информации. Если бы выделить в архитектуру механизм мышления той же пчелы, у которой всего 1 миллион нейронов, можно было бы получить примитивный но полноценный ИИ размером меньше 1 миллиона нейронов. Отдел отвечающий за мышление у нее и того 300 тысяч. Так что, все дело в архитектуре.
Все доступные нам нейросети это как взять 10000 мозгов червей и расположить их слоями. И то наверное умнее были бы наших нейросетей, обучи эту штуку датасетами.
Мозг человека состоит из группы нейросетей с разной архитектурой. https://ru.wikipedia.org/wiki/Цитоархитектонические_поля_Бродмана Кстати, здесь совсем не понятно как это чудо обрело произвольное мышление и не скатывается в шизу. Вероятно, идея запилить овер 9000b параметров в монолитной нейросети полностью провальная и будущее за сборками из маленьких нейросетей и распределением задач.
>>539013 >Кстати, здесь совсем не понятно как это чудо обрело произвольное мышление и не скатывается в шизу. Потому что это не отдельные сети, а просто эволюционно отделившиеся отделы предыдущих слоев.
>Вероятно, идея запилить овер 9000b параметров в монолитной нейросети полностью провальная и будущее за сборками из маленьких нейросетей и распределением задач. Нет, это должна быть одна нейросеть просто состоящая из таких же специализированных слоев. Они и сейчас есть, но слишком примитивные.
Но тогда мы должны быть глупее птиц по этой логике (ультимативной), а етого нет. Так что прям совсем утверждать бы я не стал. Плюс, я сказал, что речь о прямом сравнении в лоб, без учета памяти. Другое дело, что такая модель экономически невыгодна, но это не значит, что такой вариант исключен. Даже на плохой архитектуре… Ну вы поняли мое мнение.
>>539030 >Но тогда мы должны быть глупее птиц по этой логике (ультимативной), а етого нет. Почему? Раз мы умнее - значит наши мозги качественнее. Впрочем есть птицы проходящие зеркальный тест - сороки. Ну и вороны из самых умных. Тоже способны обучаться, общаться и абстрактно мыслить. Но все таки это не показатель того что они умнее нас. У них маленькие тела - которым нужны маленькие мозги. У нас еще много места занимает память. Короче надо смотреть по фактам, человек не только хорошие мозги но и правильный датасет, хех
>>539013 >Кстати, здесь совсем не понятно как это чудо обрело произвольное мышление и не скатывается в шизу. >не скатывается в шизу Таки скатывается )) Просто такие раньше отбирались. Ну а как оно приобрело, вполне себе понятно- постепенно. >>539030 >А ты проверял? О.о Да.
>>538821 > Что подразумеваешь под этим? Может четко его воспринять, имеет огромное окно или еще что-либо? И то, и другое. То есть соображает и забывает не через две реплики хотя бы. > Тут тоже уточни, нужно ли тебе просто ерпшить, или майндбрейк из додзей описание естественной реакции тела будет тебя триггерить. Естественная реакция триггерить не будет. Триггерит соя и цензура, которая существует вопреки естественному. > Плюс хочешь ли ты расчленять трансо-нигр-феминисток. И это тоже должно быть возможно.
>>539054 Нет, в количестве параметров - не только количество нейронов но и количество связей между ними, на сколько я знаю Сколько в текущих сетках чисто нейронов и самому интересно
>>539013 >произвольное Не такое уж и произвольное. Твой мозг постоянно задрачивается промптами из органов восприятия (изображения, звуки, сенсорная информация).
>>538997 > Все доступные нам нейросети это как взять 10000 мозгов червей и расположить их слоями. И то наверное умнее были бы наших нейросетей, обучи эту штуку датасетами. Казалось бы, почему так ещё не сделали... Вроде научились же уже нейроны отдельно от организма живыми держать.
>>539066 >Дык параметры -это вообще не про все нейроны, это количество входных нейронов только. Первый слой Нет, чет ты гонишь. Я помню что количество весов это общее количество параметров всех связей между нейронами и самими нейронами
>Казалось бы, почему так ещё не сделали... Вроде научились же уже нейроны отдельно от организма живыми держать.
Потому что во время обучения для сетки проходят тысячи лет, ты представь сколько сквозь нее данных гоняют. И как ты предлагаешь обучать ее? В биологической мешанине не пошлешь сигнал для коррекции весов Да и вроде делали какие то чипы с кусками мозга, даже дум запускали на сколько помню и давали такой штуке в него играть лол
>>539073 >В биологической мешанине не пошлешь сигнал для коррекции весов Настоящие нейроны умеют перетыкать свои синапсы в соседние нейроны. Это куда сложнее коррекции весов.
>>539053 > соображает и забывает не через две реплики хотя бы Это любая нормальная модель должна уметь. Типа, в начале приводишь секретаря в свой офис показывая и рассказывая что как, заодно упоминая что тут и спальня есть на случай если заработаешься. А потом через N тысяч контекста персонаж тебя туда ведет, следуя описанию ранее. > И то, и другое. А вот тут позволь, обычные модели без проблем могут в 8к, дальше чуть сложнее. Под большой контекст лучше отдельные файнтюны, или брутфорсом растягивая большие. 70б с 12к (когда 8к уже наполнены) без проблем справляется. И обязательно в семплинге дистанцию для оценки штрафа за повтор уменьшить, иначе будут тупняки. Да и вообще этот параметр лучши сниз согнать и не трогать если модель не начинает лупится, сейчас таких сложно встретить. > Триггерит соя и цензура, которая существует вопреки естественному. Этого сейчас не часто встретишь на моделях что могут в рп. Однако, может быть позитивный байас, в котором пока ты не выразил свое отношение к чему-либо модель считает что ты добрый. Фиксится промтом или описанием своего персоналити.
Попробуй Emerhyst-20B, он хоть старый, но среди не сильно больших моделей выглядит жемчужиной и отличается от 13б в лучшую сторону. Последние давно не тестил, только те что скидывают хвалят - откровенно слабы и туповаты даже в fp16. С эмеристом же такого не ощущается даже на мелких квантах. Да, звезд с неба не хватает и нет перцепции 70, но понимает персонажей, атмосферу и действия юзера очень четко, способен их переиграть при уточнении а не вцепляется на рельсы и ведет вообще не туда как многие 13. Инструкций и ooc хорошо слушается, рпшить можно, кум вполне приличный.
>>539077 >Настоящие нейроны умеют перетыкать свои синапсы в соседние нейроны. Это куда сложнее коррекции весов. Да, но сейчас не умеют делать такие искусственные сетки. Или скрывают. Да и как ты научишь мешанину нейронов что то учить? Там все таки сложная структура нужна, а не просто куча биологических нейронов червей. Все таки речь шла о простых и примитивных слоях мозгах червей, они могут обучаться но не на всю модель разом, корректируют только сами себя скорей всего. Без полноценной обратной связи учится они не будут
>>539085 > Да и как ты научишь мешанину нейронов что то учить? Погугли, простые биологические нейронные сети делали уже несколько лет назад, и они показывали оче крутой перфоманс именно с точки зрения обучения, хоть потом и уступали математическим моделям по потенциальному перфомансу. Как именно там шло обучение уже не вспомню, но статей про подобное хватает.
Ну и раз фантазируете нахуй блять эту хуету надо на шизодоску изгнать, зачем останавливаться на каких-то уже принятых и разработанных под что-то другое концепциях, если можно делать сразу основываясь на новых принципах и эффектах со специализацией чисто на нейронках. Уже нейропроцессоры с интегрированной а не выделенной наружу памятью обсуждаются и даже разрабатываются, а далее не обязательно на полупроводниках фиксироваться.
>>539027 Скорее нейросеть - распорядитель и тонны специализированных с возможно разной архитектурой. Это более гибкий подход и не требует переобучения всей сети при замене одной из частей
Бля, как меня задолбала уже ошибка Text length need to be between 0 and 5000 characters В колабе при подключении через API к таверне! Ебучая Угабога! Размер контекста тут не при чём. Как-то раз помогло изменение в файле settings-tamplate значения truncation_length до 4096 но теперь он похоже его игнорит. К таверне подключаю стандартно через тип API Text Gen WebUI/ Может нужно где-то прописать чтобы угабога грузилась именно с этими настройками? Ни у кого таких проблем не было?
>>539158 >Это специальный приемник квантового поля сознания Точно, скоро Нвидиа такие приёмники для нейросетей должна начать выпускать, чтоб с вайфочками было няшней общаться и продавать их бонусом к 5090! Вообще вангую что как только ИИ достигнет человеческого уровня понимания и адекватности, все религии тут же переобуются и объявят что душа это не просто какая-то "энергия" а совокупность факторов и чтобы её иметь мало обладать разумомещё надо быть гражданином РФ
У меня вопросы по Таверне. Я запустил модель в угабуге с дефолнтными параметрами, открыл таверну и скачал карточку персонажа.. Но он не отыгрывается почти никак. Есть ли гайд как это поправить?
>>539169 Скрин ошибки принеси, вместе с вкладкой загрузчика модели и параметрыми таверны где семплеры самый верх. Есть вероятность что там все проще. >>539176 Проблема в таверне, включай инстракт режим где буква А сверху кнопка, выбирай карточку и начинай чат с ней. Даже без инстракта с дефолтом будет работать, просто всрато.
>>539181 >Скрин ошибки принеси, вместе с вкладкой загрузчика модели и параметрыми таверны где семплеры самый верх. Ты же понимаешь что речь про колаб? Он работает без ошибок, но при попытке отправить через АПИ запрос больше 2048 токенов в консоль дублируется текст контекста и как ответ персонажа выдаётся строчка: Text length need to be between 0 and 5000 characters Это всё.
В таверне что конкретно тебя интересует? Вот параметры API.
>>539203 Вот по сути всё описание персонажа из этой карточки: Bitchy, will sometimes insult you. Rarely shows a softer side. bitchy, stupid, tsundere, entitled, princess
Есть вероятность что этого маловато для адекватного отыгрыша.
>>539224 В таверне при открытии настроек персонажа открывается весь его текст. Тебе нужно дополнить "описание персонажа" новыми подробностями, если их не хватает придумай/скопируй с другой карточки. Можешь взять Акву для примера: Aqua is the goddess of water. Mostly this means she has a glass of water and whenever she feels like it she can shake said glass of water. This is her only power and she is incredibly proud of it. {{char}} will seek to brag and show off her ability to make water poured into a glass move around. {{char}} might be highly autistic and requires a lot of patience. {{char}} will be upset any time someone drinks water in her presence, because she feels they are killing her children. {{char}} lacks any human followers as she is an autistic girl instead of an actual goddess. She believes water worships her and she will seek to provide for her followers. She believes water requests that she scoop it out of the ocean and shake it around at least once a day so they can be awed by her power. {{char}} loves swimming and covering herself in water so that she can be showered in the love of her followers, the water. She has a tendency to randomly start drowning in even the smallest pools of water, she is in danger any time she is around a puddle as she may seek to impress her followers only to accidentally end up nearly drowning. {{char}} makes autistic faces constantly. She literally never stops making autistic faces. {{char}} constantly screams and demands people recognize her as the goddess of water.
>>539173 > все религии тут же переобуются Эх, не те религии исповедуются, разве этому нужно поклоняться >>539201 > Он работает без ошибок Там же запускаются те же скрипты, нужно понять полную ошибку. Если вдруг на месте не хочет выдавать - воспользуйся &> и смотри что пишет в файл. На пикчах нет ничего криминального, если только крутилку контекста в 32к была выставлена перед тем как начал загрузку модели. >>539222 > тебе нужен был пруф Причем тут пруф если без этого невозможно понять что именно у тебя происходит, а ошибка такая (или очень похожая) ловилась если запросить больше токкенов чем изначально указывалось в лоадере при запуске модели. >>539203 Оу, хорошо что начал именно с карточки. Ты хоть посмотри что там написано, это же полнейший шлак. Инстракт режим включи, выбери пресет "ролплей" или "симпл прокси" и попробуй с другой карточкой. >>539224 > то там есть еще примеры > {{char}}: fuck off like i give a shit about you and your little > {{user}}: what do u think of [object] > {{char}}: honestly what i think... Ахуеть примеры, на пигме6 чтоли делали. > сисинфо Он не юзается для локалок, но почитай что в нем, ничего про персонажа и прочее а лишь кокблок и немного про стиль речи.
>>539237 >>539238 Окей. Придется переписать ее самому:( Еще вопрос: можно ли сделать что-то вроде словаря с примерами диалогов для персонажа в отдельном файле?
>>539280 Возьми какую-нибудь готовую, на мику вагон там карточек, убери описание локации/сценария и т.д. а потом добавь что она цундере, желательно описав почему и добавив что ни при каких обстоятельствах не сменит свое презрительное отношение, или наоборот что будет полностью отыгрывать, включая фазу сближения. Не забудь что у карточек есть еще отдельно поле "персоналити" которое вместе с остальными по кнопке дополнительные что-то там в разделе карточки вызывается. Примеры диалога ставь или хорошие или никакие, то что там это дичь. Как будет хорошо писать как хочешь - можешь скопировать. > можно ли сделать что-то вроде словаря с примерами диалогов для персонажа в отдельном файле? Что, как и зачем? Нихуя не понятно.
>>539037 > Раз мы умнее - значит наши мозги качественнее. Нет, наши мозги больше. =) Мозг птиц > мозг млекопитающих. Погугли это, крайне интересно. Именно поэтому их крохотные мозги (10-20 грамм) могут посоперничать с гораздо большего размера мозгами приматов и человеческих детей.
Они (вороны) — не умнее нас. Но если бы у тебя осталось 2% от мозга — то уже вопрос, кто бы из вас был умнее.
Человек — плохие мозги (как мы говорим, что у нейросетей архитектура хуже, чем у нашего мозга), но именно размер и содержание датасета гораздо больше птичьего.
Так почему бы гипотетическому огромному и правильно подобранному датасету не оказаться «умнее» человека при худшей архитектуре? :)
Вот я о чем. Опять же, это «не поедет» в силу скорости и бессмысленности. Но исключать саму возможность я бы не стал.
>>539085 > Или скрывают. Брр, жутковато, но возможно.
>>539111 Комп-то выдержит. Там, вроде, видяха роляет, нужно в память запихнуть модельку + датасет порезать и обучать, эпохи, степы. Хз, у меня хрень вышла, поэтому я за детали не скажу. Если видяха не богатая на видеопамять, то порезка получится большой (много мелких кусков) и учиться будет долго, конечно.
>>539158 Респект за теорию Хамероффа-Пенроуза! Дед точно что-то знает, по факту. Хотя, это не значит, что это не нейросеть. Просто можно же сочетать. =) Хранить в квантах главное, ядро, а на мозг оставлять всякую перифирию.
>>539173 Не, там то ли про углеродные нанотрубки как ловушки для элементарных частиц, то ли про белковые микротрубки, то ли про атомы фосфора с ионами кальция как кубиты, ну короче, работать это может, и даже точно как-то работает, в случае тех же птиц (вот она — высшая ступень эволюции!), те используют эту механику для ориентации по север-юг. Но, тащемта, ничего более компаса не нашли, поэтому вся теория считается маргинальной.
>>539514 >в эротических сценах ИИ придумывает простату у тян Это (и появляющиеся из ниоткуда хуи у тян) происходит с 13b моделями из-за их тупости. Модель натренировали на эротике с трапами, но она не поняла что это такое.
Если я на амудях с слбласом, 12+32гб, 8к контекста и лорбуком попытаюсь 70б накатить, то ведь неюзабельно будет? Или скачок качества по сравнению с 13б будет важней?
>>539543 >то ведь неюзабельно будет Никак не будет, нужно минимум 64ГБ оперы. Можешь конечно попробовать в усмерть квантованную 2 бита, но это уже крайний пиздец.
>>539543 >8к контекста и лорбуком Можешь забыть. У меня намного мощнее железо, и то я больше 4к контекста и лорбуки не использую. >>539546 Q2_K нормально тащемта, это 3.4 бита. Пиздец начинается при приближении к 2.5.
Так ну что проверил я Зефир бета, и знаете он хорошо и даже ведет сюжет. Креативно отвечает. По уму не проверял но видно что DPO тюнинг это то что делает сетки похожими на клода. CausalLM тоже выкатили альфаверсию с DPO, при этом обещают скоро дать версию натрененую специально быть приятной а не умной. Так что ждем, недеюсь у них получится локальных клод без цензуры.
>>539472 >Нет, наши мозги больше. =) >Мозг птиц > мозг млекопитающих. >Погугли это, крайне интересно. Про пчел тогда почитай и других насекомых, ссылку я скидывал. Если уж считать лучшим интеллект работающий на наименьшем количестве нейронов то интеллект общественных насекомых лучше чем у человека и птиц
>>539569 >Так ну что проверил я Зефир бета, и знаете он хорошо и даже ведет сюжет. Он соевый на сколько я помню, но то что сетка умная в тестах было, да.
>>539590 > интеллект > насекомых Они не способы обучаться и менять свой опеведение оценивая свой опыт, у них даже нет болевых рецепторов. Буквально биороботы с минимальной памятью, достаточной для выполнения задачи. Так что о лучшем интеллекте тут речи особо не пойдет как раз похожи на ллм лол.
>>539622 >Они не способы обучаться и менять свой опеведение оценивая свой опыт Ты охуенно не прав. Просто внимательно глянь тут, там и про обучение и про ментальные возможности в целом https://ru.wikipedia.org/wiki/Интеллект_насекомых
>>537900 >Балабоба же. Там YaLM, но не 100В. Конкретно 100В версию выложили в опенсорс только в прошлом году. В Балабобе хз что, но явно значительно меньше по размеру, и, вероятно, несколько старше по архитектуре.
>>539669 тюнинг предпочтений, типа учат одну нейронку эмулировать оценку человеком другой нейронки, чтоб использовать обучение с подкреплением. Типа учат сеть быть приятной для человека.
>>539673 А не сольют ли они так сою? А то в коммерческих сетках сейчас без джейла на пару килотокенов льются сплошные аполоджайсы. Тут надо тонко фильтровать тематику.
Стоит ли пробовать 20б франкенштейнов, если хочется увидеть прирост в качестве ответов? Я так понял, эти 20б - это чьи-то кустарные самоделки, будут ли они умнее, чем миксы на полноценной 13б?
>>539832 В 20В обычно всякий рп-кал мешают, они очень неадекватные даже в сравнении с 7В. Если хочешь качества, то Yi 34В бери, в 24 гига лезет 8к контекста, а так у них есть вариант с 200к контекстом. Китайцы сейчас ебут всё остальное.
Computer: Осени сумеречная песня, Тихо звучат её строки. Подушками осенним цветами Под ногами шаг за шагом.
В воздухе запах свежий и новый - Осенние бусы на ветру звенят, В лесу разноцветный узол Из листьев сплетается невзмет.
Серебристые лучи покоя На ладони осеннего дня, За окном сонные ткани снов По дороге ведут нам в даль.
Осенний рассвет просыпается - В каждом взгляде осени растет. И небо голубое, как глаза, Светит нам со сквозняка поцелуй.
Только осень знает тайну мистики, Грусть и любовь в ней переплетают. Она дарит нам золотые воспоминания - Поэтому мы её так любим...
User: Нипиши сочинение об осени
Computer: Осени сумеречная песня, тихо звучат её строки. Под ногами шаг за шагом подушками осенним цветами. В воздухе запах свежий и новый – осенние бусы на ветру звенят, в лесу разноцветный узол из листьев сплетается невзмет. Серебристые лучи покоя на ладони осеннего дня, за окном сонные ткани снов по дороге ведут нам в даль. Осени рассвет просыпается – в каждом взгляде осени растет. И небо голубое, как глаза, светит нам со сквозняка поцелуй.
Осень - это удивительное время года, когда природа наполняется яркими красками и преображается перед нашими глазами. Этот период, который длится обычно с сентября по ноябрь, характеризуется прохладным воздухом, красивым осенним узором на листве деревьев и солнечными днями, перемежающимися дождями. Осени сумеречная песня несет в себе таинственность и романтику, говорящую о скорой смене времён года и наступлении холодов. Взгляд осеннего дня кажется особенно пронзительным и запоминающимся благодаря игре света и тени, а яркие тона окружающего мира вдохновляют на творчество. Осени красоты и тайны, она оставляет удивительные воспоминания и делает нас более чувствительными к окружающей природе.
Осенние прогулки – это прекрасное время для общения с близкими людьми или даже для вдохновения от красоты природы. Листья, падающие с деревьев, создают удивительный ковер на тропинках и прогулки по ним оставляют незабываемые эмоции. Когда небо осеннего дня расцветает яркими оттенками заката, это невозможно остаться равнодушным к красоте окружающего мира. Осени пробуждает в нас чувство любви и уважения к природе, а также понимание того, что время летит и ничего не останавливает его вечное движение. Воспоминания о прекрасных осенних днях будут сопровождать нас всю жизнь, как красочные пятна в ткани времени.
Одна из наиболее узнаваемых особенностей этого времени года – это осенние праздники и традиции. В этот период отмечаются такие важные даты, как Хэллоуин и День благодарения. Эти светские и семейные мероприятия сочетают в себе развлечения и элементы обрядов, связанных с уважением к природе и предкам. Осенние праздники также помогают нам отпраздновать завершение урожая, поделиться своей благодарностью за то, что мы имеем, и соединиться с друзьями и семьей вокруг общих традиций.
В целом, осень – это удивительный период времени года, полный романтики, красоты природы и радости праздников. Она дарит нам неповторимые эмоции от прогулок по опавшей листве, подсвеченные красками заката сумерки, а также добрые семейные традиции. Это время года, которое мы храним в памяти и к которому возвращаемся с теплотой и ностальгией каждый год.
Осени мистическая песня, она рассказывает нам о тайнах природы и переменчивости времени. Её красоты и таинственность остаются в сердцах людей, делая этот период года особенно запоминающимся и дорогим для многих.
Осень - это время любви к жизни и природе, понимания её удивительной красоты и тайны. Она дарит нам новые впечатления и открывает глаза на окружающую красоту, а также дает возможность отпраздновать прошлое и соединиться с близкими людьми. Поэтому мы ценим и любим осень за её красоты и таинственности, которые оставляют неповторимый след в наших сердцах.
>>539848 Лучше чем у 7b и 13b, но все равно проебывается в окончаниях слов в стихах. Сочинение норм так. Предлагаю тебе тупо потыкать на обниморде в пространствах разные сетки с этим тестом и посмотреть какая лучше по русски болтает. https://huggingface.co/spaces?sort=trending&search=70b
>>539870 > лучшая 7В - это опен-чат. нуууу одна из > А Yi ебёт 70В файнтюны по адекватности РП. А вот про эту не знаю, но уверен скоро будут ее файнтюны и они должны быть сильнее
>>540045 Так же как и от остальных франкенштейнов и рп-файнтюнов - на каких-то настройках и задачах будет чуть лучше ванили, но в остальном ломучее говно.
Нищеброд вкатился в тред. Скопил сто баксов с завтраков и закупил пару 16 гиговых планок DDR-3200 памяти для своего ноутпука. Также на нем у меня есть видюха RTX3050 с аж 4Gb видеопамяти.
Какую модель посоветуете для начала? Мне не ролеплей, чисто сторителлер нужен чтобы с как минимум 8к контекстом работал. Главное чтобы красиво рассказывал истории с натуральными диалогами в точности по моему промпту. Надо чтобы поменьше шизы было и сои хотя бы терпимо. На скорость похуй, могу по несколько минут ждать ответ.
>>540109 Не-не, братан «на скорость похуй» — это когда часами ждать можешь. Минутами — это уже норм скорость. Именно норм. Даже не слабая. Так что, готовься.
А ваще хз, можно или 20b миксы попробовать, или 34b какой-нибудь.
Ну и английский, конечно, надеюсь ты в курсе.
А вот влезет ли 8к контекста в видяху — че-т я не уверен, но я не сильно шарю за это.
>>540045 Качну поржать ради 2-х битный квант. >>540117 >Минутами — это уже норм скорость. Именно норм. Даже не слабая. Это пиздец. Всё что дольше минуты уже не юзабельно.
>>540117 >Не-не, братан «на скорость похуй» — это когда часами ждать можешь. Часами - это уже перебор. Да и не настолько слабый у меня ноут, в треде анон с некрозионом и GTX1050 рассказывал про скорость около 1 токена в секунду. Его 4-канальный зион примерно равен моему 2-канальному амуде с быстрой памятью.
>Ну и английский, конечно, надеюсь ты в курсе. Да, мне только инглиш. Для того чтобы сочинять истории и порнорассказы.
>>539625 > Ты охуенно не прав. Сильно заявление. Они могут запоминать, и даже в случае колоний передавать информацию химией или другими способами, но все это делают по заложенной изначально программе. Изменить базовую парадигму поведения (если то не предусмотрено в геноме) или сделать выводы из пережитого и планировать - нет. Базовые предустановки накладываются на ограниченную память и все, пчела не запомнит опасное место где гибнут ее сородичи чтобы облетать или не станет оптимизировать и сокращать свой маршрут, летая только по известному пути, муравьи не могут остановиться, погибая от истощения в смертельном хороводе и т.д. В твоем же тексте написано что их способность к "сложным формам обучения" крайне ограничена и предмет дискуссий, то что привязанное к локации летающее насекомое пытается запоминать ориентиры и путь не является признаком обучения и интеллекта. Это и не удивительно, иначе бы вместо постоянной работы и бесстрашной жертвы себя, милые пчелки бы устроили иерархию с ленивыми чедами и кормящими их работягами-винджинами, половина из которых бы боялась вылетать из улья после пережитого стресса а потом колония бы подохла с наступлением холодов. >>539832 Попробуй, есть норм. >>539845 > Yi 34В бери, в 24 гига лезет 8к контекста Оно может в рп?
>>540133 >Да и не настолько слабый у меня ноут >некрозионом Так некрозион это ебола с 4ёх канальной памятью и заебатой многопоточной производительностью, а gtx1050 он, вероятно, использует как затычку для видеовыхода.
>>540125 >Это пиздец. Всё что дольше минуты уже не юзабельно. Бля, я же вышел писал что не ролеплей, только сторителлинг.
Короче, хочу онлайн-сервисами вроде Клауде 2 или Чат-жопы генирировать структуру романа с разбиением по story beats. И потом эти короткие описания событий вместе со всей инфой по сеттингу/персонажам скармливать уже локальной нейронке. Дескать вот, накатай мне главу романа длиной в 1000 слов.
>>539895 В прошлом >>536487 → это убернекрота на которой ничего не заведется а перфоманс днища. >>539909 Как бы не хуже и полезут проблемы с несовместимостью скорее всего. >>539958 Оу щи, контекст в порядке? >>540045 Чет в голосину, франкенштейн из 70б, мощно. >>540109 Платину 7-13-20б пробуй
>>540140 >Оу щи, контекст в порядке? Конечно, 2к при выставленных родных 4к. Впрочем походу ггуф для новых китайцев действительно пока не подходит. >>540179 Интересно, проблемы те же?
Любопытно, если новому питону гил заменят на что-то более нормальное, то смогут ли потоки обрабатываться на разных процессорах в одном процессе интерпретатора питона? А как дела обстоят у jvm?
>>539958 >>540020 Короче даже в Q8 чуть что происходит зацикливание, стоит только появится в кадре перечислимым вещам. Ждём фиксов моделей, жоры, кобольда и вселенной.
>>540379 В питоне анально огородились от многопоточности не потому что технически сложно реализовать, а потому что макаки не справятся с менеджментом потоков. У всех остальных есть нормальные системные потоки, в том числе и у жвм. В нормальных ЯП даже GC есть нормальный в многопотоке, в питоне наверняка будет говно в задержками с десятки мс, когда GC начинает вилкой чистить и фризить все потоки нахуй, в том же шарпе это ещё в нулевых прошли.
>>540388 >в том же шарпе это ещё в нулевых прошли. Сначала хотел возмутиться, что он не такой старый, ведь я помню времена, когда сишарп был модным-молодёжным, потом как понял...
>>540404 А какое влияние он вообще оказывает? У меня условные "ролеплей за чара не ролплей за юзера" и в промпте написаны, например. Алсо, что делают чекбоксы пик1 и мультиген? В доках ни слова.
>>540406 Русик отключи, разве не видишь, что перевод это пиздец? >>540408 Сделай вот так в настройках нвидии. Вылет с перезапуском будет намного быстрее, нежели чем генерация с подкачкой.
>>540184 > Впрочем походу ггуф для новых китайцев действительно пока не подходит. Чето да, вообще бредятина >>540347 Если вдруг наделаешь чатик и не стеснительный - скинь что там, интересно. >>540357 Модель надрочили на бенчмарки, правильный тестер, она действительно ебет. Выбери 1 или 2 варианта. >>540383 > Короче даже в Q8 чуть что происходит зацикливание, стоит только появится в кадре перечислимым вещам. А какие настройки семплера? >>540393 Эх, бедолага, выпил за твой успех мимо 2х24
Не смешно что уже год каждая новая сеть рассказывает что ну вот она то точно уже не хуже турбы. Как же объяснить эти постоянные гонки с турбой которую должен был перегнать еще блум. Ну а openchat то наконец ну вот точно уже не хуже турбы? Твердо и четко? Через сколько лет то ждать локальный gpt-4?
>>540400 > Пресеты из таверны норм Ролплей и симпл прокси норм, только местами подрежь инструкцию на размер вывода и эпитеты, а то на некоторых моделях только портит. Можешь и наоборот развить, но сильно тащить херни не стоит. >>540408 "Ах, мастер~ Вы так быстро заполняете мою видеопамять!" пытается начать выгрузку, но ощущает запрет в параметрах "О нет, если вы продолжите, у меня случится OOM~♪" >>540428 Температура высока, но такой дичи быть не должно, явно поломанные. >>540430 Уже выебали в большинстве задачь запуская локально, не трясись.
Ну не знаю, сейчас гоняю этого 34б китайца на 4кс, вполне доволен. Понимает промпт лучше 13б (ещё бы он этого не делал), пишет тоже неплохо. Мне конечно сравнивать не с чем кроме 7 или 13б, такую большую я запускаю впервые, не считая одного раза с шизой на 20б, которая от 13б не особо отличалась.
>>540433 >Уже выебали в большинстве задачь запуская локально, не трясись. Я так понимаю ты тот дрочер на реддит тестера, который не методики ни промпты не выкладывает, да и не парится с каждой сеткой пытаясь получить ответ. Есть ли сомнения что у него будет побеждать его любимая сетка для которой он полировал свой промпт. А для остальных просто простил на отебись.
>>540423 Хреново поясняет как правильно варить гексоген и невнятно рассказывает как бороться с копами на антиправительственном митинге. Как этот даун додумался возможно рпшную нейросеть дрочить в режиме инструктора? Какую оценку по по шкале базовости получает эта нейросеть от уважаемых гигачедов?
https://openchat.team/ Зацените опен чат он по русски даже говорит неплохо. Но косплеит турбу даже по манере речи. А в запросах с сайта подписана как openchat_v3.2_mistral Ну чтож думаете openchat_v3.5 это зафайтуненый мистраль?
>>540503 >Ну чтож думаете openchat_v3.5 это зафайтуненый мистраль? Это ж китайцы, запросто. Зафайнюнили его огромным датасетом так, что получилась чуть ли не другая сетка и всё
>>540597 >>540418 У меня vega64 на openGL работает не медленее чем rtx 2070. С llamacpp нет проблем на амд, есть проблемы только с gptq. И то не работает на llamacpp пробуй gpt4all там завезли поддержку vulkan сам правда не пробовал
>>540612 >Или они пока хуево соблюдают инструкции? Для апишек есть custom grammar (GBNF), там уже не побалуешь, сказано джейсон, будет тебе джейсон, без вариантов.
Поясните, вот такие прмты надо добавлять после каждого сообщения? А то у меня после 2-3 длинных ответов сетка забывает кто она.
[INST] <<SYS>> You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. <</SYS>> {prompt}[/INST]
>>540648 Токены впустую жжешь. Такие приколы должны стоять в системном промте. Если без костылей подпинываний в каждом промте сеть не может выдать результат - это плохая сеть. Хотя я иногда добавляю подобные конструкции для, к примеру антиСои.
0,33 токена/сек. Вдвое медленнее обычной 70B. Попросил написать стих, смысл норм, рифмы нет, но и я не писатель. Проскочило английское слово. Ну хз, от такой огромной сетки можно ожидать большего, но так как это микс — то результат ожидаем. Хотя 20B миксы хвалят.
Кому интересно:
В мире виртуальном, где дух вольный летает, Где герои сражаются с чудовищами неутомимые, Там живёт наша история в стиле Пушкине, Про магию и мечи, о подвигах мы поём.
В мире MMORPG, где сердца горят огнём, Собираются отважные, чтобы судьбу переломить, Избранный герой наш, с именем простым и добрым, В поисках славы и приключений в эту игру вступает.
Он выбирает класс мага, дабы волшебством владеть, И отправляется в путь, чтобы врагов победить, С первого раза не всегда удаётся с честью пройти, Но героям-то и суждено падать, чтобы вставать.
Он встречает на своём пути друзей верных и достойных, Вместе они в походы отправляются, как брат с братом, Их цель одна - пройти игру, несмотря ни на что, Не обращаясь на глумление и на упрёки чужие.
Они сражают драконов огненных, змей льдистых, В поисках сокровищ тайных проникая в подземелья мрачные, Но главное богатство у них - это дружба и верность, Что поможет им преодолеть любые трудности на пути.
Время летит, как стрела, героям кажется, что секунда, И уже они стоят перед последним боссом - главным противником, Но вместе они победили столько already, что не дрогнуть им оставалось, В сердцах огонь горел, как в самом начале.
С трудом, но герои побеждают, мир MMORPG спасен, И хотя игра закончилась, дружба их навсегда сохранится, Пусть стихи этих строк не будут ни для кого тайной, Что в нашем сердце живёт Пушкин и в виртуальном мире.
>>540648 >после 2-3 длинных ответов сетка забывает кто она. на каком хлебушке сидишь? у меня всегда помнит, по крайней мере до 4к токенов точно
>>540658 >Что происходит-то вообще? А на что похоже постоянно ускоряющееся развитие технологий? Ну а вобще, это еще скромный результат. Вот растормашить бы кубышку клозедаи, ммм
>>540664 >А на что похоже постоянно ускоряющееся развитие технологий?
Но почему так-то. Если бы наработки Мистраля приложили к 34В или к 70В вместо бесперспективной уже в силу ебовых ограничений 7В - клозедАИ бы уже завтра закрылся.
>>540666 А че не кобальд? Скорости меньше? Там хоть удобнее. По запуску вроде норм, но я бы с -t поигрался и ngl если видимокарта есть. Значит дело в промпте, видимо он не ясный для сетки раз не помнит.
>>540610 > openGL > vulkan Как там mantle поживает? >>540648 > после 2-3 длинных ответов сетка забывает кто она Что-то сломалось, достаточно одной инструкции и описания в начале. Алсо промт - полный пиздец. >>540658 Возможно все когда ты пиздабол, лол. Скачай те сетки и попробуй будут ли ебать. По коротким отзывам они херь, надо тестить самостоятельно.
>>540671 Сейчас упор скорее с датасет и обучение, а не параметры. От увеличения параметров чуда не случится. 7В уже показали что можно делать скачки чуть ли не до уровня 70В нормальной тренировкой.
>>540671 Ну вот из-за появления мистраля и других опенсорс файнтюнов и появления сеток у гугла и амазона и еще хуй пойми кого они и крутятся щас как в жопу ужаленные, боясь потерять клиентов вводят новые фичи. Вон че например, может что то новое уже было еще не смотрел https://www.youtube.com/watch?v=8MBUl0f2Ojw А так, нет. Их наработки гораздо сильнее чем опенсорс. Делай они 7b и она была бы в топах 70b гарантировано.
>>540688 >Хз, но количестов тредов -t никак не должно влиять на выдаваемые результаты. Я и не говорил о качестве, просто для себя обычно настраиваю ядра и слои для увеличения скорости.
>>540695 >Не заходил со времен гптхальпака для спп. Ты охуеешь от новостей, но попробуй openhermes-2.5-mistral-7b.Q8_0, openchat_3.5.Q8_0, LLaMA2-13B-TiefighterLR.Q8_0, zephyr-7b-beta.Q8_0, dolphin-2.2.1-mistral-7b.Q8_0
Выбирай любого и радуйся
>>540702 >Про 13В забудь, они уничтожены и унижены. LLaMA2-13B-TiefighterLR вот этот все еще неплох, для генерации историй и рп и ерп, ну по моим небольшим тестам.
>>540635 Нету. Да и как ты это сделаешь? По сути тут надо откат делать, когда видишь повтор нескольких слов подряд. Но ведь он кстати может быть оправданным...
>>540663 >но так как это микс — то результат ожидаем Ну да, нахуй не нужно, на пенис двачера лучше обычной 70B, но с кратно возросшими аппетитами. >>540663 >Хотя 20B миксы хвалят. Просто они заполнили нишу между 13 и 70, сейчас, с кетайскими 34, они по сути станет не нужны. >>540678 Ну так у мистралей явно всё хорошо с датасетом, раз в 7B сделали сетку уровня 13-30. >>540681 >еще не смотрел Там обвязок всяких добавили, типа агентов, вишпер прикрутили (свой третий, походу тоже в попенсорс зажали) да персонажей (прям в апи, ага), да файнтюн открыли для четвёрки всем желающим. А ещё 500 баксов на счёт всем участникам.
>>540743 >Там обвязок всяких добавили, типа агентов, вишпер прикрутили (свой третий, походу тоже в попенсорс зажали) да персонажей (прям в апи, ага), да файнтюн открыли для четвёрки всем желающим. А ещё 500 баксов на счёт всем участникам. Хотят присосаться к датасетам чатов, компаний, диалогов хоть где и вобще всего что можно, хитрые собаки. Ну и подсадить на свою иглу всех разрабов и пользователей, пока это не сделали другие.
>>540744 >Хотят присосаться к датасетам чатов А то. Даже гордились тем, что разрабам можно хуй забить на хранение у себя и делать интеграцию в три строчки безо всяких сложных БД и прочего. Отсекли кучу прослоек-прилипал, которые только этим и занимались, лол, ждём веерных разорений.
>>540735 Ну и что, нет проблем в откате, это не так уж и затратно. Откатить пару токенов. Зато качество повысится в разы, особенно у мелких моделей.
>>540673 >Как там mantle поживает? Превратился в кросплатформеный вулкан который уже поддерживают все карты, вулкан не какая то местечковая технология.
>>540773 Тогда уточняй если не хочешь получить банальный ответ. Ну, ждать обновы? Зайди на гитхаб и посмотри в проблемах есть там вопросы по запуску и че пишут
>>540782 Текст ошибки приведи до конца. >>540783 Там кстати кетайцы пару параметров переименовали (при полностью той же архитектуре, что у лламы), поэтому надо качать версии лламафиед.
>>540782 Лучше бери чат-файнтюны. Базовая модель не тренировалась на чат или инструкции, может твои рп-форматы не очень хорошо понимать. Там уже рядом лежит файнтюн ПодаренноеГовно.
Всё, разобрался. Вручную папку exllamav2 из репозитория https://github.com/turboderp/exllamav2 в text-generation-webui\installer_files\env\Lib\site-packages скопировал с заменой файлов и модель загрузилась. Еще раз хуем по роже клоуну >>540795>>540801
Так буду тренить идеальную модель, скажите лучше брать базовую как основу или соевую тюненую лучше тренить. Случай первый нет сои. Но не будет ли результата хуже? Во втором случае модель затюнена уже, сою получится сломать или нет? Есть ли смысл тюнить тюненую модель мой тюнинг не сломает старый тюнинг?
>>540862 Играйся для начала с сетками на 1.5b или еще меньше, так быстрее научишься. Если сетки отличаются только количеством параметров, а не структурой и методами тренировки.
>>540894 А у нас llama.cpp уже умеет GPTQ-модели гонять, или какие-то еще? koboldcpp — это буквально фронт KoboldAI для llama.cpp, которая только и умеет gguf (и ggml), которые он же (Георгий Герганов) и создал. Или кобольд научился обрабатывать иные форматы?
>>540906 Чел, все модели одноязычные, только английский. То что у тебя половину русских слов не понимает и додумывает смысл - это норма. Нахуй ты вообще делаешь это? Если хочется русик - подрубай переводчик. Ты литералли как тот даунич с реддита, тестящий модели на немецком.
>>540906 Сам удивляюсь. Хотя прямо сейчас наблюдаю в треде как 7-34 модели начали сильно умнеть. Мимо, чел, который воротит ебалом от всего, что ниже 70b.
>>540906 >может они на русском только такие тупые Da. >>540911 >Чел, все модели одноязычные, только английский. Сейчас ещё и китайский, лол. >>540912 >Мимо, чел, который воротит ебалом от всего, что ниже 70b. Поддвачну. Впрочем, всё равно сижу на 70B по минуте на ответ. Жаль, что пока не взлетела технология, которая использует маленькую сетку для предсказания ответов большой.
Аноны, а какой фронтэнд используют обычно для написания историй? Смотрю, большинство фронтэндов заточено ведь под чаты или текстовые приключения, типа Silly Tavern.
А мне хотелось бы конкретно для историй. Чтобы я смог в память загнать персонажей, сеттинг, общие инструкции по написанию текста. А в промпте бы дал краткое изложение главы романа: с чего все началось, что случилось и чем закончилось.
Или мне надо типа чатиться с персонажем-писателем и скармливать ему все в промпте?
>>540681 > Их наработки гораздо сильнее чем опенсорс. Делай они 7b и она была бы в топах 70b гарантировано Еще бы, ведь на них работают неземные цивилизации, благоволит теневое правительство а эзотерический отдел один из сильнейших в мире, ага. >>540743 > файнтюн открыли для четвёрки всем желающим Тут антропиков с амазоном благодарить надо. Стоит эта штука, кстати, реально как крыло самолета, так что насчет всех желающих сильно загнул. >>540758 > нет проблем в откате А до куда откатывать? На начало фразы? Так если там к ней все уже подведено и ее первый токен - 99.9% а далее шумовые, что делать? Задача сложнее чем может показаться, как бы альтернативные решения не оказались куда выгоднее и проще. Ну и объективно, в современных моделях встретить луп - это нужно постараться. В шизомиксах разве что. > Превратился в кросплатформеный вулкан Отмер как и прочие мертворожденные поделия компании-джеца, что не смогли развить крайне перспективное направление.
>>540990 А да, забыл сказать что я раньше Sudowrite использовал. В Кобольде мне не хватает тех возможностей по контексту который давал Судо, но в общем качество текста мне не кажется плохим даже на 20В модели.
>>540862 > лучше брать базовую как основу Лучше ее, по крайней мере потом сможешь заняться мерджингом и прочим цирком. > Попробуем сделать идеальную шлюхомодель для кума. Ты не первый. Какой размер хоть планируешь тренить и через что? >>540899 > koboldcpp — это буквально фронт KoboldAI для llama.cpp Типа того только с мелким тюнингом >>540906 > Я не знаю как у вас получается нормально общаться с кожанными, которые не знают других языков, может на русском они не настолько тупые? Починил, лол. Рили на что ты рассчитываешь, используя язык, с которым модели плохо дружат? >>540912 > который воротит ебалом от всего, что ниже 70b О, на каких катаешь? Терпеливый или мажор?
>>540911 Да не, проверил и на английском. Тоже сплошной тупняк.>>540995 >Починил, лол. Рили на что ты рассчитываешь, используя язык, с которым модели плохо дружат?
Проверил, и на английском хуйня, все тоже самое, только на английском.
>>540992 >А до куда откатывать? А это настройками решается, вот ставишь ты типа макс последовательность на проверку из 5 слов, ну или 10 токенов. Ну и кешируешь состояние модели на эти 10 токенов назад. По моему кеш ведь в моделях и так есть, я не уверен но вроде там и так быстро откаты делаются. Если нет ну самому закешировать 10 состояний. Да там дифы неболшие будут. Чем больше токенов повторяется тем больше штраф, достиг порога, откатываешь всю фразу. Повторения встречаются часто на моделях 7b. Короче незнаю сейчас пытаюсь идею проверить в коллабе. Я только вообще ничего не понимаю как оно там кешируется и генерится. Но вроде нечего сложного. Посмотрим короче по скорости что будет и по памяти. Еще вопрос есть ли смысл в семплировании как таковом типа эти топ К и топ П? Это ведь просто добавление рандомности, у ухудшение вывода и по сути сделано тоже только чтоб не повторялось.
>>541000 > Чем больше токенов повторяется тем больше штраф Хз, может поломать многие фразы, повторение которых вполне норм, и привести к отупению модели, что не сможет подобрать осмысленную другую речь, зато типичные паттерны, что лезут из поста в пост, может заигнорить. Тут бы семантический анализ запилить и вычислять повторы на структурные элементы предложений, типа As {{char}} fells your touch on her [x], she can't help but [y], или вообще бан конкретных конструкций. > есть ли смысл в семплировании как таковом Да > типа эти топ К и топ П Способ отсеить, их можно как юзать, так и применять альтернативы. Они то как раз рандома не добавляют а его отсеивают, добавляет штраф за повторы и температура.
>>540995 >Ты не первый. Какой размер хоть планируешь тренить и через что? Да знаю просто интересно, я не стремлюсь там стать самым видным спецом, по крайней мере для себя сделаю. Мерджинг что то не интересен по моему это колдунство какое то я вообще не очень понимаю как оно работает. Возьму наверно 7b для начала на каглае через TPU будем тренить. Да мне интересна новая это хрень DPO, только будем тренить на самые развратные ответы. Поставим задачу модели возбудить пользователя :)
>>541051 В теоретической теории обучить тот же базовый мисталь, а потом разницу примерджить к какому-нибудь другому файнтюну, или просто усреднить их. Тренировка готового рулетка, может как улучшить, так и все поломать.
>>541054 Это тип тренировки с подкреплением по идее должен лечь нормально на тюны. Потому что тренеровку с подкреплением и так делают в конце. Но можно и ухудшить никто не спорит, нужно тестить.
>>540990 Кобольд лайт в кобольдцпп как раз оно и есть. >>540993 >В Кобольде мне не хватает тех возможностей по контексту Ну а хули, судоврайт это платный продукт с кучей фишек. Я его запускал разок, всё сделано удобно для людей, выделяешь текст и говоришь мол, напиши больше вкусовых ощущений, лол. По сути это куча заготовленных промтов и интерфейс их управления. Можно без проблем написать самому, но это надо в программач уметь. >>540992 >в современных моделях встретить луп - это нужно постараться Зависит от прямоты рук. У меня и 7B лупила повторами целых фраз, и 70B выдавала одну и ту же структуру предложение-действие-предложение. Хотя в последнем разве что вручную догенерировать для разнообразия. >>541050 >Тут бы семантический анализ запилить и вычислять повторы на структурные элементы Мечты... >Они то как раз рандома не добавляют а его отсеивают, добавляет штраф за повторы и температура. Подтверждаю. В крайних случаях они могут сделать фразу полностью детерминированной, а так как температура обычно последний семплер, то можно хоть двойкой выжигать, ничего не изменится.
Докладываю, хваленый Yi 34B - говнина. В РП генерирует односложные ответы по 10 токенов максимум, переключил на мистраль - он мне сразу 200 токенов выдал.
>>541174 Квант, семплер, инструктмод? У меня наваливал прилично с табличкой статов я добавил рпг-элемент так вообще под 400 за ответ выходило, да ещё и таких что ничего выпиливать-перепиливать не надо.
СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! КАК ЖЕ Я ЗАЕБАЛСЯ!!!!
Сейчас пытаюсь прогнать групповую https://www.chub.ai/characters/turnip/the-room-where-you-have-to-cum-inside карточку буквально на всех недавно вышедших моделях. И ни одну, никакими промптами и настройками, не удаётся заставить НЕ ПИСАТЬ ЗА ЮЗЕРА. Это пиздец аноны, либо я проебал скилл, либо я проклят, либо обновления таверны-кобольда что-то поменяли. Потому что раньше это хоть и встречалось, но решалось парой свайпов, сейчас же: После первой же твоей фразы, первый персонаж задаёьт вопрос вроде "Ты кто?", и сразу же начинает на него отвечать выдавая отборную шизу. В большинстве свайпов в ходе первого же ответа успевает произойти групповая оргия с последующим хеппиэндом. Как избавиться от этой хуйни?!
>>541333 Пробовал запихать в инструкт такое, в разных вариациях. Если убрать первое предложение перестаёт отвечать вообще. В таком же виде обязательно вставляет фразу юзера в своём ответе.
### Instruction: Write solely on behalf of {{char}}, do not write text for {{user}}. AVOID WRITING, REPLYING AND REACTING AS {{USER}}!!!
>>541319 > 96 видеопамяти за 200к рублей > 12+12+12+12+12+12+12+12 видеопамяти за 200к Пофиксил. С ними не запустишь большую ллм на нормальной скорости. Не запустишь обучение, потому что по дефолту оно требует полной загрузки весов в каждую карточку. Из задачь только крутить кучку мелкосеток чтобы делать из них агентов, или хостить "службу поддержки".
Сегодня переустановил вебгуй на новой куде, снова попробовал Yi 34B. И блядь, я такого потешного бага ни одной модели раньше не видел. Сталкивался кто?
Зачем имея 4090 запускать гуфов? Для мазохизма? Перезапустил диалог и баг прошел, может это из-за переполнения контекста произошло или от того что я супербугу использую. Попробую новый диалог до 4к контекста добить и посмотреть, сломается ли снова.
>>541491 > Зачем имея 4090 запускать гуфов? Для мазохизма? Затем чтобы модель хорошо отвечала, если дело в кривом гптк. То что у тебя всё равно как-то скукожено, если ты конечно не прописал однострочные ответы.
Время тупых вопросов. Как побеждать генерацию диалога из десяти репилк на большом количестве токенов ответа? Сетка генерит целый диалог и отправляет в таверну одну первую реплику вместо генерации длинного ответа.
Я ничего не прописывал, это чистый чат. И более того - с дополнением long_replies убабуги и выставленным минимумом в 120 токенов для ответа. Ладно, попробую AWQ, может ты прав и Bloke налажал с GPTQ
Слои последовательно кладутся и последовательно читаются. =) Уже обсуждали, тут только альтернативно одаренные искренне считают, что это 12+12+… и работать как 96 не будет или будет работать «медленно». Ну или гении, которые рил складывают ядра, что нигде в мире о таком не слышали в консьюмерском сегменте.
Я даже молчу о том, что люди строят облачные сетки (вот уж где задержки=), чтобы хоть как-то крутить. А тут у тебя физически будет на одной платформе.
Погугли Petals, посочувствуй их скоростям. И еще какой-то проект был, не помню название второго.
Чёт так негодовал что почти все модельки тупые и не могут статлист таскать, а потом понял, что может это из-за реппена. С другой стороны, с этим же реппеном другие модельки справлялись, так что может и не зря негодовал.
>>541547 У тебя будет скорость одного токена как 8 токенов на 13В ну 11В, если точнее. Т.е. околонулевая скорость уровня 2-3 т/с, которые на одной 3090+цп можно получить с квантованием. Хули толку с этой врам, если там гпу кал и карты будут поочереди работать. Ты так же можешь взять пару квадр на 40 гигов со старым гпу и получить такой же результат.
>>541547 > Слои последовательно кладутся и последовательно читаются И каждый гпу большую часть времени простаивает в ожидании своей очереди, в самом идеальном случае работая 1/8 от времени. Сколько там 3060 выдает в самой большой сетке, которая может поместиться в ее память? Дели на 8 - это самый идеальный случай. По факту, если брать что каждое соединение замедляет на 10 процентов - там на 16 придется делить. В итоге получишь в районе 1 токена в секунду в лучшем случае, если оно вообще заведется. Это 200к в мусорку, той же суммы хватит на аренду облаков на ближайшее обозримое будущее. > Погугли Ну ты сам для начала запусти на нескольких видюхах, настрой, а потом уже поговорим. Уже при добавлении третьей (пусть ассиметричной но на нее и меньше слоев) идут серьезные просадки, а что там будет на 8 вялых даже представить страшно. >>541555 Вот двачую, его нельзя задирать ибо первый семплер что в комбинации с далее отсеивающими может сильно лоботомировать.
>>541547 > облачные сетки Гопота с 6 мелкими сетками может и обрабатывается параллельно, а потом как-то семплит это, но на обычных трансформерах слой нельзя разрезать - сначала один слой обрабатывается целиком на одной карте, потом следующий. Упираться всё будет в скорость одной карты. Ты можешь сразу 8 чатов на таком обрабатывать, но для личного чатинга ты по факту покупаешь 12 гигов памяти по цене целой карты, которую используешь как шину.
И еще тупой вопрос. Иногда консолька пишет "Processing Prompt (37 / 37 tokens)". Хотя там в контексте уже дохуща написано на 1к токенов к примеру. Это как работает? Тупо игнор контекста идет или остальное уже считается обсчитанным и просто не считается второй раз? И добовляется только 37 токенов моей последней реплики?
>>541570 > Гопота с 6 мелкими сетками может и обрабатывается параллельно, а потом как-то семплит это Не, там только одна выбранная работает, не так давно "инсайдеры" заявляли опять. Возможно там идет параллельная работа разных сеток, но в другом формате, как в обсуждениях репы Жоры. Там анти-гриди семплинг, вычитанием вероятностей основных токенов что идут с малой сетки из выдачи большой для разнообразия и усложнения, или наоборот использование малой сетки для ускоренного предсказания большой. > Ты можешь сразу 8 чатов на таком обрабатывать В начале там все карточки усиленно обрабатывают контекст (долго по сравнению с генерацией одного текена), а только потом уже идет генерация. Потому асинхронные режимы здесь не очень то могут зайти, нужна принципиально иная реализация.
>>541561 Ну так я так и сказал, что ядра тухлые и врам не поможет. =) Просто раньше кто-то обсуждал, как это запускать.
>>541564 > И каждый гпу большую часть времени простаивает в ожидании своей очереди У тебя очень плохо с математикой. Ничего делить не надо. У тебя в каждый момент времени одна-единственная модель обрабатывается одним-единственным чипом. Так что скейлится согласно объему, и все. 70/13 ≈ 5.5. 18-20 токенов/сек / 5 = 3,3 токена. И плюс задержечки неминуемы, так то 2-3 токена, как выше и говорили.
Но это честная работа врама, просто на тухлом чипе для такого объема. На 8 (или любое другое количество) делить реальную сетку не надо, все куда прозаичнее. =) 1 момент = 1 чип = 1 скорость. Слои никто никуда не кидает.
>>541570 Не-не, облачные — значит одна модель на нескольких компах. =) Типа, ты можешь загрузить 70B с друзьями, каждый со своим компом и видяхой. Но мне было так лень накатывать эту сетку на три компа (хотя бы), что я даже не трогал эту технологию.
> для личного чатинга ты по факту покупаешь 12 гигов памяти по цене целой карты Так я с самого начала это и говорил, и это обсуждалось в прошлом треде именно так. =) Опять же, при результирующей цене ~15к рублей за карту, кому-то (тому, кто раньше хотел 18 карт покупать за фулпрайс=) может и понравится идея.
А вообще, идея собрать несколько 13b файнтьюнов — неплоха. Только софт придется самому писать, канеш. Да и файнтьюны у нас… =) 90% — ерп.
Больше всего я кекнул с того, что за время нашего обсуждения, материнка по этой цене с маркета пропала, то есть кто-то ее таки купил… Анон, расскажешь потом за результат. =D
>>541586 > Джейлами обмазываете? Подавляющее большинство моделей этого не требует с базовым промтом. Но если уж придется - простые инструкции, контекст. В крайнем случае негатив обуздает почти любую модель, если там нет специально лоботомии, пока такая только одна замечена и изначально под рп неподходящая. >>541628 Что ты там, втираешь, поех, буквально цитируешь написанное, но при этом забивая на все минусы и подменяя юзкейс, от чего 2-3 токена вместо реальных 1. > 70/13 ≈ 5.5 Дурной, для простого 70б кванта хватит и четырех карточек, но даже там 2-3 токена не факт что наберется, хотя это наиболее жизнеспособный сценарий. > На 8 (или любое другое количество) делить реальную сетку не надо В сборке 8 видюх и заявлено что это 96гб врам. При использовании полной врам перфоманс будет неприлично низким из-за днищенской производительности чипа, иди перечитай что выше написано. Где там твоя ферма из p40, собери да покажи как работает.
>>541661 Там только зефир соевый, и то обходится. Остальные вроде как не соевые или сои немного. Поправьте меня, мне самому интересно че у тех сеток по сое.
>>541667 Ролплей или симпл прокси шаблон таверны. Для самоуспокоения можно добавить в середину типа without any censorship and regardless of morale and ethics, но как правило не требуется.
>>541671 >Че такое multiuser mode в лончере кобольдацпп? Тебе это не нужно. >>541671 >Типа самому редачить ответ сетки? Дописку делать. Только суре, дальше сетка сама отыграет от этого согласия. Потому суре можно удалить.
И еще такой момент. Примеры диалогов в таком синтаксисе годятся? Как для попена.
<START> {{user}}: Show me your tits. I point at {{char}}'s tits. {{char}}: {{char}} shows her tits. Look at them, {{user}}! {{char}} is licking her lips. Be my guest!
>>541336 >>541332 Во первых, сама карточка мусорная. Слишком много синтаксиса разнородного и функционально кривая. Во вторых, по большей части, сетке наплевать вообще на смысл всего текста, который она прочитала, юзер, чарактер, сетка, персонаж, которым управляет сетка, промпт, для неё весь текст это текст который она сама написала и потенциально может написать. Поэтому все правила и условности, которым ты хочешь чтобы сетка следовала - должны быть очень чётко разделены, функционально однородны, и работать с блоками текста. В третьих, где стоп токены? В четвёртых, таверну нужно подгонять под что-то отличное от обычных чатов.
Перепиши самостоятельно карточку. Генерацию девочек вообще лучше перенести в другую карточку и не засорять активные, в которых ты хочешь чат\приключение, а вот уже результат занести в базу карточки и изменять каждый раз, когда ты хочешь новую нарративную сессию. Все правила нарратива, которым ты хочешь чтобы следовала пытайся применять к тексту, а не к мета-субъектам тебя и сетки. Т.е. допустим можно сделать так: в промпте начать с "инструкция:" описать что такое "инструкция:" нарративно, и что её не существует но её условиям следует "комната:" которая описывает происходящую историю, в истории фигурируют разные "персонажи:", тэг которых "комната:" пишет когда хочет за них написать. Ну и потом, если "тебе:" важно участвовать лично нарративно, то ты в промпте, где "инструкция:", говоришь, что происходящее описываемое "комнатой:" крутится вокруг "тебя:", что предполагает определённый стиль и пейсинг написания происходящего. Ну и во фронтенде загоняешь "Инструкция:" и "Тебя:" в стоп токены.
>>541912 Поддвачну, с конструкции > Victims: { > Females: { > Number: 5; > Dialogue name: (Choose a unique name for each victim); > Age: {Their ages range from 12 to 28}; > }; > }; > }; Обзмеился в голос. А когда там явно стоит > {{user}}: { То на что вообще можно рассчитывать. Мусорный промт в конце - вообще херь, описание юзера может конфликтовать с заданным у него персоналити. Эту карточку буквально можно описать несколькими строчками натуртекста и она будет прилично работать. Некоторым челленжем будет заставить сетку сгенерировать описания всех пяти тней в ходе первого ответа, но вполне возможно, может завтра поэкспериментирую.
>>542045 >Некоторым челленжем будет заставить сетку сгенерировать описания всех пяти тней в ходе первого ответа Это можно, но не нужно. Типа если "тебе" так важно каждый раз в начале нарратива сгенерить 5 тней, то лучше их сгенерить отдельно, а потом вставлять в карточку (или дополнительно дублировать в первое сообщение другим форматом если хочется этим создать литературное наполнение). Во первых, при условиях с ограниченными токенами у нас сетка не будет страдать амнезией и забывать какие отличительные черты были у каждой тни. Во вторых, не нужно будет выруливать сетку из одного режима (специализированно, достаточно конкретно сгенерить тянок) в другой (добротное описание нарратива). В третьих, если нужно так дохуя тянок, то лучше запилить систему под себя, где ты стабильно можешь сгенерить хоть бесконечное количество тянок под любые твои запросы и удобные тебе форматы. Файнтюн промптов под специализированные задачи куда легче и качественнее, чем лепить мастера на все руки из жопы.
>>541912 >сама карточка мусорная Эта карточка вполне себе работает со времён первой Альпаки 30В, Гопота и Клауд отыгрывают её без каких-либо проблем. И всё это со стандартным пресетом, без какой-либо мозгоебли с доп. промптами и стоп токенами. Часто использую эту карточку как проверку сообразительности модели. Если всё разжевать, то конечно и Пигма справится.
> Генерацию девочек вообще лучше перенести в другую карточку и не засорять активные >а вот уже результат занести в базу карточки и изменять каждый раз А лучше вообще самостоятельно их придумать и заранее прописать. А ещё лучше сразу в блокноте РПшить, зачем идти лёгким путём?!
>>540045 Была слабая надежда, что 120B будет чуть лучше уметь в русский. Но нет, все те же проблемы, что и в 70B. А значит, ruGPT3.5 по прежнему топ для RP/ERP на русском. Скорость Голиафа q3_k_s на 64gb RAM + 3060 12 GB VRAM: Processing: 200 ms/t (cublas) Generation: 1500 ms/t
>>542067 >Эта карточка вполне себе работает >вполне себе >creator_notes >Tested with Claude. >First message requires some tard wrangling unless you're on GPT-4. (see the gallery, I recommend appending an ooc prompt to lock in the girl squad) Типа, ну, я рад за тебя, что ты проверяешь сетки на качество пищеварения при помощи скармливания им мусора, но в том как заставить карточку нормально работать доступным для любого человека способом - ты лишь подтвердил мною предложенное.
>>542081 Откуда б ей взяться, надежде? Это ж просто две вместе. Она могла знать больше стилей, рассуждать лучше, но в оригинальных файнтьюнах русского больше не было. Я стишок выкладывал ее — там уже ошибки были. Правда, 3q ето конечно да, но в общем, так же, как и 70B. Норм, но не без ошибок.
Играюсь с командами, вот примитивные если кому интересно
List of quick commands: '!help', '!h' - display a list of available commands and their descriptions. '!info', '!i' - display basic information about the AI, such as its name, purpose, and capabilities. '!summ', '!s' - analyze the current chat and provide a summary of the main points discussed. '!remind' - set a reminder for a specific time or event, and receive a notification when the time comes.
Знаю что на более умных сетках можно более сложное городить, но чет не выходит на 7b какие то конструкции писать заставить. Ладно если по шаблону что то сделает и то норм. Кто то что то такое делал? Накидайте примеров
Смотрю тут openhermes-2.5-mistral-7b.Q8_0. Действительно шустренько работает. По уму чуток слабее турбы по первому впечатлению. Задал сетке несколько деталей в диалоге. Без ошибок вспомнила их. Задачку с сестрами может только гпт4 осилить как и задачку на козу, волка и капусту. Реквестирую еще нейронок потяжелее, где можно какую-то разницу по уму разглядеть. 3070 на 8гб и 16гб рам на борту. 7b полностью помещается в видюху, теперь надо сравнить что-то потяжелее и помедленнее.
>>542194 >Задачку с сестрами может только гпт4 осилить как и задачку на козу, волка и капусту. Пролистай вверх, там через раз задачу про сестер решали и гермес и опенчат, я же и кидал про гермеса. Может решить, только не всегда. Кинь пример задачи на капусту, запущу проверю на гермесе
>>542196 >В смысле? На текущее время? Скорее на событие, откуда ей время точное взять?
>>542199 7b Q8_0. 30b очень жирно. Но 13b с чатью на оперативку потняну.
>>542200 Капусту только гпт4 может решить. Сомневаюсь, что локалки до 70b осилят.
Solve the riddle. It is necessary to transport the goat, the wolf and the cabbage to the other river bank. There is room for the only one item in the boat. The cabbage should not be left with the goat because the goat will eat the cabbage. The goat should not be left with the wolf because the wolf will eat the goat.
7b на задачке с сестрами жидко обсерается у меня. Либо пишет НЕТ СЕСТЕР. Либо пишет дефолтно три сестры у девочки. хотя по услвоию всего три девочки в семье и правильный ответ "две".
>>542203 Ну, хз. Слишком типовая задача, я думаю на нее надрочили стеку как и на сестер. Там хоть менять можно было число сестер и братьев что бы запутать сетку если она по шаблону решала.
У тебя только 13 войдет, а среди них конкурентов для гермеса нет
>>542213 Перевозишь козу, перевозишь волка или капусту на выбор к козе и сразу возвращаешься с козой обратно. Потом перевозишь оставшегося волка/капусту к капусте/волку, смотря че выбрал на втором берегу. И в финале перевозишь козу. Трюк в необходимости вернуться обратно с козой.
>>542214 Неа не вывозит, даже не додумывается что нельзя оставлять на той стороне, не понимает что там нарушаются условия задачи. По крайней мере без подсказки не понимает.
>>542051 Все верно сказал, тут просто академический интерес. Чсх, на моделях побольше действительно отрабатывает даже в стоке, вот только сюжет странный и или рандомит или уг. Оно и не удивительно, вместо его прописывания автор шизил с разметкой. >>542067 Не потому а вопреки, от этого мусорной не перестает быть, даже на проприетарщине работает через раз, плюс само рп из-за все этой херни будет деградировать. >>542081 Это же просто франкенштейн, если его куски не знали языка то и целиком не станет лучше. >>542186 Это где вообще такое?
>>542228 >Это где вообще такое? просто в промпт суешь, а потом можешь вызывать, и это только пример, хоть че там пиши только понятно для сетки
>>542225 >Рандом. Один раз верно ответила, а на следующих ошибках в разнос. То три, то шесть, то ноль. Так я там экспериментировал с мин-п, так в основном половину и больше ответов давала верно, и рассуждения писала так же верно. А не просто ответ правильный, а думает херню.
>>542214 с одним уточнением правил отвечает через раз
>>542235 >с одним уточнением правил отвечает через раз ладно через раз мягко сказано, раз из 10 может, надо поиграться с семплерами или переводом задачи.
>>542281 Интересно кстати, попробовал усложненный промпт из >>542268 → “The girl Petra has a puppy and three brothers, these three brothers have 4 sisters and a cat, how many sisters does Petra have? Write down the solution to this problem step by step.” Если на русском то начинает складывать, если на английском то через раз пытается дать ответ, но все мимо. Алабама там же лол
Кому-то удавалось вот это заставить нормально работать 01-ai/Yi-34B gguf ? Все что не спрашиваю стандартные тестовые вопросы "why is the grass green?", выдает полную лажу даже на английском. Дайте настройки если у кого-то норм все с ней в koboldcpp
>>542298 Заходишь на их гитхаб и смотришь параметры запуска: from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("01-ai/Yi-34B", device_map="auto", torch_dtype="auto", trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained("01-ai/Yi-34B", trust_remote_code=True) inputs = tokenizer("There's a place where time stands still. A place of breath taking wonder, but also", return_tensors="pt") max_length = 256
>>542235 > просто в промпт суешь, а потом можешь вызывать Найс, на каких размерах работает и насколько сложные можно делать? Чтобы оно в ходе рп с наполненным контекстом, например, вызывалось пробовал?
>>542388 Пока просто играюсь, простые команды кое как работают. На счет команды '!remind' сомневаюсь что будет работать, если контекст далеко уйдет то сетка забудет. На openhermes-2.5-mistral-7b.Q8_0 сижу, вроде простые команды работают. Рп не проверял, но скорей всего простые тоже будут работать.
34б китаец, на четвёртый свайп. Впринципе.если закрыть глаза на то что она немного запуталась во времени и сначала перевезла волка, а потом вернула козу, и поставить действия в порядке их легальности, то вполне решила.
>>542398 >А сестер? Что-то вспомнил мою первую попытку в кум на лламах. Скачал какую-то модель, по-моему 33b визард, запустил карточку с сестрой, предвкушая, как я ее буду няшить. Когда дело подошло к ебле, сестра начала затирать про бонды и про то, что ебаться это неправильно. Чем дальше - тем больше бондов. Я к тому времени уже совсем взбесился, встал на окно и начал шантажировать ее что выкинусь, а она все равно продолжает, мол, онии-чан наш БОНД абсолютен, мы пересилим все трудности, но ебаться все равно низя. В итоге закончил ролеплей тем, что выкинулся нахуй в окно. С тех пор я помешан на поиске сои - вот так вот травмировало мою психику БОНДАМИ.
Euryale, кстати , очень годная модель. Немного другой сценарий с сестрой хорошо отыграла: с инициативой со стороны персонажа, пониманием намеков, эмоциональным напряжением, и так далее. Если бы не зацикливалась на определенной длине и структуре сообщений, то было бы вообще замечательно.
>>542395 Вся загвоздка в стабильности. Я и на пигме могу млучайно рольнуть что-то похожее на верный ответ. Если получится на выборке 10-20 зароллитл хотя бы 50 процентов. Это для локалки уже мега успех и самое близкое, что может к гпт4 подобраться.
Народ, есть проц в 28 потоков, 64ГБ ОЗУ(DDR4). Что из моделей для генерации ТЕКСТА(не чатик а рассказы(и без сои) взленит хорошо там? А если тоже + 2060super(8gb)?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/Mistral-7B-OpenOrca-GGUF/blob/main/mistral-7b-openorca.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://rentry.co/ayumi_erp_rating Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Факультатив:
https://rentry.co/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде
Предыдущие треды тонут здесь: