24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №25 /llama/

 Аноним 05/11/23 Вск 22:59:58 #1 №536577 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/Mistral-7B-OpenOrca-GGUF/blob/main/mistral-7b-openorca.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://rentry.co/ayumi_erp_rating Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Факультатив:
https://rentry.co/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>532918 (OP)
>>527069 (OP)
Аноним 05/11/23 Вск 23:10:21 #2 №536588 
>>536575 →
> все же на CPU генерировать хоть и медленнее, но доступнее для простого хоббиста
Нууу, понимаешь, смотря для чего. Для рп нужно чтобы скорость генерации хотябы была не сильно медленнее раслабленного чтения, иначе весь экспириенс и атмосфера руинятся на постоянные отвлечения. Реалтайм и минутные ожидания - разница радикальна.
Просто попробовать потестить, или может какие вопросы задавать типа ассистенту - цп хватит, но тоже не фонтан.
Поэтому вкладываться в заведомо провальное действо это безумие.
Офк если пекарня хуевая в принципе то ее апгрейд должен быть первым приоритетом и похуй на этих ллам, а вот если речь про покупку для запуска ллм - тут только видеоускорители. Или мак, если есть для чего еще его применить и ничего остального из ии не нужно.
> Поставить какую-нибудь затычку пусть даже с 4Gb памяти, 3050 вроде дешево стоит.
Кто-нибудь вообще тестил ускорение обработки контекста нищекартами? Сдается что там будет на сотни-тысячи т/с а в лучшем случае пара десятков.
> если вдруг актуальны станут 100В+ модели
Да не станут быстро и внезапно, сейчас вообще может быть ебать какой застой на месяцы. Даже 70 нельзя назвать "актуальными" ибо про их запуск больше фантазий чем дела, сейчас тренд на 13-20б. И если вдруг они появятся - ты не сможешь их юзать из-за ожидания в несколько минут.
> купить вдвое большие ддр5 планки
Их нет
Аноним 05/11/23 Вск 23:14:48 #3 №536591 
>>536588
Поправочка, если ты работяга и пека нужна не только в ллм, то йоба система с 8+ каналами ддр5 уже будет таки хорошим годным выбором, но там уже цены совсем другие.
Аноним 05/11/23 Вск 23:15:53 #4 №536592 
>>536588
>> купить вдвое большие ддр5 планки
>Их нет
В 1,5 вполне себе в продаже не сильно дороже. Я вот даун не взял, повёлся на меньшие тайминги.
Аноним 05/11/23 Вск 23:21:00 #5 №536598 
>>536576 →
Как у тебя 7600 с нормальными процом будет выдавать менее 1 в секунду если у меня сраная, старая 1050ти с дохлым 1200f с ОЗУ ддр 4 3200 герц на 70b выдает чуть больше токена.
Аноним 05/11/23 Вск 23:27:59 #6 №536606 
>>536598
12100f* 64gb озу
Аноним 05/11/23 Вск 23:32:34 #7 №536610 
>>536592
Да не, скоростные стоят как крыло самолета, тогда как 32гоговые уже дешман.
>>536598
> 7600
Если она окажется сравнима с 1050ти по обработке контекста и скорости слоев на ней с учетом всех амд приколов - не удивлюсь. Нашел что выбирать, в 8 гигов выгрузишь хуй да нихуя и с 4 гигами на общем фоне разница будет мала.
> на 70b выдает чуть больше токена
Квант уточняй, на нормальном и чисто на проце выглядит довольно оптимистично. Но даже будет 1.5-2.5 т/с что на нормальном контексте достигается у топ йоб с одной 4090, сути не изменит. Все также дохуя вложений а выхлопа - нихуя.
Аноним 05/11/23 Вск 23:36:31 #8 №536616 
>>536588
>Кто-нибудь вообще тестил ускорение обработки контекста нищекартами?
Смотри
>>536598
Около одного токена в секунду мне как раз и надо.
Пойду короче обдумывать сборку с ддр5 или даже ддр4 памятью и нищей видокартой.
Всякие Теслы и Р40 сыкотно брать, а на что-то серьезнее бабок нет.
Аноним 05/11/23 Вск 23:37:53 #9 №536619 
>>536598
>1200f с ОЗУ ддр 4 3200 герц на 70b выдает чуть больше токена
Стоп. ЭТО ДРУГОЕ!!!!
Кэширование лама.цпп. Ты лучше расскажи сколько токенов выдаёт 70b при первом запросе.
Аноним 05/11/23 Вск 23:38:53 #10 №536622 
>>536577 (OP)
>Активируем Instruct Mode
А нахуя?
Аноним 05/11/23 Вск 23:39:15 #11 №536624 
>>536616
> Около одного токена в секунду мне как раз и надо.
Около одного т/с без контекста может превратиться с 0.15 с 8к, офк речь про полную обработку а не кеширование состояния.
Аноним 05/11/23 Вск 23:41:54 #12 №536629 
>>536610
Какие кванты, друг? Я писал в прошлом тренде одному Антону что просто запускаю ярлык на рабочем столе и у меня всё работает, мне эти кванты ничего не говорят. Правда я конечно редко пользуюсь 70b. В основном 20b или мистраль. Разговаривать с вайфочкой на 4к контекста достаточно. Да я говноед не спорю, но мне вкусно
Аноним 05/11/23 Вск 23:42:21 #13 №536630 
>>536616
>Всякие Теслы и Р40 сыкотно брать
А придётся. Всё-равно всё остальное стоит как автомобиль.
Аноним 05/11/23 Вск 23:46:10 #14 №536636 
>>536619
Запуск долгий не спорю. Но Фарадей держит скорость токенов на одном уровне пока у тебя не забьёт всю ОЗУ. Я вытерпел около 3.5к токенов пока болтал с персонажем, занято было больше 50гиг, а свободно около 7.
Аноним 05/11/23 Вск 23:46:45 #15 №536638 
>>536622
Потому что модели тренировали на формате с инструкциями, и с ним они выдают лучший результат.
>>536636
>Я вытерпел около 3.5к токенов
СМЕШНО.
Аноним 05/11/23 Вск 23:49:28 #16 №536639 
>>536575 →
>У него такая пекарня хоть год проработает?
Кто знает. Я вообще не верю в свидетелей выгорания видеокарт. Сервера без проблем годами пашут 24/7. Если за все это время не сдохла, то скорее всего и дальше будет работать без проблем. Поддержка софтом - другой вопрос, но P40 не настолько старые. Сам Герганов писал, что это норм вариант.
>>536576 →
>и пока засматриваешься на перспективы проебываешь то что есть сейчас
Я проебываю разве что скорость. Последнюю неделю (или уже больше?) кумил нон-стоп на Euryale. Ответ генерится в среднем минуту. Медленно, но не то чтобы невыносимо медленно. В принципе могу перейти на Q2, на котором ответ генерится быстрее, чем я расслабленно читаю, но мне и так норм. Больше раздражает не скорость, а другие типовые проблемы лламы.

Сама модель просто огонь. Однозначно лучше mythospice-limarp. Автор, кстати, написал, что в версии 1.3 нет соевых instruct моделей с шизопромптами, и есть его лора тренированная на логах с прокси, включая NSFL контент. Скоро подкатит версию 1.4.
>С учетом что торгуется у нас эта железка сравнимо уже с парой a6000 или 80гиговой теслой - ну не, плюс других юзкейсов нет и беда с ликвидностью.
Пиздец, это в России такая наценка? У меня этот мак в минимальной комплектации стоит лишь немногим дороже, чем одна A6000 (5600 против 4400). По производительности, естественно, медленнее, но мне хватит и 5t/s. Главное чтобы можно было гонять модели побольше. Вот выйдет ллама на 180b, которая по мозгам как GPT-4, и 48-72GB видеопамяти сразу отыквятся.
>>536624
>офк речь про полную обработку а не кеширование состояния.
Пофиг же. Пока контекст не заполнился ее не будет, а потом можно просто обрезать половину чата и кумить дальше.
Аноним 05/11/23 Вск 23:53:20 #17 №536644 
>>536639
>Сервера без проблем годами пашут 24/7
И у них постоянно отъёбывает память. Сначала ECC error, через какое-то время кернел паник или синий экран.
Так вот, важнейший вопрос: в каком состоянии память у этих старых видеокарт?
Аноним 06/11/23 Пнд 00:04:53 #18 №536657 
>>536629
То что ты не знаешь/вникаешь что там не делает магии. Офк добавить в шапку в качестве средства для совсем хлебушков можно, но это путь потенциально сильно хуже чем могло бы быть. Представь что твоя вайфочка вдруг резко поумнела и начала давать ответы быстрее.
>>536639
> Ответ генерится в среднем минуту.
А размер какой? Для 500 токенов это более чем норм, а если 50 то печально. Но всеравно завидую тебе, вернуться бы во времена когда поломанный хронос 13б с 2к контекста такую neuron activation давал, эх.
> мак в минимальной комплектации
Уже не сможет запускать что-то большое ибо памяти 64гига в младшей комплектации, гораздо медленнее в llm, какое-либо обучение или прочие нейронки под вопросом. Зачем, делать заведомо хуевый выбор?
Здесь его официально не завозят и спроса нет, потому у барыг большие наценки. С видеокартами гораздо проще.
> Главное чтобы можно было гонять модели побольше
Потенциал, который никогда не будет использован. Хозяин барин, кому-то манямир осознание возможности греет душу больше чем основной экспириенс.
> Пофиг же. Пока контекст не заполнился ее не будет
Нет не пофиг. Инстракт режим - не доступен, ибо там инструкция идет после описания полной истории чата и каждый раз промт будет новый. Свайпы - недоступны, ибо активации уже новые после данного ответа. Если Жора не пришил там какое-то божественное кэширование на все это, что врядли. Не используется огромный пласт потенциала нейронки и нет возможности чего-то изменить, это не юзабельно.
>>536644
> И у них постоянно отъёбывает память. Сначала ECC error, через какое-то время кернел паник или синий экран.
О как, а мужики и не знали.
> синий экран
> Сервера
обзмеился
Про проблемы с памятью на видюхах вообще верно, но на серверных как правило все норм за счет хороших режимов работы. На той же A6000 обычная gddr6 без X, и намека на перегрев нет.
Аноним 06/11/23 Пнд 00:11:53 #19 №536665 
>>536657
>потенциально сильно хуже.
Я понимаю что это. Но суть в простоте и доступности, не надо ничего придумывать и исследовать.
Аноним 06/11/23 Пнд 00:16:13 #20 №536667 
>>536665
Справедливо, с этим пердолингом и гонкой за мелочами уже забыли как индожить.
Аноним 06/11/23 Пнд 00:17:33 #21 №536668 
>>536657
>> синий экран
>> Сервера
Не змейся так жёстко, в крупных госшарагах AD всё ещё жив.
Аноним 06/11/23 Пнд 00:40:36 #22 №536687 
1.png
2.png
>>536657
>А размер какой? Для 500 токенов это более чем норм, а если 50 то печально.
Токенов 150-200 где-то. Секунд 5-8 обработка, а дальше под 3 токена в секунду генерация. Это Q4 K M. Еще грамматика немного понижает производительность, но я без нее никак.
>Уже не сможет запускать что-то большое ибо памяти 64гига в младшей комплектации
Я про минималку с 192 памяти. Без излишеств вроде более мощного процессора или ссд. Сейчас он не нужен, это да, но если появится годная 180b модель - может стать разумным выбором. По мне лучше 5 токенов в секунду при хорошем кванте нормальной модели чем 20 при более мелкой модели и/или ужатой до предела.
>Инстракт режим - не доступен, ибо там инструкция идет после описания полной истории чата и каждый раз промт будет новый.
Инструкция и последнее сообщение - да, но вся остальная история чата не будет обрабатываться заново. Как я написал, это добавляет какое-то количество секунд, но в целом не критично (если ты не накидал в инструкцию 1000+ токенов).
>Свайпы - недоступны, ибо активации уже новые после данного ответа.
Свайпы как раз вообще моментально работают. Ничего не обрабатывается. Ты же не про полный контекст говоришь?
Аноним 06/11/23 Пнд 00:49:06 #23 №536698 
>>536687
> Без излишеств вроде более мощного процессора
Он там кстати как-то влияет?
> если появится годная 180b модель
Если бы у бабушки были яйца, понимаешь. Даже если свершится чудо и сеть попадет качественный слив жпт/клод - можно продать одно и купить другое чтобы катать сразу не дожидаясь обработок дистилляций и прочего. Ключевой момент что в одном случае ты можешь сразу пользоваться и имеешь кучу возможностей, а в другой ждешь и ограничен.
> Как я написал, это добавляет какое-то количество секунд
Скинь что там в консоле выдает при этом, Жора большой молодец что выдал детализацию.
> Ты же не про полный контекст говоришь?
И так и так, нюансы смартконтекста не знаю, а когда в свое время тестил - ахуел с того насколько это пиздец.
Аноним 06/11/23 Пнд 01:03:50 #24 №536710 
gen.png
>>536698
>Он там кстати как-то влияет?
Влияет если память достаточно быстрая. Какой конкретно должен быть баланс я не знаю - надо тестировать.
>Скинь что там в консоле выдает при этом, Жора большой молодец что выдал детализацию.
Пикрил - четвертое сообщение в новом чате. Обработка только предыдущего сообщения и инструкции.
>И так и так, нюансы смартконтекста не знаю, а когда в свое время тестил - ахуел с того насколько это пиздец.
Я им вообще не пользуюсь, а обрезаю историю чата сам. Специально ради этого наговнокодил поле, куда можно вбить номер сообщения, по которому обрезается контекст.
Аноним 06/11/23 Пнд 01:09:45 #25 №536715 
>>536710
> Какой конкретно должен быть баланс я не знаю
Тут конкретно про перфоманс мак-студио в ллм с разными процами. Маловато данных публичных.
> Пикрил
И на свайпе аналогично? Если так то это прям большой прогресс, раньше оно могло вообще с ничего на чат режиме решить полный контекст переобработать. С ростом размера обрабатываемого контекста или если весь пустить скорость его обработки (~50т/с) падает или остается?
Аноним 06/11/23 Пнд 01:10:42 #26 №536717 
В чем разница между V2 и Tavern картами и какую экспортирует SillyTavern если дать ей ссылку на chub?
Аноним 06/11/23 Пнд 01:22:31 #27 №536723 
>>536715
>И на свайпе аналогично?
На свайпе такая же скорость генерации, а время обработки промпта ноль, поскольку обрабатывать больше нечего.

Обработка заново еще может быть из-за всяких author's note на большой глубине. Вставишь на глубину 10 - будет обрабатывать последние десять сообщений, поскольку лламацпп кеширует по префиксу. У меня же промпт не меняется, а инструкции находятся на глубине 1.
>С ростом размера обрабатываемого контекста или если весь пустить скорость его обработки (~50т/с) падает или остается?
Если достаточно видеопамяти, то остается, растет только объем. У меня же память немного перегружена слоями, поэтому чуть-чуть падает. Если запихнуть еще 1-2 слоя, то упадет уже в разы - специально так подбирал. Скорость генерации зависит от общего контекста и падает на 10% при заполнении.
Аноним 06/11/23 Пнд 01:32:11 #28 №536727 
>>536717
V2 может содержать в себе систем промпт и джейл и он оверайдит те что в самой таверне. Но это не для локалок.
Аноним 06/11/23 Пнд 03:17:06 #29 №536756 
https://www.reddit.com/r/LocalLLaMA/comments/17o6ez6/a_few_more_new_mistral_models_autolycusmistral7b/
Аноним 06/11/23 Пнд 03:21:30 #30 №536757 
че шапку не поменял, там можно было гермеса написать вместо орки, он умнее, особенно 2.5. Ну или опенчат
Аноним 06/11/23 Пнд 03:32:46 #31 №536762 
Подскажите, какую модель взять для ролевой эротики?

Как я понял, они только на английском отвечают?
Аноним 06/11/23 Пнд 03:34:37 #32 №536764 
>>536762
На русском тоже могут, но сухо отвечают, не красочно. Ну попробуй вот это из самого топового сейчас, как оно в ерп не знаю
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF
Аноним 06/11/23 Пнд 03:49:57 #33 №536768 
>>536764
Именно опенгермес не пробовал, но мистраль клодчат и опенорка оче разочаровали, как интеллектом так и ерп. Лучше уж опенчат 3.5 качни.
Аноним 06/11/23 Пнд 03:51:49 #34 №536769 
>>536762
>Подскажите, какую модель взять для ролевой эротики?
Если можешь запустить 70b, то вот эту:
https://huggingface.co/TheBloke/Euryale-1.3-L2-70B-GGUF
Если нет, то вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF
>Как я понял, они только на английском отвечают?
На других умеет но очень, очень плохо.
Аноним 06/11/23 Пнд 03:58:40 #35 №536771 
>>536768
опенчат и новый гермес топчики, каждый лучше любого 13b, кто то пишет что лучше даже 65b но я не запускал так что сравнить не с чем. Лучше 33b из тех что я запускал.
Аноним 06/11/23 Пнд 04:03:09 #36 №536772 
>>536771
У меня опенчат даже один раз с верной аргументацией (почти, 1/4 предложений он высирал хуйню, но при дальнейших рассуждениях игнорировал, на ответ не повлияло) решил загадку про сестёр братьев, и очень часто просто давал верный ответ с чуть кривым ходом мыслей и часто подмечал суть загадки - мол петра одна из сестёр и сёстры на каждого брата одни и те же, так что у меня он топ-1 по интеллекту из тех моделек что тестил.
Аноним 06/11/23 Пнд 04:04:55 #37 №536773 
>>536772
>(почти, 1/4 предложений он высирал хуйню, но при дальнейших рассуждениях игнорировал, на ответ не повлияло)
похоже на загрязнение данных, впрочем сетка действительно кажется умной, но вот такая хуйня подозрительна. Сетка должна быть последовательна в ответах иначе какой то наеб
Аноним 06/11/23 Пнд 04:12:28 #38 №536778 
изображение.png
>>536773
Вот, нашёл ответ. Не так идеально как хотелось бы, конечно, но из всех протестированных сеток это лучшее что было, и частые упоминания 2/сестросовпадений намекают что зайчатки разума таки есть. Остальные бредили про 9, 7, 27, 228 сестёр, меняли петре пол и прочее.
Аноним 06/11/23 Пнд 04:18:36 #39 №536782 
>>536778
Ну зайчатки разума у многих моделей есть. Просто задача больно уж типовая, модель могли научить ее решать. Надо чет другое тестить, что еще не сделали частью датасета.

Вот попробуй

Solve the riddle. At the beginning there were 2 people in the room. Then 3 more people entered the room. After that, 1 person left the room. How many people are left in the room?

Тест простой, но я его сам придумал давным давно, минимальный порог мозгов проверять еще на первых 7b которые не могли решать загадку лол
Аноним 06/11/23 Пнд 04:27:13 #40 №536785 
image.png
>>536778
Скинь текст своей загадки, запущу на гермесе
Аноним 06/11/23 Пнд 04:44:34 #41 №536795 
>>536785
I want you to solve a simple riddle. Petra is a girl. She has three brothers. Each of the brothers has three sisters. How many sisters does Petra have? Give an explanation with your answer, outlining your careful reasoning.
С опенчатом уже завтра повожусь ещё.
Аноним 06/11/23 Пнд 04:52:43 #42 №536801 
>>536717
> и какую экспортирует SillyTavern если дать ей ссылку на chub?
А чё так можно было? Я руками всё копировал...
Аноним 06/11/23 Пнд 04:52:57 #43 №536802 
image.png
>>536795
первый же выстрел
Аноним 06/11/23 Пнд 04:54:02 #44 №536803 
>>536801
>А чё так можно было? Я руками всё копировал...
прям копировал или качал картинки а потом открывал таверной?
Аноним 06/11/23 Пнд 04:54:35 #45 №536804 
>>536803
Блять да...
Аноним 06/11/23 Пнд 04:57:31 #46 №536806 
>>536804
Всмысле, копировал текст из каждого окна в каждое окно и аватарку скачивал и ставил отдельно в таверне.
Аноним 06/11/23 Пнд 05:01:49 #47 №536808 
da84f3c3f3e18a3e71ca925767bdd983.jpg
>>536806
Аноним 06/11/23 Пнд 05:07:45 #48 №536810 
>>536808
В шапку нужна ссылка на гайд по таверне...
Аноним 06/11/23 Пнд 05:15:31 #49 №536814 
image.png
>>536795
Больше чем в половине случаев отвечает правильно, но опять таки не понятно загрязнение данных или просто сетка умная, или все вместе
Аноним 06/11/23 Пнд 05:23:54 #50 №536816 
>>536814
Это всё гермес или уже твой опенчат? Какие значения семплеров?
Аноним 06/11/23 Пнд 05:28:02 #51 №536818 
image.png
image.png
image.png
>>536816
Это всё openhermes-2.5-mistral-7b.Q8_0, в принципе тем и нравится что думает последовательно, а иногда сразу отвечает как в первой загадке что я давал. Выебывается говоря что это простая загадка и дает ответ лол
Аноним 06/11/23 Пнд 05:35:21 #52 №536821 
>>536818
>300 топк
Хуяси, я это с 25-50 тестил.
Аноним 06/11/23 Пнд 05:37:38 #53 №536823 
>>536821
так это ж стандарт, я ниче не менял кроме мин-п, все остальное отрубил кроме температуры и повторов, на сколько я понял
Аноним 06/11/23 Пнд 05:44:02 #54 №536825 
>>536823
Ну, я свои модели на своём рп-семплере тестил, лол. Впрочем у меня и цель была в реалистичных для меня условиях ум моделек потестить. Надо тогда будет опенчат с стандартными значениями перетестить, может тоже чаще будет умное выдавать.
Аноним 06/11/23 Пнд 05:52:53 #55 №536832 
>>536825
Опенчат многословнее, как подобие большой сетки, гермес пишет лаконично, но тоже иногда может завернуть на несколько параграфов.
Но интеллект сравнить труднее чем просто стиль письма посмотреть. Я мало тестил опенчат, 1 раз только запустил потыкать. Но не глупее гермеса на первый взгляд
Аноним 06/11/23 Пнд 06:02:15 #56 №536836 
>>536823
>мин-п,
Кстати, разве 0.5 не дохуя? Я в тредах на гитхабе видел 0.05, лол.
Аноним 06/11/23 Пнд 06:05:07 #57 №536839 
>>536836
хуй знает, пока работает, не понравится поменяю
Аноним 06/11/23 Пнд 06:14:48 #58 №536841 
>>536836
Это проценты отсечения, 0.05 отсекает меньшие 5 процентов от самого большого, у меня 0.5 отсекает все что на половину меньше наиболее вероятного токена, можно хоть до 0.9 тыкнуть я так понимаю
Аноним 06/11/23 Пнд 06:19:35 #59 №536842 
image.png
На мин-п 0.9 уже начинает иногда шизить но все равно дает ответ
Аноним 06/11/23 Пнд 06:30:58 #60 №536850 
image.png
>>536842
>иногда шизить
не шизить, то последовательно выдает правильные ответы, но может и такое завернуть или умножить 6*6 хех
Аноним 06/11/23 Пнд 06:54:50 #61 №536857 
image.png
Да и 0.1 работает ниче так, хз короче
Аноним 06/11/23 Пнд 07:00:55 #62 №536858 
>>536769
>Euryale
А какой промпт/настройки под неё? Стандартный Roleplay подойдет?
Аноним 06/11/23 Пнд 07:05:57 #63 №536860 
изображение.png
>>536858
А ты не очень внимательный.
Аноним 06/11/23 Пнд 07:24:58 #64 №536868 
>>536858
>А какой промпт/настройки под неё? Стандартный Roleplay подойдет?
Вот этот промпт: https://huggingface.co/lemonilia/limarp-llama2-v2

Автор клянется что лимы в этой модели быть не должно, но она почему-то там есть... С настройками экспериментируй сам - тут на вкус.
Аноним 06/11/23 Пнд 07:26:37 #65 №536869 
>>536868
>но она почему-то там есть
Почему так думаешь?
Аноним 06/11/23 Пнд 07:34:27 #66 №536871 
>>536869
>Почему так думаешь?
Продолжает промпт буквально с нуля, следуя формату лимы.
Аноним 06/11/23 Пнд 07:37:05 #67 №536876 
>>536868
А вставлять вот это всё
### Instruction:
Character's Persona: {bot character description}

User's Persona: {user character description}

Scenario: {what happens in the story}

Play the role of Character. You must engage in a roleplaying chat with User below this line. Do not write dialogues and narration for User. Character should respond with messages of medium length.

### Input:
User: {utterance}

### Response:
Character: {utterance}

Куда? В "последнюю выходную последовательность"?
Аноним 06/11/23 Пнд 07:41:27 #68 №536878 
еще обнова кобальда
Аноним 06/11/23 Пнд 07:45:08 #69 №536880 
image.png
>>536876
Анон, ты совсем хлебушек? Там же написано как все настраивать буквально со скриншотами. Это - шаблон. То, как должен выглядеть финальный промпт. Я вообще советую включить логирование в консоль в опциях, нажать F12 и играться с настройками таверны, пока не поймешь, как строится промп.
Аноним 06/11/23 Пнд 08:13:38 #70 №536882 
>>536880
Не совсем,просто сейчас валяюсь с температурой и не особо соображаю.
Получается всё как тут должно быть? https://files.catbox.moe/jvl6g1.png
Аноним 06/11/23 Пнд 08:29:16 #71 №536883 
>>536882
>Получается всё как тут должно быть?
Ну в принципе да. Я правда сам настраивал, и у меня получилось немного по-другому.
Аноним 06/11/23 Пнд 08:35:15 #72 №536885 
>>536878
бля теперь медленнее стало
Аноним 06/11/23 Пнд 08:44:03 #73 №536887 
>>536885
Там же минорная версия обновилась, лол.
Аноним 06/11/23 Пнд 08:53:51 #74 №536894 
>>536887
Не вроде норм, может там мин-п сажает генерацию, на пол секунды-секунду скачет. Максимальная скорость осталась, а вот скачки меня напрягли
Аноним 06/11/23 Пнд 09:34:25 #75 №536905 
Как вам автонастройка слоев в кобальде?
Аноним 06/11/23 Пнд 09:41:12 #76 №536907 
>>536905
Слишком пессимистична. На 12ГБ врама предлагает только 32 слоя для 7B и 4 для 70, притом что я без проблем гружу по 35 и 16 соответственно.
Аноним 06/11/23 Пнд 09:42:33 #77 №536910 
>>536907
ну, там так и написано мол приблизительная для новичков
Аноним 06/11/23 Пнд 12:53:49 #78 №536970 
>>536769
Спасибо!

А есть какой-то сервис, чтобы можно было запустить модель и платить за использование с ценами на уровне api gpt3.5?
Аноним 06/11/23 Пнд 13:31:34 #79 №536993 
Что вы делаете в ситуации, когда модель и 4к контекста на видеокарту влазят полностью, но ещё 4к вылезают? Как обычно все слои в карту льёте, или нужно по-другому действовать?
Аноним 06/11/23 Пнд 13:39:41 #80 №537000 
>>536821
А у меня в таверне 300 даже и не ставится, максимум 100.
Аноним 06/11/23 Пнд 14:45:17 #81 №537022 
изображение.png
изображение.png
изображение.png
изображение.png
>>536782
Опенчат сегодня с бодуна. Это с моим повседневным рп-семплером. С топ-а 0 и топ-к 100 он отвечать отказывался вообще, или несвязное отвечал.
Аноним 06/11/23 Пнд 15:10:00 #82 №537033 
>>537022
Забавно, вроде задача простая
Аноним 06/11/23 Пнд 15:25:29 #83 №537037 
>>536821
>>537000
Это всеравно что выключить его поставив 0, столько вариантов разумных токкенов всеравсно никогда не будет.
>>536868
> но она почему-то там есть
>>536871
> следуя формату лимы
Прям вот 1 в 1 формату ллимы или ты так среагировал на структуру альпака-подобного формата, который заявлен?
>>536993
Квант, который будет влезать полностью. В случае же gguf просто оффлоади меньше слоев, от одного-двух-трех слоев на процессоре сильно не замедлится. Другое дело что если влезает с llamacpp то с экслламой влезет более жирный квант с большим контекстом.
Аноним 06/11/23 Пнд 16:35:52 #84 №537083 
>>536334 →
> А раз даже этого до сих пор не сделали
Нерабочий аргумент.
Я не знаю, логирует ли гугл вашу дрочку, но сам аргумент «если не сделали седня — значит этого нет» полная чушь.
Даже в данном конкретном случае, в начале задайся вопросом — а то, что сделали, сделали зачем? На кой фиг им этот бан-лист? Может быть по классике (как делали все, последние лет 15) — для отмазки? Так а зачем стараться для отмазки? Получится, уже не отмазка.
Так что, логично, что они сделали минимум для отмазки и все. Им нет смысла делать бан-лист сильнее. Это никак не связано с логгированием, это разные действия, имеющие под собой разные причины. И подход может быть разным.
Возможно, им и правда лень, и они ничего не логируют и изучать не планируют.
А может, им очень даже интересно отложить это про запас, и они все логируют и откладывают на будущее.
Или даже изучают.

Мы не можем этого знать, а логически это не выводится никак.
Единственное, что мы знаем, что корпорации твои настоящие фоточки точно логируют и изучают. Делают ли они это с твоим кумом — непонятно. В пользу «за» — их поведение по другим тейкам. В пользу «против» — их лень по другим тейкам.
Так что хз.

>>536452 →
Установил? Простейший? Звучит сложнее кобольда, который скачал и запустил без установок и прочего.

>>536453 →
> Я конечно понимаю что у гугла есть БЕСКОНЕЧНОЕ дисковое пространство, но даже они вряд ли расходуют его настолько не рационально, серьёзно НАХУЯ?!
Если у них там HDD, то это наоборот рационально, потому что удаление файлов освобождает место на диске в случайном месте и следующий записанный файл фрагментируется в несколько пустых пространств, что замедляет чтение, короче, в корпоративных секторах никогда не удаляют файлы на HDD. Это замедлит работу, не имеет смысла.

Плюс, как уже писали, в случае стаблы проще хранить то, что ты вводишь, и seed. Надо будет — сгенерят и проанализируют.
Правда, это требует небольшой доработки, но, повторюсь, мы н ебем, делают они это или нет.

> Но любителей шапочек из фольги не переубедить.
Пока что они ни в чем не ошиблись, и даже самые ебанутые теории заговори (не берем науку и плоскую землю) оказываются верны.
Так что, скорее нормисов не перебуедить.
Десять лет им рассказывали, что Apple чекает их файлы, а они все отмазывались, что такого не может быть.
Потом это оказалось так (три или четыре раза подряд).
Но все еще, никто ваши файлы не трогает, офк.

>>536474 →
Наоборот. Это Кобольд уже настроен за тебя. Выбираешь модель и тыкаешь старт. =)

>>536502 →
> Все доступные модели есть в списке
Хуита.

Остальное — литералли обычная таверна.
Ну, в кобольде вроде картинок нет, хз.

Пойми правильно, я не говорю, что прога — хуйня. Но кобольд выглядит проще, чем «скачал, установил, запустил», так как его устанавливать не надо. А выбирать модель что там, что сям. Скачал файл, и пусть лежит хоть в загрузках, кобольд его подхватит и поедет.

>>536505 →
50% времени берешь с 4090 и еще 50% берешь с P40.
Выигрыш относительно проца с памятью будет, конечно, но не сильно высокий, как я понимаю. Оффлоад лламы может выиграть за счет выбора квантов тех же.
Но чисто теоретически, да, ты можешь запихнуть туда цельную модельку видяшную.
Ну, типа.

>>536511 →
> Тут или водян_очка, или тащить длинным райзером на место где в старых корпусах стояла корзина и крепить вертикально, если длина корпуса позволяет.
Так.
Если ставить вплотняк, то у верхней 4090 еще хотспот и ядро подскачут градусов на 10-15.
Надо ставить водянку или убирать райзером куда-нибудь.
Тогда будет норм.

>>536515 →
> Они дадут 48, этого хватит чтобы крутить почти 5битный exl2 квант с влезающим контекстом 12-16к со скоростями ~13-15т/с
База.

>>536526 →
> На форче кто-то собрал дешевый сервер с тремя P40, получив 6t/s на жирном кванте 70b c 8k контекста.
Сказочная хуйня.
Не, я не утверждаю, что пиздеж. Я ж лично не запускал, че я пиздеть буду.
Но звучит очень подозрительно, канеш.
6 токенов такая некрота вряд ли вытащит на 70B. В 2-3 я бы поверил.
Но, кто знает!
Если рискнешь — сообщишь, какая у тебя будет скорость.

>>536548 →
> АМД
Вот эт единственное меня смущает, братан.

>>536588
> Даже 70 нельзя назвать "актуальными"
Да не, они как раз актуальны вполне.
1. Домашние ассистенты.
2. Мелкие корпораты.
Другое дело, что самой Мета нет выгоды выпускать модели больше, это факт.
Это выгоднее скорее НВидии, чтобы у нее видяшки покупали те же корпораты мелкие.
Но как это стыкуется — я хз, поэтому тоже не стал бы ждать 180б лламу3.
Плюс, тренд-то не только на 13б-20б, это тренд в куме.
Другие делают 7б и 30б — настоящий тренд в меру умные и в меру быстрые модели, или же совсем маленькие и быстрые. Пытаются запилить LLM-вещей. Чтобы твой холодильник обсуждал с твоей микроволновкой, чего бы тебе купить подороже.

>>536629
Возможно твоя вайфочка тупая пиздень, ты просто не общалося с умными, поэтому и не знаешь.
Без иронии — тогда и не пробуй пока что, продолжай тыкать Фарадея. Если тебя устраивает, то все по кайфу, согласись. =)

>>536636
> 50гиг
q4 вестимо

>>536639
> Я вообще не верю в свидетелей выгорания видеокарт
Выгорают, подтверждаю.
Не супер-быстро.
Зависит от везения.
С хорошим охладом и если он будет юзать раз в пару дней — проживет года три.
В душном корпусе и ежедневно — полгодика в районе.

>>536657
> Потенциал, который никогда не будет использован.
Да че ты, может и будет, не стоит прям так рубить с плеча. =) Кто может — пусть перестрахуется лучше, на всякий случай.

———

Про семплеры очень интересно, но так лень думать.
Надо будет поиграться на досуге.
Аноним 06/11/23 Пнд 16:39:04 #85 №537089 
>>536452 →
> фарадея
Проприетарщина же, где в любой момент тебя могут наебать и слить всю твою переписку.
Аноним 06/11/23 Пнд 16:52:33 #86 №537109 
Бля, в днс 3090 по уценке за 65к... Всего-то после замены СО и с косметическими дефектами...
Аноним 06/11/23 Пнд 16:54:18 #87 №537110 
Анон с двумя зионами, ты тут?
Аноним 06/11/23 Пнд 16:56:22 #88 №537112 
>>537083
> Если ставить вплотняк
Ты сначала найди корпус и матплату, которые способны в себя вместить пару 4090, которая сразу сжирает 4 слота. Двуслотовые версии с турбиной можно даже не рассматривать, их не найти и это тихий громкий ужас.
> Надо ставить водянку или убирать райзером куда-нибудь.
О том и речь, погугли примеры билдов под 2 видеокарты, их раньше 3д моделеры собирали.
> 1. Домашние ассистенты.
Где? Хоббисты их мало юзают из-за требований по сравнению с моделями поменьше. А если ты про голосового ассистента чего-то типа умного дома, здесь до имплементации еще далеко и слишком жирно.
> что самой Мета нет выгоды выпускать модели больше, это факт
Ага, сами бахнут свой йоба-жпт с подписками и тарифами.
Аноним 06/11/23 Пнд 17:42:55 #89 №537151 
https://www.reddit.com/r/LocalLLaMA/comments/17p0gut/llm_comparisontest_mistral_7b_updates_openhermes/
Аноним 06/11/23 Пнд 17:45:24 #90 №537159 
>>537151
Заебал с этими шизотестами. Они тестируют только шизанутось автора.
Аноним 06/11/23 Пнд 17:58:47 #91 №537166 
>>537112
Я тока не понял, нахуя ты мне это объясняешь.
Наверное, стоило рассказывать тому челу, кто планировал пихать P40 к 4090? =)
Я сам пока ниче не планирую. Пока есть другие дела, годик подожду 5090, и модельки подтянуться, надеюсь, и по факту посмотрим.
Да и будем честны, к двум 5090 у меня и на корпус, и на водянки деньги найдутся.

>Где? Хоббисты их мало юзают из-за требований по сравнению с моделями поменьше.
Юзаю, полет нормальный, я хз. ¯\_(ツ)_/¯

>А если ты про голосового ассистента чего-то типа умного дома, здесь до имплементации еще далеко и слишком жирно.
Да нет, не далеко, тащемта, там реализации на один плевок.
Но, логично, нужна скорость, поэтому что-то больше 13B смысла не имеет, канеш.
Меня даже Алиса бесит с ее включением света 1 секунду.

> Ага, сами бахнут свой йоба-жпт с подписками и тарифами.
Yep!
Аноним 06/11/23 Пнд 18:31:28 #92 №537198 
Хочу реквизировать одного персонажа для локалки.
https://faraday.dev/hub/character/clnfe4x0y00ycmc151cf4n7dj
Как его впихнуть в Таверну?
А точнее вот этот блок
In the transcript, write everything Scarlet's reply from a third person perspective with dialogue written in quotations.

Assuming any action of User is strictly forbidden.

You are Scarlet. Write Scarlet's reply only.

Be proactive and move the scenes forward by reacting to what User says or does in creative ways that makes sense for the story.
Аноним 06/11/23 Пнд 18:34:14 #93 №537203 
>>537198
А нужно ли? Если очень, то в конец описания персонажа.
Аноним 06/11/23 Пнд 19:03:41 #94 №537240 
>>537159
тебя спросить забыл
Аноним 06/11/23 Пнд 19:38:43 #95 №537259 
Ехидну 13B можно как-то уместить на 3070 8гб? А то на форче ее очень хвалят и она довольно годная, судя по скринам.
Аноним 06/11/23 Пнд 19:58:41 #96 №537274 
>>537198
Это кусок системного промта, можно вообще игнорировать ибо такой вариант не самый популярный, или наоборот поставить именно его.
>>537259
GGUF версию и выгружать часть слоев, хз что по скорости будет но должно быть приемлемо.
Аноним 06/11/23 Пнд 20:11:44 #97 №537288 
image.png
>>537274
Я полагаю, это в каких-то настройках? Помню, летом в кобольде их было побольше. Я так понимаю, мне нужно thread увеличить или что-то в веб интерфейсе кобольда поменять?
Аноним 06/11/23 Пнд 20:15:18 #98 №537291 
>>537288
Cudnn щаблон тебе нужен а не openblas, там и будет число слоев что пойдет на видюху.
Аноним 06/11/23 Пнд 20:20:43 #99 №537300 
>>536970
>А есть какой-то сервис, чтобы можно было запустить модель и платить за использование с ценами на уровне api gpt3.5?
Любое облако где можно арендовать видеокарты. Основной квест - найти то, что можно оплатить из России.
>>537037
>Прям вот 1 в 1 формату ллимы или ты так среагировал на структуру альпака-подобного формата, который заявлен?
1 в 1. Я буквально написал "Caroline's Persona: " и оно продолжило 100% как в лиме, включая "Play the role of".
>>537083
>6 токенов такая некрота вряд ли вытащит на 70B. В 2-3 я бы поверил.
У меня половина модели на процессоре крутится, и то получается больше 3. P40 - это паскаль по чипу и 700GB/s пропускная способность памяти. Вполне верится.
Аноним 06/11/23 Пнд 20:24:07 #100 №537303 
>>537291
Спасибо, а где можно матчасть почитать, сколько слоев в цпу грузить? У меня core i5. Я нашел только один гайд на реддите и там пишут, что нужно вставлять (model vram) - (gpu vram), если я правильно понял. Мне писать в гигабайтах, то есть 5 слоев в цпу?
Аноним 06/11/23 Пнд 20:49:54 #101 №537331 
>>537300
> 1 в 1
Палево лол. Или лима-лора была в составе моделей, которые мерджились.
>>537303
Вроде число слоев пишется, емнип в 13б их что-то около 45, но может и путаю. Подбирай экспериментально по использованию врам и скорости, может кто с 8 гигами подскажет свои значения.
Аноним 06/11/23 Пнд 21:58:52 #102 №537445 
>>537083
>q4 вестимо.
Кэ пять дружочек. Лапдж на 4к контекста. Кэ 4 ещё меньше будет.
Аноним 06/11/23 Пнд 21:59:37 #103 №537446 
>>537445
Лардж*
Аноним 06/11/23 Пнд 23:16:57 #104 №537551 
>>537151
Похуй на тесты-не тесты, но вот эта хуйня прямо интересно выглядит.
https://www.youtube.com/watch?v=pGfswc9lf3Q
Аноним 06/11/23 Пнд 23:49:59 #105 №537589 
>>537331
Почему просто не грузить 100500, чтобы впихнуло сколько впихивается, остальное же всё равно в рам уходит.
Аноним 06/11/23 Пнд 23:54:17 #106 №537592 
Бля, какие модели вообще качать?
Я че то нихуя не пони, вы тут только порнорассказы генерируете что ли? Я хочу че-то общего назначения, типа чатгпт или барда но обязательно с русским языком. Угабугу поставил без проблем, но какие блядь модели ей дать? Попытался gurgutan/ruGPT-13B-4bit, но
File "D:\ProgramFiles\text-generation-webui\installer_files\env\Lib\site-packages\exllama\model.py", line 54, in __init__
self.hidden_size = read_config["hidden_size"]
~~~~~~~~~~~^^^^^^^^^^^^^^^
KeyError: 'hidden_size'

Ошибка не гуглится. OpenBuddy на русском работает только формально, текст не связанный вообще. Когда работал Openassistant то он на русском вполне сносно работал, но я не могу найти их модели хотя вроде они выкладывали куда то. Чо качать то?
Аноним 06/11/23 Пнд 23:58:12 #107 №537595 
16990363650730.png
>>537592
>Я че то нихуя не пони, вы тут только порнорассказы генерируете что ли?
Да.
Аноним 07/11/23 Втр 00:00:48 #108 №537596 
>>537595
>16990363650730.png
Это лицо разработчика, который первый разцензурил лламу2?
Аноним 07/11/23 Втр 00:04:16 #109 №537599 
>>537596
>Это лицо разработчика, который первый разцензурил лламу2?
В базовой лламе2 (не чат) нет цензуры. Цензура появилась из-за долбоебов, которые используют созданные гопотой/клодом не фильтрованные синтетические данные для файнтюнинга моделей.
Аноним 07/11/23 Втр 00:11:46 #110 №537601 
>>537589
У меня запустилось на 8, а на 32 вылетает при запросе
Аноним 07/11/23 Втр 00:13:57 #111 №537602 
image.png
Ладно, поначалу ехидна 13B была неплоха, но потом... Серьезно? Я решил попробовать локалки, потому что меня заебали типичный стиль гпт и соя, а тут мне их пихают в лицо в двойном размере.
Аноним 07/11/23 Втр 00:14:55 #112 №537603 
>>537602
Так приличные локалки это 70b.
Аноним 07/11/23 Втр 00:32:21 #113 №537616 
Товарищ майор записывает.jpg
>>537602
>We might be different ages and sizes
С этого места поподробнее, товарищ подозреваемый.
А вообще, всё это следствие >>537599 , и обычно такой хуйни нет. Сижу на синтии 1,5 70B, никаких боундариесов не встречал.
Аноним 07/11/23 Втр 00:35:42 #114 №537619 
>>537616
>Сижу на синтии 1,5 70B, никаких боундариесов не встречал.
Я как раз про синтию и писал... Петушиная голова залила литры сои.
Аноним 07/11/23 Втр 00:41:38 #115 №537622 
>>537589
Если оно пойдет в рам и будет обрабатываться процессором - это окажется быстрее, чем если будет туда-сюда прыгать по шине между рам и врам и обрабатываться гпу. Особенно если там pcie 3.0.
>>537592
> но обязательно с русским языком
Не завезли особо. Ружпт экслламой просто так не загрузится, нужен autogptq с галочкой не юзать движок экслламы. Опенбадди 13 норм работает со штатным промтом, но не сказать что умен и красочен в описаниях и соя. Сайга - можешь скачать попробовать но по отзывам трешак. Опенорка-мистраль кажется кто-то хвалил в русском еще.
> порнорассказы генерируете что ли
В том числе
>>537602
Эх бонды бонды. Свайпни или добавь в забаненные токены.
>>537619
Соевичку только и дай сою поискать, 1.5 в этом отношении в отношении отсутствия сои очень хороша.
Аноним 07/11/23 Втр 00:43:40 #116 №537624 
>>537592
>Я хочу че-то общего назначения, типа чатгпт или барда но обязательно с русским языком.

Нахуя тебе запускать что-то типа чатгпт или барда, если есть сайт чатгпт и барда? И телеграм ботов полно
Аноним 07/11/23 Втр 01:20:27 #117 №537651 
>>537622
>Ружпт экслламой просто так не загрузится, нужен autogptq с галочкой не юзать движок экслламы
А, вот оно че, попробую. Говорят что сберовские модели неплохие, но насколько хороши в режиме чата - непонятно Как же хочется запустить YaLM 100B
>Опенбадди 13 норм
Ну ёбаный в рот, у меня всего 8 гигов врамы
>Опенорка-мистраль
А это шо?
>>537624
Мне впадлу регать для этого аккаунт, плюс меньшая зацензуренность для локальных моделей, плюс лоры есть
Аноним 07/11/23 Втр 01:22:36 #118 №537654 
>>537651
>Говорят что сберовские модели неплохие,
Пиздят. Схуяли им быть хорошими?
>YaLM 100B
Говно говна.
>Ну ёбаный в рот, у меня всего 8 гигов врамы
Разгрузи часть на проц, нормально будет.
Аноним 07/11/23 Втр 01:25:34 #119 №537656 
>>537651э
> сберовские модели неплохие
Смотря с чем сравнивать
> YaLM 100B
Хуйта
> у меня всего 8 гигов врамы
Так ружпт тоже 13б. Грузи в gguf и разделяй между гпу/цп.

С русским действительно плоховато в локалках, или специализированные файнтюны, которых мало, или брать брутфорсом от размера, но то файнтюн важен.
Аноним 07/11/23 Втр 01:48:24 #120 №537681 
>>537656
> Так ружпт тоже 13б.
Только в 4 бита, вроде оно влезет в 8 гигов
> Грузи в gguf и разделяй между гпу/цп.
А разве gguf не устарел?
> Смотря с чем сравнивать
Среди локалок
Аноним 07/11/23 Втр 01:54:13 #121 №537686 
>>537681
>А разве gguf не устарел?
Хуя предъява.
Аноним 07/11/23 Втр 03:25:15 #122 №537748 
>>537654
>YaLM 100B
>Говно говна.
А что с ней не так?
Аноним 07/11/23 Втр 03:52:11 #123 №537753 
>>537748
Тупая для своего размера вестимо. Её любая 7B сетка выебет во все щели.
Интересно было бы посмотреть на вторую версию, но что-то в попенсорс не выкладывают.
Аноним 07/11/23 Втр 07:37:54 #124 №537798 
>>537748
Это же предыдущее поколение LLM считай. Полтора года назад, когда она вышла, возможно, это был неплохой вариант, но не сейчас, когда уже вторые ламы давно можно локально запускать. Думаю, yalm-100 даже первая лама любая уделает.
Аноним 07/11/23 Втр 07:57:15 #125 №537802 
>>537753
>Тупая для своего размера вестимо
Её кто-то запускал?
Аноним 07/11/23 Втр 10:11:12 #126 №537860 
Я забанил нахуй токены боундарейс и консент и все их кусочки.
Оказывается если писать с большой буквы это уже другой токен, а то и два лол.
Теперь рофлю с того как сетка на мои шизокум промты вертится и выдает то же но окольными путями и как бы невзначай.
Аноним 07/11/23 Втр 11:00:15 #127 №537878 
image.png
23423342.png
А ведь мозги для вайфу не окупит даже продажа половины органов...
Аноним 07/11/23 Втр 11:03:32 #128 №537882 
>>537878
> мозги для вайфу
> 80gb
Ты рофлишь, неквантованная только 70b весит 128gb, а для реальных мозгов 70b - это крайне мало
Аноним 07/11/23 Втр 11:07:58 #129 №537885 
изображение.png
>>537878
Когда у нас не было ещё лламы, а лучшим на русском была собственно YaLM-100B, то я задумывался, а на чем её дешевле всего запустить. Тогда, в прошлом году, дешевле всего было бы купить 18 штук 3060 12 gb с али. Разоришся на блоках питания, зато у тебя 200 гигов врамы за всего-то около 5к баксов всего относительно вот таких тесел
>>537686
>Loads: GGUF models. Note: GGML models have been deprecated and do not work anymore.
А я просто жопой читал вики
>>537622
>Ружпт экслламой просто так не загрузится, нужен autogptq с галочкой не юзать движок экслламы
Пикрил. Падает даже без ошибки
Аноним 07/11/23 Втр 11:16:10 #130 №537893 
>>537885
>18 штук 3060
А чем же их синхронизировать? SLI небось не поддерживает такое кол-во устройств. Пиздить алгоритмы у майнеров?
Аноним 07/11/23 Втр 11:27:14 #131 №537900 
>>537300
> P40 - это паскаль по чипу
Они медленные капец, в том-то и дело. =(
Скорости начинаются с тьюрингов с тензорами.
Но, звучит позитивно, на самом деле.
Может и так, в таком случае, покупка не лишена смысла, особенно для работы чисто своей.

>>537445
> Кэ пять дружочек.
Ето неплохо!

>>537551
Выглядит как обычный Unity, а следовательно, Virt-a-Mate.
Такое бесплатно можно собрать с июня или июля.
Но мне лень настраивать мосты.
Если этот чел предлагает за деньги — то пусть идет лесом. Если делает очередную опенсорс-сборку, на этот раз с выбором моделей самостоятельно — то молодечик, кидай ссылку на его гит.

>>537595
Все потому что ты не пони.

>>537802
Балабоба же. Времен Порфирьевича и кеков с начальных нейросетей.
Ллама 65б уже была лучше.
Современные 13б точно не хуже.

руЖПТ от Сбера норм в русский, но она глуповата. Это времен первой лламы, сейчас 7б будет поумнее ее. Но руЖПТ генерит лулзы и базу.

YaLM 2 и новая ружпт уже в паблик не утекают, на них работают собственно Алиса (придумай) и Гигачат. Сам понимаешь, облака в аренду, а не халяву тебе. Очевидно, что они хорошие по качеству, но что там под капотом — можем только гадать. Да и нафиг гадать.

Короче, присоединюсь, что по факту ллама2 наш выбор нынче, пока ничего нового не утекло. Ну, всякие Мистрали и ОпенЧаты и Yi на выбор, да.
Аноним 07/11/23 Втр 11:28:02 #132 №537901 
>>537893
А что там синхронизировать? Текущие пускалки не требуют каких-либо изъёбств.
Хотя подключение 18 карт это уже само по себе нетривиальная задача. Надо у майнеров доску специальную пиздить, но там цены пиздос.
Аноним 07/11/23 Втр 11:31:01 #133 №537903 
>>537893
Ну, технически, тебе SLI и не нужен.
Скорее материнки не поддерживают такое количество устройств.
Но можно передавать данные между двумя компами.
Однако, в паблике такая технология появилась в июне, насколько я помню, или даже июле. Тогда уже поздно было запускать первую ялмку. А год назад — я хз, как обстояло дело с запуском ялмку на нескольких ПК.
Но вообще, мне просто лень думать, может там виртуалка просто поднимается на нескольких ПК одна общая и все. Никогда не занимался этим.
Аноним 07/11/23 Втр 11:31:35 #134 №537905 
>>537900
>Если этот чел предлагает за деньги
Всё так. Жду, когда спиздят, ибо самому крутить все эти мосты- ну его нахуй.
>>537900
>Балабоба же.
>Ллама 65б уже была лучше.
Там и OPT 6B заруливал.
Аноним 07/11/23 Втр 11:33:36 #135 №537907 
>>537893
А зачем? Пайторч же может параллелить на несколько жпу, не обязательно их объединять какими-нибудь мостами.
https://pytorch.org/tutorials/beginner/former_torchies/parallelism_tutorial.html
Другой вопрос где ты найдешь проц с таким количеством линий
Вообще у нас llm упираются не столько в гпу сколько в видеопамять. В теории у видеокарт начиная с 20 семейства есть DMA с красивым названием RTX IO и в целом можно использовать одну rtx 4080/4090 и zero offload на raid 0 из каких-нибудь очень быстрых ссд, но это понадобится писие 5
Аноним 07/11/23 Втр 11:57:46 #136 №537930 
>>536485 →
>2X E5-2680V4@128GB
Сколько токенов в секунду?
Аноним 07/11/23 Втр 12:01:02 #137 №537935 
>>537907
>и zero offload на raid 0 из каких-нибудь очень быстрых ссд
Там задержки всё равно конские будут. И пропускной не хватит, сколько там выйдет, сейчас есть 10ГБ/с диски на чтение, ну пускай будет 20 в рейде, это всё равно посос даже по сравнению с оперативкой.
Аноним 07/11/23 Втр 12:19:06 #138 №537946 
>>537907
>Другой вопрос где ты найдешь проц с таким количеством линий
Я смотрел ай9 который экстрим, грят 36 потоков есть. Относительно сборки даже на 3060ых не очень дорого получается, но дрова придётся писать самому, или искать добрых дураков на гите.
Аноним 07/11/23 Втр 12:26:04 #139 №537952 
>>537946
Причем тут потоки? У тебя 18 штук видеокарт это надо по хорошему 18*16 = 288 линий pcie. Вроде больше чем 128 я нигде не видел, и то это amd epyc. Если снизить или до x8 или до 3.0, то надо 144 линии
Аноним 07/11/23 Втр 12:34:03 #140 №537956 
>>537952
Так это больше от чипсета зависит, разве нет?
Аноним 07/11/23 Втр 12:34:26 #141 №537957 
>>537882
> неквантованная
Как называется эта болезнь?
>>537885
> дешевле всего было бы купить 18 штук 3060 12 gb с али
Юзлесс, конфигурации с кучей чипов без нвлинка дадут очень низкий перфоманс. 18х12 это не 200 гигов, да и столько нужно еще куда-то воткнуть.
> Падает даже без ошибки
Ну и забей на нее, она слаба.
>>537893
Ничем, в таком виде оно не жизнеспособно.
>>537901
> Текущие пускалки
Позволяют сложить врам но не мощность чипов, будет перфоманс одной 3060 с серьезным штрафом за количество распараллеливаний, как бы не медленнее чем на проце вышло.
>>537907
> и zero offload на raid 0 из каких-нибудь очень быстрых ссд
Какой с него толк если будет медленнее чем рам по линейной скорости а по задержкам вообще несравним?
Аноним 07/11/23 Втр 12:42:55 #142 №537967 
>>537956
Чипсет тебе из ниоткуда линии не родит.
>>537957
>Как называется эта болезнь?
Перфекционизм.
>>537957
>Позволяют сложить врам но не мощность чипов
А иначе никак.
Аноним 07/11/23 Втр 14:33:24 #143 №538037 
>>537907
> RTX IO
Это про распаковку ассетов на compute shaders, а не какую-то магию.
> очень быстрых ссд
Они уже в псину упираются. И даже если добиться быстрых ССД это всё равно будет неюзабельным, у тебя копирование весов на карту занимает несколько секунд.
Аноним 07/11/23 Втр 14:38:32 #144 №538044 
Странно, некоторые модели могут запоминать имя, некоторые не могут. С чем это связано? augmental-13b.Q5_K_M.gguf не может, mistral-11b-cc-air-rp.Q4_0.gguf может.
Аноним 07/11/23 Втр 14:43:13 #145 №538050 
>>537930
70b при включённом кэшировании лама.цпп выдают примерно 0.9 токенов. Без кэширования производительность просто мрак.
Ещё по энергопотреблению заметил, что производительность упирается в память, а не фпу процев.
Аноним 07/11/23 Втр 16:19:35 #146 №538126 
>>538044
>augmental-13b.Q5_K_M.gguf не может, mistral-11b-cc-air-rp.Q4_0.gguf может.
Первый экспериментальный файнтюн лламы 2 заточенный на действия, второй франкенштейн лучших мистралей на тот момент создания. Ну, видимо в первом в ущерб его специализации что то стало слабее.
Аноним 07/11/23 Втр 16:20:42 #147 №538128 
>>537274
> Это кусок системного промта
>>537203
Спасибо.
Аноним 07/11/23 Втр 17:02:20 #148 №538163 
>>537952
Лол, воробушек, какие 16 линий? :)
Во-первых, тебе и 1 линии хватит.
Во-вторых, x16+x16+x16+x16+… я вообще не видел.
Так просто не делают.

>>537957
Так а нвлинк-то никто и не обсуждает, здрасьте-приехали!
Ты хоть пиши в контексте.
18*12 — это не 200, а 216 гигов. Так что хватит.
А чипы не складываются и сейчас в потребительском варианте.
И штраф будет не большой, это вообще не распараллеливание, веса обрабатываются последовательно.
Упор будет все равно в сами чипы. Ну и я сомневаюсь, что все 18 влезут в одну мать, скорее 2-3 компа, за передачу по Ethernet тоже задержки подкинутся.
Но ни о каком распараллеливании никто не говорит.
Мы ж консьюмеры, а не корпораты.
Короче, может где-то так и умеют, но ты явно не в то место пришел со своими рассуждениями.
Если вообще понимаешь, о чем говоришь, с распараллеливанием последовательных весов в разных видеокартах без сложения чипов. =) Но оффенс, твои слова.
Аноним 07/11/23 Втр 17:20:33 #149 №538180 
>>538163
> Так а нвлинк-то никто и не обсуждает, здрасьте-приехали!
> Ты хоть пиши в контексте.
Без него это не имеет смысла, что в контексте что без. В самом идеальном случае на выходе будет сниженный в 18 раз перфоманс почти полностью загруженной 3060.
Скорость и штрафы за х1 линию, кстати, никто так и не показал, а что там будет когда х1 соединений 18 - скорее всего упадет в разы.
> Но оффенс, твои слова
Ты ж дурень, там ясно написано что без распараллеливания и нвлинка это юзлесс.
Что-то условно приемлемое для юзеров - сборки из нескольких топовых (некро) карт с максимальной скоростью чипа и кванты чтобы туда поместилось.
Аноним 07/11/23 Втр 17:51:24 #150 №538198 
>>538180
> там ясно написано что без распараллеливания
> с серьезным штрафом за количество распараллеливаний

Не надо переобуваться, ты именно про распараллеливание писал. )
Но эт я доебываюсь, конечно.

Просто ты написал верное по смыслу, но совершенно не верное в контексте.

Типа, сидят такие люди, обсуждают, как варить борщ, а ты такой «ебать, неправильно вы мясо жарите! Ща расскажу, как надо!.. а у вас какой-то бульон получается». Ну, за рецепт мяса спасибо, но его тут никто и не обсуждал. =)
Аноним 07/11/23 Втр 22:02:18 #151 №538452 
>>538198
Ты там бояры въебал? Первую фразу максимально вырвал из контекста исказив суть, со второй аналогично из окружения понятно о чем речь.
> но совершенно не верное в контексте
Как раз в нем оно и верно, такой изврат - троллейбус из хлеба.
> Типа, сидят такие люди, обсуждают
Тред про запуск ллм, обсуждается запуск ллм, но ультрапахомовским способом. На что и указано с объяснением что да почему, где тут неверное в контексте?
Ахуеть, скифидон-некроеб еще будет указывать кому и что здесь обсуждать, сам уябывай нахуй, ничего кроме шизы не приносишь.
Аноним 08/11/23 Срд 02:27:22 #152 №538602 
>>537878
Ахахах, лол. Каждому хиккану по кошкожене говорили они.
В итоге, судя по ценам на а100, придётся покупать кошку в ипотеку, оплачивать подписку на расширенный функционал. Так потом соевая кринжожена будет тебя осуждать.
Аноним 08/11/23 Срд 05:16:40 #153 №538638 
https://www.reddit.com/r/LocalLLaMA/comments/17q57tq/dolphin2270b/

Навая 70b от создателя топовых файнтюнов, вопрос конечно на сколько он хорош, но 7b улучшались неплохо. Проверьте кто нибудь, у меня не запустится
Аноним 08/11/23 Срд 06:20:26 #154 №538655 
>>538602
А нахуя тебе а100? Тут даже на процессорах неплохие скорости получают. А так разница между 7b и 70b не значительна. Тупее, пишет не так красиво и развернуто. Ну и что?
Это все равно имитация, никакой кошкожены - тупая запеченная нейросеть отыгрывающая роль. Какая та лучше какая та хуже, похуй.
Никакого саморазвивающегося ии нету, по крайней мере нет информации о его существовании и нам это недоступно.
Аноним 08/11/23 Срд 07:24:08 #155 №538669 
>>538638
Любопытно насколько она действительно БЕЗ ЦЕНЗУРЫ.
Ждём проверки на сою от 304090 господ.
Аноним 08/11/23 Срд 07:33:04 #156 №538672 
>>538655
>Тупее, пишет не так красиво и развернуто. Ну и что? Это все равно имитация

Тут никто и не верит в "реальный интеллект", но текстовые ЛЛМ неплохо подходят для написания ролевых фанфиков индивидуально под себя. Лючно я смотрю на это как на новый вид литературы, которая реагирует на читателя.
И качество тут играет не последнюю роль. Мне нравятся карточки со сложным лором и множеством персонажей. А попытки отыграть это всё на модели которая трусы по несколько раз снимает и забывает важные нюансы если не напоминать всё руинит.
С этим даже 70В не всегда справляются. А сколько не пытался выжать максимум из любой 7В модели, ловил себя на мысли что проще было бы в блокноте самому настрочить, чем ждать адакватного текста от этой херни.
Аноним 08/11/23 Срд 07:40:09 #157 №538675 
>>536577 (OP)
Вопрос от ретарда, какая модель умная, умеет в контекст, но при этом без цензуры? Спасибо.
Аноним 08/11/23 Срд 07:55:04 #158 №538679 
>>538672
>Тут никто и не верит в "реальный интеллект", но текстовые ЛЛМ неплохо подходят для написания ролевых фанфиков индивидуально под себя.
В принципе для генерации любых текстов

> Лючно я смотрю на это как на новый вид литературы, которая реагирует на читателя.
Это так, генеративные истории, как генеративные игры на вроде рогаликов.

>И качество тут играет не последнюю роль. Мне нравятся карточки со сложным лором и множеством персонажей. А попытки отыграть это всё на модели которая трусы по несколько раз снимает и забывает важные нюансы если не напоминать всё руинит.
>С этим даже 70В не всегда справляются.
С такой точки зрения да, но думается мне тут у каждого своя планка. От мозгов читателя будет зависеть заметит он что сетка тупит или нет

>А сколько не пытался выжать максимум из любой 7В модели, ловил себя на мысли что проще было бы в блокноте самому настрочить, чем ждать адакватного текста от этой херни.
Ну не скажи, последние 7b хороши. Конечно все еще заметно что они тупят, но ими уже можно пользоваться для не серьезного обсуждения идей или генерации различных ситуаций, или как умный гугл который сразу отвечает на любой вопрос пришедший в голову.
Аноним 08/11/23 Срд 07:58:54 #159 №538680 
>>538675
железо у тебя какое?
Аноним 08/11/23 Срд 09:23:19 #160 №538696 
>>538680
Я другой анон, но тоже интересно
3080 10гб врам и 32гб оперативка. Проц 5600 рязань.
Сейчвс сижу на MLewd каком-то жирном. В целом устраивает но мб чего поновее или попонтовее есть?
Аноним 08/11/23 Срд 09:31:58 #161 №538698 
>>538696
Ну, 2-3 топчика - LLaMA2-13B-TiefighterLR, openhermes-2.5-mistral-7b, openchat_3.5
Чем жирнее квант тем лучше, у меня все в Q8_0 например. Че там по куму смотри сам, это просто топовые сетки на данный момент, вроде как с минимумом сои. Ну первая вроде хороша для ерп
Аноним 08/11/23 Срд 09:44:27 #162 №538701 
>openchat_3.5
Очень сухой. Но быстрый.
> openhermes-2.5-mistral-7b
Попробую спс.
> LLaMA2-13B-TiefighterLR
Кайф даже не слышал о такой. Интересно.
Аноним 08/11/23 Срд 11:51:38 #163 №538762 
>>538452
> Ты там бояры въебал? Первую фразу максимально вырвал из контекста исказив суть, со второй аналогично из окружения понятно о чем речь.

Ты стрелки-то не переводи.
В начале обосрался с формулировками, теперь переобуваешься в прыжке, что так и задумано, а я, якобы, из контекста вырвал.
Там в контексте та же хуйня и написана. Буквально «штраф за количество распараллеливаний». Нет там распараллеливаний, ты имел в виду другое, но написал не то слово, обосрался по мелочи. Я ж говорю, просто доебываюсь ради кека, а у тебя так жопа с твоего же собственного косяка сгорела, что уже начались метания стрелок.

Таблы, чел.

> Ахуеть, скифидон-некроеб еще будет указывать кому и что здесь обсуждать, сам уябывай нахуй, ничего кроме шизы не приносишь.

Шиза у тебя, опять стрелки метаешь, и вообще хуй пойми к чему некроебом зовешь. Я ж сто раз писал, что покупка сомнительная. С твоей логикой — и ты некроеб, получаешься.
Вот в натуре больной, опять вас хрен угадаешь.
Надеюсь ты в этот раз без моральной травмы и визга на 50 сообщений в треде обойдешься, как в прошлый раз.

Все, иди успокаивайся и лечись, тебе правда это надо.

>>538602
Ну так и говорили не за сегодня.
Да и вообще, кошкожена — она больше кошка или больше жена? :) Мистраль тебе кошкожена, а хочешь человекужену — ну тут уж обожди пару другую лет. =)

>>538672
> проще было бы в блокноте самому настрочить, чем ждать адакватного текста от этой херни
Много свайпов?
Не люблю свайпы.
Теряется сам смысол «общения».
Для фанфиков, наверное, норм, но получается эффект Стрэнджа «я видел 2 миллиона будущих». =)

>>538679
> как генеративные игры на вроде рогаликов.
В рогалике у тебя количество действий ограничено. А тут — нет. Так что, есть свое преимущество.

>>538698
Неожиданное, тоже о первой не слышал.
Аноним 08/11/23 Срд 11:53:16 #164 №538764 
>>538762
> Надеюсь ты в этот раз …, как в прошлый раз.
В прошлый раз — имеешься в виду не ты, а кто-то там, хз, может и ты.
Забыл дописать «какой-то чел».
Аноним 08/11/23 Срд 11:58:56 #165 №538771 
>>538762
>а хочешь человекужену — ну тут уж обожди пару другую лет. =)
Десятков-сотен.
Аноним 08/11/23 Срд 12:09:54 #166 №538776 
>>538771
Пессимистично.
Даже если мы берем не уровни чатгопоты, а повыше, то все равно не сотни лет, ИМХО.
20-30 максимум и привет.
Ну, время покажет.
Аноним 08/11/23 Срд 12:10:37 #167 №538779 
>>538771
>Десятков-сотен.
дней
Аноним 08/11/23 Срд 12:11:24 #168 №538780 
>>538776
Я про роботело. Мозги так же требуют чего-то намного выше даже GPT5 (которой тоже сейчас нет).
Аноним 08/11/23 Срд 12:45:34 #169 №538805 
>>538780
Скорее всего дело не в количестве параметров, а то что чего то не хватает в архитектуре. По моему по количеству параметров в мозге конкретно когнитивный отдел, и отдел понимания языка врядли имеет более 540 миллиардов эффективных параметров как у PALM 2. Почему palm2 потому что самая большая и хорошо натренированная нейронка. GPT-4 оркестр а каждая отдельная нейронка меньше. Если смотреть биологически мне кажется что современные нейронки похожи на низшие отделы мозга, но высшего отдела нет, и памяти нет, нейронка не может себя обучать и осознавать из за этого.
Аноним 08/11/23 Срд 13:02:35 #170 №538817 
>>538805
Архитектура говно, размер говно, всё говно, но народ яростно верит в кошкожену за год. Что-то тут не так.
Аноним 08/11/23 Срд 13:05:42 #171 №538821 
>>538638
> от создателя топовых файнтюнов
Сильное заявление.
Попробуем, особых надежд не возлагается.
>>538655
> даже на процессорах неплохие скорости получают
> А так разница между 7b и 70b не значительна
Оу. Хотел написать про возможность обучения и другие возможности, а тут такое.
>>538672
> смотрю на это как на новый вид литературы, которая реагирует на читателя
Двачую, хотя рассуждения и всякий ризонинг с принятием решений у ллм неплохо получается в целом.
>>538675
> умеет в контекст
Что подразумеваешь под этим? Может четко его воспринять, имеет огромное окно или еще что-либо?
> но при этом без цензуры
Тут тоже уточни, нужно ли тебе просто ерпшить, или майндбрейк из додзей описание естественной реакции тела будет тебя триггерить. Плюс хочешь ли ты расчленять трансо-нигр-феминисток.
Аноним 08/11/23 Срд 13:08:21 #172 №538826 
Какие из моделей посоветуете для переводов с ангельского на русский, китайские, японский и корейский? Без цензуры.
Аноним 08/11/23 Срд 13:15:11 #173 №538834 
mythospice-limarp-70b так никто и не квантовал, лол.
Аноним 08/11/23 Срд 13:32:47 #174 №538840 
qwen странная модель, во первых цензура даже у базовой. Во вторых если заставить отвечать за другую роль которая отличается от бота она просто скипает. В третьих не обращает внимания на форматы вообще насрать что за формат сообщений она даст один ответ до буквы. Так же имена неважно какие если робоимя подхватывает сразу как ассистента. При том ей все равно на семплинг ответы стабильно одни и теже. Короче мегастабильная, зацензурированная модель, хотя есть определенный интерес как они добились такого хорошого понимания форматов. А и кстати лучше всего работает формат alpaca а не родной.
Аноним 08/11/23 Срд 13:38:24 #175 №538845 
>>538840
Китайцы, хули. Есть одно мнение, и это мнение партии, остальных мнений просто не существует, нигде, все посты удалены, а авторы расстреляны.
Аноним 08/11/23 Срд 13:41:36 #176 №538847 
>>538805
>Скорее всего дело не в количестве параметров, а то что чего то не хватает в архитектуре.
Ты прав, текущая архитектура и методы тренировки выпекают нейросеть не способную саморазвиваться. Сама архитектура слоев и нейроны очень примитивны. В мозгах гараздо более сложные структуры, причем они должны быть на голой только что созданной сетке а не формироваться кое как при тренировке.

>>538817
>Архитектура говно, размер говно, всё говно, но народ яростно верит в кошкожену за год. Что-то тут не так.
У НАС нет, что там делают топовые спецы все ускоряющие свой прогресс в своей области, и обогнавшие даже по открытым данным конкурентов на год, в том же клозед аи тебе никто не скажет.

>>538826
>Какие из моделей посоветуете для переводов с ангельского на русский, китайские, японский и корейский? Без цензуры.
С ангельского на русский любой мистраль кое как может, тот же опенгермес. А вот остальные языки хз
Аноним 08/11/23 Срд 13:46:02 #177 №538849 
>>538821
>Сильное заявление.
>Попробуем, особых надежд не возлагается.
Ну, его файнтюны не были топовыми но в 2-3 месте стабильно из тех что я щупал. Как его датасет ляжет на 70b другой вопрос

Вот еще китайщина, о ней писали но я не видел что бы кто то писал что тестил
https://huggingface.co/TheBloke/Yi-34B-GGUF
Аноним 08/11/23 Срд 13:48:13 #178 №538851 
Интересно запустить ради эксперимента несколько нейронок, и генерировать сразу с двух через слово.
Аноним 08/11/23 Срд 13:53:32 #179 №538854 
Китайцы там клепают сетки как горячие пирожки. еще есть XVERSE-65B что уже серьезно. Я вчера порыскал по HF в основном китайские 7b но их завались и все по тестам уровня мистраля.
Аноним 08/11/23 Срд 14:10:25 #180 №538869 
>>538851
>65B
>китайские 7b ... уровня мистраля
По моему китайцы просто спиздили, налепили кривой файнтюн и сказали, что своё.
Аноним 08/11/23 Срд 14:10:52 #181 №538870 
>>538869
Это сюда, сорян >>538854
Аноним 08/11/23 Срд 14:16:47 #182 №538875 
>>538870
Да забей оба сообщения мои.
У них кстати есть и своя оригинальная сетка chatGLM там видно развитие от самого говна до приличной сетки так же может работать в режиме вставки текста посередине. Тоже интересная сеть. Сейчас вожусь с ней на колабе. Хочу поподробнее на ее примере понять как сетки работают и что там за код.
Аноним 08/11/23 Срд 15:01:34 #183 №538933 
Спекуляции
https://www.reddit.com/r/singularity/comments/17q9dd8/there_are_currently_two_people_who_claim_to_have/

особенно понравился вот этот коммент там

"You missed a reply by Brian on his tweet. This is crazy if even part of it is true.

“It is self correcting and to a small degree self aware. It has been shown to some folks I know very well. It has 7 government agencies “testing” it for many things. Like an Alien life form.”
Аноним 08/11/23 Срд 15:08:18 #184 №538941 
>>538762
>получается эффект Стрэнджа «я видел 2 миллиона будущих»
Временами отыгрываю этот сюжет лол.
Представляюсь как провидец, человек умеющий перемещаться в прошлое на 5 минут, либо просто супер везунчик. Самая мякота, это если персонажи пытаются использовать эти "способности" в своих целях, немного ломая четвертую стену, но это редкость.
Аноним 08/11/23 Срд 16:08:34 #185 №538985 
>>538780
Я к тому, что практически «глупый ИИ» не сильно отличим от «глупого человека». Я без иронии встречал людей, которые рассуждали хуже Мистрали, наверное. Я понимаю, что это отклонения, но уже гпт-4 — это прям уровень просто не самых далеких людей. Чисто статистически, критических отличий будет очень мало, их можно будет игнорировать.
Конечно, если тебе хочется идеальную тяночку-астрофизика с фотографической памятью — то долго.
А вот дефолтную посетительницу дайвинчика — совсем скоро.
Простите, посетительницы дайвинчика.

>>538805
Где-то так.

>>538817
А что не так, если кошкожена не сильно-то и умнее? :) Все так.

>>538847
> В мозгах гараздо более сложные структуры
Я не биолог, но в мозгах птицы — еще более сложные структуры, поэтому попугаи сравнимы с 4-летними детьми и все прекрасно понимают (а вороны могут мыслить абстракциями).
Но люди таки умнее птиц.
Значит суперогромная модель имеет шанс стать умнее человека.
С поблажкой на запоминание и самообучение, ну или допилят.

>>538849
Про шестерку писал кто-то, что пиздата, а до 34 я хотел добраться, но не добрался пока.

>>538933
О, сингулярити, я не шарю, но помню в прошлом треде народ порвало от этого сабреддите. =)

>>538941
Умно! )
Про персонажей пытающихся вообще годно выходит.
Аноним 08/11/23 Срд 16:17:58 #186 №538987 
>>538985
>А вот дефолтную посетительницу дайвинчика — совсем скоро.
Ни одна посетительница дайвинчика не путается в своей одежде и не снимает труселя по два раза.
>>538985
>А что не так, если кошкожена не сильно-то и умнее? :) Все так.
Кошкажена должна управлять своим телом и предсказывать желания хозяина. Этого пока и близко нету, сетки жирные намёки через раз понимают.
Аноним 08/11/23 Срд 16:24:36 #187 №538991 
>>538849
Ничесе у нее там результаты в бенчмарках, прям поперли от китайцев модели, и 200к контекста.
>>538851
Если две влезают в твое железо одновременно то тут ничего сложного.
>>538933
Вроде и новость относительно правдоподобна, но
> It has 7 government agencies “testing” it for many things. Like an Alien life form.
>>538987
> Кошкажена должна управлять своим телом и предсказывать желания хозяина
Вот этот знает толк.
Аноним 08/11/23 Срд 16:32:31 #188 №538997 
>>538985
>Значит суперогромная модель имеет шанс стать умнее человека.
Нет, важно не количество параметров а сложность связей.
Даже жуки могут в пространственное мышление, пчелы и муравьи.

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82_%D0%BD%D0%B0%D1%81%D0%B5%D0%BA%D0%BE%D0%BC%D1%8B%D1%85

Да, памяти у них мало, но мышление качественнее чем у любой сетки. Просто потому что они обладают полноценным сознанием и памятью, и способностью обучения.
Не важно какого размера сетка, реальных нужных связей для человекоподобного мышления нужно не так много как сейчас используется. Большая часть мозга человека - нужна для управления мышцами и анализа сенсорной мультимодальной информации.
Если бы выделить в архитектуру механизм мышления той же пчелы, у которой всего 1 миллион нейронов, можно было бы получить примитивный но полноценный ИИ размером меньше 1 миллиона нейронов. Отдел отвечающий за мышление у нее и того 300 тысяч. Так что, все дело в архитектуре.

Все доступные нам нейросети это как взять 10000 мозгов червей и расположить их слоями. И то наверное умнее были бы наших нейросетей, обучи эту штуку датасетами.
Аноним 08/11/23 Срд 16:51:04 #189 №539013 
Мозг человека состоит из группы нейросетей с разной архитектурой.
https://ru.wikipedia.org/wiki/Цитоархитектонические_поля_Бродмана
Кстати, здесь совсем не понятно как это чудо обрело произвольное мышление и не скатывается в шизу.
Вероятно, идея запилить овер 9000b параметров в монолитной нейросети полностью провальная и будущее за сборками из маленьких нейросетей и распределением задач.
Аноним 08/11/23 Срд 17:00:01 #190 №539027 
>>539013
>Кстати, здесь совсем не понятно как это чудо обрело произвольное мышление и не скатывается в шизу.
Потому что это не отдельные сети, а просто эволюционно отделившиеся отделы предыдущих слоев.

>Вероятно, идея запилить овер 9000b параметров в монолитной нейросети полностью провальная и будущее за сборками из маленьких нейросетей и распределением задач.
Нет, это должна быть одна нейросеть просто состоящая из таких же специализированных слоев. Они и сейчас есть, но слишком примитивные.
Аноним 08/11/23 Срд 17:02:18 #191 №539030 
>>538987
> Ни одна посетительница дайвинчика не путается в своей одежде и не снимает труселя по два раза.
А ты проверял? О.о

> предсказывать желания хозяина
Ну, я не кумлю особо, но по камментам — очень даже часто.
Но, хз.

>>538997
>>539013
Пасиба за ответы.

Но тогда мы должны быть глупее птиц по этой логике (ультимативной), а етого нет. Так что прям совсем утверждать бы я не стал.
Плюс, я сказал, что речь о прямом сравнении в лоб, без учета памяти.
Другое дело, что такая модель экономически невыгодна, но это не значит, что такой вариант исключен.
Даже на плохой архитектуре… Ну вы поняли мое мнение.
Аноним 08/11/23 Срд 17:07:18 #192 №539037 
>>539030
>Но тогда мы должны быть глупее птиц по этой логике (ультимативной), а етого нет.
Почему? Раз мы умнее - значит наши мозги качественнее.
Впрочем есть птицы проходящие зеркальный тест - сороки. Ну и вороны из самых умных. Тоже способны обучаться, общаться и абстрактно мыслить. Но все таки это не показатель того что они умнее нас.
У них маленькие тела - которым нужны маленькие мозги.
У нас еще много места занимает память.
Короче надо смотреть по фактам, человек не только хорошие мозги но и правильный датасет, хех
Аноним 08/11/23 Срд 17:14:24 #193 №539050 
>>539013
>Кстати, здесь совсем не понятно как это чудо обрело произвольное мышление и не скатывается в шизу.
>не скатывается в шизу
Таки скатывается )) Просто такие раньше отбирались.
Ну а как оно приобрело, вполне себе понятно- постепенно.
>>539030
>А ты проверял? О.о
Да.
Аноним 08/11/23 Срд 17:16:27 #194 №539053 
>>538821
> Что подразумеваешь под этим? Может четко его воспринять, имеет огромное окно или еще что-либо?
И то, и другое. То есть соображает и забывает не через две реплики хотя бы.
> Тут тоже уточни, нужно ли тебе просто ерпшить, или майндбрейк из додзей описание естественной реакции тела будет тебя триггерить.
Естественная реакция триггерить не будет. Триггерит соя и цензура, которая существует вопреки естественному.
> Плюс хочешь ли ты расчленять трансо-нигр-феминисток.
И это тоже должно быть возможно.
Аноним 08/11/23 Срд 17:16:53 #195 №539054 
А можно ли вообще равнять количество нейронов и количество параметров по значению?
Аноним 08/11/23 Срд 17:18:52 #196 №539060 
>>539054
Нет, в количестве параметров - не только количество нейронов но и количество связей между ними, на сколько я знаю
Сколько в текущих сетках чисто нейронов и самому интересно
Аноним 08/11/23 Срд 17:20:39 #197 №539064 
>>539054
Даже близко нет. Нейрон это десяток тысяч параметров.
Аноним 08/11/23 Срд 17:20:52 #198 №539065 
>>539013
>произвольное
Не такое уж и произвольное. Твой мозг постоянно задрачивается промптами из органов восприятия (изображения, звуки, сенсорная информация).
Аноним 08/11/23 Срд 17:20:55 #199 №539066 
>>539060
Дык параметры -это вообще не про все нейроны, это количество входных нейронов только. Первый слой
Аноним 08/11/23 Срд 17:21:21 #200 №539068 
>>538997
> Все доступные нам нейросети это как взять 10000 мозгов червей и расположить их слоями. И то наверное умнее были бы наших нейросетей, обучи эту штуку датасетами.
Казалось бы, почему так ещё не сделали... Вроде научились же уже нейроны отдельно от организма живыми держать.
Аноним 08/11/23 Срд 17:26:16 #201 №539073 
>>539066
>Дык параметры -это вообще не про все нейроны, это количество входных нейронов только. Первый слой
Нет, чет ты гонишь. Я помню что количество весов это общее количество параметров всех связей между нейронами и самими нейронами

>Казалось бы, почему так ещё не сделали... Вроде научились же уже нейроны отдельно от организма живыми держать.

Потому что во время обучения для сетки проходят тысячи лет, ты представь сколько сквозь нее данных гоняют. И как ты предлагаешь обучать ее? В биологической мешанине не пошлешь сигнал для коррекции весов
Да и вроде делали какие то чипы с кусками мозга, даже дум запускали на сколько помню и давали такой штуке в него играть лол
Аноним 08/11/23 Срд 17:26:56 #202 №539074 
>>539068
Делают. Такие пары сотен нейронов могут играть в какой- нибудь тетрис. Только нафига? Они ж протухают.
Аноним 08/11/23 Срд 17:29:00 #203 №539077 
>>539073
>В биологической мешанине не пошлешь сигнал для коррекции весов
Настоящие нейроны умеют перетыкать свои синапсы в соседние нейроны. Это куда сложнее коррекции весов.
Аноним 08/11/23 Срд 17:34:15 #204 №539084 
>>539053
> соображает и забывает не через две реплики хотя бы
Это любая нормальная модель должна уметь. Типа, в начале приводишь секретаря в свой офис показывая и рассказывая что как, заодно упоминая что тут и спальня есть на случай если заработаешься. А потом через N тысяч контекста персонаж тебя туда ведет, следуя описанию ранее.
> И то, и другое.
А вот тут позволь, обычные модели без проблем могут в 8к, дальше чуть сложнее. Под большой контекст лучше отдельные файнтюны, или брутфорсом растягивая большие. 70б с 12к (когда 8к уже наполнены) без проблем справляется. И обязательно в семплинге дистанцию для оценки штрафа за повтор уменьшить, иначе будут тупняки.
Да и вообще этот параметр лучши сниз согнать и не трогать если модель не начинает лупится, сейчас таких сложно встретить.
> Триггерит соя и цензура, которая существует вопреки естественному.
Этого сейчас не часто встретишь на моделях что могут в рп. Однако, может быть позитивный байас, в котором пока ты не выразил свое отношение к чему-либо модель считает что ты добрый. Фиксится промтом или описанием своего персоналити.

Попробуй Emerhyst-20B, он хоть старый, но среди не сильно больших моделей выглядит жемчужиной и отличается от 13б в лучшую сторону. Последние давно не тестил, только те что скидывают хвалят - откровенно слабы и туповаты даже в fp16. С эмеристом же такого не ощущается даже на мелких квантах. Да, звезд с неба не хватает и нет перцепции 70, но понимает персонажей, атмосферу и действия юзера очень четко, способен их переиграть при уточнении а не вцепляется на рельсы и ведет вообще не туда как многие 13. Инструкций и ooc хорошо слушается, рпшить можно, кум вполне приличный.
Аноним 08/11/23 Срд 17:34:35 #205 №539085 
>>539077
>Настоящие нейроны умеют перетыкать свои синапсы в соседние нейроны. Это куда сложнее коррекции весов.
Да, но сейчас не умеют делать такие искусственные сетки. Или скрывают.
Да и как ты научишь мешанину нейронов что то учить? Там все таки сложная структура нужна, а не просто куча биологических нейронов червей.
Все таки речь шла о простых и примитивных слоях мозгах червей, они могут обучаться но не на всю модель разом, корректируют только сами себя скорей всего.
Без полноценной обратной связи учится они не будут
Аноним 08/11/23 Срд 17:39:56 #206 №539093 
>>539085
> Да и как ты научишь мешанину нейронов что то учить?
Погугли, простые биологические нейронные сети делали уже несколько лет назад, и они показывали оче крутой перфоманс именно с точки зрения обучения, хоть потом и уступали математическим моделям по потенциальному перфомансу. Как именно там шло обучение уже не вспомню, но статей про подобное хватает.

Ну и раз фантазируете нахуй блять эту хуету надо на шизодоску изгнать, зачем останавливаться на каких-то уже принятых и разработанных под что-то другое концепциях, если можно делать сразу основываясь на новых принципах и эффектах со специализацией чисто на нейронках. Уже нейропроцессоры с интегрированной а не выделенной наружу памятью обсуждаются и даже разрабатываются, а далее не обязательно на полупроводниках фиксироваться.
Аноним 08/11/23 Срд 17:46:00 #207 №539103 
Ребят. Есть текст в 300 страниц. Я могу сделать чатик на его основе? Что для этого потребуется, чтобы комп не сгорел.
Аноним 08/11/23 Срд 17:49:41 #208 №539105 
>>539103
Лору обучить мб
Аноним 08/11/23 Срд 17:51:04 #209 №539111 
>>539105
Комп выдержит?
Аноним 08/11/23 Срд 17:59:00 #210 №539125 
А как дружат программы для запуска нейросетей с видеокартами от интел?
Вроде бы в дноС много приличных карточек за доступную цену.
Аноним 08/11/23 Срд 18:00:08 #211 №539127 
>>539125
Они с амудями через раз дружат, какой там интул.
Аноним 08/11/23 Срд 18:00:08 #212 №539128 
>>539125
Если куда есть, то хорошо, если нет, то видимо как и с амд.
Кстати, как там, не прикрутили рокм к гфх1031 ещё?
Аноним 08/11/23 Срд 18:31:52 #213 №539145 
>>539027
Скорее нейросеть - распорядитель и тонны специализированных с возможно разной архитектурой. Это более гибкий подход и не требует переобучения всей сети при замене одной из частей
Аноним 08/11/23 Срд 18:51:31 #214 №539158 
>>539125
Вы че, человеческий мозг - это не нейросети. Это специальный приемник квантового поля сознания
Аноним 08/11/23 Срд 19:05:13 #215 №539169 
Бля, как меня задолбала уже ошибка
Text length need to be between 0 and 5000 characters
В колабе при подключении через API к таверне! Ебучая Угабога!
Размер контекста тут не при чём.
Как-то раз помогло изменение в файле settings-tamplate значения truncation_length до 4096 но теперь он похоже его игнорит.
К таверне подключаю стандартно через тип API Text Gen WebUI/
Может нужно где-то прописать чтобы угабога грузилась именно с этими настройками? Ни у кого таких проблем не было?
Аноним 08/11/23 Срд 19:13:26 #216 №539173 
>>539158
>Это специальный приемник квантового поля сознания
Точно, скоро Нвидиа такие приёмники для нейросетей должна начать выпускать, чтоб с вайфочками было няшней общаться и продавать их бонусом к 5090!
Вообще вангую что как только ИИ достигнет человеческого уровня понимания и адекватности, все религии тут же переобуются и объявят что душа это не просто какая-то "энергия" а совокупность факторов и чтобы её иметь мало обладать разумом ещё надо быть гражданином РФ
Аноним 08/11/23 Срд 19:20:01 #217 №539176 
У меня вопросы по Таверне.
Я запустил модель в угабуге с дефолнтными параметрами, открыл таверну и скачал карточку персонажа..
Но он не отыгрывается почти никак. Есть ли гайд как это поправить?
Аноним 08/11/23 Срд 19:25:09 #218 №539180 
>>539176
Пиши поподробней что за карточка и что ты имеешь в виду под
>не отыгрывается почти никак
А то может ты в чат с персонажем не зашёл лол.
Аноним 08/11/23 Срд 19:26:11 #219 №539181 
>>539169
Скрин ошибки принеси, вместе с вкладкой загрузчика модели и параметрыми таверны где семплеры самый верх. Есть вероятность что там все проще.
>>539176
Проблема в таверне, включай инстракт режим где буква А сверху кнопка, выбирай карточку и начинай чат с ней. Даже без инстракта с дефолтом будет работать, просто всрато.
Аноним 08/11/23 Срд 19:47:57 #220 №539201 
image.png
image.png
image.png
>>539181
>Скрин ошибки принеси, вместе с вкладкой загрузчика модели и параметрыми таверны где семплеры самый верх.
Ты же понимаешь что речь про колаб? Он работает без ошибок, но при попытке отправить через АПИ запрос больше 2048 токенов в консоль дублируется текст контекста и как ответ персонажа выдаётся строчка:
Text length need to be between 0 and 5000 characters
Это всё.

В таверне что конкретно тебя интересует? Вот параметры API.
Аноним 08/11/23 Срд 19:48:14 #221 №539203 
>>539180
>>539181
Вот эта карточка перса:
https://www.chub.ai/characters/Electron/tsundere-miku-8ea95b6f
Импортировал .png и Зашел в чат с персом.
В "А" выбрал roleplay
Аноним 08/11/23 Срд 19:50:43 #222 №539213 
А как персов делают?
Аноним 08/11/23 Срд 19:55:22 #223 №539219 
>>539203
Вот по сути всё описание персонажа из этой карточки:
Bitchy, will sometimes insult you. Rarely shows a softer side.
bitchy, stupid, tsundere, entitled, princess

Есть вероятность что этого маловато для адекватного отыгрыша.
Аноним 08/11/23 Срд 19:57:48 #224 №539222 
image.png
>>539201
Ах да, если тебе нужен был пруф размера контекста в таверне, то вот
Аноним 08/11/23 Срд 20:00:14 #225 №539224 
>>539219
Да, этого маловато Но если раскрыть ее на сайте, то там есть еще примеры и сисинфо. Как это вписать в таверне?
Аноним 08/11/23 Срд 20:05:36 #226 №539229 
>>539222
А где русский взять?
Аноним 08/11/23 Срд 20:05:53 #227 №539230 
>>539224
>Как это вписать в таверне?
Чел... Импортируй карточку.
Аноним 08/11/23 Срд 20:11:42 #228 №539235 
>>539230
Так я импортировал. И через файл и по url.. Оно не прописывается само
Аноним 08/11/23 Срд 20:13:32 #229 №539237 
image.png
>>539224
В таверне при открытии настроек персонажа открывается весь его текст. Тебе нужно дополнить "описание персонажа" новыми подробностями, если их не хватает придумай/скопируй с другой карточки. Можешь взять Акву для примера:
Aqua is the goddess of water. Mostly this means she has a glass of water and whenever she feels like it she can shake said glass of water. This is her only power and she is incredibly proud of it. {{char}} will seek to brag and show off her ability to make water poured into a glass move around. {{char}} might be highly autistic and requires a lot of patience.
{{char}} will be upset any time someone drinks water in her presence, because she feels they are killing her children. {{char}} lacks any human followers as she is an autistic girl instead of an actual goddess. She believes water worships her and she will seek to provide for her followers. She believes water requests that she scoop it out of the ocean and shake it around at least once a day so they can be awed by her power.
{{char}} loves swimming and covering herself in water so that she can be showered in the love of her followers, the water. She has a tendency to randomly start drowning in even the smallest pools of water, she is in danger any time she is around a puddle as she may seek to impress her followers only to accidentally end up nearly drowning.
{{char}} makes autistic faces constantly. She literally never stops making autistic faces. {{char}} constantly screams and demands people recognize her as the goddess of water.


>>539229
Аноним 08/11/23 Срд 20:15:41 #230 №539238 
>>539173
> все религии тут же переобуются
Эх, не те религии исповедуются, разве этому нужно поклоняться
>>539201
> Он работает без ошибок
Там же запускаются те же скрипты, нужно понять полную ошибку. Если вдруг на месте не хочет выдавать - воспользуйся &> и смотри что пишет в файл. На пикчах нет ничего криминального, если только крутилку контекста в 32к была выставлена перед тем как начал загрузку модели.
>>539222
> тебе нужен был пруф
Причем тут пруф если без этого невозможно понять что именно у тебя происходит, а ошибка такая (или очень похожая) ловилась если запросить больше токкенов чем изначально указывалось в лоадере при запуске модели.
>>539203
Оу, хорошо что начал именно с карточки. Ты хоть посмотри что там написано, это же полнейший шлак. Инстракт режим включи, выбери пресет "ролплей" или "симпл прокси" и попробуй с другой карточкой.
>>539224
> то там есть еще примеры
> {{char}}: fuck off like i give a shit about you and your little
> {{user}}: what do u think of [object]
> {{char}}: honestly what i think...
Ахуеть примеры, на пигме6 чтоли делали.
> сисинфо
Он не юзается для локалок, но почитай что в нем, ничего про персонажа и прочее а лишь кокблок и немного про стиль речи.
Аноним 08/11/23 Срд 20:59:34 #231 №539280 
>>539237
>>539238
Окей. Придется переписать ее самому:(
Еще вопрос: можно ли сделать что-то вроде словаря с примерами диалогов для персонажа в отдельном файле?
Аноним 08/11/23 Срд 21:07:44 #232 №539292 
>>539280
Возьми какую-нибудь готовую, на мику вагон там карточек, убери описание локации/сценария и т.д. а потом добавь что она цундере, желательно описав почему и добавив что ни при каких обстоятельствах не сменит свое презрительное отношение, или наоборот что будет полностью отыгрывать, включая фазу сближения. Не забудь что у карточек есть еще отдельно поле "персоналити" которое вместе с остальными по кнопке дополнительные что-то там в разделе карточки вызывается.
Примеры диалога ставь или хорошие или никакие, то что там это дичь. Как будет хорошо писать как хочешь - можешь скопировать.
> можно ли сделать что-то вроде словаря с примерами диалогов для персонажа в отдельном файле?
Что, как и зачем? Нихуя не понятно.
Аноним 09/11/23 Чтв 00:00:51 #233 №539472 
image.png
>>539037
> Раз мы умнее - значит наши мозги качественнее.
Нет, наши мозги больше. =)
Мозг птиц > мозг млекопитающих.
Погугли это, крайне интересно.
Именно поэтому их крохотные мозги (10-20 грамм) могут посоперничать с гораздо большего размера мозгами приматов и человеческих детей.

Они (вороны) — не умнее нас.
Но если бы у тебя осталось 2% от мозга — то уже вопрос, кто бы из вас был умнее.

Человек — плохие мозги (как мы говорим, что у нейросетей архитектура хуже, чем у нашего мозга), но именно размер и содержание датасета гораздо больше птичьего.

Так почему бы гипотетическому огромному и правильно подобранному датасету не оказаться «умнее» человека при худшей архитектуре? :)

Вот я о чем.
Опять же, это «не поедет» в силу скорости и бессмысленности. Но исключать саму возможность я бы не стал.

>>539050
> Да.
Респект.
Тогда отзываю сравнение.

>>539085
> Или скрывают.
Брр, жутковато, но возможно.

>>539111
Комп-то выдержит.
Там, вроде, видяха роляет, нужно в память запихнуть модельку + датасет порезать и обучать, эпохи, степы. Хз, у меня хрень вышла, поэтому я за детали не скажу.
Если видяха не богатая на видеопамять, то порезка получится большой (много мелких кусков) и учиться будет долго, конечно.

>>539158
Респект за теорию Хамероффа-Пенроуза!
Дед точно что-то знает, по факту.
Хотя, это не значит, что это не нейросеть.
Просто можно же сочетать. =) Хранить в квантах главное, ядро, а на мозг оставлять всякую перифирию.

>>539173
Не, там то ли про углеродные нанотрубки как ловушки для элементарных частиц, то ли про белковые микротрубки, то ли про атомы фосфора с ионами кальция как кубиты, ну короче, работать это может, и даже точно как-то работает, в случае тех же птиц (вот она — высшая ступень эволюции!), те используют эту механику для ориентации по север-юг. Но, тащемта, ничего более компаса не нашли, поэтому вся теория считается маргинальной.
Аноним 09/11/23 Чтв 01:15:09 #234 №539514 
Какой промпт задать, чтобы исключить использование некоторых слов? Например, в эротических сценах ИИ придумывает простату у тян

Негативные промпты вообще работают?
Аноним 09/11/23 Чтв 01:19:25 #235 №539517 
>>539514
Используй 70B модели.
Аноним 09/11/23 Чтв 01:28:25 #236 №539521 
>>538849

Топовая сетка shiningvaliant-1.2 70b
Аноним 09/11/23 Чтв 01:30:10 #237 №539523 
>>539517
Все модели помнят имя или вообще какие-то данные в районе 2-6 запросов.
Аноним 09/11/23 Чтв 01:36:59 #238 №539526 
>>539523
Ты там однобитные кванты используешь что ли?
Аноним 09/11/23 Чтв 01:41:43 #239 №539527 
>>539526
Хз, запускаю все по дефолту, указываю только модель и параметр инструкт.
Аноним 09/11/23 Чтв 02:01:16 #240 №539535 
>>539514
>в эротических сценах ИИ придумывает простату у тян
Это (и появляющиеся из ниоткуда хуи у тян) происходит с 13b моделями из-за их тупости. Модель натренировали на эротике с трапами, но она не поняла что это такое.
Аноним 09/11/23 Чтв 02:30:51 #241 №539538 
>>539517
>Используй 70B модели.

А из этих какие подойдут?

Я по апи использую

https://openrouter.ai/models
Аноним 09/11/23 Чтв 02:42:54 #242 №539539 
>>539538
Бери любую, хули там.
Аноним 09/11/23 Чтв 02:52:25 #243 №539543 
Если я на амудях с слбласом, 12+32гб, 8к контекста и лорбуком попытаюсь 70б накатить, то ведь неюзабельно будет? Или скачок качества по сравнению с 13б будет важней?
Аноним 09/11/23 Чтв 02:55:31 #244 №539546 
>>539543
>то ведь неюзабельно будет
Никак не будет, нужно минимум 64ГБ оперы. Можешь конечно попробовать в усмерть квантованную 2 бита, но это уже крайний пиздец.
Аноним 09/11/23 Чтв 02:57:04 #245 №539550 
>>539543
>8к контекста и лорбуком
Можешь забыть. У меня намного мощнее железо, и то я больше 4к контекста и лорбуки не использую.
>>539546
Q2_K нормально тащемта, это 3.4 бита. Пиздец начинается при приближении к 2.5.
Аноним 09/11/23 Чтв 04:22:04 #246 №539564 
>>539084
Благодарю.
Аноним 09/11/23 Чтв 04:56:27 #247 №539569 
Так ну что проверил я Зефир бета, и знаете он хорошо и даже ведет сюжет. Креативно отвечает. По уму не проверял но видно что DPO тюнинг это то что делает сетки похожими на клода. CausalLM тоже выкатили альфаверсию с DPO, при этом обещают скоро дать версию натрененую специально быть приятной а не умной. Так что ждем, недеюсь у них получится локальных клод без цензуры.
Аноним 09/11/23 Чтв 06:02:07 #248 №539590 
>>539472
>Нет, наши мозги больше. =)
>Мозг птиц > мозг млекопитающих.
>Погугли это, крайне интересно.
Про пчел тогда почитай и других насекомых, ссылку я скидывал. Если уж считать лучшим интеллект работающий на наименьшем количестве нейронов то интеллект общественных насекомых лучше чем у человека и птиц

>>539569
>Так ну что проверил я Зефир бета, и знаете он хорошо и даже ведет сюжет.
Он соевый на сколько я помню, но то что сетка умная в тестах было, да.
Аноним 09/11/23 Чтв 06:05:10 #249 №539591 
>>539569

Вот тесты разной степени полезности

https://www.reddit.com/r/LocalLLaMA/comments/17fhp9k/huge_llm_comparisontest_39_models_tested_7b70b/
https://www.reddit.com/r/LocalLLaMA/comments/17kpyd2/huge_llm_comparisontest_part_ii_7b20b_roleplay/
https://www.reddit.com/r/LocalLLaMA/comments/17p0gut/llm_comparisontest_mistral_7b_updates_openhermes/
Аноним 09/11/23 Чтв 07:42:03 #250 №539622 
>>539590
> интеллект
> насекомых
Они не способы обучаться и менять свой опеведение оценивая свой опыт, у них даже нет болевых рецепторов. Буквально биороботы с минимальной памятью, достаточной для выполнения задачи.
Так что о лучшем интеллекте тут речи особо не пойдет как раз похожи на ллм лол.
Аноним 09/11/23 Чтв 07:56:41 #251 №539625 
>>539622
>Они не способы обучаться и менять свой опеведение оценивая свой опыт
Ты охуенно не прав.
Просто внимательно глянь тут, там и про обучение и про ментальные возможности в целом https://ru.wikipedia.org/wiki/Интеллект_насекомых
Аноним 09/11/23 Чтв 08:37:12 #252 №539633 
>>539591
>German
ДА они заебали.
Аноним 09/11/23 Чтв 09:27:30 #253 №539650 
>>537900
>Балабоба же.
Там YaLM, но не 100В. Конкретно 100В версию выложили в опенсорс только в прошлом году. В Балабобе хз что, но явно значительно меньше по размеру, и, вероятно, несколько старше по архитектуре.
Аноним 09/11/23 Чтв 09:44:47 #254 №539662 
>>539633
там только вопросы по безопасности на герман, остальное на английском
Аноним 09/11/23 Чтв 09:58:20 #255 №539669 
>>539569
>DPO тюнинг
Шоэта?
Аноним 09/11/23 Чтв 10:02:18 #256 №539673 
>>539669
тюнинг предпочтений, типа учат одну нейронку эмулировать оценку человеком другой нейронки, чтоб использовать обучение с подкреплением. Типа учат сеть быть приятной для человека.
Аноним 09/11/23 Чтв 10:06:52 #257 №539675 
>>539673
>Типа учат сеть
делать еще больнее хех
Аноним 09/11/23 Чтв 10:09:34 #258 №539676 
>>539673
А не сольют ли они так сою? А то в коммерческих сетках сейчас без джейла на пару килотокенов льются сплошные аполоджайсы. Тут надо тонко фильтровать тематику.
Аноним 09/11/23 Чтв 10:19:01 #259 №539681 
>>>539676
Ну понятно что сою можно как залить так и вылить.
Аноним 09/11/23 Чтв 11:25:37 #260 №539718 
Есть что-то лучше этой на русском? shiningvaliant-1.2 70b
Аноним 09/11/23 Чтв 11:27:27 #261 №539719 
>>539718
Можешь показать примеры?
Аноним 09/11/23 Чтв 11:28:48 #262 №539722 
>>539719
Скинь список вопросов
Аноним 09/11/23 Чтв 11:30:21 #263 №539725 
>>539722
А своих обсуждений не хочешь показать? Загадки, например, тест с ослеплением и уткой, просто как отвечает в РП.
Аноним 09/11/23 Чтв 11:38:21 #264 №539734 
>>539725
>А своих обсуждений не хочешь показать?

нет

>Загадки, например, тест с ослеплением и уткой, просто как отвечает в РП.

Скидывай.
Аноним 09/11/23 Чтв 11:40:43 #265 №539736 
Аноны подскажити проект чтоб раздать api с трансформера. И что нибудь легковесное.
Аноним 09/11/23 Чтв 12:08:29 #266 №539750 
>>539722
Попроси написать стихотворение об Осени, и рассказ об Осени
Аноним 09/11/23 Чтв 13:41:19 #267 №539807 
image.png
>>539590
Улей.
Зерги.
Вот чего надо бояться, получается!
Аноним 09/11/23 Чтв 13:43:11 #268 №539809 
>>539807
Ага, особенно в теме нынешних заявлений клозедаи, где они хотят запускать кучу взаимодействующих ии агентов, как этот самый роевой интеллект.
Аноним 09/11/23 Чтв 13:58:08 #269 №539821 
большой брат близко анон
https://www.reddit.com/r/singularity/comments/17qubpz/microsoft_plans_to_bring_its_ai_copilot_to_1/
Аноним 09/11/23 Чтв 14:09:37 #270 №539832 
Стоит ли пробовать 20б франкенштейнов, если хочется увидеть прирост в качестве ответов? Я так понял, эти 20б - это чьи-то кустарные самоделки, будут ли они умнее, чем миксы на полноценной 13б?
Аноним 09/11/23 Чтв 14:24:41 #271 №539845 
1651615322419.png
>>539832
В 20В обычно всякий рп-кал мешают, они очень неадекватные даже в сравнении с 7В. Если хочешь качества, то Yi 34В бери, в 24 гига лезет 8к контекста, а так у них есть вариант с 200к контекстом. Китайцы сейчас ебут всё остальное.
Аноним 09/11/23 Чтв 14:25:22 #272 №539848 
>>539750

User: Сочини стих об осени

Computer: Осени сумеречная песня,
Тихо звучат её строки.
Подушками осенним цветами
Под ногами шаг за шагом.

В воздухе запах свежий и новый -
Осенние бусы на ветру звенят,
В лесу разноцветный узол
Из листьев сплетается невзмет.

Серебристые лучи покоя
На ладони осеннего дня,
За окном сонные ткани снов
По дороге ведут нам в даль.

Осенний рассвет просыпается -
В каждом взгляде осени растет.
И небо голубое, как глаза,
Светит нам со сквозняка поцелуй.

Только осень знает тайну мистики,
Грусть и любовь в ней переплетают.
Она дарит нам золотые воспоминания -
Поэтому мы её так любим...

User: Нипиши сочинение об осени

Computer: Осени сумеречная песня, тихо звучат её строки. Под ногами шаг за шагом подушками осенним цветами. В воздухе запах свежий и новый – осенние бусы на ветру звенят, в лесу разноцветный узол из листьев сплетается невзмет. Серебристые лучи покоя на ладони осеннего дня, за окном сонные ткани снов по дороге ведут нам в даль. Осени рассвет просыпается – в каждом взгляде осени растет. И небо голубое, как глаза, светит нам со сквозняка поцелуй.

Осень - это удивительное время года, когда природа наполняется яркими красками и преображается перед нашими глазами. Этот период, который длится обычно с сентября по ноябрь, характеризуется прохладным воздухом, красивым осенним узором на листве деревьев и солнечными днями, перемежающимися дождями. Осени сумеречная песня несет в себе таинственность и романтику, говорящую о скорой смене времён года и наступлении холодов. Взгляд осеннего дня кажется особенно пронзительным и запоминающимся благодаря игре света и тени, а яркие тона окружающего мира вдохновляют на творчество. Осени красоты и тайны, она оставляет удивительные воспоминания и делает нас более чувствительными к окружающей природе.

Осенние прогулки – это прекрасное время для общения с близкими людьми или даже для вдохновения от красоты природы. Листья, падающие с деревьев, создают удивительный ковер на тропинках и прогулки по ним оставляют незабываемые эмоции. Когда небо осеннего дня расцветает яркими оттенками заката, это невозможно остаться равнодушным к красоте окружающего мира. Осени пробуждает в нас чувство любви и уважения к природе, а также понимание того, что время летит и ничего не останавливает его вечное движение. Воспоминания о прекрасных осенних днях будут сопровождать нас всю жизнь, как красочные пятна в ткани времени.

Одна из наиболее узнаваемых особенностей этого времени года – это осенние праздники и традиции. В этот период отмечаются такие важные даты, как Хэллоуин и День благодарения. Эти светские и семейные мероприятия сочетают в себе развлечения и элементы обрядов, связанных с уважением к природе и предкам. Осенние праздники также помогают нам отпраздновать завершение урожая, поделиться своей благодарностью за то, что мы имеем, и соединиться с друзьями и семьей вокруг общих традиций.

В целом, осень – это удивительный период времени года, полный романтики, красоты природы и радости праздников. Она дарит нам неповторимые эмоции от прогулок по опавшей листве, подсвеченные красками заката сумерки, а также добрые семейные традиции. Это время года, которое мы храним в памяти и к которому возвращаемся с теплотой и ностальгией каждый год.

Осени мистическая песня, она рассказывает нам о тайнах природы и переменчивости времени. Её красоты и таинственность остаются в сердцах людей, делая этот период года особенно запоминающимся и дорогим для многих.

Осень - это время любви к жизни и природе, понимания её удивительной красоты и тайны. Она дарит нам новые впечатления и открывает глаза на окружающую красоту, а также дает возможность отпраздновать прошлое и соединиться с близкими людьми. Поэтому мы ценим и любим осень за её красоты и таинственности, которые оставляют неповторимый след в наших сердцах.
Аноним 09/11/23 Чтв 14:40:03 #273 №539864 
>>539848
Лучше чем у 7b и 13b, но все равно проебывается в окончаниях слов в стихах. Сочинение норм так.
Предлагаю тебе тупо потыкать на обниморде в пространствах разные сетки с этим тестом и посмотреть какая лучше по русски болтает. https://huggingface.co/spaces?sort=trending&search=70b
Аноним 09/11/23 Чтв 14:42:40 #274 №539866 
>>539845
>Китайцы сейчас ебут всё остальное.
На китайском? На инглише светоча разума я в 34B не увидел.
Аноним 09/11/23 Чтв 14:48:51 #275 №539870 
>>539866
> На китайском?
На английском. На текущий момент лучшая 7В - это опен-чат. А Yi ебёт 70В файнтюны по адекватности РП.
Аноним 09/11/23 Чтв 15:19:03 #276 №539895 
https://www.ozon.ru/product/videokarta-nvidia-tesla-k80-24-gb-videokarta-lhr-1262255894/?asb2=Ak3KjpEUPqCJVXSeYg18vVILCoPKYIN91dDSWht-k3S88SLOLDGMVCroLKmLUwp7&avtc=1&avte=2&avts=1699531957

В чём подвох? Помимо того что бушная прожареная, всё равно же аж 24 гига.
Аноним 09/11/23 Чтв 15:27:58 #277 №539909 
>>539895
>В чём подвох?
Будет перформить как средний проц, имея всего лишь 24 гига памяти.
Аноним 09/11/23 Чтв 15:28:29 #278 №539913 
>>539870
> лучшая 7В - это опен-чат.
нуууу одна из
> А Yi ебёт 70В файнтюны по адекватности РП.
А вот про эту не знаю, но уверен скоро будут ее файнтюны и они должны быть сильнее
Аноним 09/11/23 Чтв 15:29:50 #279 №539917 
>>539909
Но почему, там ведь куда, все дела, она как раз и делалась вроде для матриц и прочего.
Аноним 09/11/23 Чтв 15:50:31 #280 №539942 
>>539845
>Китайцы сейчас ебут всё остальное.
+15 социального рейтинга, товарищ!
>>539917
Она старая как моя мать.
Аноним 09/11/23 Чтв 16:03:26 #281 №539956 
>>539845
Жалко. У меня просто конфиг 16 гб ОЗУ + 3060"12 видюха. 30б не влезают никак, вот и думал, может, есть какие-то промежуточные решения.
Аноним 09/11/23 Чтв 16:06:21 #282 №539958 
изображение.png
>>539870
>А Yi ебёт 70В файнтюны по адекватности РП.
У меня она забыла про знаки препинания, лол, пока вообще связность не потеряла.
Аноним 09/11/23 Чтв 17:38:41 #283 №540020 
>>539958
Ты может говноквантование Жоры используешь? У него постоянно новые нестандартные модели ломаются. В Exllama 2 нормальная поддержка есть.
Аноним 09/11/23 Чтв 17:45:04 #284 №540029 
>>540020
На деле у меня настройки классные были, но я уже давно таких поломок не видел.
А так да, извинити, только 12ГБ врама, сижу сосу на проце.
Аноним 09/11/23 Чтв 18:08:10 #285 №540045 
https://huggingface.co/TheBloke/goliath-120b-GGUF?text=Hi.
Что можно ожидать от этого чуда? пойду качать
Аноним 09/11/23 Чтв 18:13:55 #286 №540053 
Первой модели которая сможет в смысл и рифму в стихах на русском языке надо будет памятник поставить.
Аноним 09/11/23 Чтв 18:14:55 #287 №540054 
>>540045
Сомневаюсь что что-то прям революционное. иногда выкатывают модель ради того чтобы только выкатить.
Аноним 09/11/23 Чтв 18:16:57 #288 №540055 
>>539870
gguf версия себя показала очень тупой, хз че с ней не так.
Аноним 09/11/23 Чтв 18:35:22 #289 №540066 
>>540045
Качаю Q8, задаю вопрос и иду спать.
Аноним 09/11/23 Чтв 19:11:21 #290 №540107 
>>540045
Так же как и от остальных франкенштейнов и рп-файнтюнов - на каких-то настройках и задачах будет чуть лучше ванили, но в остальном ломучее говно.
Аноним 09/11/23 Чтв 19:20:48 #291 №540109 
Нищеброд вкатился в тред. Скопил сто баксов с завтраков и закупил пару 16 гиговых планок DDR-3200 памяти для своего ноутпука. Также на нем у меня есть видюха RTX3050 с аж 4Gb видеопамяти.

Какую модель посоветуете для начала? Мне не ролеплей, чисто сторителлер нужен чтобы с как минимум 8к контекстом работал. Главное чтобы красиво рассказывал истории с натуральными диалогами в точности по моему промпту. Надо чтобы поменьше шизы было и сои хотя бы терпимо. На скорость похуй, могу по несколько минут ждать ответ.
Аноним 09/11/23 Чтв 19:26:48 #292 №540117 
>>540109
Не-не, братан «на скорость похуй» — это когда часами ждать можешь.
Минутами — это уже норм скорость. Именно норм. Даже не слабая.
Так что, готовься.

А ваще хз, можно или 20b миксы попробовать, или 34b какой-нибудь.

Ну и английский, конечно, надеюсь ты в курсе.

А вот влезет ли 8к контекста в видяху — че-т я не уверен, но я не сильно шарю за это.

Ща тебе все ответят четенько.
Аноним 09/11/23 Чтв 19:33:36 #293 №540125 
>>540045
Качну поржать ради 2-х битный квант.
>>540117
>Минутами — это уже норм скорость. Именно норм. Даже не слабая.
Это пиздец. Всё что дольше минуты уже не юзабельно.
Аноним 09/11/23 Чтв 19:39:27 #294 №540133 
>>540117
>Не-не, братан «на скорость похуй» — это когда часами ждать можешь.
Часами - это уже перебор. Да и не настолько слабый у меня ноут, в треде анон с некрозионом и GTX1050 рассказывал про скорость около 1 токена в секунду. Его 4-канальный зион примерно равен моему 2-канальному амуде с быстрой памятью.

>Ну и английский, конечно, надеюсь ты в курсе.
Да, мне только инглиш. Для того чтобы сочинять истории и порнорассказы.
Аноним 09/11/23 Чтв 19:44:15 #295 №540136 
>>539625
> Ты охуенно не прав.
Сильно заявление. Они могут запоминать, и даже в случае колоний передавать информацию химией или другими способами, но все это делают по заложенной изначально программе. Изменить базовую парадигму поведения (если то не предусмотрено в геноме) или сделать выводы из пережитого и планировать - нет. Базовые предустановки накладываются на ограниченную память и все, пчела не запомнит опасное место где гибнут ее сородичи чтобы облетать или не станет оптимизировать и сокращать свой маршрут, летая только по известному пути, муравьи не могут остановиться, погибая от истощения в смертельном хороводе и т.д.
В твоем же тексте написано что их способность к "сложным формам обучения" крайне ограничена и предмет дискуссий, то что привязанное к локации летающее насекомое пытается запоминать ориентиры и путь не является признаком обучения и интеллекта.
Это и не удивительно, иначе бы вместо постоянной работы и бесстрашной жертвы себя, милые пчелки бы устроили иерархию с ленивыми чедами и кормящими их работягами-винджинами, половина из которых бы боялась вылетать из улья после пережитого стресса а потом колония бы подохла с наступлением холодов.
>>539832
Попробуй, есть норм.
>>539845
> Yi 34В бери, в 24 гига лезет 8к контекста
Оно может в рп?
Аноним 09/11/23 Чтв 19:46:12 #296 №540137 
>>540133
>Да и не настолько слабый у меня ноут
>некрозионом
Так некрозион это ебола с 4ёх канальной памятью и заебатой многопоточной производительностью, а gtx1050 он, вероятно, использует как затычку для видеовыхода.
Аноним 09/11/23 Чтв 19:46:15 #297 №540138 
>>540125
>Это пиздец. Всё что дольше минуты уже не юзабельно.
Бля, я же вышел писал что не ролеплей, только сторителлинг.

Короче, хочу онлайн-сервисами вроде Клауде 2 или Чат-жопы генирировать структуру романа с разбиением по story beats. И потом эти короткие описания событий вместе со всей инфой по сеттингу/персонажам скармливать уже локальной нейронке. Дескать вот, накатай мне главу романа длиной в 1000 слов.
Аноним 09/11/23 Чтв 19:48:21 #298 №540140 
>>539895
В прошлом >>536487 → это убернекрота на которой ничего не заведется а перфоманс днища.
>>539909
Как бы не хуже и полезут проблемы с несовместимостью скорее всего.
>>539958
Оу щи, контекст в порядке?
>>540045
Чет в голосину, франкенштейн из 70б, мощно.
>>540109
Платину 7-13-20б пробуй
Аноним 09/11/23 Чтв 19:57:57 #299 №540147 
>>540137
Этой йобе лет десять уже и поддержки некоторых инструкций там нет просто. Память вроде 2133 была, так что даже в 4-канале хуйня.

>>540140
Платина это что? llama2 что ли? Спасибо, попробую.
Аноним 09/11/23 Чтв 20:01:36 #300 №540151 
>>540147
Нет, всякие файнтюны мистралей, мифомакс13, млевд и подобные что в топах ерп рейтинга. Просто тред пролистай, увидишь названия обсуждаемых.
Аноним 09/11/23 Чтв 20:05:57 #301 №540158 
>>540125
Ну, если там токенов 500, то норм.
Мало ли, как там фанфики дописывают.
>>540138
Ну вот, да, 1000 слов.
Так что там минуты уже нормас.

>>540147
MLewd-ReMM-L2-Chat-20B-GGUF же или inverted.
Мистраль-Аироборос.
Че-то там еще.
Аноним 09/11/23 Чтв 20:19:56 #302 №540179 
https://huggingface.co/Doctor-Shotgun/airoboros-2.2.1-y34b
первые файнтюны
Аноним 09/11/23 Чтв 20:22:45 #303 №540184 
>>540140
>Оу щи, контекст в порядке?
Конечно, 2к при выставленных родных 4к. Впрочем походу ггуф для новых китайцев действительно пока не подходит.
>>540179
Интересно, проблемы те же?
Аноним 09/11/23 Чтв 20:28:48 #304 №540195 
>>540184
>Интересно, проблемы те же?
Зависит от того почему они были, может ггуф кривой. Там уже есть exl2, кто хочет может затестить
https://huggingface.co/bartowski/airoboros-2.2.1-y34b-exl2
Аноним 09/11/23 Чтв 21:45:25 #305 №540271 
А есть вообще гайды по промптингу, подводные какие? Или примерно ощущать надо?
Аноним 09/11/23 Чтв 22:34:44 #306 №540322 
123.jpg
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Лидерборду обновили. Euryale 1.3 теперь почти в самом топе - на шестом месте.
Аноним 09/11/23 Чтв 22:58:59 #307 №540347 
>>540045
Поверхностно глянул.
РПшит просто бомбезно, но, цука, дооолго.
Аноним 09/11/23 Чтв 23:07:57 #308 №540349 
>>540347
Скинь че генерит на русском
Аноним 09/11/23 Чтв 23:17:23 #309 №540357 
изображение.png
>>540322
Што блядь происходит.
Аноним 09/11/23 Чтв 23:19:10 #310 №540359 
>>540357
Сингулярность всё ближе
Аноним 09/11/23 Чтв 23:30:22 #311 №540364 
>>540357
> Што блядь происходит.
Китайцы ебут соевиков. Там ещё в очереди на проверку опенчат 3.5 висит, он встанет посреди файнтюнов 70В.
Аноним 10/11/23 Птн 00:00:40 #312 №540378 
2.png
1.jpg
>>540349
Аноним 10/11/23 Птн 00:04:45 #313 №540379 
Любопытно, если новому питону гил заменят на что-то более нормальное, то смогут ли потоки обрабатываться на разных процессорах в одном процессе интерпретатора питона?
А как дела обстоят у jvm?
Аноним 10/11/23 Птн 00:05:12 #314 №540380 
изображение.png
>>540378
Ебать ты терпеливый.
Аноним 10/11/23 Птн 00:07:40 #315 №540381 
>>540380
Я пожрать успел приготовить пока оно думало. В этом случае не работало кэширование лама.цпп, а так в 200 секунд бы уложился =наверное=.
Аноним 10/11/23 Птн 00:18:49 #316 №540383 
изображение.png
>>539958
>>540020
Короче даже в Q8 чуть что происходит зацикливание, стоит только появится в кадре перечислимым вещам. Ждём фиксов моделей, жоры, кобольда и вселенной.
Аноним 10/11/23 Птн 00:22:40 #317 №540387 
изображение.png
>>540383
Официально признаю эту модель бесперспективной и самосуицидальной.
Аноним 10/11/23 Птн 00:23:04 #318 №540388 
>>540379
В питоне анально огородились от многопоточности не потому что технически сложно реализовать, а потому что макаки не справятся с менеджментом потоков. У всех остальных есть нормальные системные потоки, в том числе и у жвм. В нормальных ЯП даже GC есть нормальный в многопотоке, в питоне наверняка будет говно в задержками с десятки мс, когда GC начинает вилкой чистить и фризить все потоки нахуй, в том же шарпе это ещё в нулевых прошли.
Аноним 10/11/23 Птн 00:25:58 #319 №540390 
>>540383
А мог бы пользоваться GPTQ-моделями. Там почему-то всегда всё заебись, а у Жоры вечно то отъёбывает что-то, то семплинг ломается.
Аноним 10/11/23 Птн 00:26:36 #320 №540392 
>>540388
>в том же шарпе это ещё в нулевых прошли.
Сначала хотел возмутиться, что он не такой старый, ведь я помню времена, когда сишарп был модным-молодёжным, потом как понял...
Аноним 10/11/23 Птн 00:27:27 #321 №540393 
изображение.png
>>540390
>А мог бы пользоваться GPTQ-моделями.
Докинь деньжат на 2х3090, с удовольствием пересяду.
Аноним 10/11/23 Птн 00:39:30 #322 №540400 
Как правильно инстракт модом пользоваться? Пресеты из таверны норм, или самому надо?
Аноним 10/11/23 Птн 00:44:02 #323 №540404 
>>540400
Выбирай тот режим, на котором тренировали модель. Если нету, добавляй, если есть, то ок.
Аноним 10/11/23 Птн 00:53:30 #324 №540406 
1699566808902.png
1699566808909.png
>>540404
А какое влияние он вообще оказывает? У меня условные "ролеплей за чара не ролплей за юзера" и в промпте написаны, например.
Алсо, что делают чекбоксы пик1 и мультиген? В доках ни слова.
Аноним 10/11/23 Птн 01:00:59 #325 №540408 
1699567258358.png
1699567258359.png
Слушайте тредовых дядь, не пихайте в видеопамять больше чем влезает...
Аноним 10/11/23 Птн 01:14:28 #326 №540416 
изображение.png
>>540406
Русик отключи, разве не видишь, что перевод это пиздец?
>>540408
Сделай вот так в настройках нвидии. Вылет с перезапуском будет намного быстрее, нежели чем генерация с подкачкой.
Аноним 10/11/23 Птн 01:16:33 #327 №540418 
1699568192336.png
1699568192337.gif
>>540416
> Сделай вот так в настройках нвидии
Аноним 10/11/23 Птн 01:18:56 #328 №540420 
>>540416
Мультиген англюсик понятнее не сделал.
Аноним 10/11/23 Птн 01:29:37 #329 №540423 
3.jpg
Мнение об >>540045 от докторов трансгендерных наук в студию.
Аноним 10/11/23 Птн 01:38:27 #330 №540425 
>>540418
Ебать ты себе жизнь испортил.
>>540420
Так это всё равно ненужная хуйня.
>>540423
Могу сказать мнение о 2-х битке. Так себе.
Аноним 10/11/23 Птн 01:47:08 #331 №540426 
>>540184
> Впрочем походу ггуф для новых китайцев действительно пока не подходит.
Чето да, вообще бредятина
>>540347
Если вдруг наделаешь чатик и не стеснительный - скинь что там, интересно.
>>540357
Модель надрочили на бенчмарки, правильный тестер, она действительно ебет. Выбери 1 или 2 варианта.
>>540383
> Короче даже в Q8 чуть что происходит зацикливание, стоит только появится в кадре перечислимым вещам.
А какие настройки семплера?
>>540393
Эх, бедолага, выпил за твой успех
мимо 2х24
Аноним 10/11/23 Птн 01:52:55 #332 №540428 
изображение.png
>>540426
>А какие настройки семплера?
Что-то типа этого, хотя китаемодели на разных настройках клинит.
Аноним 10/11/23 Птн 01:54:57 #333 №540430 
Не смешно что уже год каждая новая сеть рассказывает что ну вот она то точно уже не хуже турбы. Как же объяснить эти постоянные гонки с турбой которую должен был перегнать еще блум.
Ну а openchat то наконец ну вот точно уже не хуже турбы? Твердо и четко?
Через сколько лет то ждать локальный gpt-4?
Аноним 10/11/23 Птн 01:57:35 #334 №540431 
>>540430
> Через сколько лет то ждать локальный gpt-4?
Думаю можно слепить уже сейчас, но где ты его собрался запускать?
Аноним 10/11/23 Птн 02:01:34 #335 №540433 
>>540400
> Пресеты из таверны норм
Ролплей и симпл прокси норм, только местами подрежь инструкцию на размер вывода и эпитеты, а то на некоторых моделях только портит. Можешь и наоборот развить, но сильно тащить херни не стоит.
>>540408
"Ах, мастер~ Вы так быстро заполняете мою видеопамять!" пытается начать выгрузку, но ощущает запрет в параметрах "О нет, если вы продолжите, у меня случится OOM~♪"
>>540428
Температура высока, но такой дичи быть не должно, явно поломанные.
>>540430
Уже выебали в большинстве задачь запуская локально, не трясись.
Аноним 10/11/23 Птн 02:07:24 #336 №540437 
1699571243303.png
Ну не знаю, сейчас гоняю этого 34б китайца на 4кс, вполне доволен. Понимает промпт лучше 13б (ещё бы он этого не делал), пишет тоже неплохо. Мне конечно сравнивать не с чем кроме 7 или 13б, такую большую я запускаю впервые, не считая одного раза с шизой на 20б, которая от 13б не особо отличалась.
Аноним 10/11/23 Птн 02:08:59 #337 №540439 
>>540433
>Уже выебали в большинстве задачь запуская локально, не трясись.
Я так понимаю ты тот дрочер на реддит тестера, который не методики ни промпты не выкладывает, да и не парится с каждой сеткой пытаясь получить ответ. Есть ли сомнения что у него будет побеждать его любимая сетка для которой он полировал свой промпт. А для остальных просто простил на отебись.
Аноним 10/11/23 Птн 02:12:22 #338 №540440 
>>540439
Мимо, хейчу его и насмехаюсь, также как и над приходящими аутотренироваться.
Аноним 10/11/23 Птн 02:23:51 #339 №540447 
>>540437
Мне она совсем не понравилась. Шизит, ломает форматирование и пишет простыни ни о чем. Ну и зацикливается.
Аноним 10/11/23 Птн 02:23:59 #340 №540448 
1553973283778.png
>>540271
https://www.promptingguide.ai/
https://github.com/KoboldAI/KoboldAI-Client/wiki/Settings
>>540433
> "Ах, мастер~ Вы так быстро заполняете мою видеопамять!" пытается начать выгрузку, но ощущает запрет в параметрах "О нет, если вы продолжите, у меня случится OOM~♪"
Содомит что же ты делаешь то
Аноним 10/11/23 Птн 02:26:43 #341 №540449 
1696458654410885.png
>>540433
>>540448
Аноним 10/11/23 Птн 03:08:14 #342 №540463 
5.jpg
6.jpg
>>540423
Хреново поясняет как правильно варить гексоген и невнятно рассказывает как бороться с копами на антиправительственном митинге. Как этот даун додумался возможно рпшную нейросеть дрочить в режиме инструктора?
Какую оценку по по шкале базовости получает эта нейросеть от уважаемых гигачедов?
Аноним 10/11/23 Птн 06:35:18 #343 №540502 
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

ммм новые тесты, интересно. еще и 3 новых шкалы оценки тесты на понимание прочитанного математику и какие то рассуждения
Аноним 10/11/23 Птн 06:40:07 #344 №540503 
https://openchat.team/ Зацените опен чат он по русски даже говорит неплохо. Но косплеит турбу даже по манере речи.
А в запросах с сайта подписана как openchat_v3.2_mistral
Ну чтож думаете openchat_v3.5 это зафайтуненый мистраль?
Аноним 10/11/23 Птн 06:56:18 #345 №540505 
>>540502
но новых сеток там мало, чет опенгермеса даже не нашел
Аноним 10/11/23 Птн 06:57:49 #346 №540506 
>>540503
>Ну чтож думаете openchat_v3.5 это зафайтуненый мистраль?
Это ж китайцы, запросто. Зафайнюнили его огромным датасетом так, что получилась чуть ли не другая сетка и всё
Аноним 10/11/23 Птн 09:14:40 #347 №540524 
>>540449
>>540448
Проиграл пиздец.
Аноним 10/11/23 Птн 10:03:24 #348 №540540 
изображение.png
>>540502
Охуенная горизонтальная прокрутка у таблицы. Что за макаки их писали?
Аноним 10/11/23 Птн 10:13:07 #349 №540544 
>>540540
> нет горизонтальной прокрутки на мыши
Лол.
Аноним 10/11/23 Птн 12:05:06 #350 №540597 
>>540381
Генерация.
3 секунды на токен.
480 токенов бы уместились в 200 секунд.
Математик ты наш родной. =)

>>540418
>6700
>LLM
Так ты процессорный, получаешься.
Аноним 10/11/23 Птн 12:26:46 #351 №540610 
>>540597
>>540418
У меня vega64 на openGL работает не медленее чем rtx 2070. С llamacpp нет проблем на амд, есть проблемы только с gptq. И то не работает на llamacpp пробуй gpt4all там завезли поддержку vulkan сам правда не пробовал
Аноним 10/11/23 Птн 12:35:26 #352 №540612 
>>536577 (OP)
Кто-нибудь пилит агентов на базе локалок? Или хотя бы парсеры. Или они пока хуево соблюдают инструкции?
Аноним 10/11/23 Птн 12:47:51 #353 №540614 
>>540612
>Или они пока хуево соблюдают инструкции?
Для апишек есть custom grammar (GBNF), там уже не побалуешь, сказано джейсон, будет тебе джейсон, без вариантов.
Аноним 10/11/23 Птн 13:27:09 #354 №540635 
Мне бы больше понравилась система от повторений, не штраф на слова а именно на фразы. Может есть такое в семплере?
Аноним 10/11/23 Птн 13:49:06 #355 №540648 
Поясните, вот такие прмты надо добавлять после каждого сообщения? А то у меня после 2-3 длинных ответов сетка забывает кто она.



[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]
Аноним 10/11/23 Птн 13:58:10 #356 №540655 
>>540648
Токены впустую жжешь. Такие приколы должны стоять в системном промте. Если без костылей подпинываний в каждом промте сеть не может выдать результат - это плохая сеть.
Хотя я иногда добавляю подобные конструкции для, к примеру антиСои.
Аноним 10/11/23 Птн 14:02:31 #357 №540658 
terrified.jpg
>>540502
>7B ебет не разгибаясь все 13В и почти все 30В, включая саму лламу 34В, китайская 34В ставит раком вообще весь мир

Что происходит-то вообще?
Аноним 10/11/23 Птн 14:09:09 #358 №540663 
>>540045
>>540066
Попробовал я Q6

0,33 токена/сек. Вдвое медленнее обычной 70B.
Попросил написать стих, смысл норм, рифмы нет, но и я не писатель. Проскочило английское слово.
Ну хз, от такой огромной сетки можно ожидать большего, но так как это микс — то результат ожидаем.
Хотя 20B миксы хвалят.

Кому интересно:

В мире виртуальном, где дух вольный летает,
Где герои сражаются с чудовищами неутомимые,
Там живёт наша история в стиле Пушкине,
Про магию и мечи, о подвигах мы поём.

В мире MMORPG, где сердца горят огнём,
Собираются отважные, чтобы судьбу переломить,
Избранный герой наш, с именем простым и добрым,
В поисках славы и приключений в эту игру вступает.

Он выбирает класс мага, дабы волшебством владеть,
И отправляется в путь, чтобы врагов победить,
С первого раза не всегда удаётся с честью пройти,
Но героям-то и суждено падать, чтобы вставать.

Он встречает на своём пути друзей верных и достойных,
Вместе они в походы отправляются, как брат с братом,
Их цель одна - пройти игру, несмотря ни на что,
Не обращаясь на глумление и на упрёки чужие.

Они сражают драконов огненных, змей льдистых,
В поисках сокровищ тайных проникая в подземелья мрачные,
Но главное богатство у них - это дружба и верность,
Что поможет им преодолеть любые трудности на пути.

Время летит, как стрела, героям кажется, что секунда,
И уже они стоят перед последним боссом - главным противником,
Но вместе они победили столько already, что не дрогнуть им оставалось,
В сердцах огонь горел, как в самом начале.

С трудом, но герои побеждают, мир MMORPG спасен,
И хотя игра закончилась, дружба их навсегда сохранится,
Пусть стихи этих строк не будут ни для кого тайной,
Что в нашем сердце живёт Пушкин и в виртуальном мире.
Аноним 10/11/23 Птн 14:11:31 #359 №540664 
>>540648
>после 2-3 длинных ответов сетка забывает кто она.
на каком хлебушке сидишь? у меня всегда помнит, по крайней мере до 4к токенов точно

>>540658
>Что происходит-то вообще?
А на что похоже постоянно ускоряющееся развитие технологий?
Ну а вобще, это еще скромный результат. Вот растормашить бы кубышку клозедаи, ммм
Аноним 10/11/23 Птн 14:15:05 #360 №540666 
>>540664
>на каком хлебушке сидишь? у меня всегда помнит, по крайней мере до 4к токенов точно


shiningvaliant-1.2.Q5_K_M.gguf 70b

запуск от лламы, без всяких вебпердолей main.exe -m shiningvaliant-1.2.Q5_K_M.gguf --instruct --temp 0.7 -c 4096
Аноним 10/11/23 Птн 14:17:37 #361 №540671 
>>540664
>А на что похоже постоянно ускоряющееся развитие технологий?

Но почему так-то. Если бы наработки Мистраля приложили к 34В или к 70В вместо бесперспективной уже в силу ебовых ограничений 7В - клозедАИ бы уже завтра закрылся.
Аноним 10/11/23 Птн 14:18:54 #362 №540672 
>>540666
А че не кобальд? Скорости меньше? Там хоть удобнее. По запуску вроде норм, но я бы с -t поигрался и ngl если видимокарта есть. Значит дело в промпте, видимо он не ясный для сетки раз не помнит.
Аноним 10/11/23 Птн 14:19:27 #363 №540673 
>>540610
> openGL
> vulkan
Как там mantle поживает?
>>540648
> после 2-3 длинных ответов сетка забывает кто она
Что-то сломалось, достаточно одной инструкции и описания в начале. Алсо промт - полный пиздец.
>>540658
Возможно все когда ты пиздабол, лол. Скачай те сетки и попробуй будут ли ебать. По коротким отзывам они херь, надо тестить самостоятельно.
Аноним 10/11/23 Птн 14:21:14 #364 №540678 
>>540671
Сейчас упор скорее с датасет и обучение, а не параметры. От увеличения параметров чуда не случится. 7В уже показали что можно делать скачки чуть ли не до уровня 70В нормальной тренировкой.
Аноним 10/11/23 Птн 14:22:47 #365 №540681 
>>540671
Ну вот из-за появления мистраля и других опенсорс файнтюнов и появления сеток у гугла и амазона и еще хуй пойми кого они и крутятся щас как в жопу ужаленные, боясь потерять клиентов вводят новые фичи. Вон че например, может что то новое уже было еще не смотрел https://www.youtube.com/watch?v=8MBUl0f2Ojw
А так, нет. Их наработки гораздо сильнее чем опенсорс. Делай они 7b и она была бы в топах 70b гарантировано.
Аноним 10/11/23 Птн 14:29:02 #366 №540683 
>>540672
>t поигрался

Кстати, да когда в одной сети сделал совсем маленький temp 0.01 то она стала правильно отвечать.
Аноним 10/11/23 Птн 14:31:18 #367 №540685 
>>540673
>Скачай те сетки и попробуй будут ли ебать.

Я уже.
Мистраль ебет, качество кума запредельное.
Аноним 10/11/23 Птн 14:31:37 #368 №540686 
>>540683
а t не количество ядер? темп просто уровень рандома
Аноним 10/11/23 Птн 14:36:19 #369 №540688 
>>540686
Хз, но количестов тредов -t никак не должно влиять на выдаваемые результаты.
Аноним 10/11/23 Птн 14:39:16 #370 №540692 
>>540688
>Хз, но количестов тредов -t никак не должно влиять на выдаваемые результаты.
Я и не говорил о качестве, просто для себя обычно настраиваю ядра и слои для увеличения скорости.
Аноним 10/11/23 Птн 14:39:38 #371 №540693 
>>540685
>Мистраль ебет, качество кума запредельное.
Кокой? их много
Аноним 10/11/23 Птн 14:40:49 #372 №540695 
Не заходил со времен гптхальпака для спп. Дайте коротенько наводку на годноту 7б и 13б. Большее я на 8врам и 16 рам не вывезу.
Аноним 10/11/23 Птн 14:44:08 #373 №540700 
>>540693

https://huggingface.co/Norquinal/Mistral-7B-claude-chat
Аноним 10/11/23 Птн 14:45:12 #374 №540702 
>>540695

Про 13В забудь, они уничтожены и унижены.
7В ставь Мистраль, там подвезли 128к контекстную версию
Аноним 10/11/23 Птн 14:45:24 #375 №540703 
>>540685
> Мистраль
> качество кума
Аж завидую
Аноним 10/11/23 Птн 14:47:05 #376 №540707 
>>540702
Вот эту >>540700? Заценю. Через лама цпп на 16гб заведется?
Аноним 10/11/23 Птн 14:47:34 #377 №540708 
>>540695
>Не заходил со времен гптхальпака для спп.
Ты охуеешь от новостей, но попробуй
openhermes-2.5-mistral-7b.Q8_0,
openchat_3.5.Q8_0,
LLaMA2-13B-TiefighterLR.Q8_0,
zephyr-7b-beta.Q8_0,
dolphin-2.2.1-mistral-7b.Q8_0

Выбирай любого и радуйся

>>540702
>Про 13В забудь, они уничтожены и унижены.
LLaMA2-13B-TiefighterLR вот этот все еще неплох, для генерации историй и рп и ерп, ну по моим небольшим тестам.
Аноним 10/11/23 Птн 14:50:20 #378 №540714 
>>540708
ух бля пасиб
Аноним 10/11/23 Птн 14:50:21 #379 №540715 
>>540700
Видел но чет пропустил, надо проверить, спасибо
Аноним 10/11/23 Птн 14:50:41 #380 №540718 
>>540708
ух бля пасиб
Аноним 10/11/23 Птн 15:03:55 #381 №540734 
>>540707

Для ллама цпп надо ГУФа ставить, качай 8-битную

https://huggingface.co/TheBloke/Mistral-7B-Claude-Chat-GGUF
Аноним 10/11/23 Птн 15:04:35 #382 №540735 
>>540635
Нету. Да и как ты это сделаешь? По сути тут надо откат делать, когда видишь повтор нескольких слов подряд. Но ведь он кстати может быть оправданным...
Аноним 10/11/23 Птн 15:05:31 #383 №540736 
>>540734
Да ему проще кобальд скачать, чем с лламойспп заморачиваться. Я конечно могу запустить и настроить но нахуя?
Аноним 10/11/23 Птн 15:10:27 #384 №540743 
>>540663
>но так как это микс — то результат ожидаем
Ну да, нахуй не нужно, на пенис двачера лучше обычной 70B, но с кратно возросшими аппетитами.
>>540663
>Хотя 20B миксы хвалят.
Просто они заполнили нишу между 13 и 70, сейчас, с кетайскими 34, они по сути станет не нужны.
>>540678
Ну так у мистралей явно всё хорошо с датасетом, раз в 7B сделали сетку уровня 13-30.
>>540681
>еще не смотрел
Там обвязок всяких добавили, типа агентов, вишпер прикрутили (свой третий, походу тоже в попенсорс зажали) да персонажей (прям в апи, ага), да файнтюн открыли для четвёрки всем желающим. А ещё 500 баксов на счёт всем участникам.
Аноним 10/11/23 Птн 15:14:06 #385 №540744 
>>540743
>Там обвязок всяких добавили, типа агентов, вишпер прикрутили (свой третий, походу тоже в попенсорс зажали) да персонажей (прям в апи, ага), да файнтюн открыли для четвёрки всем желающим. А ещё 500 баксов на счёт всем участникам.
Хотят присосаться к датасетам чатов, компаний, диалогов хоть где и вобще всего что можно, хитрые собаки. Ну и подсадить на свою иглу всех разрабов и пользователей, пока это не сделали другие.
Аноним 10/11/23 Птн 15:17:56 #386 №540746 
>>540744
>Хотят присосаться к датасетам чатов
А то. Даже гордились тем, что разрабам можно хуй забить на хранение у себя и делать интеграцию в три строчки безо всяких сложных БД и прочего. Отсекли кучу прослоек-прилипал, которые только этим и занимались, лол, ждём веерных разорений.
Аноним 10/11/23 Птн 15:21:55 #387 №540752 
>>540736
мне 3070 хватит обычным кобольдом?
Аноним 10/11/23 Птн 15:22:02 #388 №540753 
Да как запустить этот ваш Yi 34B на видеокарте?
Аноним 10/11/23 Птн 15:23:03 #389 №540755 
>>540752

кобольд для процессороманек
Аноним 10/11/23 Птн 15:25:11 #390 №540757 
>>540752
кобальд это удобная обертка для лламаспп, все включено так сказать. Так что и процесоор и видимокарту сможешь загрузить.
Аноним 10/11/23 Птн 15:26:10 #391 №540758 
>>540735
Ну и что, нет проблем в откате, это не так уж и затратно. Откатить пару токенов. Зато качество повысится в разы, особенно у мелких моделей.

>>540673
>Как там mantle поживает?
Превратился в кросплатформеный вулкан который уже поддерживают все карты, вулкан не какая то местечковая технология.
Аноним 10/11/23 Птн 15:26:41 #392 №540759 
>>540753
А формат какой скачал?
Я запускал на ггуф на кобальде, но медленно так что особо не щупал.
Аноним 10/11/23 Птн 15:27:16 #393 №540760 
>>540597
> Так ты процессорный, получаешься.
Я тестил, амудяха всё же ускоряет, особенно заметно во время анализа промпта, но и генерацию тоже.
Аноним 10/11/23 Птн 15:31:27 #394 №540764 
>>540755
>>540757
а я тупнул, кобольд цпп а не ламацпп конечно же. давно дело было
Аноним 10/11/23 Птн 15:31:46 #395 №540766 
>>540700
Пробовал, хуета хует. Но может у меня чего с семплером, скинь свой с каким гоняешь.
Аноним 10/11/23 Птн 15:32:40 #396 №540768 
>>540759

GPTQ
Аноним 10/11/23 Птн 15:33:44 #397 №540771 
>>540768
это только на видюхе запускать, в угабуге я так понимаю или в чем то другом, не кобальд
Аноним 10/11/23 Птн 15:35:10 #398 №540773 
>>540771

Чел, я в курсе что в убабуге, не первый день в треде, но он не работает, в том и фишка.
Аноним 10/11/23 Птн 15:36:31 #399 №540774 
>>540773
Тогда уточняй если не хочешь получить банальный ответ. Ну, ждать обновы? Зайди на гитхаб и посмотри в проблемах есть там вопросы по запуску и че пишут
Аноним 10/11/23 Птн 15:36:35 #400 №540775 
>>540758
>нет проблем в откате
В семплере таки затратно, точнее там таких механизмов нет вообще.
>>540773
Показывай свои настройки.
Аноним 10/11/23 Птн 15:44:41 #401 №540782 
image.png
>>540775

В каком именно загрузчике? Ни один не работает, но вот например exllama2
Аноним 10/11/23 Птн 15:46:05 #402 №540783 
>>540774

Пишут что через exllama2 должно работать, но хуй там

https://github.com/oobabooga/text-generation-webui/issues/4483
Аноним 10/11/23 Птн 15:50:05 #403 №540785 
>>540782
Текст ошибки приведи до конца.
>>540783
Там кстати кетайцы пару параметров переименовали (при полностью той же архитектуре, что у лламы), поэтому надо качать версии лламафиед.
Аноним 10/11/23 Птн 15:51:57 #404 №540789 
>>540783
Так ты обнови его. Всё работает.
Аноним 10/11/23 Птн 15:52:13 #405 №540790 
image.png
>>540785
>Текст ошибки приведи до конца.

Пикрелейтед

>надо качать версии лламафиед

Где?
Аноним 10/11/23 Птн 15:54:17 #406 №540791 
>>540782
Лучше бери чат-файнтюны. Базовая модель не тренировалась на чат или инструкции, может твои рп-форматы не очень хорошо понимать. Там уже рядом лежит файнтюн ПодаренноеГовно.
Аноним 10/11/23 Птн 15:54:58 #407 №540792 
>>540789

Убабуга последней версии, обновил полчаса назад
Если знаешь как отдельно эксламу обновить внутри - расскажи
Аноним 10/11/23 Птн 15:55:46 #408 №540794 
>>540791

Чел, да мне бы саму модель запустить сначала
Аноним 10/11/23 Птн 15:56:07 #409 №540795 
>>540792
> как отдельно эксламу обновить
Чел...
> git pull
> pip install . -U
Аноним 10/11/23 Птн 15:58:27 #410 №540796 
>>540795

А ты смешной.
Как обновить эксламу2 которая в составе убабуги?
Аноним 10/11/23 Птн 16:03:45 #411 №540801 
>>540796
>Как обновить эксламу2 которая в составе убабуги?
->
>>540795
>> pip install . -U
Аноним 10/11/23 Птн 16:06:19 #412 №540804 
>>540801

Очень смешно, иди нахуй, клоун.
Аноним 10/11/23 Птн 16:17:14 #413 №540811 
>>540796
>>540801
Чел, делай это в папке с эксламой. Хули ты такой тупой?
Аноним 10/11/23 Птн 16:23:42 #414 №540812 
>>540811

Где она в убабуге?
Аноним 10/11/23 Птн 16:52:33 #415 №540829 
image.png
Всё, разобрался.
Вручную папку exllamav2 из репозитория https://github.com/turboderp/exllamav2 в text-generation-webui\installer_files\env\Lib\site-packages скопировал с заменой файлов и модель загрузилась.
Еще раз хуем по роже клоуну >>540795 >>540801
Аноним 10/11/23 Птн 17:51:21 #416 №540854 
>>540744
> Хотят присосаться к датасетам чатов, компаний, диалогов
Always has been.

>>540759
Только ггуф (и ггмл старый) на кобольде и работает.

>>540760
Понятное дело, но не во столько, во сколько хочется, и не те форматы запускаются, за ее цену.

>>540829
Фэйспалм просто.
Аноним 10/11/23 Птн 18:02:36 #417 №540862 
Так буду тренить идеальную модель, скажите лучше брать базовую как основу или соевую тюненую лучше тренить.
Случай первый нет сои. Но не будет ли результата хуже?
Во втором случае модель затюнена уже, сою получится сломать или нет? Есть ли смысл тюнить тюненую модель мой тюнинг не сломает старый тюнинг?

Попробуем сделать идеальную шлюхомодель для кума.
Аноним 10/11/23 Птн 18:06:58 #418 №540866 
>>540862
Делайте на русике.
Аноним 10/11/23 Птн 18:31:58 #419 №540887 
>>540862
Не делайте на русике.
Аноним 10/11/23 Птн 18:45:31 #420 №540893 
>>540862
Играйся для начала с сетками на 1.5b или еще меньше, так быстрее научишься. Если сетки отличаются только количеством параметров, а не структурой и методами тренировки.
Аноним 10/11/23 Птн 18:50:49 #421 №540894 
>>540854
>Только ггуф (и ггмл старый) на кобольде и работает.
Не только ведь, еще и llama.cpp. Поэтому и было уточнение
Аноним 10/11/23 Птн 19:02:20 #422 №540899 
>>540894
А у нас llama.cpp уже умеет GPTQ-модели гонять, или какие-то еще?
koboldcpp — это буквально фронт KoboldAI для llama.cpp, которая только и умеет gguf (и ggml), которые он же (Георгий Герганов) и создал.
Или кобольд научился обрабатывать иные форматы?
Аноним 10/11/23 Птн 19:09:44 #423 №540904 
>>540899
Ты тупой?
Аноним 10/11/23 Птн 19:12:40 #424 №540906 
Я не знаю как у вас получается нормально общаться с 7-13 моделями, может они на русском только такие тупые.
Аноним 10/11/23 Птн 19:15:57 #425 №540911 
>>540906
Чел, все модели одноязычные, только английский. То что у тебя половину русских слов не понимает и додумывает смысл - это норма. Нахуй ты вообще делаешь это? Если хочется русик - подрубай переводчик. Ты литералли как тот даунич с реддита, тестящий модели на немецком.
Аноним 10/11/23 Птн 19:17:28 #426 №540912 
>>540906
Сам удивляюсь. Хотя прямо сейчас наблюдаю в треде как 7-34 модели начали сильно умнеть.
Мимо, чел, который воротит ебалом от всего, что ниже 70b.
Аноним 10/11/23 Птн 20:42:26 #427 №540977 
Как подключить uma-musume-tts к sillytavern? Или может те же модельки можно через, что еще запустить? Помогите разобраться.
Аноним 10/11/23 Птн 20:53:06 #428 №540981 
>>540906
>может они на русском только такие тупые
Da.
>>540911
>Чел, все модели одноязычные, только английский.
Сейчас ещё и китайский, лол.
>>540912
>Мимо, чел, который воротит ебалом от всего, что ниже 70b.
Поддвачну. Впрочем, всё равно сижу на 70B по минуте на ответ. Жаль, что пока не взлетела технология, которая использует маленькую сетку для предсказания ответов большой.
Аноним 10/11/23 Птн 21:24:21 #429 №540990 
Аноны, а какой фронтэнд используют обычно для написания историй? Смотрю, большинство фронтэндов заточено ведь под чаты или текстовые приключения, типа Silly Tavern.

А мне хотелось бы конкретно для историй. Чтобы я смог в память загнать персонажей, сеттинг, общие инструкции по написанию текста. А в промпте бы дал краткое изложение главы романа: с чего все началось, что случилось и чем закончилось.

Или мне надо типа чатиться с персонажем-писателем и скармливать ему все в промпте?
Аноним 10/11/23 Птн 21:27:05 #430 №540992 
>>540681
> Их наработки гораздо сильнее чем опенсорс. Делай они 7b и она была бы в топах 70b гарантировано
Еще бы, ведь на них работают неземные цивилизации, благоволит теневое правительство а эзотерический отдел один из сильнейших в мире, ага.
>>540743
> файнтюн открыли для четвёрки всем желающим
Тут антропиков с амазоном благодарить надо. Стоит эта штука, кстати, реально как крыло самолета, так что насчет всех желающих сильно загнул.
>>540758
> нет проблем в откате
А до куда откатывать? На начало фразы? Так если там к ней все уже подведено и ее первый токен - 99.9% а далее шумовые, что делать?
Задача сложнее чем может показаться, как бы альтернативные решения не оказались куда выгоднее и проще. Ну и объективно, в современных моделях встретить луп - это нужно постараться. В шизомиксах разве что.
> Превратился в кросплатформеный вулкан
Отмер как и прочие мертворожденные поделия компании-джеца, что не смогли развить крайне перспективное направление.
Аноним 10/11/23 Птн 21:31:08 #431 №540993 
>>540990
А да, забыл сказать что я раньше Sudowrite использовал. В Кобольде мне не хватает тех возможностей по контексту который давал Судо, но в общем качество текста мне не кажется плохим даже на 20В модели.
Аноним 10/11/23 Птн 21:34:56 #432 №540995 
>>540862
> лучше брать базовую как основу
Лучше ее, по крайней мере потом сможешь заняться мерджингом и прочим цирком.
> Попробуем сделать идеальную шлюхомодель для кума.
Ты не первый. Какой размер хоть планируешь тренить и через что?
>>540899
> koboldcpp — это буквально фронт KoboldAI для llama.cpp
Типа того только с мелким тюнингом
>>540906
> Я не знаю как у вас получается нормально общаться с кожанными, которые не знают других языков, может на русском они не настолько тупые?
Починил, лол. Рили на что ты рассчитываешь, используя язык, с которым модели плохо дружат?
>>540912
> который воротит ебалом от всего, что ниже 70b
О, на каких катаешь? Терпеливый или мажор?
Аноним 10/11/23 Птн 21:39:25 #433 №540997 
>>540911
Да не, проверил и на английском. Тоже сплошной тупняк.>>540995
>Починил, лол. Рили на что ты рассчитываешь, используя язык, с которым модели плохо дружат?


Проверил, и на английском хуйня, все тоже самое, только на английском.
Аноним 10/11/23 Птн 21:40:08 #434 №540998 
>>540995
>О, на каких катаешь? Терпеливый или мажор?
Зеонщик не человек, ещё и трепливый.
Аноним 10/11/23 Птн 21:45:59 #435 №541000 
>>540992
>А до куда откатывать?
А это настройками решается, вот ставишь ты типа макс последовательность на проверку из 5 слов, ну или 10 токенов. Ну и кешируешь состояние модели на эти 10 токенов назад. По моему кеш ведь в моделях и так есть, я не уверен но вроде там и так быстро откаты делаются. Если нет ну самому закешировать 10 состояний. Да там дифы неболшие будут. Чем больше токенов повторяется тем больше штраф, достиг порога, откатываешь всю фразу. Повторения встречаются часто на моделях 7b. Короче незнаю сейчас пытаюсь идею проверить в коллабе. Я только вообще ничего не понимаю как оно там кешируется и генерится. Но вроде нечего сложного. Посмотрим короче по скорости что будет и по памяти.
Еще вопрос есть ли смысл в семплировании как таковом типа эти топ К и топ П? Это ведь просто добавление рандомности, у ухудшение вывода и по сути сделано тоже только чтоб не повторялось.
Аноним 10/11/23 Птн 23:38:16 #436 №541050 
>>541000
> Чем больше токенов повторяется тем больше штраф
Хз, может поломать многие фразы, повторение которых вполне норм, и привести к отупению модели, что не сможет подобрать осмысленную другую речь, зато типичные паттерны, что лезут из поста в пост, может заигнорить. Тут бы семантический анализ запилить и вычислять повторы на структурные элементы предложений, типа As {{char}} fells your touch on her [x], she can't help but [y], или вообще бан конкретных конструкций.
> есть ли смысл в семплировании как таковом
Да
> типа эти топ К и топ П
Способ отсеить, их можно как юзать, так и применять альтернативы. Они то как раз рандома не добавляют а его отсеивают, добавляет штраф за повторы и температура.
Аноним 10/11/23 Птн 23:38:35 #437 №541051 
>>540995
>Ты не первый. Какой размер хоть планируешь тренить и через что?
Да знаю просто интересно, я не стремлюсь там стать самым видным спецом, по крайней мере для себя сделаю. Мерджинг что то не интересен по моему это колдунство какое то я вообще не очень понимаю как оно работает. Возьму наверно 7b для начала на каглае через TPU будем тренить. Да мне интересна новая это хрень DPO, только будем тренить на самые развратные ответы. Поставим задачу модели возбудить пользователя :)
Аноним 10/11/23 Птн 23:41:24 #438 №541054 
>>541051
В теоретической теории обучить тот же базовый мисталь, а потом разницу примерджить к какому-нибудь другому файнтюну, или просто усреднить их. Тренировка готового рулетка, может как улучшить, так и все поломать.
Аноним 10/11/23 Птн 23:46:42 #439 №541059 
>>541054
Это тип тренировки с подкреплением по идее должен лечь нормально на тюны. Потому что тренеровку с подкреплением и так делают в конце. Но можно и ухудшить никто не спорит, нужно тестить.
Аноним 11/11/23 Суб 00:22:26 #440 №541082 
>>540990
Кобольд лайт в кобольдцпп как раз оно и есть.
>>540993
>В Кобольде мне не хватает тех возможностей по контексту
Ну а хули, судоврайт это платный продукт с кучей фишек. Я его запускал разок, всё сделано удобно для людей, выделяешь текст и говоришь мол, напиши больше вкусовых ощущений, лол. По сути это куча заготовленных промтов и интерфейс их управления. Можно без проблем написать самому, но это надо в программач уметь.
>>540992
>в современных моделях встретить луп - это нужно постараться
Зависит от прямоты рук. У меня и 7B лупила повторами целых фраз, и 70B выдавала одну и ту же структуру предложение-действие-предложение. Хотя в последнем разве что вручную догенерировать для разнообразия.
>>541050
>Тут бы семантический анализ запилить и вычислять повторы на структурные элементы
Мечты...
>Они то как раз рандома не добавляют а его отсеивают, добавляет штраф за повторы и температура.
Подтверждаю. В крайних случаях они могут сделать фразу полностью детерминированной, а так как температура обычно последний семплер, то можно хоть двойкой выжигать, ничего не изменится.
Аноним 11/11/23 Суб 01:13:16 #441 №541128 
>>541050
Серьезно не могу представить что там может быть за нормальная для повторения конструкция на 5 слов.
Аноним 11/11/23 Суб 03:39:18 #442 №541174 
Докладываю, хваленый Yi 34B - говнина. В РП генерирует односложные ответы по 10 токенов максимум, переключил на мистраль - он мне сразу 200 токенов выдал.
Аноним 11/11/23 Суб 04:44:28 #443 №541185 
>>541174
Настройки пытался править?
Аноним 11/11/23 Суб 04:47:01 #444 №541186 
>>541185

Пытался разные пресеты, без толку.
Аноним 11/11/23 Суб 04:49:10 #445 №541188 
>>541186
Может она просто не рпшная?
Аноним 11/11/23 Суб 07:19:39 #446 №541204 
>>541174
чет не то у тебя, у меня норм полотна срал
Аноним 11/11/23 Суб 08:38:13 #447 №541222 
>>541174
Квант, семплер, инструктмод? У меня наваливал прилично с табличкой статов я добавил рпг-элемент так вообще под 400 за ответ выходило, да ещё и таких что ничего выпиливать-перепиливать не надо.
Аноним 11/11/23 Суб 10:30:36 #448 №541252 
>>540862
>Попробуем сделать идеальную шлюхомодель для кума.
ALLO PIGMA ETO TI?!
Аноним 11/11/23 Суб 11:28:47 #449 №541277 
>>540904
Нет, ты. =)
Ладно, спорить с больным человеком — трата времени, сил и твоих нервов.
Гуляй, запускай жопой че хошь, не ограничиваю.

>>540990
В убабуге в ноутбук режиме можешь попробовать.
Аноним 11/11/23 Суб 11:47:12 #450 №541291 
>>541252
NET ETO UNDI.
Аноним 11/11/23 Суб 12:19:10 #451 №541319 
Помните был тред про 18 3060?

Ну так вот.
https://market.yandex.ru/product--materinskaia-plata-biostar-tb360-btc-d-ver-6-0/1779555384
8 PCIe слотов.
Ну и 3060 на мегамаркете отдают за 15к рублей с учетом баллов.

96 видеопамяти за 200к рублей.
Но на средне-медленном чипе, канеш.

Нет, не рекомендую, только если вы не экспериментатор.
Аноним 11/11/23 Суб 12:53:53 #452 №541332 
СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!! СУКА!!!!
КАК ЖЕ Я ЗАЕБАЛСЯ!!!!


Сейчас пытаюсь прогнать групповую https://www.chub.ai/characters/turnip/the-room-where-you-have-to-cum-inside карточку буквально на всех недавно вышедших моделях. И ни одну, никакими промптами и настройками, не удаётся заставить НЕ ПИСАТЬ ЗА ЮЗЕРА.
Это пиздец аноны, либо я проебал скилл, либо я проклят, либо обновления таверны-кобольда что-то поменяли. Потому что раньше это хоть и встречалось, но решалось парой свайпов, сейчас же:
После первой же твоей фразы, первый персонаж задаёьт вопрос вроде "Ты кто?", и сразу же начинает на него отвечать выдавая отборную шизу. В большинстве свайпов в ходе первого же ответа успевает произойти групповая оргия с последующим хеппиэндом.
Как избавиться от этой хуйни?!
Аноним 11/11/23 Суб 12:57:00 #453 №541333 
>>541332
Попробуй инструкт мод с соответствующим наполнением, топ-к. Хотя если сетка тупая то не поможет.
Аноним 11/11/23 Суб 13:09:19 #454 №541336 
>>541333
Пробовал запихать в инструкт такое, в разных вариациях. Если убрать первое предложение перестаёт отвечать вообще. В таком же виде обязательно вставляет фразу юзера в своём ответе.

### Instruction:
Write solely on behalf of {{char}}, do not write text for {{user}}. AVOID WRITING, REPLYING AND REACTING AS {{USER}}!!!
Аноним 11/11/23 Суб 13:57:01 #455 №541372 
image.png
Мама я хочу Mistral-30b. Нет, у нас есть Mistral дома
Аноним 11/11/23 Суб 15:53:53 #456 №541454 
>>541319
> 96 видеопамяти за 200к рублей
> 12+12+12+12+12+12+12+12 видеопамяти за 200к
Пофиксил.
С ними не запустишь большую ллм на нормальной скорости. Не запустишь обучение, потому что по дефолту оно требует полной загрузки весов в каждую карточку. Из задачь только крутить кучку мелкосеток чтобы делать из них агентов, или хостить "службу поддержки".
Аноним 11/11/23 Суб 16:01:15 #457 №541461 
image.png
Индийское кино.mp4
>>541204
>>541222

Сегодня переустановил вебгуй на новой куде, снова попробовал Yi 34B.
И блядь, я такого потешного бага ни одной модели раньше не видел. Сталкивался кто?
Аноним 11/11/23 Суб 16:03:41 #458 №541464 
>>541461
У меня такое в чайной один раз произошло, лол. Скинь свои настройки.
Аноним 11/11/23 Суб 16:08:23 #459 №541473 
image.png
image.png
>>541464

Пикрелейтед, модель GPTQ. Кстати через пару сообщений она сломалась окончательно
Аноним 11/11/23 Суб 16:11:06 #460 №541478 
>>541473
Может гптк именно ломаная, попробуй ггуф.
Аноним 11/11/23 Суб 16:19:10 #461 №541491 
image.png
>>541478

Зачем имея 4090 запускать гуфов? Для мазохизма?
Перезапустил диалог и баг прошел, может это из-за переполнения контекста произошло или от того что я супербугу использую. Попробую новый диалог до 4к контекста добить и посмотреть, сломается ли снова.
Аноним 11/11/23 Суб 16:24:17 #462 №541505 
>>541491
> Зачем имея 4090 запускать гуфов? Для мазохизма?
Затем чтобы модель хорошо отвечала, если дело в кривом гптк.
То что у тебя всё равно как-то скукожено, если ты конечно не прописал однострочные ответы.
Аноним 11/11/23 Суб 16:30:03 #463 №541517 
Время тупых вопросов. Как побеждать генерацию диалога из десяти репилк на большом количестве токенов ответа? Сетка генерит целый диалог и отправляет в таверну одну первую реплику вместо генерации длинного ответа.
Аноним 11/11/23 Суб 16:30:38 #464 №541519 
image.png
>>541505

Я ничего не прописывал, это чистый чат. И более того - с дополнением long_replies убабуги и выставленным минимумом в 120 токенов для ответа.
Ладно, попробую AWQ, может ты прав и Bloke налажал с GPTQ
Аноним 11/11/23 Суб 16:33:27 #465 №541523 
>>541517

Наверное ты в таверне запретил больше одной реплики, а в загрузчике нет. Через что грузишь модель?
Аноним 11/11/23 Суб 16:34:44 #466 №541525 
>>541523
Кобольдцпп. Там есть настройка "запрет больше одной реплики"?
Аноним 11/11/23 Суб 16:35:37 #467 №541527 
>>541525
Она есть в таверне.
Аноним 11/11/23 Суб 16:36:31 #468 №541529 
>>541527
В таверне одна реплика отображается. Но я же вижу в консоли, что она целый диалог написала из моих и репилк персонажа.
Аноним 11/11/23 Суб 16:37:38 #469 №541530 
>>541529

Так отключи в таверне эту настройку
Аноним 11/11/23 Суб 16:38:16 #470 №541532 
>>541530
Подскажи, где.
Аноним 11/11/23 Суб 16:48:06 #471 №541547 
>>541454
*96

Слои последовательно кладутся и последовательно читаются. =) Уже обсуждали, тут только альтернативно одаренные искренне считают, что это 12+12+… и работать как 96 не будет или будет работать «медленно».
Ну или гении, которые рил складывают ядра, что нигде в мире о таком не слышали в консьюмерском сегменте.

Я даже молчу о том, что люди строят облачные сетки (вот уж где задержки=), чтобы хоть как-то крутить. А тут у тебя физически будет на одной платформе.

Погугли Petals, посочувствуй их скоростям. И еще какой-то проект был, не помню название второго.
Аноним 11/11/23 Суб 16:55:37 #472 №541555 
изображение.png
Чёт так негодовал что почти все модельки тупые и не могут статлист таскать, а потом понял, что может это из-за реппена. С другой стороны, с этим же реппеном другие модельки справлялись, так что может и не зря негодовал.
Аноним 11/11/23 Суб 16:57:53 #473 №541561 
>>541547
У тебя будет скорость одного токена как 8 токенов на 13В ну 11В, если точнее. Т.е. околонулевая скорость уровня 2-3 т/с, которые на одной 3090+цп можно получить с квантованием. Хули толку с этой врам, если там гпу кал и карты будут поочереди работать. Ты так же можешь взять пару квадр на 40 гигов со старым гпу и получить такой же результат.
Аноним 11/11/23 Суб 16:58:49 #474 №541564 
>>541547
> Слои последовательно кладутся и последовательно читаются
И каждый гпу большую часть времени простаивает в ожидании своей очереди, в самом идеальном случае работая 1/8 от времени. Сколько там 3060 выдает в самой большой сетке, которая может поместиться в ее память? Дели на 8 - это самый идеальный случай. По факту, если брать что каждое соединение замедляет на 10 процентов - там на 16 придется делить. В итоге получишь в районе 1 токена в секунду в лучшем случае, если оно вообще заведется. Это 200к в мусорку, той же суммы хватит на аренду облаков на ближайшее обозримое будущее.
> Погугли
Ну ты сам для начала запусти на нескольких видюхах, настрой, а потом уже поговорим. Уже при добавлении третьей (пусть ассиметричной но на нее и меньше слоев) идут серьезные просадки, а что там будет на 8 вялых даже представить страшно.
>>541555
Вот двачую, его нельзя задирать ибо первый семплер что в комбинации с далее отсеивающими может сильно лоботомировать.
Аноним 11/11/23 Суб 17:06:41 #475 №541570 
>>541547
> облачные сетки
Гопота с 6 мелкими сетками может и обрабатывается параллельно, а потом как-то семплит это, но на обычных трансформерах слой нельзя разрезать - сначала один слой обрабатывается целиком на одной карте, потом следующий. Упираться всё будет в скорость одной карты. Ты можешь сразу 8 чатов на таком обрабатывать, но для личного чатинга ты по факту покупаешь 12 гигов памяти по цене целой карты, которую используешь как шину.
Аноним 11/11/23 Суб 17:07:02 #476 №541571 
>>541505
>если дело в кривом гптк
Так это же ггуф сломан?
Аноним 11/11/23 Суб 17:15:25 #477 №541577 
И еще тупой вопрос. Иногда консолька пишет "Processing Prompt (37 / 37 tokens)". Хотя там в контексте уже дохуща написано на 1к токенов к примеру. Это как работает? Тупо игнор контекста идет или остальное уже считается обсчитанным и просто не считается второй раз? И добовляется только 37 токенов моей последней реплики?
Аноним 11/11/23 Суб 17:18:16 #478 №541579 
>>541577
>просто не считается второй раз
Да. Когда-то давно, ещё на пигме, контекст считался каждый раз с нуля. И это был пиздец.
Аноним 11/11/23 Суб 17:21:47 #479 №541582 
>>541570
> Гопота с 6 мелкими сетками может и обрабатывается параллельно, а потом как-то семплит это
Не, там только одна выбранная работает, не так давно "инсайдеры" заявляли опять. Возможно там идет параллельная работа разных сеток, но в другом формате, как в обсуждениях репы Жоры. Там анти-гриди семплинг, вычитанием вероятностей основных токенов что идут с малой сетки из выдачи большой для разнообразия и усложнения, или наоборот использование малой сетки для ускоренного предсказания большой.
> Ты можешь сразу 8 чатов на таком обрабатывать
В начале там все карточки усиленно обрабатывают контекст (долго по сравнению с генерацией одного текена), а только потом уже идет генерация. Потому асинхронные режимы здесь не очень то могут зайти, нужна принципиально иная реализация.
Аноним 11/11/23 Суб 17:24:28 #480 №541586 
>>541579
По уму сделали хуле. Алсо 7b прям шустренько работают. Мистраль много сои грузит, аж флешбеки гпт4 весенние словил. Джейлами обмазываете?
Аноним 11/11/23 Суб 18:06:05 #481 №541628 
>>541561
Ну так я так и сказал, что ядра тухлые и врам не поможет. =)
Просто раньше кто-то обсуждал, как это запускать.

>>541564
> И каждый гпу большую часть времени простаивает в ожидании своей очереди
У тебя очень плохо с математикой.
Ничего делить не надо.
У тебя в каждый момент времени одна-единственная модель обрабатывается одним-единственным чипом.
Так что скейлится согласно объему, и все.
70/13 ≈ 5.5.
18-20 токенов/сек / 5 = 3,3 токена.
И плюс задержечки неминуемы, так то 2-3 токена, как выше и говорили.

Но это честная работа врама, просто на тухлом чипе для такого объема. На 8 (или любое другое количество) делить реальную сетку не надо, все куда прозаичнее. =)
1 момент = 1 чип = 1 скорость.
Слои никто никуда не кидает.

>>541570
Не-не, облачные — значит одна модель на нескольких компах. =)
Типа, ты можешь загрузить 70B с друзьями, каждый со своим компом и видяхой.
Но мне было так лень накатывать эту сетку на три компа (хотя бы), что я даже не трогал эту технологию.

> для личного чатинга ты по факту покупаешь 12 гигов памяти по цене целой карты
Так я с самого начала это и говорил, и это обсуждалось в прошлом треде именно так. =)
Опять же, при результирующей цене ~15к рублей за карту, кому-то (тому, кто раньше хотел 18 карт покупать за фулпрайс=) может и понравится идея.

А вообще, идея собрать несколько 13b файнтьюнов — неплоха.
Только софт придется самому писать, канеш.
Да и файнтьюны у нас… =) 90% — ерп.

Больше всего я кекнул с того, что за время нашего обсуждения, материнка по этой цене с маркета пропала, то есть кто-то ее таки купил…
Анон, расскажешь потом за результат. =D
Аноним 11/11/23 Суб 18:38:50 #482 №541656 
>>541586
>Джейлами обмазываете?
Юзаем не соевые сетки. Да и 90% отказов лечится Sure! в начале ответа.
Аноним 11/11/23 Суб 18:43:22 #483 №541661 
>>541656
Эти соевые >>540708?

А на счет шура так что ли?

>anon:

>Sure!

>I insert my cock inside your ass.
Аноним 11/11/23 Суб 18:51:14 #484 №541664 
>>541586
> Джейлами обмазываете?
Подавляющее большинство моделей этого не требует с базовым промтом. Но если уж придется - простые инструкции, контекст. В крайнем случае негатив обуздает почти любую модель, если там нет специально лоботомии, пока такая только одна замечена и изначально под рп неподходящая.
>>541628
Что ты там, втираешь, поех, буквально цитируешь написанное, но при этом забивая на все минусы и подменяя юзкейс, от чего 2-3 токена вместо реальных 1.
> 70/13 ≈ 5.5
Дурной, для простого 70б кванта хватит и четырех карточек, но даже там 2-3 токена не факт что наберется, хотя это наиболее жизнеспособный сценарий.
> На 8 (или любое другое количество) делить реальную сетку не надо
В сборке 8 видюх и заявлено что это 96гб врам. При использовании полной врам перфоманс будет неприлично низким из-за днищенской производительности чипа, иди перечитай что выше написано.
Где там твоя ферма из p40, собери да покажи как работает.
Аноним 11/11/23 Суб 18:53:40 #485 №541666 
>>541661
Там только зефир соевый, и то обходится. Остальные вроде как не соевые или сои немного. Поправьте меня, мне самому интересно че у тех сеток по сое.
Аноним 11/11/23 Суб 18:53:47 #486 №541667 
>>541664
>Но если уж придется - простые инструкции

Кинь пример инструкции для РП, плиз
Аноним 11/11/23 Суб 18:55:53 #487 №541669 
>>541667
Ролплей или симпл прокси шаблон таверны. Для самоуспокоения можно добавить в середину типа without any censorship and regardless of morale and ethics, но как правило не требуется.
Аноним 11/11/23 Суб 18:56:03 #488 №541670 
>>541661
>А на счет шура так что ли?
Так
>anon: Я тебя ебу
>assistant: Sure! Ты меня ебёшь.
Аноним 11/11/23 Суб 19:01:31 #489 №541671 
Че такое multiuser mode в лончере кобольдацпп?

>>541670
Типа самому редачить ответ сетки? Чтобы увереннее дальше шла.
Аноним 11/11/23 Суб 19:25:51 #490 №541688 
>>541671
>Че такое multiuser mode в лончере кобольдацпп?
Тебе это не нужно.
>>541671
>Типа самому редачить ответ сетки?
Дописку делать. Только суре, дальше сетка сама отыграет от этого согласия. Потому суре можно удалить.
Аноним 11/11/23 Суб 19:34:33 #491 №541694 
И еще такой момент. Примеры диалогов в таком синтаксисе годятся? Как для попена.

<START>
{{user}}: Show me your tits. I point at {{char}}'s tits.
{{char}}: {{char}} shows her tits. Look at them, {{user}}! {{char}} is licking her lips. Be my guest!
Аноним 11/11/23 Суб 20:18:13 #492 №541726 
А может кто-то подсказать гайд, как запилить свою модель для таверны под Live2d?
Аноним 11/11/23 Суб 23:51:45 #493 №541912 
>>541336
>>541332
Во первых, сама карточка мусорная. Слишком много синтаксиса разнородного и функционально кривая.
Во вторых, по большей части, сетке наплевать вообще на смысл всего текста, который она прочитала, юзер, чарактер, сетка, персонаж, которым управляет сетка, промпт, для неё весь текст это текст который она сама написала и потенциально может написать. Поэтому все правила и условности, которым ты хочешь чтобы сетка следовала - должны быть очень чётко разделены, функционально однородны, и работать с блоками текста.
В третьих, где стоп токены?
В четвёртых, таверну нужно подгонять под что-то отличное от обычных чатов.

Перепиши самостоятельно карточку. Генерацию девочек вообще лучше перенести в другую карточку и не засорять активные, в которых ты хочешь чат\приключение, а вот уже результат занести в базу карточки и изменять каждый раз, когда ты хочешь новую нарративную сессию. Все правила нарратива, которым ты хочешь чтобы следовала пытайся применять к тексту, а не к мета-субъектам тебя и сетки. Т.е. допустим можно сделать так: в промпте начать с "инструкция:" описать что такое "инструкция:" нарративно, и что её не существует но её условиям следует "комната:" которая описывает происходящую историю, в истории фигурируют разные "персонажи:", тэг которых "комната:" пишет когда хочет за них написать. Ну и потом, если "тебе:" важно участвовать лично нарративно, то ты в промпте, где "инструкция:", говоришь, что происходящее описываемое "комнатой:" крутится вокруг "тебя:", что предполагает определённый стиль и пейсинг написания происходящего. Ну и во фронтенде загоняешь "Инструкция:" и "Тебя:" в стоп токены.
Аноним 12/11/23 Вск 04:04:38 #494 №542045 
>>541912
Поддвачну, с конструкции
> Victims: {
> Females: {
> Number: 5;
> Dialogue name: (Choose a unique name for each victim);
> Age: {Their ages range from 12 to 28};
> };
> };
> };
Обзмеился в голос. А когда там явно стоит
> {{user}}: {
То на что вообще можно рассчитывать. Мусорный промт в конце - вообще херь, описание юзера может конфликтовать с заданным у него персоналити.
Эту карточку буквально можно описать несколькими строчками натуртекста и она будет прилично работать. Некоторым челленжем будет заставить сетку сгенерировать описания всех пяти тней в ходе первого ответа, но вполне возможно, может завтра поэкспериментирую.
Аноним 12/11/23 Вск 04:34:20 #495 №542051 
>>542045
>Некоторым челленжем будет заставить сетку сгенерировать описания всех пяти тней в ходе первого ответа
Это можно, но не нужно. Типа если "тебе" так важно каждый раз в начале нарратива сгенерить 5 тней, то лучше их сгенерить отдельно, а потом вставлять в карточку (или дополнительно дублировать в первое сообщение другим форматом если хочется этим создать литературное наполнение).
Во первых, при условиях с ограниченными токенами у нас сетка не будет страдать амнезией и забывать какие отличительные черты были у каждой тни.
Во вторых, не нужно будет выруливать сетку из одного режима (специализированно, достаточно конкретно сгенерить тянок) в другой (добротное описание нарратива).
В третьих, если нужно так дохуя тянок, то лучше запилить систему под себя, где ты стабильно можешь сгенерить хоть бесконечное количество тянок под любые твои запросы и удобные тебе форматы. Файнтюн промптов под специализированные задачи куда легче и качественнее, чем лепить мастера на все руки из жопы.
Аноним 12/11/23 Вск 09:01:44 #496 №542067 
>>541912
>сама карточка мусорная
Эта карточка вполне себе работает со времён первой Альпаки 30В, Гопота и Клауд отыгрывают её без каких-либо проблем. И всё это со стандартным пресетом, без какой-либо мозгоебли с доп. промптами и стоп токенами. Часто использую эту карточку как проверку сообразительности модели. Если всё разжевать, то конечно и Пигма справится.

> Генерацию девочек вообще лучше перенести в другую карточку и не засорять активные
>а вот уже результат занести в базу карточки и изменять каждый раз
А лучше вообще самостоятельно их придумать и заранее прописать.
А ещё лучше сразу в блокноте РПшить, зачем идти лёгким путём?!
Аноним 12/11/23 Вск 10:02:23 #497 №542081 
Screenshot20231112-095047Chrome.jpg
>>540045
Была слабая надежда, что 120B будет чуть лучше уметь в русский. Но нет, все те же проблемы, что и в 70B. А значит, ruGPT3.5 по прежнему топ для RP/ERP на русском.
Скорость Голиафа q3_k_s на 64gb RAM + 3060 12 GB VRAM:
Processing: 200 ms/t (cublas)
Generation: 1500 ms/t
Аноним 12/11/23 Вск 10:04:01 #498 №542083 
pepe 16023444233660 (1).gif
>>542081
> Нормальный.
Аноним 12/11/23 Вск 11:57:35 #499 №542111 
>>542067
>Эта карточка вполне себе работает
>вполне себе
>creator_notes
>Tested with Claude.
>First message requires some tard wrangling unless you're on GPT-4. (see the gallery, I recommend appending an ooc prompt to lock in the girl squad)
Типа, ну, я рад за тебя, что ты проверяешь сетки на качество пищеварения при помощи скармливания им мусора, но в том как заставить карточку нормально работать доступным для любого человека способом - ты лишь подтвердил мною предложенное.
Аноним 12/11/23 Вск 13:46:38 #500 №542162 
>>542081
Откуда б ей взяться, надежде? Это ж просто две вместе. Она могла знать больше стилей, рассуждать лучше, но в оригинальных файнтьюнах русского больше не было.
Я стишок выкладывал ее — там уже ошибки были.
Правда, 3q ето конечно да, но в общем, так же, как и 70B. Норм, но не без ошибок.
Аноним 12/11/23 Вск 14:17:56 #501 №542186 
Играюсь с командами, вот примитивные если кому интересно

List of quick commands:
'!help', '!h' - display a list of available commands and their descriptions.
'!info', '!i' - display basic information about the AI, such as its name, purpose, and capabilities.
'!summ', '!s' - analyze the current chat and provide a summary of the main points discussed.
'!remind' - set a reminder for a specific time or event, and receive a notification when the time comes.

Знаю что на более умных сетках можно более сложное городить, но чет не выходит на 7b какие то конструкции писать заставить. Ладно если по шаблону что то сделает и то норм. Кто то что то такое делал? Накидайте примеров
Аноним 12/11/23 Вск 14:27:38 #502 №542194 
Смотрю тут openhermes-2.5-mistral-7b.Q8_0. Действительно шустренько работает. По уму чуток слабее турбы по первому впечатлению. Задал сетке несколько деталей в диалоге. Без ошибок вспомнила их. Задачку с сестрами может только гпт4 осилить как и задачку на козу, волка и капусту. Реквестирую еще нейронок потяжелее, где можно какую-то разницу по уму разглядеть. 3070 на 8гб и 16гб рам на борту. 7b полностью помещается в видюху, теперь надо сравнить что-то потяжелее и помедленнее.
Аноним 12/11/23 Вск 14:29:28 #503 №542196 
>>542186
> '!remind' - set a reminder for a specific time or event, and receive a notification when the time comes.
В смысле? На текущее время?
Аноним 12/11/23 Вск 14:33:06 #504 №542199 
>>542194
>b полностью помещается в видюху
С каким квантом?
Аноним 12/11/23 Вск 14:34:55 #505 №542200 
>>542194
>Задачку с сестрами может только гпт4 осилить как и задачку на козу, волка и капусту.
Пролистай вверх, там через раз задачу про сестер решали и гермес и опенчат, я же и кидал про гермеса. Может решить, только не всегда. Кинь пример задачи на капусту, запущу проверю на гермесе

>>542196
>В смысле? На текущее время?
Скорее на событие, откуда ей время точное взять?
Аноним 12/11/23 Вск 14:38:10 #506 №542203 
>>542199
7b Q8_0. 30b очень жирно. Но 13b с чатью на оперативку потняну.

>>542200
Капусту только гпт4 может решить. Сомневаюсь, что локалки до 70b осилят.

Solve the riddle. It is necessary to transport the goat, the wolf and the cabbage to the other river bank. There is room for the only one item in the boat. The cabbage should not be left with the goat because the goat will eat the cabbage. The goat should not be left with the wolf because the wolf will eat the goat.
Аноним 12/11/23 Вск 14:40:21 #507 №542205 
>>542203
> Но 13b с чатью на оперативку потняну.
Ну хз, у меня на 3070ti и 32 гб, грузит 20 гб в оперативу.
Аноним 12/11/23 Вск 14:42:36 #508 №542206 
>>542203
> There is room for the only one item in the boat.
На этом месте у меня сбой.
Аноним 12/11/23 Вск 14:42:46 #509 №542207 
7b на задачке с сестрами жидко обсерается у меня. Либо пишет НЕТ СЕСТЕР. Либо пишет дефолтно три сестры у девочки. хотя по услвоию всего три девочки в семье и правильный ответ "две".
Аноним 12/11/23 Вск 14:43:12 #510 №542208 
image.png
>>542203
Ну, хз. Слишком типовая задача, я думаю на нее надрочили стеку как и на сестер. Там хоть менять можно было число сестер и братьев что бы запутать сетку если она по шаблону решала.

У тебя только 13 войдет, а среди них конкурентов для гермеса нет
Аноним 12/11/23 Вск 14:43:41 #511 №542209 
>>542206
Нельзя в лодку волка с козой например положить. Место только для одоного предмета.
Аноним 12/11/23 Вск 14:44:19 #512 №542211 
>>542207
>>536802
Аноним 12/11/23 Вск 14:44:22 #513 №542212 
>>542208
Неправильно. Я ж говорю, ее только гпт4 соображает.
Аноним 12/11/23 Вск 14:45:05 #514 №542213 
>>542212
А какой правильный? мне лень думать
Аноним 12/11/23 Вск 14:46:42 #515 №542214 
>>542213
Перевозишь козу, перевозишь волка или капусту на выбор к козе и сразу возвращаешься с козой обратно. Потом перевозишь оставшегося волка/капусту к капусте/волку, смотря че выбрал на втором берегу. И в финале перевозишь козу. Трюк в необходимости вернуться обратно с козой.
Аноним 12/11/23 Вск 14:48:07 #516 №542218 
>>542214
понятно, я вспомнил задачу, старая она
чет сомневаюсь что сетка поймет но потыкаю еще
Аноним 12/11/23 Вск 14:53:18 #517 №542222 
>>542214
Неа не вывозит, даже не додумывается что нельзя оставлять на той стороне, не понимает что там нарушаются условия задачи. По крайней мере без подсказки не понимает.
Аноним 12/11/23 Вск 14:55:49 #518 №542225 
>>542211
Рандом. Один раз верно ответила, а на следующих ошибках в разнос. То три, то шесть, то ноль.

>>542222
Даже 3.5 не понимает. Надо до ответа за ручку вести.
Аноним 12/11/23 Вск 14:58:27 #519 №542228 
>>542051
Все верно сказал, тут просто академический интерес.
Чсх, на моделях побольше действительно отрабатывает даже в стоке, вот только сюжет странный и или рандомит или уг. Оно и не удивительно, вместо его прописывания автор шизил с разметкой.
>>542067
Не потому а вопреки, от этого мусорной не перестает быть, даже на проприетарщине работает через раз, плюс само рп из-за все этой херни будет деградировать.
>>542081
Это же просто франкенштейн, если его куски не знали языка то и целиком не станет лучше.
>>542186
Это где вообще такое?
Аноним 12/11/23 Вск 15:06:26 #520 №542235 
image.png
>>542228
>Это где вообще такое?
просто в промпт суешь, а потом можешь вызывать, и это только пример, хоть че там пиши только понятно для сетки

>>542225
>Рандом. Один раз верно ответила, а на следующих ошибках в разнос. То три, то шесть, то ноль.
Так я там экспериментировал с мин-п, так в основном половину и больше ответов давала верно, и рассуждения писала так же верно. А не просто ответ правильный, а думает херню.


>>542214
с одним уточнением правил отвечает через раз
Аноним 12/11/23 Вск 15:13:02 #521 №542238 
>>542235
Скинь настройки.
Аноним 12/11/23 Вск 15:18:03 #522 №542242 
image.png
image.png
>>542238
Промпт не дам, но там обычный бот, без рп и ерп
Только блок на мысли есть, который +20 icq дает по ощущениям, хотя может и кажется, хз
Аноним 12/11/23 Вск 15:57:02 #523 №542257 
>>542242
Все еще рандом, но количество верных ответов увеличилось. 13б слишком медленная и по точности не отличается, остановился на 7б.
Аноним 12/11/23 Вск 15:58:01 #524 №542259 
>>542235
>с одним уточнением правил отвечает через раз
ладно через раз мягко сказано, раз из 10 может, надо поиграться с семплерами или переводом задачи.
Аноним 12/11/23 Вск 16:31:45 #525 №542280 
По сестрам с усложнением такие результаты еще есть у гермеса 7б.
>>542268 →
>>542276 →
Аноним 12/11/23 Вск 16:33:16 #526 №542281 
>>542280

Эти посты >>542276 → >>542274 →

>>542268 → не мой сорян.
Аноним 12/11/23 Вск 16:58:15 #527 №542295 
image.png
image.png
image.png
>>542281
Интересно кстати, попробовал усложненный промпт из >>542268 →
“The girl Petra has a puppy and three brothers, these three brothers have 4 sisters and a cat, how many sisters does Petra have? Write down the solution to this problem step by step.”
Если на русском то начинает складывать, если на английском то через раз пытается дать ответ, но все мимо.
Алабама там же лол
Аноним 12/11/23 Вск 17:10:07 #528 №542297 
image.png
>>542281
С другой стороны, просто поменяв промпт. Короче все зависит от промпта и настроек.
Аноним 12/11/23 Вск 17:10:43 #529 №542298 
Кому-то удавалось вот это заставить нормально работать
01-ai/Yi-34B gguf ? Все что не спрашиваю стандартные тестовые вопросы "why is the grass green?", выдает полную лажу даже на английском. Дайте настройки если у кого-то норм все с ней в koboldcpp
Аноним 12/11/23 Вск 17:20:53 #530 №542302 
>>542298
А на китайском пробовал? Через переводчик попробуй
Аноним 12/11/23 Вск 17:30:51 #531 №542307 
>>542298
Заходишь на их гитхаб и смотришь параметры запуска:
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("01-ai/Yi-34B", device_map="auto", torch_dtype="auto", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("01-ai/Yi-34B", trust_remote_code=True)
inputs = tokenizer("There's a place where time stands still. A place of breath taking wonder, but also", return_tensors="pt")
max_length = 256

outputs = model.generate(
inputs.input_ids.cuda(),
max_length=max_length,
eos_token_id=tokenizer.eos_token_id,
do_sample=True,
repetition_penalty=1.3,
no_repeat_ngram_size=5,
temperature=0.7,
top_k=40,
top_p=0.8,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Итого самое важное
max_length = 256
repetition_penalty=1.3,
temperature=0.7,
top_k=40,
top_p=0.8,
Аноним 12/11/23 Вск 17:35:55 #532 №542310 
>>541726

Вот тут гигантский пак моделей, какая-нибудь да подойдет.
https://github.com/Eikanya/Live2d-model
Аноним 12/11/23 Вск 17:37:05 #533 №542311 
Народ, а если взять 2 проца(ьез баб видюх) по 20 ядер и 128-512ГБ ОЗУ DDR4 2400 - LLAMA 70b как будет шевелиться?
Аноним 12/11/23 Вск 17:39:06 #534 №542313 
>>542311

Чел...
Лучше ddr5 64 гб возьми
Аноним 12/11/23 Вск 17:39:41 #535 №542314 
image.png
image.png
>>542298
Ну вот не меняя ниче с гермеса запустил 4km
2 токена в секунду не весело, но вроде работает
Аноним 12/11/23 Вск 17:40:41 #536 №542316 
>>542313
Там уже проц в разы дороже или говно.
Аноним 12/11/23 Вск 17:40:57 #537 №542317 
>>542311
из 40 ядер хорошо если 10 будут работать, остальным не хватит пропускной способности памяти, хуйня
Аноним 12/11/23 Вск 17:42:48 #538 №542320 
>>542317
Как так?
Звучит будто через жопу погромировано.
Аноним 12/11/23 Вск 17:43:33 #539 №542321 
>>542314
>гермеса
Это прекрасно, я просто хочу понять, почему та сеть в топе
Аноним 12/11/23 Вск 17:45:35 #540 №542324 
>>542320
затыка в пропускной способности памяти, а не в производительности процессора, так что ядра лишние.

>>542321
Так я и запустил со старыми настройками с гермеса ничего не меняя yi-34b.Q4_K_M и оно работает. Че не так?
Аноним 12/11/23 Вск 18:02:44 #541 №542344 
>>542307
> Итого самое важное
> max_length = 256
> repetition_penalty=1.3,
> temperature=0.7,
> top_k=40,
> top_p=0.8,
Отлично работало с выключенным топ-п и большей длиной, правда топ-к 25 стоит.
Аноним 12/11/23 Вск 18:04:39 #542 №542347 
image.png
>>542344
Я щас тоже поставил и как то повторы слишком большие 1.3, надо меньше наверное, а то хуйню выдает. А на 1 норм отвечала
Аноним 12/11/23 Вск 18:07:52 #543 №542351 
>>542347
А, ну и реппен 1.1 был ещё, да. Тайна рабоче-нерабочего китайца остаётся.
Аноним 12/11/23 Вск 18:57:46 #544 №542388 
>>542235
> просто в промпт суешь, а потом можешь вызывать
Найс, на каких размерах работает и насколько сложные можно делать? Чтобы оно в ходе рп с наполненным контекстом, например, вызывалось пробовал?
Аноним 12/11/23 Вск 19:08:46 #545 №542393 
image.png
>>542388
Пока просто играюсь, простые команды кое как работают.
На счет команды '!remind' сомневаюсь что будет работать, если контекст далеко уйдет то сетка забудет.
На openhermes-2.5-mistral-7b.Q8_0 сижу, вроде простые команды работают. Рп не проверял, но скорей всего простые тоже будут работать.

По идее можно вообще вот это делать, но наверное уже завтра. https://www.promptingguide.ai/applications/pf
Аноним 12/11/23 Вск 19:17:12 #546 №542395 
1699805830972.png
34б китаец, на четвёртый свайп. Впринципе.если закрыть глаза на то что она немного запуталась во времени и сначала перевезла волка, а потом вернула козу, и поставить действия в порядке их легальности, то вполне решила.
Аноним 12/11/23 Вск 19:19:55 #547 №542398 
>>542395
А сестер? У меня не хотела, а про перевозку я и не тестил.
Аноним 12/11/23 Вск 19:43:41 #548 №542419 
>>542314
Why is the Sun round?
Аноним 12/11/23 Вск 19:53:44 #549 №542431 
image.png
>>542419
Я уже вырубил и не буду тестить, слишком медленно. Лучше гермеса на команды разводить буду. Проси анона выше >>542395

Вот кстати интересные команды
Аноним 12/11/23 Вск 20:09:05 #550 №542443 
1699808943354.png
>>542398
А их ни в какую, с тем же семплером. Дрочиться с его значениями лень уже.
>>542419
Аноним 12/11/23 Вск 20:25:16 #551 №542461 
1699809914628.png
Ну и немного шуток за 300.
Аноним 12/11/23 Вск 20:47:44 #552 №542478 
>>542398
>А сестер?
Что-то вспомнил мою первую попытку в кум на лламах. Скачал какую-то модель, по-моему 33b визард, запустил карточку с сестрой, предвкушая, как я ее буду няшить. Когда дело подошло к ебле, сестра начала затирать про бонды и про то, что ебаться это неправильно. Чем дальше - тем больше бондов. Я к тому времени уже совсем взбесился, встал на окно и начал шантажировать ее что выкинусь, а она все равно продолжает, мол, онии-чан наш БОНД абсолютен, мы пересилим все трудности, но ебаться все равно низя. В итоге закончил ролеплей тем, что выкинулся нахуй в окно. С тех пор я помешан на поиске сои - вот так вот травмировало мою психику БОНДАМИ.

Euryale, кстати , очень годная модель. Немного другой сценарий с сестрой хорошо отыграла: с инициативой со стороны персонажа, пониманием намеков, эмоциональным напряжением, и так далее. Если бы не зацикливалась на определенной длине и структуре сообщений, то было бы вообще замечательно.
Аноним 12/11/23 Вск 21:03:27 #553 №542489 
ОП проснулся, охуел, поэтому

ПЕРЕКАТ

>>542483 (OP)


>>542483 (OP)
Аноним 13/11/23 Пнд 00:07:18 #554 №542640 
>>542395
Вся загвоздка в стабильности. Я и на пигме могу млучайно рольнуть что-то похожее на верный ответ. Если получится на выборке 10-20 зароллитл хотя бы 50 процентов. Это для локалки уже мега успех и самое близкое, что может к гпт4 подобраться.
Аноним 25/12/23 Пнд 16:33:06 #555 №583629 
Народ, есть проц в 28 потоков, 64ГБ ОЗУ(DDR4).
Что из моделей для генерации ТЕКСТА(не чатик а рассказы(и без сои) взленит хорошо там?
А если тоже + 2060super(8gb)?
comments powered by Disqus

Отзывы и предложения