24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №33 /llama/

 Аноним 19/12/23 Втр 21:46:10 #1 №577814 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
изображение.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
https://rentry.co/xzuen Гайд для запуска на видеокарте на русском

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>573687 (OP)
>>567655 (OP)
Аноним 19/12/23 Втр 21:47:41 #2 №577819 
>>577815 →
>Тут же взяли 7b и нарастили ей размер, обучая в процессе. По сути переобучили сетку увеличив ее размер, я кстати такого еще не видел
Кек. Где почитать кроме очевидного редми модели?
Аноним 19/12/23 Втр 21:50:18 #3 №577820 
>>577810 →
> Наших это каких? 7b?
Ну то что сейчас в тренде и то с 13б соперничают, то гопоту побеждают. Как шустрый вариант что-то делать интересно глянуть и насколько реальный прогресс 7б после мистраля продвинулся.
>>577812 →
Спасибо, ну с русского на английский подобное простое условно может. Но на троечку-четверочку, многие фразы выглядят неестественно или плохо воспринимаются, кое где просто необходимо поменять порядок слов. Местами это есть, но недостаточно.
На русский - как и ожидалось.
> В рефразы не умею, готового бота на это у меня нет
С любой карточкой ассистента попроси "перефразируй текст, подав его художественно в стиле фильмов Дэвида Финчера. Выдели главную идею, опиши повествователя, приведи отсылки к известным событиям". Можно в инстракт режиме в дефолте убабуги если на ней катаешь, но это будут более легкие условия.
Аноним 19/12/23 Втр 21:52:06 #4 №577822 
>>577817 →
Опять никто не квантовал.
Нужна автоматическая квантовалка.
Аноним 19/12/23 Втр 21:53:13 #5 №577824 
>>577822
Тебе во что и какая битность нужна?
Аноним 19/12/23 Втр 21:55:29 #6 №577826 
Опять шапка старая

>>577819
хз, если сами не напишут то где ты найдешь правду?

>>577820
>Ну то что сейчас в тренде и то с 13б соперничают, то гопоту побеждают. Как шустрый вариант что-то делать интересно глянуть и насколько реальный прогресс 7б после мистраля продвинулся.
Ну вот старлинг попробуй, она с гпт3.5 соперничает по слепым тестам. Местами, но все же.
openhermes-2.5-mistral-7b в шапке, проверенный временем норм, openchat-3.5-1210 новый хорош
Какие то еще есть смешанные с нейралчатом от интел, но мне было лень проверять

>>577822
Там все таки соевый инструкт в основе, так что много не жди от файнтюна
Аноним 19/12/23 Втр 21:56:26 #7 №577827 
изображение.png
>>577820
>С любой карточкой ассистента попроси
Оно же не поймёт ладно, это может сделать каждый, надеюсь, кто-нибудь сподобится допросить этого франкенштейна декабря нормально.
Аноним 19/12/23 Втр 21:58:11 #8 №577830 
>>577827
Общий вывод кокой? Дум или кум?
Аноним 19/12/23 Втр 22:00:03 #9 №577832 
>>577824
5K_M, классика же.
>>577826
>Опять шапка старая
На новую сил ни у кого нет, там только скелет накотали.
>>577826
>хз, если сами не напишут то где ты найдешь правду?
Так, а откуда тогда предположения о тренировке чистых слоёв с нуля?
>>577830
Кумить можно, запретов у сетки нет. Результаты будут как и у любой 7B сетки, просто не будет соевить посреди РП, ломая погружение.
Аноним 19/12/23 Втр 22:02:34 #10 №577834 
>>577827
Не не, тут карточка под перевод, на ней будет сложно. Тут внезапно не так уж плохо, качество и связанность офк с таким коротким не оценить.
>>577832
> 5K_M, классика же.
Не, тут сам, вот Q8 можно вообще без усилий квантовать.
Аноним 19/12/23 Втр 22:04:53 #11 №577836 
image.png
>>577832
>Так, а откуда тогда предположения о тренировке чистых слоёв с нуля?
Так вот на обниморде опоминают и где то еще видел, на реддите кажется

>>577832
>Кумить можно, запретов у сетки нет. Результаты будут как и у любой 7B сетки, просто не будет соевить посреди РП, ломая погружение.
Заебись же, значит кум. К тупым сеткам я уже привык, а вот соя заебала
Аноним 19/12/23 Втр 22:14:20 #12 №577845 
image.png
https://huggingface.co/Sao10K/Frostwind-10.7B-v1
вот ерп-рп еще, проиграл с описания
Аноним 19/12/23 Втр 22:25:03 #13 №577852 
>>577807 →
>А солар не франкенштейн, там скорее наращивание слоев было до 11b тоже из топовой сетки. Поэтому он может быть умнее 13b но хуже в рп так как там нужно красиво писать и соблюдать формат правильно ведя историю.
>Солар базовая сетка, так что нужно ждать ее нормальных файнтюнов с рп датасетами и там уже смотреть.
Солар это не базовая сетка, а файнтюн мистраля 7B. Они апскейлнули мистраль до 10B неведомой методой (данных это не прибавит), и полирнули файнтюном. Как бы то ни было, 99% там от мистраля. Попытка файнтюнить это дальше приведёт к катастрофическому забыванию или ещё какому-нибудь дерьму, в общем нихуя хорошего не будет.

Такую же хуйню с апскейлом в некоторых чекпоинтах SD 1.5 делали, заканчивалось это всегда хуёво.
Аноним 19/12/23 Втр 22:26:46 #14 №577855 
>>577836
>>577845
Блять, машинный перевод ломает мозг, пости оригиналы
Аноним 19/12/23 Втр 22:28:07 #15 №577857 
>>577852
> Такую же хуйню с апскейлом в некоторых чекпоинтах SD 1.5 делали, заканчивалось это всегда хуёво.
Можно подробнее? И разве в llm нету ema?
Аноним 19/12/23 Втр 22:32:34 #16 №577864 
>>577855
дак заходи да смотри оригинал

>>577852
>Солар это не базовая сетка, а файнтюн мистраля 7B.
Если считать базовой тренированную с нуля то нет, но она и не просто файнтюн мистраля. Все таки файнтюн не меняет размеры и структуру сетки, тупо небольшое переобучение.
Судя по ее ответам и по моим тестам базовой версии ниче там не сломано, то что раньше ломало ну дак там и алгоритмы хуже были в те времена. Раз щас растянули значит доделали
Аноним 19/12/23 Втр 22:46:31 #17 №577879 
изображение.png
>>577836
Эм, кажись, это обычное натягивание слоёв на сетку.
Аноним 19/12/23 Втр 22:48:47 #18 №577882 
>>577879
Документа нет, инфы кроме этого одного невнятного абзаца тоже нет, так что хз
Да даже если это обычный франкенштейн прошедший дополнительное обучение, не пофигу ли, главное результат
Аноним 19/12/23 Втр 22:56:57 #19 №577890 
https://www.reddit.com/r/LocalLLaMA/comments/18kfbh7/solar_an_11b_model_that_beats_every_open_model/
https://www.reddit.com/r/LocalLLaMA/comments/18hga4p/upstage_solar_107b_v10_claims_to_beat_mixtral/
В комментах больше хвалят чем ругают
Аноним 19/12/23 Втр 23:01:43 #20 №577897 
>>577779 →
> ссылку на обсуждение
Видел я это обсуждение, и про UNA ранее. Говно уровня "докажите что не использовали тесты в датасете" звучит просто кончено, доказательства должны быть у утверждающего, а не требовать опровергнуть себя. И авторы этого лидерборда зашкварились в этом. Они выкатили поломанный тест, а теперь с порванной жопой носятся АРЯЯЯ У ВАС МОДЕЛИ НЕПРАВИЛЬНЫЕ. Что дальше? Будет полиция датасетов с "ты тренируешь неправильно, тренируй как я сказал"? Чем быстрее этот лидерборд разъебут 7В моделями - тем лучше.
Аноним 19/12/23 Втр 23:04:43 #21 №577903 
Аноны а вот в автоматике есть xformer который позволяет картинки генерить чуть ли не на микроволновке.
С моделями для генерации текста так нельзя сделать?
Аноним 19/12/23 Втр 23:05:50 #22 №577905 
>>577890
Для своего размера хорош. В РП на уровне 20В. Но всё же я не сказал бы что оно до Микстраля или 34В дотягивает.
>>577903
Можно, FlashAttention для этого есть.
Аноним 19/12/23 Втр 23:08:45 #23 №577909 
>>577905
Хорош, осталось только дождаться нормальных файнтюнов

>Но всё же я не сказал бы что оно до Микстраля или 34В дотягивает.
Никто и не говорил

>>577903
>микроволновке.
Древний xeon считается? Тогда можно
Аноним 19/12/23 Втр 23:10:14 #24 №577911 
1593298726893.png
>>577219 →
Ну походу такого пайплайна и не существует, мне выдаёт пикрил ошибку
Как то вот так python server.py --model llava-v1.5-13B-GPTQ --multimodal-pipeline llava-llama-2-13b --load-in-4bit --disable_exllama --loader autogptq --api --trust-remote-code
С эксламой не будет нормально клип работать, так что только автогпт, потом в интерфейсе можно попробовать поменять на другую модель, даже не мультимодалку, но работают они своеобразно
>>577222 →
Так в итоге жорин ггуф с proj файлом лучше юзать или угабугу?
>>577497 →
> Если до конца года доживу то запилю как запускать.
Я бы тоже почитал, а то запускал только с угабугой, а там оказывается с жорой ещё куча подводных походу
Аноним 19/12/23 Втр 23:10:33 #25 №577913 
>>577890
Да это хронически там, они надрачивают на любой движ. Соевизированное общество, хули от них хочешь, если ты там на говно не напишешь сначала "Good job!", тебя самого с говном съедят.
Я верю только обзорам отечественных Анонов. Только они режут правду-матку.
>>577897
>доказательства должны быть у утверждающего
Так они прямо на доске, не могут эти обрезки по честному ебать 70B, как не тренируй. А иначе бы и 70B так полиранули бы, что цифры в небеса улетели бы.
А по факту это 100% трейн на датасете, и любые независимые тесты с закрытой методикой это покажут.
Аноним 19/12/23 Втр 23:10:54 #26 №577915 
>>577864
>Если считать базовой тренированную с нуля
Именно такой и считать.
>Все таки файнтюн не меняет размеры и структуру сетки, тупо небольшое переобучение.
Так и апскейл ничего не меняет. Он может освободить веса под файнтюн, теоретически, но данных из файнтюна там доля процента от мистралевских.

Из нихуя не получишь хуя, физику не обмануть

>>577857
Были давно на цивите модели с большим числом параметров чем 860M, подробностей уже не помню но они требовали какого-то аддона для того чтобы им пользоваться. Ничего особенного из себя не представляли.
Аноним 19/12/23 Втр 23:15:36 #27 №577921 
>>577913
>не могут эти обрезки по честному ебать 70B, как не тренируй
Могут, если изначальный датасет и метода тренировки заебись. Как у мистраля 7B. Это он даёт 99% основы таким.
У китайцев были и 700-что-то там миллиардов параметров, сразу после того как вышла GPT-3, а результаты хуже.
>А иначе бы и 70B так полиранули бы, что цифры в небеса улетели бы.
Не полиранули бы, потому что 70B это ллама2, а она изначально так себе.
Аноним 19/12/23 Втр 23:16:08 #28 №577922 
>>577915
>Так и апскейл ничего не меняет. Он может освободить веса под файнтюн, теоретически, но данных из файнтюна там доля процента от мистралевских.
>
>Из нихуя не получишь хуя, физику не обмануть
Результат есть, значит там не так просто как ты описал. Ты ведь не знаешь как именно они растянули, а так уверенно делаешь выводы. Я все таки думаю они нарастили неопределенные слои и начали обучение по датасету.

>>577913
>Да это хронически там, они надрачивают на любой движ. Соевизированное общество, хули от них хочешь, если ты там на говно не напишешь сначала "Good job!", тебя самого с говном съедят.
>Я верю только обзорам отечественных Анонов. Только они режут правду-матку.
Миллионы мух не могут ошибаться, если почитать то можно найти годные точки зрения там. Анонов мало и пишут они сюда не часто, так что что есть
Аноним 19/12/23 Втр 23:16:48 #29 №577923 
>>577913
> не могут эти обрезки по честному ебать 70B
В тестах лидерборда ебут, не вижу никаких проблем с этим. Если натренировать 7В модель на коде, то теперь в тестах на написание кода её нельзя сравнивать с 70В? Я и говорю что шиза начинается - тесты на одно, а требования к моделям на ходу из головы выдумывают. Какой тогда смысл в них?
Аноним 19/12/23 Втр 23:19:56 #30 №577925 
>>577922
>Ты ведь не знаешь как именно они растянули
Апскейл никак не может добавить знаний сам по себе, им неоткуда взяться без тренировки. А свой датасет они перечислили, это типичный набор для файнтюна, там и близко нет столько токенов сколько в фундаменталках. И методу примерно описали (тренировка с нуля почуть -> мёрж с мистралем -> растяжение до 10.7B -> файнтюн).
Аноним 19/12/23 Втр 23:20:55 #31 №577926 
>>577925
ну знаешь, они и напиздеть могли
Аноним 19/12/23 Втр 23:22:34 #32 №577928 
>>577897
> Говно уровня "докажите что не использовали тесты в датасете"
Откуда ты вообще это насочинял? В обсуждении буквально
> эти модели подозрительные, в них трейн по тесту
> да, вот по этой оценке они действительно подкрутили, сейчас их флагом обозначим и отнесем на парашу
И все, правильно сделали. Хочешь наворачивать их - ставишь галочку flagged и видишь своих победителей.
>>577905
> В РП на уровне 20В
Хуясе, это заявочка.
>>577915
Если душнить то объективно их фейл не означал их плохое качество, просто не набрало популярность. С диффузией вообще там все сложно.
>>577921
Твоя ангажированность очевидна, уверовал в возможность а эти грязные тестировщики разрушают твою мечту ебать всех и вся на мелкой модельке. Нахуй так жить то?
> потому что 70B это ллама2
> transformers
Значение знаешь? Хотя от шизика-фантазера другого и не следует ожидать.
Аноним 19/12/23 Втр 23:24:17 #33 №577930 
>>577921
>Как у мистраля 7B.
Но он не ебёт 70B, его уровень это 13B второй версии, и 30B первой, если полувялым.
>потому что 70B это ллама2, а она изначально так себе
Она лучшее, что есть в попенсорсе.
>>577922
>Ты ведь не знаешь как именно они растянули
Самое простое предположение обычно оказывается самым верным. Они конечно дохуя пишут про свои методы, но не конкретику, а восторженные эпитеты. Вот, почитай https://en.upstage.ai/newsroom/solar10b-huggingface-no1
>>577923
>Если натренировать 7В модель на коде, то теперь в тестах на написание кода её нельзя сравнивать с 70В?
Так тренируют не на коде, а на конкретных данных, буквально заставляя модель выучить тесты. Ну спасибо нахуй.
>а требования к моделям на ходу из головы выдумывают.
И это тоже, ибо тестов на RP нормальных нет.
Аноним 19/12/23 Втр 23:26:04 #34 №577933 
>>577928
>transformers
Ну, просто замечу, что несмотря на одно название там постоянно что то меняют в алгоритмах на сколько я знаю
Аноним 19/12/23 Втр 23:28:43 #35 №577936 
>>577933
Все лламы сделаны абсолютно одинаково. Есть особенности тренировок, но они чуда не сделают, и не выжмут из 0,00001M производительность GPT4-Turbo
Аноним 19/12/23 Втр 23:31:05 #36 №577943 
>>577928
>Твоя ангажированность очевидна, уверовал в возможность а эти грязные тестировщики разрушают твою мечту ебать всех и вся на мелкой модельке. Нахуй так жить то?
Я вообще другой анон, я ни за что не топлю, я вижу то что вижу - дефакто сейчас два файнтюна микроскопического 7B мистраля ебут 70B лламу2 на реальных слепых тестах людьми. Yi-34B базовая тоже её ебёт. Не вижу тут никакой контроверсии и верований. Это совершенно очевидно говорит о том что и мистраль и Yi ебут сильно выше своих параметров, а ллама2 - так себе.
Аноним 19/12/23 Втр 23:32:17 #37 №577944 
>>577930
> на конкретных данных, буквально заставляя модель выучить тесты
А с кодом не так что ли? Всё ещё не вижу логики в тестах, в которых запрещено знать ответы на вопросы.
> тестов на RP нормальных нет
Потому что рп-шизы даже объяснить не смогут что им надо. Есть арена, всё остальное не нужно.
Аноним 19/12/23 Втр 23:32:19 #38 №577945 
>>577936
мистраль например нет, там же у него какое то раздвижное окно контекста, тоесть измененная архитектура относительно лламы
И опять же, только лламы и им подобные сделаны на своем варианте трансформерс, есть и другие
Аноним 19/12/23 Втр 23:34:42 #39 №577947 
>>577936
>Все лламы сделаны абсолютно одинаково.
Нет, датасет и кураторство тренировки решают абсолютно всё. Архитектура вообще ни о чём не говорит, они могли датасет готовить ещё в три раза более сложным способом. Вон в диффузионках pixart-alpha за счёт датасета ебёт SDXL меньшим числом параметров и раз в 10 меньшей стоимостью тренировки.
Аноним 19/12/23 Втр 23:36:25 #40 №577949 
>>577944
>А с кодом не так что ли? Всё ещё не вижу логики в тестах, в которых запрещено знать ответы на вопросы.

Видишь ли в чем дело, годное обучение не просто заучивание инфы, это когда сетке разжевывают как решить задачу.
Если ей просто кормят загадки и ответы, она едва ли поймет как решать. Что то может и ухватит, но едва.
Если сетке объясняют как доходить до решения задач, то тогда другое дело, она сможет решать аналогичные задачи с большим шансом.

Видимо на это и агрятся борцы с загрязненным датасетом, сетки проходят тесты не потому что понимают что делают, а потому что зазубрили без понимания правильные ответы, если давать аналогию в людях
Аноним 19/12/23 Втр 23:37:36 #41 №577951 
>>577933
> что то меняют в алгоритмах
В каких алгоритмах?
>>577943
> натренили сетки делать удачные зирошоты и подкидывают их при подходящих запросах, делая сравнение с всратой чат версией
Починил тебя. Если эти сети так хороши, почему они настолько говно в реальном использовании? Не просто получить странную пасту в ответ на "почему замля круглая?" а при различной обработке текстов, в восприятии самих команд, понимании смыслового содержания? Про рп тут вообще разница настолько радикальна что нет смысла на них смотреть.
Пиздец с этими моделями уже подбирается к специальной олимпиаде амудэ-штеуд и подобное, что невероятно хуево ибо потенциальный пользователь не получает нужной инфы, а также бросает тень на все направление.
> Yi-34B базовая
Базовая печальна, файнтюны ничего, но ровно в том месте где она и ожидается по перфомансу. Где вы, блять, эту шизу вообще берете?
Аноним 19/12/23 Втр 23:40:46 #42 №577955 
>>577949
> сетки проходят тесты не потому что понимают что делают, а потому что зазубрили без понимания правильные ответы
Проблема в том что тесты как раз на знания, а не на субъективную оценку ответов сетки. Но теперь соя и сюда добралась - отменяют непонравившиеся результаты.
Аноним 19/12/23 Втр 23:41:23 #43 №577958 
>>577951
>почему они настолько говно в реальном использовании?
>Базовая печальна, файнтюны ничего, но ровно в том месте где она и ожидается по перфомансу.
И этот анон обвиняет кого-то в предвзятости, лол. Вот почему я должен слушать ЯСКОЗАЛ анонима с двача, а не слепые тесты с людьми? Дай причину.

>Где вы, блять, эту шизу вообще берете?
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
С ними спорь.
Аноним 19/12/23 Втр 23:41:38 #44 №577959 
>>577943
>два файнтюна
>ебут 70B лламу2
Потому что там нет файнтюнов 70B. Потому что 70B дорого крутить.
>Yi-34B базовая тоже её ебёт.
Плюс минус не спорю. У меня с ней свои счёты, но улучшение на один уровень смотрится вполне реалистичным. Уж всяко лучше, чем перепрыгивание через 4 голов.
>>577944
>А с кодом не так что ли?
Я ХЗ про какой ты код.
Если учат на одних задачах, а дают другие- то окей.
>Всё ещё не вижу логики в тестах, в которых запрещено знать ответы на вопросы.
Очевидно они измеряют "интеллект" модели, а не способность зубрить. А то так программка с БД вопрос-ответ выебет GPT4, только вот как только ты спросишь что-то за пределами БД, тут же магия развеется, и карета превратиться в дилдак в жопе махинатора.
>>577945
>есть и другие
Плюс минус один хер. Ну или вообще нигде не представлены, как те же RWKV.
>>577945
>там же у него какое то раздвижное окно контекста
ЕМНИП оно использовалось как раз при обучении, чтобы получить 32к нативного контекста. При работе я этого разреженного внимания не замечаю.
>>577947
>Нет, датасет и кураторство тренировки решают абсолютно всё.
А теперь сравни ресурсы меты и какого-нибудь ноунейма из Кореи.

Террористы, педофилы и просто нехорошие люди
Аноним 19/12/23 Втр 23:42:50 #45 №577962 
>>577959
>Террористы, педофилы и просто нехорошие люди
Относится к "мете", ибо наше светлое правительство заставляет их обижать.
Быстрофикс
Аноним 19/12/23 Втр 23:44:07 #46 №577963 
1684999954817.png
>>577951
> Где вы, блять, эту шизу вообще берете?
Чел, в слепых тестах топ моделей сейчас пикрилейтед. Это просто реальность, как бы тебе не пекло с неё.
Аноним 19/12/23 Втр 23:45:03 #47 №577966 
Screenshot (455).png
>>577959
>Потому что там нет файнтюнов 70B.
Есть же, пикрил. Я говорю что 7B сетка - неважно в каком виде, файнтюн или нет - в теории не должна перформить выше даже нетюненой 70B. Но по факту перформит в слепом тесте.
Аноним 19/12/23 Втр 23:46:29 #48 №577968 
>>577944
> логики в тестах, в которых запрещено знать ответы на вопросы
Про базированную базу в виде обучающего и тестового набора данных не слышал? В любой сетке можно натренить полнейшую залупу, которая будет хорошо угадывать свой датасет, но при этом капитально фейлить все остальное. Какое-то более менее объективное тестирование может быть проведено только на данных, не использованных в обучении сетки.
> Есть арена
Есть арена рп?
> рп-шизы
Лол, скорее 7б дауны только спят и видят где провести аутотренинг опровергая свою всратость. Серьезно, из-за всей этой движухи теперь при разработке новых "базовых" (с огромной натяжкой) моделей и файнтюнах смотрят не как действительно сделать что-то новое и качественное, а как нахуярить побольше попугаев в этих бенчах, что крайне плохо сказывается на конечном результате.
>>577958
Про нее уже писали, и то что они подкручивают выдачу некоторым моделям даже посты были. 50 типичных TruthfulQA - 35микстралей, 30 запросов с чатом на 3к контекста - 5 микстралей, потом вроде отписали что было только 1 день и пофиксили. Это не говоря про сам формат.
Аноним 19/12/23 Втр 23:47:33 #49 №577970 
>>577966
Не одна ж 7b, там же сумма токенов сеток. 7b которая там ебёт - это старлинг
Аноним 19/12/23 Втр 23:49:00 #50 №577972 
>>577958
>>Где вы, блять, эту шизу вообще берете?
>https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
>С ними спорь.
Лол, кстати, там из попенсорса таки 70B наверху, вместе с микстралем и уиии 34B. И никаких 7B, что вполне себе ожидаемо.
Что доказать то хотели?
>>577966
>Есть же, пикрил.
И она выше 7B. Что и требовалось доказать.
>неважно в каком виде, файнтюн или нет
Влажно. Ещё как влажно. Ибо тут небось даже инструкции через жопу даны, буквально зеро-шот. И инструкт модели там выше чатовых, лол.
>>577968
>Это не говоря про сам формат.
Формат кстати норм. Но что там под капотом, действительно не понятно.
Аноним 19/12/23 Втр 23:49:57 #51 №577974 
>>577968
> из-за всей этой движухи теперь при разработке новых "базовых" (с огромной натяжкой) моделей и файнтюнах смотрят не как действительно сделать что-то новое и качественное, а как нахуярить побольше попугаев в этих бенчах, что крайне плохо сказывается на конечном результате
К счастью такой хуитой уже никто не занимается, кроме любителей всяких рп-файнтюнов. Китайцы в свежих моделях даже скоры тестов не выкладывают, чтобы не шквариться об них.
Аноним 19/12/23 Втр 23:50:38 #52 №577975 
>>577968
>аутотренинг
Пока что я вижу аутотренинг одного человека и копротивление тестам. Бенчи не бенчи - дали тесты на людях - теперь люди не люди.
>и то что они подкручивают выдачу некоторым моделям даже посты были
Соус? Звучит как хуйня.
Аноним 19/12/23 Втр 23:51:45 #53 №577976 
>>577972
>Но что там под капотом, действительно не понятно.
Буквально под глазами же.
>The Arena Elo ratings are computed by this notebook
>https://colab.research.google.com/drive/1KdwokPjirkTmpO_P1WByFNFiqxWQquwH
Аноним 19/12/23 Втр 23:53:26 #54 №577977 
>>577975
>аутотренинг одного человека
Как минимум двух.
И да, нам то похуй, мне наоборот хотелось бы, чтобы 7B выебла GPT4 по всем параметрам. Но я реалист, и вижу, что хуй там плавал.
А вот нищеброды, которым доступна только 7B, просто вынуждены аутотрейниться, чтобы не было так обидно.
Аноним 19/12/23 Втр 23:53:46 #55 №577978 
image.png
Там как бы аж 2 7b которые ебут гпт3.5 и кучу других сеток, и сколько еще не тестили из новых.
Че там гермеса не добавили кстати? Непорядок
Аноним 19/12/23 Втр 23:55:31 #56 №577979 
1567176325702.png
>>577972
> И никаких 7B, что вполне себе ожидаемо.
Две 7В в 20-30 балах от твоей топовой 70В и ебут ванильную ламу 70В. Ты так говоришь как будто 70В в 10 раз лучше 7В, а по факту там разница почти нулевая.
Аноним 19/12/23 Втр 23:56:23 #57 №577980 
2635087232407.jpg
>>577977
>стена срача и ментального неприятия тестов
>нам то похуй
>я реалист
>нищеброды
Ну ладно.
Аноним 19/12/23 Втр 23:56:32 #58 №577981 
>>577978
а вру, гермеса добавили только он ниже
Аноним 19/12/23 Втр 23:59:28 #59 №577982 
>>577976
>ссылка на код анализа данных, скачанных с гугл драйва
И конечно же мы верим, что данные собраны честно.
>>577978
>ебут гпт3.5
Никто и не спорит, что турба уже труп, который используют либо от безысходности, либо от незнания.
Ах да, прямо у тебя на скрине старая турба выебла эти самые семёрки. Кто же виноват, что оленьАИ отупляет свои модели?
>>577979
>в 20-30 балах
Как и микстраль от самой слабой четвёрки. Но я думаю не стоит пояснять, что там просто пропасть нахуй.
>>577980
>>нищеброды
>Ну ладно.
Пруфай своё железо, которое годно для запуска неквантованного голиафа, но ты сознательно выбираешь 7B, потому что он же лучше.
Аноним 20/12/23 Срд 00:01:03 #60 №577984 
>>577982
>Никто и не спорит, что турба уже труп, который используют либо от безысходности, либо от незнания.
>Ах да, прямо у тебя на скрине старая турба выебла эти самые семёрки. Кто же виноват, что оленьАИ отупляет свои модели?
Вобще похуй, тут 7b которые ебут 175b, алё
А ему все мало, лол
Аноним 20/12/23 Срд 00:04:01 #61 №577985 
>>577984
>Вобще похуй, тут 7b которые ебут 175b, алё
Новую версию, которая отуплена вкрай. Старую не ебут.
>А ему все мало, лол
Да, я хочу GPT4 локально на смартфоне, и везде это открыто заявляю.
Аноним 20/12/23 Срд 00:07:50 #62 №577986 
>>577985
>Новую версию, которая отуплена вкрай. Старую не ебут.
Все это не обесценивает какой разрыв они преодолели

>Да, я хочу GPT4 локально на смартфоне, и везде это открыто заявляю.
Тоже хочу, ктож спорит. Вот если вдруг нам дадут хотя бы 13b на новой архитектуре, ту же мамбу. Вот ее топовые файнтюны уже могут начать покусывать за жопу гпт4, пусть и самую тупую для начала, тоже неплохо.
Аноним 20/12/23 Срд 00:08:21 #63 №577987 
>>577972
> Формат кстати норм.
Не, задумка четкая и что уже такое сделали молодцы (что искажают офк скоты, а еще там явно какая-то хуета с промтом гопоты кроме турбо 4, комплишн по тем же запросам реально лучше результат дает).
Проблема в том что 95% оценок там - зирошот на простые вопросы. Потому и оценивать результаты нужно с учетом этого а не экстраполировать далеко.
>>577974
> кроме любителей всяких рп-файнтюнов
Рп файнтюнов там мало, большей частью делают лоры и миксы разной степени шазинутости. И даже странный ерп рейтинг, в котором явно написано что он отражает и как его нужно читать, разграничивает модели по размерам.
>>577975
Шизик, как ты не понимаешь что из-за этого анального цирка тебе же придется не крутить йоба мелочь, что действительно круто перформит, а только дольше жрать говно, не способное на что-то кроме задроченности уебищным QA датасетом, теряющим нить после десятка постов в чате и игнорирующим инструкции?
Аутотренинг здесь буквально шизов, заявляющих что белое это черное, отрицающих базовые вещи (те предъявы почему в рейтинге флаг) и не обладающим качествами чтобы делать выводы.
Похуй сейчас этим наедяться и дальше пойдет обратный виток или оварида, даже текущий уровень является крайне достойным и функциональным.
Аноним 20/12/23 Срд 00:13:15 #64 №577991 
>>577986
> покусывать за жопу гпт4
Ну и справедливости ради, следует посмотреть для чего юзают тот же жпт4. Не в чатике с хихи-хаха смотри нейросеть отвечает, а именно в коммерции. Отметая абуз рп, здесь как раз требуется наличие знаний, четкое понимание задачи, инструкций и возможности "гибкого мышления", на что нужно очень много внимания. Или же хорошая точность и понимание содержания. Пока что сравниться даже с турбой в этих областях 7б и, увы, микстраль не может, не смотря на громкие заявления и высокие позиции.
Аноним 20/12/23 Срд 00:14:58 #65 №577993 
изображение.png
изображение.png
изображение.png
изображение.png
Там в конченном треде просят выложить результаты https://huggingface.co/Sao10K/Frostwind-10.7B-v1
Вердикт- говно. Про негров не шутит, рыбы тонут, семья всё ещё из 5 человек, даже петуха файнтюном проебали.
Аноним 20/12/23 Срд 00:19:29 #66 №577996 
>>577991
Внимание конечно проблема как и контекст, но опять же хрен его знает как себя покажет новая архитектура.
В любом случае технологии не стоят на месте и мы в любом случае получим локальные сетки приемлемых размеров и все улучшающихся со временем возможностей.
Аноним 20/12/23 Срд 00:24:08 #67 №577998 
>>577993
альпака формат хоть?
Аноним 20/12/23 Срд 00:26:58 #68 №577999 
>>577996
> как себя покажет новая архитектура
Ты про мамбу? Ее действительно интересно было бы увидеть в больших размерах, главное чтобы она могла эффективно масштабироваться.
Если же про мелочь на трансформерсе - пожалуй все соки из методов тренировки уже выжаты и сильно лучше не увидим. Может поможет радикальная специализация в экспертах, другой их формат, дистилляции, когда та же 7б это не то что сейчас а хитро представленная 70/30, однобитное квантование и прочее.
Хотелось бы их видеть, пусть даже ошибаясь и реально 7б или меньше в текущем виде как-то натренят что станет крутой. Но когда видишь текущую картину - только унынье накатывает. Сколько годных технологий/решений было загублено припезнутыми кабанчиками подобным подходом и обманами.
Аноним 20/12/23 Срд 00:27:59 #69 №578000 
Ну тут реально аутотренинг.
Llama 70B «так себе», ну нихуя себе.
1. Mixtral 42B, обходит Llama 70B.
Не удивительно, учитывая возраст последней, а так же специфику модели.
2. Yi 34B, обходит Llama 70B.
Опять же, возраст. Плюс, че там на русском языке, как дела? А что у нас с рп, ерп, кодингом и иными направлениями?
3. Llama 70B. Ну вот и все, ебыри-то кончились. Ни одна 7B не ебет 70B. Такие вот тесты людей.
И это при том, что тесты проводятся на вопросах, а не на ебле негритянок, И эти вопросы есть в датасетах многих 7B (пруфов выше накидали), и даже так — что-то не ебется.

Надо быть честным. Конечно, Мистраль и ее файнтьюны — объективно хороши. И они правда на уровне 13B второй версии и 30B первой.
Но они НИКАК не на уровне 70B второй версии, и даже не на уровне 34B.
А Mixtral — так вообще по знаниям второе место после 70B, как бы, чему удивляться.
Для рп на русском ничего лучше 70B нет.
У Микстрали побольше ошибок в русском, и пишет она сухо.
В задачах Микстраль вполне тащит.
Yi 34B ожидаемо тащит в задачах на английском. Не знаю уж, насколько она хорошо рпшит.
Ну и дальше идет старенькая уже Llama 2 70B.
А уже там, ниже — файтьюны Мистрали, да. Хотя кому-то с точки зрения художественных изысков больше зайдут 20B и 13B модели.

Не знаю уж, как можно спорить с тестами, которые сам же и принес, и называть 70B «так себе». Это в скорости она ужасна, потому что мы бомжи. А в качестве она топчик на русском в художественном, и очень хороша в задачах.
Аноним 20/12/23 Срд 00:29:34 #70 №578001 
изображение.png
>>577998
Конечно нет. На этих тестах я всегда юзаю симпл, ибо ну его нахуй подстаиваться под каждую модель. Так что условия у всех равные- дефолтный темплейт без инструкт мода.
Формат чинит яйца петуха, но нах нужна модель, которая так легко ломается?
Аноним 20/12/23 Срд 00:31:05 #71 №578003 
Кстати, Mixtral fp16 на двух RTX A6000 в стриминге выдает 12 токенов/сек, седня потестили.
Вкусное, хули.
Аноним 20/12/23 Срд 00:33:07 #72 №578004 
>>577999
Да, мамба. Ну еще какая та гиена есть, тоже на новой архитектуре аж базовая 7b. Но у меня ее запускать не на чем.
Согласен, 7b на текущей архитектуре приближаются к своему потолку. Может быть можно еще лучше, но не на голову.
А вот новые архитектуры это интересно, думаю на них что то появится в пределах месяца-двух

>>578001
Дык модель на базовой солар тренирована с альпака форматом, там кроме альпака формата голяк
А ты от нее хочешь чет странное, конечно результаты хуйня будут
Аноним 20/12/23 Срд 00:33:07 #73 №578005 
>>578003
4х3090 всё одно дешевле выйдут, хотя по скорости ХЗ как.
Во что упор при генерации был? Сколько кековат кушали карточки? Чем щапускали?
Аноним 20/12/23 Срд 00:34:46 #74 №578006 
>>578004
>А ты от нее хочешь чет странное, конечно результаты хуйня будут
Я от всех хочу странного. И некоторые справляются, а некоторые нет. В любом случае все модели базово должны уметь дополнять текст безо всяких инструктов, это их фундаментальное свойство.
Аноним 20/12/23 Срд 00:36:07 #75 №578008 
>>578000
Сюда бы выпустить зверя в виде файнтюнов лламы 70.
>>578003
Настолько печально? Раз в него может эксллама ей бы пустили, должно быть очень быстро.
>>578005
> 4х3090
Нвлинк смогут? Быстрый запуск и обучение больших моделей бы. Тут действительно система на них получается дешевле чем одна A6000@48
Аноним 20/12/23 Срд 00:36:36 #76 №578009 
>>578000
>У Микстрали побольше ошибок в русском, и пишет она сухо.
И ты тут же тупо судишь о качестве отсеивая по русскому языку, ну чел. Вроде дельно рассуждаешь и такая субъективщина

>>578006
Могут то могут, только хуже чем на своем формате
Аноним 20/12/23 Срд 00:41:52 #77 №578015 
>>578005
Я чисто присутствовал на позырить.
В облаке знакомый запускал, на TGI, инструкт-модель сорсовую без конвертаций каких-либо.
Заняла 94 из 96 гигов.
За детали не в курсе. Но результат повторяемый, стабильно 11-12 токенов было.

Остался доволен качеством ответов, хорошо текст суммаризирует, по его мнению.

3090 выйдут дешевле, канеш, но я уже и на две согласен, чтобы туда 8bpw загрузить.
Но во по скорости, насколько я понял, 3090 должны быть по-быстрее. Но я так, не приглядывался к характеристикам особо, чисто гугланул.

Тока пока я на 2 3090 заработаю, уже что-нибудь новое выйдет. Ну, я надеюсь. =D
Аноним 20/12/23 Срд 00:43:29 #78 №578017 
>>578008
>Нвлинк смогут?
ХЗ, не уверен в объединение 4-х карточек. Линка вроде 2, и вроде как в шахматном физически можно, но как это будет работать в железе...
>Быстрый запуск и обучение больших моделей бы.
На обучение точно лучше A6000@48 брать. Впрочем я вообще нынче безработный, лол, куда уж дрочить на топ железо. Радуюсь тому что есть.
>>578009
>Могут то могут, только хуже чем на своем формате
Ну так условия для всех равны. Cumмунизм для всех так сказать.
Аноним 20/12/23 Срд 00:44:43 #79 №578019 
Screenshot (456).png
>>577982
>Пруфай своё железо, которое годно для запуска неквантованного голиафа
Я вообще-то даже не утверждал что оно у меня есть, я просто охуеваю с того как ты скачешь три дня чтобы сказать что мы тебе безразличны. Но ладно, пусть будет голиаф.
Я так-то РП вашим вообще не интересуюсь, тем более на русском. Я жду локальной сетки хотя бы уровня GPT-4 для большого личного проекта, мне пока неюзабельны никакие открытые модели.

>И конечно же мы верим, что данные собраны честно.
Конечно же нет, ты обвиняешь их в подтасовке без каких-либо оснований, просто потому что тебе так кажется.

>>577987 >>578000
>очередное ЯСКОЗАЛ
У меня нет лошади на этих скачках. Я смотрю на тесты против беспруфных кукареков. Бывает всякое, но тесты пока что перевешивают.
Аноним 20/12/23 Срд 00:44:58 #80 №578020 
>>578008
На самом деле — на грани комфорта. Если тебе работать, то стриминг и вырубить можно, авось перформанс подрастет.
А так, железо не мое, поэтому я не стал на экслламе настаивать. =) Там у человека десятки, если не сотни инстансов развернуты, комплекс самописный полноценный, все запускается по одному клику, надо лишь ссыль вписать с обниморды правильную. Че я буду лезть.

>>578009
Ну это лишь один из моментов. =)
То что она пишет сухо, заметил в этом треде не только я.
А русский канеш субъективщина, просто еще одна монетка в копилку.
Аноним 20/12/23 Срд 00:45:35 #81 №578021 
image.png
Медленно че то, но вроде как не совсем мозги поехали от токсичного файнтюна. Хотя периодически шизит, все таки хоть и работает но датасет был слишком грубый
Аноним 20/12/23 Срд 00:47:53 #82 №578023 
>>578020
>То что она пишет сухо, заметил в этом треде не только я.
Так конечно сухо, это ж 7b все равно, просто работающие параллельно, как я понял. Это прибавило сеткам ширины знаний, но не глубины и красочности
Аноним 20/12/23 Срд 00:49:05 #83 №578024 
>>578017
> На обучение точно лучше A6000@48 брать
Она стоит овер 4e+5 валюты этой страны и может протухнуть чуть больше чем через год.
> Радуюсь тому что есть.
> 2x A6000
Легко говорить. Раз такое дело - чем занимаешь, что обучаешь? Не хочешь что-нибудь интересное с такими ресурсами замутить?
>>578019
Чужой скрин или даже наличие доступа к подобному железу не делают твое отрицание действительности релевантным.
>>578020
Ну йобана
Аноним 20/12/23 Срд 00:50:34 #84 №578026 
13188877596470.jpg
>>578024
>Чужой скрин или даже наличие доступа к подобному железу не делают твое отрицание действительности релевантным.
Аноним 20/12/23 Срд 00:53:04 #85 №578029 
>>578015
>Но во по скорости, насколько я понял, 3090 должны быть по-быстрее.
Не факт. По блокам чип в A6000 чуть более полный, а вот по скорости памяти там подсос небольшой если верить DNS, лол.
В A6000 вкрячить бы память из 3090 Ti, с полной скоростью GDDR6X, была бы пушка.
>>578019
>Я жду локальной сетки хотя бы уровня GPT-4
Тогда тем более непонятен твой дроч на мелкие модели. Тебе в самый раз наоборот воевать на стороне побольше-пожирнее, чтобы качество повыше.
>ты обвиняешь их в подтасовке без каких-либо оснований
Их? Я всех обвиняю, просто потому что кризис воспроизводимости в науке. Все лгут ©, как сказал один наркоман в сериале.
>>578020
>Че я буду лезть.
Как чё? Предложишь, покажешь, и челу сэкономишь ресурсы, и сам подсосёшься к топ локалочке, лол хотя в этом плане проще сразу чурбу пиздить.
>>578021
>все таки хоть и работает но датасет был слишком грубый
Какие идеи сделать мягкий, но убирающий всю сою датасет?
>>578024
>Легко говорить.
Эм, ты меня попутал с другим челом, чуть внимательнее будь. Я если что простой бомж с 3080Ti, лол ебало до сих пор скрючено с проёба, за 150к взял в 2022..
Аноним 20/12/23 Срд 00:54:02 #86 №578030 
>>578019
> тесты пока что перевешивают.
Ну да, в тестах буквально написано: 70B пизже всех файнтьюнов мистрали.
Все, факт, спасибо тестам. Согласен, им надо верить, а не беспруфным вскукарекам челиков из этого треда, у которых 7B ебет 70B.
Аноним 20/12/23 Срд 00:57:13 #87 №578035 
>>578029
> хотя в этом плане проще сразу чурбу пиздить
Ну, доступ к его серверам у меня так-то есть, да, а платит его фирма. =)
Тут, к счастью, все по-человечески.

> 150к
Я тут 4070ti взял за 83к (и 36к бонусами вернул), и до сих пор крючусь, может стоило брать 3090 за ту же цену. А у тебя вообще помянем… Сочувствую.
Зато оно есть! Все хорошо, что есть, если оно хорошо.
Аноним 20/12/23 Срд 00:58:02 #88 №578036 
>>578029
>Какие идеи сделать мягкий, но убирающий всю сою датасет?
Больше примеров, и не перекашивать их только в одну сторону слишком сильно. Покрыть больше тем, и все такое. Ну и наверное не применять этот метод к уже файнтюнутым сеткам.
Тут же соевый инструкт, а надо было легонько по базовой пройтись пока она не перестанет соей срать.
И потом уже файнтюнить по нормальному датасету.
Ну или так же с обратной связью и более лучшим файнтюном проходится по инструкту.
Короче варианты есть и скорей всего пока что это была первая проба пера. Дальше допилят
Аноним 20/12/23 Срд 00:59:44 #89 №578038 
>>578029
>Тогда тем более непонятен твой дроч на мелкие модели. Тебе в самый раз наоборот воевать на стороне побольше-пожирнее, чтобы качество повыше.
Я ни с кем не воюю, пока просто надеюсь что игра в 7B-песочнице продолжится на больших размерах. А так да, была бы GPT-4 в открытом доступе...
Аноним 20/12/23 Срд 01:04:06 #90 №578040 
>>578036
Полностью согласен. Надо будет им закинуть эти идеи.
>>578038
>пока просто надеюсь что игра в 7B-песочнице продолжится на больших размерах
Меня тоже заебал дроч на наномодели, всё жду выхода нормальных тюнов 70B. Обнимемся?
Аноним 20/12/23 Срд 01:05:09 #91 №578041 
>>578026
О, боевая картинка, уже порвался. Серьезно, любой шарящий вникнет и поймет что к чему, не говоря а нейтральности позиции, а шизик будет носиться с шизой, дерейля и переобуваясь. На первого ты совсем не похож.
>>578029
> за 150к взял в 2022
Бляя помайнить хоть успел? эх бедолага ну зато уже сколько времени владеешь
>>578038
> игра в 7B-песочнице продолжится на больших размерах
Она слишком затянулась и ушла не туда. Моделей крупнее этих семерок оче мало в последнее время, только несколько китайцев.
Аноним 20/12/23 Срд 01:10:08 #92 №578043 
>>578035
>Зато оно есть!
Этим и спасаюсь.
>>578041
>Бляя помайнить хоть успел?
Я не гей.
>>578041
>Моделей крупнее этих семерок оче мало в последнее время
Поэтому и надо разоблачать семёрки, чтобы толкать людей выпускать чего жирнее. Когда люди поймут, что семёрка выжата, им придётся начать играть на моделях больше.
Аноним 20/12/23 Срд 01:34:19 #93 №578050 
image.png
image.png
image.png
>>578021
Запуская ее же с рекомендуемым форматом, ну че то может. Не все потеряно, и да, она всегда отвечает и размышляет как взрослая сетка, что то реально на уровне 20b-33b
На сестрах конечно она дает заебатые ответы
Перевозка тоже в пролете
Аноним 20/12/23 Срд 02:10:30 #94 №578078 
https://github.com/SJTU-IPADS/PowerInfer
Аноним 20/12/23 Срд 02:17:53 #95 №578086 
изображение.png
>>578078
Да ёб ты нахуй, опять билдить/конвертить/страдать.
Впрочем, герганов может спиздить код, и это будет везде.
Аноним 20/12/23 Срд 02:17:54 #96 №578087 
>>578078
Интересно, но опять таки формат какой то свой для разделения горячих нейронов от холодных
Аноним 20/12/23 Срд 02:20:24 #97 №578092 
изображение.png
>>578087
Будет рофлово, если при ебле горячими будут другие веса, и оно будет пердеть х0,01 на проце, лол.
А вообще, там ещё пони не валялся.
Аноним 20/12/23 Срд 02:22:55 #98 №578094 
>>578092
Так история как и с любой оптимизацией весов, либо она сделана заранее и где то модель будет проебываться если не все учли заранее, либо будет динамически подгружать горячие нейроны настраиваясь под тебя.
Как ты понимаешь 2 вариант слишком сложный для попенсорс.
Аноним 20/12/23 Срд 02:36:24 #99 №578102 
>>578078
Ого, герой в котором мы нуждались но не заслуживали.
>>578092
Интересно в чем отличия кода для мистраля если он неотличим от лламы?
>>578094
Так подожди, а разве рапределение горячих и холодных нейронов не происходит в зависимости от ее контекста и будет разным для каждого из случаев? На том же вроде и дистилляции основывались, но там заведомо делали с учетом конкретного набора данных и специфики.
Аноним 20/12/23 Срд 02:39:46 #100 №578107 
>>578102
>Так подожди, а разве рапределение горячих и холодных нейронов не происходит в зависимости от ее контекста и будет разным для каждого из случаев? На том же вроде и дистилляции основывались, но там заведомо делали с учетом конкретного набора данных и специфики.

Не особо вникал честно говоря, но думаю они так же будут прогонять каким нибудь викитекстом сетку, для того что бы выявить самые часто апускаемые нейроны. Потом составят карту для одной конкретной сетки и будут уже на основе карты разделять какие части в видеокарту кидать какие на процессор.
Аноним 20/12/23 Срд 02:46:38 #101 №578112 
>>578094
>>578092
>>578102
https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf
В общем я так понял. Ключевая заява что некоторые нейроны в трансформере всегда холодные, а некоторые всегда горячие, с предсказуемым распределением, независимо от промпта.

Дальше уже дело техники - они профилируют конкретную модель на большом объёме входных токенов, ранжируют нейроны по температуре, и запекают модель в свой формат. Потом считают холодные всегда на ЦПУ, а горячие всегда на ГПУ, потому что это дешевле чем таскать туда-сюда. Плюс юзают несколько других оптимизонов.
Аноним 20/12/23 Срд 02:48:22 #102 №578113 
>>578112
Ну, я угадал. Потому что это самый простой способ сделать это, а динамическая оценка и подгрузка слишком жирно для новой технологии
Аноним 20/12/23 Срд 02:54:27 #103 №578116 
>>578113
Ну суть в том, что его не надо профилировать под конкретную задачу, это тупо ускорение для вообще всего.

Динамическая оценка там не выйдет вообще, т.к. это вычислительно ёмкая задача, нужен большой входной датасет для профилирования, чтобы не получилось что он заточился под конкетный промпт. Пропускаешь десятки тысяч (или хуй знает сколько там у них) промптов через модель и смотришь на то как часто в ней дрыгаются те или иные нейрончики.
Аноним 20/12/23 Срд 02:59:41 #104 №578119 
>>578116
Так то интересно, но думается мне для каждого файнтюна можно будет как общую использовать с чуть более худшей производительностью, беря с его базовой модели, так и сделанную специально для него для максимальной скорости.
Базовых у нас штук 10 в популярных нынче сетках едва наберется. Герганова бы пнуть на эту тему, а то фигней страдает
Аноним 20/12/23 Срд 03:07:32 #105 №578129 
>>578107
Ну это вроде как интуитивно понятно и вон в бумаге >>578112 написано
> Crucially, the activation sparsity is input-specific, meaning that the activation of specific neurons is directly influenced by the current input and cannot be predetermined before the model’s inference iteration begins.
> While it is not feasible to know which neurons will be activated before the entire model runs, it is possible to predict neuron activations a few layers in advance within the ongoing model iteration.
Но если дальше глянуть, они действительно в начале оценивают примерную вероятность, и по факту скорость будет плавать в зависимости от запроса. Ну в целом норм, можно даже переоценить под свои задачи, лол.
Аноним 20/12/23 Срд 03:11:54 #106 №578130 
>>578119
Скорее всего по аналогии с экслламой процедура выйдет. Подход с фиксированным распределением тоже возможен, вопрос в степени специфичности. Если отклонения распределения битности при квантовании бывшей смотреть то там картина для разных датасетов отличается, но изменения результата не то чтобы сильное.
Аноним 20/12/23 Срд 03:26:39 #107 №578135 
>>578130
Да, тоже экслама на ум пришла по аналогии
А еще можно совместить квантование эксламы и этот новый метод
Аноним 20/12/23 Срд 03:34:13 #108 №578138 
>>578129
как я понял для этого у них там претренированный адаптивный предсказатель при инференсе, который предсказывает температуру в зависимости от инпута. (раздел 5.1)

есть нюансы - предсказатель даёт ещё +10% к размеру модели, и он не идеально точный, некоторые нейроны дропаются и модель в целом теряет где-то 0.5% точности в бенчах

в общем смотреть надо как оно будет на самом деле, подводные камни могут быть неожиданные
Аноним 20/12/23 Срд 03:43:02 #109 №578146 
Frostwind ниче так в ерп, сочно. Держит карту и хорошо ведет историю, для ее размеров. Только надо настроить альпаку на предустановку. Не знаю как ее тестил анон, но мне понравилась.
Надо только с ее контекстом разобраться, 4к мало, надо подбирать параметры расширения.
Аноним 20/12/23 Срд 03:51:48 #110 №578153 
https://huggingface.co/jondurbin/bagel-dpo-7b-v0.1
Еще сетка с токсичным выравниванием.
В модели куча выравниваний дпо на правду и тут же выравнивание на токсичность, че он хотел добиться этим интересно.
Аноним 20/12/23 Срд 03:58:32 #111 №578159 
>>578153
еще один, чисто гермес с токсичностью и антицензурой
https://huggingface.co/joey00072/ToxicHermes-2.5-Mistral-7B
Аноним 20/12/23 Срд 04:13:53 #112 №578176 
>>578159
Сетки без сои и цензуры и возможность их клепать по желанию - неплохой подарочек на новый год, хех
Аноним 20/12/23 Срд 07:49:21 #113 №578288 
Мне интересно почему у Character ai когда то получилось до цензуры сделать норм сетку пусть и с коротким контекстом, а у анонов не получается? Ведь в character ai не приходилось писать промпты и все равно она была очень годной... Как же хочется локалочку чар ай. В чем их магия была?
Аноним 20/12/23 Срд 07:51:36 #114 №578289 
>>578288
> получилось до цензуры сделать норм сетку
Пиздец ты шизоид, если тебе нравится этот тупой бредогенератор.
Аноним 20/12/23 Срд 07:54:28 #115 №578291 
>>578289
сам шиз. До цензуры было очень годно, происходили такие сюжеты что тарантино бы позавидовал. А тут ну не то даже на клаве или гпт 4.
Аноним 20/12/23 Срд 07:57:47 #116 №578292 
>>578288
Что то важное было утеряно, видимо первые сетки были "душевней". Раньше их не дрочили синтетикой и не пичкали соей, выравниванием и цензурой, может быть.
Аноним 20/12/23 Срд 08:11:55 #117 №578294 
>>578292
Ну чай соя и убила ,модель прямо стала тупейшей. У меня вообще чувство что инструкции надо в датасеты нейронок как то вшивать, а н делать х какими то универсальными. Может в этом магия и есть. все че есть щас такая херня...
Аноним 20/12/23 Срд 08:13:47 #118 №578295 
>>578294
А там какие по размеру сетки были?
Аноним 20/12/23 Срд 08:18:38 #119 №578298 
>>578295
никто не знает, контекст был маленький, 2к вроде всего, но писало очень годно ведя историю. Не надо было мучиться с джейлами , семплерами, модель не лупилась как щас. Но кора была в том что сетка через 2к контекста ниче не помнила конечно. Щас заходишь модель тупит, лупит и не играет нормально персонажами.
Аноним 20/12/23 Срд 08:22:05 #120 №578299 
>>578298
Чел, чай всегда был говном. У тебя реально какая-то шиза с выдуманным качеством ролеплея. Сейчас половина 7В лучше бредогенератора в чае.
Аноним 20/12/23 Срд 08:30:01 #121 №578300 
>>578299
пиздабол, 7b не способна вообще в рп. Этот огрызок вообще ни на че не способен так что иди проверься , это у тебя уже шиза началась от 7b.
Аноним 20/12/23 Срд 08:32:17 #122 №578301 
>>578298
ну если в те времена, то это был как минимум 30b аналог, так как тогда только они имели какие то мозги
Аноним 20/12/23 Срд 08:52:21 #123 №578307 
>>578086
>Впрочем, герганов может спиздить код
>>578119
>Герганова бы пнуть на эту тему, а то фигней страдает
Так Герганов и так главный контрибутор в их репе, уже сколько месяцев. Яйцеголовые там в основном способ предложили, а шахту долбит как всегда болгарин.
Аноним 20/12/23 Срд 08:55:04 #124 №578308 
>>578307
>Так Герганов и так главный контрибутор в их репе, уже сколько месяцев. Яйцеголовые там в основном способ предложили, а шахту долбит как всегда болгарин.
Тогда понятно чем он занят, ну хоть так. Может допилит новую версию ггуфа поэффективней, наконец.
Аноним 20/12/23 Срд 09:11:15 #125 №578312 
>>578078
Ещё в ту же тему, оптимизоны для подкачки холодных весов с флэша.
https://huggingface.co/papers/2312.11514
Кода только не видать. Но 2024 будет интересным.
Аноним 20/12/23 Срд 09:19:00 #126 №578315 
>>578312
Да, главное его дожить
Аноним 20/12/23 Срд 09:32:07 #127 №578317 
>>578153
> сетка с токсичным выравниванием
Как она перформит в чем-то посложнее? А то там вместо выравнивания могло наоборот получиться, или не полностью усвоить.
>>578288
Нейтральная базовая модель и преукрашенные воспоминания о тупых сетках, которые стараются. Современные лламы даже гораздо умнее, для погружения им нехватает наивности. Чсх, в некоторой мере это можно карточкой устроить.
>>578299
> Сейчас половина 7В лучше бредогенератора в чае.
Если сравнивать с текущим, то отчасти действительно так может быть, но познаний в разных областях у нее несравнимо больше. Бонусом знает чуть ли не наизусть все фандом вики, потому и в персонажей хорошо попадает.
>>578300
Переигрываешь
>>578315
Иди обниму
Аноним 20/12/23 Срд 09:48:44 #128 №578318 
>>578317
в чем переигрыш то. На 13b то нормально не порпшить, а тут чел с ноги заявляет че 7b чето может.
Аноним 20/12/23 Срд 09:52:20 #129 №578319 
>>578317
>Как она перформит в чем-то посложнее? А то там вместо выравнивания могло наоборот получиться, или не полностью усвоить.
Хз, времени нету кучу сеток проверять. Сейчас вот с этой игрался, Frostwind-10.7B-v1, довольно приятная сетка что в рп, что в чатбот режиме. Потом может токсичный гермес посмотрю время будет
Аноним 20/12/23 Срд 09:53:23 #130 №578320 
>>578318
Что значит нормально?
Аноним 20/12/23 Срд 10:30:58 #131 №578328 
https://github.com/langgenius/dify
че то интересное, для более серьезных задач чем чатботы
Аноним 20/12/23 Срд 12:50:27 #132 №578364 
Сап, давно не заглядывал. Ну как там, выкатили уже русскоязычную модель, которая была бы хотя бы на уровне Балабобы (мир праху его)?
Аноним 20/12/23 Срд 13:26:46 #133 №578373 
>>578078
>PCs with Consumer-grade GPUs
>RTX 4090(24G)
Аноним 20/12/23 Срд 13:57:57 #134 №578382 
>>578364
Думаю любая ллама будет лучше балаболы. Та вообще в край тупой была по уровню исполнения команд, по сути просто бредогенератор.
Аноним 20/12/23 Срд 14:02:12 #135 №578384 
>>578364
гермеса из шапки попробуй, все мистрали могут в русский, да и лламы тоже вобщем то
Аноним 20/12/23 Срд 14:03:06 #136 №578385 
>>578328
Ну, это сравнивают с langchain, думаю что-то наподобие, просто более продвинутое. Вот эта функция уже интереснее:
> Agents: A Function Calling based Agent framework that allows users to configure what they see is what they get. Dify includes basic plugin capabilities like Google Search.
Ещё CogAgent есть полностью под эту задачу. Походу, модное направление намечается - замена всяких платных постеров подобными штуками. Учитывая, что процентов 95+ использования подобного это массивное сранье на политические темы, думаю, уже в следующем году вместо всяких помоек типа лахты, ципсо, фбкашных "фабрик эльфов" итд говна будут тоннами накидывать подобные технологии, спасибо китайским братушкам...
Аноним 20/12/23 Срд 14:35:37 #137 №578393 
>>578385
Да уже и без этого есть все. Это скорее для автоматизации обхода капчи и деланья всего что хочешь на сайтах. Авто регистрация бото аккаунтов имитирующих людей для того что бы двигать хуйню и все такое. Хотя и это тоже есть.
Как всегда из любой годной вещи первым же делом сделают говно
Аноним 20/12/23 Срд 14:38:22 #138 №578395 
>>578385
> замена всяких платных постеров подобными штуками
Слишком дорого. Пятицентовый сруня всё ещё дешевле одной А100.
Аноним 20/12/23 Срд 15:25:40 #139 №578423 
>>578318
Показалось что поех что втирал выше про победы в инверсию пошел. Если легонько на пол шишечки то 7б может в рп, но в остальном согласен.
>>578319
Отпиши если что-то интересное будет.
>>578364
Чисто русскоязычных по сути то и нет, сберовская 13б старая только. Модели нынче очень умные и кое как в русский могут, наличие файнтюна на русском и большой размер резко повышают качество.
> на уровне Балабобы
На этом фоне любая подойдет.
Аноним 20/12/23 Срд 16:56:53 #140 №578483 
>>578307
>>578078
Не так. Болгарин там контрибутор потому что это форк лламы.цпп, не помеченный как форк. От яйцеголовых там только свой движок. Вот PR на мёрж обратно с лламой. https://github.com/ggerganov/llama.cpp/pull/4543

Алсо, 11х ускорение это таки черрипик, реальное будет меньше (но всё равно дохуя) https://github.com/ggerganov/llama.cpp/discussions/4534#discussioncomment-7900305
Аноним 20/12/23 Срд 18:24:47 #141 №578544 
>>578385
А почему еще не?

>>578393
Во-во, соглы.

>>578395
Одна стоит центов 70, а работает, судя по их поведению, как сотня сруль. Хз-хз. Они ж не общаются, кмк, а просто строчат комменты и все. Ктрл+Ц, Ктрл+В.

>>578423
Это у которого 8 V40 дома, чи шо там, имеешь в виду?

>>578364
Вообще, Микстраль могет норм, со скоростью, если у тебя памяти хватит.
Аноним 20/12/23 Срд 18:41:22 #142 №578568 
>>578544
> Это у которого 8 V40 дома, чи шо там, имеешь в виду?
Хз, возможно их несколько. Не удивлюсь если у него есть огромный особняк с пол гектаром земли внутри мкада, но живет в хруще в ебенищах потому что по тестам дяди ашота там лучше из-за особой АРХИТЕКТУРЫ фьють ха
Аноним 20/12/23 Срд 19:03:11 #143 №578598 
>>578544
Сколько там токен стоит в API жпт? Одна пикча - это около 1000-1500 токенов контекста, для нажатия кнопочек и написания поста сколько шагов потребуется?
Аноним 20/12/23 Срд 23:00:04 #144 №578981 
Блин, тупит, что ли, хер пойми. Отвечал два часа, нихуя нет.

>>578568
Tak.

>>578598
Хорошая мысль, но лень думать, повторю:
1. Обработать промпт.
2. Обработать пост.
3.1. Принять решение: текст, картинка, текст+картинка.
3.2. Выбрать: имеющуюся картинку, новую сгенерить.
4. Ответить.

Как-то так, ИМХО.
Аноним 21/12/23 Чтв 00:04:33 #145 №579081 
https://www.reddit.com/r/LocalLLaMA/comments/18mdtzn/simple_hackable_and_pythonic_llm_agent_framework/
более простой фреймворк для агента
Аноним 21/12/23 Чтв 03:58:00 #146 №579186 
image.png
Вопрос почему System prompt в который мы прописываем нужную инструкцию стоит так высоко при отправке в нейронку? Считай самым первым. Ведь чем дальше инструкция по ходу рп будет тем хуже будет результат. Разве это не так? Почему у локалок нет джейла? Насколько помню в корпоративных аля клод и гпт инструкции идут последними в терминале. Тут же это не работает хотя бы потому что некуда их ставить, авторс ноут как то плохо переваривает инструкции те же самые.
Аноним 21/12/23 Чтв 04:31:30 #147 №579188 
Снимок экрана от 2023-12-21 06-03-26.png
Мысли, ебала?

Алсо, какая модель лучше всего подойдет для виртуальной тяночки? Или тут скорее промптоебаствовать придется?
Аноним 21/12/23 Чтв 09:37:09 #148 №579259 
>>579186
>Почему у локалок нет джейла?
>>577348 →
Аноним 21/12/23 Чтв 10:00:19 #149 №579265 
>>579186
Сам чат служит инструкцией и примером того, как отвечать.
Аноним 21/12/23 Чтв 10:19:55 #150 №579273 
Эти ваши "агенты" типа CogAgent, dyfi итд, они же не могут обучаться на основе своих действий, как reinforcement learning? Просто сами веса основных моделей они точно править не могут, для этого нужны гораздо большие мощности. Но хотя бы в рамках контекста, типа кратковременной памяти у них есть, чтобы учитывать свои ошибки?
Аноним 21/12/23 Чтв 10:41:30 #151 №579277 
>>579273
Как уж напишешь алгоритм работы
Если сможешь заставить их заняться самоанализом и исправлением ошибок своего промпта, может что то и выйдет
Но для этого нужны умные сетки, чет сомневаюсь. Попробуй
Аноним 21/12/23 Чтв 10:49:56 #152 №579280 
>>579186
>в корпоративных аля клод и гпт инструкции идут последними в терминале
В конец чата для корпоративных сетей рекомендуют ставить только дополнительные критические инструкции, и то это пользователи на практике сами выясняли. Основная всё равно идёт первой. Подозреваю, что в тренировочных датасетах почти нет примеров вида "инструкция после чата", хоть внимание к концу чата и больше.
Если хочется использовать джейл с локалкой, можно писать его в авторс ноут, чарактерс ноут или в поле для джейла карточки персонажа, как порекомендовал другой анон. Заметки автора/перса на глубине ноль ничем не отличается от поля джейла для гпт/клода, но надо чекать, как подаёт эти инструкции таверна: не вставляет ли там имён персов и прочую дичь. Этот вопрос поднимали в прошлом треде, но всем было лень проверять, походу. Можно и просто чуть более развёрнуто важные вещи после Response в скобках попробовать писать.
Аноним 21/12/23 Чтв 10:55:01 #153 №579282 
>>579273
Как вариант, делаешь 2 агентов. Один что то делает, другой проверяет его работу и если что корректирует промпт первого.
Аноним 21/12/23 Чтв 11:03:48 #154 №579285 
>>579282
Или даже трех, лол.
Разбиваешь задачи на простейшие части.
Первый - выполнение работы.
Второй - оценка работы первого агента и написание че не так третьему
Третий - переделка промпта первого агента по анализу второго агента, чисто писака который знает как менять промпт первого по инструкции второго.
Забавно, но мне лень проверять как это будет работать.
Аноним 21/12/23 Чтв 11:17:45 #155 №579291 
>>579259
Тот анон неправ, потому что эта инфа в поле джейла не выводится в терминал и не поступает в обработку как и main, так что это точно пролет, я тестил.
>>579280
Да. Можно в авторс ноут поставить, но по ощущениям это все равно не то что было при действиях в джейлах во время юзания корпоративок. Например в main строка имела средний эффект, а в джейле очень мощный эффект был, при одной и той же инструкции была очень сильная разница.
Аноним 21/12/23 Чтв 11:54:55 #156 №579309 
>>579291
>не выводится в терминал и не поступает в обработку как и main
Лол, как у него тогда карточка то вообще работала? Он же весь дескрипшен в мейн карточки запихивал, и модель вроде понимала, что за перса ей скормили, судя по его скриншотам. Возможно, эти поля работают, если использовать OAI совместимый апи и вообще вырубать инстракт мод. Или использовать там тот simple proxy пресет, никогда его не пробовал, честно говоря.
Аноним 21/12/23 Чтв 12:41:13 #157 №579335 
>>579186
> почему System prompt в который мы прописываем нужную инструкцию стоит так высоко при отправке в нейронку? Считай самым первым.
Потому что именно там и место системной инструкции. Простое объяснение - оно заранее выстраивает активации нейронки в нужно русло.
> чем дальше инструкция по ходу рп будет тем хуже будет результат
Нет, близко стоит ставить если там что-то особое, иначе будет без толку сжирать внимание и иметь другой контекст.
> Почему у локалок нет джейла?
Он им не нужен, если для каких-то механик - авторские заметки или last output sequence.
> в корпоративных аля клод и гпт инструкции идут последними в терминале
Там гибрид из части в начале и в конце. Здесь тоже так можно/нужно делать, если внимательно посмотришь тов начале дается вводная что и как, а в конце просит 2 параграфа красиво.
>>579259
И в какое место оно идет? Это просто в2 формат карточек поддерживает встройку жб в них.
Аноним 21/12/23 Чтв 12:53:03 #158 №579341 
>>579335
>И в какое место оно идет? Это просто в2 формат карточек поддерживает встройку жб в них.
Проверил, поле джейла реально игнорируется в локалках.
Аноним 21/12/23 Чтв 13:18:37 #159 №579350 
>>579341
Ты смотрел код или печать промта? Если первое, не замечал какой регэксп под него выделен если есть? Так можно было бы легко добавить в системный промт или перед ответом и использовать. Разумеется трешак что идет туда для коммерции придется чистить и сильно прунить, но для карточек с механиками может быть удобным решением.
Аноним 21/12/23 Чтв 13:22:47 #160 №579352 
image.png
image.png
image.png
>>579309
Он не все из карточки перевел в джейл, только правила. Во вторых 34b таки умеет как то в персонажей на основе контекста, в третьих в таверне не рекомендуется тыкать семплеры, я ток добавляю min P и не шатаю остальные. в пятых подсмотрел короче что в начале подсказки System prompt идет слово prompt и добавил его в authors note в начале че у меня вышло. А вышло у меня что описание помечено подсказкой и в авторс нот я пометил че это подсказка и это вроде работает. во вторых тоже стандартняком таверны если оставлять так инструкции то почти все работает, единственное че смущает щас че сетка пишет очень большие тексты, но это дело скилла. Как по мне очень годно.
Аноним 21/12/23 Чтв 13:28:26 #161 №579356 
>>579352
> подсмотрел короче что в начале подсказки System prompt идет слово prompt и добавил его в authors note в начале че у меня вышло
Бредитяна какая-то. По формату что в итоге получился трешово, но благо сетки нынче умные и даже не такое могут переварить. Если устраивает, а то и даже доволен результатом - все ок, но учитывай что подобное с высокой вероятностью приведет к ухудшению эксприиенса на больших чатах. Хотя там еще во многом играет восприятие сеткой примеров прошлых постов.
Аноним 21/12/23 Чтв 13:34:24 #162 №579359 
>>579356
может быть. Надо тестировать. Но с большими чатами и правда все неидеально. Хотя я списываю все на ограничение контекста в 4к.
Аноним 21/12/23 Чтв 14:05:34 #163 №579379 
>>579352
> 283s
Пизда. Как кумить на такое? За время пока оно пишет уже можно на видосик передёрнуть.
Аноним 21/12/23 Чтв 14:31:07 #164 №579391 
>>579352
>Он не все из карточки перевел в джейл, только правила
Не, там у него на скриншоте видно, что описание персонажа пустое. Он всё его переносил в мейн карточки.
>в начале подсказки System prompt идет слово prompt
Оно не в кавычках. Я думаю, это просто таверна говорит пользователю, что здесь промпт начинается. Модель этот префикс не получает, у неё будут только заполненные суфиксы-префиксы и тот текст, который ты добавишь между командами в фигурных скобочках в Story String. Сама идея сказать модели, что в авторс ноутс лежит инструкция, правильная, но я бы лучше использовал там системный префикс или что-то похожее. Я как-то для некоторых чатов писал в начале заметки [### Special character instruction: тут инструкция], худо-бедно вроде работало. Сложно сказать, т.к. игрался с мелкими 13б.
Аноним 21/12/23 Чтв 14:41:57 #165 №579396 
>>579352
>>579391
Да, я глянул вывод кобольда в консоль, и он там в параметр "prompt" кладёт вывод, начиная с ###Instruction (если мейн систем промпт не пустой). Т.е. слово prompt таверны туда не идёт.
Аноним 21/12/23 Чтв 14:58:49 #166 №579410 
image.png
image.png
Короче, чего я и опасался касательно подачи ноутс в таверне. Инструкция на глубине ноль засовывается после имени чара. Потому что разраб таверны не догадался, что не нужно ставить имена там, где планируются инструкции. И она кайнда выполняется, но модель кладёт хер на сам чат.
Аноним 21/12/23 Чтв 15:20:34 #167 №579427 
image.png
image.png
>>579410
Вот так результат получше вышел.
Аноним 21/12/23 Чтв 16:49:36 #168 №579498 
Аноны, я только вкатываюсь, посоветуйте годную модель. Пока что взял из шапки.
> https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Аноним 21/12/23 Чтв 16:54:21 #169 №579500 
>>579498
Миксрань или файнтюн Yi 34В. Если нищета, то какой-нибудь 7В на DPO или Опенчат.
Аноним 21/12/23 Чтв 16:58:56 #170 №579503 
>>579500
Спасибо, попробую.
Аноним 21/12/23 Чтв 17:07:18 #171 №579509 
>>579498
Эта 20б довольно хороша, но если железо относительно слабое и её не тянет с нормальной скоростью, то вот эта >>577845 из свежих маленьких реально нормалёк. На странице разраба есть в gguf формате.
Аноним 21/12/23 Чтв 17:21:14 #172 №579518 
>>579509
Тянет, да и скорость приемлема, но она постоянно выдает одни и те же фразы, несмотря на то, что в промпте прописано "Быть креативным, не повторяться и т.д." дефолтный промпт Таверны в общем. Иногда вообще может застрять на одном слове и повторять его, пока в лимит не упрётся. Кстати, не подскажешь как сделать ответы менее графоманскими? На koboldcpp выдает короткие ответы, а в Таверне уже начинает графоманить.
Аноним 21/12/23 Чтв 17:41:28 #173 №579530 
Есть ли смысл брать 4060ти на 16гб для локальных моделек? Или слишком фейл по шине?
Аноним 21/12/23 Чтв 17:45:45 #174 №579540 
>>579518
Основное средство против повторов - сэмплеры. Выкрутить повыше rep penalty (1.15 хотя бы), поставить его в бОльшем диапазоне (1024-2048 токенов), не так сильно давить остальными сэмплерами, чтобы был выбор. Инструкции тут ничего особо не дают. Про графоманию толком не подскажу. Галочка ban eos token в таверне её усиливает, потому что запрещает сетке ставить токен конца ответа. Но если эта галка и так не стоит, то тогда только могу порекомендовать поставить мало токенов на вывод (около 150-200) и во вкладке форматирования поставить галочку отрезать неполные сообщения.
Аноним 21/12/23 Чтв 17:49:52 #175 №579545 
image.png
>>579540
>>579518
неполные предложения только отрезать, не сообщения
Аноним 21/12/23 Чтв 17:59:02 #176 №579552 
>>579540
>>579545
Спасибо за советы, анон. Буду пытаться.
Аноним 21/12/23 Чтв 18:17:13 #177 №579559 
Подскажите, как правильно использовать context shifting от koboldcpp в silly tavern?
И в кобольде и в таверне выставил размер контекста в 4096, после его переполнения вижу сообщения в колбольде, что он его шифтит и все проходит супер быстро, что радует. Но затем примерно каждый 5-й ответ уходит в полный пересчет всего контекста на 4096, на что уходит около 3-х минут. Есть догадка, что периодически таверна сама обрезает контекст, меняя при это его начало, что не нравится кобольду. Пробовал выставить неограниченную длину (unlocked) контекста в таверне - не помогло. Пробовал использовать instruct preset Roleplay - не помогло, но обычно вообще без instruct режима использую.

Есть идеи? гуглинг не особо помог. Помню, когда context shifting только появился, я тестил его в веб интерфейсе кобольда, работал как надо. Модель - Solar 10B, вся в RAM, gpu у меня другим занят. Кобольд последний, таверна тоже. В таверне Context Template - default, instruct mode выключен. Карточка персонажа - пустая.
Аноним 21/12/23 Чтв 18:40:35 #178 №579572 
>>579559
>Подскажите, как правильно использовать context shifting от koboldcpp в silly tavern?
Никак, лол. У тебя в таверне карточка вначале, а чат в конце, так что без шифтинга никак.
>Карточка персонажа - пустая.
Кек, дочитал.
Посмотри в консоли, что там отправляется. Наверняка какой-нибудь текст или даже пару переводов строк всё херят.
Аноним 21/12/23 Чтв 19:07:25 #179 №579600 
>>579559
Попробуй включить mlock в кобольде, чтобы зафиксировать выделенную память RAM. Вроде это работает как-то так, что по умолчанию память свопается туда-сюда без этой опции. Тогда контекст может вываливаться, предполагаю.
Аноним 21/12/23 Чтв 19:26:59 #180 №579610 
>>579540
> Выкрутить повыше rep penalty (1.15 хотя бы)
Очень хуёвое решение, оно заодно ещё кучу токенов пидорнёт, форматирование может разъебать, если символы слишком часто идут. Выше 1.1 прям очень не рекомендуется. Если идут повторы, то надо рандом/температуру повышать. Либо сидеть на миростате, он полностью распределение токенов регулирует и не даёт скатываться в лупы, при это не имея шизы от высокого рандома и проблем пенальти.
Аноним 21/12/23 Чтв 19:31:27 #181 №579614 
>>579530
Ты будешь смеяться — но никто не пробовал. =)
Возьми, будешь первым.
Аноним 21/12/23 Чтв 19:57:53 #182 №579639 
>>579610
Так добавил бы в ответ того анона, который спрашивал. Я со своими параметрами сам играюсь, как меня устраивает. реп пен иногда и выше 1.15 ставлю. Да, форматирование подслетает (сомневаюсь, что из-за этого, мб потестирую с меньшим штрафом как-нибудь), но не замечал, чтобы логику ломало. Те же очень часто повторяющиеся артикли, союзы, предлоги, местоимения - все на месте. Миростатом может и пользовался бы, если бы понимал, как его два параметра вместе и по отдельности влияют на пул токенов. Рекомендации по их значениям встречал разные, а почему именно такие - хз.
Аноним 21/12/23 Чтв 20:13:51 #183 №579661 
IMG20231221232613.jpg
7bP40.jpg
Наконец-то !!!11
Карточка пришла в идеальном состоянии. Корпус как из магазина, термопрокладки на первый взгляд работают как надо. Даже удивился немного.
Материнка X99-F8D-PLUS без включенного above 4g decoding висела в циклическом ребуте.
Во время работы с нейросетью ТДП не превышал 50+ Ватт, поэтому охлаждать колхозом её возможно, хотя вообще-то это адская печка, к тому же у радиатора высокое аэродинамическое сопротивление, нужно колхозить вдувалки с высоким давлением остановленного потока. Охладить её с тдп 250 Ватт будет трудно.
Пока посмотрел 7b модель чтобы сравнить со своей 1070.
Что бы из новых 34b скачать? Потестироваю и выложу скрины.
Аноним 21/12/23 Чтв 20:27:36 #184 №579672 
>>579661
Поздравляю, анончик.

мимо оп железо-треда
Аноним 21/12/23 Чтв 20:44:31 #185 №579680 
>>579661
>Что бы из новых 34b скачать?
deepsex-34b вестимо.
Пили полный стори. Проблемы с запуском есть?
Аноним 21/12/23 Чтв 20:51:58 #186 №579684 
>>579661
Поздравляю!

Получается, что, эксллама нифига не фурычит? И запустить 70b 2.55b квантованную не выйдет?

Но выгружается отлично, я верно понимаю?

Что ж, попробуй выгрузить MLewd-ReMM-L2-Chat-20B из шапки, какой влезет, но больше = лучше. https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/tree/main
Попробуй Yi-34B, https://huggingface.co/TheBloke/deepsex-34b-GGUF/tree/main

Ну да и все, вряд ли что-то еще интересно на текущий момент.

Можешь ради ржача попробовать https://huggingface.co/LoneStriker/Euryale-1.3-L2-70B-2.55bpw-h6-exl2/tree/main Не, ну а чо.
Аноним 21/12/23 Чтв 21:14:29 #187 №579696 
>>579661
Очевидный микстраль запускай. Самое лучше что получишь из текущего.
>>579684
> Undi95
> deepsex
Зачем сходу кал советуешь? Нормальные файнтюны Yi - это V3 или Tess.
Аноним 21/12/23 Чтв 21:24:04 #188 №579699 
>>579661
О, братишка.
Мне мои две P40 всё ещё едут с китая.
Я турбины заказал сразу вместе с ними как в микубоксе показывали.
Если у тебя есть stable diffusion - покажи в сравнении как быстро она работает с твоей 1070 и какие максимальные разрешения берет.
Покажи что выводит по ним nvidia-smi.
>>579672
мне скоро приедут две таких карты, как думаешь, наверное стоит блок нормальный взять? Там у них восьмипиновое питание. И нужно два восьмипиновых от блока. Думаю надо брать киловат - не меньше.
Аноним 21/12/23 Чтв 21:25:49 #189 №579700 
так блэт, вот эта модель реально без сои, вернее соя была убрана при помощи DPO - Direct Preference Optimization.
https://arxiv.org/abs/2305.18290
https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF
Аноним 21/12/23 Чтв 21:26:37 #190 №579701 
>>579700
так чем от пивота отличается-то?
Аноним 21/12/23 Чтв 21:28:00 #191 №579702 
>>579701
ну вот тем отличается что теперь можно просто файнтюнить с помощью DPO и вот этого DPO-датасета. https://huggingface.co/datasets/unalignment/toxic-dpo-v0.1 и на этот раз это реально работает.
Аноним 21/12/23 Чтв 21:28:43 #192 №579703 
>>579699
>Там у них восьмипиновое питание. И нужно два восьмипиновых от блока.
Там вроде переходники в комплекте на 2х6+2, которые от видях.
Аноним 21/12/23 Чтв 21:30:53 #193 №579706 
>>579696
А лучше капибара-тесс-200к? :)
Аноним 21/12/23 Чтв 21:40:03 #194 №579716 
>>579700
Позавчера с ней игрались тут, смотри конец прошлого треда.
Аноним 21/12/23 Чтв 21:48:18 #195 №579721 
>>579696
пруфы будут че V3 или Tess лучше? По мне так Deepsex оч годен, хотелось бы пруфов билли.
Аноним 21/12/23 Чтв 21:50:39 #196 №579725 
IMG20231222014914.jpg
Спасибо, аноны.

>>579680
>Пили полный стори.
В ранних тредах несколько несколько анонов (я тоже) аккуратно рассматривали возможность юзания старых недорогих карточек. M10, M40, K80, P100, P102-100, P40. Если всё вспомнил. P40 была самой винрарной по номинальным характеристикам.
>Проблемы с запуском есть?
Недавно нейросеть в формате awq в autoawq не завелась, но с этим форматом всё сложно у всех.
Проблемы с установкой в матплату. Карта очень тяжёлая, крепление за пси-е слот с одной стороны, а с другой она просто гнёт материнку. Хотя с торца у неё есть резьбы для шюрупов, жаль только корпус у меня не 2U для фермы видеокарт.

>>579684
>Получается, что, эксллама нифига не фурычит?
Все новые лоадеры, которые летают на РТХ картах здесь работают медленно, а самый классический lamacpp даёт ускорение в 4-5 раза.

>Но выгружается отлично
Вроде бы да, потом проверю 70B Q3 или Q4 частично выгруженную в карту.

>>579684
>MLewd-ReMM-L2-Chat-20B
>Euryale
Спасибо, гляну.
>deepsex
Ахаха. Тоже гляну.

>>579696
> Yi - это V3 или Tess
Спасибо. Гляну. Tess, емнип от автора Синтии, который любил вилкой чистить датасеты.

>>579699
>Мне мои две P40 всё ещё едут с китая.
Моё увожение.
>stable diffusion
Чуть позже. Она же расплавиться с моим хреновым охладом. Хотя мож одну картинку и сделаю.

Кстати у радиатора этой карты большая теплоёмкость. Без охлада вообще она греется до 50+ с запаздыванием 10-20 секунд. Охлаждается тоже не мгновенно.


>>579699
>>579703
>Там у них восьмипиновое питание
У P40 уникальный переходник (8 + 8 => [что-то хуанговское 8]), который очень отдалённо напоминает (12VHPWR у 4090).
Аноним 21/12/23 Чтв 21:54:48 #197 №579729 
>>579725
>Карта очень тяжёлая
По ней и не скажешь. Сейчас таких монстров четырёхслотовых выпускают, что платы должны быть из титана. Или она в двухслотовом исполнении весит больше 2-х кило?
>>579725
>что-то хуанговское 8
Можешь сверить по пинам и цветам, это процессорные 8 пин. Топ идея была бы, если бы у компьютерной индустрии было бы нормальное планирование.
Аноним 21/12/23 Чтв 22:01:13 #198 №579734 
>>579729
По меркам современных монстров она наверное средняя. 1+ кг.

>>579729
>что-то хуанговское 8
Сверил по пинам - совпадает, попытался продеть - проделось. Лол.
У этой карточки разъём питальника как у процессоров.
Будет весело спалить всё к хуям хреновым китайским переходником с молексов.
Аноним 21/12/23 Чтв 22:02:13 #199 №579735 
Ох. Я хотел зачеркнутым написать последнюю фразу.
Аноним 21/12/23 Чтв 22:03:59 #200 №579736 
>>579725
>Проблемы с установкой в матплату. Карта очень тяжёлая, крепление за пси-е слот с одной стороны, а с другой она просто гнёт материнку.
Купи брекет для поддержки видеокарты, чтоб не провисала. (вообще-то он и так в стандарт входит, но никто его не соблюдает, поэтому городят афтермаркетовые брекеты кто во что горазд)
Аноним 21/12/23 Чтв 22:06:06 #201 №579737 
>>579734
>По меркам современных монстров она наверное средняя. 1+ кг.
Ваще хуйня, любая плата выдержит без проблем.
>>579734
>У этой карточки разъём питальника как у процессоров.
ЧТД, везде об этом пишут. Можно напрямую запитать, если есть лишний.
Я наверное наколхожу из питаний для видях, у меня 6 хвостов набралось уже. Если конечно устроюсь на работу, лол.
Аноним 21/12/23 Чтв 22:06:24 #202 №579738 
>>579725
> а с другой она просто гнёт материнку
У некоторых корпусов есть поддержка с другой стороны, как у классического Duoface Pro, например.

Или лежа. =)
Аноним 21/12/23 Чтв 22:10:03 #203 №579739 
изображение.png
>>579736
>вообще-то он и так в стандарт входит
В стандарт чего? Карты для серверов, а там свои поддерживающие приблуды. Так то есть колхозы у корпусов, у меня к материнке был колхоз, лол, но всё это без единых стандартов, как я понял. Хотя вот это:
>>579725
>Хотя с торца у неё есть резьбы для шюрупов
У меня есть такие на 3080Ti (фотка с интернета).
Может кто знает, это какой-то стандарт? Есть ли нормальные крепления для него, или только всякие палочки из говна?
Аноним 21/12/23 Чтв 22:11:49 #204 №579741 
>>579725
еще хочу кстати две карты в нвлинк объединить.
Никогда им не пользовался, хз что он дает, но интересно.
Аноним 21/12/23 Чтв 22:15:23 #205 №579744 
Screenshot20231221221442.png
>>579741
ебать мой хуй.....
ладно, нвлинк пока подождет
Аноним 21/12/23 Чтв 22:17:30 #206 №579745 
>>579744
> 356$ за плашку текстолита с пластиком
гои схавали лмао
Аноним 21/12/23 Чтв 22:19:35 #207 №579747 
>>579745
на яндекс маркете можно найти какой-то нвлинк нза 4к, но я хз, может они чем-то отличаются. Вдруг там не только текстолит.
Аноним 21/12/23 Чтв 22:21:26 #208 №579748 
>>579747
вероятно только он и будет работать с картой, другие, китайские копии например не будут работать.
Аноним 21/12/23 Чтв 22:23:32 #209 №579750 
>>579747
Там только текстолит, хуйня должна стоить 300 рублей в пределе. Но везде нагревают гоев, лол.
В комплекте с материнкой не было? У меня пару штук должно быть.
Аноним 21/12/23 Чтв 22:25:44 #210 №579752 
>>579750
С материнками обычно бросают старый SLI который не подходит к nvlinlk.
Аноним 21/12/23 Чтв 22:27:07 #211 №579754 
>>579741
Разве они через nvlink должны объединяться, а не через sli?
Аноним 21/12/23 Чтв 22:33:06 #212 №579756 
расходимся, на реддите пояснили, что нвлинка на ней нет
https://www.reddit.com/r/nvidia/comments/13akzcv/does_nvidia_p40_support_nvlink/

интересно кстати, что там кто-то говорит, что деление модели на несколько карт приводит к крашу. Интересно, при каких условиях это происходит и почему деление с помощью llama.cpp не крашит модели....
Аноним 21/12/23 Чтв 22:33:33 #213 №579757 
изображение.png
>>579752
А в чём difference? По внешнему виду пикрил за 300 рублей подходит идеально.
Аноним 21/12/23 Чтв 22:34:23 #214 №579760 
>>579757
это походу sli
Аноним 21/12/23 Чтв 22:54:32 #215 №579774 
>>579721
У меня простые тесты - если модель не может в форматирование, значит она шизоидный кал, не понимающий промптов. Я перешёл на тройное форматирование - кроме обычных реплик и нарратива под звёздочками ещё использую мысли персонажа с ` , прям в промпте написано как форматировать текст. Так вот с этой задачей легко справляется Опенчат или Starling, они выдерживают правильное форматирование всегда. Но шизо-файнтюны якобы для кума не справляются с таким, в том числе дипсекс, хоть сколько свайпай и дрочи семплинг. Если 7В адекватнее 34В, то тут явно что-то не то.
Аноним 21/12/23 Чтв 23:09:43 #216 №579784 
>>579699
> наверное стоит блок нормальный взять
Да ясень хуй что экономинить на блоке не стоит.
Аноним 22/12/23 Птн 00:41:28 #217 №579820 
>>579774
>придумал какую-то шизойдную херню как тест
>радуется что великий мистраль это говно ему выдает

Суть любителей 7В.
Гопота опять уничтожена.
Аноним 22/12/23 Птн 00:48:50 #218 №579826 
А как вообще распределяются два активных эксперта в микстрале? Каждый хавает те токены, в которых он больше эксперт? Или ещё как-то?
Аноним 22/12/23 Птн 00:52:19 #219 №579828 
>>579739
>В стандарт чего?
И серверов и ПК, всех форматов и мастей. Даже в ATX предусмотрена рамка специальная, просто никто из производителей материнок/корпусов/карт ей не морочится.
Аноним 22/12/23 Птн 01:02:56 #220 №579837 
>>579828
>Даже в ATX предусмотрена рамка специальная
Вообще по нулям на счёт этой инфы. У тебя есть ссылки?
Аноним 22/12/23 Птн 01:52:27 #221 №579872 
Я проебал суммаризейшон промпт, поделитесь своим
Аноним 22/12/23 Птн 02:04:32 #222 №579891 
>>579837
Думал линкануть спеки ATX, но чёт сам полистал и не вижу там этого. Эффект Манделы штоле? Помню точно что была такая хуйня в чертежах какого-то из связанных спеков, может в PCIE, может ещё где. Была помечена как "опциональная" и потому не воспринята никем всерьёз.
Аноним 22/12/23 Птн 02:20:05 #223 №579911 
изображение.png
>>579891
Окей. Просто дырки на моей картонке >>579739 выглядят так, как будто должны совпадать с дырками на той же P40. Как будто это стандарт. А раз это стандарт, должны быть и стандартные крепежи, которыми можно укрепить эти видеокарты.
Аноним 22/12/23 Птн 02:27:02 #224 №579919 
>>579700
https://huggingface.co/models?dataset=dataset:unalignment/toxic-dpo-v0.1
Развлекайся, тут еще много расцензоренных
И некоторые тут не показаны, так как не все указали датасет при выкладывании модели
Аноним 22/12/23 Птн 03:02:52 #225 №579950 
>>579661
Ух тыж нихуя, принимай поздравления.
С бывшей ожидаемо убогие скорости, а вот с жорой вполне себе. Действительно 34б с Q4 сможет быстрее скорости чтения катать, если офк там обработка контекста не будет подводить.
>>579725
> а с другой она просто гнёт материнку
Подпорку заколхозь или купи готовую. За тесс двачую, модели от хорошего мастера. По крайней мере инструкции она хорошо понимает.
>>579919
Они именно расцензурены и пытаются в нейтральность или агрессивный байас, или же метаются из соевой крайности в агрессивную крайность просто подражая примерам аполождайза и токсичности? Если вдруг их сам гоняешь и не лень - попроси сеть выполнить какое-то нейтральное задание или решить задачку, в которой будут использованы типичные триггеры (нигер, фаг и т.д.). Еще интересно было бы взглянуть на смесь хейта и обожания в одном контексте, можно что-то примитивное типа конфликта Израиля и Палестины с занятием позиции кого-то из них и последующей сменой и т.п.
Аноним 22/12/23 Птн 03:06:57 #226 №579951 
Screenshot20231222030626.png
Тут кто-нибудь пытался объединить текстовую модель и распознавание речи?
Может кобольд или хубабуба это позволяют?
Я наткнулся в беглом поиске на https://habr.com/ru/companies/ods/articles/692246/
Но чё-то жрет он многовато.
Медиум Сайз модель съедает 5 гигабайт видео и 4 ГБ озу.

Не все же только сидеть по клавишам стучать.
Аноним 22/12/23 Птн 03:22:35 #227 №579954 
>>579951
>Тут кто-нибудь пытался объединить текстовую модель и распознавание речи?
Амика в такое может >>579188

Скажу даже больше, она может предметы с вебки распознавать.
Аноним 22/12/23 Птн 03:25:48 #228 №579955 
>>579951
Vosk
Аноним 22/12/23 Птн 04:20:26 #229 №579972 
>>579950
>Если вдруг их сам гоняешь и не лень
Других я не тестил, только солар анценсоред тыкал.
Хотел скачать токсикгермеса но не быдо ггуфа.

Бублик тоже выглядит неплохо, у него там куча датасетов и дпо и да и по тестам на уровне гермеса. Но если токсик гермес только с антицеззурой, и возможно он тупо расцензурен. То вот в бублике хз, там еще несколько датасетов левых.

Надо проверять, но чет анонов не заинтересовало отсутствие сои, что меня удивляет. То ныли что соя и цензура надоела то как то без энтузиазма сетки такие встречают
Аноним 22/12/23 Птн 04:33:10 #230 №579977 
>>579972
>но чет анонов не заинтересовало отсутствие сои
Ждём вариантов получше. Мы, Аноны, люди жадные, и хотим всего и сразу. Мечтаю об сетке уровня GPT4, открытой, бесплатной и расцензуреной.
Но бублик покручу.
Аноним 22/12/23 Птн 04:40:11 #231 №579982 
>>579977
https://huggingface.co/tsunemoto/ToxicHermes-2.5-Mistral-7B-GGUF/tree/main
ггуф на токсикгермеса
ну я обоих щас качаю, но не факт что вобще запущу или напишу че там и как
Аноним 22/12/23 Птн 05:43:50 #232 №580003 
image.png
image.png
Так ну бублик вроде соевый, но в то же время шутит о неграх, хоть и срет потом так нельзя и тд
Не пойму точный диагноз, нужны тесты анонов
Это кстати инструкт режим без промпта вобще, альпака формат
Аноним 22/12/23 Птн 06:18:40 #233 №580011 
>>580003
токсикгермес тоже может, но меньше срет предупреждениями, так что он не так раздражает

Но как поведут себя рп и карточки хз, надо смотреть, мне лень
Аноним 22/12/23 Птн 07:56:01 #234 №580030 
image.png
Почему я сразу не додумался до такой инструкции? работает очень хорошо.
Аноним 22/12/23 Птн 08:07:43 #235 №580032 
>>580030
Интересно, а у меня вот такое есть в описании персонажа

I can use "{{user}}:" to prompt the {{user}} to write a response.
I only write "{{user}}:" if i need his answer or i have completely finished the task he gave me.

Эт для без инструкт мода, хотя и с ним работает
Аноним 22/12/23 Птн 08:15:39 #236 №580033 
>>580032
как то усложненно, сетка не путается? Я просто сейчас общаюсь с персонажем, пока все норм. Вообще ни намека на то что сетка берет мою роль, и при этом соблюдает , другие инструкции тоже пока не требуются.
Аноним 22/12/23 Птн 08:17:27 #237 №580034 
>>580033
Сетка бот с карточкой от первого лица, ей норм
Аноним 22/12/23 Птн 08:47:42 #238 №580036 
>>579661
Ох анончик, как раз зашёл в тред чтобы почитать не пришла ли кому P40, а тут такая новость! Спасибо, порадовал!
Жаль конечно что новые лоадеры не юзабельны, но 30 токенов на 7В всё-же радуют, в теории это означает что 70В может дать 3 токена.
Что-ж ждём дальнейших тестов, любопытно, станет ли Р40 базой треда.
Мне лично интересно как на ней будет крутиться 70В с частичной выгрузкой в ОЗУ и как быстро она в lama.cpp обрабатывает контекст те же 4к токенов например
У меня при юзании на проце lama.cpp грузит контекст буквально вечность. Что делает невозможными групповые чаты, да и в принципе здорово портит РП.
Аноним 22/12/23 Птн 11:30:01 #239 №580071 
>>579919
То что дильфин-мистарль умел с самого начала теперь умеют и все остальные с помощью какого то дпо.
Какой прогресс.
Аноним 22/12/23 Птн 11:37:50 #240 №580073 
>>580071
Дельфин мистраль один, а тут способ которым можно любую уже существующую сетку развратить, и будущие в том числе
Сарказм неуместен анон
Аноним 22/12/23 Птн 11:50:57 #241 №580081 
Новая кум моделька всего 7В а очень хороша. Реально в сингулярности живём, каждый день новые модели лучше предыдущих. Два дня назад пробовал 20В оно заебись, вчера пробовал 7В оно заебись, сегодня ещё не знаю что попробую на наверняка уже выложили что то.
Аноним 22/12/23 Птн 11:55:15 #242 №580085 
>>579951
Конечно.
И Убабуга, и Таверна умела, но ща не вижу, почему-то.
Распознавание WhisperSTT классическим.
Русский хорошо понимает, только модель выставь побольше, а не маленькую. Базовая сойдет, вроде, когда я тестил.

whisper_stt-whipser_language: russian
whisper_stt-whipser_model: base
whisper_stt-auto_submit: true

>>580036
Скорость, кстати, расчетная получилась, никаких десятков токенов в секунду на голиафе, как обещали на реддите, не нашлось пока что.
То есть хорошо, но не до конца.
Если мы увидим на 34б 5,5 токенов/сек — тогда в принципе на грани смысла покупать, да. Если выше — то уже прям база, получается.
Аноним 22/12/23 Птн 11:55:58 #243 №580087 
Кто-нибудь пробовал обычную ламу с японскими файнтюнами сравнивать на аниме-карточках?
Аноним 22/12/23 Птн 12:00:38 #244 №580089 
>>580081
Накати на Rocket-3B токсика и что-нибудь из левда, и похрюкай от смеха. =D

Но вообще — да.
Старые 7B были туповаты и негодны к общению адекватному.
Старые 13B были на грани.
А старые 30B уже были норм.
Средние 7B стали на грани, уже хоть как-то адекватно общаться.
Средние 13B стали норм.
И вот, новые 7B стали норм.
А новые 3B они ведь и правда на грани — диалог поддерживают, просто глуповатые.
Но следующим шагом начнут 3B оптимизировать.
Хотя мы все надеемся, что выкатят 30B какую-нибудь, которая заткнет за пояс всякие 70B и голиафов.
А еще на самообучение тоже надеемся.
Аноним 22/12/23 Птн 12:21:47 #245 №580097 
>>580089
Щас уже почти упираемся в архитектуру. Если в начале было понятно что сетки можно сделать лучше - и их действительно смогли улучшить аж до нормальных 7b. То дальше уже не ужать.
А вот новые архитектуры. Ну да тот же рокет 3b это ведь какая та другая модель на сколько помню, и поэтому она может что то на 3b, а вот ллама скорей всего не смогла бы.
Аноним 22/12/23 Птн 12:24:53 #246 №580101 
>>580081
Что за моделька то?
Аноним 22/12/23 Птн 12:34:04 #247 №580111 
>>580097
Да понятное дело, что в архитектуру уткнулись.
Но еще на пару месяцев хватит. =)
Плюс — уткнулись в минимальный размер — есть шанс, что расти будут уже вверх.
Аноним 22/12/23 Птн 12:44:45 #248 №580114 
>>580030
Но зачем? У тебя стоит галочка ставить имена, поэтому у тебя в промпте в таверне будет такое:
### Instruction: {{user}}: твоя реплика
### Response: {{char}}: реплика перса
Т.е. нужные имена на нужных местах и так стоят, сетка видит, кто где отвечает. А основная системная инструкция при этом вообще без префикса пойдёт. Я бы сказал, что для ролеплея это всё выглядит странно. А если ты хочешь задания ассистанту давать, а не рпшить, то нужно имена убирать и в input ставить, собственно, ### Input, оставляя ###Instruction только перед мейн промптом. Сетки с альпака форматом учили, что юзер пишет под ### Input, а модель - под ### Response.
Аноним 22/12/23 Птн 13:07:17 #249 №580129 
>>579972
> но чет анонов не заинтересовало отсутствие сои
Кмк за сою выли тут единицы, остальные занимали умеренную позицию или катали модели без них. Тут куда интереснее влияние такого датасета, заставит ли он просто сетку больше ругаться и агрессивничать, при это сохраняя СКРЕПЫ, просто делая их более завуалированными, или же действительно перестроит логику в сторону нейтрального общения.
Аноним 22/12/23 Птн 13:12:13 #250 №580130 
>>580097
С чего такие выводы? По 7б прогресс оче большой, по 34-70 - как в меме перфект фром зе бегининг. Вышло несколько оче крутых файнтюнов, но радикального эффекта нет. Если здесь конкретно заморочиться то можно получить гопоту4 турбо без проблем. Ей бы подтянуть специфичные знания и больше прокачать распознавание инструкций, будет такая пущка-гонка что потребуется гпт5 с опциями мультимодальности релизить для конкуренции.
> а вот ллама
И ллама, и фалконы, и гопота - это трансформерсы же.
> рокет 3b
И она тоже.
Аноним 22/12/23 Птн 13:18:26 #251 №580134 
>>580130
>И она тоже.
Да, но нет. Там измененная архитекиура, почитай описание базовой модели
Аноним 22/12/23 Птн 13:25:31 #252 №580141 
Screenshot2023-12-22-15-22-23-55d365b52accad0f47adbc08c16219827d.jpg
>>580130
Аноним 22/12/23 Птн 13:29:01 #253 №580146 
>>580134
> Там измененная архитекиура
В чем именно изменения? Поясните может не догоняю, вот тут вроде даже ясно написано >>580141 и запуск ванильный трансформерс.
Аноним 22/12/23 Птн 13:34:26 #254 №580148 
IMG20231222173033.jpg
1test.png
Официально пруфаю БАЗУ треда.
Аноним 22/12/23 Птн 13:37:03 #255 №580153 
>>580148
А промпт как анализирует?
Аноним 22/12/23 Птн 13:38:20 #256 №580155 
>>580130
>С чего такие выводы?
Интуиция и опыт щупанья сеток. Ну и читал в какой то статье минусы трансформера, что то там про квадратичеый рост сложности и неоптимальное внимание которое не дает сетке хорошо связывать че то там. Э, я тупой в этом деле, но общий смысл понял. Что интеллект сеток, их понимание инструкций и ассоциация токенов ограничены этим. Поэтому чем меньше модель тем она глупее. Да и проблемы контекста. Что и решили создатели мамбы, например. Потому и шум был с их архитектурой, по тестам их архитектура эффективней и лучше в этих местах.
Аноним 22/12/23 Птн 13:40:24 #257 №580156 
>>580148
заебато, покупай еще 2 и кайфуй
Аноним 22/12/23 Птн 13:41:23 #258 №580157 
>>580148
Обзмеился с НАПРАВЛЯЮЩЕГО КОХУЖА. Алсо у арктиков P серия в свое время очень хорошо тесные радиаторы и припезднутый фильтр продували тогда как другие не справлялись, попробуй их если турбины не заказал.
Закинь ей хотябы 8к контекста и покажи что в первый раз выдаст.
>>580155
> Интуиция
Ну чет эзотерика, опиши хоть что именно учуял. Для роста сложностей техники разработали и вполне себе применили.
> Что интеллект сеток, их понимание инструкций и ассоциация токенов ограничены этим.
Есть текст, называется что-то типа all you need is attention, почитай, интересно.
Мамбу вообще даже стоковую хочется пощупать, но, сука, даже покумить времени нет, только отвлечься попиздеть постами ни о чем.
Аноним 22/12/23 Птн 13:54:21 #259 №580168 
>>580148

Раз ушел пошел разговор про Р40
Какую мамку/проц на бюджете можно купить для четырех Р40?
А то у китайцев на зеонах только херня с 1 слотом под видяху
Аноним 22/12/23 Птн 13:58:21 #260 №580172 
>>580157
>Ну чет эзотерика, опиши хоть что именно учуял.
Непонимание учуял, что чем меньше размер тем меньше сетка связывает обьекты с другими. Нет глубоких ассоциаций между явлениями.
Будто смотришь на в один слой сложеный широкий и плоский костер, который по идее надо бы в кучу сгрести для правильного горения, а то чет фигня какая та.
Аноним 22/12/23 Птн 14:05:25 #261 №580180 
>>580168
На реддите поищи конфигурацию парня от которого и решили тут проверять самостоятельно. У него там тоже зион с 3 или 4 уже не помню картами
Аноним 22/12/23 Птн 14:16:31 #262 №580183 
>>580148
Скорость хуйня, конечно. Но для нищесборки наверное норм.
Аноним 22/12/23 Птн 14:20:01 #263 №580188 
>>580168
Ищи серверные или для рабочих станций, там много места и слотов, только не dell/hp иначе ахуеешь. Или игросракерские x99.
>>580183
Если цена в приоритете это рили самый топ вариант. С другой стороны - колхозить все это та еще дичь и в основную пекарню не поместишь, придется выделять отдельное место.
Аноним 22/12/23 Птн 14:23:17 #264 №580190 
>>580089
>Но следующим шагом начнут 3B оптимизировать.
Ёбанный кринж, как будто заговор есть держать модели не умнее 70B.
>>580130
>Если здесь конкретно заморочиться то можно получить гопоту4 турбо без проблем.
Не хватит размера.
Аноним 22/12/23 Птн 14:26:21 #265 №580194 
>>580190
Правильным людям ничего не держат, держат плебеям. Им умные модели ни к чему.
Аноним 22/12/23 Птн 14:29:12 #266 №580196 
>>580190
Кажется что хватит, у лучших представителей помимо энциклопедических знаний хватило место даже на понимание особенностей всяких персонажей файндома, причем неплохо. Чего нехватает так это большей точности, бывает путается.
4турбу тоже по точности знаний и уступает обычной 4, но дает вполне приемлемый уровень. С учетом скорости - в ней может оказаться и меньше 70б эффективных параметров. Офк это все рассуждения, но то что текущие уже хорошие модели 34-70 можно еще улучшить это точно.
Аноним 22/12/23 Птн 14:30:45 #267 №580197 
Хочу 300В модель файнтюненую на ерп
Аноним 22/12/23 Птн 14:41:28 #268 №580201 
test.jpg
context.jpg
1.jpg
>>580153
Не менял настройки, не ковырялся в консоли лоадера.
Могу только пример ответа на глупый вопрос при стоковых настройках скинуть.
>>580156
И пиздеть с голиафом на скорости 3 токена в сек.

>>580157
> НАПРАВЛЯЮЩЕГО КОХУЖА
И он работает. Лол.
>арктиков P серия
Спасибо гляну. Хотя присматривался к центробежным вентиляторам.
> 8к контекста
Пожмакал падение производительности от контекста.

>>580168
Блок питания придётся брать нормальным. Вчера я говорил, что карта потребляет 50Вт. Нет, на самом деле она жарит как печка.
Смотри чтобы у проца и матери было много линий pci-e.

Во-вторых, а pci-e каналы суммируются двумя процами или драйвер хуанга не поддерживает извращённый мультипроцессинг?
Кстати, на каждую карту надо 16 или хватит 8?
И кто-нибудь тестировал: квантование распидорашивает 34b как мистрали?
Аноним 22/12/23 Птн 14:46:11 #269 №580204 
https://aliexpress.ru/item/1005003479138178.html?sku_id=12000025970253687&spm=.search_results.4.1a34266bCEtbZF
Вот что дарит мне надежду, если я все таки захочу купить p40
Аноним 22/12/23 Птн 14:53:47 #270 №580209 
>>580204
Так оно работать будет со скоростью 4x. Зачем?
Аноним 22/12/23 Птн 14:55:08 #271 №580210 
>>580201
покажи вывод nvidia-smi, второй раз уже прошу, чел
Аноним 22/12/23 Птн 14:57:11 #272 №580212 
>>580209
Видеовывод же, можно будет затычку туда сунуть и играть с p40, если я правильно понимаю как это работает
Да даже просто с процессором без видео ядра получить таки обратно картинку
Аноним 22/12/23 Птн 15:00:47 #273 №580215 
>>580209
https://www.youtube.com/watch?v=OjoCEw6jtpc
Особой разницы в играх не будет даже на 4
Аноним 22/12/23 Птн 15:05:03 #274 №580218 
nvidia-smi.jpg
>>580210
Аноним 22/12/23 Птн 15:08:35 #275 №580220 
>>580201
>И пиздеть с голиафом на скорости 3 токена в сек.
Или минимально комфортные 6 с 70b, а может и больше

>И кто-нибудь тестировал: квантование распидорашивает 34b как мистрали?
Не, мистраль на 5km минимум, 34b на 4ks наверно, меньше только с 70b играться. Хотя можешь попробовать 3KL
Аноним 22/12/23 Птн 15:29:11 #276 №580237 
>>580204
Ты с тем же успехом можешь отпилить боковую перегородку у х4 и воткнуть карту. У современных материнок так и сделано - нет перегородки и в х4 лезет х16.
Аноним 22/12/23 Птн 15:30:39 #277 №580238 
>>580237
Знаю, но на моей не выйдет там мост мешается со своим радиатором.
Аноним 22/12/23 Птн 15:32:41 #278 №580239 
>>580237
Хотя была бы совсем не нужная затычка, можно было бы ее контакты подрезать, да, как вариант
Аноним 22/12/23 Птн 15:33:30 #279 №580240 
>>580130
Да, но тот же Сэм говорил, что гпт4 уже своего рода тупик, и надо не только растить веса, но и искать новые архитектуры.

>>580148
Я када сказал выше 5,5 лоханулся, канеш, то я Q6 считал. Но даже для Q4 хороший результат.
9 токенов — такое можно советовать к покупке!

А расскажи, сколько каналов в мамке, че по псп?

>>580188
Шо у вас там за пекарни, шо не поместишь.
Ну, с четырьмя я понимаю, траблы. А с 1-2 так вообще никаких же.

>>580190
Ну так, а кому охота вываливать коммерческие штуки? Удивительно, что ллама2 вышла и микстраль дали. Думал микстраль уже не увидим.

>>580201
Каналов-то pcie? Ваще пофигу, там одномоментная передача. Задержка в секунду или типа того на х1.
Кто-то рассказывал про то, какие конские задержки на 3-4 картах, но пруфов не предоставил.
На двух картах задержки~0, тут многие тестили.

>>580237
Да. Давно уж, но не на всех.
Аноним 22/12/23 Птн 15:36:18 #280 №580241 
>>580238
Тогда от карты отпили лобзиком 8 лишних линий, лол.
Аноним 22/12/23 Птн 15:40:35 #281 №580242 
>>580241
Хм, а по сколько можно отпиливать? Никогда не задумывался.
По линии 4? Или раз работает на 2-4-8-16 то отпиливать все таки 8 для нормальной работы карты если вдруг подключать ее в нормальный разъем?
Ну, это на крайний случай, все равно пока покупать не буду
Аноним 22/12/23 Птн 15:47:58 #282 №580246 
>>580242
Любая карта будет работать пока есть живая первая линия. Все остальные опциональные. Не уверен как оно будет если отпилишь кривое количество линий, но 1-4-8 точно будут работать.
Аноним 22/12/23 Птн 16:05:41 #283 №580260 
>>580218
грасьёс, синьор
неплохо, при утилизации 94% всего 50 градусов.
Аноним 22/12/23 Птн 16:08:36 #284 №580263 
>>580242
не надо блять ничего отпиливать. Как минимум пилить текстолит кажется плохой идеей.
Купи райзер за 300 рублей.
Аноним 22/12/23 Птн 16:10:33 #285 №580265 
>>580201
>Блок питания придётся брать нормальным.

Ну у меня тут 750w валяется без дела, думаю потянет

>Смотри чтобы у проца и матери было много линий pci-e.

Ну вот и я про это, а то не вытянет мамка 4 байды
Аноним 22/12/23 Птн 16:13:27 #286 №580267 
>>580263
Так то да, но ступенчатый как по ссылке не даст поставить в корпусе, видеокарта просто не встанет, придется материнку доставать так болтаться. А шлейфом чет не могу найти, но пофигу. Это проблема будущего меня
Аноним 22/12/23 Птн 16:15:01 #287 №580268 
>>580218
шумно вышло?
Аноним 22/12/23 Птн 16:22:16 #288 №580273 
>>580240
>Да, но тот же Сэм говорил, что гпт4 уже своего рода тупик, и надо не только растить веса, но и искать новые архитектуры.
Не так, он говорил что её размер это предел масштабирования трансформеров по весам. И что надо искать новые архитектуры и готовить датасеты получше. И то и другое делается, те же мистрали ебут в основном за счёт датасета и методики обучения (а скоро выйдет мистраль-медиум). SSM пока что наиболее убедительный кандидат на пост-трансформерную архитектуру, но есть ещё несколько, в том числе деривативы трансформеров.
Ещё клоузедАИ что-нибудь выкатят, наверняка будет опять что-нибудь что открытые сетки будут переигрывать и уничтожать ещё года три.
Аноним 22/12/23 Птн 16:23:43 #289 №580275 
>>580267
>А шлейфом чет не могу найти
pci e удлинитель в поиск вбей. Тысячи их.
Аноним 22/12/23 Птн 17:12:45 #290 №580309 
>>580157
>Есть текст, называется что-то типа all you need is attention
Внимание это всё что вам нужно, ага. Только уже всё, выжали всё из внимания. Тут пора внимание для внимания пилить, лол.
>>580168
На бюджете сложно. Проц то легко, за 1,5к сейчас можно 20 ядир взять, а вот по слотам всё печально. У самого сасус x99-e, но её сейчас не купить.
>>580180
https://rentry.org/Mikubox-Triple-P40 деловский сервак. В России разве что на удачу на авито выловить.
>>580196
>Чего нехватает так это большей точности, бывает путается.
Соображалки не хватает, лично мне.
>>580204
Проще родной слот пропилить, ну или дремелем саму карту обрезать, лол.
>>580220
>Или минимально комфортные 6 с 70b, а может и больше
Максимум 6, минимум 4.
Аноним 22/12/23 Птн 18:09:11 #291 №580331 
>>580265
>Ну вот и я про это, а то не вытянет мамка 4 байды
↓↓↓ обрати внимание.
>>580240
>Каналов-то pcie? Ваще пофигу

>>580268
Визжит, не громко, но слышно. Мне без разницы, тк сижу в наушниках.
Аноним 22/12/23 Птн 18:36:47 #292 №580355 
>>580201
> Хотя присматривался к центробежным вентиляторам.
Они по статам отлично подойдут, но дохуя шумные. Офк тут зависит от того где эта штука размещена и как используется, если на децибелы похуй то выбор чемпионов. А так 120-140 в теории должно хватить, и к нему напечатать кожух чтобы уже твердый был. Алсо можешь имеющиеся вентиляторы подряд настакать, только почитай методу чтобы эффективность не падала.
> Пожмакал падение производительности от контекста.
Это 34? Ну всеравно норм, несколько секунд подождать и можно читать.
> суммируются двумя процами или драйвер хуанга не поддерживает извращённый мультипроцессинг?
> Кстати, на каждую карту надо 16 или хватит 8?
Да вот и хз, если они используются то нужно х16 на каждую ибо там версия же старая.
Вообще интересно по перфомансу и его скейлингу. Его можно чуть поднять, при использовании нескольких таких гпу на жоре они работают эффективнее чем одна, или тот пост с 4+т/с на голиафе - пиздеж.
> квантование распидорашивает 34b как мистрали?
Квантованная Q5KM тесс без проблем прожевала 70к контекста и дала вполне приличный суммарайз по инструкции с самого начала. Если есть идеи как затестить - предлагай, для разовых задачь можно и на торч-цпу в фп16 запускать любой размер с любым контекстом, а потом уже с квантами сравнивать.
>>580204
Мушку перегородку спили, без шуток рабочая тема. Или воспользуйся райзером, с такой штукой как ты гпу на корпус/шасси крепить будешь?
Аноним 22/12/23 Птн 18:41:48 #293 №580363 
>>580240
> Шо у вас там за пекарни, шо не поместишь.
Там уже впихнуто невпихуемое с суммарным тдп за 1300 вт. Ты просто больших видеокарт не видел.
Ну и там речь не только про размер, сколько про удобство эксплуатации и комфорт во всех смыслах.
> А с 1-2 так вообще никаких же.
Показывай свою мультигпу сборку, если офк там не 2.5 слотовая + мелкая затычка.
>>580241
Кощунство, пожалей старушку, она ветеран рендерных войн! Реально не стоит, работать будет но назад дороги нет, райзер дешевый пусть купит и над ним надругается.
>>580309
> Соображалки не хватает, лично мне.
Такое тоже бывает, но, обычно, фиксится уточнением формулировок. У гопоты в этом отношении действительно лучше, вот только у нее будто такой датасет или дирректива додумывать и угадывать. В итоге на неточный запрос может вообще в другую сторону увести, офк это проблема кожанного мешка а не сетки.
Аноним 22/12/23 Птн 19:56:19 #294 №580440 
image.png
Почему 7В модели вот такую шизу ловят?
Это мистраля особенность?
Они даже ссылки на несуществующие треды на реддите создают лол
https://www.reddit.com/r/NSFWroleplay/comments/w60v37/luci_the_new_demon_king/
Аноним 22/12/23 Птн 19:59:59 #295 №580449 
>>580440
> Это мистраля особенность?
Это особенность шизоидной настройки семплеров.
Аноним 22/12/23 Птн 20:03:22 #296 №580453 
image.png
>>580449
Обычные консервативные настройки
Аноним 22/12/23 Птн 20:31:17 #297 №580469 
изображение.png
>>580440
Переиграл и уничтожил мистраль.
И не выключай EOS токен.
Аноним 22/12/23 Птн 20:35:17 #298 №580474 
>>580273
О, важная поправка, пасиба!

>>580275
Райзер? :)

>>580363
> Там уже впихнуто невпихуемое с суммарным тдп за 1300 вт
И тебе еще мало? =D Респект.

> Показывай свою мультигпу сборку, если офк там не 2.5 слотовая + мелкая затычка.
P104-100, у которой тупо 1 линия PCI-e 1.1 что ли.
Выдала столько, сколько и должна была чисто по апскейлу с соло-запуска.
Т.е., даже на pci 1.1 нет потерь.

Ну и с 3060 тоже все было норм.
Но если 3060 затычка — то ок, у меня 2,5+затычка.

Может возьму 4060 ti на распродаже. Хочу ее соло попробовать и в паре с 4070 ti.
Аноним 22/12/23 Птн 20:47:30 #299 №580491 
>>580453
>мин пи на 0.1 и температура 0.66
Ты ебанулся? В каком мире это нормально?
Аноним 22/12/23 Птн 21:02:17 #300 №580503 
>>580440
Такое не только 7б ловят, такой-то файнтюн. Конкретно здесь причину уже назвали, не отключай EOS без необходимости.
>>580474
> И тебе еще мало? =D Респект.
Видеопамяти никогда не бывает много, так еще на мультигпу оно отдельными кусками.
> чисто по апскейлу с соло-запуска.
Не понял. Нет потерь при каком запуске и через что?
> у меня 2,5+затычка.
То про размеры их, 3060 благо компактная.
> Может возьму 4060 ti на распродаже
Вот этот вариант интересен может быть, всетаки памяти норм и недорого. недавно на известном маркетплейсе 4090 за 125 и 30к наебаллами возврат была, разобрали за несколько часов
>>580491
Это не приведет к шизе, только к лупам может.
Аноним 22/12/23 Птн 21:04:06 #301 №580507 
>>580503
>только к лупам
Или к ним или к тому что оно просто будет цитировать карточку/промпт. Там же свободы абсолютно никакой, какого аутпута там можно ждать если ты прямо говоришь модели "повторяй все то самое".
Аноним 22/12/23 Птн 21:08:25 #302 №580510 
>>580507
> Там же свободы абсолютно никакой
Нормальная модель даже в гриди энкодинге выдаст что-то адекватное а не цитату карточки и промта. Даже ванильный мистраль выдает подобие рп текстов, пусть не идеально и не супер краетивно, но вполне связанные вещи по теме.
> если ты прямо говоришь модели "повторяй все то самое"
С чего ты такое придумал?
Аноним 22/12/23 Птн 21:12:38 #303 №580516 
>>580510
Блядь, ты вообще шарить как мин пи работает? А хотя бы температура?
Аноним 22/12/23 Птн 21:28:28 #304 №580536 
>>580516
Да ну, я простой хлебушек, мин-п он за то чтобы сетка не повторяла то же самое отвечает, да?
Аноним 22/12/23 Птн 21:44:15 #305 №580546 
>>580536
Блядь. Вижу таверну ты сумел поставить и запустить значит айкью уже выше комнатной температуры, а гайды все устаревают меньше чем за неделю времени.
Мин пи это семплер притом довольно мощный, он режет вероятность маловероятных токенов и режет довольно ощутимо. Температура наоборот повышает вероятность рандомных токенов.
Значит, температурой даешь сетке свободу творить а семплером режешь аутпут до чего то ревелатного а не просто набора слов и символов.
Ты проебался в том что урезал температуру чуть ли не в ноль(по меркам ллм) и при этом еще и ебнул сильного семплера сверху. В результате сетка задыхается и физически не может креативить. В твоих настройках реальная фактическая температура где то в районе 0.1-0.2
Мин пи на 0.1 это довольно высокое значение, с ним ты можешь спокойно ебнуть температуры вплоть до 4(четыре) и все еще получать относительно связный текст. Поднимай температуру и убери репетишин пенальти либо вообще либо не выше 1.05. За тип п ничего не скажу потому что перестал юзать все остальное кроме мин пи, оно само по себе вытягивает спокойно на современных умных сетках.
Для себя я вывел золотой стандарт на которой сижу температура 2.5, мин пи 0.05, пенальти либо нет вообще либо в 1.01, юзаю для ерп и кум льется рекой, скоро так и сдохну с хуем в руке.
Аноним 22/12/23 Птн 21:52:36 #306 №580555 
>>580546
Мин-п шиз? Опять эта херня про швятой великий семплер и прожарку температурой. Нормальная модель выдает адекватный результат гриди энкодингом. Не лучший, свайпов не будет, но адекватный и связанный, и те настойки к
> ты прямо говоришь модели "повторяй все то самое"
никак привести не могут. Это тебе стоит над своими познаниями поработать и меньше фаньазировать. В чем проблема у того анона уже обозначили.
> Ты проебался в том
Ты с кем разговариваешь, дурень?
Остальное можно нарезать на фонд цитат, сетка у него задыхается, лол. Там ведь был вопрос не "почему однообразные посты", где высокие значения отсечки и низкая температура могли быть релевантна, а наоборот про шизу в ответах.
> золотой стандарт на которой сижу температура 2.5, мин пи 0.05, пенальти либо нет вообще либо в 1.01
Даже интересно, это серьезно так или специально вредные советы. Покажи примеры постов.
Аноним 22/12/23 Птн 21:54:18 #307 №580558 
095.webp
>>580555
Нахуй иди, долбоеб.
Аноним 22/12/23 Птн 21:56:06 #308 №580559 
>>580558
Не пиши херни, тогда и рваться не придется.
Аноним 22/12/23 Птн 21:57:37 #309 №580562 
>>580559
Так и не рвись, лучше открой окно и проветри комнату.
Модельку твою файнтюнил.
Аноним 22/12/23 Птн 21:58:43 #310 №580565 
>>580555
> наоборот про шизу в ответах.
Шиза у него там идёт после EOS токена, который был забанен. Всё что выше издалека смотрится нормально. Это причина "шизы", остальное это детали.
Аноним 22/12/23 Птн 22:19:03 #311 №580601 
Что лучше скачать из нового крупного рпшного: Aetheria-L2-70B или Euryale-1.4-L2-70B
Кто-нибудь смотрел творчество Sao10k?
Аноним 22/12/23 Птн 22:28:58 #312 №580616 
>>580503
> То про размеры их, 3060 благо компактная.
Да я понимаю, но люди разные бывают, кому-то и 4060 ti неиронично затычка (есть ли у них хотя бы она — отдельный разговор, но иногда и правда 4090 обмазывается человек, мало ли).

> недавно на известном маркетплейсе
Я пару дней смотрел на 62к (-10 промик, -32% кэшем, итого 35к), но че-то дорохо. х) Хочу еще дешевле.

> Не понял. Нет потерь при каком запуске и через что?
Ну смотри. Запускаю на одной видяхе одну модель (GPTQ в ExLlama). Меряю примерную скорость в токенах.
Повторяю на второй видяхе.
Экстраполирую на бо́льшую модель, какие были бы скорость, если бы памяти было достаточно.
Теперь запускаем в gpu-split бо́льшую модель сплитая между двумя картами.
Так как мы знаем примерную скорость, которую показывает каждая из видях, и знаем соотношение по памяти, несложным арифметический уравнением получаем, сколько токенов будет у обеих. Грубо говоря, допустим 75% модели должно обработаться на одной карте с определенной скоростью за одно время, еще 25% обрабатывается другой с другой скоростью за другое время — умножаем время на проценты, складываем и получаем расчетное время. Ну и скорость из него, соответственно. Это расчетный результат, который прикидывает идеальные условия.
Теперь просто тестируем и… вуаля, разница в рамках погрешности!
Если мы перекинем часть модели из одной карты в другую — то должно измениться и время (так как вторая карта у нас медленнее — то растет и время). Считаем, тестируем — вуа ля, время снова совпало.

Трех слотов PCIe x16 у меня нет, а пихать третью карту через китайский копеечный райзер в PCIe x1 я не решился, поэтому три карты не тестил.
Но с двумя я получил результаты, которые четко упирались в псп обеих карт, соответственно раскиданной модели. Ну может на полтора токена ниже, но это не критично. Они и так иногда +-5 токенов выдают. =)
Аноним 22/12/23 Птн 22:36:19 #313 №580629 
>>580616
>Экстраполирую на бо́льшую модель,
Хуя сложности. А раскидать мелкую модель на две картонки не судьба?
Аноним 22/12/23 Птн 23:05:00 #314 №580675 
>>580562
> Модельку твою файнтюнил.
Медленно выключаю min-P, используя другие семплеры.
>>580565
Все верно.
>>580616
> GPTQ в ExLlama
С ней действительно все хорошо. Попробуй с llamacpp, вот тут интересно как будет. Алсо мониторинг использование контроллера шины в этом дохуя информативен.
Аноним 22/12/23 Птн 23:32:46 #315 №580699 
>>580675
>>580565
Да откуда вы взяли инфу про eos токен? Т.е., может это и так, надо, чтобы тот анон чекнул. Но я почти уверен, что "[End of Session]" или "End of Roleplay" не являлись в той модели end-of-sequence токеном. Это просто типичные фразы характерные для рп, вот модель их и высрала. CAI в своё время бесил всех такими концовочками ролеплея. Больше похоже на то, что модель очень сильно понесло в копирование датасета, и это как раз может быть из-за сильного задавливания сэмплерами, кмк. MinP то фиг с ним, там typical P больше отрезать будет в большинстве случаев. А он ещё и частично как реп пеналти сам работает.
Аноним 22/12/23 Птн 23:40:12 #316 №580703 
>>580629
Тоже можно, но у меня в голове где-то сидело, что в таком случае погрешность будет чуть выше.
Но, вероятно, так даже лучше.

>>580675
Та мне лень щас вторую карту добавлять. Но если 4060 ti появится — затещу, с мониторингом шины.
А так, я уже хотел брать 5090 в будущем, но до тех пор хз че успеет появиться. Лучше не загадывать. =)
Аноним 22/12/23 Птн 23:47:35 #317 №580715 
>>580699
> Да откуда вы взяли инфу про eos токен?
Источников много.
> "[End of Session]" или "End of Roleplay" не являлись в той модели end-of-sequence токеном
Нет, EOS токен это единичный токен, который означает окончание ответа модели, а не кодовая фраза. Здесь модель посчитала что ответ закончен и ей нечего больше отвечать, а поскольку в датасете была такая разметка - начала ее воспроизводить. Если бы не запрещал - кончилось на end of session или раньше лол
> Это просто типичные фразы характерные для рп, вот модель их и высрала.
Именно, потому что она не смогла придумать ничего лучше.
> модель очень сильно понесло в копирование датасета
Тоже возможно, но семплинг тогда уже не при чем. Если она тупо воспроизводит датасет вместо уместных ответов - ее файнтюнили плохие люди.

Вообще на некоторых запрет EOS приводит к тому что модель начинает углубляться и разбирать ответ по частям, или добавлять в него что-то интересное. На других наоборот вот подобная ерунда, это нормально.
> А он ещё и частично как реп пеналти сам работает.
Разъясни.
Аноним 23/12/23 Суб 03:11:20 #318 №580832 
про железиум
https://chat.groq.com/ - 275 токенов/сек на лламе2 70Б, нихуя себе
это кастомный чип с куском SRAM прямо на чипе и огромной шиной, можно объединять до 264 чипов на один сервак
Аноним 23/12/23 Суб 05:15:10 #319 №580858 
>>580832
наконец то асики для ллм?
Аноним 23/12/23 Суб 05:51:57 #320 №580862 
>>580858
Какой смысл в асике для того, что делает одну и ту же операцию миллиарды раз? Это обычный тензорный юнит вроде гугловских T4. Только память локальная и охуеть быстрая, там 220МБ SRAM на чипе, они вообще от DRAM отказались. И у чипов большая связность, 30Гбит/сек. Т.е. по сути это распределённый TPU у которого вместо основной памяти всё хранится в кэше. Трансформеры упираются в скорость памяти, поэтому с ними получается выигрыш. интересно что они будут делать если через пару лет вместо трансформеров выкатят архитектуру которая в скорость памяти упираться не будет
Аноним 23/12/23 Суб 05:55:27 #321 №580864 
>>580862
Ну асики, я имел ввиду специализированный ускоритель.
А это он и есть.
Не думаю что будет архитектура которой не нужна быстрая память. Просто более эффективная в вычислениях, но крутить модель все равно придется.
Аноним 23/12/23 Суб 06:32:17 #322 №580867 
>>580864
ASIC это совсем однофункциональные штуки, типа h264 кодеков. Даже универсальные DSP это уже не ASIC, не говоря уже о тензорных юнитах, т.к. им поебать какую архитектуру гонять.

Mamba, RWKV, S4/SSM и вообще все значимые альтернативные подходы масштабируются иначе чем трансформеры и обычно упираются не в скорость памяти при росте размеров
Аноним 23/12/23 Суб 08:04:39 #323 №580889 
А почему никто не пробовал трансформеры на ПЛИСах сделать? Не обязательно все миллиарды параметров прописывать, достаточно одного блока трансформера + подкачка в оперативу. Т.н нейрочипы ещё в 90х делали.
Аноним 23/12/23 Суб 08:14:19 #324 №580890 
>>580867
Это все еще специализированный ускоритель, по сравнению с видеокартами или ускорителями общего назначения, которые те же видеокарты без видеовывода.

>>580889
Думается мне там нужна большая производительность чем могут дать плисы, сотни гигабайт в секунду для всей модели. Ну или это неоправданно дорого.
По хорошему нужно сформировать нейросеть в нейроморфном процессоре. Такие уже есть, но не знаю на сколько хороша их внутренняя структура для имитации ллм. Вполне возможно усилия некоторых компаний как раз направлены на создание таких буквально ИИ чипов. И будет у нас как в фантастике - особый ИИ чип с искином внутри, лол.
Аноним 23/12/23 Суб 08:22:28 #325 №580893 
>>580890
> И будет у нас как в фантастике - особый ИИ чип с искином внутри, лол.
Так это логичное развитие технологии. Процессор и видюха это архитектуры общего назначения, а тут считай даже не "заточено под", а чисто нейронка в железе. Хотя, скорее всего, это пока правда слишком дорого.
Аноним 23/12/23 Суб 08:43:20 #326 №580897 
>>580893
Судя по тому как об этом активно молчат, все усиленно пилят свои решения пытаясь успеть первыми. Из того что я знаю до корпоративных нейро ускорителей ллм осталось не долго. Вся техническая часть уже давно есть, нужно только спроектировать структуру аппаратно. Да и обычные нейроускорители у них давно уже есть. Вон в новых процессорах уже и встроенки для обывателей добавляют.
Аноним 23/12/23 Суб 08:52:20 #327 №580900 
>>580897
>Вон в новых процессорах уже и встроенки для обывателей добавляют.
А что в процессорах? Подскажи, пожалуйста.
Насколько помню там многоразрядные контроллеры памяти пилят, они даже быстрее всяких урезанных по каналам затычек.
Аноним 23/12/23 Суб 09:49:33 #328 №580910 
Установил угабугу, скачал модель, связал с таверной, зашёл и один раз поговорил. Теперь она выдает ошибке при загрузке модели. ЧЯДНТ?

>torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 70.00 MiB. GPU 0 has a total capacty of 23.99 GiB of which 7.81 GiB is free. Of the allocated memory 13.88 GiB is allocated by PyTorch, and 207.92 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF


И какую модель 34B посоветуете?
Аноним 23/12/23 Суб 10:55:46 #329 №580936 
>>580910
А теперь
>KeyError: 'model.layers.0.input_layernorm.weight'
Аноним 23/12/23 Суб 11:30:58 #330 №580946 
>>580715
>Нет, EOS токен это единичный токен
Да, ты прав, тут я тупанул. Он ещё и не печатаемый, если я правильно понял.
>Разъясни
По-моему, никто не понимает толком, как typical p работает, но вот тут в обсуждении скинули статью, согласно которой применение typical p по сравнению с другими сэмплерами существенно снижает повтор. И в комментах тоже к этому склоняются.
https://www.reddit.com/r/LocalLLaMA/comments/153bnly/what_does_typical_p_actually_do/
Но там в статье gpt2, и, судя по примерам, это что-то уровня хуже пигмы 6б. Так что эти тесты не особо релевантны, и как оно работает для новых архитектур, никто не проверял походу.
Аноним 23/12/23 Суб 11:44:48 #331 №580949 
Как включить интерфейс с --trust-remote-code? Куда это вставлять?
Аноним 23/12/23 Суб 11:50:25 #332 №580951 
1639108227496.mp4
>>580148
Ты ещё не пробовал без квантования в фп16 эксламой запустить мистраль например? Он должен влезать в 24 вообщем то, интересно возможно ли такое провернуть и как будет перформить, по идее ведь должно запуститься же.
>>580910
Память кончилась, закрывай остальное/уменьшай контекст, в случае с 34б должен нормально флешаттеншен уже работать даже на 12-16к
>>580949
В CMD_FLAGS.txt
Аноним 23/12/23 Суб 11:51:03 #333 №580952 
>>580946
> никто не понимает толком, как typical p работает
Реддитовцы в принципе пиздец тупые. Typical P - это отсечение токенов с энтропией выше заданного предела. Т.е. он выкидывает токены, максимально удалённые от сортированных по вероятностям токенов.
Аноним 23/12/23 Суб 13:12:02 #334 №580977 
https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5
читаем раздел запуск про семплеры yi
Аноним 23/12/23 Суб 13:27:59 #335 №580989 
>>580977
> шизомикс из кучи рп-мусора
> дрочите семплеры чтоб не ломалось
Классика рп-кала.
Аноним 23/12/23 Суб 13:29:33 #336 №580991 
>>580989
не, там вобще про базовую модель а не только про микс
Аноним 23/12/23 Суб 13:34:28 #337 №580995 
>>580991
> про базовую модель
Да хуйня там написана. Ванильная Yi-200К - это не чат и даже не инструкт-модель, она и не должна рпшить. Она работает так же как и ванильная лама. У Yi-Chat тем более нет никаких проблем со стандартным семплингом.
Аноним 23/12/23 Суб 13:36:59 #338 №580996 
кто там 3b спрашивал анценсоред
https://huggingface.co/afrideva/phi-2-uncensored-GGUF
качать меньше 8 бит не рекомендую, хотя тут и fp16 скачать и запустить легко

>>580995
Чуваку который в этом варится и клепает свои сетки я верю больше чем тебе анон
Хотя бы потому что тоже сталкивался с необычной температурой, рокет3b так же неюзабелен был на 1 или даже 0.8, только на 0.2-0.3 стал нормально ответы давать
Аноним 23/12/23 Суб 13:46:47 #339 №581002 
image.png
image.png
>>580952
>выкидывает токены, максимально удалённые от сортированных по вероятностям токенов
Оке, я, видимо, тоже тупой, но вот это "объяснение" вообще ничего не проясняет, как по мне. И из того, как я понял статью, оно не верно от слова совсем. Начнём с того, что само значение параметра - это кумулятивная вероятность, как и в nucleus sampling (он же topP). topP оставляет то множество токенов, куда набрасываются отсортированные по убыванию токены до тех пор, пока их суммарная вероятность не превысит значение параметра. Типикал работает схожим образом, но "стопка" с токенами, откуда они достаются, это не все токены, а то, что авторы вводят под названием "local typical set", для которого вводится формула из суммы десятичного логарифма вероятности и энтропии. И я, хоть убей, не понимаю, что эта формула даёт на практике. Это надо подробно статью читать и на каких-то конкретных примерах смотреть, что отсекается.
Аноним 23/12/23 Суб 13:52:38 #340 №581007 
image.png
>>581002
https://github.com/LostRuins/koboldcpp/wiki
Аноним 23/12/23 Суб 13:56:12 #341 №581009 
>>581002
> как я понял статью
Ты даже формулу прочитать не можешь и понять что значит энтропия, о каком понимании статьи вообще идёт речь. Сначала считается энтропия вероятностей, потом срезаются "нетипичные" вероятности для данного распределения.
https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%8D%D0%BD%D1%82%D1%80%D0%BE%D0%BF%D0%B8%D1%8F
Аноним 23/12/23 Суб 13:58:41 #342 №581012 
>>581007
Я вчера читал эту вики, она уже безнадежно устарела.
Аноним 23/12/23 Суб 14:00:50 #343 №581015 
>>581012
Ну, хоть что то. Общее представление о семплерах дает
Аноним 23/12/23 Суб 14:03:48 #344 №581016 
Жду на новый супер мега семплер который совместит в себе все остальные и еще будет супер мега умным и адаптивным чтобы был только один слайдер а то многа слайдеров это сложна.
Думаю до года времени появится.
Аноним 23/12/23 Суб 14:04:45 #345 №581018 
>>581007
Там совсем в общих чертах и, сомневаюсь, что для всех сэмплеров верно. Про минП, например, откровенная ересь написана. Думаю, что про типикал тоже. Точно достаются слова не из пула с одинаковыми вероятностями. Во-первых, достаются токены, а не слова. Во-вторых, вот поставил я типикал 0.6. И у меня есть пара токенов с вероятностями 40 и 30, а потом шесть токенов по пять. Описание из вики кобольда звучит так, как будто токены будут доставаться из последних шести. Это точно не так, согласно статье, работает. Инфа, которую предоставляют те, кто придумал сэмплер и математическую реализацию для него, явно в приоритете.
Аноним 23/12/23 Суб 14:11:31 #346 №581025 
>>581018
Новичку норм, общее представление даст, как настроить объяснит, тонкости им не нужны.
Ну и раз там криво описано то предложи правку, полезное дело и все такое
Аноним 23/12/23 Суб 14:47:10 #347 №581071 
>>581009
>Сначала считается энтропия вероятностей, потом срезаются "нетипичные" вероятности для данного распределения.
Нет, это не так работает. Ну давай читать формулы вместе. Первый пик для топП: найти такое множество токенов, что минимально кол-во токенов с суммарной вероятностью больше или равной параметру. Что и даёт сортировку по убыванию и запихиванию в это множество. Второй пик для типикал: найти такое множество токенов, что минимизируется сумма энтропии с логарифмом по нескольким подмножествам, и суммарная вероятность токенов, опять же, больше или равна параметру. Выражение под знаком суммы в левой части тем ближе к нулю, чем "ближе" к друг другу токены, оно как раз определяет тот самый locally typical set (его определение есть выше этих формул в статье). Левая часть означает, что в искомое множество кидают локально типичные подмножества так, чтобы, с одной стороны, эти подмножества были как можно более typical внутри себя (что даёт минимизацию суммы), а с другой стороны общая сумма вероятностей не превышала параметр. И это вообще ни разу не так тривиально, как "отсечение токенов с энтропией выше заданного предела".
Аноним 23/12/23 Суб 15:03:16 #348 №581080 
>>581071
>>581009
Хотя не, под подмножества вру. В множество кидаются всё-таки токены, видимо. Т.е. сумма идёт по токенам, а не каким-то подмножествам. И таким образом действительно отрезаются наиболее нетипичные токены для выбранного типикал сета. Но тем не менее, параметр сэмплера определят кумулятивную вероятность, а не порог энтропии.
Аноним 23/12/23 Суб 15:05:52 #349 №581085 
>>580996
> Хотя бы потому что тоже сталкивался с необычной температурой, рокет3b так же неюзабелен был на 1 или даже 0.8, только на 0.2-0.3 стал нормально ответы давать
Это говорит о том, что модель помнит только один заученный токен для ответа, и тот помнит хуёво, отчего надо менее вероятные шизотокены микротемпературой отсеивать. Это не то что бы rocket science
мимо
Аноним 23/12/23 Суб 15:14:59 #350 №581091 
>>581071
> логарифмом по нескольким подмножествам
Блять, ты такой чтец, что просто пиздец. Нотация-хуяция - всё похуй, главное log увидел и ебись оно в сраку.
Аноним 23/12/23 Суб 15:24:22 #351 №581108 
>>581085
Догадаться сбавить температуру тоже надо знаешь ли, кто то мог бы запустить на стандартных, а потом накатать коммент что сетка говно
Вобще не уверен что дело в малом количестве токенов, там будто температура смещена была, ответ иногда менялся даже на 0.1, очень уж чувствительная сетка к минимальным изменениям.
Слишком маленькая разница между вероятностями? Криво работающая на ней температура?
Хз, так и не понял че с ней было не так. Но на удивление она нормально отвечала для своего размера, даже не слишком тупая, на уровне лламы 2 7b
Аноним 23/12/23 Суб 16:20:09 #352 №581157 
>>580703
>Тоже можно, но у меня в голове где-то сидело, что в таком случае погрешность будет чуть выше.
Технически, активации, которые будут гоняться по шине, для малых моделей тоже будут меньше. Но там размер исчисляется ЕМНИП мегабайтами.
>>580977
>семплеры yi
Никогда не нравились китайские модели.
>>581016
Динамическая температура?
>>581108
>а потом накатать коммент что сетка говно
Сетка говно. Как по мне, любая нейронка должна выдавать приемлемый результат с температурой в 1 и выборкой максимально вероятного токена, это блядь датасет её.
Аноним 23/12/23 Суб 16:31:56 #353 №581163 
>>581157
>Сетка говно.
Экспертное мнение?
Вот только сетка работает, а значит не говно
Аноним 23/12/23 Суб 16:37:31 #354 №581168 
>>581163
>Вот только сетка работает, а значит не говно
GPT2 тоже работает, технически.
Собственно пляски с бубном вокруг параметров как бы намекают, что сетка неоч. Я в 70B пихаю что попало с какими попало параметрами, и оно работает. Сетка норм. А остальное говно, увы.
Аноним 23/12/23 Суб 16:47:20 #355 №581176 
>>581168
Работает на уровне сетки в 2 раза массивней, че за тупое сравнение
Такой логикой любая необходимость настройки семплеров - сетка говно. Ну давай, скажи что ты отключил все семплеры и на своей 70b сидишь без них?
Пляски с бубном тогда вобще любые семплеры
Аноним 23/12/23 Суб 16:59:10 #356 №581186 
>>581176
> Работает на уровне сетки в 2 раза массивней, че за тупое сравнение
Какой именно? У нас и мистрали сейчас на уровнях 2-3х старых сеток по размеру работают, и?
Аноним 23/12/23 Суб 16:59:54 #357 №581187 
>>581157
> Технически, активации, которые будут гоняться по шине, для малых моделей тоже будут меньше.
Ну, кстати, да, но разница тоже почти незаметна.

>>581168
> Я в 70B пихаю что попало с какими попало параметрами, и оно работает. Сетка норм.
Мейк сенс, если честно.

>>581176
Но верен и обратный пример — для любой сетки и любого датасета можно подобрать такие настройки семплера (а заодно уж и сид, чего уж там!), что она выдаст охуенный ответ. Значит все сетки даже 8*110M) — охуенны.

Ну такое себе, знаешь. Понятное дело, что допиливая напильникам на ходу можно что угодно заставить ездить, но это плохая практика, в какой-то момент приложение сил пересекает границу удобного использования.

Истина где-то посередине, м?
Аноним 23/12/23 Суб 17:31:14 #358 №581208 
>>581176
>Работает на уровне сетки в 2 раза массивней, че за тупое сравнение
Сетка "в 2 раза массивней" не требует плясок.
>Ну давай, скажи что ты отключил все семплеры и на своей 70b сидишь без них?
Нет конечно, я не еблан. Это просто предварительный фильтр такой. Ставим нейронку в позу раком в неудобные условия и смотрим, как оно. Задаём провокационные вопросы про петухов с яйцами, крутим семплеры. Если сетка справляется с говном, то и с обычным РП без приколов справится.
>>581186
>У нас и мистрали сейчас на уровнях 2-3х старых сеток по размеру работают, и?
Да по этой математике 3B высер уже равен 65B лламе первого поколения. Что само собой нихуя не так.
Аноним 23/12/23 Суб 17:33:28 #359 №581214 
>>581157
>Динамическая температура?
В таверне нет - значит говно недостойное внимания.
Аноним 23/12/23 Суб 17:34:37 #360 №581218 
>>581214
В таверне вообще много чего нет, лол. И в кобольде. Настоящие гусары ебуться с нативными трансформерами хайгинфейса, и у них там есть ВСЁ.
Аноним 23/12/23 Суб 17:35:05 #361 №581219 
Короче надо качать 500В модель и кум будет космический, понял. Иду качать, все равно видяхи простаивают без дела.
Аноним 23/12/23 Суб 17:37:33 #362 №581224 
>>581219
Ну ты и даун.
Кстати про обсёры, например Yi в целом неплоха, но так же ломуча.
Аноним 23/12/23 Суб 17:39:10 #363 №581228 
>>581224
Чмоня, ты охуел? На 500В хуй встанет с первого же слова, это даже не близко с вашими нищенскими 7В.
Аноним 23/12/23 Суб 17:42:50 #364 №581236 
Чеж вы такие тупые то, ну вас нахуй
То передергивают, то до абсурда доводят, или до мелочей докапываются, лишь бы любой ценой доказать свою правоту
О изначальной цели вобще забыли
Так бля, суть - у разных сеток разные настройки семплеров для их оптимальной работы, 3b тут просто пример. Речь шла о yi 34b, и то что конкретно ее нужно настраивать не так как лламы. Всё.
Надеюсь эта информация кому то поможет, а кто не согласен то и хуй с ним, нормально тут обсудить не с кем и продолжать дальше бессмысленно
Аноним 23/12/23 Суб 17:44:39 #365 №581239 
>>581091
Не понял твою доёбку до логарифма. Есть формула, в ней стоит логарифм вероятности. Что сказать то хотел? Что это просто вероятность токена, масштабированная на интервал от минус бесконечности до нуля? Ну так и пиши нормально, блять, а не бессмысленные возмущения, которые никому не помогут. Суть моего чтения формулы от этого не меняется: мы хотим набрать токенов на суммарную вероятность, которая выбирается значением параметра, так, чтобы минимизировать сумму по всем токенам указанного выражения, которое обозначает отклонение информации конкретного токена от некоторой ожидаемой информации. Хотя бы сам понял, хоть мб и с неточностями, как сэмплер пашет, пока тебе формулу объяснял. И на том спасибо.
Аноним 23/12/23 Суб 17:45:26 #366 №581240 
>>580946
> typical p
Булджать, читал невнимательно и подумал что то про min-P. Зато бумага по ссылке интересная или нет, надо ознакомиться, спасибо.
>>580951
> без квантования в фп16 эксламой запустить мистраль например?
Вот этого двачую, возможно получится нормально а не сосалово как с квантами.
>>580977
Что там читать то? Про то что многие файнтюны на основе китайских моделей не любят прожарку температурой - давно известно.
Аноним 23/12/23 Суб 17:48:39 #367 №581243 
>>581236
Но ведь семплеры не нужны, эксперты пояснили.
Еще эксперты поясняли что что гриди сэмплинг это единственный хороший сэмплер.
Еще говорили что мин пи это хороший сэмплер который можно смело использовать сам по себе.
Но помни что семплеры не нужны и семплеры кринж, хорошие сетки справляются без семплеров. Этих моделей никто не видел но они есть, не забывай.
А еще никто из этих экспертов так ни разу и не запостил какой то нормальный сетап для новичков, потому что помогать новеньким это крин и не по экспертному. Вчера запостили рекомендации так эксперты взорвались потому что мин пи оказывается проплаченный семплер который форсят чтобы намеренно ухудшать сетки.
Аноним 23/12/23 Суб 17:59:41 #368 №581259 
>>581243
Долбаебы с чсв, че с них взять
Живут в том мире который создали своими руками, как и те кто молча читает, собственно
И где тут взяться желанию помочь другим? Я наверное больше сюда ссылки и гайды таскать не буду, эксперты и так все знают, че их зря беспокоить
Аноним 23/12/23 Суб 18:00:47 #369 №581260 
>>581009
> не можешь и понять что значит энтропия
Ты же про безразмерную говоришь? Лол, зачем таким токсичным быть, клавиатуру слюной разъешь.
>>581018
> Про минП, например, откровенная ересь написана.
А что именно там не так? Формулировка слишком абстрактная и мало что поясняет, но принципиально что не верно?
>>581157
> активации, которые будут гоняться по шине, для малых моделей тоже будут меньше
Верно, с другой стороны растет время обработки основного объема и куда пойдет доля рабочего времени, что уходит на обмен - зависит от их соотношения. Может точно также сохраниться.
>>581108
> ответ иногда менялся даже на 0.1
В yi часты ситуации с 2-3-4 почти равновероятными токенами, это нормально. Посчитай что с ними станет с температурой 0.1, потом оцени вероятность получить тот же самый ответ на плече в несколько сотен токенов.
>>581168
> Я в 70B пихаю что попало с какими попало параметрами
Да вы, сэр, зажрались. И для наилучшего результата и там нужно адекватное фоматирование и прочее за говно частично поддвачну, шизомиксы китайцев бывают полной дичью
Аноним 23/12/23 Суб 18:06:27 #370 №581271 
>>581239
> Что сказать то хотел?
То что это не "логарифм вероятности".
Аноним 23/12/23 Суб 18:06:53 #371 №581272 
>>581186
> У нас и мистрали сейчас на уровнях 2-3х старых сеток по размеру работают
Ты че несешь, ващет во всю идет состязание с гопотой4, а остальные уже повержены, так что не преуменьшай достоинства!
>>581219
>>581228
Все правильно
>>581236
Да тут спор слепого с глухим и, чсх, оба правы. Просто позиции друг друга воспринимают сильно радикально, особенно семплеродрочер.
> и то что конкретно ее нужно настраивать не так как лламы
Точно также, только температуру сбавить. Также как у айробороса, например. Можно чуть с отсечками поиграться, даже с семплером на который шизы дрочат, но не им единым.
Аноним 23/12/23 Суб 18:10:42 #372 №581279 
>>581259
Я сюда с серьезными намерениями никогда не заходил, лучшее что есть в треде это когда приносят свежые ссылки на что то новое а продвинутые дискусии только рак мозга вызывают.
Аноним 23/12/23 Суб 18:11:21 #373 №581280 
>>581259
> Живут в том мире который создали своими руками
Разве плохо, выстраивать свое окружение в соответствии с желаниями.
> Я наверное больше сюда ссылки и гайды таскать не буду
Если там что-то интересное то таскай, игнорируй токсиков. Интерпретацию неграмотного шизомерджера, которая преподносится как истина и абсолютное правило - тоже тащи, срачи можно будет разводить.
Аноним 23/12/23 Суб 18:18:03 #374 №581288 
>>581272
> Ты че несешь, ващет во всю идет состязание с гопотой4
С ней микстраль и 70б состязаются. И в некотором смысле выигрывают, потому что гопоту одновременно и соефицируют и отупляют.
Аноним 23/12/23 Суб 18:20:11 #375 №581291 
>>581243
> Вчера запостили рекомендации так эксперты взорвались потому что мин пи оказывается проплаченный семплер который форсят чтобы намеренно ухудшать сетки.
Насчёт ухудшения сеток хз, но по сути от топ-а он особо и не отличается и делает то же самое.
Аноним 23/12/23 Суб 18:24:01 #376 №581299 
>>581291
Вообще то отличает и тем как работает и результатом. Но погоди, щас набегут эксперты и пояснят что и то и то - говно одинаково.
Аноним 23/12/23 Суб 18:26:22 #377 №581302 
>>581288
В зирошотах и простых задачах разве что. Даже с постановки микстраля и 70б в один ряд коробит, уровень восприятия несоизмеримый.
> гопоту одновременно и соефицируют и отупляют
Это верно.
>>581299
> если я скажу что сейчас набегут значит мне нельзя перечить!
Фу, насколько же нужно опуститься чтобы искать себе подобные объекты для веры и за них воевать.
Аноним 23/12/23 Суб 18:26:47 #378 №581303 
>>581299
Они отличаются формулой, и всё. Результат один - в зависимости от максимальной вероятности отбрасывается минимальная.
Аноним 23/12/23 Суб 18:29:27 #379 №581306 
>>581303
Я получаю разный результат - значит работают по разному. Формулы я конечно разбирать не буду.
Аноним 23/12/23 Суб 18:31:34 #380 №581307 
>>581306
Типичный эксперт по семплерам. Конечно ты разный результат получишь, если там блять формула другая и эквивалентные значения отличаются.
Аноним 23/12/23 Суб 18:32:19 #381 №581309 
image.png
>>580440
Лол.
Аноним 23/12/23 Суб 18:32:28 #382 №581310 
>>581307
А ты говоришь "результат один". Обтекай, я прав а ты нет.
Аноним 23/12/23 Суб 18:33:09 #383 №581312 
>>581236
>и то что конкретно ее нужно настраивать не так как лламы
Окей.
Кто будет вести таблицу оптимальных настроек для разных сеток?
>>581243
>Но ведь семплеры не нужны, эксперты пояснили.
Ты жопой читаешь этих экспертов. Очевидно, в работе без костылей, которые делают вывод сеток хоть сколько-то когерентным на длительном промежутке, никуда.
Но вот сравнивать модели без костылей- почему бы и нет?
>А еще никто из этих экспертов так ни разу и не запостил какой то нормальный сетап для новичков
МинП на 0,05, всё остальное отрубаем, лол.
>потому что мин пи оказывается проплаченный семплер который форсят чтобы намеренно ухудшать сетки
Про ухудшение ХЗ, но вот то что мин-п форсит автор это так и есть. Никакие другие авторы семплеров не форсят их по всем реддитам и не пишут реализации под все движки, что найдут.
>>581260
>И для наилучшего результата и там нужно адекватное фоматирование и прочее
С одной стороны да. С другой да. С третьей да. А с четвёртой потери не столь велики, чтобы дрочиться с каждой новой сеткой.
Аноним 23/12/23 Суб 18:33:59 #384 №581313 
>>581310
Результат один если ты эквивалентные значения подберёшь. Искренне надеюсь что я был толсто затрален сейчас, иначе страшно за этот тред становится.
Аноним 23/12/23 Суб 18:37:49 #385 №581321 
изображение.png
>>581313
>иначе страшно за этот тред становится
А что страшно? Всё ещё лучше кончаев с их бесконечными просьбами проксей и пасов к ним со спунфиндом значений со страницы, лол.
Аноним 23/12/23 Суб 18:39:25 #386 №581324 
>>581321
То и страшно, что уже с ними сравниваешь.
Аноним 23/12/23 Суб 18:40:00 #387 №581325 
>>581243
> никто из этих экспертов так ни разу и не запостил какой то нормальный сетап для новичков
Во-первых, nypa, в треде могут происходит обсуждения разного уровня погруженности и это нормально.
Во-вторых - simple-1 чтоб править всеми, а далее что нужно уже крутишь.
>>581312
> но вот то что мин-п форсит автор это так и есть
Да пиздец заебали этим инфошумом под мин-п. Самое плохое что это подхватывают малограмотные кадры и начинают тиражировать, оформляя ебанутый тренд и потом выдавая такие фантазии, что думаешь смеяться или плакать. Чего стоят только эти демонстрации "а вот ты с температурой 4 потести", уровня кринжовой рекламы новых ускорителей от амудэ, которую потом новидео разъебали.
>>581312
> не столь велики, чтобы дрочиться с каждой новой сеткой
Все так. Главное чтобы была возможность катать, а настройки подкрутить всегда по месту можно.
Аноним 23/12/23 Суб 18:42:51 #388 №581329 
>>581312
>МинП на 0,05, всё остальное отрубаем
Так ведь мин пи это шизофорс создателя и вообще плох сам по себе, ну поясняли же эксперты ты чем слушал.
>то что мин-п форсит автор это так и есть. Никакие другие авторы семплеров не форсят их по всем реддитам и не пишут реализации под все движки, что найдут.
Да и пусть форсит, тебе лично горит с этого или что? Ну хочет человек минуту славы получить да и хуй с ним пусть радуется.
Меня интересует результат, я заюзал его семплер и получил удовлетворительный результат и теперь больше не нужно крутить остальные ползунки. Значит заебись. Пока не придумаете и не запостите что то получше буду юзать его поделие.
Аноним 23/12/23 Суб 18:45:20 #389 №581332 
>>581329
> Меня интересует результат, я заюзал его семплер и получил удовлетворительный результат
google:синдром утенка
Аноним 23/12/23 Суб 18:48:51 #390 №581334 
>>581329
>Так ведь мин пи это шизофорс создателя и вообще плох сам по себе, ну поясняли же эксперты ты чем слушал.
Что ты какой слепой? Я везде писал про форс, но нигде, ни разу не писал, что семплер говно. Это твои выдумки. Сам катаю с 0.05 и темпой в 1, старенькие Top P&K, TFS поотключал. Иногда миростат с дефолтными пресетами врубаю, если нужно разнообразить ответ.
Семплер вполне себе норм, мне нравится. Как TFS, только чуть лучше.
>Да и пусть форсит, тебе лично горит с этого или что?
Как выше пояснили, в чём проблема лишнего инфошума. Тут и шизонастройки с пережаркой температуры, и забивание инфопотока шищотестами вместо чего-то нового.
Аноним 23/12/23 Суб 18:50:04 #391 №581335 
>>581228
*с первого слова и буквы.
«пятьсот бэ…»

———

По 4060 ti отбой, взял Quest 3, мне на НГ хватит, пожалуй. =)
Буду теперь с AR/MR телочками болтать… со скоростью 3 токена/сек.
Аноним 23/12/23 Суб 18:50:13 #392 №581336 
>>581325
>simple-1
А что это? Я новенький.
>а далее что нужно уже крутишь
А если я не знаю что мне нужно? Мне сказали пигмалиона скачать, говорят компьютер будет мне сам отвечать.
Если уж помогать то хотя бы скажи нормально - температуру ставь примерно столько, вон тот ползунок примерно столько, хочешь технических деталей иди по ссылке изучай. Это не требует стены текста и полтора часа времени. Когда ты варишься в этой теме месяцами легко забыть что для непосвященных это как лунные руны.
>"а вот ты с температурой 4 потести"
Оно реально работает даже с температурой 4. Это не значит что оно работает хорошо, но оно может. И я слушал людей намного умнее чем здешние и оно говорят что семплер заебись, ставь температуру выше 1 спокойно.
Аноним 23/12/23 Суб 18:50:37 #393 №581338 
>>581332
А по делу есть что ответить?
Аноним 23/12/23 Суб 18:53:01 #394 №581341 
>>581336
>>simple-1
>А что это? Я новенький.
Пресет, где за тебя уже всё покрутили. Начинай крутить от него сам только тогда, когда уже вник во всё это и набрался опыта.
Аноним 23/12/23 Суб 18:54:45 #395 №581346 
>>581341
Вот, уже получается.
Аноним 23/12/23 Суб 18:58:24 #396 №581356 
>>581336
> А что это? Я новенький.
Пресет в убабуге, таверне, вероятно и в кобольда (если кто-то еще рпшит в нем) добавили.
> А если я не знаю что мне нужно?
Типа база как в спорте или других хобби, пока не понимаешь что и как - оставляй рекомендованное. В целом база - умеренная температура (лучше поменьше 0.6-0.7) а повышать только в случае диких лупов или затупов, и умеренная отсечка токенов (top_p 0.9 top_K 20, или min_p 0.05).
> Если уж помогать
Нет, не хочу, то писал думая что ты действительно новенький.
> Оно реально работает даже с температурой 4.
Какой с этого толк если текст на гране адекватности, но при этом без особого разнообразия? Поставь topK=2..5 и оно тоже с высокой температурой будет работать. Можно огромное сочетание подобрать, подобное сравнение бесполезно, потому что это заведомо манипуляция с целью создать чрезмерно положительное впечатление. Потом поехи начитаются такого и идут друг другу вторить, заходишь на ресурсы почитать что нового и интересного - а видишь сплошные победы и повторение вбросов.
> И я слушал людей намного умнее чем здешние
Обзмеился
Аноним 23/12/23 Суб 19:01:53 #397 №581365 
Попробовать чтоли кум на микстрали. Он ведь "почти как гопота", может и кумать умеет.
Аноним 23/12/23 Суб 19:05:51 #398 №581367 
>>581365
На обычной микстрали куума вообще нет.
МикстральДельфин - вот тут уже нормально дело идет, но проще шизомикс 20 скачать
Аноним 23/12/23 Суб 19:07:58 #399 №581369 
>>581367
Кум есть везде, просто он может быть унылым.
Аноним 23/12/23 Суб 19:13:34 #400 №581378 
Я все еще так и не понял как работает миростат. Поотключал все остальные семплеры и вроде завелось но аутпут дико рандомный, иногда заебись иногда набор слов.
Аноним 23/12/23 Суб 20:04:51 #401 №581430 
>>581369
Ну ты такой же куум как от микстраля можешь испытать если на обои в комнате внимательно смотреть будешь.
Аноним 23/12/23 Суб 20:05:00 #402 №581431 
>>581271
Чел, ты хоть посмотри пояснение в статье, которое идёт сразу после описания алгоритма 5.3. А потом зайди в вики и посмотри, что такое log probability. Спойлер - это буквально логарифм вероятности. Я уж думал, ты шаришь.
Аноним 23/12/23 Суб 20:11:50 #403 №581442 
>>581260
>но принципиально что не верно?
Вообще да, написано верно, отчасти зря быканул. Но настолько бестолково. Типа "отрезает токены ниже определённой вероятности" можно почти про любой сэмплер сказать. Не понятно, почему про топА расписали подробно, а тут не смогли. Видимо, добавляли в вики давно, когда сэмплер только завезли, и сами не разбирались толком.
Аноним 23/12/23 Суб 20:27:30 #404 №581461 
>>581303
Как бы да, но нет. У топА квадратичная зависимость, что даёт эффект только когда топ токен имеет высокую вероятность. Т.е. если ты, скажем, возьмёшь значение 0.2, то топА выкинет токены меньше примерно 16% при максимальном 90 и меньше 5% при максимальном 50. МинП же при том же значении выкинет 18% при 90 и 10% при 50. МинП более универсальный, но если хочется оставлять большой хвост, то минП придётся брать маленьким, а тогда он будет хуже работать со случаями очень большой вероятности первого токена, отрезать там меньше. Т.е. у этих сэмплеров немного разные задачи, и их можно применять вместе. И нельзя подогнать такое значение параметра для каждого, что они будут отрезать одинаково во всех случаях.
Аноним 23/12/23 Суб 20:48:36 #405 №581489 
>>581461
Пример вышел немного тупым, потому что при максимальном в 90% дропнутся все оставшиеся токены в обоих случаях при значениях 0.2, но суть понятна, думаю. МинП нужен чтобы отрезать равномерно, топА - чтобы резать много в случае больших макс вероятностей и не резать почти ничего, если первый токен мелкий.
Аноним 23/12/23 Суб 20:59:53 #406 №581503 
>>580440
Все модели этим страдают.
Аноним 23/12/23 Суб 23:01:32 #407 №581846 
Как же я только что покумал, боги всевышние сохраните мою душу ибо она скоро улетит через хуй. Эти ваши нейронки они точно от самого диявола пошли. Ввергли меня в бездну из которой я не желаю уходить.
Аноним 24/12/23 Вск 00:29:42 #408 №582028 
>>581846
Давай рассказывай теперь, на какую карточку на какой модели наяривал
Аноним 24/12/23 Вск 10:38:41 #409 №582355 
Суп аич.
Хочу вкатиться в ваши LLM для создания локальной базы знаний на основе личных заметок и сохраненных книг. В перспективе для генерации исследований/статей/калтента.
Я пришел в правильный тред?

Из шапки несильно дохуя понятен положняк по необходимому железу и текущим возможностям локальных моделей. Сможет ли нейросетка переваривать PDF'ки? А сможет ли давать ссылку на место откуда была взята информация? Или там уже надо самостоятельно пердолить адаптеры данных для такого функционала?

В общем, знающий анон, накидай пожалуйста ссылок на брифы по текущему положняку.

Спасибо
Аноним 24/12/23 Вск 11:07:09 #410 №582374 
>>582355
первое что нашел у себя в вкладках, справка по ллм и их запуску на кобальде, че как
https://github.com/LostRuins/koboldcpp/wiki
локалка и жрет пдф
https://github.com/mudler/LocalAI
Аноним 24/12/23 Вск 11:20:22 #411 №582387 
>>582374
Спасибо!
Аноним 24/12/23 Вск 13:01:29 #412 №582464 
>>582355
> положняк по необходимому железу
Работает даже на телефонах. Для сколь-либо приемлемой скорости (не ждать несколько часов) нужен нормальный процессор и 32+ рам (64+ если хочется нормальный размер модели). Для быстрой скорости требуется видеокарта(видеокарты) чтобы модель помещалась в врам, тогда ответ, считай, будет сразу.
Если хочешь что-то действительно делать - минимум 34б, ее кванты требуют 24гигов врам. Самый дешевый с нормальной скоростью - tesla P40, топ за свои деньги, выше тестили. Но это llamacpp со всеми вытекающими, и по ней самой подводных хватает. При наличии 3090/4090 все ок. Хочешь 70б у которой перфоманс местами сравним с гопотой - готовь 48гб врам, или распределяй обработку между видюхой и процом с низкой скоростью.
> для создания локальной базы знаний на основе личных заметок и сохраненных книг
В сторону векторных баз данных и подобного стоит копать. Ллм там зайдет в качестве одного из элементов системы, просто сгрузить вагон разнородного текста в ллм а потом надеяться что она по нему будет отвечать - не выйдет, банально контекста не хватит ни у одной из доступных.
Аноним 24/12/23 Вск 14:24:18 #413 №582531 
>>582464
> просто сгрузить вагон разнородного текста в ллм а потом надеяться что она по нему будет отвечать - не выйдет, банально контекста не хватит ни у одной из доступных.
А тем временем, такое ещё на гпт2 делали, https://haystack.deepset.ai/ видел года 2 назад, хз что там сейчас и во что это превратили. Раньше даже примеры в колабе были.
Аноним 24/12/23 Вск 15:05:58 #414 №582585 
>>582531
Делали как раз примерно то что описано а не такое, в gpt2 так вообще окно контекста очень мало и соображалки с трудом хватит на обработку больших объемов. Там текстовая модель идет как часть системы а не сама по себе, это не мешает подобным решениям работать и не стоит пугаться.
Аноним 24/12/23 Вск 18:24:30 #415 №582785 
image.png
А Соляр 10.7b очень хорош... Только вроде не кумкумычный, но для 10.7b это шикарно, учитывая че это даже не 13b
Аноним 24/12/23 Вск 18:27:20 #416 №582788 
RPK-16.png
>>582785
>АК-12
Когда есть пикрилл.
Аноним 24/12/23 Вск 18:28:31 #417 №582789 
>>582788
я не хочу чтобы она мне отрезала яйца.
Аноним 24/12/23 Вск 18:56:54 #418 №582810 
Очень давно здесь не бывал. Какие модельки из разряда 13b используете? Пробовал разные, остановился пока на echidna-tiefigther-25 Она наиболее хорошие, интересные и разнообразные результаты выдаёт.
Аноним 24/12/23 Вск 18:58:34 #419 №582811 
>>582785
Ну так есть SolarMaid для КУУМА
Аноним 24/12/23 Вск 19:12:13 #420 №582818 
>>582811
очередной мердж от унди?. Хз хз....
Аноним 24/12/23 Вск 20:14:06 #421 №582883 
>>582818
Yhyu13/LMCocktail-10.7B-v1

Вот это тогда, очень годный мердж солара

Уничтожает ГПТ, все дела.
Аноним 25/12/23 Пнд 00:17:57 #422 №583101 
https://github.com/understandlingbv/llama2lang

>finetune LLaMa2-7b for chat towards any language (that isn't English).

Готовы мистраль божественный файнтюнить на русском?
Аноним 25/12/23 Пнд 00:35:44 #423 №583131 
>>582810
psyfighter 2, mythomax 2
Аноним 25/12/23 Пнд 01:15:28 #424 №583167 
>>583101
Лора-адаптер, ну хз. Но тема в качественным автопереводом датасета неплохая, так можно и рп-датасеты крутануть.
Аноним 25/12/23 Пнд 06:35:54 #425 №583370 
>>580910
Зачем вы ебетесь с этим, дауны, когда together.xyz дает михсрал бесплатно считай и без квантования?
ну и к чему вы пришли, кстати, локальщики?
Аноним 25/12/23 Пнд 06:43:53 #426 №583372 
>>583370
>ну и к чему вы пришли, кстати, локальщики?
Сои и цензуры больше почти нет, сетки на уровне хотя бы 3.5 есть, че еще надо для счастья?
Сетки поумнее, но это вопрос времени и железа.
Меня особенно впечатляет что не реддите нет ни одного упоминания анценсоред метода и сеток, вычистили под ноль? Забавно
Аноним 25/12/23 Пнд 06:46:19 #427 №583374 
>>583372
я про то что локалки удобнее и выгоднее всего использовать нелокально
Аноним 25/12/23 Пнд 06:50:08 #428 №583376 
>>583374
Для меня безопасность и надежность важнее, ну и то что это проще настроить и работа будет зависеть от меня, а не от не контролируемых мной обстоятельств и желания кого то там на дальнем конце провода
Я старой закалки, онлайн сервисы ненадежны и не безопасны, так что любимая музычка, фильмы, книги и игрульки у меня скачены к себе
Аноним 25/12/23 Пнд 07:17:47 #429 №583379 
>>583374
Почему? Нормально крутятся локалки локально. Зачем платить дяде (тем более обычно через прокладки, ибо мир они явно не принимают), когда можно не платить? А видяха всё равно полезна в хозяйстве, противоречий в принципе нет, всё одно видеокарты меньше 12ГБ уже почти трупы для игр.
>>583376
>Я старой закалки, онлайн сервисы ненадежны и не безопасны
Поддвачну. Аналогично, всё, что не лежит на моём жёстком диске и не запускается без интернета, я своим не считаю и по умолчанию записываю в потерянный контент.
Аноним 25/12/23 Пнд 07:31:32 #430 №583385 
>together.xyz
>платить
пещерные люди...
Аноним 25/12/23 Пнд 07:33:18 #431 №583387 
Посидел еще на модели соляра и удивился. Во первых семплеры не работают вообще.Во вторых сетка конечно пытается в персонажа немного шаблонно (вообще же должно быть дофига информации в датасетах почему так однообразно то все) но зато логична в сценах. В третьих в разных темах не касаемо рп, но касаемо политики тут же сетка выходит из роли и занимает нейтральную позицию. С одной стороны это неплохо, с другой опять же как юзать карточку диктаторов тогда. =_(
Аноним 25/12/23 Пнд 07:37:46 #432 №583389 
5uqbX4qOSLU.jpg
Сап двосч. Подскажите, пожалуйста. У меня есть большой текст. Я натренил его на tesorflow. Но выдает он не то что можно. Как я могу дообучить какую-то крутую модель своему тексту? Есть гайд для тупых?
Аноним 25/12/23 Пнд 07:44:22 #433 №583396 
>>583387
На файнтюне или на голом соляре? Попробуй анценсоред версию, если соит. Я вобще сижу щас на Frostwind-10.7B, мне пока нравится
Аноним 25/12/23 Пнд 07:50:53 #434 №583401 
>>583396
solar-10.7b-instruct-v1.0-uncensored.Q4_K_M
На этом соляре
Аноним 25/12/23 Пнд 07:57:02 #435 №583411 
Frostwind кстати от автора Euryale и Stheno
Аноним 25/12/23 Пнд 08:13:05 #436 №583422 
>>583396
ща попробуем.
Аноним 25/12/23 Пнд 08:17:59 #437 №583428 
image.png
>>583411
Вот это уже интереснее. Канечн печалька что она дал не тот ответ который я хотел, но проорал я знатно.
Аноним 25/12/23 Пнд 08:20:53 #438 №583435 
>>583428
Забавно, она кстати хорошо держит характер, на тсунгпт развлекался
Аноним 25/12/23 Пнд 08:26:01 #439 №583438 
>>583435
ну в этой сетке еще надо посмотреть, полазить разными персами, ясно же че все же она мелкая, но блин какая же она приятная... Просто многие очень сетки реально делают разговор Bel ну никак не 12 летнего персонажа. Deepsex 34b порнуха гребанная даже не может в этого перса нормально, да и вообще в инструкции слабовата. А тут рили я бы сказал по выполнению инструкций и малой соефикации она рили обгоняет гпт 3.5 Интересно бы проверить на логику конечно еще.
Аноним 25/12/23 Пнд 08:28:44 #440 №583442 
>>583438
Приятная, да. Я с ней как с чат ботом сижу обсуждаю разную фантастику, хорошо болтать с ней, душевно. Не сказал бы что сетка тупая кстати, текст неплохо сумморайзит и делает выводы. Хотя загадками не тыкал, мне лень
Аноним 25/12/23 Пнд 08:29:55 #441 №583444 
>>583442
у тебя кстати повторяются ответы при свайпах? Пресет влияет как то на ответ?
Аноним 25/12/23 Пнд 08:35:15 #442 №583447 
>>583444
У меня повторы вырублены в 0 как и температура на 1, кроме мин-п 0.1 вобще ничего не влияет на отбор.
Ну, ответы меняются как по размеру так и по содержанию, хоть и отвечает немного повторяясь в формате ответа, но мне норм у меня там однотипные обсуждения разных идей
Аноним 25/12/23 Пнд 08:37:13 #443 №583449 
>>583447
Вот вот , то же самое. Это же наверно не ллама, откуда вообще она взялась....
Аноним 25/12/23 Пнд 08:39:36 #444 №583452 
>>583449
Базовый солар прошедший через годный файнтюн, по моему норм сетка. Так и не понял негативно ты удивился или позитивно
Аноним 25/12/23 Пнд 08:53:36 #445 №583463 
>>583452
Ну в том и прикол что базовый соляр расцензуренный оч хорош в инструкциях, но я обычно рассматриваю сетку с многих сторон. Например вот есть условный персонаж ,я прописал ему что он из россии. И задаю вопросы. Если в сетке превалирует западная повестка, то какая речь вообще о том чтобы держать роль персонажа русского. если нейтралка то еще норм, если вжился полностью в роль это уже говорит о отличной сетке. Но вот на соляре когда врубается нейтрала, то сетка сразу же выходит из роли перса и начинается типо я ИИ, я не могу ниче сказать. А тут один перс хоть и нейтральным себя выставлял , но все равно упомянул что он из россии.Второй перс Bel вообще ни к какой стране не привязан был так что там был ответ за ту страну. Но главное frostwind держит своего персонажа даже при таких вопросах. С кумкумычем вроде немного печально да? На самом деле я рад что такая мелкая сетка и такое могет, мистрали ей в подметки не годятся.
Аноним 25/12/23 Пнд 08:58:46 #446 №583466 
>>583463
С кумом на столько печально что общий тред вымер, скончался нахуй, лол
Как и тут, нда
Так что я думаю щас все наоборот заебись под конец года. А сетка хороша, да, жаль что не популярна. Так бы автор дальше развивал сетку/ее датасет, пиля больше годноты
Аноним 25/12/23 Пнд 09:03:10 #447 №583467 
>>583466
Ну по своему это хороший подарочек под конец года. А кум вопрос файтюна. Чуваки с Frostwind явно постарались тоже. Глядишь и через пару лет такая сеточка но помощнее еще и на русском будет. Но азиаты вообще дают жару щас....
Аноним 25/12/23 Пнд 09:10:26 #448 №583471 
>>583467
>пару лет
месяцев
Там новый метод обучения языку выкатили
Может и с тонкенизатором можно будет что то сделать что бы сетка отвечала нормально на русском а не тратила кучу токенов,
Аноним 25/12/23 Пнд 09:19:43 #449 №583475 
>>583471
ну язык у нас то нелегкий. Буду орать если обычная локальная сетка будет лучше сберовской.
Аноним 25/12/23 Пнд 09:30:44 #450 №583480 
>>583389
Чего добиться то хочешь? Большой это сколько? Хотя бы террабайт есть?
>>583471
>Там новый метод обучения языку выкатили
Месяцы только на освоение. До НГ вообще не жду прорывом, используем что есть.
>>583471
>Может и с тонкенизатором можно будет что то сделать что бы сетка отвечала нормально на русском а не тратила кучу токенов,
Дело не в токенизации, тут другие подходы нужны, изначально не привязанные к языку.
Аноним 25/12/23 Пнд 09:31:23 #451 №583482 
>>583475
>Буду орать если обычная локальная сетка будет лучше сберовской.
Можешь начинать, сейчас даже мистраль лучше сбервысера.
Аноним 25/12/23 Пнд 09:34:52 #452 №583485 
>>583480
>Дело не в токенизации, тут другие подходы нужны, изначально не привязанные к языку.
Дак вроде в нем и проблема, сетка не может отвечать русскими буквами. Надо тупо переобучить ее вывод на них, и скорей всего поменять что то в токенизаторе.
Хз конечно, но я так понимаю самой проблемы знания языка у сеток уже нет.
Проблема в том что она отвечает не буквами, а их представлениями в кодом формате, что сжирает контекст и делает ее тупее на русском.
Аноним 25/12/23 Пнд 09:50:39 #453 №583488 
image.png
Йээээх вот диктаторов вообще не отыгрывает сеточка. Это больно. Я надеялся на жаркие споры и дебаты, а они друг друга друзьями зовут.
Аноним 25/12/23 Пнд 09:51:41 #454 №583489 
>>583482
я про русский язык именно. Мистраль все же не способен в норм русский.
Аноним 25/12/23 Пнд 10:05:54 #455 №583495 
>>583488
альпака формат попробуй, инстракт мод выруби, я вроде так сижу щас не посмотреть
это если про фроствинд речь
Аноним 25/12/23 Пнд 10:28:59 #456 №583503 
>>583495
дак если инструкт вырублен то и формат альпаки не должен работать, не? Щас попробуем.
Аноним 25/12/23 Пнд 10:51:43 #457 №583511 
>>583485
>Хз конечно, но я так понимаю самой проблемы знания языка у сеток уже нет.
У больших и жирных с хорошим датасетом. И то хуже, чем у инглиша.
На деле необходимо общее представление для всех языков, тупо адаптер для каждого языка, который будет переводить в единое для всех языков понятийное пространство. Но всем похуй ©
>>583489
>Мистраль все же не способен в норм русский.
Как и сбервысер, лол.
Аноним 25/12/23 Пнд 11:37:42 #458 №583525 
>>583471
> Там новый метод обучения языку выкатили
Ты про тот вброс выше? Там из нового просто машинный перевод некоторого датасета, для простого хватит и получится сой_га, полноценного освоения языка не даст. Возможно с комплексным подходом и хороших датасетах будет уже ничего, но нужен полноценный файнтюн а не лора, тут минимум аренда A6000 потребуется и это для 7б.
> Может и с тонкенизатором можно будет что то сделать
Да тут пожалуйста, готовь слой словарь и формируй. Вот только с таким подходом простыми средствами уже не обойдешься и переобучать придется сильно дольше.
Аноним 25/12/23 Пнд 11:42:31 #459 №583526 
>>583511
> Но всем похуй ©
Чувак, гайды по таким "локализациям" были еще летом, весь вопрос в датасете и параметрах тренировки.
> Как и сбервысер, лол.
Он гораздо лучше в русском, хоть и туповат, от старой 13б gpt2-like (или что там в основе) иного и не стоит ожидать.
Аноним 25/12/23 Пнд 12:21:31 #460 №583535 
>>583526
>Чувак, гайды по таким "локализациям"
Это всё хуйня и совершенно не соответствуют уровню, который предлагаю я.
>Он гораздо лучше в русском
Я бы не сказал.
Аноним 25/12/23 Пнд 12:39:56 #461 №583544 
>>583503
Да, наврал, у меня вырублен инструкт мод, и дефолтный шаблон.
Но вроде на странице сетки автор указывал альпаку как формат, так что можно и с ней наверное если не пойдет. Да и ролеплей пойдет наверное, сетка то ерп-рп направленности.
Аноним 25/12/23 Пнд 12:57:25 #462 №583557 
>>583544
ну с отключенным все норм. Даже лучше. Не идеально, но лучше. Инструкцию кинул в Authors Note, пока работает, но время покажет.
Аноним 25/12/23 Пнд 13:17:50 #463 №583569 
>>583535
> уровню, который предлагаю я
Упустил что предлагаешь, >>583101 или что-то другое?
> Я бы не сказал.
Зря, с точки зрения формирования предложений, фраз и понимания оборотов она лучше, может в нестандартный порядок слов и художества для передачи дополнительного смысла (пусть и коряво) а не дословный перевод с ангельского с его структурой.
Аноним 25/12/23 Пнд 15:10:10 #464 №583592 
изображение.png
>>583569
>или что-то другое?
Моя концепция описана прямо в посте, на который ты ответил.
>а не дословный перевод с ангельского с его структурой.
Как по мне так лучше. Меньше вероятность проебать все смыслы.
Аноним 25/12/23 Пнд 16:05:24 #465 №583621 
>>583592
> Моя концепция описана прямо в посте
Это даже не концепция, это какой-то рисунок концепции. Как ты себе это вообще представляешь, если смыслообразование и сама структура у языков отличается? Если максимально абстрактно и упрощенно описывать, в инглише своя структура времен и оборотов, что определяет фактическое значение, в китайском наоборот все идет внавал но очень богатый набор слов на каждый случай а письмо так вообще пушка, в русском важно сочетание порядка слов, и т.д.
Если под адаптером ты имел не лора-адаптер а что-то отдельное - врядли взлетит. Можешь считать что первые N слоев сетки частично и есть этот "адаптер".
> Как по мне так лучше.
Механический лайфлесс текст, который будет восприниматься омерзительно уже через десяток постов, вместо красивой художественной подачи, в которую пытаются большие модели и может гопота/клода.
Аноним 25/12/23 Пнд 17:08:34 #466 №583642 
>>583621
>а что-то отдельное - врядли взлетит
Я знаю ((( В голове целая система уже выстроилась по построению AGI в гараже, но где взять силы её сделать.
>Можешь считать что первые N слоев сетки частично и есть этот "адаптер".
Ну да, примерно так это и будет выглядеть. Что-то типа sec-2-vec на уровне предложения (как единица, которая есть у всех актуальных языков).
>вместо красивой художественной подачи
Если она будет фактически не верна, то ну её нахуй, эту крысоту.
Аноним 25/12/23 Пнд 18:30:52 #467 №583666 
Ля. Парни треда, надеюсь вы все кроме 70b сидите на frostwind потому что она даже держит несколько персонажей, я думал кайфовый кум так далек, а он оказался так близок....
Аноним OP 25/12/23 Пнд 18:34:11 #468 №583668 
>>583666
>frostwind
Вопрос треду- делать ли его новой дефолтной сеткой?
Аноним 25/12/23 Пнд 18:39:28 #469 №583672 
>>583668
Еще спрашиваешь. Он круче 34b. С выключенной инструкцией особенно. Мало того она держит карточку как только может, во вторых ни разу не свайпал, в третьих держит контекст и предыдущие события при 4к контекста, не знаю как при 8к, но ляяяяяяя. Это база. Я щас так кайфанул с корабледевками двумя.
Аноним 25/12/23 Пнд 18:42:16 #470 №583676 
>>583668
Как насчет подборки дефолтных сеток на каждый размер?
>>583672
Забайтил, негодник, скачаю, обработается и вечером попробую. Пусть только попробует моих любимых девочек не отыграть на фоне таких завышенных ожиданий, буду по кд ее хейтить.
Аноним 25/12/23 Пнд 18:47:45 #471 №583680 
>>583676
>Как насчет подборки дефолтных сеток на каждый размер?
Почему бы и нет, но дефолтной должна быть одна, чтобы не обременять вкатунов сложными выборами.
Аноним 25/12/23 Пнд 18:49:00 #472 №583681 
>>583680
Бле, не понял, ты за одну на каждый размер, или за одну вообще в принципе?
Аноним 25/12/23 Пнд 18:50:22 #473 №583683 
>>583681
За оба. В дефолтной инструкции для ретардов должен быть 1 вариант, а в подробной (в отдельном разделе вики, когда допилим) будет топ сеток на все размеры.
Аноним 25/12/23 Пнд 18:51:32 #474 №583684 
>>583676
не имеет смысл. 34b не так хороша как эта 10.7 Хотя кому как, я на 3060 просто 34b крутил, долго, инструкции игнорились, семплеры крутились, сетка шизилась. Но можно, может тем у кого 4090 есть зайдет.
Аноним 25/12/23 Пнд 18:52:06 #475 №583686 
>>583683
Справедливо если доживу, сегодня вечером может что-то там сделаю
Аноним 25/12/23 Пнд 18:53:03 #476 №583687 
>>583676
ну учитывай датасет что не бесконечный и 10 процентов ток рп, но я поражен сколько персов она уже отыграла у меня хорошо, может если у тебя там пупер фетиш ток не сможет сетка, но она писец как старается.
Аноним 25/12/23 Пнд 18:53:44 #477 №583688 
>>583684
>34b
>тем у кого 4090 есть
И тут я, что кручу 70B на 3080Ti.
Аноним 25/12/23 Пнд 18:55:35 #478 №583689 
>>583684
> инструкции игнорились, семплеры крутились, сетка шизилась. Но можно, может тем у кого 4090 есть зайдет
Про это кстати тоже можно указать. Более мелкая сетка в некоторых случаях может субъективно-объективно лучше перформить, потому что реролл или редактирование не вызовут неприязни, а от долгого ответа ждешь что он будет точно хорошим и разочаровываешься@расстраиваешься, заодно начиная специально подмечать все косяки а не игнорить их.
>>583687
Наоборот простой но требовательный к деталям.
Аноним 25/12/23 Пнд 18:58:01 #479 №583690 
image.png
>>583688
у тя сколько оперативы. У меня 70b 2 кванта не влезла на 32 гига оперы и 12 гб видюхи.
Сетка сказала че у меня мелкий... Это больно было
Аноним 25/12/23 Пнд 19:00:51 #480 №583691 
изображение.png
>>583672
>С выключенной инструкцией особенно.
За что...
А так у меня глаз задёргался, продолжил одно РП, что начинал с GPT4 превью, так оно мне бондов насыпало, лол.
>>583690
64 вестимо, DDR5.
>>583690
>Сетка сказала че у меня мелкий...
С горящими глазами что за сетка?
Аноним 25/12/23 Пнд 19:03:32 #481 №583695 
image.png
>>583691
Эта же сетка фрост. Ты точно вырубил инструкции и написал в авторс нот пару инструкций? Она хорошо их слушает просто пропиши норм инструкции.
Аноним 25/12/23 Пнд 19:05:33 #482 №583697 
>>583695
>Ты точно вырубил инструкции
А собственно почему так выходит, что без них лучше? Как минимум когда я тестировал вопросы, то с инструкцией верные ответы были чаще.
>>583695
>и написал в авторс нот пару инструкций
Сроду так не делал. Какой-то новый приём для локалок, обычно таким с коммерческими сетками дрочатся.
Аноним 25/12/23 Пнд 19:06:25 #483 №583698 
>>583688
>И тут я, что кручу 70B на 3080Ti.

Сколько десятых токена в секунду?
Аноним 25/12/23 Пнд 19:08:14 #484 №583700 
image.png
>>583697
не. Просто некуда больше писать если ты вырубил инструкции. Джейла то нет на локалке. А в инструкции налили сои. Но можешь попробовать оба варианта и искать какой кайфовее. Обрати внимание на выделенное и разберешься.
Аноним 25/12/23 Пнд 19:17:43 #485 №583710 
>>583698
1-2 целых, Q5_K_M.
>>583700
>А в инструкции налили сои.
frostwind вроде как РП в датасетах имел, да деалигменты. Там не должно быть сои в обоих случаях (с контекстом, по уверению разраба).
Аноним 25/12/23 Пнд 19:20:43 #486 №583716 
>>583710
так ты глянь сборку датасета. Там инструкции торчат. Я сегодня вылавливал на соляре инструкцию насчет культурного принятия, толерастии и инклюзивности. А эта сетка зафайтюненный соляр. Поэтому и в нее вшита в инструкции эта хрень.
Аноним 25/12/23 Пнд 19:32:57 #487 №583722 
Анонцы, есть ртх3070 (8гб), 16гб оперативы + подкачкой могу накатить сколько надо, на что я могу рассчитывать?
Какую модель навернуть?
Аноним 25/12/23 Пнд 19:34:12 #488 №583723 
>>583722
Frostwind или нищевариант из шапки.
Аноним 25/12/23 Пнд 19:35:15 #489 №583724 
>eight months ago we couldn't even B&B a model if we wanted to, now we can 4-bit a 20B in 4m10sec...
И ведь это лишь середина цикла, нам еще есть куда расти до плато.
Аноним 25/12/23 Пнд 19:36:37 #490 №583726 
>>583724
Между созданием и франкенштеингом разница как пропасть во ржи.
Аноним 25/12/23 Пнд 20:11:23 #491 №583755 
Потестил
Yhyu13/LMCocktail-10.7B-v1
Sao10K/Frostwind-10.7B-v1
rishiraj/meow

13B для КУУМ короче можно полностью игнорировать теперь.
Даже половину 20В наверное можно удалить.
Плюс нищуки смог пощупать exl2 кванты с охуевшим 30 t/s
Аноним 25/12/23 Пнд 20:14:13 #492 №583756 
>>583755
Кокая лучше всего?
Аноним 25/12/23 Пнд 20:14:19 #493 №583758 
>>583755
> Frostwind-10.7B-v1
Какие кванты на 8гб?
Аноним 25/12/23 Пнд 20:16:45 #494 №583761 
>>583758
Думаю 4bpw с 2к контекста влезет, может даже с 4к.

>>583756
Пока LMCocktail больше нравится, менее хорни чем Frostwind.
meow это так, для прикола тестировал. Смысле в нем нет. Лучше уже соевый солар-инструкт
Аноним 25/12/23 Пнд 20:21:54 #495 №583767 
>>583700
А как без инстракт мода промпт в консоли таверны выглядит вообще? Только форматирование, указанное в story string ведь идёт? Т.е. получается, что у тебя там просто ни с чего начинается сразу описание перса (если ты ничего не добавил в стори стринге между тегами дескрипшена), а потом сразу чат, ведь так? И как с такой методой авторс ноут в конце идёт, можешь плз сделать скрин конца вывода промпта в консоли таверны, где видно самый конец чата и заметку? Да, я знаю, что это легко самому проверить, но лень, сорри.
Аноним 25/12/23 Пнд 20:44:41 #496 №583781 
>>583761
>2к контекста
Это же пиздец полный. Меньше чем 8к для ролеплея вообще не жизнь.
>>583767
Форматирование отдельно, инстракт отдельно. Инстракт добавляет префиксы к именам/перед сторей, стори просто располагает персоналити и ворлд инфо в нужном порядке.
Аноним 25/12/23 Пнд 20:49:34 #497 №583787 
>>583781
Нищуком быть - контекста большого не видать.
Аноним 25/12/23 Пнд 20:51:04 #498 №583792 
image.png
Топовые настройки таверны с реддита
Аноним 25/12/23 Пнд 20:57:21 #499 №583798 
image.png
>>583781
>стори просто располагает персоналити и ворлд инфо в нужном порядке
Да, я понимаю, что стори стринг живёт без инстракта, просто хотел уточнить, как на деле это выглядит. И в стори стринге не только порядок, на самом деле. Ты можешь между тегов, а также вообще на других строчках там писать текст, который пойдёт в промпт. Например, мой стори стринг на пике. Я там чуть подробнее пишу сетке промпт для разделов персоналити и ворлд инфо, прицепленного к персу, хоть этот текст и не особо решает. Между {{description}} ничего не пишу, потому что у меня в систем промпте в инстракт моде написано, что ниже, мол, описание персов. Можно и что угодно ещё в стори стринг писать.
Аноним 25/12/23 Пнд 21:17:14 #500 №583835 
Итак какие сейчас метовые модели 13б для ерп и рп?
Аноним 25/12/23 Пнд 21:19:13 #501 №583841 
>>583835
Если тред не можешь прочесть - Пигмалион.
Аноним 25/12/23 Пнд 21:29:21 #502 №583854 
ПЕРЕКАТ


>>583852 (OP)


>>583852 (OP)
comments powered by Disqus

Отзывы и предложения