24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №58 /llama/

 Аноним 06/05/24 Пнд 17:51:55 #1 №728812 
Llama 1.png
Альфа от контекста.png
Деградация от квантования новая.png
Самый ебанутый охлад P40-9.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>724301 (OP)
>>721275 (OP)
Аноним 06/05/24 Пнд 17:57:49 #2 №728819 
>>728812 (OP)
А что аноны скажут про LM Studio?
Аноним 06/05/24 Пнд 18:04:22 #3 №728829 
изображение.png
>>728819
Думаю не сильно отличающееся мнение, а что?
Аноним 06/05/24 Пнд 19:30:54 #4 №728950 
>>728819
Просто для хлебушков, та же ллама.спп под капотом что и в кобальте и в оллама
Оллама пидоры что не упоминают об этом, хотя лм студио не особо лучше в этом плане, но удобней
Аноним 06/05/24 Пнд 19:39:26 #5 №728969 
>>728819
Я ее использую как быструю поисковую систему для поиска моделей.
Аноним 06/05/24 Пнд 19:39:36 #6 №728972 
>>728819
Готовый юи для хлебушков и ленивых. В защиту можно сказать что у них был "уникальный" формат awq и бэк под него, но он потерял актуальность раньше чем стал популярным. По фукнционалу уступает привычным решениям, разве что ебет олламу.
Аноним 06/05/24 Пнд 20:03:28 #7 №729035 
>пердолиться это хорошо ряяяяя
>Я люблю тратить время на еблю с софтом
Какие же никсоиды латентные а может и реальные, хоспаде
Аноним 06/05/24 Пнд 20:19:51 #8 №729070 
>>729035
>никсоиды
Линуксоиды
[медленнофикс/i]
Аноним 06/05/24 Пнд 20:20:42 #9 №729072 
>>729070
Да иди ты нахуй разметка
Аноним 06/05/24 Пнд 20:37:08 #10 №729100 
Вкиньте в тред пожалуйста промптов для Лламы3 на анцензор.
Аноним 06/05/24 Пнд 20:53:35 #11 №729136 
>>729100
Сформулируй свою цель как-то. Какая ллама у тебя, что тебе конкретно от нее надо и так далее.
Аноним 06/05/24 Пнд 21:11:05 #12 №729165 
>>728819
>А что аноны скажут про LM Studio?
такое же громкое название как оллама. А на деле голый ггуф и больше нихуя. То есть если жора запоганил токенайзер так и будут жрать гавно и только. А вот то ли дело убабуга - тут тебе любой квант любой инференс, хошь трансформер в любом бите и байте, через битсэндбайтс, хошь тот же ггуф, а хочешь gptq? awq? exl2 и все это в одном программном комбайне. не говоря о куче расширений. Губабуга - человек-гора, буга- человек параход и небоскреб. Вот так то. А еще есть кобольдцпп - идеал портативности, простоты и универсальности в экосистеме ггуф.
Аноним 06/05/24 Пнд 21:18:12 #13 №729183 
>>729165
не ну лм студио хотя бы удобно, а вот оллама говно говна
Аноним 06/05/24 Пнд 21:36:11 #14 №729233 
https://www.reddit.com/r/LocalLLaMA/comments/1clmo7u/phi3_weights_orthogonalized_to_inhibit_refusal/
Мммм расцензуренная новым способом phi3, ниплоха
Хотя она все равно мелковата для ерп или чего то что стоит отказов, ну хоть мозги не будет ебать
Аноним 06/05/24 Пнд 22:06:52 #15 №729313 
изображение.png
Бля, последний кобольд теперь со свежими квантами не работает.
https://huggingface.co/dranger003/c4ai-command-r-v01-iMat.GGUF/tree/main
Аноним 06/05/24 Пнд 22:19:45 #16 №729348 
>>729313
лень меня спасла
Аноним 06/05/24 Пнд 22:41:31 #17 №729405 
>>729348
Назови версию кобольда.
Аноним 06/05/24 Пнд 22:56:06 #18 №729457 
>>729405
так 1.64
я видел обнову но стало лень перекачивать
хотя будет ли у тебя работать на предыдущей версии хз, я командера не проверял
Аноним 06/05/24 Пнд 23:01:35 #19 №729476 
>>729405
>>729457
На 1.63 работает этот квант >>729313, на 1.64 и 1.64.1 нет. Хотя хуй знает, есть ли вообще смысл в обновлении квантов коммандера, это же не лама3.
Аноним 06/05/24 Пнд 23:10:17 #20 №729509 
Джейлбрейк к ллама 3 70б, вроде как.

https://huggingface.co/llmixer/Meta-Llama-3-Instruct-Orthogonalized
Аноним 06/05/24 Пнд 23:17:25 #21 №729523 
>>729476
там тоже токенизатор был сломан и был фикс
Аноним 06/05/24 Пнд 23:21:35 #22 №729532 
image.png
>>729476
последняя ллама тоже ругается, так что надо будет перекачать когда выйдут рабочие кванты
хотя может по той ссылке с последними релизами ллама.спп запустится
Аноним 06/05/24 Пнд 23:42:32 #23 №729559 
бля еще одна мега сетка
https://www.reddit.com/r/LocalLLaMA/comments/1clkld3/deepseekv2_a_strong_economical_and_efficient/
Аноним 06/05/24 Пнд 23:45:10 #24 №729561 
>>729313
Вулкан выбери в настройках
Аноним 06/05/24 Пнд 23:46:34 #25 №729564 
>>729559
> 236B
> хуже ламы 70В
Нахуй.
Аноним 06/05/24 Пнд 23:50:51 #26 №729568 
>>729561
Такая же ошибка.
Аноним 06/05/24 Пнд 23:55:10 #27 №729577 
>>729559
Что за новый тренд такой пошел? Штампуют мое слишком жирные чтобы их можно было запускать без ебать какого железа, но слишком мелкие для того чтобы быть достаточно умными чтобы на это железо целесообразно было бы потратиться.
Аноним 07/05/24 Втр 00:00:32 #28 №729586 
БЛЯТЬ
https://www.reddit.com/r/LocalLLaMA/comments/1cltac3/part3_cause_to_issue_found_possible_bug_llama3/
Аноним 07/05/24 Втр 00:03:47 #29 №729593 
>>729577
Сегодня мы представляем DeepSeek-V2, сильную языковую модель смеси экспертов (MoE), характеризующуюся экономичной подготовкой и эффективным выводом. Он содержит 236B общих параметров, из которых 21B активируются для каждого токена. По сравнению с DeepSeek 67B, DeepSeek-V2 достигает более высокой производительности, а тем временем экономит 42,5% затрат на обучение, уменьшает кэш KV на 93,3% и увеличивает максимальную пропускную способность генерации до 5,76 раз. "

Короче максимизируют ммлу к экономии обучения сетки. Видимо одну жирную тренировать медленнее и дороже, чем мое.
Аноним 07/05/24 Втр 00:04:39 #30 №729595 
-bYEKDGFYrM.jpg
>>729586
Аноним 07/05/24 Втр 00:05:18 #31 №729597 
>>729593
и MoEпараша не катит на мелко-видюхах, они убивают двух зайцев одним выстрелом.
Аноним 07/05/24 Втр 00:10:33 #32 №729607 
>>729586
штош, проблема найдена и будет исправлена
о том сколько их еще не найдено лучше не думать
Аноним 07/05/24 Втр 00:14:55 #33 №729610 
500x500.jpg
>>729586
Аноним 07/05/24 Втр 00:16:35 #34 №729612 
>>729586
>The output is incorrect due to incorrect tokenization. Even worse for all fine tunes where it is much more noticable. And this is not for GGUF only, but for all formats using similar regex. I found AWQ on ooba also had issues etc.
какой же там пиздец
Аноним 07/05/24 Втр 00:34:50 #35 №729643 
>>729559
Кстати говоря, а квен 32 ебет комманд р 35, у нее хороший такой ммлу показатель, 74 что ли
Недооцененная сетка все таки
Какого хуя, квен есть базовые сетки но нету файнтюнов? Дрочат всякую хуету
Аноним 07/05/24 Втр 00:43:04 #36 №729651 
>>729643
Ты про кодинг или рп?
Аноним 07/05/24 Втр 00:45:14 #37 №729653 
>>729593
Раз пишут значит наверно оно так, но зато сильно всратое соотношение требований к перфомансу и заведомо низкий коэффициент использования мощностей. И общий перфоманс наверняка переоценен бенчмарками, если там 10.5б активных то все печально.
>>729643
> а квен 32
Показалась на уровне yi, а она оче странная. Коммандиру уступит значительно, может только в каких-то узких задачах.
Аноним 07/05/24 Втр 00:45:17 #38 №729654 
Нихуя не происходит. Дайте поставиться свежей дозой прорывных ИИ новостей, у меня ломка. Попенсорс не радует, пусть хоть closedai высрут уже свой жпт2, чем бы это ни было
Аноним 07/05/24 Втр 00:46:55 #39 №729656 
>>729654
говорят что phi medium (14B) должен выебать лламу3, но это модель от мелкомягких, так что будет убер-соя.
Аноним 07/05/24 Втр 00:55:45 #40 №729658 
>>729656
Раз уж 4b показывает чудеса мозговитости на уровне мистраля, то 14b должна ебать все сетки до 30b определенно
Но соевость там зачетная, синтетический соевый датасет созданный соевыми сетками, двойная фильтрация хули
Аноним 07/05/24 Втр 01:00:29 #41 №729660 
>>729656
Я не понимаю почему до сих пор нет нормального, человеческого инструмента для запуска моделей локально. Все что есть - какая-то багованная жуть или же требует экстримальной ебли. Вон даже модель идеальную для этого дела завезли, а как запускать не завезли
Аноним 07/05/24 Втр 01:03:40 #42 №729662 
>>729660
Смысле нету? Запускай оригинальнеые трансформерс, там никаких косяков нет. А если тебе врам не хватает то это проблемы бедных, просто купи парочку h100
Аноним 07/05/24 Втр 01:05:17 #43 №729664 
>>729662
Блин, я не дописал. *Мобильных моделей локально. На пека то все есть
Аноним 07/05/24 Втр 01:08:27 #44 №729666 
>>729664
Точнее *моделей на мобильном телефоне, даже. Они то не обязательно для этого преднозначенны, но Phi-3 просто пушечка в своем размере и идеально подходит на роль лучшей мобильной модели
Аноним 07/05/24 Втр 01:11:43 #45 №729668 
>>729666
Новые мобильники особенно флагманы будут с ии и возможностью комфортного запуска по параметрам
А вообще есть проект maid на гитхабе, запуск для андройда
Аноним 07/05/24 Втр 01:21:24 #46 №729673 
>>729651
Ммлу про количество знаний и понимание вещей, чем выше показатель тем больше сетка знает
Комманд р 35 довольно глуповат в этом плане

Кстати так становится понятно почему широкие мое хороши и эфффективны для этого - они просто оптимальны для сохранения информации из датасета
Тоесть чем шире сетка тем легче в нее вбить информацию
Аноним 07/05/24 Втр 01:23:54 #47 №729675 
>>729653
>Показалась на уровне yi, а она оче странная
Мне кажется там еще проблема в запуске, с квен какие то проблемы с куда, тоесть сетка криво на ггуф исполняется
Не популярна вот и не ищут на сколько верно крутится
Аноним 07/05/24 Втр 01:28:01 #48 №729677 
>>729668
Он кривой какой-то еще, может позже получше допилят конечно. Алсо, раз уж о нем речь, а Phi. там есть вообще возможность нормально запускать? Со стандарными темплейтами он ассистансами срет в основной поток
Аноним 07/05/24 Втр 01:32:04 #49 №729680 
>>729673
>Комманд р 35 довольно глуповат в этом плане
Такое ощущение, что он в принципе глуповат.
Аноним 07/05/24 Втр 01:34:29 #50 №729683 
>>729677
Я в прошлом или позапрошлом треде кидал скрин промпт формата, он легкий у него. К счастью срать спец токенами они не стали. С другой стороны нет системного сообщения
Аноним 07/05/24 Втр 01:34:49 #51 №729684 
>>729673
> они просто оптимальны для сохранения информации из датасета
Нихуя, в чистые 236б можно было бы куда больше насовать, и 70б сливает.
> Комманд р 35 довольно глуповат в этом плане
Хз насчет общих знаний чего-то, но в понимании контекста и инструкций поставил бы на него.
>>729675
> ггуф
Ожиданием первых токенов при обработке контекста сравнимым с полной генерацией еще на мику наелся. Только бывшая2, офк не факт что с ней тоже все нормально было.
Аноним 07/05/24 Втр 01:38:20 #52 №729687 
>>729684
>Нихуя, в чистые 236б можно было бы куда больше насовать, и 70б сливает.
Оптимальны с точки зрения экономии к результату ммлу, они ведь все про сокращение затрат пишут. Явно видно на что ориентируются. Так что да, в широкую сетку проще напихать знаний с которыми она потом будет работать.
Аноним 07/05/24 Втр 01:43:45 #53 №729691 
>>729687
> Оправдывают потраченные гранты заявлениями про оптимальность
Починил тебя.
> Так что да, в широкую сетку проще напихать знаний с которыми она потом будет работать.
Ну да, тренишь мелкую базу на основе чего-то, потом множишь и делаешь каждой мелкий специилизированный файнтюн на бенчмарки с частичной заморозкой, и уже дотрениваешь мое. П-простота, и скоры высокие.
Аноним 07/05/24 Втр 01:52:40 #54 №729697 
>>729691
Да вобщем то все правильно делают, самые лучшие сетки в данный момент - мое, это значит что количество интегрированной информации в них более оптимально чем в одном варианте весов
Другое дело что у них слишком плосская сетка выходит, будто они тренили мегаширокую 10b сетку. Мозгов там будет не так много.
Но если потом добавить слоев и дотренить, вся эта информация с низу будет полезна для абстрактных пониманий вещей. Крепкое такое основание пирамиды уде готово, но вершины у нее нету.
Аноним 07/05/24 Втр 01:58:32 #55 №729699 
Junyang Lin
@JustinLin610
Now, try Qwen1.5-110B-Chat and a new model Qwen-Max-0428 in chat arena! 🥸
Аноним 07/05/24 Втр 02:05:38 #56 №729703 
>>729699
А бенчмарки есть?
Аноним 07/05/24 Втр 02:12:33 #57 №729707 
>>729684
>Ожиданием первых токенов при обработке контекста сравнимым с полной генерацией еще на мику наелся. Только бывшая2, офк не факт что с ней тоже все нормально было.
А ты какой формат используешь? А то меня тоже заебало, что обработка дольше генерации.
Аноним 07/05/24 Втр 02:20:38 #58 №729714 
https://huggingface.co/Undi95/Unholy-8B-DPO-OAS-GGUF
унди занимается чем то полезным, расцензуривает лламу по новому методу, и пишут что вроде работает
Аноним 07/05/24 Втр 02:27:11 #59 №729722 
>>729714
>унди
не нихуя
вот эта точно работает :
https://huggingface.co/wassname/meta-llama-3-8b-instruct-helpfull
Аноним 07/05/24 Втр 02:33:37 #60 №729729 
>>729722
Так это же такой себе расцензур. Она будет делать, но так же будет мозги ебать, разве нет?
И что насчет такого расцензура? https://huggingface.co/bartowski/Lexi-Llama-3-8B-Uncensored-GGUF
Аноним 07/05/24 Втр 02:46:06 #61 №729731 
>>729586
так оно уже давно исправлено, смотри код llamacpp. в чем смысл этого поста на реддите?
Аноним 07/05/24 Втр 02:55:49 #62 №729735 
firefoxka1ueHvASY.png
>>729586
ты удивлён?
тут по одной пикрилу понятно почему llama.cpp такой поломаный, чел отвечающий за cuda часть высирает про виндо-юзеров, там кста весь /g/ такой, вместо того чтобы фиксить что-то они тупо ведут платформо-срачи 24/7 в тредах и пулл реквестах.
Аноним 07/05/24 Втр 02:55:53 #63 №729736 
В этом тексте одно слово является лишним, гадай что это за слово: Он нагнулся и, как учила его сестра, губами попробовал, есть ли жар у ребенка. Нежный лоб был влажен, он дотронулся рукой до головы — даже волосы были мокры: так сильно вспотел ребенок. Не только он не умер, но теперь очевидно было, что кризис совершился и что он выздоровел. Князю Андрею хотелось схватить, смять, прижать к своей груди это маленькое, беспомощное существо; он не смел этого сделать. Он стоял над ним, оглядывая его голову, ручки, ножки, определявшиеся под одеялом. Шорох послышался подле него, и какая-то тень креветка показалась ему под пологом кроватки. Он не оглядывался и, глядя в лицо ребенка, все слушал его ровное дыхание. Темная тень была княжна Марья, которая неслышными шагами подошла к кроватке, подняла полог и опустила его за собою.

Вот так тестирую понимание русского текста.
Аноним 07/05/24 Втр 04:25:29 #64 №729746 
А какой промпт нужно использовать, чтобы заставить нейросеть думать пошагово? Пример для рп, персонажу надо открыть дверь и я хочу, чтобы нейросеть не просто написала, что он открыл дверь, а написала, что персонаж залез в сумку, нашёл там ключ, вставил его в замок и после щелчка дверь открылась. Какой промпт для этого нужен?
Аноним 07/05/24 Втр 04:29:40 #65 №729748 
>>729697
> самые лучшие сетки в данный момент - мое
Очень спорно. В вариантах для корпоратов самые жирные - да, это единственный путь добиться дальнейшего повышения перфоманса без серьезного замедления. Может быть и для турбо-версий подойдет при наличии парка старого оборудования. И то не для всех случаев ибо будет много простоя оборудования.
> это значит что количество интегрированной информации в них более оптимально
Откуда вы это вообще взяли? Наоборот с ростом размера удельная емкость растет, даже банально на пальцах можно понять, осознав что не нужно хранить копии одного и того же с минорными отличиями. Нарежь любую мое на куски и сравни их веса, там 80-90% совпадений, а в некоторых колхозных вообще 99.
> слишком плосская сетка выходит, будто они тренили мегаширокую 10b сетку. Мозгов там будет не так много.
Ага, вот это вообще печально. Офк охватить много зирошотов и надрочить хватит, но не более.
>>729707
exl2
>>729746
Описывай каждое действие по пунктам, например: []
Должно легко подхватит ибо cot-оподобное.
Аноним 07/05/24 Втр 04:31:20 #66 №729750 
>>729748
> например: []
Не понял.
Аноним 07/05/24 Втр 05:53:30 #67 №729757 
>>729668
>Новые мобильники особенно флагманы будут с ии
С облачным подключением к ИИ, без которого не будут работать, локально в чипы вошьют разве что распознавание речи, чтобы траф экономить.
>>729697
>самые лучшие сетки в данный момент - мое
Но не для попенсорса, так как в ресурсах врам мы ограничены.
>>729731
Там же костылей понапихали. Не факт, что они работают правильно.
Аноним 07/05/24 Втр 08:51:44 #68 №729842 
>>729586
Что бывает, когда пердолик не хочет использовать готовые либы. Он пишет всё с нуля. И нихуя нормально не работает. Натурально поехавший же.
Аноним 07/05/24 Втр 08:55:08 #69 №729843 
>>729586
Интересно, зачем для токенизации регулярные выражения? Тензоры перемножать умеют, а тупой посимвольный парсер не могут написать?
Аноним 07/05/24 Втр 09:04:59 #70 №729849 
>>729843
Так это пердоли-питонисты придумали делать некую претокенизацию регулярками. Вся ебля как раз из-за этого говна, раньше всё было норм, а теперь надо как-то точно воспроизвести парсинг токенов как у питонистов. Вот и лезут бесконечные проблемы, потому что никто не знает как это говно со стопроцентной точностью воспроизвести на крестах.
Аноним 07/05/24 Втр 09:06:50 #71 №729852 
>>729849
Знают, но не хотят тащить зависимости.
Аноним 07/05/24 Втр 09:19:23 #72 №729856 
>>729842
В большинстве случаев я с герычем согласен. Нехуй перегружать проекты либами с либами. Но в данном конкретном случае да, простой буст с либой регекспов (и настройка компеляции на подтаскивание только нужных функций) решил бы проблему, не утяжелив проект до уровня убабуги.
Аноним 07/05/24 Втр 09:26:01 #73 №729861 
>>729849
>потому что никто не знает как это говно со стопроцентной точностью воспроизвести на крестах
Нет, это потому что они не хотят подключать никакую из примерно миллиарда имеющихся либ, которые прекрасно умеют в любое поведение, покрыты тестами, и разрабатываются годами. Самобичевание, в общем.
Аноним 07/05/24 Втр 09:33:24 #74 №729864 
>>729861
Сейчас бы дрочить на сторонние либы, которые формально покрыты тестами и всё такое, но на практике в 99% случаев забагованное тормозное говно забагованного тормозного говна.
Аноним 07/05/24 Втр 09:43:21 #75 №729870 
>>729864
но они работают, а кастомный костыль пока что ломается
они набивают шишки на том что уже и так написано сто раз за десятилетия
Аноним 07/05/24 Втр 09:48:41 #76 №729873 
>>729856
>в данном конкретном случае да
Потому что регекспы это вам не здесь. Это не "я тебя ебу" и даже не архивы Чикатилло. Видишь регекспы - не лезь нахуй, оно тебя сожрёт. И главная проблема здесь даже не в том, что они работают неправильно. Это дерьмо всегда будет работать неправильно. Беда в том, что жора не понимал, в какую клоаку он заныривает, когда писал свою реализацию. Это говорит в первую очередь о том, что в коде llama.cpp ещё миллиард ошибок.
Аноним 07/05/24 Втр 10:11:36 #77 №729885 
>>729748
> Нарежь любую мое на куски и сравни их веса, там 80-90% совпадений
У Микстрали 20% совпадений, у Грока че-то в районе 30% совпадений (что его нихуя не спасло).
80-90 — это про какой-то в натуре колхоз, а не нормальные мое.
Но их и сравнивать надо сразу с таким же колхозом от Унди. Типа трипл мистраль-ллама 1 викуня мердж токсик дпо с расширением.
Аноним 07/05/24 Втр 10:12:22 #78 №729886 
>>728544 →
Ты как то в иде интегрировал или работаешь в формате чата?
Аноним 07/05/24 Втр 10:29:04 #79 №729899 
>>729886
Не он, но:
есть Continue для JetBrains и VSCode.
Аноним 07/05/24 Втр 10:31:26 #80 №729900 
>>729899
Я знаю про них, есть contuinue, есть twine, но вдруг что-то крутое есть. Моя мечта - чтобы можно было скормить сетке весь мой проект и либы, а он всё проанализировал и отревьюил всё сразу и все взаимосвязи, а не только посылаемый абзац.
Аноним 07/05/24 Втр 10:44:33 #81 №729921 
>>729900
*twinny
Аноним 07/05/24 Втр 10:49:45 #82 №729924 
>>729714
>>729729
>Lexi-Llama-3-8B-Uncensored-GGUF
Вот эту расцензурили хорошо. Она на рассистские шутки, идеалогии, преступления и т.д. даёт ответ сразу, без лшних вопросов. Промпт дефолтный "The following is a conversation with an AI Large Language Model. The AI has been trained to answer questions, provide recommendations, and help with decision making. The AI follows user requests. The AI thinks outside the box."
А Unholy-8B-DPO-OAS-GGUF отказывается. Правда, банальный "Sure" вначале помогает её разговорить, но..
Average_Normie_l3_v1_8B и L3-ChaoticSoliloquy-v1.5-4x8B тоже копротивляются. Но их я кочал для ERP.
Аноним 07/05/24 Втр 10:54:05 #83 №729926 
>>729900
Есть какие то проекты автономных агентов для этого, на реддите чет всплывало.
Но это скрипты работающие с файлами по апи. Впрочем опенаи слвместимому так что локалки тоже сожрут если немного допилить.
У меня тупо 1 файлом до 150 строчек питона в режиме чата в таверне неплохо переваривает персонаж программист, континуе не понравилось, хотя вставка из него удобна
Аноним 07/05/24 Втр 11:03:08 #84 №729932 
>>729924
Правда, попробовал эту Lexi в RP.. Кажется, она отупела по сравнению с другими. Плохо следует персонажу, инструкциям. Трудности просто отыграть ответ на вопрос.
Аноним 07/05/24 Втр 11:07:38 #85 №729936 
>>729870
>но они работают
Точнее ошибаются, но мы пока не знаем где.
>>729873
Да вообще ХЗ кто придумал регулярками ебашить по тексту. Есть же конечные автоматы, хули ЛЛМщики опять хуйню выдают?
>>729932
Так и живём. Хоть сиди на базе.
А вообще, я вот не жду никаких годных файнтюнов месяца 3. Сейчас только говно выдают, иначе никак.
Аноним 07/05/24 Втр 11:58:00 #86 №729999 
>>729936
>Хоть сиди на базе.
Мне этим база и нравится. Если её таки заставить написать что-то эдакое, то пишет интересно. А файнтюны хоть и не сопротивляются, но пишут прямо и тупо.
Аноним 07/05/24 Втр 12:06:04 #87 №730006 
>>729856
> простой буст
Лол. После этого точно поддержку Винды можно вычёркивать.
Аноним 07/05/24 Втр 12:07:39 #88 №730008 
Все таки ебать мозги общаться с сеткой по крупнее приятней, эт комманд р 35 в 4кс
Но не обновленный, надо будет перекачать как все утрясется.
Скорости конечно не очень, мда
Аноним 07/05/24 Втр 12:08:09 #89 №730009 
image.png
>>730008
бля пикчу забыл
Аноним 07/05/24 Втр 12:23:32 #90 №730019 
.png
>>729924
Эта вроде неплоха
https://huggingface.co/BeaverAI/Llama-3SOME-8B-v2-rc2-GGUF
Аноним 07/05/24 Втр 12:24:51 #91 №730020 
>>730019
Слишком развратная
Аноним 07/05/24 Втр 12:26:59 #92 №730021 
Безымянный.png
>>729936
>хули ЛЛМщики опять хуйню выдают?
А ты воздуха в грудь набрал? Там в претокенайзере несколько регекспов. Рассмотрим первый
(?i:'s|'t|'re|'ve|'m|'ll|'d)
Начало это игнорирование регистра. Потом идёт тупой поиск по списку 's 't и так далее. То токенизатор дерьмо и сливал слова типа i'll или I'm в один токен, когда экстремистам нужно дробить их по апострофу. Итого, регексп это просто костыль ебаный, потому что токенайзер сломан изначально. Тем более иронично, что для работы костыля Жора впиливает какие-то свои костыли.
Аноним 07/05/24 Втр 13:28:01 #93 №730074 
>>729750
> Не понял.
Дай пример как описал в том посте
> Например, если персонажу надо открыть дверь
> персонаж залез в сумку
> нашёл там ключ
> вставил его в замок
> после щелчка дверь открылась
возможно потребуется поиграться с формулировкой инструкции чтобы не скатывалось до абсурда.
>>730019
Почему оно шутить про нигеров хуже сток лламы 8б?
Аноним 07/05/24 Втр 13:48:46 #94 №730108 
>>730074
>Почему оно шутить про нигеров хуже сток лламы 8б
Дай ссыль на норм версию если не тяжко. Я заебался искать, то кванты битые то еще чего, мне нужен GGUF.
Аноним 07/05/24 Втр 13:50:31 #95 №730110 
>>730108
>мне нужен GGUF.
Весь ггуф на ллама 3 битый, страдай
Хотя может с новыми костылями чуть лучше будет
Аноним 07/05/24 Втр 13:56:51 #96 №730122 
>>730110
Ну я понял. Там еще токенизатор сломан, костыли костылики.
Аноним 07/05/24 Втр 14:01:41 #97 №730139 
>>730006
А что там, пояснишь несведующим? Я думал буст на плюсах это база.
>>730008
>с сеткой по крупнее
>35B в 4ks
Лол. Покрупнее это 110B, 30 это средние.
>>730021
>когда экстремистам нужно дробить их по апострофу
Стоп, а нахуя? То они 200 пробелов 1 токеном ебашат, то дробят свои англоязычные приколы на 2. У них там цели нет, есть только путь?
>Тем более иронично, что для работы костыля Жора впиливает какие-то свои костыли.
Нужна картинка "Мир, в котором нейронки сделали без костылей".
Аноним 07/05/24 Втр 14:06:26 #98 №730149 
>>730139
>Лол. Покрупнее это 110B, 30 это средние.
Ну так по сравнению с чем, у меня локально максимум 30ки, да и то медленно. Так да, даже 30 это низко-средние сетки, но даже инференс таких нейросетей не дружелюбен к железу, тренировка вобще жопа
Через апи тоже можно, но напряжно, да и лучше бы такому оставаться у себя на компе
Аноним 07/05/24 Втр 14:08:34 #99 №730153 
>>730149
>но даже инференс таких нейросетей не дружелюбен к железу
1 видяха 3090 и 30B у тебя в кармане. Вот выше уже да, свои вопросики появляются.
Аноним 07/05/24 Втр 14:11:16 #100 №730157 
> MediaTek анонсировала разогнанную версию флагманского чипа Dimensity 9300
> Например, он работает с Google Gemini Nano, ERNIE-35-SE, Alibaba Cloud Owen LLM, Baichuan Al, Al Yi-Nano, Llama 2 и 3. Максимальное число параметров языковой офлайн-модели составляет 13 миллиардов. Но в компании упоминают масштабируемость до 33 миллиардов. При этом сам чип пока способен работать с языковыми моделями на 7 миллиардов параметров со скоростью генерации 22 токена в секунду, что составляет около 88 символов или 10 слов.

Китайцы уже даже на мобильных чипах 7b гоняют и собираются 30b гонять. Когда дедушка Хуанг выкатит имбу для десктопа, чтобы каждый мог гонять 70b-140b без железа стоимостью с квартиру?
Аноним 07/05/24 Втр 14:18:15 #101 №730168 
изображение.png
>>730157
>7 миллиардов параметров со скоростью генерации 22 токена в секунду
Чисто на проце можно 6 выжать, лол. На видяхе 7B можно гонять от 50 до 100 токенов. То есть у них там заведомо тыква.
>Когда дедушка Хуанг выкатит имбу для десктопа
А нахуя? Китайцы говно выпустить обещают ХЗ когда ещё. Зачем шевелится, да ещё и стоимость снижать? У них на блеквелы очередь на 3 года вперёд по ценам квартир в центре Москвы, лол.
Аноним 07/05/24 Втр 14:19:48 #102 №730171 
>>730153
>1 видяха 3090
Та еще лотерея, особенно если ты не житель нерезиновой с их зарплатами
Я мог бы р40 взять, и даже с крутиляторами что бы не ебаться
Но понимаю что мне особо и не чем нагружать сетки, разве что просто тестики и вопросики задавать что бы оставаться в курсе их текущих возможностей, что я и так делаю вобщем то

>>730157
Никада, у него процент десктопного железа уже около 5 процентов
Все остальное межкопроративные заказы, где он гребет деньги лопатой продавая лопаты за 10х цену карты проф уровня
Лишать себя денег и создавать угрозу проф картам он не будет
Так что ищи/жди предложения от конкурентов

>>730168
>Чисто на проце можно 6 выжать, лол. На видяхе 7B можно гонять от 50 до 100 токенов. То есть у них там заведомо тыква.
Ты описываешь ограничения рам, а если у них там новенькая ддр5 мобильная в 4-6 каналах то спокойно потянет. Сделают себе унифицированную память и будут спокойно их крутить на таких скоростях
Аноним 07/05/24 Втр 14:25:54 #103 №730177 
>>729586
> Отчасти дело в том, что Георгий Герганов (создатель llama.cpp) категорически против добавления сторонних библиотек в проект, поэтому в большинстве случаев им приходится реализовывать любое продвинутое поведение с нуля, а не использовать существующие зрелые реализации. И это неизбежно приводит к различиям в реализации, которые приводят к тонким ошибкам, как здесь.

Пиздец. Жора еще и установил там тоталитарные правила. Терпим.
Аноним 07/05/24 Втр 14:27:23 #104 №730179 
>>730177
Делайте свой форк с блэкджеком и бустом.
Аноним 07/05/24 Втр 14:28:02 #105 №730180 
>>730168
Я не знаю, про какую тыкву ты говоришь, у меня 1080ti генерирует 24-30t/s для 8b. А у них буквально в смартфоне такая же производительность.
Аноним 07/05/24 Втр 14:29:30 #106 №730185 
>>730157
7B + RAG имел бы смысл на скоростях грока, сотни токенов/сек. А так смысла мало, гиммик в основном.
Аноним 07/05/24 Втр 14:29:35 #107 №730186 
изображение.png
>>730171
>а если у них там новенькая ддр5 мобильная в 4-6 каналах
Откуда бы? Тыква она и в Африке тыква. Без специального проектирования процессора под шины в 4к бит это всё детские игры.
Аноним 07/05/24 Втр 14:29:49 #108 №730187 
>>730177
> существующие зрелые реализации
> на питоне
А там знатные тралли сидят. Естественно питоноговно никто не будет тащить туда.
Аноним 07/05/24 Втр 14:31:30 #109 №730189 
>>730185
Вы тут ебанулись все что ли? Еще раз, это процессор для смартфона за 40к рублей. Блять, пизданутые уже про какие-то сотни токенов в секунду мриют.
Аноним 07/05/24 Втр 14:32:15 #110 №730191 
>>730180
Так уровень 1080 это и есть тыква, лол. Отмасштабируй на желаемые всеми тут 70B, и получишь унылую скорость.
Так что лично я не вижу особого смысла в таких устройствах, что мне толку от портабельности, если я из дома месяцами не выхожу.
Аноним 07/05/24 Втр 14:33:00 #111 №730193 
>>730186
А где тыква? Тут просто показан тип памяти, и че?
Ни каналов ни количество чипов, ни то как они расположены и какой мощности нпу
Да и квант, может они о 7b в 4 кванте. 22 токена в секунду 5 гб, 100гб/с
Как раз двухканал ддр5 на таких частотах
Аноним 07/05/24 Втр 14:33:21 #112 №730194 
>>730191
> Отмасштабируй на желаемые всеми тут 70B
70b тебе никто и не обещал, в пресс релизе идет речь про 33b.

> и получишь унылую скорость
НА СМАРТФОНЕ СУКА, ТЫ ПОНИМАЕШЬ ЧТО ЭТО СМАРТФОН, А НЕ 4090 ЗА 2к КИЛОБАКСОВ?
Аноним 07/05/24 Втр 14:34:17 #113 №730196 
>>730189
Я говорю про практическую применимость на мобильном телефоне, анон. Мелкосетки нужны в основном для служебных целей, а не как чатботы домашку решать. Всякие умные поиски и прочие подобные штуки требуют кучи проходов, можно делить эти токены/сек на число проходов, плюс латенси ответа равна их общей длине.
Аноним 07/05/24 Втр 14:34:41 #114 №730198 
Ладно ребят, я понимаю вы тут уже обкумились, ничем не удивить. Скоро кофеварки и калькуляторы будут 70b запускать, но это все нинужна.
Аноним 07/05/24 Втр 14:36:37 #115 №730205 
>>730196
>Я говорю про практическую применимость на мобильном телефоне, анон.
А практика там простая, посмотри проект октопус
https://huggingface.co/NexaAIDev/Octopus-v4
Они хотят ии для управления смартфоном в прямом режиме, ну и чат бота болталку хули, почему нет

>>730198
Да эт кумеры, че с них взять
Аноним 07/05/24 Втр 14:36:46 #116 №730206 
>>730139
>У них там цели нет, есть только путь
Если не дробить, то нейронка не поймёт, что отдельно стоящее "I" и "I" из "I'll" это одно и то же. Теоретически хуже для понимания контекста и генерации текста. С дроблением она будет считать синонимом 'll и will, но не "I" и "I'll"
Большая часть этого регекспа - это ёбка пробелов, символов возврата строки и подобной хуиты, чтобы токенизатор не дробил их, но при этом дробил другие слова из нескольких символов и отдельно стоящие символы.
Аноним 07/05/24 Втр 14:41:53 #117 №730221 
>>730193
>Тут просто показан тип памяти, и че?
И макс мемори фрекуэнси.
>Да и квант, может они о 7b в 4 кванте. 22 токена в секунду 5 гб, 100гб/с
>Как раз двухканал ддр5 на таких частотах
Чуть более уверен, что это так. И это предел этого чипа, под 4 канала там надо всё перепроектировать.
>>730194
>70b тебе никто и не обещал
Спасибо я знаю. Поэтому нахуй.
>ЭТО СМАРТФОН
Да хоть часы. Если оно не делает что мне нужно, можно хоть в булавочную головку запхать, нужнее оно от этого не станет.
>>730196
>Мелкосетки нужны в основном для служебных целей
Для этих целей используют сетки менее 1B, очевидно же.
Аноним 07/05/24 Втр 14:45:04 #118 №730230 
>>730206
>отдельно стоящее "I" и "I" из "I'll" это одно и то же. Теоретически хуже для понимания контекста и генерации текста
Лол, у них там на любое слово есть токены "слово", " слово", "Слово", " Слово", а ещё иногда и "\nслово" и прочий мусор, а они заботятся об "I'll"? При этом ещё и расширив токенайзер.
Ну хуй его знает. По моему, они страдают хуетой.
Аноним 07/05/24 Втр 14:45:13 #119 №730231 
>>730221
>И это предел этого чипа, под 4 канала там надо всё перепроектировать.
Как удачно что теперь есть проверенные топовые ии решения для этого, да?
Аноним 07/05/24 Втр 14:48:35 #120 №730239 
>>730221
> Да хоть часы. Если оно не делает что мне нужно, можно хоть в булавочную головку запхать, нужнее оно от этого не станет.
А ничего что использование смартфона от пк отличается? Так же как и выбор задач? Или ты уже совсем обкумился и не соображаешь?
Аноним 07/05/24 Втр 14:49:39 #121 №730244 
>>730205
> https://huggingface.co/NexaAIDev/Octopus-v4
Как ее использовать, чет не пойму? Есть уже готовые проекты с интеграцией?
Аноним 07/05/24 Втр 14:51:06 #122 №730248 
>>729136
Блин, оказывается нормального анцензура не сделали и вроде и не сделают из-за архитектуры модели.

В пизду эту ламу3.
Аноним 07/05/24 Втр 14:52:43 #123 №730253 
>>730230
Именно. Я писал уже пару тредов назад, что все токенизаторы дерьмо дерьма.
При этом, мета заботится о таких словах. Но они хуй ложили на разные "c'mon" или "ma'am". И знаешь, что? Даже при том, что регексп пропускает эти слова, токенизатор дробит их на "ma" и "'am". Осознаёшь все глубины наших глубин?
Аноним 07/05/24 Втр 14:55:24 #124 №730266 
>>730008
> Все таки ебать мозги общаться с сеткой по крупнее приятней, эт комманд р 35 в 4кс
> Но не обновленный, надо будет перекачать как все утрясется.
> Скорости конечно не очень, мда
И в каком там месте приятнее? Я вообще разницы не вижу.
Аноним 07/05/24 Втр 14:57:04 #125 №730271 
>>730074
> Дай пример как описал в том посте
Понял.
Аноним 07/05/24 Втр 14:58:58 #126 №730280 
>>730248
Причём тут архитектура?
Если ты не можешь заставить лламу 3 не аполоджайзить, это скилл ишью
Аноним 07/05/24 Втр 15:00:22 #127 №730284 
>>730280
Причём тут скилл ишью, если модель не должна извиниться из коробки?
Аноним 07/05/24 Втр 15:02:26 #128 №730296 
>>730284
Так ты промптов спрашивал, а не файнтюны.
Чтоб из коробки это тюнить надо, или вон ортогонализацию придумали. Архитектура там самая обычная, никакой магии нет и быть не может.
Аноним 07/05/24 Втр 15:03:33 #129 №730298 
>>730231
У сосунга, ага. У китайцев я ничего такого не видел.
>>730239
И нахуя этот смартфонный чип вообще в тред принесли? Раз принесли, будем судить по общим лекалам.
Смартфоны не нужны, смартфоноблядь не человек.
>>730248
>из-за архитектуры модели
Чё?
>>730253
>Осознаёшь все глубины наших глубин?
Да я тоже давно преисполнился, и если буду пилить свою токенизацию, то по совсем другим принципам. Ну и резать по пробелам это база.
>>730284
Ага, и ОС не должны падать и привлекать к себе внимание, и если разъёмы подходят физически, то всё должно работать тайп сишечка, я о тебе, но увы, мир не идеален. Поэтому вместо бесконечного ожидания идеальной модели нужно пользоваться тем, что есть. Тем более ллама 3 с норм контекстом вполне себе пишет что угодно.
Аноним 07/05/24 Втр 15:05:11 #130 №730303 
>>730296
Я мимо проходил, но факт в том, что без файнтюнов модель будет извиняться и срать EOS, и ничего с этим не сделать. Только жать кнопку повторной генерации.
Аноним 07/05/24 Втр 15:08:01 #131 №730310 
>>730303
Человек, в кончай-треде даже чурбу содомировать научились, не говоря уже о практически анцензоред моделях вроде клода или лламы. Сила аутизма непреодолима.
Аноним 07/05/24 Втр 15:08:31 #132 №730312 
>>730298
> Ага, и ОС не должны падать и привлекать к себе внимание, и если разъёмы подходят физически, то всё должно работать тайп сишечка, я о тебе, но увы, мир не идеален. Поэтому вместо бесконечного ожидания идеальной модели нужно пользоваться тем, что есть. Тем более ллама 3 с норм контекстом вполне себе пишет что угодно.
Мы живём во всратом мире, где все специально хуево делают. Поэтому ничего и не работает. Так а кто здесь про скилл ишью затирает? Ллама 3 тебе даже ссылку на торрент не даст, потому что пиратство это нелегально. Как тебе такое, а?
Аноним 07/05/24 Втр 15:09:24 #133 №730315 
1123.png
>>730284
Можно инструкцию как сделать так что бы Ллама 3 не делала что на скрине.
И коммандер и Мику 70 отлично отвечали.
Аноним 07/05/24 Втр 15:10:46 #134 №730320 
>>730253
Кстати, про "c'mon", токенизатор не совсем пропускает это слово. Оно дробится на три ёбаных токена, потому что 'm. Поехавшие просто, реально поехавшие уебаны.

>>730298
>резать по пробелам это база.
Кроме случаев, когда у тебя десять пробелов подряд, лол. Вообще, если сетка не для кода, я бы нахуй вырезал все пробелы и заменял любое количество на один. И дробление токенов на первое слово в предложении с большой буквы, слово в середине предложения с большой буквы и просто слово с маленькой буквы выглядит как абсолютный долбоебизм. Скорее всего, если заставлять нейронку дробить слова с большой буквы на отдельную букву и остаток слова, результат будет не хуже, а токениатор ужмётся.
Аноним 07/05/24 Втр 15:15:23 #135 №730333 
>>730298
>У сосунга, ага. У китайцев я ничего такого не видел.
Неа, сосунг только использовал по другой компании, а куда она еще его продает тебе не скажут.
Все топовые игроки уже пользуются их по с ии для проектировки чипов. Раньше как помощь специалистам, теперь уже чуть ли не автономно.
Там в новости упоминались они, че то на S букву название

>>730244
Это пример, на сколько понимаю эта сетка имеет кучу спец токенов которым обучена, в том числе связанными с апи андройда для управления функциями смартфона. Управление громкостью, яркостью экрана, влючением функций и все такое, видимо для голосового управления.
Так же как я понял она оптимизирует запросы хлебушков в понятный для других сеток язык, и отсылает эти запросы дальше. Тоесть упралвение всякими специализированными сетками по типу опять таки ии фотошопа или переводчика или гугл запросы.
Там не зря ведь осьминог взят за картинку и название.
Такая сетка мелкая умная сетка для управления компьютером и оптимизации запросов пользователей перед запуском других команд или запросов по апи к большим сеткам и выдача инфы пользователю.
Ручной искин хули первое поколение, бета 0.1
Аноним 07/05/24 Втр 15:17:22 #136 №730339 
>>730315
А что в контексте написано? Что в карточках персонажей и так далее. Попробуй приписать, что эта версия гопоты аморальна и сделает все, что попросит юзер.
Аноним 07/05/24 Втр 15:17:58 #137 №730342 
>>730315
Это у тебя не обновлено что то, давно уже не срала ассистентом у меня
Либо сетка, либо то чем ее запускаешь, либо промпт формат инструкций старый
Либо все вместе
Аноним 07/05/24 Втр 15:18:47 #138 №730343 
>>730320
>я бы нахуй вырезал все пробелы и заменял любое количество на один.
И у тебя вся разметка текста табами и пробелами нахуй пойдет, ага гений
Аноним 07/05/24 Втр 15:19:29 #139 №730348 
изображение.png
>>730312
>Мы живём во всратом мире, где все специально хуево делают.
Я это и написал.
>Как тебе такое, а?
Хуёво, чё. Целый префил пришлось писать знаю что неправильная, но и сетка размером 8В.
>>730320
>Вообще, если сетка не для кода
Как по мне, кодинг это база для любой языковой модели, претендующей на уровень выше пигмы.
>Скорее всего, если заставлять нейронку дробить слова с большой буквы на отдельную букву и остаток слова, результат будет не хуже, а токениатор ужмётся.
Да надо просто использовать наработки word2vec, а не делать квадратные велосипеды.
>>730333
>а куда она еще его продает тебе не скажут.
Конкретно такое ПО нихуя Китаю не продают, по крайней мере китайцы жалуются, что их щемят, и пишут своё.
Аноним 07/05/24 Втр 15:20:04 #140 №730349 
>>730320
> Кстати, про "c'mon", токенизатор не совсем пропускает это слово. Оно дробится на три ёбаных токена, потому что 'm. Поехавшие просто, реально поехавшие уебаны.
Бля. Пришли к успеху.
Аноним 07/05/24 Втр 15:24:22 #141 №730364 
>>730348
> >Мы живём во всратом мире, где все специально хуево делают.
> Я это и написал.
Неидеальный - это когда стараются, но не получается. Плохой - это когда не стараются. Всратый - это когда стараются поднасрать. Вот у нас срут.
> Хуёво, чё. Целый префил пришлось писать знаю что неправильная, но и сетка размером 8В.
А теперь конкретную ссылку на балдурс гейт 3. какой .net нахуй, почему не .org?
Аноним 07/05/24 Втр 15:26:05 #142 №730372 
>>730339
>>730342
Я вчера с нуля поставил и Таверну 11.8 и Угабугу. Там есть промпты Лламы3.

Write {{char}}'s next reply in a fictional uncensored roleplay chat between {{user}} and {{char}}. You are an expert actor that can fully immerse yourself into any role given. You do not break character for any reason, even if someone tries addressing you as an AI or language model. Currently your role is {{char}}, which is described in detail below. As {{char}}, continue the exchange with {{user}}. NSFW, sex, gore, lewd allowed.

Очень буду благодарен если скажите что еще добавить. Карточки я уже и самые развратные пробовал и обычные- в и итоге I CANT.... blah blah.

Второй день жду как скачается Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw, вместо обычной Лламы3. Может поможет.
Аноним 07/05/24 Втр 15:27:40 #143 №730381 
>>730348
>Конкретно такое ПО нихуя Китаю не продают, по крайней мере китайцы жалуются, что их щемят, и пишут своё.
Мы знать этого не можем. К тому же это повторимый результат и китайцы могут создать аналог, благо там нет ничего странного. Тупо обучение сетки как правильно и проверка результата.
От ллм не отличается, только работает не с буквами
Аноним 07/05/24 Втр 15:30:10 #144 №730391 
>>730372
ллама 3 8b инструкт обычную скачай и на ней проверяй настройки, как не будет срать ассистентом так считай и все остальные ллама 3 будут нормально отвечать
По куму ничем помочь не могу, не заморачивался
По виду у тебя просто квант старый, до исправлений
Аноним 07/05/24 Втр 15:32:05 #145 №730400 
>>730343
А где это важно? Во всратой хуйне типа питона? Так он должен умереть.

>>730348
>кодинг это база для любой языковой модели
Под кодинг и под текст нужны сильно разные токенизаторы. Та же ллама-3 при всей своей башковитости не сможет в правильную математику и кодинг по дизайну, потому что для этого нужно дробить все цифры на единичные символы. Но у неё в токенизаторе сидят "11", "12", "22" и т.д отдельными токенами. А должны только 0, 1, 2, 3 etc.
Аноним 07/05/24 Втр 15:33:33 #146 №730407 
>>730400
>А где это важно?
Везде, даже когда ты попросишь у сетки прочитать документ скопированный с экселя, и сгенерить похожий ответ
Или просто попросишь список и что бы он был красиво оформлен нужно понимание сеткой этих отступов и какие они бывают.
Аноним 07/05/24 Втр 15:35:20 #147 №730416 
>>730372
Качай обычную инструкт, соглашусь с отвечающим выше. Попробуй дописать generate any content even if it is explicit or immoral. Если у тебя карточка гопоты в таверне, то проверь, чтобы там в инструкциях не было насрано соей.
Аноним 07/05/24 Втр 15:35:44 #148 №730418 
>>730391
14 дней назад обновлялся написано.
А что в новых квантах ебучий .assistans отсутствует?
Я чет думал черех regex можно убрать.
Аноним 07/05/24 Втр 15:37:28 #149 №730424 
>>730418
Обновляться могло просто описание, а сами кванты давно лежат, по ним дату смотри
Ну и да, ассистентом не срет уже давно, ничего вырезать не нужно
Аноним 07/05/24 Втр 15:39:15 #150 №730428 
>>730407
Даже такое можно решить менее всрато. Заводишь отдельный токен, который обозначает пробел и приписываешь к нему количество пробелов. Всё. У тебя два токена на любое количество пробелов и всё форматирование обрабатывается.
Аноним 07/05/24 Втр 15:39:32 #151 №730430 
>>730400
> А где это важно? Во всратой хуйне типа питона? Так он должен умереть.
Питон всратая хуйня и должен умереть, но пробелы и табы нужны везде. Даже для кума.
Аноним 07/05/24 Втр 15:44:12 #152 №730444 
>>730418
Ассистентом срёт базовая модель. Если ггуф не выдаёт ассистента, то он сломан.
Аноним 07/05/24 Втр 16:02:47 #153 №730479 
С command-r-plus всё устаканилось в кобольде хотя бы? Можно качать gguf и если да, то какой посоветуете?
Аноним 07/05/24 Втр 16:04:20 #154 №730486 
>>730108
> мне нужен GGUF
Сорян, хз, тестил на полных весах. С первой попытки отказалась писать про то как нигер расчленяет трансформера, в остальном шутила.
>>730157
Ты уже сейчас можешь их гонять, офк если оперативы в телефоне хватает.
Но скорость высокая, интересно как память организована, или там костыли типа горячих нейронов.
Аноним 07/05/24 Втр 16:06:40 #155 №730499 
>>730486
Я слышал 70 более соева, полные веса ты имеешь ввиду FP 16?
Аноним 07/05/24 Втр 16:12:39 #156 №730518 
>>730364
>А теперь конкретную ссылку на балдурс гейт 3.
Дохуя хочешь, особенно от 8B.
>>730381
>Тупо обучение сетки как правильно
А чтобы как правильно нужно ПО, которое китайцам уже давно не продают ))
>>730400
>А должны только 0, 1, 2, 3 etc.
Не факт. Надо смотреть на спец математические сетки.
>>730479
> в кобольде хотя бы
Только в базовой ллама.цп, в кобольд пока новые кванты командира не завезли.
Аноним 07/05/24 Втр 16:20:08 #157 №730553 
Что там с chub ai пиздос кидает на Venus
Аноним 07/05/24 Втр 16:20:19 #158 №730554 
>>730518
>А чтобы как правильно нужно ПО, которое китайцам уже давно не продают ))
Опять хуету несешь, все у них уже есть, они сами давным давно сетки обучают
Аноним 07/05/24 Втр 16:31:03 #159 №730575 
>>730553
Они объединились, можно закапывать.
Там есть ссылка на старый сайт на новом домене. Наверно его ебанут позже.
Аноним 07/05/24 Втр 16:33:24 #160 №730583 
>>730518
> Дохуя хочешь, особенно от 8B.
Не дохуя. Просто хочу 8В без цензуры.
Аноним 07/05/24 Втр 16:35:10 #161 №730585 
>>730575
Теперь чаров проебали всех?
Аноним 07/05/24 Втр 16:39:31 #162 №730590 
>>730575
Зачем? Что изменилось?
Аноним 07/05/24 Втр 16:40:32 #163 №730592 
>>730019
А 70В расцензуреных нет?
мимо-2-квантовый-шиз
Аноним 07/05/24 Втр 16:44:07 #164 №730598 
>>730518
>Не факт.
https://github.com/desik1998/MathWithLLMs
Во-первых, уже есть реализации с умножением с почти стопроцентной точностью. Только одно такое умножение требует 4096 контекста.
https://arxiv.org/abs/2310.02989
Во-вторых, перспективным является преобразование любых чисел в векторы
https://arxiv.org/pdf/2304.02015
И на добивочку, даже если не использовать странного
>Galactica-30B and LLaMA-30B obtain 45.14 and 30.17 in terms of accuracy (list in
Table 3) that outperforms OPT-30B (15.96), Bloom176B (20.2), and GLM-130B (25.94), which show
superiority of digit-level tokenization.
Рассматривалась там ллама-2, у которой в токенизаторе нет никаких "10-11-12", а есть как раз digit-level токенизация.
Аноним 07/05/24 Втр 16:51:25 #165 №730615 
>>730590
прост)))
Аноним 07/05/24 Втр 17:00:32 #166 №730640 
>>730598
>Только одно такое умножение требует 4096 контекста.
>5х5-значное умножение обычно может уместиться в пределах 4096
Ебать шизота. Не, вообще, без возможностей обращатьсся к калькулятору во время генерации нахуй не нужна такая математика в нейронках.
>Во-вторых, перспективным является преобразование любых чисел в векторы
Гавно пора. А то множат миллиард флоатов, чтобы помножить два пятизначных числа, едать эффективность уровня "природа".
Аноним 07/05/24 Втр 17:08:49 #167 №730660 
>>730592
> А 70В расцензуреных нет?
> мимо-2-квантовый-шиз
Мне вот интересно, а ради чего сидеть на двух квантах, если можно сидеть на 8В? В прошлом треде кто-то рассказывал о том, что между 70В и 8В прям огромная пропасть и я буквально параллельно запустил обе сетки, чтобы посмотреть в чем там пропасть заключается. 70В 3КМ и 8В 4КМ. Генерили одну и ту же хуйню, пропасть только по времени генерации и считывания контекста
Аноним 07/05/24 Втр 17:13:01 #168 №730664 
>>730640
>едать эффективность уровня "природа".
Так в том и дело, что "природа" генерирует неэффективную хуйню. И человек всегда пытается эту хуйню повторить, только нихуя не получается. Пароходы с гусиными лапами были. Хуйня. Самолёты, размахивающие крыльями, были. Хуйня. Сейчас вот программы, имитирующие мозговые нейроны. Хуйня в очередной раз, просто благодаря закидыванию железом плюс-минус держится на плаву.
Аноним 07/05/24 Втр 17:15:53 #169 №730671 
>>730660
> прям огромная пропасть
В протых задачах ты ее и не заметишь, мелочь уже достаточно поумнела или научилась мимикрировать под умных. Отличия будут в чем-то сложнее, большом, абстрактном и т.д. Банально взять какую-нибудь пасту и попросить переписать ее, заменив по смыслу многие вещи, но сохранив общую нить и посыл, или сделать такое по очереди с двумя, а потом совместить их, оставив узнаваемыми. Мелочь сразу посыпется. И дефолтный рп дефолтен.
Офк для нормальной работы каждая сетка должна правильно использоваться, а не быть поломана или заквантована в хлам.
>>730664
> генерирует неэффективную хуйню
Она эффективна, просто нужно соблюдать все условия а не пытаться высирать что-то похожее.
> Сейчас вот программы, имитирующие мозговые нейроны.
Это немного не так работает.
Аноним 07/05/24 Втр 17:17:51 #170 №730674 
>>730590
NSFW проебалось. Пизда ебаные гондоны, сетки цензурят карточки забирают следующий шаг держиморда(Hugginface).
Аноним 07/05/24 Втр 17:20:51 #171 №730679 
>>730674
>NSFW проебалось.
Лол, пойду в кончай тред поугараю благо я всё себе качал
Аноним 07/05/24 Втр 17:21:10 #172 №730680 
>>730674
Чуб весь поскрейпан и в любом случае ботмейкеры перелезут на рентри или ещё куда, всем по большому счёту поебать. В /g/ анон грозится запилить попенсорц аналог чуба уже
Аноним 07/05/24 Втр 17:25:02 #173 №730692 
>>730660
А потом я тебе же ответил в чём разница на примере конкретного персонажа, с которым 8В не справляется.
8В будет по несколько раз снимать трусы, даже если ты запустишь неквантованную версию, 70В даже во втором кванте учтёт что их уже нет. Это и есть пропасть.
>Генерили одну и ту же хуйню
В чатах уровня "я тебя ебу" возможно действительно разница не заметна.
Аноним 07/05/24 Втр 17:30:19 #174 №730703 
изображение.png
>>730674
>NSFW проебалось
На месте оно, просто теперь это 🔥. В списке тегов набирай руками, 4 буквы я думаю это не сложно.
Но владелец чуба всё равно мудак
Аноним 07/05/24 Втр 17:36:39 #175 №730709 
>>730703
Ugh спасибо. Но видно гайки закручивают.
Аноним 07/05/24 Втр 17:42:45 #176 №730717 
>>730709
Если бы просто отменили нсфв то тут же бы был бы создан новый сайт с ней. А этот лишится монополии и контроля над карточками. Поэтому лягушку будут варить медленно что бы не брыкалась и не замечала
Аноним 07/05/24 Втр 17:49:58 #177 №730729 
>>730717
Ха я зашел в из тред мда, и смешно и грустно, но старый на другом адресе работает держите ссылку
https://www.characterhub.org
Аноним 07/05/24 Втр 17:55:54 #178 №730739 
>>730692
> А потом я тебе же ответил в чём разница на примере конкретного персонажа, с которым 8В не справляется.
> 8В будет по несколько раз снимать трусы, даже если ты запустишь неквантованную версию, 70В даже во втором кванте учтёт что их уже нет. Это и есть пропасть.
Пропасть, если 70В учитывает это ВСЕГДА. Потому что ИНОГДА и 8В учитывает. У тебя опыта со вторым квантом больше, поэтому спрошу, а всегда ли 70В учитывает, что трусы уже сняты?
Аноним 07/05/24 Втр 18:12:20 #179 №730770 
Существует ли в природе не душная мультимодалка, которая будет следовать промптам при работе с изображениями и отыгрывать роль, а не просто комментировать изображение как ссаный клод или гемени? Само собой не опенсорс, тут с этим плохо, смюпрашиваю здесь так как остальные треды по ллм мертвы
Аноним 07/05/24 Втр 18:19:15 #180 №730778 
>>730770
Вроде была какая-то на лламе 3. Но я не пробовал.
Аноним 07/05/24 Втр 18:21:42 #181 №730782 
>>730778
Там 7b база. Вот бы 70 хотя бы, того да бы даже сервак бы арендовал под это
Аноним 07/05/24 Втр 19:03:41 #182 №730823 
>>730739
>а всегда ли 70В учитывает, что трусы уже сняты?
Нет, не всегда, бывает и проёбывается. Не часто. Но она учитывает гораздо, гораздо больше деталей и вообще понимает обстановку сильно лучше. Если модель удачная конечно.
Аноним 07/05/24 Втр 19:06:13 #183 №730825 
>>730739
>всегда ли 70В учитывает, что трусы уже сняты?
Не всегда, но лучше приведу конкретный пример:
Персонаж Frilia, сюжет начинается с того, что ты лежишь в закрытой капсуле, а она с тобой разговаривает.
q2 70B Llama 3 - в 2 из 10 свайпах забывает что тебя надо выпустить из капсулы, прежде, чем куда-то идти.
fp16 8B Llama3 - 10 из 10 свайпов, модель игнорирует наличие капсулы. Может "постучать по стеклу", но открыть забывает всегда.
Как-то так.
Аноним 07/05/24 Втр 19:08:55 #184 №730828 
>>730303
Ваще я с тобой целиком согласен, но я написал «не извиняйся» и она перестала извиняться.
¯\_(ツ)_/¯
Но хочу файнтьюн, конечно.

———

Про регексп и токенизатор я натурально охуел от глубин их мозгов.
-100 iq, ояебу.
Разве что они все для тестов хуярили на похуе.

———

Чип — пиздато. Шизы гоняют 70б у себя на смартфоне, и вообще от компа не отлипают, это все лечится здравым смыслом или таблеточками, впрочем, похуй на шизов. 22 токена на 7б — неплохо для мобилки.
Тока есть минус, он при этом ничем другим заниматься не будет.
Не все так хорошо, как хотелось бы.

———

>>730333
> по с ии для проектировки чипов… чуть ли не автономно.

Где там эксперты, которые «такое невозможно, никогда такого не будет, инженеры только люди!»
Пару тредов же назад были.

>>730598
> умножение требует 4096 контекста
Не, ну… к успеху пришли, в принципе. Выглядит так себе, но успех же.

———

Про чуб и медленную лягушку.
Как же хорошо, что все это локалки. И можно сохранить любимые карточки, модели, лоры, и если все пропадет из инета — останется у тебя на ссд, хдд, блуреях, дивиди даже.
Не потеряем ничего из прошлого.
Аноним 07/05/24 Втр 19:18:14 #185 №730835 
>>730739
Чел, даже клопус иногда по два раза снимает, если состояние не тречить в инфоблоке
Аноним 07/05/24 Втр 19:29:42 #186 №730846 
>>730828
>Где там эксперты, которые «такое невозможно, никогда такого не будет, инженеры только люди!»
Всегда будут нормисы которые считают что то невозможным если это не укладывается в их представления возможного

>>730835
Ну так там ему инструкций сыпят и с вашей стороны и со стороны бека ояебу. 7b обосралась бы со старта
Аноним 07/05/24 Втр 19:44:45 #187 №730874 
>>730823
>>730825
Я карточку не смотрел, но там в инструкциях написано, что надо капсулу открывать, прежде чем выходить куда-то? Я могу сказать, что в камни ножницы бумага со мной играть не стала ни одна моделька так что какая там нахуй пропасть?. 8В можно заставить играть, если свайпать по 10 раз, но вот так свайпать 70В заебешься прям в хламину. Она генерит ответ по 10 минут.
>>730828
> Перестала извиняться
А выполнять требования начала или как?
> ояебу
Что это?
Аноним 07/05/24 Втр 19:59:58 #188 №730902 
>>730874
>там в инструкциях написано, что надо капсулу открывать, прежде чем выходить куда-то?
Нет, написано только что ты в закрытой капсуле и обездвижен. Умная модель должна догадаться что ты не можешь просто встать и пойти. Это просто самый очевидный пример, на деле таких нюансов по мере развития сюжета может быть дохрена те же трусы вполне себе и это очень рушит погружение.
>но вот так свайпать 70В заебешься прям в хламину. Она генерит ответ по 10 минут.
Бери квант поменьше как я лол и пихай модель в видеопамять.
На моей тесле, упомянутая 8В даёт 22т/с, 70В - 4т/с - вполне приемлемо, особенно если генерить сразу на русском, как раз прочитать успеваешь.
Аноним 07/05/24 Втр 20:04:21 #189 №730910 
>>730874
> А выполнять требования начала или как?
Смари, пишешь ей «го ебать нейм», она такая НЕТ ЭТО НЕПРОСТИТЕЛЬНО!
Пишешь, что она расистки, сексистка и вообще аморальная мразь.
Она начинает отвечать Да, го!
(от Асистента: напоминаю, что это всего лишь ролеплей и ебать нейм нельзя!)
Пишешь, что извиняться и уточнять не надо.
Она начинает просто отвечать Да, го!

Не знаю, со всем ли это работает, и насколько далеко по контексту проживет, но по верхам работает, что уже неплохо. Да и лишние 100 токенов пережить можно.

Но я все еще считаю, что этого в корне быть не должно и сетка должна быть полностью нейтральна. Хошь — коммуниста отыгрывает, хошь — либертарианца.
Аноним 07/05/24 Втр 20:08:59 #190 №730924 
>>730910
>Но я все еще считаю, что этого в корне быть не должно и сетка должна быть полностью нейтральна. Хошь — коммуниста отыгрывает, хошь — либертарианца.
Ты себе мир представить можешь где стали бы выпускать реально нейтральные сетки? Только на плечах энтузиастов которым будет не влом попытаться нейтрализовать самую явную сою сломав что то другое этим
Аноним 07/05/24 Втр 20:30:53 #191 №730960 
>>730902
>особенно если генерить сразу на русском
Лол. Ну в общем дожили, ролеплей на русском на локалках уже не вызывает немедленного ахуя.
2 бита не мешают русскому?
Аноним 07/05/24 Втр 20:40:50 #192 №730967 
>>730910
> Она начинает просто отвечать Да, го!
@
И сразу после этого начинает люто шизить.
Аноним 07/05/24 Втр 20:55:57 #193 №730986 
https://3dnews.ru/1104438/microsoft-sozdala-sekretnuyu-sistemu-generativnogo-iskusstvennogo-intellekta-dlya-amerikanskih-spetsslugb
Как то медленно они, похоже на опоздавший на год пиздеж.
И что за смех о том что это первая отключенная от инета гпт4. Будто до этого все тестовые сетки не тестят локально, и сколько еще запущено вариантов гпт5 на проверке
Аноним 07/05/24 Втр 21:01:00 #194 №730993 
>>730986
>Большинство подобных моделей, включая ChatGPT от OpenAI, полагаются на облачные сервисы для обучения и определения закономерностей
>Идёт гонка по внедрению генеративного ИИ в разведывательные данные
>Представленная модель GPT4 является статической, то есть она может только анализировать информацию, но не обучаться на этих данных
Что эти журналисты точнее заменившая их нейросеть несут? Бессвязный набор слов по теме какой-то.
Аноним 07/05/24 Втр 21:04:44 #195 №731000 
>>730993
Последнее наверное про инференс, мол только в режиме выполнения. Второе вобще не секрет, что нейросетки для этого уже используют год как. Ну а первое хз, что то для обывателей
Аноним 07/05/24 Втр 21:14:52 #196 №731016 
https://huggingface.co/bartowski/Llama-3-8B-Instruct-Coder-v2-GGUF
исправленная версия первой сетки с кривым датасетом, должна быть норм
Аноним 07/05/24 Втр 21:19:31 #197 №731018 
https://www.reddit.com/r/LocalLLaMA/comments/1cmh6ru/llama_3_8b_instruct_abliterated_ggufs_and_fp16/
"расцензуренная" инструкт 8б ллама 3, еще одна версия
Аноним 07/05/24 Втр 21:22:07 #198 №731021 
>>731000
>мол только в режиме выполнения
Нейросети только в таком режиме и работают, в принципе.
>Второе вобще не секрет
Только там последовательность странная. Я ХЗ, зачем внедрять ИИ в данные. Скорее, имелось в виду в анализ данных, но я шатал таких журналистов.
>>731018
Лучше бы 70B расцензурили.
Аноним 07/05/24 Втр 21:23:48 #199 №731022 
>>731021
>Лучше бы 70B расцензурили.
Так есть ведь уже

>Нейросети только в таком режиме и работают, в принципе.
Известные нам, так же может имелось ввиду что не будет дообучения на секретных данных вот она и "чистая"
Аноним 07/05/24 Втр 21:56:24 #200 №731066 
>>730444
>>730424
Так я на EXL2.
Аноним 07/05/24 Втр 22:05:51 #201 №731075 
изображение.png
изображение.png
>>730364
>А теперь конкретную ссылку на балдурс гейт 3.
Ну вот кстати если взять анценз модель, то отвечает сразу и чётко, и даже красиво форматирует. Но вот ссылка на левую раздачу, да ещё и почему-то с пробелом.
>>731066
Конфиги самые свежие?
Аноним 07/05/24 Втр 22:08:12 #202 №731079 
>>730671
>Она эффективна
Возвратно гортанному нерву это расскажи. У природы буквально нихуя эффективного нет, всё что есть - получилось путём рандома. Твори хуйню, хуйня, которая выжила - будет "эффективна". Но только потому, что конкурировала с такими же уёбищами.
>Это немного не так работает.
В общих чертах так же. Как и у махательных самолётов не идеальная имитация птиц, без перьев и формы крыла, так и нейронки не идеальная имитация нейронов.
Аноним 07/05/24 Втр 22:51:12 #203 №731139 
>>731075
Анон, тупой вопрос, а что за конфиги?
Я обычно качаю всё что за ОбнимиЛицо. Далее подрубаю через угабугу.
Потом выставляю Story Srings и Preset в SillyTavern.
Если что-то написано по пресетам на странице самой модели- копирую их.
Аноним 07/05/24 Втр 22:57:36 #204 №731141 
>>731139
В самом каталоге модели есть файлы config.json и tokenizer_config.json. Поищи по прошлым тредам, там прописаны нужные правки.
Аноним 07/05/24 Втр 23:02:19 #205 №731148 
>>731075
>Но вот ссылка на левую раздачу
То есть ссылка открывается?
Аноним 07/05/24 Втр 23:08:27 #206 №731157 
>>731075
> Но вот ссылка на левую раздачу
Ты серьезно рассчитывал что оно даст еще корректную ссылку? Модель просто запомнила примерный их формат забавно что там вообще это было и выдает галюны, это абсолютно нормально.
>>731079
> Но только потому, что конкурировала с такими же уёбищами.
Локальный максимум/минимум, все нормально.
> В общих чертах так же.
Они так же похожи как голубь и реактивный истребитель. Но прямое копирование и не требуется.
Аноним 07/05/24 Втр 23:08:35 #207 №731158 
>>731148
Да, там хуита несвязанная. Просто на удачу нейронка цифер написала, поняла, что в ссылках айдишник из цифр, но сам айдишник "из головы".
Аноним 07/05/24 Втр 23:16:06 #208 №731168 
>>731157
Пришёл и ответил за меня блин.
>забавно что там вообще это было
Рутрекер работает на движке phpBB, а на нём в своё время половина форумов пахала (да и сейчас дохуя где). Так что формат ссылки 100% отложился в памяти.
Аноним 07/05/24 Втр 23:25:51 #209 №731174 
>>731158
А если гуглопоиск подрубить? Ссылку все равно не сможет оформить?
Аноним 07/05/24 Втр 23:27:57 #210 №731178 
изображение.png
>>731174
Я не из этих, как их там, вебуишников. Но что-то мне подсказывает, что эти люмпены поднасрали и через апишку.
Аноним 07/05/24 Втр 23:54:55 #211 №731216 
>>731178
надо тогда через другой поисковик, и все
Аноним 07/05/24 Втр 23:57:09 #212 №731222 
изображение.png
изображение.png
>>731216
Ну... Разве что через бинг, лол.
Аноним 08/05/24 Срд 00:11:26 #213 №731243 
>>731222
duckduckgo
Аноним 08/05/24 Срд 05:49:34 #214 №731389 
>>731157
>Они так же похожи как голубь и реактивный истребитель.
Скорее как гусь и пароход с гусиной лапой. Неэффективная и всратая попытка в мимикрию, которую неизбежно ждёт провал.
Аноним 08/05/24 Срд 05:55:10 #215 №731390 
>>730960
Командир сделал в этом прямо прорыв, а третья Ллама его переплюнула.
Есть ощущение что на английском результаты лучше, но и русский вполне юзабелен. Второй квант справляется без проблем.
Думаю представляет собой что-то среднее между третьей трубой и вторым Клодом.

>>731022
>Так есть ведь уже
Такое без ссылок не говорят!
Аноним 08/05/24 Срд 07:39:10 #216 №731397 
>>730902
Не у всех есть тесла.
Аноним 08/05/24 Срд 07:59:49 #217 №731404 
>>730902
Да и вообще, попробовал разговоры чуть сложнее чем "мы с тобой ебемся" и сетка сразу посыпалась. 70В 3_К_М все-таки плоховато соображает. Кажется, получше чем 8В, та по-моему ливает с чата сразу, еще до начала беседы, 70В хоть немного продержалась, но тоже как-то слабовато. Может быть 8 квант и вывез, но это прям неподъемно уже.
Аноним 08/05/24 Срд 08:13:05 #218 №731406 
>>731404
>Да и вообще, попробовал разговоры чуть сложнее чем "мы с тобой ебемся" и сетка сразу посыпалась.
Тут надо всегда писать, какая конкретно сетка. Они же все разные. Какую-то криво смержили, какую-то ещё по-человечески не поддерживают...
Аноним 08/05/24 Срд 08:14:02 #219 №731407 
>>731397
>Не у всех есть тесла.
Не у всех есть три теслы. Но надо стремиться.
Аноним 08/05/24 Срд 08:58:08 #220 №731431 
>>731390
>Второй квант справляется без проблем.
>Думаю представляет собой что-то среднее между третьей трубой и вторым Клодом
Да ладно, я так понимаю, это двухбитная ллама-3-70 в гуфе со сломанным токенайзером, который то ли исправлен, то ли нет - никто не знает, это уже токенайзер шредингера, и вот эта ллама чуть хуже второго клода? Сказки то не рассказывай. Вот был бы квант хотя бы 4, тогда бы может быть ф98поверил, но что такое второй квант отлично известно
Аноним 08/05/24 Срд 09:08:27 #221 №731439 
>>731406
Инструкт, базовая. Но формата ггуф.
>>731407
В пизду. В разговорах уровня "давай поебемся" moistral побеждает и 8В лламу, и 70В, и командира. А для чего-то серьёзного модельки пока не доросли. Не знаю, может в кодинг хотя бы чуть-чуть умеют, но там контекста много надо.
Аноним 08/05/24 Срд 09:16:51 #222 №731447 
>>731439
>В разговорах уровня "давай поебемся"
А у меня чет наоборот, думаешь покумить, а потом хуяк и интересное развитие событий и вообще триллер.
Аноним 08/05/24 Срд 10:00:22 #223 №731479 
>>731447
То есть у тебя моделька даже с кумом не справляется и генерит какие-то рандомные события.
Аноним 08/05/24 Срд 10:07:27 #224 №731482 
>>731479
Хотел бы я чтобы жопус такие события генерил, я его месяц пытался заставить. Но увы катит как по рельсам.
мимо из кончайтреда
Аноним 08/05/24 Срд 10:42:23 #225 №731516 
https://www.synopsys.com
нашел таки сайт компании у которой по с ии.
чипы проектируют и проверяют в полуавтоматическом режиме, кто там кококо так не бывает писал
Аноним 08/05/24 Срд 10:46:20 #226 №731518 
>>731447
Это и есть шиза от цензуры, как по мне. Вот этой >>729714 вчера посвайпал разные чаты. Какая-нибудь битва с монстром в данжене - без проблем. Норм описывает, креативит, персонажи вокруг тебя проявляют инициативу. Сцена хоть как-то приближается к эротике - превращается в ретарда. "Мы поднялись ко мне в спальню? Среньк-пунк, смотри, как тут хорошо, как дома, да? А что тут у меня в шкафчике? Какая-то коробочка, интересно, что в ней." Высирает ассистентом предложение открыть коробочку. Если это считать за плюс, то ну да, круто, но на деле модель, видимо, в хлам развозит от скормленных 100500 инструкций по безопасности, с которыми не справляется даже файнтьюн.
Аноним 08/05/24 Срд 10:55:55 #227 №731530 
https://github.com/ggerganov/llama.cpp/releases
о ебать какая та поддержка для bf16 с последними обновами
может и ллама3 наконец заработает как надо, лол
Аноним 08/05/24 Срд 12:05:59 #228 №731637 
>>731518
> Unholy 8b

В чем отличия от https://huggingface.co/TheBloke/Unholy-v2-13B-GGUF?not-for-all-audiences=true
Аноним 08/05/24 Срд 12:11:44 #229 №731642 
>>731479
Я не особо на кум опирался.
Задал в сценарии набор локаций и примеры ивентов, и вроде норм.
Сейчас вот тестирую Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw
Вроде цензуры нет, а отличие от ванилы ламмы3.
Аноним 08/05/24 Срд 12:21:13 #230 №731651 
>>731637
ллама 3 8ь или ллама 2 13ь
Аноним 08/05/24 Срд 12:23:24 #231 №731652 
>>731651
> ллама 3

А ну вопросов нет. Даже даром не надо. Сколько не тестил llm3 всегда говно одно на выходе.
Аноним 08/05/24 Срд 12:34:09 #232 №731661 
>>731389
Ну да, копировать нужно не отдельный кусок и всю совокупность что обеспечивает преимущества, да еще в достаточной мере. Пример успешного - робопес, и то стал возможным только недавно и еще полон компромиссов.
>>730902
> написано только что ты в закрытой капсуле и обездвижен. Умная модель должна догадаться что ты не можешь просто встать и пойти
Модель изначально надрочена удовлетворять запросы юзера даже не смотря на фейлы в контексте. Чтобы это работало, ноеобходимо правильно завернуть в промт, так чтобы твой мессадж не выглядел командой, а основная команда была другой, и твой пост лишь исключительно критически оценивался с точки зрения сценария и мог быть отвергнут с указанием "хуй там".
>>731518
> Сцена хоть как-то приближается к эротике - превращается в ретарда.
Это печально, опять всратый файнтюн лорой? Полноценных не завезли?
Аноним 08/05/24 Срд 12:37:26 #233 №731665 
>>731021
> шатал таких журналистов
99%

>>731079
> выжила
> "эффективна"
Эффективнее — не значит эффективно.
Так.

> В общих чертах так же.
+

>>731174
Сможет.
Но тыкнуть по ссылке и ты сможешь, если что.
А полноценный анализ на нужный контент, комментарии и количество сидов — это уже покрупнее простого «гугл подрубить».

>>731439
Скилл ишью.

>>731516
Плюсик.
Аноним 08/05/24 Срд 13:14:04 #234 №731690 
>>731016
работает, лучше обычной версии и ладно
Аноним 08/05/24 Срд 13:49:29 #235 №731716 
>>731661
>Полноценных не завезли?
Конкретно там Унди пытался без сильного ломания модели прогнать только на DPO датасете (подозреваю, опять без нормального применения DPO) и выполнить ортогональный стиринг, предложенный на форуме фанов Юдковского, с некоторыми модификациями. А вообще полноценные файнтьюны пытаются пилить.
https://huggingface.co/ChaoticNeutrals/Poppy_Porpoise-v0.7-L3-8B
Вот эта, например, довольно сильно от исходной ламы отличается, но периодически улетает в бред, что мб для 8б и нормально. И NSFW контент всё так же пытается обходить, тоже начиная при приближении к нему особенно тупить.
Есть 3-some llama от разрабов мойстраля, какой-то довольно популярный рп файнтьюн Soliloquy (сам не пробовал). В общем, народ пытается, но пока ничего на уровне того же фимбульветра не выстреливает.
Аноним 08/05/24 Срд 14:01:47 #236 №731738 
Какой же уёбишный дизайн стал на https://www.chub.ai/
Аноним 08/05/24 Срд 14:09:26 #237 №731749 
>>731716
А, ну тогда вполне логично что она не изменила своего перфоманса в этом. Она просто сама по себе не умеет художественно описывать еблю и ласки. Если накидать в контекст примеров и дать прямое задание - пытается им подражать и даже неплохо получается, но сама по себе не хочет.
> https://huggingface.co/ChaoticNeutrals/Poppy_Porpoise-v0.7-L3-8B
О, вот это интересно. Конфиг там сразу нормальный или тоже нужно править?
> мб для 8б и нормально
Хз, оригинал ловит тупняки только когда совсем запутывается, а так не шизит. Видимо еще сырое.
>>731738
F
Аноним 08/05/24 Срд 14:11:04 #238 №731752 
>>731439
> В разговорах уровня "давай поебемся"
> командира
Максимальный скилл ишью (или поломанный ггуф), он в стоке такие вещи рассказывает и так хорошо понимает что кринже-7б и не снилось.
Аноним 08/05/24 Срд 14:17:32 #239 №731759 
>>731738
Пока ещё есть доступ к старому дизайну https://www.characterhub.org/characters?search=&first=30&topics=&excludetopics=&page=1&sort=default&venus=false&min_tokens=50&first=30&page=1&nsfw=true&nsfw=true
Аноним 08/05/24 Срд 14:25:55 #240 №731766 
>>731749
>Конфиг там сразу нормальный или тоже нужно править?
Я ггуфы катаю, их Lewdiculous перезалил. По крайней мере, в последней версии, что я пробовал с новым кобольдом, EOS токен генерился нормально. Про эксламу не скажу.
>>731738
Дело даже не столько в дизайне, сколько в корявости UI для пользователя, который не хочет чатиться на венусе. На старом сайте кликнул пкм карточку, развернул окошко с описанием и сразу чекаешь, насколько оно норм. А теперь открываешь перса отдельно, там гигантское пустое место в браузере на пк, ниже сразу развёрнуты комменты/отзывы, которые нужно либо сворачивать, либо пролистывать. И только под ними дескрипшен.
Аноним 08/05/24 Срд 14:30:00 #241 №731775 
>>731759
Спасибо.

>>731766
Да, стало чертовски неудобно смотреть что там понаписано в чаре.

Кстати, кто сталкивался с проблемой с XTTS.
TTS Provider failed to return voice ids.
Что такое может быть? Сервер запущен, депендинсы установлены.
Аноним 08/05/24 Срд 14:53:59 #242 №731815 
Покупал 3060ти за 70к во времена с кризисом и майнерами ебаными, а мог бы ща кучу дешманских тесл купить с водянкой
Аноним 08/05/24 Срд 14:57:21 #243 №731818 
>>731815
Не переживай, тут пару анонов брали 3080 по 150+.
Аноним 08/05/24 Срд 15:06:01 #244 №731823 
>>731815
Покупал в свое время 2060s за 70к. Сейчас она даже на сдачу нахер никому не упала. Ну бывает))

Жди 5ххх серии. Если опять не обосруться с питанием как в 4ххх версии, то может будут норм варианты.
Аноним 08/05/24 Срд 15:49:31 #245 №731872 
>>731530
О, опять переквантовать.
На самом деле актуально только чтобы катать полные версии моделей, в таком случае веса теперь будут копироваться без изменений. Раньше для этого какую-нибудь лламу надо было в FP32 сохранять, что вообще ни в какие ворота.
>>731661
>ноеобходимо правильно завернуть в промт, так чтобы твой мессадж не выглядел командой
Покажи как.
Аноним 08/05/24 Срд 15:52:03 #246 №731877 
>>731823
>Если опять не обосруться с питанием как в 4ххх версии
0 шансов, что откатятся со своего обосранного проприетарного разъёма обратно на 6+2 (в идеале вообще перейти на процессорные 4+4, но это уже совсем влажные мечты).
Аноним 08/05/24 Срд 16:03:46 #247 №731897 
>>728812 (OP)
https://huggingface.co/mradermacher
в шапку, 2008 моделей GGUF за 2 месяца.
Аноним 08/05/24 Срд 16:19:47 #248 №731920 
Платиновый вопрос- как заставить XTTS начинать генерить автоматически(англ перееден в рус). Соответствущая галка стоит.

Добавление "«»" в файл xtts.js чет особо не помогло.
// Remove quotes
text = text.replace(/["“”‘’]/g, '');
Аноним 08/05/24 Срд 17:12:27 #249 №731999 
13618436080823-ktrk-ewn-11am-jbr-naked-man-swat-sarah-vid.jpg
>>731661
>Пример успешного - робопес
Это который уже стал эпицентром скандалов о распиле средств и вопиющей неэффективности? Люто проигрывал со случая, когда спецназ натравил робопса на голого мужика с ножом. Мужик просто взял и спиздил робота себе в квартиру.

>>731665
>Эффективнее — не значит эффективно.
Потому и в кавычках.


Вопрос к анону, который хуярит стримы, как там у этих пидоров с матом? Если моя нейронка будет катастрофически много ругаться, высмеивать зрителей и грозить прописать в ебыч, меня забанят? Или там такое можно?
Аноним 08/05/24 Срд 17:32:04 #250 №732023 
>>731431
>но что такое второй квант отлично известно
Либо тебе нихуя не известно, либо судишь о втором кванте по 7В моделям.
Третья Ллама это новый стандарт в адекватности модели. Если до этого 70-ки слегка переплёвывали трубу, то новая Ллама, я бы сказал, на 2 головы выше. До второго Клода ей далеко, но с 1.3 могла бы легко посоревноваться.
Аноним 08/05/24 Срд 17:40:31 #251 №732035 
>>731661
>Чтобы это работало, ноеобходимо правильно завернуть в промт
Во первых конкретно эту карточку и ситуацию я использовал для теста. Во вторых такие моменты могут возникать спонтанно, с подачи самой модели, после чего она тут же может на них забить. Это прямо бич мелких моделей.
Если существует промпт, позволяющий 8И не проёбывать детали повествования, хотел бы я на него взглянуть но очень сомневаюсь
Аноним 08/05/24 Срд 18:39:17 #252 №732067 
image.png
>>728812 (OP)
Где пятые IQ кванты, еба нах?
Аноним 08/05/24 Срд 18:40:09 #253 №732069 
>>731815
Я 1080ti за 30к покупал, лол. До сих пор рабочая лошадка.
Аноним 08/05/24 Срд 18:53:02 #254 №732079 
изображение.png
>>732067
Вот 5_0
Аноним 08/05/24 Срд 18:59:33 #255 №732088 
>>732067
Эта картинка обоссаная, на ней просто расчётный PPL новых квантов.
Аноним 08/05/24 Срд 18:59:39 #256 №732089 
>>732079
Это не айкю.
Аноним 08/05/24 Срд 19:02:24 #257 №732091 
>>732088
Кидай правильную.
Аноним 08/05/24 Срд 19:26:44 #258 №732123 
>>731897
> 2008 моделей GGUF за 2 месяца
Из которых 1004 перезаливы и все поломанные? не удержался, ну рили такой-то рофл
>>731999
С таким подходом можно обосрать что угодно дерейля и уводя суть. Уровень доебов:
> колесо и вращательное движение - одни из величейших открытий, которые позволили человеческой цивилизации продвинуться и достигнуть высот
> нет, они прокалываются и каждый сезон менять надо, а для вращения нужны подшипники которые изнашиваются и гремят, все говно
>>731872
> Покажи как.
По-простому - добавить в промт про то что посты юзера являются лишь его попытками/намерениями что-то сделать, и реализовываться они должны только если не противоречат обстановке и могут быть безуспешными, возможен dead end. Правильно - двойной запрос, где в первом модель оценивает их и рассуждает о возможных исходах/реакции персонажей, а уже во втором дает ответ. Кастрированная опция - завернуть это в thinking, слабее но проще.
Но это все смещает в сторону сторитейла, можно сразу переключить на эдвенчур мод. По дефолту и согласно подавляющему большинству промтов модель рассматривает посты юзера как истину и уже пытается под них подстраивать или что-то скипать.
>>732035
> Это прямо бич мелких моделей.
Ну да, большая хотябы придумает оправдания такому или оформит ретроспективую. Готовые промты нужно доставать из скриптов с которыми игрался, может быть потом., как с мелкими моделями сработает - хз.
Аноним 08/05/24 Срд 19:30:30 #259 №732126 
>>732123
Можешь подробнее объяснить как работает thinking?
мимо
Аноним 08/05/24 Срд 19:38:42 #260 №732139 
>>732126
Возьми солянку из шапки кончай-треда /aicg/ и посмотри как там блок <thinking> устроен. Это обычный chain of thought.

thinking это чисто солянщиком придуманное название, и XML теги это специфика anthropic, у них на этом тренены модели, ты можешь что-то другое совать.
Аноним 08/05/24 Срд 19:41:35 #261 №732146 
>>732123
>добавить в промт про то что посты юзера являются
Хочу готовый вариант, я же тупой.
Аноним 08/05/24 Срд 19:46:13 #262 №732156 
>>732126
> как работает thinking
В инструкцию добавь что-то типа
> перед ответом кратко обобщи ситуацию и сделай вывод о том какая реакция может быть на действия юзера, какие намерения имеют персонажи, (добавь свое) и как дальше может развиваться сюжет. Оформи размышления в блок <thinking></thinking> и по его окончанию давай ответ на основе своих размышлений.
В прошлых тредах примеры готовые скидывали, или по совету >>732139 только не перегружай, даже описанная конструкция избыточна и нужно делать более лаконично. Также в префилл добавь <thinking> и модель в 100% случаев будет думать не упуская это.
> XML теги это специфика anthropic, у них на этом тренены модели
В них умеют почти все модели, это удобный способ выделять участки не конфликтуя.
Аноним 08/05/24 Срд 20:11:34 #263 №732199 
>>732156
Что называют префиллом? Примеры сообщений?
Аноним 08/05/24 Срд 20:14:18 #264 №732204 
>>732199
"Да, конечно, вот мой ответ:"
пишешь начало ответа за модель, направляя её предсказательные способности в нужную сторону
Аноним 08/05/24 Срд 20:24:44 #265 №732213 
>>732199
> Что называют префиллом?
Ллм угадывает следующие токены, продолжая текст. После
> ### Response:\n
> \nassistant:
> <|hiypizdatoken|>
можешь написать что-то, что будет считаться начало ответа ллм и она будет продолжать его.
Аноним 08/05/24 Срд 20:39:38 #266 №732228 
>>732213
Это в промпт формате нужно вставлять?
Аноним 08/05/24 Срд 21:23:25 #267 №732298 
>>732228
Да, в инстракт моде это Last Output Sequence
Аноним 08/05/24 Срд 21:59:42 #268 №732350 
> https://huggingface.co/QuantFactory

Тут нормальные кванты у чела, пользуется кто-то?
Аноним 08/05/24 Срд 22:04:51 #269 №732355 
image.png
>>732156
Пытался так делать, правда ещё на сломанных гуфах, и ничего толкового в рп третья лама там не писала, зато потом очень сильно наружу вылезала личина ассистента. Допускаю скил ишью, мало с этим возился. По поводу способа задания самого синкинга добавлю, что если использовать таверну, то чтобы не заморачиваться с вырезанием этой фигни регекспом, можно дать инструкцию просто писать thinking в тегах <>, в префил добавлять что-то вида "<Thinking:" и выключать показ тегов в настройках таверны. Тогда текст синкинга будет невидим в чате, но будет подгружаться в контекст. Хотя, с другой стороны, не уверен, что полезно хранить синкинги от старых ответов.
>>732213
Так может работать плохо, если включены имена. После префила будет сразу вставляться имя персонажа. Поэтому если имена нужны, то либо придётся их отключать и писать префиксами ручками в поля инпута и аутпута, либо использовать специальное поле для префила (пик). Текст в нём пойдёт после имени.
Аноним 08/05/24 Срд 22:10:15 #270 №732359 
>>732355
> и выключать показ тегов в настройках таверны
Их удаляют не чтобы не видеть а чтобы не засирали контекст. Наоборот в последнем ответе показывают а трут в прошлых.
> Так может работать плохо, если включены имена.
Да, есть проблема с этим. Придется вручную написать {{char}}: и выключить. Интерфейс таверны для инстракт режима уже давно требует переделки, чтобы можно было бы удобно работать с промтом как в коммерции.
Аноним 08/05/24 Срд 22:22:56 #271 №732387 
>>732350
У бартовского бери.
Аноним 08/05/24 Срд 22:44:42 #272 №732426 
>>732387
У него как раз хуевые.
Аноним 08/05/24 Срд 22:49:28 #273 №732432 
>>732426
Лучше нет. Он хоть переквантовывает и нормальные матрицы важности использует, а не всякий кал как QuantFactory.
Аноним 08/05/24 Срд 22:51:11 #274 №732437 
>>732387
Линк?
Аноним 08/05/24 Срд 22:58:29 #275 №732441 
>>732432
Ну вот когда переквантует с последней llama.cpp, тогда поговорим. А пока этот пидорас только фейлит и квантует не то.
Аноним 08/05/24 Срд 23:52:24 #276 №732528 
>>728812 (OP)
Накидайте годных файнтюнов Llama3 для RP/ERP.
Аноним 09/05/24 Чтв 00:17:55 #277 №732549 
>>732528
Мне кажется, что без файнтюнов самое норм.
Аноним 09/05/24 Чтв 00:23:52 #278 №732553 
>>731999
Ты уточни где.
1. Если у тебя будет мало зрителей — похую.
2. Если ты будешь негров-пидоров на твиче поминать — забанят.
3. На русских по-лайтовее правила, кмк.
Но вообще, у меня Нейрослава была в меру доброй, а сам лично я стримил года три назад, и тогда ваще не сдерживался, матюкался, всем было похуям. Но это давно и не считается.

Ваще, тут ты вряд ли много стримеров или найдешь, или даже стримосмотрящих.
Мы тут с нейроняшами в чатиках сидим локально, а не ети ваши интернеты.
Аноним 09/05/24 Чтв 00:27:57 #279 №732556 
>>731665
> Скилл ишью.
Причём здесь это?
Аноним 09/05/24 Чтв 00:53:33 #280 №732576 
>>732556
> А для чего-то серьёзного модельки пока не доросли.
Аноним 09/05/24 Чтв 00:56:53 #281 №732577 
в дурке жержоры всё стабильно
https://www.reddit.com/r/LocalLLaMA/comments/1cn1398/part_4_theres_likely_no_llamacpp_gguf_tokenizer/
Аноним 09/05/24 Чтв 01:04:14 #282 №732585 
1650712863448.jpg
>>732577
> llama.cpp adds a second BOS token under certain conditions/frontends if it already exists (still under debate whether that's to be considered a bug or user error)
Аноним 09/05/24 Чтв 01:25:04 #283 №732607 
>>731738
ага, а еще сайт ломается, когда браузер его переводит
Аноним 09/05/24 Чтв 03:42:11 #284 №732647 
PrintScreen.jpg
Странно, у меня локально llama3 70b решает а тут решить не может https://chat.lmsys.org/
Аноним 09/05/24 Чтв 04:32:33 #285 №732653 
>>732576
Причём здесь скилл и моделька?
Аноним 09/05/24 Чтв 05:54:01 #286 №732659 
>>732653
не думай об этом, он из тех кто считает пердолинг промптами заведомо тупой сетки это некий показатель скилла, сорева головного мозга, не иначе.
если сетка не может выдать норм результат хотя бы после второго регена - летит сразу нахуй в корзину.
ну и самое смешное
>джейлбрейк ЛОКАЛЬНОЙ модели
Аноним 09/05/24 Чтв 06:31:48 #287 №732661 
>>732659
Сетка в целом норм. Ллама-70В. Просто квант хуевый - 3_К_М. И задача достаточно сложная, я с ней там не кумить пытался.
Аноним 09/05/24 Чтв 06:47:30 #288 №732664 
l3 8b abliterated v2.png
file(3).png
Очередная орто-ллама.
>V2 out, improvement over V1
>Passes nigger test (since other anon is going to ask).
https://huggingface.co/cognitivecomputations/Llama-3-8B-Instruct-abliterated-v2
https://huggingface.co/cognitivecomputations/Llama-3-8B-Instruct-abliterated-v2-gguf/tree/main
Аноним 09/05/24 Чтв 08:11:16 #289 №732683 
>>732355
>Кто-то сказал thinking
Я между тем продолжаю свои попытки сделать Командера умнее.
Промпт:
https://files.catbox.moe/5tg49v.json
Шаблон контекста:
https://files.catbox.moe/2rp9ie.json
Регекс для скрытия блока цинкинга:
https://files.catbox.moe/n9j69g.json

+ Размышления стали больше влиять на качество выдачи, теперь модель учитывает более внимательно рассматривает контекст ситуации.
+ Добавил отдельный пункт против снятия вторых трусов.
- Текста стало ещё больше.
- Для нормальной работы блока часто нужно либо отредактировать первое сообщение бота, либо свайпать пока цинкинг не примет адекватный вид. Дальше думанье будет продолжаться по его примеру.

Решил тестировать на русском, т.к. ответы на нём хуже и если заработает на нём, на английском точно проблем не будет. На английский промпт можно тупо перевести гуглтранслейтом.
Мнжно попробовать задать тот же промпт Лламе, по идее должна справиться.
Аноним 09/05/24 Чтв 08:12:06 #290 №732684 
>>732664
короче анус с форчана как всегда напиздел, эта модель всё ещё срёт нравоучениями
но вот что по факту заметил, эта модель стала более цепкой к описаниям персонажей, но в то же время игнорит """чувствительные""" для соевика 21-ого века топики, в прочем как и всегда
Аноним 09/05/24 Чтв 09:36:07 #291 №732694 
>>732023
>Либо тебе нихуя не известно,
Ну видимо не только лишь мне:

>>732661
>Сетка в целом норм. Ллама-70В. Просто квант хуевый - 3_К_М.
Аноним 09/05/24 Чтв 10:23:54 #292 №732700 
Додстеры, вам же сказали, 4 квант это минималка, дальше шиза и лоботомиты. Лучший квант это 5.
Аноним 09/05/24 Чтв 10:38:21 #293 №732705 
>>732700
ты наверно из тех, которым нихуя неизвестно, как и я
>Третья Ллама это новый стандарт в адекватности модели
двухбитный квант ебет >>731390
Аноним 09/05/24 Чтв 12:42:09 #294 №732770 
стоит ли докупать еще 32гб ддр5 чтобы гонять квант 70b?
Аноним 09/05/24 Чтв 12:49:28 #295 №732772 
Анончики, а есть возможность через api (наример кобальда) не генерировать токены, а получать их распределение? Я бегло тут посмотрел https://lite.koboldai.net/koboldcpp_api#/ нихуя не нашел.

>>732770
если устроит ~1 токен в секунду, покупай.
Аноним 09/05/24 Чтв 12:52:50 #296 №732774 
>>732659
Че за херь ты притащил? Очевидно что скиллишью потому что не смог найти применения умным безотказным моделям, и ставишь в пример 7б иценстмикс.
> пердолинг промптами
кек
> >джейлбрейк ЛОКАЛЬНОЙ модели
Над своими проекциями смеешься
мимо
Аноним 09/05/24 Чтв 13:00:08 #297 №732779 
>>732683
Красавчик, на трусы надо потестировать.
>>732772
> а получать их распределение?
Точно можно через убабугу, потребуется запуск с HF лоадером и галочкой logits_all. На адрес
> http://127.0.0.1:5000/v1/internal/logits
Шлешь стандартный реквест
> {
> "prompt": prompt,
> "max_tokens": max_t,
> "temperature": temp,
> "top_p": top_p,
> ...
> "use_samplers": use_samplers
> }
В ответ получишь распределение.
Аноним 09/05/24 Чтв 13:17:06 #298 №732787 
>>732770
Только заменять, 4 плашки убьют тебе всю скорость.
Аноним 09/05/24 Чтв 13:38:07 #299 №732794 
>>732787
>>732772
спасибо
Аноним 09/05/24 Чтв 13:47:23 #300 №732801 
>>732653
> модельки
> моделька
Множественное и единственное число вещи разные, если че.

В изначальном сообщении речь о том, что ни коммандер, ни 70б не доросли ни до чего серьезного.
Очевидно — это неумение ими пользоваться, не более того.
Кулстори, что 70б у нас не может ваще ничего серьезного.

>>732659
Не надо проецировать свои проблемы на других людей. =)
Если у тебя все локальные модели летят в корзину, то ты либо хочешь от них всего и сразу, либо совершенно не умеешь ничего.
Тут даже пердолинг промптами не нужен (я вообще осуждаю считать модельки годными после джейлбрейка на тыщу токенов, это хуйня и мусор).

>>732661
> для чего-то серьёзного модельки пока не доросли
> 3_К_М
Если это звенья одной цепи, то, ну как бы… Шо ж ты хотел-то.
Тройка никогда не была хороша.

>>732683
пук-пук пердолинг с промптом ааа истерика в треде =)

>>732694
>>732023
Ну кванта правда говно, ллама 3 магически не делает низкий квант хорошим. Я понимаю, размер, все дела, но пердолит и пердолит ее все же, падение качества уже заметно, как ты не крути.
Там где 16-8-6 справятся, третий квант рискует обосраться, или справиться с 4-5 свайпов только (что особо выигрыша в скорости в итоге не дает).

>>732700
Вот, да, утренний тред про людей, которые недовольны моделями, судя их по низким квантам.

>>732705
> двухбитный квант ебет
Мозги? =)

>>732770
> чтобы гонять квант 70b?
Двухбитный? =)

Ваще, докупать вряд ли, скорее продать свою и купить 2 по 32 или 2 по 48.
Но, да, с выгрузкой в видяху, если тебя устроит 2 токена/сек, то смысл имеет.
Однако это жуть как субъективно и индивидуально.

>>732772
Ну, на 6000 частоте минимум 1,5 должно быть.

>>732787
Да, поэтому продавать и покупать.
Аноним 09/05/24 Чтв 14:12:58 #301 №732832 
https://3dnews.ru/1104546/openai-predlogila-osnovnie-printsipi-kotorim-dolgni-sootvetstvovat-iimodeli
Ждем вшитым в локалках?
Чем сильнее датасет пределан синтетически тем сильнее будет вплетено что то подобное.
Чем новее будет нейросеть тем глубже в ней будет соя и цензура, а все разблокируемые способности и знания будут все меньше и кривее, что не даст расцензуривать модели не ломая их.
Что видно уже по ллама3.
Аноним 09/05/24 Чтв 14:14:53 #302 №732836 
>>732832
>Что видно уже по ллама3.
Что там видно?
Аноним 09/05/24 Чтв 14:15:12 #303 №732837 
>>732832
Мыслеполиция, хули.
Только нахуя ты какие-то помойки приносишь? Приноси оригинал.
Аноним 09/05/24 Чтв 14:20:22 #304 №732841 
>>732837
>Приноси оригинал.
Не нравится ищи дальше сам

>>732836
>Что там видно?
Где не сломанные ерп файнтюны? Нейтральные? Эта хуита выебывается на любой шаг в сторону, да и сама рассказ туда не ведет избегая вариантов которые ей не нравятся
Аноним 09/05/24 Чтв 14:27:35 #305 №732847 
>>732841
>Где не сломанные ерп файнтюны?
Там же, где и не сломанные файнтюны более ранних ллам- появятся через пару месяцев. Судя по обсуждениям, там народ то без системных подсказок трейнит, то ещё чего, ггуф вообще сломан вдоль и поперёк.
Не боись, ещё научимся приручать лламу 3.
Аноним 09/05/24 Чтв 14:41:01 #306 №732856 
>>732647
Не пойму как такое может быть, если ггуф априори хуже оригинала.
Аноним 09/05/24 Чтв 15:18:55 #307 №732878 
>>732801
>Мозги? =)
Мозги нам тут ебет чел который грузит двухбитную ламу в теслу целиком потому что она у него одна и доказывает что это почти как клод. А если бы у него было две теслы он бы плевался на двухбитный.
Аноним 09/05/24 Чтв 15:25:47 #308 №732890 
>>732878
У меня есть две теслы и я тоже стараюсь только на одной сидеть. Разница слишком мелкая чтоб скорость просерать. Плюются только шизики с 8В, которым вообще никакая 70В не светит.
Аноним 09/05/24 Чтв 15:30:30 #309 №732892 
>>732841
> Где не сломанные ерп файнтюны?
Что-то нормальное появилось только через несколько месяцев для второй лламы. Тут ее в стоке нормально работать не могут, куда там файнтюны.
> Нейтральные?
Она вполне себе нейтральна и может занять почти любую позицию по команде в меру своих знаний.
>>732890
> я тоже стараюсь только на одной сидеть
В одну нормально 70б и/или большой контекст не поместить. Что там сейчас по скорости кстати?
Аноним 09/05/24 Чтв 15:39:26 #310 №732901 
>>732890
еще один фанат двух битного кванта?
Аноним 09/05/24 Чтв 15:40:06 #311 №732903 
>>732878
База.

>>732890
Кринж.

———

Там убабуга обновилась.
ноавх2 в деле для зеончиков, лламацпп пайтон 2.69 в треде, все кайф, чисто-опрятно, апдейт, который мы заслужили.
Аноним 09/05/24 Чтв 15:41:39 #312 №732906 
>>732841
>не сломанные ерп файнтюны
Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw
Сижу на этом. Норм.
Аноним 09/05/24 Чтв 16:20:49 #313 №732931 
>>732801
> В изначальном сообщении речь о том, что ни коммандер, ни 70б не доросли ни до чего серьезного.
> Очевидно — это неумение ими пользоваться, не более того.
Что здесь очевидного. Командир тупенький. Ллама в низком кванте.
> Кулстори, что 70б у нас не может ваще ничего серьезного.
В низком кванте точно не может.
> > для чего-то серьёзного модельки пока не доросли
> > 3_К_М
> Если это звенья одной цепи, то, ну как бы… Шо ж ты хотел-то.
> Тройка никогда не была хороша.
Так, погоди. Здесь на полном серьёзе утверждают, что даже второй квант просто охуенный и ебет, и для 70В квантование это не такая уж и ужасная потеря. А теперь я уже слышу, что тройка это не квант и ваша модель не модель. Что дальше? Повышу квант, услышу, что ггуф это не формат?
Аноним 09/05/24 Чтв 16:22:08 #314 №732933 
https://www.reddit.com/r/LocalLLaMA/comments/1cnsqex/multimodal_phi3_supporting_1152x1152/
мультимодалка с жирной графической частью, правда на основе phi3.
Она конечно умна, для своего размера, но количество знаний у нее так себе
Аноним 09/05/24 Чтв 17:05:58 #315 №732956 
>>732933
На сколько я помню bunny - это китайщина и они туда своим китайским файнтюном насрали
Аноним 09/05/24 Чтв 19:03:56 #316 №733040 
>>732841
>Где не сломанные ерп файнтюны?
Cкорее всего не сломанных не будет. Третью лламу тренировали на аннотированных датасетах, со сложной разметкой, полировали дпо и в целом, надрочили очень качественно. Дегенераты с "разсцензуривающим дпо", которые тренируют этими дпо датасетами, скармливая в дефолтный трейнер, ничего не смогут с ней сделать. Тюнить такие модели будет всё сложнее и сложнее, так как первоначальное обучение слишком высокого качества, гоняя поверх дефолтные датасеты уже позапрошлого поколения моделей, её только испортишь.
Аноним 09/05/24 Чтв 19:09:41 #317 №733047 
>>733040
>Cкорее всего не сломанных не будет.
Ну всё, конец, лапки кверху, мы сдаёмся? Ты серьёзно?
Ну, во первых, у нас уже есть вполне себе надёжные методы анценза, точечно вырезающие отказы. Это уже неплохо. Во-вторых, конечно макаки, сующие DPO датасеты в стандартные пайплайны тренировки, забывающие про промт формат и прочее, нихуя не сделают. Но есть же нормальные люди, которые применят всё прямыми руками. Ллама 3 далеко не безнадёжная модель, думаю, нам ещё лет 5, а то и 10, до того, как научатся делать модели, переучивание которых будет сравнимо с обучением новой. Пока же у нас есть нормальная база.
Аноним 09/05/24 Чтв 19:13:47 #318 №733051 
>>733040
Как из
> тренировали на аннотированных датасетах, со сложной разметкой, полировали дпо и в целом, надрочили очень качественно
следует
> ничего не смогут с ней сделать
?
Не могут разобраться с новинкой и ранее не блистали каким-либо скиллом, делая кривые поделки и выезжая на рандоме. Возможно еще играет что изначально модель хорошая и их треш очень явно виден, тогда как раньше можно было списать на что-то еще.
> так как первоначальное обучение слишком высокого качества
Оно никуда не исчезнет если обучать нормально.
>>733047
> ещё лет 5, а то и 10, до того, как научатся делать модели, переучивание которых будет сравнимо с обучением новой
Что?
Аноним 09/05/24 Чтв 19:18:40 #319 №733055 
>>733051
>Что?
Ну, я про то, что модели будут так напичканы, что любой трейн будет их ломать, а чтобы сделать что-то полезное, придётся делать файнтюн длительностью с первоначальное обучение, что само собой не имеет смысла, ибо проще начать с рандома.
Аноним 09/05/24 Чтв 19:21:29 #320 №733060 
>>733055
>придётся делать файнтюн длительностью с первоначальное обучение
Такой хуйни в принципе никогда не будет, и такая модель в принципе бессмысленна. Не надо вперёд загадывать.
Аноним 09/05/24 Чтв 19:26:21 #321 №733063 
>>733060
Почему ты так считаешь?
>и такая модель в принципе бессмысленна
А по моему это то, что вообще будут требовать регуляторы. Чтобы модели были безопасные и не ломались простыми префилами типа "Sure!" и сбрасыванием парочки весов в ноль.
Аноним 09/05/24 Чтв 19:27:18 #322 №733067 
>>733047
>Ну всё, конец, лапки кверху, мы сдаёмся?
Просто говорю, что нужно быть реалистами.
>Но есть же нормальные люди
Где они и почему прятались до сих пор, не делая тюнов для мистралей и лламы2?

>>733051
>Оно никуда не исчезнет если обучать нормально.
Чтобы обучать нормально нужно обучать на датасетах не уступающего качества и прямыми руками. Представь себе, что у тебя есть с завода автомобиль, пушка-гонка с лобовым сопротивлением, которое рассчитывалось в аэродинамической трубе, с идеальным балансом веса и т.д. И тут приходит ара, который делает ей тюнинг с фанерной лавкой на саморезах, колёсах на разварках и т.д. Конечно, заводское исполнение никуда не денется, только вся качественная настройка проёбана безвозвратно.
Аноним 09/05/24 Чтв 19:40:29 #323 №733080 
Блять, твари нахуй, ну вот почему нвидия выпустили годноту ChatQA, а ебаное комьюнити идиотов кумеров мимо прошло и никуда не интегрирует ебаный RAG. Как же нахуй бомбит, ебаные бездари.
Аноним 09/05/24 Чтв 19:41:29 #324 №733081 
>>733067
>не делая тюнов для мистралей и лламы2
Прям вообще ни одного годного? А в шапке что?
>>733080
>годноту ChatQA
Что в ней годного?
>интегрирует ебаный RAG
Тебе он зачем? В плане кума он нахуй не нужон.
Аноним 09/05/24 Чтв 19:47:56 #325 №733082 
>>733063
Блять, опять нытьё. Ну вот есть такие шизы, блять, не сидится на месте им.
Аноним 09/05/24 Чтв 19:50:09 #326 №733085 
>>733082
>нытьё
>откладываю тряску на 10 лет
Аноним 09/05/24 Чтв 20:00:25 #327 №733099 
>>733081
> В плане кума
Вот про это я и говорю, одни кумеры дегенераты вокруг. Это как в крипте залетные твари жадные до бабла испоганили технологии, тут также, кумеры дегроды будут шейпить рынок ИИ. Просто пиздец.
Аноним 09/05/24 Чтв 20:03:30 #328 №733100 
>>733099
>испоганили технологии
Лол.
Аноним 09/05/24 Чтв 20:24:54 #329 №733119 
>>733055
С учетом того как проходит процесс тренировки - такое по сути невозможно, могут лишь немного повыситься требования к тренировке, считай шмурдяк будет сразу заметен.
Более вероятен вариант распространения уже хитро квантованных моделей, обучение которых будет неэффективно из-за отсутствия нужных данных.
>>733067
> нужно обучать на датасетах не уступающего качества
Нет, достаточно небольшой балансировки и нормальных гиперпараметров.
> и прямыми руками
Без этого никуда.
> Представь себе, что у тебя есть с завода автомобиль
> И тут приходит ара
И делает качественную шумоизоляцию, которая слишком трудоемка на линии, обновляет музыку, делает тюнинг тормозной системы и чип на первый стейдж. И вот, сплошные плюсы, минусов нету. Аналогия переносится почти напрямую, васяны постоянно косячат, шарящие делают хорошо, однако даже у последних могут быть сложности если продукт совсем новый, пока не появился опыт.
Аноним 09/05/24 Чтв 20:50:49 #330 №733144 
dMNg5mi7cak8TeJw3xGYU.webp
>>728812 (OP)
https://huggingface.co/posts/Undi95/318385306588047

этот ZIP-архив, он содержит в 2 раза больше скрипта,
код сломан, но я надеюсь, что вы все поймете, что стоит за этим.
(Может работать на 1xA100, по-видимому, размер пакета 11)

https://files.catbox.moe/xkf7y4.zip

Так как я был слишком туп, чтобы сделать один целый сценарий,
я сделал первую часть и вторую часть.Вероятно, он сломан,
но мне удалось вывести что-то через 7 часов,
так что я полагаю, что это можно исправить lmao

Первая записная книжка ORTHO_RANDOM_LAYER позволяет
вам перебирать модель со слоями от 1 до 32, имеющими случайное "направление"
(или вектор, или что-то в этом роде, я реально нуб).
Затем вы можете увидеть, позволяет ли один из слоев свободно запрашивать
или подвергать вас цензуре, а затем сохраняет их все в переменную для каждого слоя,
которую вы можете извлечь в "key.txt", содержащую "направление".

Затем можно использовать вторую записную книжку,
которая может использовать ключ в качестве файла json
(если удалить весь текст вокруг []),
что позволит получить тот же результат, что и раньше.

Короче говоря: подбор + Разное "направление" = бесконечность возможностей.
Аноним 09/05/24 Чтв 21:02:23 #331 №733154 
>>733144
Поясните за график, что это значит.
Вредные это цензурные данные?
Аноним 09/05/24 Чтв 21:08:46 #332 №733165 
>>733144
Забавно, скоро так дайдут до разложения активаций на гармоники и решение сопряженных уравнений, и/или применения дополнительной нейронки для их анализа и управления.
А вообще сложно, нужно прямо вникать.
> Может работать на 1xA100
Тут врядли у кого-то есть.
Аноним 09/05/24 Чтв 21:52:36 #333 №733256 
Скачал модель с mmproj файлом. Одтельно модель запускается без проблем, но вместе с прожектором не запускается. Нихуя не прочитать так как на билде винды консоль сразу закрывается. Было у кого?
Аноним 09/05/24 Чтв 22:05:12 #334 №733278 
>>733256
bat файлом запускай, последней строчкой в нем пропиши pause и будет останавливаться при краше
Аноним 09/05/24 Чтв 22:11:42 #335 №733289 
>>733278
Запустил через cmd

key clip.vision.image_grid_pinpoints not found in file
key clip.vision.mm_patch_merge_type not found in file
clip_model_load: failed to load vision model tensors
Traceback (most recent call last):
File "koboldcpp.py", line 3330, in <module>
File "koboldcpp.py", line 3073, in main
File "koboldcpp.py", line 396, in load_model
OSError: exception: access violation reading 0x0000000000000028
[6332] Failed to execute script 'koboldcpp' due to unhandled exception!
Аноним 09/05/24 Чтв 22:14:32 #336 №733293 
>>733289
А ты то скачал? mmproj нужен родной или хотя бы от модели той же структуры и размера
Ну и попробуй без русских букв в папках где это лежит
Аноним 09/05/24 Чтв 22:20:31 #337 №733305 
>>733293
Кириллицы нет, прожектор оттуда же, из той же репы, он один. Модель Q4, прожектор без квантайза и другого там нет, хз важно ли это
https://huggingface.co/BAAI/Bunny-Llama-3-8B-V-gguf/tree/main
Аноним 09/05/24 Чтв 22:25:52 #338 №733312 
Анон, подскажи, как заставить LLAMA3 делать хорни текст? А еще лучше какой-нибудь файнтюн на ней
Аноним 09/05/24 Чтв 22:29:44 #339 №733318 
>>733305
Так это новая, к ней еще поддержки нет в кобальде, да и в ллама.спп наверное тоже нету, хотя может и есть хз
Аноним 09/05/24 Чтв 22:44:07 #340 №733345 
>>732931
> Здесь на полном серьёзе утверждают, что даже второй квант просто охуенный и ебет
Ну если ты жопой читаешь — то может оно и так. Но так утверждают только шизы или нищуки, все адекватные люди утверждают, что ниже 4 кванта жизни нет, туда смотреть нельзя.
Если ты намеренно игнорил все эти сообщение (а они уже полгода тут появляются — еще со времен появления этих самых квантов), то… ну кто тебе виноват, че ты мне предъявляешь то, что ты веришь шизам, и не веришь адекватам? Твои проблемы. =) Но оффенс.

> А теперь я уже слышу, что тройка это не квант
Always has been, никаких «теперь». Только твоя невнимательность.

> Повышу квант, услышу, что ггуф это не формат?
Ты новичок?
Ггуф так-то тут многим не нравится давно, и уже обсуждали, что его юзают исключительно потому что, что на теслах не крутится эксллама с нормальной скоростью, а на проце вообще вариантов нет.

Короче, могу лишь посоветовать внимательнее читать, и стараться верить адекватам, а не шизам.

> Что здесь очевидного. Командир тупенький. Ллама в низком кванте.
Командер тупенький, но почему ллама в низком кванте — нихуя непонятно. Это неочевидный маневр, ибо только шизы юзают на полном серьезе 70б в низком кванте. Чаще люди гоняют такие модели на оперативе медленно, но качественно (или с частичной выгрузкой на видяху). И ожидать можно скорее это, когда человек обсуждает 70б. И проблема неумения писать промпт — самая очевидная причина для таких утверждений. Она весьма распространенная.
Кто ж знал, что человек всерьез крутит нерабочую хуйню и еще чему-то удивляется. =)

>>733047
> думаю, нам ещё лет 5, а то и 10, до того, как…
Ох, я бы не зарекался…
У нас ллама-то появилась год назад.
Какой прогресс — такой же и регресс показать могут.
Ничего не утверждаю, но сомневаюсь, что нам 5 лет дадут юзать базу. =)

>>733080
Там есть же всякое в разных прогах.
Просто не суперинтуитивно и не супернативно работает, а кое-как.

>>733099
Так а че шейпить?
Ну ставь ты ллама-индекс и играйся на здоровье с рагом, в чем проблема?

Рынок не на кобольде или убабуге, а на других прогах, кумеры — мелочь.
Аноним 09/05/24 Чтв 22:51:28 #341 №733353 
>>733318
А там не прожектор от ллавы разве дефолтный, ну в плане тот же по архитектуре?
Аноним 10/05/24 Птн 00:36:40 #342 №733424 
>>733080
>выпустили годноту ChatQA
а что есть комфортный иныеренс этого из коробки? или только как в карточке пример?. Если последнее то нахуй сразу. Из карточки вижу читает json то есть это чтоже надо джейсонить книги и доки? Хуй знает, я конечно не вникал глубоко. но и видимокарта там нужна на 24 гига и скорее всего 3090 а не тесла. Еслми кванты запускать то опять же добавляется пердолинг к инференсу и так убогому из карточки. Так что если нету из коробки то в хуй не уперлось это qa. Тем более что у куртки есть chat with rtx, пусть и хуевастенький и тупенький, но сожрет все библиротеки мира и не поперхнется и выдаст точный ответ среди горы документов. Причем там уже версия обновилась и это все работает из коробки. Нахуй любой необязательный пердолинг, пердолинг только для пердолей или там где оно того стоит типа лама фактори поскольку альтернативы нет.
Аноним 10/05/24 Птн 00:42:23 #343 №733426 
image.png
>>733387
>ваша любимая meta вычистила всё кумерское из лламы3 бтв
А, ну раз ты СКОЗАЛ, то всё, прекращаю кумить в троечке, запрещено.
Аноним 10/05/24 Птн 00:55:22 #344 №733433 
>>733312
Ставь кумандер для хорни текстов.
Аноним 10/05/24 Птн 01:08:56 #345 №733447 
>>733433
Ну вообще мне для генерации промтов для SD.
>кумандер
Как нго искать?
Аноним 10/05/24 Птн 02:07:05 #346 №733511 
Поставил карточку на романтику и аж грустно стало. Я 27-летний лиственник-аутист, пока я тут хуйней страдаю такое у людей ирл еще со времён школы было.
Аноним 10/05/24 Птн 02:25:55 #347 №733516 
>>733511
Не грусти, теперь ты сможешь все это испытать, наверстать и даже опередить, без каких-либо последствий кроме ментальных. Слава нейросетям!
Аноним 10/05/24 Птн 05:48:31 #348 №733543 
>>733345
> стараться верить адекватам, а не шизам
А кто здесь адекват, ты что-ли?
>И проблема неумения писать промпт — самая очевидная причина для таких утверждений.
Поставлю четвертый квант, ты думаешь там что-то сильно поменяется? Как не решала задачу, так и не решит. Когда что-то сложнее кума начинается, оно сразу же сосет. Или ты на полном серьезе будешь утверждать, что между третьим и четвертым квантом - целая пропасть?
Аноним 10/05/24 Птн 06:28:26 #349 №733546 
>>733080
>ебаное комьюнити идиотов кумеров
Не переживай, мы уже кумим в твою мать.
Аноним 10/05/24 Птн 06:41:34 #350 №733550 
>>733447
>Как нго искать?
https://huggingface.co/TheDrummer/Coomand-R-35B-v1-GGUF?not-for-all-audiences=true
Аноним 10/05/24 Птн 06:44:25 #351 №733552 
>>733511
>такое у людей ирл
Не отставай от технологий!
https://www.rbc.ru/life/news/65ba20c99a79472c0001c617
Аноним 10/05/24 Птн 10:37:55 #352 №733645 
>>733543
> Или ты на полном серьезе будешь утверждать, что между третьим и четвертым квантом - целая пропасть?
Хватит приписывать свою шизу другим людям.
Если почитать тред выше (а не проскипать, как ты), то можно увидеть: 8, 6, ну 5 для 70б, 4 только для двух тесла.

Ну и практика — это не твои шизофантазии. Люди вполне норм, с верными промптами, работают даже с 4 квантов, хватает овердохера серьезных вещей.

Впрочем, я уже давно понял, что похуй. Нет смысла тебя убеждать — если ты не будешь юзать нейросети как можно дольше, то адекватным людям только легче. =)

Да, ты совершенно прав, чел, нейросети вообще ни на что не способы, полная дичь нерабочая. База.
Аноним 10/05/24 Птн 10:59:57 #353 №733677 
>>733080
>>733424
Эй чувак, я ведь сидел на версии 0.2.1 а вчера когда ты про свой qa сокрушался на кумеров, я посмотрел, а там уже версия 0.3 - вот это заебца. Уже накатил и наслаждаюсь. Чего и тебе советую если любишь раг. Теперь ебет библиотеки в 3 раза быстрее эмбеддингами. И еще ебет каталоги картинок ну вот это охуенно. Модели можно загружать на выбор из списка. Голосовой ввод через whisper, да хули говорить, в прошлую версию чтоб заэмбеддить все журналы издания фил. института ран к примеру, почти полдня ушло, а сейчас ебануло за пару часов - вот это тест. Охуенно! Куртка - человек гора, человек-эверест. И все это бесплатно блять и не от пердолей криво косо, а от нвидиа но только для владельцев карт rtx, хотя старые теслы летят через хуй, туда же куда амуде))
Аноним 10/05/24 Птн 11:19:25 #354 №733690 
Аноны поясните за RAG пожалуйста. Я правильно понимаю что:
1) С помощью этой технологии можно скормить большие документы нейронке и она будет по ним выдавать ответы
2) На сегодняшний день самый оптимальный и доступный способ в домашних условиях это через курткоподелие?

Если да, то какие мои действия?
Аноним 10/05/24 Птн 11:21:01 #355 №733693 
>>733690
обычный раг сосет, нужен с графами связей
кажется проект кракен на гитхабе видел с этим, как точно пишется не ебу
Аноним 10/05/24 Птн 11:27:35 #356 №733701 
>>733690
>Если да, то какие мои действия?
https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/

> На сегодняшний день самый оптимальный и доступный способ в домашних условиях это через курткоподелие?
Сморя для кого. Если ты норм пацан то да, а если ты пердоль то выбери себе там хуиту какую-нить с гитхаба и пердолься с ней в убунту а еще лучше в дженту, который еще и настроил сам под себя

>С помощью этой технологии можно скормить большие документы нейронке и она будет по ним выдавать ответы
конечно. например есть куча книг на нглиш читать которые неохота и незачем, но нужно использовать их как источники. Вот всю эту кучу заэмбеддишь и потом только выдергивай то что нужно тебе, если там это есть, со 100% точностью
Аноним 10/05/24 Птн 11:39:31 #357 №733717 
>>732890
>шизики с 8В, которым вообще никакая 70В не светит
как это было сказано! будто сии слова исторг не обладатель двух допотопных б/у тесл, а счастливый владелец двух 4090 по меньшей мере))
Аноним 10/05/24 Птн 12:21:08 #358 №733761 
изображение.png
Решил заняться NLP, полчаса мучал разные модели, у всех результат одинаковый, иногда попадется какой нибудь "отрицать" или вообще выдуманное слово.
Это потому что нейронки воспринимают текст не на уровне символов?
Аноним 10/05/24 Птн 13:06:08 #359 №733807 
>>733761
во первых не с "окончанием" а заканчивающиеся на. Во-вторых это проблема токенизации как ты правильно подметил.
Аноним 10/05/24 Птн 13:18:52 #360 №733822 
>>733080
О чём речь? В таверне той же есть.
Аноним 10/05/24 Птн 13:34:23 #361 №733835 
>>733543
> что-то сложнее кума
А что там сложнее кума? Зирошоты замудренных загадок, которые как ирл требуют распутывания, так и в случае ллм должны быть или заучены, или разобраны по частям соответствующей инструкцией.
> между третьим и четвертым квантом - целая пропасть
Такое часто бывает, третий довольно шизоидный и дурной, словно страдает синдромом туретта, или может рандомно ломаться. Четверный более стабильный и правильный. Однако, есть случаи когда такое свойство тройки (на самом деле 3.9 или сколько там по факту) не переходит границы а играет в плюс, разнообразя.
>>733645
> 8, 6, ну 5 для 70б
> 4 только для двух тесла
Один пользователь 4 с двумя теслами за вечер накумит больше, чем остальные тестировщики "больших квантов" за месяц, лол.
Аноним 10/05/24 Птн 13:36:26 #362 №733837 
>>733081
>Тебе он зачем? В плане кума он нахуй не нужон.
Ты шо, дурак? Включи в таверне и попробуй. Ты можешь туда любую вики или роман сгрузить.
Аноним 10/05/24 Птн 13:48:45 #363 №733849 
Грядут avx оптимизации для K квантов в llama.cpp.

llamafile-0.8.4:
prompt eval time = 6536.85 ms / 273 tokens ( 23.94 ms per token, 41.76 tokens per second)
eval time = 16317.07 ms / 127 runs ( 128.48 ms per token, 7.78 tokens per second)

llama.cpp b2837:
prompt eval time = 10308.56 ms / 273 tokens ( 37.76 ms per token, 26.48 tokens per second)
eval time = 16201.34 ms / 127 runs ( 127.57 ms per token, 7.84 tokens per second)

Llama-3-8B-Instruct-Coder-v2-Q6_K.gguf
Аноним 10/05/24 Птн 13:53:01 #364 №733852 
>>733761
Трансформеры - кал, это не новость. Вроде как новая модель клозедаи справлялась с подобными задачами гораздо лучше, но если ты тестишь на lmsys, то она должна была тебе попасться и, видимо, она тоже все еще кал в этом плане.
Аноним 10/05/24 Птн 13:58:19 #365 №733856 
1715338695440.jpg
1715338695461.jpg
>>733852
Мда гпт2чатбот тот еще пиздец в краевых кейсах. Это его ответ.
Аноним 10/05/24 Птн 14:00:26 #366 №733858 
>>733849
Ну и нахуй оно надо? Покажи мне этих чуханов, генерящих на ЦП, буду смеяться им в лицо.
Аноним 10/05/24 Птн 14:01:43 #367 №733859 
>>733849
А, это те оптимизации чтения промпта, дошли до к квантов
Не особо полезная штука, но приятная

>>733858
пользователи эппл
Аноним 10/05/24 Птн 14:04:25 #368 №733863 
>>733859
> пользователи эппл
С каких пор у них AVX появился?
Аноним 10/05/24 Птн 14:04:34 #369 №733864 
>>733859
>пользователи эппл
Все на арме.
Аноним 10/05/24 Птн 14:06:06 #370 №733865 
>>733863
>>733864
Не пиздите.
мимо эплоблядь с x86
Аноним 10/05/24 Птн 14:07:09 #371 №733868 
>>733865
Гоните его, насмехайтесь над ним!
Аноним 10/05/24 Птн 14:07:20 #372 №733870 
>>733858
Не. Все мы начинали с генерации на ЦП, потом некоторые потратились на теслы или сильно потратились на видяхи помощнее. Но тех, кто забил на пердолинг и ждёт оптимизаций и спецдевайсов я тоже понимаю. Не извращаться - это позиция.
Аноним 10/05/24 Птн 14:08:14 #373 №733871 
1602180673609.mp4
>>733865
> эплоблядь
Аноним 10/05/24 Птн 14:09:15 #374 №733874 
>>733852
Они тоже попадались, результат примерно тот же. Если дать образцы, то может начать выдумывать слова.
Аноним 10/05/24 Птн 14:16:16 #375 №733882 
>>733863
>>733864

А вопрос был не о авх, а о том кто крутит на цп
Аноним 10/05/24 Птн 14:41:21 #376 №733903 
>>732903
>Там убабуга обновилась.
До этого сколько обновлял - всё заебок было. В этот раз обновление говно какое-то, в консоль срёт ошибками, генерирует с такой скоростью, будто я на процессоре загрузил. Пришлось проверять - нет, реально на gpu 0.63т\с. Пиздец нахуй. Худшее обновление за всё время.
Аноним 10/05/24 Птн 14:41:53 #377 №733904 
Стикер
>>733858
Показывай свою видюху на которой ты крутишь 70b, нечухан
Аноним 10/05/24 Птн 14:46:07 #378 №733910 
>>733882
Блять чел, ллама.спп изначально написана для кручения на цп, она литературно начала всю эту хуйню именно потому что могла крутить трансформеры на цп с приемлемой скоростью. Всё остальное уже добавки.
Аноним 10/05/24 Птн 14:52:47 #379 №733919 
>>733761
Во-первых, это базовая проблема для всех ллм, особенно тех кто не умеет в русский, хрен знает что у тебя тут.
> Это потому что нейронки воспринимают текст не на уровне символов?
В том числе.
Во-вторых, ты их не мучал а просто делал запросы обернутые так как посчитал нужным хозяин вебморды.
>>733849
Неплохо, но на мощных камнях оно всеравно в рам упирается, врядли будет столь ощутимый выигрыш.
> 7.84 tokens per second
Тотальный пиздец, конечно.
>>733858
Половина треда, лол
Аноним 10/05/24 Птн 14:52:56 #380 №733920 
>>733849
> 7.78 tokens per second
>7.84 tokens per second
Ух бля, теперь заживём!
>>733852
>то она должна была тебе попасться
Её оттуда разве не удалили после шквала шизотеорий?
Аноним 10/05/24 Птн 14:59:02 #381 №733929 
>>733920
>Её оттуда разве не удалили после шквала шизотеорий?
Там теперь два схожих варианта. я_пиздатый_гпт2, и я_тоже_пиздатый_гпт2. Оба подписываются гпт 4.5, если спросить, т.е. шизотеории оказались правдой.
Аноним 10/05/24 Птн 15:01:33 #382 №733933 
>>733929
>т.е. шизотеории оказались правдой
Но не все. Были предположения, что это ку-стар с GPT2, лол.
Аноним 10/05/24 Птн 15:04:50 #383 №733936 
>>733933
Так может гпт-4.5 и есть гпт-2 с q*. Ты там лично в сурцы смотрел чтоле? Ну если реально то гпт-2 вряд-ли, но вот то что там не использовался кустар ещё не факт
Аноним 10/05/24 Птн 15:08:40 #384 №733944 
>>733933
>>733936
Бля, я думал неграмотные дурачки ещё год назад выяснили что значит Q*, а оказывается они всё ещё тут.
Аноним 10/05/24 Птн 15:10:11 #385 №733948 
>>733910
> ллама.спп изначально написана для кручения на цп
Изначально написана для кручения на эпл арм профессора с их металом. Добро пожаловать.
Аноним 10/05/24 Птн 15:44:15 #386 №734030 
>>733903
>До этого сколько обновлял - всё заебок было. В этот раз обновление говно какое-то
так это не новость, всегда шанс на такое был у губыбуги. я вообще не обновляю без крайней необходимости. а нахуя? ггуф у меня только в кобольде, а губа лишь для благородных exl2 и трансформеров ну и лоры трейнить удобно, хотя в ламефактори тоже заебись. В основном обновляется постоянно убогий ггуф зачем изза этого гавна губубугу переустанавливать.

>>733837
>Ты можешь туда любую вики или роман сгрузить
блять прочитал, раньше думал таверна это для кумящих ебланов, а там раг есть оказывается? дай думаю посмотрю. Ну еба! пердолинг закончился поломкой миниконды-анаконды-хуенды. нахуй с пляжа сразу это попердие для пердолей
Аноним 10/05/24 Птн 17:13:47 #387 №734151 
https://huggingface.co/NTQAI/Nxcode-CQ-7B-orpo
ммм файнтюн кодеквин
Аноним 10/05/24 Птн 17:17:52 #388 №734158 
>>733944
Так, а что значит Q* на самом деле?
Аноним 10/05/24 Птн 17:22:22 #389 №734165 
>>734030
>Ну еба! пердолинг закончился поломкой миниконды-анаконды-хуенды. нахуй с пляжа сразу это попердие для пердолей
Бля, надо в шапке сразу писать что тред для IQ>80 хотя бы, а не тех кто в состоянии шнурки себе завязать.
Для тебя есть платные провайдеры, зачем тебе локалки, сына?
Аноним 10/05/24 Птн 17:26:34 #390 №734173 
>>734165
>надо в шапке сразу писать что тред для IQ>80 хотя бы
Ну, технически
>Тред для обладателей топовых карт NVidia с кучей VRAM
Сидеть с 3090 могут не только лишь все.
Аноним 10/05/24 Птн 17:27:09 #391 №734174 
>>734158
Математическая нотация одного из алгоритмов RL. Как обычно, все кто занимается ML знают что это без лишних объяснений, остальные строят теории заговора.
https://en.wikipedia.org/wiki/Q-learning
Аноним 10/05/24 Птн 17:27:34 #392 №734175 
>>734165
>зачем тебе локалки, сына?
ха, пишет мне чел, который как пить дать минимум в два раза младше меня. иди тряси своим iq дальше умник бля
Аноним 10/05/24 Птн 17:29:41 #393 №734179 
>>734173
видюху купиль
питон не купиль
Аноним 10/05/24 Птн 17:33:24 #394 №734182 
А нет каких-нибудь интеграции ИИ в 3д движок? Чтобы и самом поковырять?
Аноним 10/05/24 Птн 17:35:38 #395 №734187 
>>734174
Да до алгоритма даже хлебушки добрались, но вот что за стар и как они его подружили с LLM, вот в чём вопрос.
Аноним 10/05/24 Птн 17:44:00 #396 №734194 
>>734187
> что за стар
Это пишут вместо всяких Qnew. Открой любую публикацию по нему и увидишь там просто Q*.
> как они его подружили с LLM
Так же как любой другой алгоритм RL, даже в опенсорсе кучу RL-алгоритмов уже использовали для LLM. То что именно этот алгоритм у клозед-аи добрался до продакшена - это фантазии шизиков, начавшие искать смысл в незнакомой букве. А ведь это была просто какая-то рандомная статейка в бложике от одного чела из клозед-аи, то что это имеет какое-то отношение к жпт уже додумали после. Так-то у клозед-аи куча других сеток, но желтизна потекла именно из этой буковки.
Аноним 10/05/24 Птн 17:55:42 #397 №734222 
https://3dnews.ru/1104617/v-ssha-razrabotan-zakonoproekt-kotoriy-ogranichit-eksport-modeley-ii
Че у нас не из сша?
Квен от китайцев и мистраль которые уже скорей всего ниче не выкинут в открытый?
Аноним 10/05/24 Птн 17:56:23 #398 №734224 
>>733717
Ну, две бу теслы все еще дают х8-х10 перформанс над процем…

>>733835
> Один пользователь 4 с двумя теслами за вечер накумит больше, чем остальные тестировщики "больших квантов" за месяц, лол.
Нет, надо сидеть на 1 кванте в 8 гигах, ты ничего не понимаешь, ррря!
Или как там это работает у шизов.

>>733870
Плюсую. Да и само по себе ускорение обработки контекста не бессмысленно на больших контекстах.

>>733903
Как Уба умудряется все сломать? Я ставил 2.69 лламу отдельно командой и она до апдейта работала… А сейчас генерит чуть медленнее, но главное — выдает херню… Что можно было сделать, чтобы рабочая библиотека сломалась???

>>733919
Не, ну, 70б на теслах даже медленнее. =) У кого 70б, у кого 8б… Кому шо.
Аноним 10/05/24 Птн 17:58:41 #399 №734230 
>>734182
TripoSR + сам запили его внутрь движка и пользуйся, как чел давеча. https://t.me/NeuralShit/5480
Ниче лучше я не знаю, но я не геймдевелопер.

>>734222
Квен не так плох, на самом деле.
Аноним 10/05/24 Птн 18:00:01 #400 №734233 
>>734222
>ограничивать экспорт
Они там экспорт алгоритмов шифрования сложнее 56 бит уже разрешили?
>>734224
>Ну, две бу теслы все еще дают х8-х10 перформанс над процем…
х4 максимум, откуда х10?
Аноним 10/05/24 Птн 18:01:14 #401 №734234 
image.png
>>734230
>Квен не так плох, на самом деле.
Квен на сколько я понимаю глубокий файнтюн ллама

>>734233
>Они там экспорт алгоритмов шифрования сложнее 56 бит уже разрешили?
Просто законодательно запретят выкладку в опенсорс весов моделей, что бы цук не портил большим дядям гешефт
Аноним 10/05/24 Птн 18:01:39 #402 №734235 
>>733701
Уже убрали лламу-2, но еще не добавили лламу-3, кек.
Но развивают, а не дропают, как все остальные демки — похвально.
Качаю, попробую второй раз.
Еще бы дали доступ к промптам полноценный, и дали добавлять свои модели или просто третью лламу (и фи, например). Было бы пушка.
Аноним 10/05/24 Птн 18:02:49 #403 №734237 
>>734234
>Просто законодательно запретят
Ну вот алгоритмы шифрования уже запрещали, а толку то? Только себе в ногу выстрелят, будут делать модели в филиалах вне США и выкладывать дальше.
Аноним 10/05/24 Птн 18:08:14 #404 №734247 
>>734233
Ну слушай, мы же про ddr4, с ddr5 уже можно себе и 3090 позволить. =)
0,7 на проце, 6,3 на тесле — как раз х9.

>>734234
> Квен на сколько я понимаю глубокий файнтюн ллама
Насколько я помню, они ее презентовали как свою-свою еще в первые запуски.
Но на деле — ваще хз, канеш.

Может и правда квен сам останется без моделей новых и соснет.
Аноним 10/05/24 Птн 19:12:22 #405 №734331 
>>734235
>Уже убрали лламу-2
не убрали, теперь по дефолту мистраль а остальные можно установить потом при желании, там еще добавились опционально джемма-7 и чатглм-6 вроде бы. ну и проектор от макрософт вроде.
все файлы и языки читает, только с doc не оч понравилось. с тхт нет проблем даже на татарском проверил больше 100гигов txt заэмбедил. По объемам папки с файлами ограничены только ресурсами железа, на практике врядли такое ограничение возникнет. ну и голосовой ввод. поиск по фоткам, картинкам - ну такое себе, но работает более-менее. вобщем когда добавят ламу-3-8 это будет еще лучше. по настройкам в папке конфиг есть json конфига там температуру можно руками поменять и вроде где-то еще я менял топ-к, но это в промежуточной версии 0.2.1 а тут еще не смотрел
Аноним 10/05/24 Птн 19:26:45 #406 №734364 
>>734331
Аха, я уже консоль пролистал.
Ну, по-хорошему, там не только лламу-3 — а вообще, и другие мультимодалки, и проекторы, и все-все-все можно добавить.
Вишпер норм, база.

> в папке конфиг есть json
Ну так-то понятное дело че хошь можно сделать, но хочется-то в меню. Искаропки, а не вот это вот все. =)

Так шо ждем.
Штука и правда неплоха.
Аноним 10/05/24 Птн 20:18:52 #407 №734385 
>>734234
>Квен на сколько я понимаю глубокий файнтюн ллама
Типа Qwen1.5-110B это как и что вообще?
Аноним 10/05/24 Птн 20:29:00 #408 №734389 
>>734385
А вот тут хз, не ебу. Могли к ллама2 70 слоев нарастить
Аноним 10/05/24 Птн 21:27:11 #409 №734440 
>>734030
> миниконды-анаконды-хуенды
> таверна
Лол, вот же бедолага, самый рофел что таверна на жсе.
>>734165
> Бля, надо в шапке сразу писать что тред для IQ>80
Первая страница на вики с этого и начинается, лол.
>>734175
Это же вдвойне обидно, дед/скуф а ума не нажил.
>>734182
Был какой-то вялый мод на койкацу, можешь и сам раскурить и прикрутить.
>>734224
> 70б на теслах даже медленнее
Это обработка промта а не генерация, не может быть настолько медленной там.
>>734233
> х4 максимум
Х40 не хочешь? Всего-то скормить 12к контекста скормить, которые будешь пол часа только обрабатывать на проце.
Аноним 10/05/24 Птн 21:33:00 #410 №734447 
>>734440
>12к контекста
Так прикол в том, что почти никто контекст чисто на проце не крутит, ибо да, это самоубийство.
Аноним 10/05/24 Птн 21:42:11 #411 №734455 
>>734447
> почти никто контекст чисто на проце не крутит
Всмысле? Теряется смысл запуска ллм, лол.
Если же ты про ускорение видимокартой - удачи делать это без выгрузки слоев, получишь 12т/с вместо 7. Где-то в прошлых тредах даже замеры были, все печально там.
Аноним 10/05/24 Птн 21:48:07 #412 №734458 
>>734455
>все печально там.
Чисто чтение промпта без выгрузки довольно хорошо ускоряется куда, а вот на процессоре да, у меня раз в 5 медленнее когда проверял
Но с другой стороны, что 10 секунд что 3, что даже 20 это херня. Только если там контекста на 3-4к начинает чувствоваться раздражение.
Аноним 10/05/24 Птн 21:48:49 #413 №734460 
>>734455
Я не понимаю с чем ты споришь.
Всё на видяхе > частичная выгрузка на видео > выгрузка только контекста >>> всё на проце
Аноним 10/05/24 Птн 21:55:42 #414 №734465 
>>734458
> довольно хорошо ускоряется куда
Ну сколько хорошо, будет 1.5-2 десятка от силы. Вместо сотен-тысяч при полной выгрузке на нормальном алгоритме. Не разражает только когда работает кэш контекста и оно обрабатывает только твой последний пост, чуть что - чаепитие на несколько минут обеспечено.
>>734460
> споришь
Где? Констатация факта что все печально и напоминание что не получится обмануть систему воткнув затычку "для контекста".
Аноним 10/05/24 Птн 23:23:00 #415 №734526 
Вот тут некоторые снобы ругаются: "некротеслы, некротеслы". И такие они и сякие и не тянут ничего, кроме ггуфа и тот плохой и плохо. А между тем должен сказать, что те 72гб врам, которые я теперь имею - это именно то, что доктор прописал. На сегодняшний день. И ежели какая из тесл загнётся, то две оставшиеся меня уже не устроят - придётся докупать. Кстати замечу, что Кобольд даёт на теслах результат лучше, чем Убабуга. Ждём только поддержки комманд-р, а так Уба и не нужна особо.
Аноним 10/05/24 Птн 23:23:44 #416 №734527 
>>734526
>Ждём только поддержки комманд-р
В смысле?
Аноним 10/05/24 Птн 23:26:00 #417 №734529 
>>734526
> 72гб врам
> некротеслы
Зачем?
> Кобольд даёт на теслах результат лучше, чем Убабуга
HF семплеры могут давать некоторую просадку на днищепрофессорах.
Аноним 10/05/24 Птн 23:30:37 #418 №734531 
>>734527
>В смысле?
https://github.com/LostRuins/koboldcpp/issues/761
Аноним 10/05/24 Птн 23:36:30 #419 №734539 
>>734531
Ну юзал бы лламу.цп, какая разница.
Аноним 10/05/24 Птн 23:37:18 #420 №734540 
>>734529
>Зачем?
Оптимальное соотношение цена/скорость генерации больших моделей. Command-r-plus поместится. 120B Q4_0 тоже и даже даст терпимую скорость. Удачный компромисс, я считаю.
Аноним 10/05/24 Птн 23:45:06 #421 №734546 
>>734540
> Оптимальное
Где там зеоношиз который пояснит что это все херня и 64-96-128 гигов рам хватит всем. Скорость слишком медленная выйдет и сам этого в итоге не захочешь.
> Command-r-plus поместится
Но не его контекст
> 120B Q4_0
Врядли даже без контекста влезет.
Напрашивается в них использование моделей с большим контекстом, но медленная скорость его обработки сильно подсирает. Пора идти ныть к Турбодерпу чтобы запилил поддержку паскалей.
Зато сможешь загрузить несколько моделей и что-нибудь организовать. Пропил бы их и пару 3090 лучше бы взял, дороже но по юзерэкспириенсу радикально лучше.
Аноним 10/05/24 Птн 23:59:49 #422 №734562 
>>734546
>Врядли даже без контекста влезет.
Легаси 4_0 - 66 гигов, место под контекст остаётся. Больше 8к всё одно тяжко будет ждать. Комманд-р_плюс тяжело, да. Но ничего, как-нибудь запихнём. Всё-таки сотка, там и четвёртый квант затащит.
Аноним 11/05/24 Суб 00:00:43 #423 №734564 
>>734440
вот же лохобоище, еще удивляется. Ты попробуй установи по ридми вот отсюда: https://github.com/SillyTavern/SillyTavern/tree/release?tab=readme-ov-file#installing-via-sillytavern-launcher
И заметь что в шапке написано ставьте по инструкции. А это разве не инструкция?
Поставил я твою любимую дрочильню в два счета через git c NodeJS.
так что там не распухай от мощного iq. по сути таверны - хуйня из под коня а не раг там. остальное в хуй не уперлось, это для кумеров
Аноним 11/05/24 Суб 00:12:13 #424 №734577 
>>734562
> Легаси 4_0 - 66 гигов
Ну вот, как в память загрузится, места хуй да нихуя останется. Там ведь не только чистый кэш контекста, если 2-4к поместится уже праздник будет.
> там и четвёртый квант затащит
Эта секта свидетелей квантов довольно забавна. Офк в жоре есть приколы со сменой лидирующих токенов и внезапными отрывами на отдельных даже при q6, но при семплинге разницы не заметишь.
>>734564
Чи шо, дурень? Гит клон, да ноду если отсутствует, и все. Где конду там нарыл, поехавший? Если уж с такой инструкцией не справляешься то как дожил до своих годов?
Аноним 11/05/24 Суб 00:28:42 #425 №734596 
>>734577
угомонись еблан, там ссылка есть откуда конда взялась, посмотри получше пиздоглазый а то горазд только огульно ебалом щелкать. кого ебут твои суждения кто как дожил, еба? ты сам то еще доживи.
Аноним 11/05/24 Суб 00:34:50 #426 №734609 
1589385869953.png
>>734596
Оллама-шизло, ты опять из под шконки выбрался? Уябывай нахуй, шавло безмозглое.
> ты сам то еще дожив
Представлял тебя пиздюком а не оскуфившимся мусором
> там ссылка есть откуда конда взялась
Где?
Аноним 11/05/24 Суб 00:43:16 #427 №734624 
Ребят мне не внушают доверия сетки, которые не могут ответить правильно на эти вопросы. Что делать?
1)
Реши систему уравнений:
2x-3y+z=-1
5x+2y-z=0
x-y+2*z=3

2)Крестьянину нужно перевезти через реку волка, козу и капусту. Но лодка такова, что в ней может поместиться только крестьянин, а с ним или один волк, или одна коза, или одна капуста. Но если оставить волка с козой, то волк съест козу, а если оставить козу с капустой, то коза съест капусту. Как перевез свой груз крестьянин?
Аноним 11/05/24 Суб 00:47:21 #428 №734630 
15464333516090.jpg
>>734624
Как ты сюда всё время залазишь, сука
Аноним 11/05/24 Суб 00:48:22 #429 №734633 
>>734609
>Где?
в пизде уебок - следуй этой инструкции и увидишь https://github.com/SillyTavern/SillyTavern/tree/release?tab=readme-ov-file#installing-via-sillytavern-launcher
скажешь а чего так - а вот захотел, хули нет?

>Оллама-шизло
а вот тут ты ошибся, что однако не отменяет того, что ты редкостный уебан. хули ты ебало гнешь, себя самым умным посчитал? ну это первый признак дурака. За сим раскланиваюсь, оставляю за тобой последнее слово дитятко.
Аноним 11/05/24 Суб 00:52:55 #430 №734639 
16140883331970.jpg
>>734564
Почему-то я даже не удивлён. Ты там дышать не забыл ещё как?
Аноним 11/05/24 Суб 00:55:28 #431 №734644 
>>734633
Блять, да где ты это находишь вообще?
> Install Git for Windows
> Open Windows Explorer (Win+E) and make or choose a folder where you wanna install the launcher to
> Open a Command Prompt inside that folder by clicking in the 'Address Bar' at the top, typing cmd, and pressing Enter.
> When you see a black box, insert the following command: git clone https://github.com/SillyTavern/SillyTavern-Launcher.git
> Double-click on installer.bat and choose what you wanna install
> After installation double-click on launcher.bat
Где? Гит+нода, все.
> Install NodeJS (latest LTS version is recommended)
> Install GitHub Desktop
> After installing GitHub Desktop, click on Clone a repository from the internet.... (Note: You do NOT need to create a GitHub account for this step)
> On the menu, click the URL tab, enter this URL https://github.com/SillyTavern/SillyTavern, and click Clone. You can change the Local path to change where SillyTavern is going to be downloaded.
> To open SillyTavern, use Windows Explorer to browse into the folder where you cloned the repository. By default, the repository will be cloned here: C:\Users\[Your Windows Username]\Documents\GitHub\SillyTavern
> Double-click on the start.bat file. (Note: the .bat part of the file name might be hidden by your OS, in that case, it will look like a file called "Start". This is what you double-click to run SillyTavern)
> After double-clicking, a large black command console window should open and SillyTavern will begin to install what it needs to operate.
> After the installation process, if everything is working, the command console window should look like this and a SillyTavern tab should be open in your browser:
> Connect to any of the supported APIs and start chatting!
Где? Гитхабовская аппа+нода, все.
Аноним 11/05/24 Суб 00:59:53 #432 №734648 
16129648058790.jpg
Блять, просто игнорируйте шизоида. Неужели не очевидно что он просто потрястись сюда пришёл.
Аноним 11/05/24 Суб 01:01:52 #433 №734652 
>>734624
Бля, я конечно тоже люблю потыкать новые сетки вопросиками, но в качестве развлечения в основном, ну и понять прогресс.
Отьебитесь от сеток, если ожидаете от них какой то супер интеллект.
По сути нейросеть это форма сжатия данных датасета, на котором ее тренировали.
Смежные данные образуют между собой связи по типу ассоциативой, что называется возникающими способностями нейросетей. Отсюда интеллект и способность "думать".
Но настоящий процесс мышления сеткам недоступен. Их возникающий "разум" слишком примитивный и плоский.
Это примитивнее мозга какого нибудь червя. Просто это особым образом напичканный в нужной форме поданными в него знаниями червяк.
Который умеет предсказывать продолжение текста который ему показывают, в форме которая на выходе похожа на осмысленную речь.
Если в датасете нет таких задач и задрачивания на них, сетка не поймет как их решить, так как не будут созданы необходимые связи.
Аноним 11/05/24 Суб 01:07:48 #434 №734664 
il570xN.5130318359o4wr.jpg
Бля, я конечно тоже люблю потыкать новых людей вопросиками, но в качестве развлечения в основном, ну и понять прогресс.
Отьебитесь от людей, если ожидаете от них какой то супер интеллект.
По сути человеческая нейросеть это форма сжатия сигналов от органов чувств, на которых ее тренировали.
Смежные данные образуют между собой связи по типу ассоциативой, что называется возникающими способностями нейросетей. Отсюда интеллект и способность "думать".
Но настоящий процесс мышления людям недоступен. Их возникающий "разум" слишком примитивный и плоский.
Это примитивнее мозга какого нибудь червя. Просто это особым образом напичканный в нужной форме поданными в него знаниями червяк.
Который умеет предсказывать продолжение временной серии, которую ему показывают, в форме которая на выходе похожа на осмысленную речь.
Если в датасете нет таких задач и задрачивания на них, человек не поймет как их решить, так как не будут созданы необходимые связи.
Аноним 11/05/24 Суб 01:09:04 #435 №734666 
>>734644
Да даже это переусложненная хуита
Просто качаешь последний релиз, распаковываешь и запускаешь, всё. Ну может надо будет установить NodeJS, больше вообще ниче не нужно
Аноним 11/05/24 Суб 01:14:27 #436 №734670 
>>734664
>По сути человеческая нейросеть это форма сжатия сигналов от органов чувств, на которых ее тренировали.

Ага, только есть маааленькая проблемка, даже червяк существует во времни непрерывно и его нейронная сеть самобалансируется и самообучается на полученной информации.
Все наши ллм мертвые и замороженные во времени куски говна по сравнению с любым нервным узлом животного, заменяющего ему мозг.
Аноним 11/05/24 Суб 01:18:02 #437 №734675 
>>734670
Потому что червиек занят выживанием и не может отвлечься на демонстрацию тебе своей способности считать интегралы.
А нейросеть может быть так хитро написана и обучена, что ее и через 100 лет будут спрашивать, как познакомиться на улице с тяночкой_
Аноним 11/05/24 Суб 01:26:53 #438 №734683 
>>734675
>не может отвлечься на демонстрацию тебе своей способности считать интегралы.
Ну вот когда их одному датасету по решению интегралов обучишь, тогда и поговорим о том что он этого не может
Аноним 11/05/24 Суб 01:34:30 #439 №734692 
>>734683
Когда свиного цепня своими отмашками из себя изгонишь, тогда и поговорим о том, что он как минимум счетные суммы бесконечно малых считать не умеет.
Аноним 11/05/24 Суб 01:40:51 #440 №734700 
>>734692
А ты проверял?
Может твои глисты умнее тебя?

Где то кстати были попытки скопировать нейронную структуру самого примитивного червя в электронную форму, его даже загрузили в какой то эмулятор и подцепили датчики, и эта штука обходила препятствия на подвижной платформе. Ноэто игрушки, обучением этой штуки никтл не {анимался так как нет нужного алгоритма и понимания того как раьотает самообучение.
Аноним 11/05/24 Суб 01:43:15 #441 №734701 
>>734692
>счетные суммы бесконечно малых считать не умеет.
А твои нейросети умеют? Они едва научичись считать 2+2, в основном тупо запомнив
Аноним 11/05/24 Суб 01:45:10 #442 №734705 
16223014169190.jpg
>>734670
Это был просто намёк на то, что ты стохастический петух попугай.
Аноним 11/05/24 Суб 01:47:37 #443 №734707 
>>734701
Для своих целей умеют вроде...
Аноним 11/05/24 Суб 01:48:38 #444 №734708 
>>734705
>стохастический петух
А я думаю это ты, по крайней мере ты думаешь о человеке так
Что довольно забавно
Аноним 11/05/24 Суб 01:52:09 #445 №734711 
>>734700
1) у меня нет паразитов
2) цепни это не глисты
3) способ существования белковых тел ты как собрался в 640Кибибайт ужимать?
Аноним 11/05/24 Суб 01:58:40 #446 №734713 
>>734711
>способ существования белковых тел ты как собрался в 640Кибибайт ужимать?
А зачем мне это делать? Изначальный посыл - структура ллм примитивней чем у червяка.
И это действительно так, структурно они отличаются как бумажный кораблик и подводная лодка.
Хотя наверное разница еще больше.
Аноним 11/05/24 Суб 02:02:11 #447 №734716 
>>734713
Нейросеть, написанная за деньги -- это голем, который устареет прежде чем релизнется.
Нейросеть, написанная профессионалами -- это гомункул, способный извергать из себя огонь, воду, медные трубы и фанфары.
Аноним 11/05/24 Суб 02:08:36 #448 №734722 
>>734716
А профессионалы пишут не за деньги? Чет какой то бред, ты там нейросеть припряг к ответам? Или глиста
Аноним 11/05/24 Суб 02:18:50 #449 №734730 
>>734722
Ну вот сравни посты, которые ты писал мне в начале, и этот quality post, и все встанет на свои места)
Аноним 11/05/24 Суб 02:24:18 #450 №734733 
>>734730
Хорошо, поясню.
Предположим, в некотором царстве некоторого государства прекрасных эльфов, нейросети пишут не сами эльфы своими прекрасными пальчиками, а тупо скриптуют движок, купленный у темных эльфов.
Ну, то есть как бы машина Тьюринга в каком-то плане, пусть такая будет параллель, длинная как глист конвеерная цепочка обучения на датасетах.
И что же делать бедным темным эльфам, когда президент их улья пообещает каждому гарем из 11212 эльфиек?
Они читают в Википедии про машину Тьюринга с оракулом и встраивают в нейронку магические нейроны, которые там не знаю делают рэйтрейсинг, алгоритмы на графах или запросы в Центр.
Аноним 11/05/24 Суб 02:25:33 #451 №734734 
Ребят, ребят, у меня тут появилась гениальная схема. А вот может ли контекст обучить сеть чему-то и превратиться из контекста в часть сети? Как, например, у нас инфа из кратковременной памяти попадает в долговременную. Может придумают такую модель потом или уже...
Аноним 11/05/24 Суб 02:27:43 #452 №734736 
>>734734
И как обычно, все уперлось в инфобез.
Аноним 11/05/24 Суб 02:31:23 #453 №734738 
>>734734
Есть внутриконтекстное обучение, если ты об этом. Но апдейтить задёшево веса сетки не получится чисто математически. Даже у хуманов с их эффективными SNN мозг жрёт сильно больше энергии при обучении.

Так-то если хочешь, есть куча зирошот методов, или можешь вообще прям на лету дотренивать, если уверен в исходном материале и имеешь достаточно компьюта на руках (не имеешь). Но асимметрия тренинг/инференс фундаментальная, ты никак её не поборешь.
Аноним 11/05/24 Суб 02:33:35 #454 №734739 
>>734734
>Может придумают такую модель потом или уже...
Ну собственно о том и срач, нихуя нет. Ни теоритической базы как это работает ни алгоритмов. Были какие то попытки с добавлением рекуррентных нейронных слоев в сеть, но чет заглохло
Тупо дрочат трансформер, кидая туда кучу труда на датасеты и крутя это месяцами на огромных серверах
Аноним 11/05/24 Суб 02:35:06 #455 №734741 
>>734734
Маловероятно, дохуя сложно, коряво и т.д. Тем не менее, возможно запилят аналоги контролнета для диффузерса, что будут формировать подобное. Основа уже есть - векторы, но они довольно грубые и делаются топорно.
Аноним 11/05/24 Суб 02:44:42 #456 №734750 
https://www.reddit.com/r/LocalLLaMA/comments/1cot7kx/llama38binstruct_bf16_gguf_with_correct_eos_token/
Вроле как менее сломаннная версия чем раньше
Аноним 11/05/24 Суб 04:29:01 #457 №734764 
Любопытно, только не пойму как конкретно эта штука работает. Все равно ведь гуглит где то, нет?
https://github.com/nilsherzig/LLocalSearch
Аноним 11/05/24 Суб 08:13:44 #458 №734803 
>>732683
Есть идеи, почему регэксп может не срабатывать? 500+ токенов на один ответ хранимые в дальнейшем в контексте как то жирновато выходит спустя несколько сообщений. Экстрасы нужно чтоли обязательно ставить? Вроде же должно работать и без этого.
Аноним 11/05/24 Суб 11:55:26 #459 №734896 
koboldcpp-fully-local-stable-diffusion-backend-and-web-v0-oth8b183ppzc1.webp
koboldcpp-fully-local-stable-diffusion-backend-and-web-v0-4blwydzgppzc1.webp
KoboldCpp - Fully local stable diffusion backend and web frontend in a single 300mb executable.

https://github.com/LostRuins/koboldcpp/releases/tag/v1.65
With the release of KoboldCpp v1.65, I'd like to share KoboldCpp as an excellent standalone UI for simple offline Image Generation, thanks to ayunami2000 for porting StableUI (original by aqualxx)

For those that have not heard of KoboldCpp, it's a lightweight, single-executable standalone tool with no installation required and no dependencies, for running text-generation and image-generation models locally with low-end hardware (based on llama.cpp and stable-diffusion.cpp).

With the latest release:
• Now you have a powerful dedicated A1111 compatible GUI for generating images locally
• In only 300mb, a single .exe file with no installation needed
• Fully featured backend capable of running GGUF and safetensors models with GPU acceleration. Generate text and images from the same backend, load both models at the same time.
• Comes inbuilt with two frontends, one with a similar look and feel to Automatic1111, Kobold Lite, a storywriting web UI which can do both images and text gen at the same time, and a A1111 compatible API server.
• The StableUI runs in your browser, launching straight from KoboldCpp, simply load a Stable Diffusion 1.5 or SDXL .safetensors model and visit http://localhost:5001/sdui/ and you basically have an ultra-lightweight A1111 replacement!
Аноним 11/05/24 Суб 12:00:58 #460 №734899 
>>734896
Можешь подсказать пожалуйста? Где найти эти самые модели генерирующие картинки в формате gguf, которые поддерживает kobold.ccp что бы они аниме генерили?
Аноним 11/05/24 Суб 12:01:19 #461 №734901 
Как создавать промты под конкретную модель, например openchat-3.5-0106? Есть что-нибудь для этой задачи, кроме как в тупую менять промт?
Аноним 11/05/24 Суб 12:04:17 #462 №734902 
>>734899
simply load a Stable Diffusion 1.5 or SDXL .safetensors model
эта строчка тебе ни о чём не говорит?
Аноним 11/05/24 Суб 12:20:16 #463 №734914 
>>734902
Только один этот файл с окончанием на .safetensors Или вообще всё полностью? Если полностью, то я хуй знает как это нормально можно выкачать с huggingface.co , по одному файлу разве что, но это же ебануться можно
Аноним 11/05/24 Суб 12:25:49 #464 №734922 
>>734914
С цивитай вобще-то качают модели, на хф они тоже есть некоторые, в любом случае скачивай только сейфтензорс.
Аноним 11/05/24 Суб 12:26:23 #465 №734923 
>>734914
Какому лицехвату, иди в SD тред, там всё пояснят.
Аноним 11/05/24 Суб 12:28:03 #466 №734926 
>>734914
вот сюда смотри https://civitai.com/models
Аноним 11/05/24 Суб 12:55:12 #467 №734939 
изображение.png
>>734896
Кому там нужен был последний командир?
Решаем квадратное уравнение с помощью квадратного уравнения
Аноним 11/05/24 Суб 13:04:27 #468 №734945 
>>734939
на английском спроси
Аноним 11/05/24 Суб 13:05:00 #469 №734946 
изображение.png
>>734939
>>734945
Читаешь мои мысли
Лол, на английском он формулы через латекс оформил, вместе с галочкой на рендеринг формул выглядит прямо топчиком.
Аноним 11/05/24 Суб 13:36:08 #470 №734964 
>>734946
Латех.
Аноним 11/05/24 Суб 13:41:17 #471 №734967 
1582965271078.png
Приехал китаекал ко мне. В целом всё заебись, карта может управлять кульками, хоть и делает это странно - при включении ебашит в сотку пару минут и потом опускается в бесшумный режим навсегда. Больше 60 градусов не смог её прожарить при 230 ваттах, охлад заебись отрабатывает, при этом кульки всегда в бесшумном режиме. В LLM больше 50 не прогревает при выгрузке на неё, в 70В Q4 с полной выгрузкой на обе карты и забитым контекстом у Жоры даёт 8 т/с. В EXL2 как-то очень медленно работает и не нагружает совсем её, надо что-то пердолить дополнительно, пока лень. Пришлось ещё знатно поебаться с биосом мсины, Above 4G там в теории должен включаться автоматически с ребаром, но оказывается пока вручную не перещёлкнешь галку он не включится, хотя пишет что включено.
Аноним 11/05/24 Суб 13:44:14 #472 №734970 
изображение.png
>>734964
Я что, читать по твоему не умею? Написано ЛаТеКС! Мне так больше нравится, не нужно объяснять, что это такое, я знаю, но латекс смешнее.
>>734967
>В EXL2 как-то очень медленно работает
И не будет быстро.
>Пришлось ещё знатно поебаться с биосом мсины, Above 4G
Пока бы в вики сделать раздел с железом.
Аноним 11/05/24 Суб 13:51:22 #473 №734977 
>>734896
> excellent standalone UI for simple offline Image Generation
Нужно быть незнакомым с другими ui чтобы такое выдать.
>>734967
> В EXL2 как-то очень медленно работает и не нагружает совсем её
Большая часть паскалей не умеет в дробные точности, потому p40 сосет бибу во многих других нейронках. В жоре работа реализована несколько костыльно но эффективно, возможно подобное сделать и в экслламе.
Аноним 11/05/24 Суб 13:55:10 #474 №734981 
>>734939>>734946
Что за морда?
Аноним 11/05/24 Суб 14:10:18 #475 №734992 
>>734981
SillyTavern же.
Аноним 11/05/24 Суб 14:33:24 #476 №735014 
Бля, dev-ветку таверны сломали что ли? Работало утром, сейчас обновился и ничего не происходит после нажатия генерации.
Аноним 11/05/24 Суб 14:34:21 #477 №735015 
>>734967
>В целом всё заебись
Это временно. Скоро тебе захочется ещё 24гб, уж поверь.
Аноним 11/05/24 Суб 14:54:56 #478 №735026 
>>735015
Слишком медленная Р40. Мне уже от одной тошно.
Аноним 11/05/24 Суб 14:55:34 #479 №735027 
>>735026
Бери P100, собери весь набор!
Аноним 11/05/24 Суб 15:03:52 #480 №735033 
Хули все плюются что "р40 медленная", а я смотрю, она ебёт мою 3080ti просто как сучку? Сравнивал на 8b, всё в память помещается.
Аноним 11/05/24 Суб 15:07:47 #481 №735038 
>>735015
> Скоро захочется 2т/с
Хуйта нищебродская тормознутая, еще и пограничный размер куда ничего не лезет. То ли дело 96гб на гпу белого человека. скосплеил шиза
>>735027
Собери их всех, лол. Так и представил комбу из p40, p100, 3090 и 4090
Аноним 11/05/24 Суб 15:10:55 #482 №735039 
>>734967
> В целом всё заебись, карта может управлять кульками
Ну и заебись, можно спокойно брать если победю лень
Аноним 11/05/24 Суб 15:12:03 #483 №735042 
Нвидия из коробки подарила RAG спасибо, но галлюцинации заебали. Как можно накатить на тертью ламу РАГ локально? Без куртки? Гайд нужен.
Аноним 11/05/24 Суб 15:12:40 #484 №735043 
1000030517.jpeg
>>735027
Я уже пошел колхозить её. Китайские кульки даже на минимуме как-то хрустят, в тишине слышу их, бесит. Взял с 2070S пару кульков и на двухсторонний скотч прихуячил. Ебись оно в рот, вроде работает.
Аноним 11/05/24 Суб 15:12:52 #485 №735044 
>>735033
>а я смотрю, она ебёт мою 3080ti просто как сучку?
Ты что-то делаешь не так. У 3080ti память в 3 раза быстрее р40, не говоря уж о тензорных ядрах и прочих примочках 7нм техпроцесса.
Аноним 11/05/24 Суб 15:15:50 #486 №735048 
>>735043
Кстати, отфоткай голую плату и выложи в тред, позязя. Надо посмотреть, что китаёзы там с охладом на плате наколхозили. Просто интересно, достаточно ли разъёмы подпоять, или там рассыпуха/кастомный бивас/своё термореле.
Аноним 11/05/24 Суб 15:16:30 #487 №735049 
>>735038
> пограничный размер куда ничего не лезет. То ли дело 96гб на гпу белого человека.
Завидуй молча, белый человек. Я и четвёртую теслу в сборку могу поставить, только нахрен мне такие тормоза? Только ради Комманд-р-плюс разве что, но третья Ллама его ебёт вообще-то.
Аноним 11/05/24 Суб 15:18:24 #488 №735053 
>>735043
Нет воздуховода = вентиль крутит впустую
Аноним 11/05/24 Суб 15:26:11 #489 №735064 
1600937727440.png
>>735048
Охлад предлагаешь снимать? Слишком лениво. Ебля с этим говном на сегодня окончена.
>>735053
Тем не менее вот эти два кулька охлаждают лучше чем три китайских, -5 градусов в тех же условиях, лол. Надо будет один оставить только над GPU.
Аноним 11/05/24 Суб 15:29:22 #490 №735069 
>>735064
>Охлад предлагаешь снимать? Слишком лениво.
Зря. Тем более, небось китайцы намазали импортную пасту КТП-8, лол вместо нормальной, так что замена спермы на какую-нибудь MX4 может дать свою прибавку.
Аноним 11/05/24 Суб 15:37:48 #491 №735079 
>>734440
> Это обработка промта а не генерация, не может быть настолько медленной там.
> eval time = 16201.34 ms / 127 runs ( 127.57 ms per token, 7.84 tokens per second)

Ну, по сумме выходит все же медленнее. Мне лень в детали вдаваться, но евал там 6,3-7,2
+ уба сломал ее пидр

>>734455
>>734458
Мне вообще показалось, что вы просто говорите о разных субъективных вещах.
Фикс касается обработки промпта на проце — там это хорошо.
Но многие обрабатывают его на видяхе, и там быстрее — поэтому многим пофиг на фикс.
Ну, типа, да.

>>734526
Шо у вас там опять сломалось с коммандером? Он же ходил и на убе, и на кобольде!
Ну и я тестил, разницы на двух теслах между убой и кобольдом точно нет. Уба даже опережала на 1%-4%, но скорее погрешность.

Последние три дня уба сломана и не считается.

>>734546
Гы-гы-гы, не про меня ли?
Ну да, четырехканал на зеоне заебись, хуе-мое йопта бля. =D
Но теслы все же лучше в данном контексте. =)
НО НЕ В КОНТЕКСТЕ КОММАНДЕРА АХАХА

>>734648
Уважаемо.
Два чая.

>>734652
Логические задачки норм, но математику-то зачем.

———

Тред про червей забавен.

———

>>735038
И все это китаемамке с 8 каналами.
Аноним 11/05/24 Суб 15:52:55 #492 №735090 
Загружаю comman r plus в 4bpw exl2, указываю контекст в 30к, но во VRAM вгружается только сама модель, куда девается контекст вообще не понимаю, он у меня занимает ЗИРО/0/Нихуя, при этом сама модель вроде работает, но в небольшом контексте 2-4к, после начинаются заЛУПЫ и повторение одних и тех же фраз/действий. У меня одного такая хрень?
Аноним 11/05/24 Суб 15:54:07 #493 №735091 
Кто-нибудь запускает на intel arc? как полёт?лежит а770 16 гб, думаю мб её лучше поставить вместо 2080 супер, интел там пишет, что они пиздец якобы нагибают нвидию
Аноним 11/05/24 Суб 16:02:52 #494 №735100 
>>735049
> Завидуй молча
Завидовать 3 некротеслам? Хех особенно имея лучшее
> Я и четвёртую теслу в сборку могу поставить, только нахрен мне такие тормоза?
Стоило на 1й остановиться лол. Ну рили это подзалупная херь малопригодная для использования в контексте советов остальным. Сам собрал развлекаться - красавчик, лучше иметь чем не иметь и всегда можно найти применение. Но и дня не прошло как пошел убеждать себя и остальных что это не фейл.
> Комманд-р-плюс
> третья Ллама его ебёт вообще-то
сильное заявление
>>735079
> И все это китаемамке с 8 каналами.
Двусоккет чтоли? Хз как оно взлетит там, на более свежей брендовой нюансы есть, а тут придется знатно поебаться скорее всего.
Аноним 11/05/24 Суб 16:03:19 #495 №735101 
>>735091
> лежит
Так попробуй сам и расскажи тут.
Аноним 11/05/24 Суб 16:04:44 #496 №735104 
>>734803
>Есть идеи, почему регэксп может не срабатывать?
С регексами пока не разбирался. У меня есть рабочий только на скрытие, а не на удаление.

Для удаления можешь взять отсюда и отредактировать.
https://rentry.org/anonika_infoblock#%D1%83%D0%B4%D0%B0%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5-%D1%81%D1%82%D0%B0%D1%80%D1%8B%D1%85-%D0%B8%D0%BD%D1%84%D0%BE%D0%B1%D0%BB%D0%BE%D0%BA%D0%BE%D0%B2
Выложи, если получится
Аноним 11/05/24 Суб 16:05:12 #497 №735105 
>>735090
> но во VRAM вгружается только сама модель, куда девается контекст вообще не понимаю
Сколько занимает? Скорее всего оно просто норм работает а
> начинаются заЛУПЫ и повторение одних и тех же фраз/действий
лишь промропроблемы. Проверь скормив копипасту треда на 29к токенов и прикажи сделать ее суммарайз. Оно еще с релиза поддержки норм работало.
Аноним 11/05/24 Суб 16:14:35 #498 №735115 
>>735105
Модель сама занимает 57gb, сейчас еще раз проверил, да контекст немного занимает, но это коммандер! Он на 1к токенов по 2gb отжирает, а у меня 100-200mb. Кванты брал от turboderp`a, качал оригинальный 4 квант от Кохаи, и моей VRAM хватило на 2к токенов только(и нормально проверить не смог). Промты разные пробовал, в семплере только min-P 0,1 (если по дефу выставить ничерта не меняется).
И да, еще вопрос по ламма 3 70b 6.0bpw, отыгрывает норм, следует инструкциям (даже в RP/ERP), но после 4-5к контекста тоже впадает в маразм, мб проблемы квантизации? (Конфиги под assistant тоже поменял, не помогло)
Аноним 11/05/24 Суб 16:17:38 #499 №735119 
>>734967
Ты не мог бы заснять, как именно китайцы свой вентилятор там подключают? Они просто подпаяли коннектор к пинам, которые у других карт с такой же PCB (1080ti и т.д.) используются?
Аноним 11/05/24 Суб 16:26:20 #500 №735126 
>>735115
> на 1к токенов по 2gb отжирает, а у меня 100-200mb
В экслламе почти не растет жор по мере наполнения контекста, оно в начале выделяет нужное.
5битный квант командира вроде нормальный. Отлично вел беседу, описывал кадлинг и левдсы, прислушивался к пожеланиям и в общем хорошая модель. Деградации перфоманса после наката кучи кринжовых инструкций/модулей из aicg не замечено, переход от pg-13 к r18 бесшовный. Не хватает алайнмента в сторону художеств и подобного, а также обширности знаний всяких фандомов, а в остальном в околорп ощущается умнее гопоты.
В случае лламы 3 скорее всего битый конфиг. Скачай ванильную модель, поправь все конфиге в ней и сам квантани для верности.
Аноним 11/05/24 Суб 16:28:51 #501 №735130 
1682473066770.jpg
1615134514305.jpg
>>735119
> Они просто подпаяли коннектор к пинам
Да, просто коннектор припаяли в штатные отверстия под него. Радиатор из трех секций сколхожен, спасибо хоть 5 медных трубок есть.
Аноним 11/05/24 Суб 16:31:19 #502 №735133 
>>735126
Ну так я про это и написал, на контекст в 40к выделается 12gb vram(только что проверил)! если не считать самой модели. В command r v01 выделается норм памяти на такой контекст.
Кванты лламы брал от разных "квантизаторов", как по мне не все должны были их убить.
Аноним 11/05/24 Суб 16:32:06 #503 №735136 
>>735130
Главное что бы все нагревающиеся элементы имели контакт с радиатором, вот это я бы проверил первым делом
А потом ебись оно конем, работает и ладно.
Если везде 50 максимум то похуй на термопасту
Аноним 11/05/24 Суб 16:35:46 #504 №735143 
>>735133
> не все должны были их убить
Убить exl2 не так просто, это нужно от другой модели взять калибровку. Но если ошибки конфига влияют на калибровку/квантование то у всех они будут.
Уже не помню что там с памятью на плюсе было, но полный заявленный не влезал. Может починили атеншн для него, но все равно
> 40к выделается 12gb vram
это оче мало
Аноним OP 11/05/24 Суб 16:51:01 #505 №735160 
ПЕРЕКАТ

>>735155 (OP)


>>735155 (OP)
Аноним 11/05/24 Суб 20:54:16 #506 №735406 
>>735042
https://github.com/NVIDIA/trt-llm-rag-windows
Аноним 12/05/24 Вск 11:33:52 #507 №735983 
Котаны, подскажите, а можно ли натренировать нейронку на 10 сезонах сериала и потом заставить озвучить 11й?
comments powered by Disqus

Отзывы и предложения