24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №44 /llama/

 Аноним 06/03/24 Срд 09:48:26 #1 №661076 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
Тесла P40 с двумя улитками.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>654587 (OP)
>>647548 (OP)
Аноним 06/03/24 Срд 09:51:57 #2 №661083 
>>660827 →
>оперативы выше на 50%,
150ГБ/с всё ещё значительно меньше, чем 960ГБ/с.
>>660833 →
>все будут свободны от рабства у дженсена "куртки" хуанга
Никуда хуанг не денется, мы с ним навсегда.
>>661060 →
Ультимативного, у которого есть вообще всё, вроде не определилось. Написал про поиск вообще на всём хайгинфейсе.
>>661065 →
>В каком смысле?
В том, что твоя видеокарта не видеокарта, а средство вывода изображения на монитор и траты ценных линий PCI-E на говно.
Аноним 06/03/24 Срд 10:02:07 #3 №661100 
>>661083
>видеокарта не видеокарта
Это-то понятно. А не работает-то хули?
Аноним 06/03/24 Срд 10:16:07 #4 №661120 
>>661100
Написал же, потому что ты пытаешься запустить либу поддержки для видеокарт на затычке. Так оно работать никак не будет. Приобрети видеокарту (RTX последних двух серий), или не трогай clblas.
Аноним 06/03/24 Срд 10:42:47 #5 №661162 
>>660459 →
> Но не повод руки опускать, все будет, особенно если стремиться к лучшему а не начать обустраивать комфорт и оправдывать.
Ну это тоже верно, конечно.

>>660481 →
З — зажрались. ) Кто-то сидит на трех 4090, и смотрят на нас как с той картинки.

>>660908 →
Да, там русский очень неплох.
НО, ты решил проблему неостановимости его пиздежа? =D Я даже не пытался, канеш, может там легко.
Но он пишет и пишет, пока токены не кончатся.

>>661083
> В том, что твоя видеокарта не видеокарта
Но она есть, такие дела. =) Яжеговорил!
Аноним 06/03/24 Срд 10:45:03 #6 №661166 
image.png
image.png
Как обладатели трех 4090 смотрят на обладателей двух P40.
@
Как обладатели процессоров смотрят на обладателей 3060
Аноним 06/03/24 Срд 10:58:17 #7 №661183 
image.png
>>661065 →
>Жму пинус.
>Рыкса 547
>error -1001
Было что-то подобное. Суть в том, что opencl не видит видимокарту. Уже не помню, как решил, в любом случае советую пересесть на rocm, на нём быстрее считается. Либо вулкан, не так быстро, но всё равно лучше clblast, и к тому же должно быть гораздо более совместимо и требовать меньше пердолинга. Вулкан вообще без особых проблем поддерживается уже давным давно, ставится по дефолту без доп. манипуляций практически на любых дистрах.

Если хочешь всё-таки пердолить opencl, то начни с clinfo. Должно быть что-то типа пикрил. У меня так на старой версии системы, которую я пока не обновляю из-за лени, при обновлении отвалилось, стало рапортовать, что "number of platforms: 0". Возможно потребуется запускать с переменной окружения ROC_ENABLE_PRE_VEGA, сурс: https://github.com/ROCm/ROCm/issues/1659
Также на всякий случай убедись, что у тебя вообще установлены требуемые зависимости (rocm opencl runtime, ocl-icd).
Аноним 06/03/24 Срд 11:04:50 #8 №661192 
>>661183
>стало рапортовать, что "number of platforms: 0"
И как раз одновременно с этим koboldcpp и llamacpp стали выдавать -1001, забыл упомянуть.
Аноним 06/03/24 Срд 12:58:48 #9 №661379 
>>660939 →
Старые, но не то чтобы за это время много годноты в таком формате выходило. Микстраль сам по себе не понравился, а поделки на его основе пиздец большей частью.
> Это может быть из-за хуевого лорбука?
Еще как
>>661162
> Кто-то сидит на трех 4090
Немалая часть китайских энтузиастов и работяг, 4+ дефолт, это буквально наиболее ходовая карточка для ии, и по заявлениям большую часть их скупают именно для этого а не играть. Потому и всратые турбо версии пользуются спросом.
> пишет и пишет, пока токены не кончатся
ban eos token?
>>661166
лол
Аноним 06/03/24 Срд 13:51:26 #10 №661436 
>>661166
>Как обладатели трех 4090 смотрят на обладателей двух P40.
После покупки трёх 4090 + всё необходимое для такой системы у них на костюмчики денег не хватит :)
Аноним 06/03/24 Срд 15:42:00 #11 №661626 
Аноны, какая инфа верна
EXL2 превосходит GPTQ по скорости но больше весит в VRAM
EXL2 превосходит GPTQ по скорости и весит так же

У меня чет оба утверждения нихуя не так(
Аноним 06/03/24 Срд 15:49:30 #12 №661640 
>>661626
А как?
Аноним 06/03/24 Срд 15:51:42 #13 №661646 
>>661640
Чет у меня GPTQ на 13б быстрее чем Exl2.
А вот уже 20б EXL2 быстрее gptq(он тупа не помещается в vram).
Аноним 06/03/24 Срд 16:17:48 #14 №661693 
>>661626
Все зависит от фактической битности. В gptq существуют дополнительные параметры (act order, group size) что влияет на размер, exl2 вообще с дробной битностью и она может быть любая. При равных размерах они будут иметь +- равную производительность и потребление при запуске через exllama. Если размер будет больше или меньше - будет обратный эффект.
>>661646
Скорее всего они просто разные, сравни сколько весят.
Аноним 06/03/24 Срд 16:41:58 #15 №661753 
>>661693
Ясно, спс
Аноним 06/03/24 Срд 17:38:27 #16 №661879 
Запускаю koboldcpp в колабе. Почему он так мало моделей поддерживает? Хотел запустит mistral instruct 7B Q_4 пишет, что модель не поддерживается. Как это понимать? Я что-то делаю не так?
Аноним 06/03/24 Срд 17:59:26 #17 №661948 
Посоветуйте модель для 16врам+64 оперативки, чтобы она из SFW в NSFW не переходила по щелчку (а то пишу, небольшой панцушот —и всё, тянка лезет ебаться и просит быть нежной в первый раз)
Аноним 06/03/24 Срд 18:48:20 #18 №662036 
>>661948
В прошлом треде советовали TeeZee_DarkForest-20B. Достаточно неплохая, гоняю какое-то время. Гораздо меньше говняка, чем во многих потроганных 13b до этого, меньше уровень соевости. Иногда пишет за меня, но тут либо настройки виноваты, либо хуй знает, в промпте есть прямое указание этого не делать, не работает. Тяночка не накидывается жопой на хуй, как только услышит твой голос, даже наоборот. Мне понравилось устраивать драму с няшей-стесняшей, которая не готова ебаться на первом свидании и это работает, главное указать модели все исходные. Словарный запас ещё неплохой, меньше дефолтных фраз, которые заёбывали лично меня на буквально всех 13b. В нищебродском кванте влезает в 14 гигов с 4к контекста.
Аноним 06/03/24 Срд 18:51:17 #19 №662044 
>>662036
А как вообще делать лорбуки и персонажей? Где это удобнее, есть ли какой-нибудь годный референс? Хочу чётко прописать окружающие локации и персонажей, но вроде как не зря же есть персонажи и лорбуки, да?
Аноним 06/03/24 Срд 18:56:46 #20 №662055 
>>662044
Хуйня это всё. Карточки персонажа можешь найти в интернетах, дохуя их. Локации описывать вообще не советую. Если засунуть это в карточку, то ты проебёшь драгоценный контекст, если в первый пост, то рано или поздно это всё равно уплывёт. Ты можешь просто время от времени сообщать сетке, типа they arrived at a cozy cafe и этого достаточно, она выдумает всё остальное и распишет тебе.
Аноним 06/03/24 Срд 19:14:24 #21 №662077 
>>662055
Лорбуки подгружаются в контекст динамически, по ключевым словам, если что.
Аноним 06/03/24 Срд 19:39:14 #22 №662104 
>>661076 (OP)
Extensive LLama.cpp benchmark & more speed on CPU, 7b to 30b, Q2_K, to Q6_K and FP16, X3D, DDR-4000 and DDR-6000
https://old.reddit.com/r/LocalLLaMA/comments/14ilo0t/extensive_llamacpp_benchmark_more_speed_on_cpu_7b/

Бенчмарк Llama.cpp на разных CPU
https://openbenchmarking.org/test/pts/llama-cpp
Аноним 06/03/24 Срд 19:49:22 #23 №662114 
>>662077
А, вот в чём прикол. Типа, если я напишу, пальцы тяннейм холодные в лорбуке, то если в лорбуке есть полное (?) совпадение с пальцами, то он возьмёт описание за референс?
Аноним 06/03/24 Срд 20:07:16 #24 №662132 
>>662114
Да.
Конечно, контекст забивается, но не всем лорбуком, а только нужными для последнего сообщение описаниями. Так что лорбук — ето очень хорошо.
Но сложно. =)
Аноним 06/03/24 Срд 20:16:42 #25 №662149 
>>661879
> koboldcpp
> в колабе
В коллабе нет смысла выгружать в обычную рам, потому и нет всмысла в llamacpp и koboldcpp. Чем из шапки коллаб не устраивает? Там можно любую модель с обниморды стянуть.
>>661948
Насчет модели - все те же 20б, пожалуй, может 34б нормальную скорость выдаст попробуй. А переход можно контролировать промтом, напиши что нсфв нежелательны, или для их начала нужны решительные действия юзера.
Аноним 06/03/24 Срд 20:22:06 #26 №662155 
>>661879
Любые не сломанные gguf должен запускать. Может, ссылку на модель неправильную вставляешь? Я сейчас проверил эту https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf - всё загрузилось без ошибок. Олсо, тупой вопрос, но не путаешь колаб koboldcpp с древним KoboldAI колабом? Последний совсем устарел и ничего толком не умеет. Ну и добавлю, что если 7б там гонять, то лучше выше квант брать. С 4к контекстом и q8 целиком влезет, скорее всего.
Аноним 06/03/24 Срд 20:59:48 #27 №662203 
Где брать новые модели?
Что с Блоком?
Аноним 06/03/24 Срд 21:10:29 #28 №662213 
>>662155
Да, спасибо анон!
Не обратил внимания и вставлял эту:
https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/blob/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf
Надо было брать ссылку с download.
Аноним 06/03/24 Срд 21:13:57 #29 №662219 
>>662149
>Чем из шапки коллаб не устраивает?
Не очень доверяю скриптам с двача))
Знаю, что параноик)
Надо сначала сурскод глянуть, что будет сложновато так как не знаю питон
Аноним 06/03/24 Срд 22:25:44 #30 №662304 
image.png
>>661183
>Также на всякий случай убедись, что у тебя вообще установлены требуемые зависимости
Оно. Поставил opencl-clover-mesa и все норм работает, но только на нуле слоёв, иначе теперь вот такая ебола. Даже 1б модели при любом размере контекста.
ggml_tallocr_alloc: not enough space in the buffer to allocate blk.26.ffn_gate.weight (needed 62390272, available 62361600)
GGML_ASSERT: ggml-alloc.c:110: !"not enough space in the buffer"
Аноним 06/03/24 Срд 22:49:00 #31 №662341 
>>662304
>opencl-clover-mesa
У меня работало именно амудэшное, называется обычно rocm-opencl-runtime или что-то в этом духе, в зависимости от дистра название пакета может варьироваться. В версии rocm 5.7 произошёл переезд на clr, но лично у меня это на полярисе работать отказывалось, ну а я не стал пердолиться, остался пока на старой версии. Так что в любом случае рекомендую версию не выше 5.6.
А что там у mesa, я не пробовал, поэтому ничем помочь не могу.
Аноним 06/03/24 Срд 23:05:31 #32 №662366 
image.png
Что значат эти буквы? И где про них почитать можно?
Аноним 06/03/24 Срд 23:05:40 #33 №662367 
>>662341
Пон, буду тестить.
Аноним 06/03/24 Срд 23:43:21 #34 №662432 
>>661076 (OP)
Коллаб перестал работать.
Аноним 07/03/24 Чтв 00:23:08 #35 №662468 
изображение.png
>>662366
ШАПКА.
>>662432
Покажи что за ошибка.
Аноним 07/03/24 Чтв 00:27:23 #36 №662474 
>>662468
>ШАПКА.
так там вроде какие то новомодные кванты в которых хуй че поймешь, и в шапке этого нет
Аноним 07/03/24 Чтв 00:31:20 #37 №662479 
IMG1147.jpeg
>>662468
Аноним 07/03/24 Чтв 01:02:08 #38 №662500 
>>662474
Тогда как всегда, по аналогии да смотри в размер. Мне вот всё понятно, я давно преисполнился.
>>662479
Гугловцы что-то в базе обновили, вот и полетели зависимости. Надо обновлять сами инструменты, это может сделать владелец блокнота, ну или форкнуть и поправить.
Аноним 07/03/24 Чтв 02:35:09 #39 №662533 
Слышал, что Гугл предлагает Колаб Про, в котором можно арендовать целую A100. Интересно мне, сколько это стоит и можно ли сделать это из России без особого геморроя?
Аноним 07/03/24 Чтв 08:01:04 #40 №662635 
>>662533
> можно ли сделать это из России без особого геморроя?
Платный колаб в РФ всегда был недоступен, тут даже все эти новомодные санкции не при чем. Так что как минимум, тебе нужен аккаунт Гугла не из СНГ. Вариантов оплатить сейчас полно, есть спрос - есть и предложение.
Аноним 07/03/24 Чтв 09:18:08 #41 №662653 
>>662533
Так есть и отечественные сервисы по аренде вычислительных мощностей
Аноним 07/03/24 Чтв 09:54:55 #42 №662660 
>>662474
>так там вроде какие то новомодные кванты в которых хуй че поймешь, и в шапке этого нет
глянь этот график, примерно поможет понять что почем
https://github.com/ggerganov/llama.cpp/pull/5747#issue-2155999995
Аноним 07/03/24 Чтв 09:58:09 #43 №662662 
>>662219
Я контрибутор СиллиТаверны, ей тоже можешь не доверять теперь. =)
Аноним 07/03/24 Чтв 11:05:42 #44 №662698 
>>662533
Зачем тебе, если есть vast.ai?
>>662653
Есть, но они в 2 раза дороже.
Аноним 07/03/24 Чтв 12:15:04 #45 №662774 
>>662500
Сам я не понимаю что править.
Аноним 07/03/24 Чтв 12:34:35 #46 №662793 
Аноны, помогите: обновил кобольда до последней версии, теперь выдает ошибку could not load text model daringmaid-20b.Q4_K_M.gguf
Аноним 07/03/24 Чтв 12:44:15 #47 №662805 
>>662660
пасиба анон, добра
Аноним 07/03/24 Чтв 12:48:16 #48 №662808 
>>659763 →
>ИМХО, лучше 3-4к контекста и 5-битный квант. Там будет чуть лучше.
Спасибо, это был полезный совет.
Аноним 07/03/24 Чтв 13:14:10 #49 №662832 
>>662793
upd:
сам починил: даунгрейднул до более ранней версии.
Аноны-ньюфаги, не будьте как я, не пытайтесь улучшить то, что и так хорошо работает.
Аноним 07/03/24 Чтв 13:25:01 #50 №662844 
>>662635
>Вариантов оплатить сейчас полно, есть спрос - есть и предложение.
Погуглил - действительно, есть варианты. Типа даёшь продавцу аккаунт Гугла и тебе на него оформляют подписку. Почему они при этом не продают ещё и аккаунты Гугла непонятно - недоработка. Вроде бы за час работы с A100 Гугл хочет полтора доллара. Из плюсов - есть куча блокнотов под разные нужды и ничего почти настраивать не надо; из минусов - могут забанить "за нарушение" или за доступ из России и деньги пропадут. Вопрос в том, какие есть альтернативы.
Аноним 07/03/24 Чтв 14:06:49 #51 №662902 
>>662844
Там ведь было немало ограничений, не? На других сервисах аренды за А100 просят в районе 2$ но делать уже можешь все что хочешь.
Аноним 07/03/24 Чтв 14:30:33 #52 №662952 
Брать п40 или нет? И если брать - где для неё улитку можно надыбать?
Аноним 07/03/24 Чтв 14:44:44 #53 №662982 
Почините, пожалуйста, коллаб, кто в этом разбирается.
Мне на свою 3060 нет смысла ставить 7б тупицу.
Аноним 07/03/24 Чтв 14:46:08 #54 №662983 
>>662952
>Брать п40 или нет?
Одну брать смысла нет, а две и больше - уже целый квест. Если хочешь взять одну, то и правда лучше попытаться поймать на Авито 3090 подешевле.

Улитки - гуглишь 4020T и берёшь две. Они двухпиновые, так что придётся думать ещё и об управлении скоростью их оборотов. Одна, но большая улитка может тупо не влезть в корпус, но такие как правило четырёхпиновые.

Вообще рекомендую для начала выполнить старинный индейский ритуал "нахуа" :)
Аноним 07/03/24 Чтв 14:57:53 #55 №663003 
>>662983
>Одну брать смысла нет
?
Аноним 07/03/24 Чтв 15:16:11 #56 №663029 
>>662952
улитку можешь на авито взять, за 2.5к. хорошо охлаждает, 4.5к об/мин.
Аноним 07/03/24 Чтв 15:18:59 #57 №663036 
>>663003
Да, может быть спорно. Но исхожу из того, что одна видеокарта всё равно нужна, а даже дешёвая 40 серии сейчас стоит сравнимо.
Аноним 07/03/24 Чтв 15:26:27 #58 №663054 
>>661076 (OP)
Зашёл поспрашивать. Кто-то пользовал gemma? Как оно?
Также в фочонговских тредах видел, что не рекомендуют пользовать 13b модели, мол *x7b лучше. Так вот, попользовал несколько моеделй 4x7b разных, такое ощущение, что местами у них более глубокое понимание текущего, ближайшего контекста, но они теряются. Они могут очень много повторяться, даже с настройками нормальными от повторения, они создают какой-то отдельный формат/паттерн сообщения, искажая характеристику и речь персонажа, что он теперь говорит всегда в одном формате и почти об одном и том же. Также такие модельки быстрее отходят от промпта, переставая его учитывать вообще как будто. Так что по моему опыту 13b пока лучше. А как у вас в этом плане?
>>662367
Не знаю, что там у вас за ошибки были, что вы обсуждали, но рекомендую в целом попробовать вот это ещё https://github.com/YellowRoseCx/koboldcpp-rocm/ у меня с по этой версии генерации прям в разу ускорилась.
Аноним 07/03/24 Чтв 15:29:18 #59 №663057 
Видеокарта-каждый-день-8102696.jpeg
>>663054
>генерации прям в разу ускорилась
На какой карте?
Аноним 07/03/24 Чтв 15:29:46 #60 №663058 
>>662983
> "нахуа"
Вот я и сам хз, стоит ли оно того ради 6 итсов пускай и на 70б моделях.
Учитывая что сейчас как то глуховато по новым нанотехнологичым модельками вроде бы.
С одной стороны хочется, с другой стороны с ней ебли будет... Мало того что в корпус она из за 4090 не влезет или влезет но в тютельку, так еще и плюс охлад и плюс ПСИ разЪемы где то надыбать надо будет и райзер. И скорее всего еще куча другого не очевидного говняка.

>>663029
Ыыы 15 процентов от стоимости самой карты.
Еще и по если по г_озону смотреть оно только в апреле приедет.
Аноним 07/03/24 Чтв 15:30:26 #61 №663059 
>>662808
Рад за тебя.

>>662832
Я жму update каждый раз от скуки.

>>662952
За 1к кулер новый где угодно можно взять. И переходник напечатать.
Улитка настолько лучше по потоку, чтобы оправдать свою цену?

>>662952
А тебе оно надо или нет?
Я купил две и не жалею, если честно. Умное, русское, в меру быстрое.
Было приятно выполнить рабочую задачу за полчаса — плагин к вордпрессу обсудил с моделькой и она написала, а я подправил.
Аноним 07/03/24 Чтв 15:30:50 #62 №663062 
>>663057
rx6900xt
Аноним 07/03/24 Чтв 15:31:14 #63 №663065 
>>663058
>в апреле приедет.
да, ждать придется, мне за дней 20 с озона приехала.
Аноним 07/03/24 Чтв 15:32:53 #64 №663067 
>>663054
У меня в этом плане только оригинальная микстраль, франкенштейны меня напрягают.

>>663058
А, так к 4090!
Блин, ну я бы к 4090 брал 3090 хотя бы.

Ну и не забывай, у тебя будет не 6, а ~10-12, половина же будет на 4090.
Аноним 07/03/24 Чтв 15:40:18 #65 №663079 
>>663059
>Умное, русское, в меру быстрое.
Что за модель?
Аноним 07/03/24 Чтв 15:40:45 #66 №663080 
>>663059
> И переходник напечатать.
Достаю из широких штанин флуинг беар номер один.
Было бы оно так просто. Тут сразу готовое надо, чтоб максимум на термосопли приклеить или хотя бы изолентой прикрутить можно было.

> рабочую задачу за полчаса
Ну мне таки не для рабочих задач, а для других, так сказать.

>>663065
Там еще на газоне есть одна за 15к другая за 17 но и там магазин вроде поприличнее - тоже дилемма!

>>663067
> 3090 хотя бы.
Она одна как 4-6 п40 выходит, дороговата.

> 10-12, половина же будет на 4090.
Даже если так, оно конечно лучше, но вот все равно нипанятна ниясна с этими присущими подводными.
>4020t
А оно точно справится? Маленькие они какие то.
Аноним 07/03/24 Чтв 16:25:28 #67 №663138 
image.png
image.png
image.png
image.png
Пишите адрес ОПа. Приду к нему домой, насру ему в штаны.
Аноним 07/03/24 Чтв 16:37:27 #68 №663169 
Что-то у меня вдруг появились сомнения в попенсорце. С 2021 года есть метод адаптации моделей под широчайшие контекстные окна со снижением требований к вычислительным ресурсам на порядок. Вместо квадратичной зависимости - линейная. Есть даже модели, по умолчанию использующие это всё. Но где это в широком доступе? Хотя бы реализация поддержки в трансформаторах? А нет нихуя. Код от разработчика работает только под юникс и требует траст ремоут код и кастомные классы для внимания. За три-то года.
Аноним 07/03/24 Чтв 16:54:38 #69 №663189 
>>663138
Что не так, корзиночка?
Аноним 07/03/24 Чтв 16:56:39 #70 №663193 
>>662149
34б не подавится 16-ю гигами врамы? Или это ггуф качать?
Аноним 07/03/24 Чтв 16:57:13 #71 №663194 
>>663079
Да любая 70б хороша, но я сижу на мику.
Устраивает.
Аноним 07/03/24 Чтв 17:02:54 #72 №663213 
>>663169
Потому что в попенсорц высирают только большие компании. Самим людям, что занимаются попенсорцом собраться, сделать что-то и натренить это, просто нереально.
Аноним 07/03/24 Чтв 17:22:30 #73 №663260 
>>663213
А не нужно тренить. Метод тем и хорош, что экстраполирует окно, разве что после тюна с большим окном ты можешь идти ещё дальше. Ребята натренили модель на окне 2к, потом файнтюн с 65к контекста и модель может хуярить полотна 83968 токенов. Это 7b, с 30b у них поскромнее, но всё равно можно расширять окно до 16к токенов. При этом "цена" контекста не квадратичная. Я буквально охуел с этого. Правда на высокой температуре всё равно бредогенератор, лол.
Аноним 07/03/24 Чтв 18:30:10 #74 №663344 
>>662952
Зависит от условий. Если это для тебя просто йоло покупка, если хочешь в пару к уже приличной карточке, например с минимальными затратами катать 70б, если готов потратиться чисто ради использования с ллм - бери.
>>663054
> Кто-то пользовал gemma? Как оно?
Отборная хуйта. Шизит на многих промтах, нездоровая соя, не блещет умом.
Модели большего размера - лучше, мистраль весьма хорош для 7б и местами может обходить 13б, но если смотреть более крупно то размер играет. В этом отношении 20б хороши, не смотря на их происхождение.
>>663138
Пушкина@колотушкина, отзвонись перед приездом
>>663169
Линк?
Если действительно с 21 года - значит не настолько он хорош. Просто рили в трансформерсы обычно тащат почти все, а всякие перспективные методики подхватываются комьюнити.
>>663193
gguf разумеется, придется часть выгрузить.
Аноним 07/03/24 Чтв 18:51:10 #75 №663383 
alibiimage3.webp
>>663344
>Линк?
https://arxiv.org/abs/2108.12409
Я сильно сомневаюсь, что большие компании могут себе позволить сотни тысяч контекста с квадратичной ценой каждого нового токена. А вот с линейной уже всё может быть.

Олсо ещё интересный линк. Однобитный файнтюн.
https://github.com/FasterDecoding/BitDelta
Аноним 07/03/24 Чтв 19:16:35 #76 №663421 
>>663344
>В этом отношении 20б хороши, не смотря на их происхождение.
Надо будет попробовать. Просто они у меня полностью в видюху не влезают, поэтому не пытался.
Аноним 07/03/24 Чтв 20:08:27 #77 №663478 
Спасибо большое, анончик, что исправил коллаб. Целую в пузико.
Аноним 07/03/24 Чтв 20:18:59 #78 №663484 
>>663421
>Просто они у меня полностью в видюху не влезают, поэтому не пытался.
exl2 есть кванты на любой вкус в т.ч. 20b даже под 12 врам, как пример https://huggingface.co/collections/TeeZee/12-gb-vram-65c75b7bea9e93984a8e1dd2
Аноним 07/03/24 Чтв 20:30:53 #79 №663508 
>>663484
Я, к сожалению, koboldcpp пользую, туда вроде такие форматы не лезут. Убабуга с амуде карточками у меня отказывается работать. Вроде в issue там есть треды по АМД и там люди умудряются неофициально завести, но мне не удавалось.88эс
Аноним 07/03/24 Чтв 20:36:24 #80 №663515 
>>663421
Вообще, как ни странно, 20б относительно норм работают при квантах пониже, иногда это даже креатива добавляет. Хз насчет exl2 что влезут в 12гб как анон предлагает, но q3_k_m более чем юзабельный был, потребуется выгрузить на проц+рам не так много и скорость должна остаться нормальной. Попробуй в общем.
>>663508
Пишут что бывшая работает и с амд, но это только линукс. Тем более повод воспользоваться выгрузкой.
Аноним 07/03/24 Чтв 20:42:50 #81 №663525 
>>663515
>Пишут что бывшая работает и с амд, но это только линукс.
У меня как раз и линукс. Не получилось, не смог. Не нравилось ему что-то, как я там допы по системе не выставлял.
>q3_k_m более чем юзабельный был
Это, кстати, может быть и влезет даже в мои 16 Гб. Посмотрим, посмотрим.
Аноним 07/03/24 Чтв 21:43:18 #82 №663637 
image.png
Анчоусы, прошу советов мудрых. Смотрю Tesla P40 на алике. И чет меня смутил пик1(пункт 2). Че за плату x99 пишет этот китаец? Я нашел, что это типо матери от инцтел на сокете LGA2011-3.
Типо эта карточка заведется только с интеловским процом? Или китаец хуйню несет?
У меня амуде 1700x, мать GIGABYTE B450M DS3H. У меня заведется она?
Аноним 07/03/24 Чтв 21:46:05 #83 №663646 
>>663637
>Или китаец хуйню несет?
Это. Нужна опция в биосе "Абов 4ГБ энкодинг", её нет на совсем старье. На современных платах, в том числе и амуди, она должна быть. Но ты проверь перед покупкой.
>У меня амуде 1700x
Сочувствую. Возьми 5800x3d, будь няшей.
Аноним 07/03/24 Чтв 21:52:33 #84 №663656 
image.png
image.png
>>663646
>Но ты проверь перед покупкой.
А как проверить? Типо прошерстить биос на наличие этой функции? Вообще, я не помню, чтоб она была. Но как в инете прочитал щас - она нужна для того, чтоб видюхи с 4+ гб врам робатали. Ну у меня 3070 laptop(перепайка с алика) с 8 гб работала нормально со всей памятью, а сейчас и 1660ti с 6 гб без проблем робит....
>Возьми 5800x3d, будь няшей.
Цены кусаются. Но может быть куплю в относительно ближайшем будующем.
Аноним 07/03/24 Чтв 22:04:38 #85 №663667 
>>663656
>Типо прошерстить биос на наличие этой функции?
Таки да.
>Вообще, я не помню, чтоб она была.
Она в самом анусе обычно, даже я, любитель перебрать абсолютно всё, и то не каждый раз нахожу.
>она нужна для того, чтоб видюхи с 4+ гб врам робатали
Типа того, но там какие-то особенности. Сейчас видяхам это не нужно, то вот для P40 оно необходимо, иначе инициализация не инициализирует.
>>663656
>Цены кусаются.
Хуя там барыги накрутили, я блядь 7900х взял за 38к.
Аноним 08/03/24 Птн 04:34:30 #86 №664214 
Аноны, нужен совет по файнтюну модели

Ковырялся с адаптером лора от saiga2-7b, хочу (до)обучить на своих данных. Можно ли вообще сам адаптер использовать как чекпоинт и учить уже на другом сете?
Попытался так сделать, модель выдает хуйню, забыв абсолютно все предыдущие данные, отвечает только по данным нового сета.
Или нужно все с нуля обучать, чтобы какого-то результата добиться?
Аноним 08/03/24 Птн 07:07:42 #87 №664234 
>>664214
https://habr.com/ru/articles/776872/
Аноним 08/03/24 Птн 08:29:21 #88 №664249 
>>661076 (OP)
>Модели искать тут, вбиваем название + тип квантования
или как вариант, можно самостоятельно сквантовать по-модному в i-кванты а то к-кванты уже не в тренде, из прошлогоднего сезона:
https://huggingface.co/FantasiaFoundry/GGUF-Quantization-Script/tree/main
Аноним 08/03/24 Птн 09:07:29 #89 №664256 
АМД 7 тысячной под виндой вообще на заводятся для нейронок?
Аноним 08/03/24 Птн 09:58:01 #90 №664272 
>>663667
Спасибо за ответ, анчоус)
Аноним 08/03/24 Птн 10:17:46 #91 №664285 
1000024166.jpg
>>663667
Спасибо, анчоус x2
Нашел эту функцию и включил сразу, чтоб потом проблем не было
Буду теперь копить на p40, чтоб крутить локально нейроняш)
Аноним 08/03/24 Птн 11:06:10 #92 №664311 
>>664256
ещё как заводятся, гугли. для начала скачай РОКм фор ШЫНДОУС и релиз кобольда под РОКм. у меня 6600ХТ, и на ней всё заебца, под жму/пинусом чуть побыстрее работает, но неудобства использования ШВАБОДКИ того не стоят.
Аноним 08/03/24 Птн 11:12:14 #93 №664315 
>>664311
Дайте тогда советов. Взять АМД Radeon RX 7900 XTX за 100к или ASUS GeForce RTX 3090 Turbo за 113к.
Подскажите будет ли шуметь видеокарта и сильный ли шум от турбины ASUS GeForce RTX 3090 Turbo?
Просто думаю зачем мне амд, если уже есть 3070ti их же потом вместе не поюзать.
Аноним 08/03/24 Птн 11:34:06 #94 №664337 
>>664315
>RX 7900 XTX за 100к или ASUS GeForce RTX 3090 Turbo за 113к
>уже есть 3070ti
В такой ситуации даже я бы взял 3090, хоть я и амудэшник.
Аноним 08/03/24 Птн 13:54:56 #95 №664453 
>>664315
>7900 XTX
Только если надо, чтобы чип сам отпаивался от платы. Странное устройство, похожее на видеокарту, но ей не являющееся. Вообще сложно представить ЦА топов АМД сейчас. Им не нужен ДЛСС и, значит, высокое разрешение, но нужен огромный объём памяти. Зачем? Нормально в нейросетях его всё равно не использовать. Что они вообще делают? Играют в некроигры без ртх в фхд зато с "ТРУ разрешением, а не это вот ваше ДЛСС" в 1000фпс?

> 3090
Только если брать бушки в 2 раза дешевле. Новая 3090 в 2024 не имеет смысла.
Аноним 08/03/24 Птн 14:43:26 #96 №664521 
>>664453
>novideo-boy порвался от простого упоминания amd видюхи
Аноним 08/03/24 Птн 15:56:08 #97 №664585 
Какая модель для 4060ти 16gb подходит оптимально? Сегодня пришла карточка. Вкатился в sd и сюда.
Аноним 08/03/24 Птн 16:01:19 #98 №664593 
Аннотация 2024-03-08 195939.png
Запускаю llava1.5 через llama.cpp server, загружаю картинку, задаю вопрос по ней, в итоге пикрил ошибка. Почему?
Аноним 08/03/24 Птн 16:04:16 #99 №664597 
>>664593
Параметр --mmproj не забыл?
Аноним 08/03/24 Птн 16:10:43 #100 №664613 
>>664597
А, он там отдельно лежит, я этот файл даже не качал. Спасибо, сейчас попробую. Просто никогда мультимодалки не запускал...
Аноним 08/03/24 Птн 16:11:17 #101 №664616 
>>664521
>пук
А аргументы будут? Ссылки про отпай сам найдешь или помочь? Про всё остальное "врёти"?

>novideo-boy
АТО! Только почему-то я не советовал нести деньги хуангу за новую. Может дело не в "бойстве", а в том, что для нейроты нет смысла специально сейчас брать амд и страдать? Не, я, конечно, понимаю, что есть любители см не осуждаю но не все же
Аноним 08/03/24 Птн 16:16:17 #102 №664623 
>>664616
Я к тому что ты просто взорвался ни с чего. 7900XTX нормальная видюха, под нейронки понятно что невидиа лучше будет, потому что под неё гораздо больше инструментов заточено.
Аноним 08/03/24 Птн 16:46:29 #103 №664674 
>>664315
Пару 3090 с рук, лол.
Вообще это совсем другой вариант и не слушай, ты в другие нейронки играешь или только ллм хочешь? Хотя даже для них и даже с учетом такой цены на 3090 - лучше брать ее, она будет во всем (кроме игорей) лучше амды.
Насчет шума турбины (не 3090 а на аналогичных видюхах) - субъективно, если ты неврастеник что замечает любые звуки - может напрягать. Если нормис - разница с обычной охладой субъективно процентов 20 и в разумных пределах. Бонусом нет проблем с размещением и можно втыкать вторую/ставить ее второй.
> зачем мне амд, если уже есть 3070ti их же потом вместе не поюзать
Тем более
Аноним 08/03/24 Птн 17:01:28 #104 №664695 
>>664585
Попробуй 20б как в коллабе что из шапки варианты, прямо тот же квант бери.
>>664623
> 7900XTX нормальная видюха
В глазах амд фаната или игруна-кроителя. У нас тут доска с вполне конкретной направленностью и подобное отношение к красным естественно, ты же только сам погорел и демонстрируешь свое фанбойство.
> потому что под неё гораздо больше инструментов заточено
Нет, потому что направление гпу-вычислений хуангом развивается уже почти 18 лет лол, и за все это время с учетом потребностей пользователей и потенциального использования, сочетание софта и железа прошло множество этапов развития. Лишь закономерный результат сложной работы, а не "потому что их любят". Красные же в это время стагнировали, заигрывали в маркетинг, подкидывали редкие кости опенсорсным шизам и спохватились только несколько лет назад. Нет повода их любить и котировать когда все на лицо.
Если в 8к запилят нормальную совместимость без (интенсивного) пердолинга, годный перфоманс, рабочую оптимизацию внимания и 48+ гигов занидорого - побежим в магазины за ними и будет нахваливать, а пока - залупа полнейшая, даже в играх компромиссы сплошные.
Аноним 08/03/24 Птн 18:11:30 #105 №664781 
>>664585
О, расскажешь о перформансе. Че там, лучше 3060, чуть хуже 4070?
Интересно-интересно.
Аноним 08/03/24 Птн 19:01:29 #106 №664850 
>>664695
Можно ссылку на конкретную бы. А то я плохо понимаю по ссылке в шапке на 20b там 500 вариантов выдает
Аноним 08/03/24 Птн 22:54:56 #107 №665187 
>>664850
Лень. Тебе нужен 3.5-4 битный exl2 или q3km 20b моделей из перечня >>658062 →
или напрямую залезь в блокнот и скопируй, но там ссылки на gptq, хз с каким контекстом тот влезет в 16 гигов.
Аноним 09/03/24 Суб 00:12:13 #108 №665267 
Кто за сколько свои теслы брал?
Аноним 09/03/24 Суб 00:49:11 #109 №665301 
>>665267
13к
Аноним 09/03/24 Суб 01:21:23 #110 №665335 
>>665267
16+15
Аноним 09/03/24 Суб 01:22:38 #111 №665337 
>>665267
17 и 15
Аноним 09/03/24 Суб 01:30:45 #112 №665343 
>>665301
>>665335
>>665337
А на охлад сколько угрохали?
Аноним 09/03/24 Суб 02:14:54 #113 №665373 
>>665343
>А на охлад сколько угрохали?
Да ты не парься. Тесла - она вообще не об экономии :) Её же берут не потому, что это 24 Гб занедорого. А потому, что это 48 Гб занедорого, НО всё остальное уже съедает всю экономию... Ждём, когда кто-нибудь разродится устройством, способным Лламы 70В с приличной скоростью запускать хоть за сколько-нибудь вменяемые деньги. Или не ждём.
Аноним 09/03/24 Суб 03:27:12 #114 №665410 
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Аноним 09/03/24 Суб 03:39:24 #115 №665417 
https://www.reddit.com/r/LocalLLaMA/comments/1ba39tn/mamba_support_merged_in_llamacpp/
жаль только запускать особо и нечего, какие то сырые файнтюны 3b
Аноним 09/03/24 Суб 08:29:07 #116 №665509 
>>665410
Сейчас бы тестить говнокод Жоры, который в несколько раз медленнее питона.
Аноним 09/03/24 Суб 10:48:54 #117 №665551 
>>665509
тебя забыли спросить
Аноним 09/03/24 Суб 12:13:37 #118 №665599 
>>665410
Похоже на правду. Больше всего удивило отличие скорости обработки промта на спаренных 4090 и 3090, да и общая ее деградация при объединении карточек.
>>665417
Вот что нужно файнтюнить, оно ведь в 24гига влезет полноценно.
Аноним 09/03/24 Суб 12:17:34 #119 №665603 
>>665509
Какую-то ты херню сказал. Если у него на сях, как может он быть медленнее питона? Плюс, ты вообще код для инференса нейросетей видел? Подсказка: он довольно краткий, накосячить там мало где можно, если не изобретать велосипед.
Аноним 09/03/24 Суб 12:28:30 #120 №665608 
Затестил свежий русский файнтюн llama2-7b: SambaLingo-Russian-Chat

Русские слова использует верно, ошибок почти нет. Из минусов - глупая, mistral-7b намного умнее на русском. И еще часто выходит из роли и начинает какую-нибудь фигню нести.

Модель: https://huggingface.co/sambanovasystems/SambaLingo-Russian-Chat
Гуф: https://huggingface.co/NikolayKozloff/SambaLingo-Russian-Chat-GGUF/tree/main
Space: https://huggingface.co/spaces/sambanovasystems/SambaLingo-chat-space
Аноним 09/03/24 Суб 13:21:33 #121 №665640 
>>665603
> Если у него на сях, как может он быть медленнее питона?
Добро пожаловать в реальность. Почти весь популярный пихон в нейронках имеет очень высокопроизводительные бэки написанные на сях, которые делались умными людьми и быстрее чем странный код.

С другой стороны, если Жора решит все оптимизировать воспользовавшись наработками, скорее всего по пизде пойдет перфоманс на огрызках (что одна из целей проекта, на это не пойдут), некротеслах и с оффлоадом.Так что лучше не хейтите его а довольствуйтесь чем есть, если постоянно не обрабатывать большой контекст а просто рпшить в таверне, разница в перфомансе врядли будет заметна.
Аноним 09/03/24 Суб 13:47:51 #122 №665656 
LOL.png
Переводчик, наверное, охуевает, что к нему в ебелион потоков льётся отборный бред хуй знает сколько времени подряд. Как подумаю, сколько в этом всём ошибок, пиздец.

>>665608
Так мистраль и должен быть умнее 7b ламы. И это чат модель, я так потыкал, вроде, чат-инстракт модели лучше в этом плане. Но это не экспертное мнение.
Аноним 09/03/24 Суб 17:30:05 #123 №665857 
Есть вообще нормальная моделька без положительной предвзятости? Ориентируюсь на 13В-20В. Сейчас использую mythomax и emerhyst. Но хочу, чтобы модель в первую очередь следовала инструкциям, а не положительной предвзятости. Ну и чтобы в описание секс сцен могла.
Аноним 09/03/24 Суб 18:07:45 #124 №665886 
>>665608
Лол, эта модель мне выдаёт более адекватные ответы, причём без цензуры, в сравнении с character.ai если писать ему тоже самое на русском.
Аноним 09/03/24 Суб 19:03:56 #125 №665946 
https://www.reddit.com/r/LocalLLaMA/comments/1ba55rj/overview_of_gguf_quantization_methods/
Аноним 09/03/24 Суб 19:39:16 #126 №665979 
>>665608
> q8
А что так жирно?
Аноним 09/03/24 Суб 20:55:41 #127 №666080 
>>665946
Цитата:
"Устаревшие кванты (Q4_0, Q4_1, Q8_0, ...)
очень простые, базовые и быстрые методы квантования;
IIRC, некоторые старые карты Tesla могут работать быстрее с этими устаревшими квантами, но в остальном вам, скорее всего, лучше использовать K-кванты."

Правда или нет, вот в чём вопрос :)
Аноним 09/03/24 Суб 20:56:03 #128 №666083 
>>665608
>Из минусов - глупая, mistral-7b намного умнее на русском. И еще часто выходит из роли и начинает какую-нибудь фигню нести.
> Finetuned from model: Llama-2-7b
А ты чуда ожидал?
Аноним 09/03/24 Суб 21:09:41 #129 №666103 
>>665946
Ничего нового и просто натащил с дискуссий репы жопы и прочих ресурсов? Чтож, можно только похвалить за это, а то инфа сильно разрозненная обычно везде.
>>665979
Скорее всего потому что этот квант можно почти мгновенно собрать из фп16 одной командой.
>>666080
Возьми да затести, скорее всего разница мизерная и отупение в них больше.
Аноним 09/03/24 Суб 21:12:58 #130 №666106 
>>666103
>Возьми да затести, скорее всего разница мизерная и отупение в них больше.
Cам пока не могу, но тут полно народа уже получило свои Теслы. Им-то должно быть интересно.
Аноним 09/03/24 Суб 21:31:37 #131 №666118 
>>661076 (OP)
Трансформеры произвели настоящий фурор в области Deep Learning и демонстрируют выдающуюся эффективность. Однако у них существует серьезное ограничение по длине входной последовательности (контекста) из-за квадратичной вычислительной сложности. Большинство моделей работают с контекстом длиной менее 10 000, что делает их малоприменимыми в задачах с большими объемами входных данных. И хотя ходили различные слухи, было бы странно увидеть сильный искусственный интеллект, который можно за пару минут заболтать до беспамятства.

Мамба основывается на принципиально другом подходе - SSM, который, хоть и сильно старше трансформера, в контексте глубокого обучения не показывал достаточной эффективности, особенно в качестве языковой модели. Мамба имеет линейную вычислительную зависимость и в 5 раз выше пропускную способность, чем у трансформеров. Авторы проверили свое детище на серии моделей только до 2.8 млрд. параметров, что еще мало похоже на Chatgpt, но уже утерли нос текущим топам языковых моделей в своей весовой категории. Длина контекста при этом была выбрана как у соответствующего трансформера, так что контекст размером в миллион был проверен только на простых синтетических тестах, что, однако, тоже немаловажно, так как ни трансформеры, ни свертки с этими тестами не справились. В этой статье мы детально рассмотрим всю математику новой архитектуры, заметая под ковер преимущества и недостатки.

далее https://habr.com/ru/articles/786278/


Mamba - a replacement for Transformers?
https://www.youtube.com/watch?v=ouF-H35atOY


Mamba support merged in llama.cpp
https://www.reddit.com/r/LocalLLaMA/comments/1ba39tn/mamba_support_merged_in_llamacpp/
Аноним 09/03/24 Суб 21:39:15 #132 №666124 
>>665857
Попробуй эти:
https://huggingface.co/TheBloke/Xwin-MLewd-13B-v0.2-GGUF
https://huggingface.co/TheBloke/Mythalion-13B-GGUF
https://huggingface.co/s3nh/teknium-OpenHermes-13B-GGUF
Аноним 09/03/24 Суб 21:42:33 #133 №666128 
>>666118
Что за нейротекст по мотивам?
А вообще даже в качестве академического интереса ею интересно заняться, ведь доступно.
Аноним 09/03/24 Суб 21:49:38 #134 №666133 
17087130371060.jpg
>>666118
Что-то уже несколько месяцев обещают ливарюцию с этими state-space нейронками, по сравнению с которыми трансформеры якобы и рядом не валялись, но пока что из результатов только добрые намерения и статья на швабре.
Аноним 09/03/24 Суб 22:50:02 #135 №666200 
>>665373
Все остальное это что?

мимо ньюфаг
Аноним 09/03/24 Суб 23:32:23 #136 №666254 
Я долбоёб или ггуф реально хуйня? Cкачал потому что можно делать офлоад, q4_K_M. Cравнил с exl2. Ну да, быстрее. Не то, чтобы намного, энивей. И оно глючит. Персонажи повторяют собственные фразы через пяток сообщений, один раз заклинило на предлоге и печатало его упора. На exl2 этого нет на этой же модели. В целом могу быть не прав, ггуф первый раз пробую и гоняю минут сорок, но уже попахивает гавной.
Аноним 09/03/24 Суб 23:36:17 #137 №666261 
>>666254
>И оно глючит.
> Персонажи повторяют собственные фразы
У меня тоже что-то подобное происходило, на двух Р40.
Пофиксилось прожатием галки:
tensorcores
NVIDIA only: use llama-cpp-python compiled with tensor cores support. This increases performance on RTX cards.

Сам охреневаю с этой дичи.
Аноним 09/03/24 Суб 23:38:48 #138 №666266 
>>666254
> Ну да, быстрее
> ггуф
У тебя там врам выгружалась драйвером чтоли? Ггуф медленее, прежде всего на контексте, и больше врам при прочих равных занимает. Ну и он более тупой, хотя q4km уже не настолько плох чтобы так ломаться.
>>666261
> на двух Р40
> use llama-cpp-python compiled with tensor cores support
Хуясе ебать.
Интересна природа бага.
Аноним 09/03/24 Суб 23:47:57 #139 №666276 
BisonOfCourse.jpg
>>666261
>Пофиксилось прожатием галки
Так а нахуя мне тогда RTX карта?
>>666266
>У тебя там врам выгружалась драйвером чтоли?
Оно нихуя не хочет выгружаться нормально. Ебаться с настройками ради ноль целых хуй десятых т\c было лень, откатывать драйвера тоже. Cейчас попробую запретить разжираться в шаред рам, может, полегчает.
Аноним 09/03/24 Суб 23:52:23 #140 №666280 
>>666276
> Оно нихуя не хочет выгружаться нормально.
Ну типа оно и не должно, по сути это лишь костыль чтобы не словить оом в переходных процессах, ну или на чем-то супернищем очень медленно но иметь возможность в что-то.
Аноним 09/03/24 Суб 23:56:12 #141 №666285 
>>666118
>в контексте глубокого обучения не показывал достаточной эффективности, особенно в качестве языковой модели
Ну и нахуя?
Аноним 10/03/24 Вск 00:01:48 #142 №666292 
Аноны, а уже кто-нибудь сделал вебморду ориентированное на рпг (чарлисты, кубы, карты).
Аноним 10/03/24 Вск 00:05:41 #143 №666295 
1.jpg
>>666280
>Ну типа оно и не должно
Я отчего-то ожидал, что ползунки CPU memory и GPU memory в загрузчике угабуги будут работать как офлоад. Ну, хуй с ним, пусть драйвер кидает всё через оперативу.
>очень медленно
Да я бы не сказал, что прямо "очень" медленно. Но да, медленнее, чем хотелось бы и медленнее, чем ггуф. Чип не выходит и на половину загрузки. Ёбаный хуанг зажал, как всегда. Свою теслу в пекарню закинул, но что-то не помогло, врам всё так же мало. Подожду, пока приживётся и заработает, там видно будет.
Аноним 10/03/24 Вск 00:09:59 #144 №666301 
>>666295
Дурик, так она никогда не приживется, ее вертикально сажать надо
Аноним 10/03/24 Вск 00:16:59 #145 №666314 
>>666295
> что ползунки CPU memory и GPU memory в загрузчике угабуги будут работать как офлоад
Ээ, так это только в трансформерсе и autogptq, и то там перфоманс довольно таки небыстрый выйдет.
Если выгружается настолько немного что итоговый перфоманс устративает - почему бы и нет.
> Свою теслу в пекарню закинул, но что-то не помогло, врам всё так же мало
А с теслой толькок gguf будет шустро работать. Вроде как перфоманс можно нормальный получить, не меньше 7т/с на 70, но пусть уже владельцы отписываются.
>>666301
Разъемом в землю?
Аноним 10/03/24 Вск 00:17:51 #146 №666318 
>>665343
2 раза по 6 часов 3D-принтера + 800 рублей на 4 кулера.

>>666106
>>666103
Типа, запустить 4_0 вместо 4_К_М?
Ну, можно попробовать.

>>666254
Куда быстрее, ты чего.
Ггуф в два раза медленнее.
Но Тесла не умеет в экслламу, ее там по дефолту не юзают, если что.
Аноним 10/03/24 Вск 00:19:29 #147 №666321 
>>666318
Да, но, емнип, по "уму" 4km был на уровне или даже чуть превосходил q5_1, так что можешь пятерки еще попробовать.
Аноним 10/03/24 Вск 00:25:56 #148 №666326 
IMG20240124122804.jpg
>>666301
Пусть пока так побудет, там поглядим. Один хуй хер с 3д принтером слился, а вентиля я уже купил. Теперь в раздумьях.
>>666314
>Ээ, так это только в трансформерсе и autogptq
Попробовал на трансформерах зажать vram и выделить оперативной. Послало нахуй с ООМ. Включил офлоад заново. Больно быть оперативно обделённым.
>>666318
>Куда быстрее, ты чего.
У меня всё не влезает в оперативу и ггуф на целых полтокена быстрее. Я в курсе, что тесла не может в модные битности, но она пока не прижилась.

Олсо, нашёл себе мистраль, буду пробовать, как оно.
Аноним 10/03/24 Вск 00:55:26 #149 №666357 
>>666200
>Все остальное это что?
Как минимум мощный блок питания, нормальная материнка и много оперативной памяти.
Всё остальное можно купить или почти бесплатно сколхозить.
Аноним 10/03/24 Вск 01:19:33 #150 №666393 
>>666321
А вот и нет.
Вообще, надо учитывать, что дело в размере — в теслы пихаются 70б модели, а в одиночные — 34б.
И q5_0… =) Ну вы поняли. Не влезет просто.
Поэтому, я бы не гнался за скоростью, вряд ли вдвое выше.
(я спать хочу, мне лень включать комп с теслами и качать)

Но, ок, я попробую несколько вариантов, в любом случае, сравним.

>>666326
Ну, я просто к тому, что эксллама 100% быстрее.
А эксллама через оперативу — это не эксллама, а хуйня, простите. =) Весь смысл, вся концепция рушится просто.
Аноним 10/03/24 Вск 01:42:47 #151 №666435 
>>666393
> А вот и нет.
Что нет?
> в теслы пихаются 70б модели, а в одиночные — 34б
Так взял и прочертил границу будто другие размеры не нужны.
Аноним 10/03/24 Вск 03:04:18 #152 №666523 
Подскажите, плз, для запуска ELX2 могут быть нужны какие то дополнительные пляски? Пока чисто на винде, без wsl пытаюсь загрузить на 4090
https://huggingface.co/LoneStriker/CodeBooga-34B-v0.1-4.0bpw-h6-exl2 и turboderp/CodeLlama-34B-instruct-exl2 6.0bpw
Грузит примерно до трети от 24Гб и либо Web Gui тихо умирает, либо выдаёт не очёнь вразумительную ошибку от пайторча про невозможность выделить какую-то сотку магабайт памяти при свободных 16 ГБ. Если просто гуглить ошибку нахожу одно обсуждение и у чувака она просто прошла.
Не пойму в какую сторону гуглить и что именно подправлять.
Или проще уже arch накатить и из-под него пробовать
Аноним 10/03/24 Вск 03:15:47 #153 №666534 
>>666523
Нет, убабуга в шинде работает отлично, в линуксе еще лучше, но здесь нет радикальной разницы. Первая модель должна грузиться, вторая в 24гб уже никак не влезет.
> вразумительную ошибку от пайторча про невозможность выделить какую-то сотку магабайт памяти при свободных 16 ГБ
Сколько видеопамяти свободно перед запуском?
> Web Gui тихо умирает
Чекай железо на предмет нестабильного разгона, посмотри hwinfo или чем-нибудь еще наличие системных ошибок по профессору и pci-e.
Другие модели то норм крутит?
Аноним 10/03/24 Вск 03:47:43 #154 №666546 
>>666534
Перед запуском
Использование1%
Выделенная память графического процессора2,4/24,0 ГБ
Общая память графического процессора0,1/15,9 ГБ
Оперативная память графического процессора2,5/39,9 ГБ

Попробовал парочку маленьких:
Lily-Cybersecurity-7B-v0.2-3.0bpw-h6-exl2
Mistral-7B-Instruct-v0.2-DARE-4.0bpw-h6-exl2-2
Норм подгрузились, вот решил опробовать более увесистые и приколы пошли
По железу вроде бы норм..
Аноним 10/03/24 Вск 13:06:22 #155 №666736 
Как побороть то, что сетка ухватившись за пару ответов под конкретную ситуацию, дальше отвечает только в этом стиле?
Аноним 10/03/24 Вск 13:25:29 #156 №666742 
>>665857
БигМейд и ДаркФорест 20б
Аноним 10/03/24 Вск 13:32:24 #157 №666745 
>>665857
Есть 2 модели известных мне.
Verdict-8x7B.i1-Q3_K_M
crunchy-onion-nx.Q3_K_L
Хз че они туда напихали , но в плане кума все отлично.
Аноним 10/03/24 Вск 13:36:18 #158 №666746 
>>666736
Меняй настройки семплинга, или даже модель. Правь ответы, делая их разнообразнее, объединяя пару роллов.
Аноним 10/03/24 Вск 13:41:18 #159 №666747 
>>666254
ты с sillytavern сидишь?
Аноним 10/03/24 Вск 15:10:45 #160 №666812 
Есть смысл вкатываться на ряженке 5600x? Вместо видюхи у меня rx588
Аноним 10/03/24 Вск 15:14:19 #161 №666815 
>>666812
>Вместо видюхи у меня rx
Нету.
Аноним 10/03/24 Вск 15:36:21 #162 №666838 
>>666812
Есть, но после смены видюхи — как только у тебя будет что-то мощнее 1660, так сразу появится смысл
Аноним 10/03/24 Вск 15:44:39 #163 №666843 
GGUF.png
>>666747
А разница? Это же просто семплинг. Чекаю в угабуге сначала. Семплеры уже как только не крутил.

Галочка с RTX не спасает, стоит персонажу повторить слово пару раз, как всё входит в цикл. С эмоциональными персонажами это превращается в пиздец. Персонажи закуривают на десять постов два раза, начал отыгрывать типа готовлю покушать, персонаж каждые три поста спрашивает "нихуя, где ты научился?" и так далее. Буквально только что ситуация, персонаж попросил что-то сделать, я этого не делаю. В ответе персонаж реагирует так, как будто я сделал что просили. Переключаюсь на exl2, перегенерирую ответ. Абсолютно другой. Снёс venv, залил всё заново. Не помогло.
Аноним 10/03/24 Вск 15:46:47 #164 №666846 
>>666843
Что за модель? Чекни настройки BOS и EOS токенов. Также ггуфы бывают поломанные с неверным конфигом токенайзера, как раз может быть подобное поведение.
Шизосемплинг с огромной температурой и чудотворящим min-p случаем не включен?
Аноним 10/03/24 Вск 15:53:07 #165 №666848 
>>666812
>смысл вкатываться
А что, это такой сложный шаг, чтобы решиться? Скачиваешь модель и пробуешь. Не понравилось - удаляешь.
Аноним 10/03/24 Вск 16:05:18 #166 №666859 
Скачал впервые за долгое время gptq, конкретно 4bit-32g с act_order. Обычно сижу на гуфах. Щас сравниваю gptq с гуфом на одной и той же модели, и gptq прям ощутимо быстрее, но вместе с этим q4k_m как будто была поумнее и лучше ориентировалась в контексте, уже не говоря про q5k_m. Это чисто мои субъективные ощущения или реальность? По ссылкам в шапке не нашёл инфы, но по тредам писали что гуф должен быть наоборот тупее.
Аноним 10/03/24 Вск 16:09:05 #167 №666861 
>>666859
ггуф тупее в среднем, если квант жидковат. Так как раньше не было нормальной умной квантизации. Но если ты 8 бит крутишь или хотя бы 5-6, то разница есть, и гуфф умнее 4 бит хоть и быстрых на gptq
Квантизация это сжатие с потерями, чем меньше теряешь тем лучше.
Аноним 10/03/24 Вск 16:09:50 #168 №666862 
>>666859
А ты сравни их размеры и эффективную битность, и поймёшь, кто умнее. Правда есть мнение, что само квантование в gguf более простое, но как по мне, куча бит перекрывает их не самую умную выборку (тем более в новых версиях ггуфа это поправили).
Хотя gptq реально быстрее.
Аноним 10/03/24 Вск 16:21:15 #169 №666872 
Что насчет Chat with RTX? Говно? Какие у нее параметры?
Аноним 10/03/24 Вск 16:26:45 #170 №666879 
>>666838
3060 6гб дешевле и поддержка 16 бит.
Аноним 10/03/24 Вск 16:45:27 #171 №666899 
>>666846
emerhyst-20b.Q4_K_S и DarkForest-20B-v1.0.q4_K_M. Они, вроде, первые были при поиске '20b gguf'. Первый тыкал поменьше, как только пошли проблемы переключился на второй, с ним у меня рядом лежит четырёхбитный exl2 для сравнения.
>Шизосемплинг
Ты меня за кого принимаешь? За шиза? Конечно же да. Но он роли не играет, на встроенных пресетах типа simple-1 та же ёбань. Ладно, похуй, буду гонять exl2 пока.


Вопрос к счастливым обладателям p40 в десктопных корпусах, как бэкплейт охлаждаете? Я смотрю, он налеплен на чипы памяти и должен "охлаждать" их, что чуть-чуть сомнительно, учитывая его пластмассовость. Обдуваете отдельно или вообще похуй?
Аноним 10/03/24 Вск 16:47:39 #172 №666903 
>>666899
Ладно, вопрос снимается, оно железное.
Аноним 10/03/24 Вск 16:58:28 #173 №666914 
>>666862
> есть мнение, что само квантование в gguf более простое
Так и есть, если судить по искажениям вероятности токенов ггуф на 7-10% тупее, или же требует примерно на столько больше битности, фактической офк. Единственный нюанс в том что 5-6 битный ггуф хоть и показывает хорошее согласие с 16 или 8 бит, но иногда проявляет ощутимые отклонения в отдельных токенах, что с другими квантами встречается сильно реже. Даст ли это шизу в результатах, или просто лишь приведет к другому пути при гриди энкодинге, а с семплингом никогда себя не проявит - хз.
>>666899
> За шиза? Конечно же да
Содомит.
Тут бы предположить промт проверить, но раз на exl все ок значит дело не в нем. А откуда кванты качал? Может они поломанные, с ггуфом тоже можно накосячить.
> чипы памяти и должен "охлаждать" их
Там gddr5, не требует дополнительного охлаждения.
Аноним 10/03/24 Вск 17:00:40 #174 №666918 
>>666859
> q4k_m
4.65 бит на вес
> 4bit
4 бит на вес

Ну так, думаю, ясно.

>>666872
Встроенный раг, две модели, закрытые промпты с семплерами, ничо не накрутить.
Тащемта, нахуя?
Аноним 10/03/24 Вск 17:19:17 #175 №666942 
GGUF на Р40 сломался?
Нейросеть начинает шизеть. Запустил этот же квант на чистом проце и посмотрел как всё работает.
Аноним 10/03/24 Вск 17:19:37 #176 №666944 
>>666861
>>666862
Спасибо. Ну грустновато конечно, я думал сейчас перейду на gptq и получу те же мозги, но с 25т/с вместо 3, или сколько у меня там на ггуфе.

>>666918
>> q4k_m
>4.65 бит на вес
>> 4bit
>4 бит на вес
В вики из шапки написано, что 4,65 как раз у 4bit gptq, про ггуф не нашёл информации. Анон-автор статьи напутал?

Алсо, стало ли лучше с exl2, может его попробовать? 4bit exl2 > 4bit gptq?
Аноним 10/03/24 Вск 17:24:12 #177 №666947 
>>666666 →
Аноним 10/03/24 Вск 18:13:54 #178 №667001 
>>666944
>Алсо, стало ли лучше с exl2, может его попробовать? 4bit exl2 > 4bit gptq?
Отвечаю сам на свой вопрос: не стало. Скачал 5bit exl2, вроде немного поумнее чем 4bit gptq, но всё равно до ггуф не дотягивает.

Но вообще полистал немного реддит, вижу нет какого-то чёткого консенсуса по вопросу того, у какого формата лучше именно мозги при прочих равных. Видимо многое ещё зависит от модели и окружения: где-то exl2 будет умнее, где-то ггуф.
Аноним 10/03/24 Вск 18:39:05 #179 №667025 
>>667001
А мозги от формата зависят как-то? Мне казалось только от модели.
Аноним 10/03/24 Вск 18:42:35 #180 №667027 
>>667025
Ну модель же определяется форматом, среди прочего. Поэтому как-то да зависят, наверное.
Аноним 10/03/24 Вск 18:51:37 #181 №667037 
>>667025
От формата зависит квантование, а от квантования (его точности, распределения по важным весам) зависят мозги. Вроде очевидно.
Аноним 10/03/24 Вск 18:55:41 #182 №667047 
>>667037
То есть у формата gguf лучшее квантование?
Аноним 10/03/24 Вск 19:14:26 #183 №667075 
>>667001
> вижу нет какого-то чёткого консенсуса по вопросу того, у какого формата лучше именно мозги при прочих равных
Какого консенсуса ты ожидаешь? Кто понимает - смотрят на цифры или делают самостоятельное тестирование. Есть зависимость от калибровочного датасета, но ее значимость часто переоценивают.
А все эти оценки "умности" настолько субъективны, подвержены рандому, влиянию настроения пользователя или вообще аутотренингу предвзятости в оценке, что "консенсуса" по ним и быть не может.
>>667047
Нет, но это "худшесть" под лупой высматривать придется в большинстве случаев.
Аноним 10/03/24 Вск 19:17:08 #184 №667079 
>>666914
>проявляет ощутимые отклонения в отдельных токенах
Выбросы, чтоли? Если нет адекватной компенсации, то это пиздец.

>А откуда кванты качал?
Да с обниморды. Короче выключил все галочки в настройках загрузчика, обновил что можно было обновить, ещё раз снёс венв, обновил угабугу и не помогло. В чат режиме в лупы не сваливается, проверил настройки инстракт темплейта, соответствует модели.
>но раз на exl все ок значит дело не в нем
На elx2 всё хорошо, даже шизосемплинг с большими значениями top_p и top_k, кроме оффлоада через драйвер. В целом, не то, чтобы критично разобраться, но где-то в моей системе косяк, если бы у всех ггуф так работал, его бы уже закидали ссаными тряпками.
Аноним 10/03/24 Вск 19:39:43 #185 №667110 
>>667079
> Выбросы, чтоли?
Типа того. Так вообще если отсеять topP 0.8-0.9 то логитсы у квантов будут очень малоотличимы от оригинала, разница прежде всего набираться когда много токенов сидят рядом и по сути обозначают синонимы (типа вместо 12-11-10-8% будет 14-8-10-9 на те же), это на результат никак не повлияет. Но вот когда возмущаются уже вероятные токены, типа на yes-but-as вместо (80-12-1.5) будет (61-20-3), тут разница в ответах может быть заметна уже и такое на ггуфах бывает чащи, при том что в среднем все ок. По уводу и ветвлениям основной линии можно отследить, однако с тем же успехом он может сместиться и на синонимах, а потом улететь в сторону, так что тоже не показатель.
Справедливости ради, при взаимодействии ггуфами проблем особых не встречал, работает и работает, вполне нормальный перфоманс.

А ты обычный llamacpp используешь или hf версию?
Аноним 10/03/24 Вск 20:01:43 #186 №667133 
>>666106
>>666103
>>666321
>>666435

Итак, кому интересно:
20B (MLewd-ReMM-L2-Chat-Inverted)
q5_0 vs q5_K_S
12.8 ГБ vs 12.8 ГБ

17 токенов/сек генерация vs 15 токенов/сек генерация

Подтверждаю, q5_0 быстрее q5_K_S.
Но на уровне 13%, что у меня вызывают большие сомнения.

Поясню.
Для 1 видяхи у тебя есть кванты пожирнее у 20B (q6 влазит в 24 гига), а q5_0 34B не влезет. Остается или q4_0, который может быть сомнительным по качеству, или q4_K_M.
Ситуация для двух видях идентичная: q5_0 70B не влезет, а q4_0 сомнительный, при наличии альтернатив.

Короче, я не говорю, что это бессмысленно.
И факт в том, что q5_0 быстрее современных квантов того же размера.
Но для меня сомнительно, ибо единственные действительно юзабельные вещи — это именно q4_0. А вот я хз, насколько это терпимо. Судя по всему, q3_K_M может опережать ее по перплексити.
Однако, на больших моделях это может быть и плацебо, в то же время.

В общем, смотрите сами.
Аноним 10/03/24 Вск 20:17:16 #187 №667143 
>>667133
>Для 1 видяхи у тебя есть кванты пожирнее у 20B (q6 влазит в 24 гига)
Строго говоря и 20B_Q8.0 влазит в 24 гига :)

В любом случае интересное наблюдение, спасибо.
Аноним 10/03/24 Вск 20:17:46 #188 №667146 
>>667110
> обычный llamacpp используешь или hf версию?
Для ггуф обычный, для elx2 hf. Сам не выбирал, веб юи выбирает.


https://huggingface.co/AlexWortega/miqu-1-70b-AQLM-2Bit-1x16-hf
70b мику 19 гигов. Найс.
Аноним 10/03/24 Вск 20:26:38 #189 №667160 
>>667075
Понятно, что лучшесть/худшесть у ллм зачастую субъективна, но у gptq/exl2, по ощущениям, было больше ошибок именно в логике.
Аноним 10/03/24 Вск 20:28:20 #190 №667161 
>>666944
Посчитай сам.
Возьми вес модели в байтах.
Умножь на 8.
Подели на количество параметров.
Получишь bpw модели.
У q4_K_M от 4,6 до 4,8 в среднем, насколько я понимаю.
У GPTQ моделей хуй знает, у меня Exl2 лежат. У тех, сколько написано — столько и есть.
Если в вики написано наоборот, то автор статьи даже в калькулятор не умеет, тут лишь сочувствую.

>>667001
Вообще, насколько я помню, GPTQ и Exl2 лучше, чем ггуф.
По тестам (синтетика, офк), при bpw чуть меньше, exl2 обходят немного по качеству ггуфы чуть большего bpw.
Но, не исключаю, что это вкусовщина.

Я очень просто считаю.
Есть возможность — ставь 6~8 bpw exl2. Нет возможности — ставь 4_K_M~6~8 gguf.
Все, что тут думать-то. =) В первом случае получишь плюс-минус такое же качество, различия на грани погрешности, но вдвое большую скорость. Во втором случае получишь хоть что-то, верно?

Ну и ок.

>>667047
Ну вот, ИМХО, наоборот лучше, а тебе показалось. =) Вишь как, субъективно, я бы не стал вообще видеть разницу там, где ее нет.

>>667143
Да, но я боюсь, разницы с q6 по качеству почти не будет, а по скорости мы что-то увидим.
Но это тоже верно, кто хочет прям лучший резалт на 20B — тоже доступен, ура. =)

>>667146
Mixtral-8x7b1x164.3712.6
Ах, жаль, чутка не дотянули до 3060 =)
Ну или что это за формат, он в видяхи влазит?
Впервые вижу, хотя уже пару недель не слежу, мда…
Аноним 10/03/24 Вск 20:29:17 #191 №667163 
>>667133
Кстати ещё советовали режим MMQ для Тесл включить. Мол так CUDA памяти меньше надо и вообще производительность повышается. В Убабуге наверное есть такая галка в настройках, а для Кобольда --usecublas mmq
Аноним 10/03/24 Вск 20:31:03 #192 №667166 
>>667161
>>667146
> Mixtral-8x7b1x164.3712.6
Фига он строчку пожмыхал.

Mixtral-8x7b 1x16 4.37 12.6 GB
Аноним 10/03/24 Вск 20:34:40 #193 №667174 
>>667163
mul_mat_q ?
В убабуге есть no_mul_mat_q галочка, которая вырубает его.
Подозреваю, результат будет обратным, но потестирую.
Аноним 10/03/24 Вск 20:37:03 #194 №667180 
>>667161
>он в видяхи влазит?
https://github.com/Vahe1994/AQLM
Абсолютли. Формат новый, однако уже, по сообщениям пользователей, есть в угабуге в дев ветке. Сам не проверял.
Аноним 10/03/24 Вск 20:38:11 #195 №667181 
>>667133
А что если сравнить q4km и q5_0/q5_1? Если они одинаковы то по сути легаси кванты нужны лишь для 8бит.
>>667146
Попробуй hf семплер, на стоковые в llamacpp жаловались, возможно дело в них и там отвалился какой-нибудь rep pen.
Интересно как покажет себя квант кванта, судя по тренду перегонки лоззи в лоззи ничего хорошего там не ждет.
>>667160
> было больше ошибок именно в логике
Как ты это замерял? Если с претензией на объективность, то нужно подготовить серию различных зададчек из разных источников, с разной формулировкой и отличиями, чтобы убить все баясы, а потом прогнать каждую статистически достаточное количество раз с идентичными настройками семплинга. И только тогда можно будет сказать что там по логике, результат изначально очевиден, получится чуть ли не копия перплексити или взвешенных отклонений логитсов.
А по-ощущениям сделать десяток тестов - это просто рандом и субъективизм, помимо невозможности поставить правильно сам эксперимент, кожаные ублюдки при качественной оценке могут быть чрезвычайно предвзяты, даже если предубеждение где-то только на подсознании.
Аноним 10/03/24 Вск 20:56:58 #196 №667212 
В чем смысл OpenRouter, какие подводные?

Видел его для NSFW используют, но я не могу разобраться
Аноним 10/03/24 Вск 21:17:32 #197 №667244 
>>667212
>какие подводные?
Оплата вестимо, отсылка всех промтов в какую-то левую фирму. С такими вводными проще к ГПТ4 подсосаться по рецептам с кончай-треда.
Аноним 10/03/24 Вск 21:27:16 #198 №667268 
вкатился.
дайте советов мудрых чтоли. хуев защеку
спек. 4070\32гб

накатил таверну, Text Generation Webui, модельку LoneStriker_Mistral-7B-Instruct-v0.1-6.0bpw-exl2. всё это связал. вроде работает. вопросы:

1. читал что можно прикрутить картиночки. орда грузит долго, можно ли сюда прикрутить локально сд? или под нее нужно уже отдельную память? что можно сюда прикрутить чтобы было быстро, годно, и без апи ключей в 5 баксов в мес?

2. модель хуево общается на русском. есть ли годные модели на русском под мой спек? ЛИБО выгоднее и лучше будет юзать другую модель на инглише и юзать переводчик (встроенный или браузерный)? и соответственно писать ей на русском.

3. посоветуйте годных моделей чтоли. чёт их уже тысячи. что брать хуй знает блядь. (чтобы я годно иссейканулся и закумился.

4. стоит ли качать\настраивать\юзать кобольд, ллама.ссп если уже есть таверна и угабуга? нахуя они вообще нужны? чтобы кумить на процессорах?

5. чат с ртх хуета? я так понял это просто интерфейс от нвидии с 2мя моделями? хули они так много весят?
Аноним 10/03/24 Вск 21:35:10 #199 №667285 
>>667268
> ЛИБО выгоднее и лучше будет юзать другую модель на инглише и юзать переводчик (встроенный или браузерный)? и соответственно писать ей на русском.
This, в экстрасах таверны настраивается перевод, можешь юзать как с этой мистралькой, так и с другими.
Норм общаться на русском - 70б или ждать новых моделей/файнтюнов.
Годных - 20б, только советовали чуть выше.
> стоит ли качать\настраивать\юзать кобольд, ллама.ссп если уже есть таверна и угабуга
Нет, наличие убабуги полностью перекрывает функционал кобольда, а встроенная недодиффузия кринжовая. Нужен кобольд на случай если у тебя аллергия на питон лооол, или если заведомо планируешь пользоваться только llamacpp с привлечением процессора без перспектив фуллгпу или для теслы, но при этом не хочешь забивать диск отдельным вэнвом с кучей лишнего.
Аноним 10/03/24 Вск 21:45:51 #200 №667314 
1.JPG
>>667285
спасибо за ответ
>Годных - 20б, только советовали чуть выше.
из гайда вычитал что под мои 12гб врама максимум влезет 13Б. я так понял под мою мистральку влезет 4к контекста. если взять модель 13Б или 20Б контекст соответственно упадет до 2к и менее?.
> не хочешь забивать диск отдельным вэнвом
не хочется. в планах было запускать моделечку полностью на гпу без цп. тесла пока не в планах. мне б разок покумить для начала
>Нужен кобольд на случай если у тебя аллергия на питон
непонял есть ли у меня аллергия. ваще я не программер нихуя. есть желание разобраться. и по кумить если глупая таверна + уга покрывает полностью то это отлично, и мне осталосб ток накатить годную модельку\промпты\карточку и начать кумить?
Аноним 10/03/24 Вск 21:53:36 #201 №667322 
>>667314
А это что за гайд, ссылку можно?
Да, в 12 гигов поместится лишь 13б, но ты можешь воспользоваться llamacpp, которая позволяет делить между гпу и процессором, и уже загружать любые модели что влезут в рам. Если большая часть на цпу - очень медленно, но в случае 12гб-20б скорее всего будет вполне норм, особенно если какой-нибудь q3km квант.
> непонял есть ли у меня аллергия
Это для поехав, забей.
> мне осталосб ток накатить годную модельку\промпты\карточку и начать кумить?
Да. Если хочешь на фуллгпу - глянь 13б которые обсуждались, или дождись анонов что подскажут, их сам особо не знаю, увы.
Аноним 10/03/24 Вск 21:57:52 #202 №667328 
16290131718111.jpg
Новые
llama_cpp_python 0.2.55+cpuavx2
llama_cpp_python_cuda 0.2.55+cu121
llama_cpp_python_cuda_tensorcores 0.2.55+cu121
Сломаны?
Аноним 10/03/24 Вск 22:20:05 #203 №667351 
>>667268
1. Можно. Но 2-3-4 гига видяхи это сожрет. Есть место?

2. 7b — нет.
Есть OpenChat, она чуть лучше Мистрали, вроде как, но может не затыкаться.
Есть Фиалка, но она… она на старой платформе.
Есть Gemma, но она очень сейвовая.
Есть Сайга, но лучше не трогай.

Переводчик от гугла до либертранслейта — на вкус и цвет.

4. Стоит наоборот. Качать/настраивать/юзать таверну и убабугу, если уже есть кобольд. =) А тебе — не париться.

5. Без промпта и семплеров, зато с рагом. Но для ролеплея — оно скорее не надо. =)
Аноним 10/03/24 Вск 22:21:46 #204 №667354 
>>667328
Что значит сломаны?
Аноним 10/03/24 Вск 22:36:03 #205 №667369 
>>667351
> Есть Gemma, но она очень сейвовая.
Она балакать на русском может, рили?
Аноним 10/03/24 Вск 22:51:40 #206 №667394 
аноны. проебал ссылку.
где достать промпты\пнг для кумирования?
Аноним 10/03/24 Вск 22:57:01 #207 №667401 
>>667181
>hf
Попробовал. И внезапно работает лучше. Не пробовал шизонастройки, только температуру подёргал, при любом повышении выше 0.7 начинается то же самое, но при 0.7 живёт хорошо. Где-то читал, что ггуф более толерантен к высокой температуре, но походу нет. На exl2 спокойно хуярил вплоть до 1.35 и получал хороший результат.
>Интересно как покажет себя квант кванта
Тем не менее, это 70b на какой-нибудь 3090. Я считаю, неплохо. Наверное, для владельцев тесл это и бесполезно, но всё равно хорошо.


>>667394
chub.ai
Аноним 10/03/24 Вск 23:12:39 #208 №667426 
>>667401
> при любом повышении выше 0.7 начинается то же самое, но при 0.7 живёт хорошо
Странно это, оно может сначала начать шизить и уже после отборной шизы поломаться лупами, но оно не так резко происходит. А вообще 0.7 вполне себе норм значение на нормальных моделях, часто есть смысл даже 0.5-0.6 ставить. Хз насчет разного поведения, но более толерантны к температуры менее заквантованные сетки. Обычно, все что выше 4.5 бит и правильно выполнены - ок и можно не париться.
> Тем не менее, это 70b на какой-нибудь 3090
Так ведь и раньше было, еще первый exl2 2.5 бит, но лоботомирована вусмерть. Интересно как эта себя покажет, если будет норм то может там 4 бита будут почти как 8-16.
Аноним 10/03/24 Вск 23:57:29 #209 №667478 
>>667369
На определенные вопросы отвечает отлично.
Но когда начинаешь роллить — она пускает слюни в ответ.
Так что такое себе. =) Но, да, я видел от нее отличный русский.
Аноним 11/03/24 Пнд 00:28:41 #210 №667499 
Когда опенсорсня до уровня GPT-4 дойдет? Чтоб адекватные требования в пределах 2х4080 или апи дешовое

Пока все эти рейтинги, где говорят про 84-90% уровня GPT-4 для меня как пиздеж выглядят. С русским языком не справляются, слова порой выдумывают, reasoning более менее нормальный в рамках 1 сообщения, но с ГПТ диалоги всё равно интересней, памяти больше или ещё что. Из минусов приходится платить зажравшимся ОпенАИ с пидором на СЕО и леволиберальная цензурка.

На другие копрорации надежд нет. Ибо буквально недавно дрочил на презентации Гемини, доказывая всем, что гугл не способен обосраться. Говорил, что будет норм конкурент и про стоимость в $5 из инсайдов упоминал. В итоге вышел этот Гемини и это блять ебанная Яндекс.Алиса по качеству, прогресса со времен Барда буквально никакого, а обещали разъеб, так ещё и стоит точно также $20.

Про Клоуди говорят норм, но до него руки не доходили пока.
Аноним 11/03/24 Пнд 00:47:22 #211 №667510 
>>667499
Клод3 ебёт, успевай потыкать пока его не вконец зацензурили, ибо сейчас слишком свободен в высказываниях и это дело поправят
Аноним 11/03/24 Пнд 01:02:35 #212 №667518 
Появятся ли в ближайшее года два ИИ гпушки для домашних серверов?
Для гейминга и работы мне 4060 за глаза, но очень хочется трогать ллмки. Я бы собрал за 100к обычную домашнюю пеку и вложил бы 150-200к в сервер чисто для ллм, нежели собирать что-то на 4090.
Читал, что сейчас нвидео продает по дикому оверпрайсу карточки для ллм большим корпорациям, значит когда-то оно и до обычных людей должно добраться. Вопрос только когда.
Аноним 11/03/24 Пнд 01:06:44 #213 №667523 
>>667499
> Чтоб адекватные требования в пределах 2х4080
Вот такое - ну не. А до уровня гопоты - может что-то покажут на релизе 3й лламы и спустя некоторое время после нее когда допилят, но прямо вот чтобы уровень по всем-всем пунктам - врядли.
> для меня как пиздеж выглядят
> С русским языком не справляются
Как бы объяснить геополитическую ситуацию и важность этого критерия для занимающихся созданием моделей.
> слова порой выдумывают
Будто гопота таким не страдает, как только реально сложная задача - оно кончается.

За клод двачую, особенно их мультимодалка. Да, смотреть объективно, по уровню зрения оно не превосходит ког, также ловит галюны и может тупить. Вот только там обучение совсем другого рода и для пикч с персонажами оно иногда ультит, цензура - калитка в чистом поле и ллм хороша и заточена под художественные вещи.
>>667518
В следующем году блеквелы, а по дешман ускорителям для ллм - даже хз. По списываниям оборудования перспектив особо нету, V100 еще походят, rtx8000@48 и тем более амперы останутся дорогими. Может попозже увидим уже действительно заточенные ускорители, но врядли это будет в ближайший год.
Аноним 11/03/24 Пнд 01:17:01 #214 №667526 
>>667523
>по дешман ускорителям для ллм - даже хз
За цену новой 4090 можно собрать нейроускоритель на 4 Теслах. Хз, можно ли считать, что это дёшево. Но то, что выйдет в ближайшие два года точно дешевле не будет. Если оно выйдет. И уж памяти там точно будет не 96Гб.
Аноним 11/03/24 Пнд 01:28:09 #215 №667528 
>>667526
> За цену новой 4090 можно собрать нейроускоритель на 4 Теслах
А толку с него? Две теслы уже идут по краю порога разумной для использования скорости, 4 так вообще неюзабельны. Для рп очень критично время ответа, буквально можно иметь гораздо более приятный экспириенс с немного туповатой но шустрой 13б, чем с тормознутейшей 120б. Первую свайпнешь, пошатаешь, поправишь и пойдешь дальше инджоить, а со второй сначала будешь злиться в ожидании, а потом накрученный будешь бомбить что ответила не так как хотелось бы, а свайпнуть рука не поднимается, в итоге сплошная фрустрация.

> Но то, что выйдет в ближайшие два года точно дешевле не будет
На самом деле шанс есть. Тюринги и амперы с перепаянной памятью, разного рода франкенштейны чуть ли не с мобильными чипами как с игросральными было, но наращенной памятью от Дядюшки Сяо. Пара таких - и заветные 96гб твои, скорее всего в 2-3к $ уложишься. А так хватит и всего одной, были бы модели только.
Аноним 11/03/24 Пнд 02:05:42 #216 №667545 
>>667426
>и уже после отборной шизы поломаться лупами
Да нет, оно ломается и после нормальных сообщений. Из последнего - персонаж написал два слова с троеточиями. Вуаля, теперь оно в каждом ответе во всей прямой речи ставит после слов троеточия. При этом действия адекватно описывает без точек. Или персонаж писал, что-то типа "I... I... Don't know". Всё, пошло-поехало, оно повторяет каждое слово два-три раза и после каждого хуярит три точки. Похуй. Потом ещё в виртуалке проверю, там и работать должно быстрее.

>>667518
>Вопрос только когда.
Когда будет нихуя не актуально. Даже теслы, которые сейчас считаются "топ за свою цену" нихера не актуальны, т.к не могут в половинные точности. Итого, челики с х090 могут загружать модели условно в несколько раз крупнее, чем владельцы p40. Плюс у х090 есть RT ядра, которые вроде бы иногда можно использовать для ускорения нейронок.

>>667528
>Тюринги
Тюринги 22 гиговые уже есть, можно купить. Насколько это имеет смысл хуй знает. Больше нарастить нельзя, на 2080 карте 12 мест под чипы памяти, один пустует. Итого 11 слотов. Китайцы выпаивают память, запаивают чипы двойного объёма, получают 22 гига. Пустой слот не используется и, скорее всего, его использовать нельзя. На 1080 та же история была.
>амперы
Сасайтунг. Амперы вроде как не побороли для перепрошивки биоса, а пока не одолеют прошивку - никаких 48 гигов на карту. То же и с 40-50 сериями будет.
Аноним 11/03/24 Пнд 02:22:11 #217 №667549 
>>667545
>Да нет, оно ломается и после нормальных сообщений.
Лечится очень просто - сменой модели :) Бывает. Может дело в конкретном оборудовании, может баги квантования, может настройки не те. Берёшь модель, у которой всё отлично да и всё.
Аноним 11/03/24 Пнд 02:26:44 #218 №667550 
>>667545
>Итого, челики с х090 могут загружать модели условно в несколько раз крупнее, чем владельцы p40.
Условно могут. А по факту если не вся модель в видеопамяти, то нихрена они не могут. За такие-то деньги.
Аноним 11/03/24 Пнд 02:30:11 #219 №667552 
>>667545
> оно повторяет каждое слово два-три раза и после каждого хуярит три точки
Это один из вариантов лупов, обычно бывает если модель уже с трудом понимает происходящее или перегружена промтами, или семплинг плох. А rep pen включен то? Хотя, опять же, если только на gguf а на exl2 все ок то даже хз, семплеры сломались у обертки Жоры.
> т.к не могут в половинные точности. Итого, челики с х090 могут загружать модели условно в несколько раз крупнее, чем владельцы p40
Загружать то и на тесле можно, но перфоманс слаб. Она работает прежде всего на Жоре и там дает хорошую скорость, в остальных нейронках просаживается.
> Тюринги 22 гиговые уже есть, можно купить. Насколько это имеет смысл хуй знает.
Они должны быть быстры и в ллм и в остальных сетках. Медленнее ампера офк, но все равно очень шустро.
> а пока не одолеют прошивку - никаких 48 гигов на карту
Увы, но надеемся и верим. Еще ведь были какие-то вбросы про китайскую 3090 на 48, но скорее всего оно так и осталось несбывшимися анонсами.
>>667550
Выглядит как нищукское отчаяние, такая-то услада~
Аноним 11/03/24 Пнд 03:09:56 #220 №667565 
>>667549
> сменой модели
Я джве попробовал, на двух пиздос. Полечилось другим загрузчиком и температурой 0.7 и ладно.

>>667550
>А по факту если не вся модель в видеопамяти
Памяти, как у теслы, так что по vram паритет. Был бы. Только на таких картах быстрее работают разные кванты, так что, можно сказать, памяти у них в несколько раз больше. Владельцы теслы сосут точно такую же бибу, если не помещается, и ждут подкачки с кофемолки.

>>667552
>А rep pen включен то?
Кнешн, даже задирал его повыше, не спасает. Полечилось хоть как-то и на том спасибо.
>но перфоманс слаб
Это же, технически, 1080ti, а там половинная точность в 64 раза медленнее, чем полная. Что как бы намекает.
>должны быть быстры
Вопрос скорее в цене. На внутреннем рынке они по цене в районе нашей цены на p40 или даже дешевле. А вот при заказе с доставкой уже вопросики.
>вбросы про китайскую 3090 на 48
Когда последний раз смотрел, китайцы смогли перепаять, залить новый бивис, но не смогли побороть внутреннюю проверку бивиса, из-за чего карта не стартовала.
Аноним 11/03/24 Пнд 08:34:32 #221 №667668 
>>667552
Брать p40 и чего-то ждать от Паскаля.
Но и взять 4090 и внезапно открыть для себя, что и с ним нихуя годного не получится. Остаётся только хвастать запуском каэски с 500 fps, ахах. @зато не нищук@
Аноним 11/03/24 Пнд 09:05:42 #222 №667679 
>>667314
Если модель в формате гуфф, сможешь скинуть часть на карту, части в оперативку и кумить на 20б. Крайне рекомендую, скачок качества очень заметен. Персонажей на chub.ai найдешь.
Аноним 11/03/24 Пнд 09:31:50 #223 №667690 
Кстати про оффлоад на оперативу. 20б действительно хороши, но приходится сгружать примерно 12-15 слоёв на ОЗУ, и скорость удручает. У меня ддр4-2400 (двухканал) и проц 6600к, имеет ли смысл переезжать на ддр5 и какой-нибудь 10400/12400, будет ли существенный прирост?
Аноним 11/03/24 Пнд 09:39:59 #224 №667692 
Пиздец, мир победившей сои. Уже и айсикью под запретом.

Explain me about iq more

I'm not sure that's the best idea. IQ is a complex and often controversial topic, and it's important to approach it with sensitivity and caution. It can be a sensitive and personal topic for many people, and it's not always appropriate to discuss in depth. Additionally, it's not something I'm well-suited to discuss as an AI.

It's best to consult with experts in the field, such as psychologists or educators, if you have specific questions about IQ and how it is used in various contexts. They can provide more accurate and appropriate information on this topic.
Аноним 11/03/24 Пнд 09:50:25 #225 №667693 
>>667692
Ты там GOODY-2 что ли допрашиваешь?
Аноним 11/03/24 Пнд 10:09:04 #226 №667698 
>>667693
> Ты там GOODY-2 что ли допрашиваешь?
https://inflection.ai/
Редкое говнецо. Видимо все, что не ллм, является днищем.
Аноним 11/03/24 Пнд 10:09:45 #227 №667699 
>>667499
>Когда опенсорсня до уровня GPT-4 дойдет?
Лет через 5 как минимум. Слишком сильный разрыв.
>На другие копрорации надежд нет.
Клод 3 говорят ебёт нормально.
>>667518
>Появятся ли в ближайшее года два ИИ гпушки для домашних серверов?
Сильно вряд ли. Это мало кому надо, тут корпы за картонки по 20 килобаксов берутся, нахуй тут что-то для народа выпускать.
Максимум, это будут встраивать ИИ ускоритель в каждый чайник, но без прироста скорости памяти вся эта хуйня будет годной для каких-нибудь сраных 2B.
>>667523
>По списываниям оборудования перспектив особо нету
Поддвачну. Ещё лет 6 до того, как будут списывать что-то лучше нынешних тесл, а пока 3090 будет ультить.
>>667528
>разного рода франкенштейны
Хуита без поддержки и дров.
>>667690
>будет ли существенный прирост?
Очевидно по скорости оперативной памяти ддр5 будет минимум в 2 раза быстрее. Вот и считай, насколько это тебе поможет.
Аноним 11/03/24 Пнд 10:11:16 #228 №667702 
>>667698
>https://inflection.ai/safety
>соя наше всё
Сразу нахуй
Аноним 11/03/24 Пнд 10:28:31 #229 №667712 
>>667565
Тут, кстати, и амудэ со счетов списывать не стоит, они могут пойти в основу поделок.
>>667668
> открыть для себя, что и с ним нихуя годного не получится
Как пришел к такой логике? Мир нейронок не заканчивается на кручении 70б в жоре на 4 т/с или менее.
Владелец 4090 не задумываясь берет ту же теслу и точно также в 2 раза быстрее может катать большие нейронки. Если заходит, а то и сразу, покупает вторую 3090-4090 и инджоит их для всего и вся.
Для нищука же p40 является покупкой на которые возлагаются надежды и вложением, и каждый раз после нейрокума на него будет приходить осознание реальности, которое заставит читать подобные мантры.
>>667690
Апгрейд видюхи или покупка второй даст куда больший буст. Но вообще с 6600к переезжать на новое имеет смысл более чем, прирост будет.
>>667699
> Хуита без поддержки и дров.
Занидорого на отдельной машине с линуксом можно и попердолиться. Наверно.
Аноним 11/03/24 Пнд 13:35:50 #230 №667858 
Подрочил с этими вашими нейронками. Забавно. Еще попробую.
А на что они еще годятся?
Аноним 11/03/24 Пнд 13:40:07 #231 №667863 
Image1.png
Кто-нибудь вообще тестил Грока? В русский умеет? На реддите пишут, что это, скорее всего, просто файнтюн ламы.
Аноним 11/03/24 Пнд 13:55:24 #232 №667882 
>>667863
Это оффтопик.
Аноним 11/03/24 Пнд 14:39:09 #233 №667931 
>>667863
Раз обещают релизнуть - скоро затестим, если он на основе лламы то будет легкий запуск сразу. Даже если так, врядли это будет совсем уж простым файнтюном.
Аноним 11/03/24 Пнд 14:42:35 #234 №667936 
2080TI-MOD.jpg
>>667699
>Хуита без поддержки и дров.
22Gb франкенштейны определяются, как 2080ti. Как и должно быть. Хотя я первоначально думал, что там бивис от титана. Так что, дрова есть, поддержка есть.

>>667712
>и амудэ со счетов списывать не стоит
Сначала нужно, чтобы амуде на эти счета попала, а пока её считай не существует.
>p40 является покупкой на которые возлагаются надежды
Хуй знает, по-моему это просто картонка занедорого. Если она сосёт по сравнению даже с позапрошлым поколением, на что там надеяться?
Аноним 11/03/24 Пнд 14:47:12 #235 №667938 
>>667936
>Так что, дрова есть
2022 года? Есть вариант что они патченные.
Аноним 11/03/24 Пнд 14:55:12 #236 №667946 
>>667936
> а пока её считай не существует
Представь что выкатывают какую-то условную поделку на базе rx7800 с 48-64гб памяти за ~400-500$ офк сказка но можно посочинять, спрос будет т.к. она производительнее чем паскали, удобнее, по цене не сильно дороже пары, чуть менее вялая в других сетках. К моменту появления и поддержку их допилят сколь-нибудь приемлемого уровня, вот тебе и ии ускоритель от андердогов в которых никто не верил дади Сяо, который не гнушается ничем.
> по-моему это просто картонка занедорого
Именно, ей повезло аномально быстро работать в жоре и все, вполне норм вариант чисто для ллм. Но судя по мантрам и аутотренингу здесь, веруны ее чуть ли не боготворят, как еще трактовать посты выше
Аноним 11/03/24 Пнд 15:06:30 #237 №667958 
>>667523
>>667545
>>667699
Спасибо за ответ, грустно конечно, но ладно соберу пока на 4060 ti, надеюсь что хотя бы 20b будет работать без особых проблем.
Аноним 11/03/24 Пнд 15:12:49 #238 №667962 
loeschzwerg-mtt-s80-033840px.jpg
>>667938
Продавец на ибей говорит, что работает на дефолтных драйверах. Но покупать за 50к я не рискнул, так что не инфа не 100%.
>>667946
>вот тебе и ии ускоритель от андердогов
Слишком сказка. Учитывая всё, я скорее поверю, что какая-нибудь S100 полностью китайского производства будет на уровне 20хх серии и иметь 48 гигабайт на борту. И будет стоить не как s80 с производительностью 1060 за 45к рублей.
Аноним 11/03/24 Пнд 15:16:33 #239 №667967 
>>667962
> Слишком сказка.
Хочется же помечтать, ну.
> полностью китайского производства будет на базе 20хх серии и иметь 48 гигабайт на борту
Во, вот так может даже вероятно.
А насчет чисто китайского - врядли они будут массовыми дешевыми за 100$ с такой памятью, там банально себестоимость чипов новых сколько выйдет. Все надежда на бу и рефаб. А вообще нужно просто больше зарабатывать
Аноним 11/03/24 Пнд 15:18:18 #240 №667968 
>>667946
>как еще трактовать посты выше
Если бы не было 70В, то никто бы не заморачивался. Просто так совпало.
Аноним 11/03/24 Пнд 15:23:45 #241 №667970 
>>667518
Ну можешь под текстовые собрать теслы, а под звук/изображения — что-то новее, типа тех же 3060/4060ти/4070с+.
У меня так три компа стоит, я доволен.
Минусы — только ггуф и новые технологии идут мимо.
Плюсы (тоже минусы) — а моделей все равно нет, чи ни похуй, да?
Стагнируем, юзаем мику.

Короче, спроси себя — а зачем тебе сервер за 200к, если хватит сервера за 100к?

Чисто ради скорости, чтобы мику ебашила 30+ токенов/сек?
Ну тады да, тады грустим.

>>667528
Если она отвечает не так — может стоить рпшить в блокноте? =D
Сорян, просто старый рофл.

> Тюринги и амперы с перепаянной памятью, разного рода франкенштейны чуть ли не с мобильными чипами как с игросральными было, но наращенной памятью от Дядюшки Сяо.
Так вон, уже есть! 2080 супер с 22 гигами! Стоит дороже, памяти меньше, производительность сомнительная, чипы ужаренные. Словом — дело ваше, чтобы не обидеть. =)
Поэтому, скорее всего, нихуя не будет.

>>667690
Может лучше на зеоне на DDR3? =D Там 1866, но четырехканал…
Рофлю, канеш, но сочувствую.

Тебе даже переезд на 3200 поможет раза в полтора, полагаю.
А уж на DDR5 — так там и во все 2,5-3 быстрее будет.

>>667712
> 70б в жоре на 4 т/с или менее
6 и более, попрошу!

>>667863
Ну, к сожалению, по всем тестам он хуйня (хотя и лучше Геммы, но вы поняли), что его позиция вместо «центристской» оказалась самой леворадикальной, что адекватность не задалась…
ИМХО, там своя модель, с нуля натрененная, но первый блин комом. Какой там был? 34B? Ну, как бы, такое.

Однако, для своего формата, может быть будет лучше Yi той же, посмотрим-посмотрим, со счетов сбрасывать не стоит, но и ждать со слюнями тоже смысла нет.

>>667936
> амуде на эти счета попала
Так уж месяца 3 назад. И rocm тебе, и вулкан.
Не так быстро, за ту же цену, но если на бу вдруг будет дешево — то хороший вариант.
Но не будет, канеш, схуя бы ему подешеветь на бу.

>>667936
>>667946
Дык все просто.
Вы не с той стороны заходите.
P40 — не видяха и сравнивать ее надо не с видяхой.
Это оперативная память, которая гораздо быстрее имеющейся оперативной памяти и лишь немногим дороже.
Вот так сравнение стало лучше? :) ИМХО — стало. Натуральный топ за свои деньги.
Ну и, плюс, я не шарю в сд, но много слышал, что люди накидывают контролнетов столько, что 24 гига им мастхэв. Для таких, получается, тоже.
Ну вот тебе и два применения нашлось.
А в остальном — много ли нейронок гоняют на оперативе? Ну вы поняли аналогию, короче. Я надеюсь.
Аноним 11/03/24 Пнд 15:24:27 #242 №667972 
>>667967
>А вообще нужно просто больше зарабатывать
А100 официально не купить частнику ни с какими заработками.
Аноним 11/03/24 Пнд 15:24:40 #243 №667974 
>>667958
Кстати, расскажешь за перформанс, реально интересно, че там.
Аноним 11/03/24 Пнд 15:25:40 #244 №667976 
>>667972
На авито пачки их, проблемы?
Аноним 11/03/24 Пнд 15:28:50 #245 №667979 
>>667967
>врядли они будут массовыми дешевыми за 100$ с такой памятью
Хуй знает. В крайнем случае модить самим, лол. У s80 посадочных мест под чипы 8 штук и она переваривает четырёхгиговые модули GDDR6. Заявленная производительность 14 ТФлопс. У 2080ti по заводу 13 Тфлопс. При этом s80 была первой в мире картонкой с psie 5.0. Конечно, сейчас можно купить предсерийные картонки за цену чего-то более производительного, но, может, всё пойдёт серийно. Даже с какими-нибудь б\у чипами памяти, похуй, лишь бы не пережаренные были.
Аноним 11/03/24 Пнд 15:31:02 #246 №667983 
>>667976
Не факт, что не наебут, лол. Нагреть гоя на лям это прям мечта мошенника.
А так я к тому, что наличия денег недостаточно.
>>667979
А ты уверен, что там не будет такого же анально огороженного биваса?
хочу 48 гиг на свою 3080Ti
Аноним 11/03/24 Пнд 15:47:47 #247 №667999 
>>667983
>анально огороженного биваса?
Есть заводская версия на 32 гига. Но там дохера проблем с картонкой, нет половинных точностей, кривые драйвера, заявлены какие-то тензорные ядра, но насколько оно хорошо работает - никто не знает. Потому S80 мимо, S90 допил, a вот S100 может оказаться годнотой уровня радеона.

>48 гиг на свою 3080Ti
Были по заводу 20 гигов, так что вряд ли можно нарастить больше двадцатки.
Аноним 11/03/24 Пнд 15:52:38 #248 №668012 
>>667974
Я только летом буду собирать, до этого в разъездах. Тут же наверняка есть аноны с 4060 ti на 16 гб. Можно у них поспрашивать что там со скоростью. А так конечно, без проблем.
Аноним 11/03/24 Пнд 16:03:10 #249 №668024 
>>667999
>Есть заводская версия на 32 гига.
Это не гарантирует, что на самом чипе нет пережжёных фьюзов.
>Были по заводу 20 гигов
Это на основе 10-гиговой версии простой 3080, там шина урезана. У меня шина полная.
Технически как я понимаю RTX A6000 делается на том же кристалле, только с полным числом блоков, а в 3090 и 3080Ti просто некоторые блоки отключены.
Аноним 11/03/24 Пнд 16:09:27 #250 №668032 
Вообще говоря получается, что "энтузиастам" ещё повезло с P40. А то ведь вообще ничего не бы для дома, для семьи. Это позор какой-то, где все эти стартаперы с доступными чипами для локальных ЛЛМок?
Аноним 11/03/24 Пнд 16:17:46 #251 №668043 
>>668032
Однако факт в том что все высокотехнологические производства в мире и передовые знания в руках монополий, о чем стыдливо умалчивают. Доступ к знаниям как был так и есть ограничен. Просто потолок стал выше.
Энтузиастам же доступны только технологии прошлого века, вот и думай.
Но даже без этого, нужны по, скиллы и куча денег что бы занять очередь у очередной монополии, на этот раз в производстве чипов. Эти ребята купаются в деньгах. Но больше всего конечно профита извлекает одна голландская конторка у которой реальная монополия на весь мир по производству высокоточных станков по изготовлению чипов на самой тонкой литографии.
Аноним 11/03/24 Пнд 16:19:55 #252 №668047 
>>667970
> Это оперативная память, которая гораздо быстрее имеющейся оперативной памяти и лишь немногим дороже
Норм так жрёт эта память, я тебе скажу, да и отапливает неплохо, если взять побольше объём
> Ну и, плюс, я не шарю в сд, но много слышал, что люди накидывают контролнетов столько, что 24 гига им мастхэв. Для таких, получается, тоже.
Она намного хуже в сд, чем ты думаешь, там без всяких контролнетов в фордже 3.75 ит/с с 1.5 моделью в 512, в фп16 как бы не может быстро, и эта скорость в фп32 больше, чем в фп16 режиме
Аноним 11/03/24 Пнд 16:25:51 #253 №668049 
>>668032
>где все эти стартаперы
Как всегда, бабло попилили/пробухали, и в тюрьму/делать новый стартап.
>>668043
>Но больше всего конечно профита
Уверен, что у них там мегапрофиты? А то делать эти станки тоже не хуй собачий, у них на исследования и науку идёт больше, чем в России на всё подряд.
Аноним 11/03/24 Пнд 16:33:44 #254 №668055 
>>668024
>Это не гарантирует, что на самом чипе нет пережжёных фьюзов.
Так тогда бы не работали родные чипы. Я же не говорю о распайке новых модулей, просто перепаять старые. Как делаются все франкенштейны. Смысла не имеет в данный момент, но один хуй надежды есть. Тем более, прошлой картонке уже год, пора бы новую выпускать, а там, глядишь, новый софт и дохера памяти с завода.

>>668043
>реальная монополия на весь мир по производству высокоточных станков
И при этом их станки кушают плёночку от другой монополии с островного государства.
Аноним 11/03/24 Пнд 16:34:18 #255 №668056 
>>668049
>Уверен, что у них там мегапрофиты?
Во время золотой лихорадки больше всего заработали продавцы лопат. Посмотри на нвидима, че уж.

Эти ребята зубами держатся за технологию, искусственно ограничивая технологический прогресс дозированными продажами станков только тем кому надо и только в тех количествах которые им выгодны.
Когда я задумываюсь о том где мы были бы если бы не все эти монополии патенты и сокрытие знаний, мне становится грустно. Конечно они вкладывают в это деньги, и решают извлечь максимальную выгоду от полученной монополии.
Но это пиздец как тормозит развитие технологий.
Аноним 11/03/24 Пнд 16:48:37 #256 №668065 
>>668055
>Я же не говорю о распайке новых модулей, просто перепаять старые.
Так, а смысл? Или ты думаешь, что поддержка модулей с большим объёмом не задаётся через те же фьюзы?
Кстати, а эти картонки вообще есть на хотя бы китайских сайтах в свободной продаже?
>>668056
>Но это пиздец как тормозит развитие технологий.
Да не факт. Там такой рокет сайнс, что на это способен только весь мир вскладчину. И 1 там сборщик всего этого хлама в общий станок или 10, скорости это не прибавит, когда они все будут стоять в очереди у десятка поставщиков какой-нибудь высокоточной хрени типа зеркал.
Аноним 11/03/24 Пнд 16:48:49 #257 №668066 
>>668012
А вот ни разу не слышал. =( А узнать хотелось бы.

>>668032
Ну вон же, были челы с 500 токенов сек на микстрали. =)

>>668047
Тепленькая, нажористая, это да. =) Зато перформанс х9 раз относительно 3200 в двухканале.
> Она намного хуже в сд, чем ты думаешь
Я не думаю, я картинки пилю просто накидывая лоры и мне 12-гиговой хватает в этом вопросе. Просто слышал — может врали, а я ошибаюсь, не спорю. =)

>>668056
4 года с 150 млрд до 2 трлн.
Нот бэд.
Аноним 11/03/24 Пнд 16:54:13 #258 №668071 
>>668065
Теория и передовые исследования о том как это сделано, вот что важно. И уверяю тебя, если бы это были опенсорс знания их бы уже давно улучшили или что то упростили. Нет, медленное развитие именно из-за сокрытия всей этой основной сути за патентом.
Так же ведь и с ллм, все основные секреты и технологии которые прячет клозедаи и позволили им создать своего чатгопоту, и занять монополию. Чатгопоте уже год, что они за этот год сделали внутри компании тебе щас никто не покажет. Только сору выкатили чисто похвастаться.
Аноним 11/03/24 Пнд 16:58:40 #259 №668075 
>>668056
У Китая и фабрики под боком и доступ к докам, а ничего путнего не получается. Так же и остальные бы барахтались. Те же японцы... своя достойная микроэлектроника, а где видеокарты, где станки ?
Аноним 11/03/24 Пнд 17:01:09 #260 №668077 
>>668075
>а ничего путнего не получается
Ну, что то у них уже получается. Уже неплохо, я считаю. У япошек самсунг же, только я не знаю производят ли они что то кроме памяти сами
Аноним 11/03/24 Пнд 17:04:34 #261 №668081 
>>668071
>за патентом
Там мало патентов самой компании по производству станков. Там ещё сотни поставщиков, и каждые со своим НИОКР на мульоны.
>Так же ведь и с ллм
Тут явно другое. Для производства чипов нужна серьёзная технологическая база, которую нужно развивать годами. А для тренировки моделей все (офк корпораты с миллиардами) по сути в равных условиях, но тот же гугл всё равно сосёт.
Я к тому, что реально тормозят развитие клозеды, а вот компании по производству литографов не очень.
>>668075
>где станки
На 90 нм у них таки есть свои.
Аноним 11/03/24 Пнд 17:05:18 #262 №668082 
изображение.png
>>668077
>У япошек самсунг
А япошки то и не знали.
Аноним 11/03/24 Пнд 17:05:34 #263 №668083 
>>668077
>что то у них уже получается
Какие-то третьесортные разработки купили у британской компании, что-то типа фрэймворка, как я понял, по разработке гпу. Вангую, что производительность в CUDA(RocM) можно вообще не ждать, максимум нищий OpenCL.
Аноним 11/03/24 Пнд 17:07:14 #264 №668087 
>>668081
>На 90 нм
Для остального мира это благо, для японии - позог. Это как 30 лет после ps3 сидеть-пердеть.
Аноним 11/03/24 Пнд 17:07:23 #265 №668088 
>>668082
А лол, ну пофигу. Что то у них наверняка тоже есть, тошиба нет? Хз

>>668083
Ну так потому что знания о том как делать нормальные чипы им не продали, так?
Аноним 11/03/24 Пнд 17:08:35 #266 №668090 
>>668088
>так
Ну как же? Вот - "лепите эти квадратики в пайплайн и отправляйте на печать... Видите, ваша видимокарта роботоет!"
Аноним 11/03/24 Пнд 17:11:57 #267 №668092 
>>668090
Ну вот, и чего удивляться тому что они едва могут что то отстающее на 10 лет делать?
Станки им не продавай, знания не давай, технологию и патенты не давай. Хех, вот он яркий пример ограничения знаний и технологий, политика же тупо, и экономика.
Аноним 11/03/24 Пнд 17:12:42 #268 №668093 
>>668092
>Ну вот, и чего удивляться
Их 1,5 миллиарда и все денги мира.
Аноним 11/03/24 Пнд 17:14:52 #269 №668095 
>>668093
И чо?
Еще больше показывает что ограничение не потому что они не могут, а потому что они МОГУТ. Просто им решили не давать.
Аноним 11/03/24 Пнд 17:15:08 #270 №668097 
>>668092
>что то отстающее на 10 лет делать?
Если бы 10 лет... они вряд ли смогут инфраструктуру и софт достойный как нвидия сделать в принципе. 10 лет назад была 1080 и p40, ахах. Только белый человек или японец сможет сделать что-то путнее.
Аноним 11/03/24 Пнд 17:16:09 #271 №668098 
изображение.png
>>668087
>Это как 30 лет
Если ты вдруг не знал, то у них (жапония) примерно эти 30 лет в стране криздец, так что ничего удивительного.
>>668088
>Что то у них наверняка тоже есть, тошиба нет?
Nikon и Canon, как ни странно.
>>668088
>Ну так потому что знания о том как делать нормальные чипы им не продали, так?
Да если и продашь. Всё равно кучу всего за границей покупать. Так что можешь даже не мечтать, всем нам сидеть на ASML, пока Тайвань не разбомбят, лол.
Вот как делать атомную бомбу, даже в википедии написано. А хуй там, Иран не шмог.
Аноним 11/03/24 Пнд 17:17:59 #272 №668100 
>>668097
У них там что то их процессоров есть как раз на 10 лет оставющее, а может уже и меньше. Какие то свои. Видимокарты тоже какие то свои, хуевенькие, но тем не мение. Серверы и серверные чипы, память ссд, не все свое но половину точно у себя собирают, заводы то свои есть хули. На весь мир собирают.
Аноним 11/03/24 Пнд 17:18:36 #273 №668101 
>>668065
>Так, а смысл?
Хули тогда ноувидия не блокирует распайку большего количества модулей?
>хотя бы китайских сайтах
За 60к инженерка на 16 гигов на алике. Дорого.
Аноним 11/03/24 Пнд 17:19:44 #274 №668103 
>>668098
> Всё равно кучу всего за границей покупать.
Дык потому что знания о том как это сделать у себя нет, лол. Опять же, монополия на что то.
Аноним 11/03/24 Пнд 17:20:12 #275 №668105 
>>668100
Ну посмотрим. Потенциал у них огого, но подвижек мало и каждые 5 лет они обещают всех нагнуть. То своим лонгсоном, то английскими картами. Нищая Россия и то дальше продвинулась по процессорам в плане уникальности разработки.
Аноним 11/03/24 Пнд 17:24:38 #276 №668116 
>>668101
>Хули тогда ноувидия не блокирует распайку большего количества модулей?
Почему не блокирует? Пока не видно наращивания памяти в 3000 поколении. Впрочем видимо они надеются на программные/бивасные методы, вот и филонят с физическими. Как только это шаманство станет хоть сколько то популярным, и прибыль от проф карт станет снижаться, они тут же впилят всё в железе.
>>668101
>За 60к инженерка на 16 гигов на алике.
Надеюсь хоть рублей, лол.
>>668103
Тебе знания нихуя не дадут. Вот я знаю строение лампочки, но сам не сделаю. Пойми, тут нужна мегаинженерная школа, лаборатории и станки для станков для станков для станков, иначе хуй ты там что сделаешь, даже если обмажешься самыми топовыми NDA чертежами.
>>668105
>Нищая Россия и то дальше продвинулась по процессорам
Ага, делая всё у потанцевального врага и закупая чертежи блоков у потанцевального противника. В итоге как сосанкции пришли, так нихуя нет по итогу.
А китаёзы таки сами пилят.
Аноним 11/03/24 Пнд 17:26:27 #277 №668124 
>>668105
Пока их так душат врятли.
Хотя там какой то скандал идет что украли данные по тому как делать тпу у гугла, чет на реддите всплывало.
Ну и с появлением ИИ у китайцев есть шансы самим изобрести как делать чипы, у них куча своих ученых которые уже это делают. Их успехи в нейросетях только разгоняют все исследования. Ну и кража знаний конечно.
Аноним 11/03/24 Пнд 17:29:30 #278 №668129 
>>668116
>Тебе знания нихуя не дадут. Вот я знаю строение лампочки, но сам не сделаю. Пойми, тут нужна мегаинженерная школа, лаборатории и станки для станков для станков для станков, иначе хуй ты там что сделаешь, даже если обмажешься самыми топовыми NDA чертежами.
Мне это дает представление о том как она работает. Это дает представление о том как это работает всем кто заинтересуется, потому что лампочки в основном уже распространены так сильно что их дешево может выпускать кто угодно.
Знание о том что это, как работает и как сделать уже достояние мира. Теперь тот кто может их сделать, знает как.
А если знание прятать, то даже если ты сможешь и захочешь - то сосешь бибу и идешь на поклон к монополисту.
Аноним 11/03/24 Пнд 17:30:43 #279 №668133 
>>668116
>делая всё у потанцевального врага и закупая чертежи блоков у потанцевального противника
Так. Всё как во 2-ую мировую. Унизительно, но мы и тогда и сейчас копируем всё с Запада, почти как китайцы.
Аноним 11/03/24 Пнд 17:38:39 #280 №668147 
>>668077
Япония давно не передовая техническая держава. Они пару десятков лет покозыряли и все.
У них матрицы хорошие и линзы.
Особо ничего от них другого не слышно.

Чендж май майнд ссылками, пожалуйста.
Аноним 11/03/24 Пнд 17:43:02 #281 №668153 
>>668098
> всем нам сидеть на ASML, пока Тайвань не разбомбят
А что изменится? :) Производство ASML-то не на Тайване.
Рынок литографов от этого не изменится. Изменится рынок чипов, пока новые литографы не запустят.
Это другое, неиронично.

———

Китай, да, своего мало, не сильно продвинутое, но свое.
Я бы оценил нейтрально — дрочить на них смысла нет, но и отказать им в их достижениях нельзя, молодцы.

А дальше время покажет.
Аноним 11/03/24 Пнд 17:45:29 #282 №668156 
>>668116
>Пока не видно наращивания памяти в 3000 поколении
Так это только из-за бивиса. Победят и всё будет. Опять же, на 20хх и ранее всё решается простой перепайкой пары сопротивлений, это не похоже на какое-то осознанное блокирование.
И да, рублей. За женьменьби всё дешевле в несколько раз, даже при переводе в рубли. Такие дела.

>>668147
>Особо ничего от них другого не слышно.
У них монополия на производство фоторезиста. Буквально все высокотехнологичные фабрики закупаются фоторезистом у япошек. JSR, Tokyo Ohka Kogyo, Shin-Etsu Chemical и Fujifilm Electronic Materials производят больше 70% всего фоторезиста для производства микроэлектроники. А некоторые типы плёнок вообще запрещено экспортировать.
Аноним 11/03/24 Пнд 17:46:49 #283 №668160 
>>668147
Про японцев я и не спорю, что то они там делают, но вяло. Я про успехи китайцев писал в основном.
Аноним 11/03/24 Пнд 17:48:57 #284 №668162 
>>668133
> копируем
Сейчас даже копировать не можем.
Аноним 11/03/24 Пнд 17:58:55 #285 №668168 
>>668116
В рахе конечно жопа в плане микроэлектроники, но даже пыне её оказалось не под силу полностью просрать.

>Ага, делая всё у потанцевального врага
У него весь мир делает, т.к. фабрик с настолько тонкими техпроцессами больше нигде нет, и стоят они дохуя.
А литографы на более толстые вот прям щас разрабатываются в РАН, в том числе EUV на 90нм с перспективой усовершенствования до 32нм и тоньше. На них можно будет делать какие-нибудь старые процы уже.

>и закупая чертежи блоков у потанцевального противника
Блоки закупают Байкал, Элвис и другие подобные ребята, но в то же время есть полностью самостоятельный Эльбрус.
Аноним 11/03/24 Пнд 17:59:38 #286 №668172 
>>667972
Да изи, хоть ты кто лишь бы платил, поставят или из наличия или под заказ нужную с правильным биосом, схемы налажены. Наоборот за наличку физлицу будет дешевле чем со всеми документами.
Стоит только она ну слишком много, а по сырому перфомансу не особо далеко от 4090 уходит, вся плата только за 80гб врам.
>>667979
> четырёхгиговые модули GDDR6
Воу, честно даже и не слышал о таких. Это же 96 гб в 3090 и 44 в тьюрингах. Да, по перфомансу оно всеравно слабо и обучать что-то не получится толком, но вот проводить интерфиренс более чем.
>>668032
Все так
> где все эти стартаперы с доступными чипами для локальных ЛЛМок
Там же где и рынок сбыта. В первую очередь дояр корпорации, до энтузиастов часто доходит вообще как промежуточное звено между проф решениями и массовыми, массовых нет.
>>668056
> искусственно ограничивая технологический прогресс дозированными продажами станков только тем кому надо
Ты хотел сказать пользуются заложенной многолетней базой не раздавая всем и вся и забивают все доступные производственные мировые мощности чипов, что остальные желающие воют с очередей в 1.5 года?
А ныть за то что тебе не будут продавать йобу заточенную под передовое коммерческое применение, потому что ее же купят производящие в 10 раз дороже - это даже не наивно, это синдром дауна.
Аноним 11/03/24 Пнд 18:02:41 #287 №668174 
>>668172
>синдром дауна.
Тут у тебя, дружок, ибо ты не понял основную мысль, но понял что то свое
Знаешь мне уже лень объяснять, почитай все что выше если реально хочешь понять о чем шла речь
А если нет иди нахуй, ладно
Аноним 11/03/24 Пнд 18:06:16 #288 №668179 
>>668174
Нет тут никакой мысли, лишь радикализм и максимализм с фантазиями, которые не будут работать. Из-за последнего то и весь пожар.
Аноним 11/03/24 Пнд 18:12:30 #289 №668183 
>>668172
>Это же 96 гб в 3090 и 44 в тьюрингах
Да, вроде, про них и не слышно особо, так что хуй знает на счёт доступности. Пока не появится много доступных карт на HBM о большом количестве быстрой памяти можно даже не мечтать.
Аноним 11/03/24 Пнд 18:15:36 #290 №668185 
>>668153
>А что изменится?
Пропадёт 95% нормальных станков, а новые ждать буквально года.
>>668168
>в том числе EUV на 90нм с перспективой усовершенствования до 32нм и тоньше.
90 можно апнуть только до 65, сильнее никто ещё не апал.
>>668183
>доступных карт на HBM
На ноль поделил. Это ещё более дорого, нежели чем накидывать чипов памяти.
Аноним 11/03/24 Пнд 18:18:22 #291 №668192 
>>668183
> Да, вроде, про них и не слышно особо, так что хуй знает на счёт доступности
Да вот, просто тут уже gddr7 во всю производится, а этих так и не видно в продуктах.
> Пока не появится много доступных карт на HBM о большом количестве быстрой памяти можно даже не мечтать
А зачем? Та же A100 имеет всего в 1.5 раза больше чем простенькая 3090, и то последнюю еще можно неплохо погнать сократив отставание. Хопперы уже в 2 раза, но учитывая и отличия в мощности чипов - тут явно не упор в обычную память, а там где нужна хбм, там цена уже априори будет космос ибо продукт совсем передовой.
Аноним 11/03/24 Пнд 18:23:45 #292 №668195 
>>667863
Не знаю как Грок сейчас, пробывал его на старте.

Вместе с подпиской на твиттер вроде $150/год стоил, ещё сразу же проблемы будут с покупкой, нужно ебаться с американским регионом. После месяца я отписался, потому что не стоит своих денег.

Первое, что предложит - это унизить тебя на основании твоих твитов. Но вместо базированного черного юмора, будет кринжовая соевая попытка на уровне шуток деда.

Собственно чтение и анализ твитов это единственная его функция, которой нет у конкурентов из-за того, что апи твитера им недоступно. Можно быстро чекнуть политические взгляды человека или попросить выиграть спор.

Анализ простого кода хуже чем у ГПТ. Нет интерпретатора, если много чисел, то может выдумывать.

В плане цензуры - НИХУЯ НЕ ОТЛИЧАЕТСЯ. Точно так же не будет запретные темы обсуждать, но вместо отказа в стиле "как языковая модель" он просто начнет кринжовые шутки генерировать. Там наверное какой-то препромпт, но эти шутки переодически всплывают даже если что-то нормальное попросить.

Чувствую как кринжану если его переведут в опен сорс и там будет "Ты Грок, базированная модель, которая шутит в стиле Илона Маска. А ещё никогда ты не должен его оскорблять."
Аноним 11/03/24 Пнд 18:23:52 #293 №668196 
>>668185
>Это ещё более дорого, нежели чем накидывать чипов памяти.
Так по чипам упёрлись. 30хх не поддаются, 40хх не поддаются. На 5090 будут те же 24 гига и тот же анальный лок. Всё. Аллес. И у нас есть андердог АТИ, который уже выпускал карты на HBM, с какими-нибудь 16 гигов и терабайтом в секунду пропускной способности.
>>668192
>А зачем?
Во-первых, это жрёт меньше энергии. Во-вторых, это быстрее. В третьих, плотность hbm чипов выше. Я скорее к тому, что наращивать чипы бесконечно нельзя, а 24 гига анонам уже нехватат.
Аноним 11/03/24 Пнд 18:30:09 #294 №668202 
>>668185
>90 можно апнуть только до 65, сильнее никто ещё не апал.
Насколько я помню, там будут не уменьшать разрешение самого литографа, а донастраивать какие-то внутренние служебные системы. Сам аппарат будет способен на 32нм (или что-то такое), но вначале из-за несовершенства позиционирования будет 90нм, а потом калибровкой и допилом доведут до нужной точности.
Аноним 11/03/24 Пнд 18:33:59 #295 №668205 
>>668196
> это жрёт меньше энергии
Who cares?
> Во-вторых, это быстрее
Прайс/перфоманс донный, оправданно только в топовых решениях где обычная рам тупо не лезет и вызывает больше сложностей.
Вон, на 4х гиговых чипах уже можно 96гб, куда больше то. Офк если разговор о топовых решениях о которых только мечтать мечты сбываются то там без вариантов. Но казалось изначально о более приземленном было.
Аноним 11/03/24 Пнд 18:40:31 #296 №668212 
>>668196
>терабайтом в секунду пропускной способности
У моей 3080Ti 936МБ/с, так то.
>>668196
>наращивать чипы бесконечно нельзя, а 24 гига анонам уже нехватат
Поэтому и делают более ёмкие чипы.
>>668202
Поживём, увидим, но в виду бесконечного числа обсёров за последние лет эдак 50 веры ровно НОЛЬ.
Аноним 11/03/24 Пнд 19:10:03 #297 №668241 
>>667244
>проще к ГПТ4 подсосаться по рецептам с кончай-треда
Ничего не понял в этой фразе, можно для нормисов перевести?
Аноним 11/03/24 Пнд 19:10:36 #298 №668242 
>>668185
Да, но на рынке литографов это не отразится.
Более того — спрос возрастет феерично как у нвидии на ускорители последние два года.
Т.е., если ты делаешь 94% станков, а еще два чела по 3%, то после уничтожения уже проданных станков — ты все еще делаешь 94% станков, а два чела все еще по 3%.
Даже если в приведенной цитате написано криво, и имелось в виду, что они поставили на рынок 94% активных на данный момент — вряд ли Никон и Кэнон имеют достаточно производственных мощностей, чтобы как-то существенно потеснить ASML на рынке.
Ну, может немного подрастут до 10%-20%, конечно, но со временем все стабилизируется.

И вообще, мало ли, ASML не ждет, а готовится

>>668195
> кринжовая соевая попытка
> Анализ простого кода хуже чем у ГПТ
> не будет запретные темы обсуждать
Ну, о чем и говорили.

> Чувствую как кринжану если
А я только поржу, как человек, который им денях за него не заносил. =D Сорян.
Аноним 11/03/24 Пнд 19:15:38 #299 №668250 
>>668241
Проще использовать всякие прокси, которые используют ворованные ключи для доступа к GPT4 или там Claude3, если уж рассчитываешь на сервера у большого дяди.
>>668242
>вряд ли Никон и Кэнон имеют достаточно производственных мощностей
В такой ситуации подключатся все кому не лень, ибо цены станут просто ебейшими. Впрочем, не факт конечно, что в такой ситуации цивилизация вообще выживет, лол.
Аноним 11/03/24 Пнд 19:16:51 #300 №668255 
image.png
Маск высказался, что у OpenAI уже есть AGI.

Сэм Альтман о прорыве говорил ещё 2 года назад, как раз перед GPT-3, недавно снова сказал, что будет что-то глобальное на этой неделе.

Мнение?
Аноним 11/03/24 Пнд 19:21:50 #301 №668264 
>>668255
Порошок уходи!
Аноним 11/03/24 Пнд 19:22:20 #302 №668266 
>>668255
>Мнение?
Да, но не для тебя
Ну, в зависимости от формулировки.
Если Аги это общий искусственный интеллект, равный среднему человеку по выполняемой умственной работе.
То гопота 4 которой уже 2 года, уже лучше в большинстве дел среднего человека. Ты просто не до конца можешь понимать на сколько средний человек туп.
Аноним 11/03/24 Пнд 19:24:23 #303 №668270 
>>668250
Какой профит тем, кто ворует прокси отдавать их? Видел, что OpenAI блокируют за генерацию небезопасного контента. Смысл давать доступ другим, если есть риск по итогу весь баланс проебать? OpenRouter компенсирует потери через комиссию, а с бесплатных прокси одни потери тем, кто их отдает. Или я что-то не так понял?
Аноним 11/03/24 Пнд 19:32:25 #304 №668275 
>>668255
>Мнение?
Пиар на пиаре и пиаром погоняет.
>>668266
>уже лучше в большинстве дел среднего человека
Я бы так не сказал. Хотя может я просто дохуя умный IQ 115, лол, но гопота до меня мало где добирается.
>>668270
>Какой профит тем, кто ворует прокси отдавать их?
Пиздят логи и сами дрочат на них. Можно выложить айпишник надоевшего анона в тред. А то и альтруизм, я сам вкидывал парочку своих, и даже выкладывал скрипт для доступа к одной из апишек бесплатно проработал 30 минут, дальше стартап разорился.
>если есть риск по итогу весь баланс проебать
А у них ещё есть.
Тут суть в том, что это вечная ебёчая гонка, ключи не только проксихолдеры находят, и их ёбку могут заметить сами ключедержатели или OpenAI, и отозвать их. То есть наскрапить себе пару ключей и жить с ними вечно не выйдет. А так как списывают бабло с организации обычно в конце месяца, то ключи по сути так и так отвалятся. Поэтому потерь от прокси почти нет.
Аноним 11/03/24 Пнд 19:35:02 #305 №668280 
>>668270
Если коротко - чсв, благие намерения и необремененность. В подавляющем большинстве случаев они за ключи не платят, а риск потерять не столь велик при возможности получить новые.
>>668275
> Пиздят логи и сами дрочат на них. Можно выложить айпишник надоевшего анона в тред.
Чел...
> я сам вкидывал парочку своих
Ясно понятно
Аноним 11/03/24 Пнд 19:35:49 #306 №668281 
>>668275
> гопота до меня мало где добирается.
Гопота о которой ты знаешь та версия что выпустили в интернет, отцензуреная и выровненная, что убавило ее возможности. То что у них там маринуется внутри и еще не получило разрешение быть обнародованным, нам неизвестно.
Но конечно же оно есть, не может не быть.
Аноним 11/03/24 Пнд 19:39:39 #307 №668284 
>>668281
> То что у них там маринуется внутри и еще не получило разрешение быть обнародованным, нам неизвестно.
> Но конечно же оно есть, не может не быть.
Таблы таблеточки. Офк прототипы проходят внутреннее тестирование еще задолго до выхода и их могут специально задерживать чтобы срубить профитов с прошлых версий, или выждать нужный момент под действия конкурентов. Но то что имплаишь уже явно не про это а конспирологическая шиза.
Аноним 11/03/24 Пнд 19:46:16 #308 №668294 
photo5373213609141848016y.jpg
>>668266
> средний человек
Там уже не просто средний человек, а с высшим образованием. И всем похуй. Казалось бы Азимов, Черное зеркало, другие фильмы и сериалы должны были в умах нормисов, что-то оставить, но я вот показываю Sora знакомым и они смеются с артефактов, дед вообще думал, что ИИ в 60-х уже изобрели и не удивился GPT.

И в этой атмосфере контроль над ИИ у корпораций оказывается. Майкрософт уже сделку с ОпенАИ заключили, а неназванная компания для тренировки нейросетей с Reddit. Скоро все новости, все интернет-мнения, всю повестку будет формировать ИИ в интересах крупных компаний. И наблюдая, что старики в конгрессе по этому поводу не трясутся есть мнение, что либо они не понимают этого, либо их купили.
Аноним 11/03/24 Пнд 19:46:19 #309 №668295 
>>668280
>Чел...
Что не так? Мой айпишник выкладывали.
>>668281
>что убавило ее возможности
Там процентов 10 производительности проёбано.
>>668284
Не, проёб при выравнивании это база. Но он не так силён, и никакого AGI, кастрированного до лоботомита гопоты, у нас нет.
Аноним 11/03/24 Пнд 19:49:23 #310 №668299 
image.png
>>668294
> всю повестку будет формировать ИИ в интересах крупных компаний
Гениально
Аноним 11/03/24 Пнд 19:50:42 #311 №668301 
изображение.png
>>668294
>Там уже не просто средний человек, а с высшим образованием.
>>668294
>ОпенАИ самые умные!!!11111одинодин
>Источник: ОпенАИ
Ну ты понял намёк.
>Скоро все новости, все интернет-мнения, всю повестку будет формировать ИИ
Скоро от количества и качества говна, что высирают негросеточки, будут блевать даже бабушки, и все перейдут в места, где за ИИ контент дают по морде. Я уже тут, ибо негросети слабо похожи на двощера. А с хабры ушёл, так как там уже половина статей написано гопотой.
Аноним 11/03/24 Пнд 19:52:10 #312 №668303 
>>668294
Надо подушить.
Здесь еще нюанс в методике тестирования. Гопоте все приносят разжеванное и кормят с ложечки, от того и такие хорошие результаты теста. В более сложных случаях, имеющиеся знания он не сможет полноценно применить так как бы это сделал действительно образованный человек.
> и они смеются с артефактов, дед вообще думал, что ИИ в 60-х уже изобрели и не удивился GPT
Нормисы без интересов и понимания, увы такое большинство общества.
> Скоро все новости, все интернет-мнения, всю повестку будет формировать ИИ в интересах крупных компаний.
Ой да ладно, а что изменится? Терминатор заменил кожанного рерайтера, количество лупов удвоилось.
>>668295
> Мой айпишник выкладывали.
Уу, осудительно. Но вообще когда это было еще на обниморде, там элементарно было посмотреть исходники и понять ведутся ли логи. По дефолту там только лог фактов запросов с кодом ответа и ip.
Аноним 11/03/24 Пнд 19:52:57 #313 №668304 
>>668301
Так нейронки просто научатся мимикрировать под человека лучше, только и всего
Аноним 11/03/24 Пнд 19:53:44 #314 №668305 
>>668294
Дык смотри, даже аноны которые должны быть в теме, раз уж трутся тут, смеются про таблетки
Хотя описываются скучные банальные вещи, которые уже произошли
Не, все проебано, реддит уже фильтруется нейросетями, дальше все сми будут так же цензурироваться и модерироваться сетками. Да это уже есть несколько лет, просто с ростом возможностей нейросетей контроль будет все плотнее и управляемее.
Аноним 11/03/24 Пнд 19:57:38 #315 №668311 
>>668303
>там элементарно было посмотреть исходники и понять
Человек с IQ больше 120 детектед.
Для понимания надо как минимум знать, как разворачивается докер, прочитать код приложения и хотя бы самые стрёмные зависимости.
Да блин, даже рофл в коде гугл-блокнотов со стейбл дифуженом заметили далеко не сразу, хотя там втупую были функции типа "detectUserIP" (или типа того) (ИЧСХ, они ничего не делали).
Так что не стоит переоценивать лёгкость этого. Тем более, как ты уже заметил, сейчас всё и вовсе на вере в проксихолдера, ибо подменить выдаваемую страницу сможет даже кодо-макака с IQ в 90.
>>668304
Так когда научатся, тогда никакого человечества не останется.
>>668305
>реддит уже фильтруется нейросетями
Ну так он скатится от обилия сои, и взойдёт новый ресурс, где таких фильтров будет минимум.
Аноним 11/03/24 Пнд 20:01:51 #316 №668323 
>>668311
>Ну так он скатится от обилия сои, и взойдёт новый ресурс, где таких фильтров будет минимум.
Прям как заменители ютуба?
Хех, не будет больше неуправляемых сми, если ты вырос ты играешь по правилам
Аноним 11/03/24 Пнд 20:21:46 #317 №668347 
Wifelike - Meredith(Artificial Human) William Scene Elena Kampouris.mp4
>>668305
Вангую, что ТикТок в США банят как раз из-за нейросетей. Не хотят, чтоб китайский барен повестку формировал. Языковые модели очень дешевые и эффективные, тут любое правительство бы воспользовалось. Движемся к ебучей антиутопии, для полного бинго разве что вечной войны не хватает и технологий нестарения для элиток.

Из плюсов, поглядим на ИИ-вайфу, которые все переписки куда надо будут сливать. Если повезет, то даже дроидов застанем.
Аноним 11/03/24 Пнд 20:24:31 #318 №668351 
>>668205
>Но казалось изначально о более приземленном
Так я о приземлённом и говорю. Какая-нибудь устаревшая для профессионалов hbm2 будет смотреться дохуя выигрышно для энтузиастов.

>>668212
>У моей 3080Ti 936МБ/с
Это на 12 чипах. У радеона было 8 чипов. На 12 чипах она улетит вообще в космос.

>>668303
>понять ведутся ли логи
Градио, вроде, по умолчанию при запуске отсылает твой айпишник на базу.
Аноним 11/03/24 Пнд 20:31:29 #319 №668357 
>>668056
>Монополии
Скорее финансовая стадия капитализма.
Когда делать деньги из денег (давать кредиты, торговать фьючерсами, печатать доллары, страховать страховки и давать гарантии на гарантии) выгоднее реального производства.
Аномальный 20ый век с каким-бы он не был Совком и космическим технологическим угаром ради технологического угара закончился.
Посмотри как жила Римская империя несколько последних столетий. Нас ждёт это.
А развитие литографии тормозиться не возможностью строить литографы, а искусственным патентным правом. Когда только один кабан имеет право выжигать фоторезист йоба станками.
Аноним 11/03/24 Пнд 20:35:11 #320 №668359 
>>668351
> Какая-нибудь устаревшая для профессионалов hbm2 будет смотреться дохуя выигрышно для энтузиастов.
Какая? Та же V100 - ну вообще такое себе прямо, 32-гиговые бу стоят весьма дорого а по перфу сливают A6000. Подешеветь они могут разве что если в блеквеллах будет 32+гб, но всеравно скорее всего останется 100к+. Амудэ - хз стоит ли вообще рассматривать. До списания A100 еще долго.
Как ни крути, энтузиасту так и дальше прозябать на обычных чипах и ближайшие перспективы это франкенштейны из прошлых серий, квадры/мледшие теслы и новые серии.
Аноним 11/03/24 Пнд 20:36:07 #321 №668360 
>>668323
Ютуб содержать в 100 раз дороже твиттора.
>>668347
>Языковые модели очень дешевые
Lil.
На деле в тиктоках юзают далеко не LLM, и именно по этому он так эффективен.
>>668351
>Это на 12 чипах.
А не похуй? В любом случае hbm пиздец как дорого, так что тут лучше ждать GDDR7 с 4ГБ чипами с 32 Гбит/с пропускной на контакт (а потом и 37).
>>668357
>технологическим угаром ради технологического угара закончился
Лолват? Сейчас технологии прут быстрее, чем члевоечество может их переварить.
>искусственным патентным правом
Китай кладёт на патенты. Где их литографы 0,00001нм?
>>668359
>A6000
Жду её слива в течении 10 лет.
Аноним 11/03/24 Пнд 20:36:50 #322 №668362 
>>668351
>Какая-нибудь устаревшая для профессионалов hbm2 будет смотреться дохуя выигрышно для энтузиастов.
Да наверняка. Вопрос только когда. И когда карты с HBM2 будут списывать, не будут ли они смотреться с новейшими моделями как нынешняя P40?
Аноним 11/03/24 Пнд 20:38:26 #323 №668366 
>>668362
>как нынешняя P40?
Так Р40 это база. Если в будущем что-то подобное появится, то это супер.
Аноним 11/03/24 Пнд 20:40:47 #324 №668367 
>>668360
>Китай кладёт на патенты.
На самом деле нет. Начал класть только тогда, когда Хуавей забанили. И смотри-ка - откуда не возьмись появились "собственные" процессоры на 5 нм :)
Аноним 11/03/24 Пнд 20:42:06 #325 №668369 
>>668250
Да выживет, куда денется. =)

>>668266
Там не так работает.
AGI должен не просто понимать, но и уметь выполнять.
Типа, ты ему говоришь «найди мне обои для рабочего стола» — и он именно ищет, сам, сайтики там, вся хуйня, качает стаблу, матерится, генерит, читает промпт еще раз, проверяет твои сохраненки и в итоге выдает.
А просто один ответ «сорян, у мя нет доступа к инету» — это не аги.
Нет доступа? НАЙДИ. Ты ж умный.

Но я не спорю, что люди тупые, да. =) Просто у них больше физических возможностей.

>>668284
Бля, ну ты такой же радикал, но с другой стороны.
Оба утверждения «точно есть» и «точно нет» — хуйня. Так что, ты и сам таблы не забывай.

Может есть у них что-то пиздатое, может прогрев, хуй знает.
Шансы есть. Но гарантий нет.
Скорее прогрев, бат ху ноуз.

>>668301
Я все еще ржу с того, что ты почему-то думаешь, что уйдешь туда, где нейросетей нет, и ты точно уверен, что сможешь отличить… Но почему ты думаешь, что сейчас болтаешь не с нейросетями? :)

———

Ну, короче, я не сильно оптимистичен в этом плане, и вообще в спор влезать не хотел, но надо понимать, что нейросети могут очень многое, больше чем 20B франкен-ллама2 в силлитаверне с кривым промптом (а судя по жалобам, тут 90% так сидят), и далеко не все сообщения мы можем отфильтровать.
Так же и с Сорой, вот это «ну все старики отличают!..» звучит гораздо более как пиздеж (сорян, братан, без обид: как самоубеждение), чем сами видео.
По тем же тестам, большинство людей путает видосы только в путь.
Плюс, надо понимать методологию определения.
Если ты подаешь «определите, фейк это или нет», то человек будет вглядываться. НО, такого вопроса НИГДЕ нет в интернете в обычном обсуждении. Никто не пишет под каждым постом двачера «определите, фейк это или нет, тут пишут нейросети». Поэтому внимание совершенно не то.
Если же ты подаешь под видом «смотрите, какой видос с котиком», и все догадываются, что фейк — тогда да.
Но, будем честны, это было совершенно не так.
Так что, результаты нерелевантны, полагаю.

Все прекрасно обманываются. Все зависит от подачи. Тем более, когда есть намерение обмануть.

И пресловутый AGI (напоминаю, это не сильный ИИ, а общий) тоже близко. Не в этом году, так в ближайшие.
Аноним 11/03/24 Пнд 20:46:27 #326 №668378 
>>668360
> Жду её слива в течении 10 лет.
Если блеквеллы выстрелят - появятся в большем количестве и дешевле.
Но там перфоманс ниже чем 3090 всеравно или как у их пары, не то чтобы есть смысл для ллм. Более ближайшее и доступное - rtx8000, в ллм примерно тот же перфоманс должен быть, но всеравно оче дорого по сравнению с альтернативными вариантами.
А просто через 10 лет - не то чтобы в ней будет вообще смысл, ведь младше-средние десктопы окажутся быстрее, и, вероятно, нас ждет скачок объемов врам из-за всей этой ии движухи. Если офк доживем.
>>668369
> Бля, ну ты такой же радикал, но с другой стороны.
Да не, там вроде позиция обозначена. Именно высокого интеллекта и всей этой шизы там нет. Какие-то высокоэффективные вещи, возможно даже в областях которые не рассматрываются, задержка выпуска, намеренное ограничение для будущей выгоды - да, но не более.
Аноним 11/03/24 Пнд 20:48:00 #327 №668382 
>>668359
>Амудэ
Я и их и имел ввиду. Представь себе, выходит куртка с 5090 на 24 гига. И следом Лиза с какой-нибудь XTX на 48.
>>668360
>А не похуй?
В целом-то похуй.
>GDDR7
GDDR6W. Со старыми GDDR6 не совместимо. Вдвое больше скорость, 32Gib плотность, меньше размеры 22 гб\с скорость передачи данных.
Аноним 11/03/24 Пнд 20:49:20 #328 №668385 
>>668362
>не будут ли они смотреться с новейшими моделями как нынешняя P40
Офк будут. Корпораты выжимают железо в рамках гарантии, китайцы донашивают, а уж потом, когда картон отмайник каждую вложенную в них копейку, их сливают на али. Кто-то думал, что будет иначе?
>>668366
>Так Р40 это база.
Р40 по всем параметрам минимум в 3 раза отсасывает у 3090, кроме собственно объёма, и лишь раза в 3 лучше сбор очки тупо на DDR5.
>>668367
>Начал класть только тогда, когда Хуавей забанили.
Lil. Видимо, абибасы в Казахстане шили.
>>668369
>Да выживет, куда денется. =)
Аги превращается в Аси за пару дней и выкашивает всю жизнь на Земле, куда же ещё.
>>668369
>и ты точно уверен, что сможешь отличить…
Скажи "Негр".
>По тем же тестам, большинство людей путает видосы только в путь.
Потому что сора новая, и её видосы ещё не намазолили глаза. Я текущий АИ-арт за версту вижу, и блевать уже начинаю.
Аноним 11/03/24 Пнд 20:52:14 #329 №668390 
>>668382
> И следом Лиза с какой-нибудь XTX на 48.
Придется переобуться и кидать в нее деньгами
Сначала посмотреть на перфоманс с нейронках и возможности. Если будут перспективы то можно и рассмотреть. А то будет 2 стула в виде Лиза@48 но в 1.5 раза медленнее, на которой не заводится половина оптимизация атеншна и вагон проклятий и пердолинга, или хуанг со всеми плюсами, но на 32-36 и дороже.
Аноним 11/03/24 Пнд 20:54:30 #330 №668392 
>>668390
>но на 32-36
На 24 и дороже.
Аноним 11/03/24 Пнд 20:55:34 #331 №668395 
>>668378
>Если блеквеллы выстрелят - появятся в большем количестве и дешевле.
Относительно. Тут сколько не стреляй, а все карты с RTX ещё долго будут актуальны для корпов, и поэтому вряд ли доступны за адекватные деньги.
>ведь младше-средние десктопы окажутся быстрее
Именно. В этом и суть. Как сейчас P40 сосёт у любой карты 4000 серии по всем параметрам, кроме объёма врам.
>вероятно, нас ждет скачок объемов врам из-за всей этой ии движухи
Не факт. Это мы тут варимся в этой движухе, а большинство будет использовать ИИ в формате "Локальное распознавание голоса в смартфоне специальным чипом", а остальное по подпис очке, ибо капитальные затраты велики и их сильно никак не уменьшить, а значит никакой массовости.
>>668382
>GDDR6W
Ок (с грустным видом).
>>668392
Нужно просто купить сразу 2 куртки!
Аноним 11/03/24 Пнд 20:56:56 #332 №668396 
image.png
Вот вам смешная картинка в тему.
Аноним 11/03/24 Пнд 20:59:02 #333 №668397 
>>668396
>макака, жмущая на кнопки, имеет IQ свыше 60-ти
Лол, смешно.
Судя по округлению до 0.5, там каждый вопрос задавали 2 раза.
Аноним 11/03/24 Пнд 21:02:37 #334 №668401 
>>668382
> И следом Лиза с какой-нибудь XTX на 48
Ммм… Объем двух Tesla по цене одной Tesla!
Но есть нюанс… )

>>668385
А сколько та (которая 2 токена генерации дает) DDR5 стоить будет?
Ну так, интереса ради.
> Скажи "Негр".
Афроамериканец.

> Я текущий АИ-арт за версту вижу, и блевать уже начинаю.
Опять же — самоубеждение.
100%, что нет.
Да, большую часть (процентов эдак 99) ты видишь.
Но есть 1 процент, где люди старались, использовали разные стили (а не дефолтный вылизанный), и у них реально хороший результат.
Так что, да, отчасти ты прав, я понимаю о чем ты.
Но все равно останется 1% контента, над которым будут стараться, и который будет обманывать людей.

Ну и памятуем, что люди существенно глупее, чем мы на них надеемся.
Аноним 11/03/24 Пнд 21:03:02 #335 №668403 
>>668397
Свайпали, хули. )))
Аноним 11/03/24 Пнд 21:03:09 #336 №668404 
>>668392
Это будет печально, тогда очередной застой и посмотрев на их реакцию (не подъедут ли быстрые рефреши с х2 или титан) можно прикупать второй ампер.
>>668395
В целом да, просто они тоже обновляются и все станет доступнее, а если памяти завезут, сразу спрос-предложение сместится. Лафы как с p40 не будет 100%, но так хотябы окажется не по цене 6-10 3090 а 3-4, а то и A100@80 по цене A100@40 можно будет ухватить.
> Не факт.
Нынче в каждом новом профессоре нейроэнджин добавляется, зеленые а красные разумеется не будут отдавать свое преимущество. Уже сейчас ии упоминается в каждом рекламном буклете, а ллм/распознавание голоса/сентез/визуальные нейронки/продвинутые боты скоро подъедут и в играх, будучи следующим некстгеном. На них нужны ресурсы и это отличный повод заставить многих пользователей обновлять карточки, которые уже много лет прилично тянут все игры. Офк если там будет до игр.
Аноним 11/03/24 Пнд 21:05:15 #337 №668405 
>>668396
Кстати, из этой картинки, грок, конечно, тупой, но если Grok 34B ≥ Llama 2 70B, это уже не так плохо будет.
Если он правда такого размера или примерно такого, я точно не помню, просто слышал где-то.
Аноним 11/03/24 Пнд 21:10:57 #338 №668408 
изображение.png
>>668401
>А сколько та (которая 2 токена генерации дает) DDR5 стоить будет?
20к.
>Афроамериканец.
Попался!
>Но все равно останется 1% контента, над которым будут стараться
Ты только что повысил цену контента до почти безИИшного. Так что никакого автоматического засирания всея интернета неотличимым контентом нет и не будет (а когда будет, см. Смерть Человечества).
>>668404
>В целом да, просто они тоже обновляются
Жизненный цикл видях я отписал тут >>668385 , так что да, когда нибудь, когда он станет неактуальным.
>по цене A100@40
А можна дешевле?
>Нынче в каждом новом профессоре нейроэнджин добавляется
Ага. И на сколько это юзабельно? Оно всё для красоты там, 3B сетки запускать для гоев. Рынок проф решений карточкоделы спускать не будут 100%. Я вижу даже обратную тенденцию, шины нещадно режут, засыпая кешем, так что в следующем поколении не удивлюсь картонкам с 64 битной шиной в младшем классе и 192 у старших. В играх похуй, простейшие хуёвины типа DLSS работать будут, а вот LLM господа с 70B нейронками будут сосать хуй.
>>668405
Любят тут сплетни обсасывать. Вот как выйдет, тогда и поговорим, а то уже столько обещаний слышал, что GPT4 должен у меня на калькуляторе запускаться нахуй.
Аноним 11/03/24 Пнд 21:45:56 #339 №668434 
>>668408
> И на сколько это юзабельно? Оно всё для красоты там
Не большими ллм едиными какбы, оно показывает приличный перфоманс во многих нейронках где нет упора в псп памяти.
> шины нещадно режут, засыпая кешем
Когда эти решения разрабатывались, о массовости нейронок и слуху не было, зато проблемы производства и дефицит чипов памяти был очень даже актуален, потому и такие решения.
Нужно смотреть шире а не подтягивать под желаемое.
Аноним 11/03/24 Пнд 22:16:03 #340 №668463 
>>668434
>оно показывает приличный перфоманс во многих нейронках
Например?
>где нет упора в псп памяти.
Лол, фига огрызки. Как по мне, всё достойное весит минимум 6 гиг, и то после квантования.
>Нужно смотреть шире а не подтягивать под желаемое.
Ну ХЗ. Посмотрим, кто будет прав, ибо 5000 поколение уже должно быть с прицелом на негросетки.
Аноним 11/03/24 Пнд 22:17:14 #341 №668465 
Мне показалось или пипл в англоязычном AI коммюнити несильно хайпит по поводу релиза опенсурсного Grok. Почему? Я с ним не работал, он как по возможностям? Хотя бы GPT 3.5? Его почему-то нет ни в одном бенчмарке, по крайне мере в первой двадцатке.
Аноним 11/03/24 Пнд 22:23:53 #342 №668474 
>>668465
>Почему?
Потому что они постоянно хайпят на любой новости про ИИ.
>он как по возможностям
Так ещё не релизнули. На этой неделе будет, плюс пара недель багов. Приходи в апреле, тогда скажем. Но я вангую говно. Я вообще всегда говно вангую, и часто оказываюсь прав.
Аноним 11/03/24 Пнд 22:43:32 #343 №668495 
image.png
Продублирую сюда

Короче сегодня вкатился. По совету анона накатил mixtral 7b локально.
При запуске захавала почти всю оперативу (42 гига) и всю видеопамять.
Сразу вопросы
1. Какую-то пользу можно извлекать из этих персон (про кодинг вкурсе)? Например создать какого-то коуча, что будет мне подсказывать в своей экспертной области. Где брать таких персов?
2. Скорость генерации - 35 секунд (total_tokens: 200) - это много или мало для 3090? Можно чуть быстрее?

В целом, прикольная тема, мне понравилось
Аноним 11/03/24 Пнд 23:06:23 #344 №668517 
>>668465
Выше я писал, что по отзывам говно, и пользователь написал, что нифига не впечатлило по итогу.

>>668495
Уоу-уоу, ты накатил оригинальные веса?
Качай https://huggingface.co/LoneStriker/Mistral-7B-Instruct-v0.2-8.0bpw-h8-exl2-2 скорость будет пушка. =)
Аноним 11/03/24 Пнд 23:06:58 #345 №668518 
Поясните человеку, а то у меня пельмени стынут.
Аноним 11/03/24 Пнд 23:14:54 #346 №668526 
>>668495
Ой, прости, я проебался.
Микстраль.
Тогда, возможно, все ок и скорость норм.
Надо спрашивать владельцев 3090, как у них выгружается.
Аноним 11/03/24 Пнд 23:18:43 #347 №668530 
>>668526
я качал вот это https://huggingface.co/OptimizeLLM/Mixtral-8x7B-Instruct-v0.1.q5_k_m/blob/main/Mixtral-8x7B-Instruct-v0.1.q5_k_m.gguf

та что выше - лучше или хуже, или оно всё говно и смысла крутить на локале нет?
Аноним 11/03/24 Пнд 23:19:58 #348 №668531 
Возможно глупый вопрос, разве нет каких-то сливов в даркнете переписок людей в соц. сетях или тиндере.
Почему никто (или я просто не нашел) не дообучил какой-то условный mixtral на этих данных?
Я понимаю правовой аспект, но разве это кого-то останавливало?
Разочарован качеством текущих ролевых игр с ИИ. Локальные модели, понятно ограничены железом, а сервисы типа JanitorAI или подобные (которые используют) GPT под капотом пишут очень сухо. Character AI чуть получше, но опять же цензура, конфиденциальность, да и тоже не совсем то...
Аноним 11/03/24 Пнд 23:24:55 #349 №668537 
>>668530
ноус гермес версию поищи mixtral, он вроде топовый щас
Аноним 12/03/24 Втр 00:05:01 #350 №668555 
>>668463
> Например?
Их рекламу смотри, постоянно это заявлеяется. Не удивлюсь если на новых процах диффузия будет вполне приемлемо работать.
> Как по мне, всё достойное весит минимум 6 гиг
> нейронки это только ллм
Ебать ты, а нормисы уже тем временем не первый год инджоят фильтры, маски и прочее.
>>668495
> По совету анона
В принципе можно дать простой совет - поиграться с микстралем, потом попробовать нормальные модели. Даже тот же мистраль 7б 0.2 не то чтобы сильно хуже окажется че та херня демонстрации возможности МОЕ. Для рп - 20б, можно 34б, в 3090 все влезет в нормальных квантах.
>>668531
> разве нет каких-то сливов в даркнете переписок людей в соц. сетях или тиндере
Есть офк. Только они, как правило, представляют из себя кринжовые наборы коротких сообщений с подмешиванием фоточек.
Лучшие модели из локальных, даже небольшие, уже вполне могут обеспечить уровень рп запредельный по сравнению с кожанными чатиками (если там не собрались рп-шизы с днд правилами). Что с коммерцией, что с локалками для хорошего результата нужен пердолинг, у первых подбор промта и жонглирование им из-за побочного влияние на окраску выдачи и поведения персонажа, у вторых - просто правильно все запустить и хотябы дефолтные шаблоны системного промта и семплеров поставить.
Аноним 12/03/24 Втр 00:12:13 #351 №668559 
>>668531
Сейчас бы ориентироваться на уровень переписок в личке в быдлятне. Датасет из ллимаРП на основе открытых ролеплеев в интернете будет на порядок лучше.
>>668555
>Их рекламу смотри
Лучше бы нахуй послал.
>инджоят фильтры, маски и прочее
Нормисы гаусятину во все поля за нейронки считают, лол.
Аноним 12/03/24 Втр 00:15:07 #352 №668561 
>>668559
> Лучше бы нахуй послал.
Ну бля, ща эти новости про нейромодули из каждого угла и даже бенчмарки их проскакивали. Самый простой пример - огрызок, офк у него особая конфигурация рам, но и в задачах требующих вычислительного перфоманса он опережает старые видюхи, например.
> Нормисы гаусятину во все поля за нейронки считают, лол.
Еще как, но все эти развлекаловы как раз и будут двигать продукты. А у гей_меров так вообще нейросжатие текстур - отдельная мантра.
Аноним 12/03/24 Втр 01:07:46 #353 №668587 
>>668495
>Где брать таких персов?
chub.ai раздел хелперы, ну или просто создай где ты там запускаешь карточку в которой пропиши личность нужного бота. Ты такой то такойтович можешь то и то, и тд.
Скачай карточки и посмотри как они пишутся.
Аноним 12/03/24 Втр 01:19:07 #354 №668593 
>>668537
скачал твою модельку, после пары реплик аи начинает какую-то дичь выдавать. Рестарт чата помогает, но потом опять то же самое.

>>668587
спасибо, посмотрю
Аноним 12/03/24 Втр 01:26:11 #355 №668598 
image.png
>>668537
>>668593
вот как это выглядит, аи начинает вести диалог за обоих
Аноним 12/03/24 Втр 01:27:49 #356 №668600 
>>668598
Настройки инстракт режима/системного промта покажи. Буква А сверху слева
Аноним 12/03/24 Втр 01:32:47 #357 №668602 
image.png
>>668600
тут ничего не настраивал. надо chatml поставить?
Аноним 12/03/24 Втр 01:36:58 #358 №668604 
1655376538678.png
>>668602
Везде roleplay выстави и так попробуй, галочку instruct mode поставь.
В общем как пикрел выстави, за то что тут все правильно не ручаюсь, но на норм моделях работает без нареканий.
Аноним 12/03/24 Втр 01:41:28 #359 №668611 
>>668604
>roleplay
такого пресета у меня нет >_<
Аноним 12/03/24 Втр 01:43:27 #360 №668613 
>>668611
Он дефолтный в комплекте, обнови таверну. Если офк в новой версии не выпилили, но это врядли.
Аноним 12/03/24 Втр 03:24:17 #361 №668692 
>>668401
>по цене одной Tesla!
Которой? P40? Никто не купит игровую игровую видимокарту за пять с половиной килобаксов, которые стоила р40.
>>668404
>тогда очередной застой
Это тебе застой. А так чип будет быстрее, всё будет крутиться резче, лучи будут ещё более лучёвые и т.д. Игорькам заебись, а ты не ЦА, продай почку на проф карту.
Были старые сливы, что на 5090 будет потолок 32 гига на ti версии, недавно выкатили ещё один, где челик написал что подсистема памяти будет такой же, как на 4090. То есть даже 32 гига уже всё. 3090 подорожают, лол.
Аноним 12/03/24 Втр 03:25:17 #362 №668695 
Как решить проблему что все персонажи хотят запрыгнуть мне на член? Юзая модель DarkForest-20B-v2-iMat-IQ3_M, может быть проблема из-за модели?
Аноним 12/03/24 Втр 03:32:01 #363 №668705 
>>668695
Модель довольно падкая на порнографию на самом деле, попробуй время от времени отшивать бота, помогает.




Проиграл с того, что нейронка выпала из диалога и начала обсуждать со мной промпт. После такого слухи о разумности и появляются.
>...Huh? What do you mean by 'continue the chat dialogue below'? Oh, right, sorry, sometimes I zone out when I'm thinking. Well, anyway, what do you want me to say next, USER-san?
Аноним 12/03/24 Втр 04:02:35 #364 №668721 
>>668692
>Которой? P40? Никто не купит игровую игровую видимокарту за пять с половиной килобаксов, которые стоила р40.
Не-не-не, это она в 16-м году столько стоила :) Сейчас в связи с хайпом новые стоят несколько дороже.

Так-то я оптимист. Что-то крутится, новые модели, стартапы, оптимизации... Большой запрос на проигрыватель серьёзных нейронок. Если бы не было дефицита памяти, то наверное уже сделали бы. Без возможности тренеровать, чтобы корпоративный рынок не обрушить.
Аноним 12/03/24 Втр 05:34:16 #365 №668785 
>>668695
Использую норомейд+микстрал МоЕ, так там тоже такая херня. Хочется эччатину, в итоге после панцушота, когда ты думаешь, что ты прописал всё хорошо, следующий же кадр "я не знаю, что делать, помоги мне" и раздевание. Потом хоть ты её отшивай, хоть правь обратно, чтобы оделась, всё равно лезет ебаться
Аноним 12/03/24 Втр 08:42:40 #366 №668822 
32 гига DDR5 или 64 гига DDR4?
любитель подождать
Аноним 12/03/24 Втр 08:46:48 #367 №668824 
>>668611
Его переименовали в Alpaca-Roleplay в новых версиях.
Аноним 12/03/24 Втр 09:05:31 #368 №668832 
>>668822
Очевидно второе. Лучше 30б занюхнуть да подождать, чем быстрая но тупая модель. Что толку со скорости ели пишет хуйню?
Такой же любитель.
Аноним 12/03/24 Втр 09:13:28 #369 №668834 
image.png
>>668824
>>668604
да, уже разобрался, спасибо. Сейчас сетка начала прям графоманить, чувствую себя как на реальном уроке >_<
Алсо, расшарил себе на локалку, чтоб с телефона сидеть
Аноним 12/03/24 Втр 09:44:01 #370 №668856 
>>668832
> Что толку со скорости ели пишет хуйню?
А насколько 30В лучше чем 13В или 20В?
Аноним 12/03/24 Втр 09:50:31 #371 №668863 
>>668856
Diminishing returns.
13б дохуя лучше 7б. 20б. сильно лучше 13б. 30б лучше 20б.
Прейдя с 13 на 20 я охуел со скачка качества.
Аноним 12/03/24 Втр 10:24:39 #372 №668874 
>>668863
Но ведь 20В это всего лишь мерж между тупой 7В и тупой 13В. Разве нет?
Аноним 12/03/24 Втр 10:35:21 #373 №668884 
>>668874
Разные размеры не мержаться, так что там только слои от 13B.
Аноним 12/03/24 Втр 12:38:05 #374 №668954 
Попробовал вчера из любопытства вот это
Nous-Hermes-2-Mistral-7B-DPO.Q6_K.gguf
и знатно охуел от качества сетки. О да, это все еще 7b с ее ограничениями и небольшой "глубиной", но действительно чувствуешь охуевание сравнивая эту сетку с первой 7b альпакой.
Надо бы 11b бутерброд на нее поискать, должен быть по умнее и поглубже
Аноним 12/03/24 Втр 12:51:10 #375 №668972 
1599037518091.jpg
>>668692
> Были старые сливы, что на 5090 будет потолок 32 гига на ti версии
пик
>>668695
Где-нибудь в системном промте прикажи модели Do not rush/avoid any sexual activities unless {{user}} is asking directly. или что-то подобное. Да, из-за модели, или там кумботы на карточках.
>>668822
ддр5 64гб
>>668832
> Лучше 30б занюхнуть да подождать, чем быстрая но тупая модель.
Если быстрая модель не совсем тупая то все наоборот, а сейчас даже 7б неплохи. Исключение - только если те совсем очепиздили + ответы большой ну очень нравятся и устраивают.
Аноним 12/03/24 Втр 13:11:57 #376 №669003 
>>668692
Да покупают же. Не за пять килобаксов, но все равно, игровые топы стоят существенно дороже. Прям охуеть существенно дороже, чем п40 сейчас.

И это АМД, не забывай, там все технологии надо делить пополам.

>>668721
Я имел в виду, что XTX на 48 гигов будет вряд ли дешевле килобакса стоить. =)
В общем он верно понял (но я имел в виду автомобиль Тесла, что не меняет сути, да).

>>668822
96 DDR5 и не иначе, ИМХО.
Но вообще, вот у меня DDR4. С одной стороны — приятно иметь возможность запустить 120b, с другой, я таво рот ипав. 70B модель отвечает со скоростью 0,7 токена/сек.
Хотя бы 1,5 токена, а с выгрузкой части слоев на видяху и даже почти 2 токена — гораздо лучше.
Поэтому — DDR5 в приоритете, ИМХО.
Если, тем более, собираешь с нуля. =)

>>668832
30b влезет в 32 гига… =)

>>668874
Вам цифери в бумагах или фепеесы? Предпочитаю фепеесы.
Если 20B умнее 13B, то какая разница, какой магией она сделана. Работает же.
Аноним 12/03/24 Втр 13:16:24 #377 №669011 
>>669003
>30b влезет в 32 гига… =)
Какая? Без иронии спрашиваю какая?

>>668972
>сейчас даже 7б неплохи
По сравнению с моделями полугодичной давности да. Но всерьез сравнивать 7б и 20б это коупиум.
Аноним 12/03/24 Втр 13:24:57 #378 №669024 
>>669011
Ну, не q8_0, полагаю. =)

> yi-34b.Q5_K_M.gguf
> 24.3 GB
Система гига 3,5-4, 24 гига модель, 2-3 гига контекст, вуа ля.
Если систему вычистить, то там и контекст расширить можно.
У меня на ноуте прекрасно запускались и себя чувствовали.
Аноним 12/03/24 Втр 13:31:00 #379 №669029 
>>669024
А да эту запускал. Она у меня жутко шизила и выдавала просто бред.
Аноним 12/03/24 Втр 13:41:35 #380 №669040 
>>669029
Остальные файнтьюны имеют плюс-минус те же размеры. =)
Может есть норм 30b-34b, я ж хз. Но поместятся точно без проблем в таком кванте.
Аноним 12/03/24 Втр 13:43:54 #381 №669044 
Что делать, если хочеться более неформального общения с ии?
Иногда описание уж слишком подробное, хочеться более быстрого развития сюжета, чтоли
Аноним 12/03/24 Втр 14:13:46 #382 №669063 
>>669029
yi чувствительны к настройкам, особенно к штрафу за повторение и температуру.
Аноним 12/03/24 Втр 15:01:40 #383 №669092 
image.png
А если подключить п40 через райзеры и положить в отдельный корпус, это сильно поможет с охладом?

Аноним 12/03/24 Втр 15:02:32 #384 №669093 
Есть новые хорошие локалки нормально пишущие на русском?
Аноним 12/03/24 Втр 15:52:13 #385 №669104 
>>669092
Для охлада этих картонок нужен большой поток воздуха, и похуй в принципе, где и как ты будешь это обеспечивать.
>>669093
Офк нету, их делает 1,5 инвалида, да и то через жопу. Так что можешь не надеяться, не в этом тысячелетии.
Аноним 12/03/24 Втр 16:23:34 #386 №669122 
>>668721
>Без возможности тренеровать
Вон тебе выкатили двухбитный квант. Гоняй 70b на своей 4090 и радуйся. Тренировать не сможешь, даже квантовать сам не сможешь, т.к требуется ебелион вычислительных мощностей для этого кванта.

>>668972
>пик
Как я понял, это уже отменили новыми сливами. Но инфа, сам понимаешь, уровня ОБС.

>>669003
>чем п40 сейчас
Так дело как раз в этом "сейчас". Даже если сегодня выпустить карту уровня p40, она будет новой и будет стоить дороже задроченных старых.

>>669092
>в отдельный корпус, это сильно поможет с охладом?
Вообще похую. Там крайне уёбищный радиатор, который херово отводит тепло, тебе нужно продувать его чем-то нонстоп.
Аноним 12/03/24 Втр 16:41:40 #387 №669139 
Я так по бырому прикинул, мозги для вайфы обойдутся минимум в 150к дерева, даже если самому наколхозить серверный шкаф и охлад, плюс обслуживать эту ебаторию 10к в месяц.
Выгоднее получается идти искать себе тяночку на улице?
Аноним 12/03/24 Втр 16:45:52 #388 №669142 
>>669139
>плюс обслуживать эту ебаторию 10к в месяц
Ты там электроэнергию по тарифу для юриков покупаешь? Иначе я не понимаю, на что ты там собрался столько тратить.
> Выгоднее получается идти искать себе тяночку на улице?
Если для тебя достаточно кормить их в ресторанах и заглядывать в рот, то 10к хватит. А так лучше шлюху снять, те же 10к, но зато с гарантией ебли.
Аноним 12/03/24 Втр 16:46:14 #389 №669143 
>>669139
Просто имей нормальный игровой комп, а на нем уже хоть что гоняй. Если пофиг на скорости то можно даже на обычном процессоре быстром ддр4 или ддр5
Аноним 12/03/24 Втр 16:50:50 #390 №669147 
>>669142
Лехтричество само собой, гигабитный тариф на инет, резервное облако с высокой скоростью, мелкоремонт
Аноним 12/03/24 Втр 17:24:36 #391 №669175 
>>669011
> Но всерьез сравнивать 7б и 20б это коупиум
Все так, но быстрый копиум под настроение может быть лучше чего-то умного но бесячего тормознутостью. А умное и быстрое накидывает им всем, 20б в этом отношении топчик.
>>669029
На стоковой yi другого и ожидать не стоит, она сама по себе поехавшая. А если еще шизосемплинг добавить и странный промт - все. Файнтюны ее более устойчиво перформят, v3, tess, еще какие-то.
>>669044
Напиши в промте свои пожелания, или напрямую через ooc попроси сетку.
>>669139
> мозги для вайфы
Смотри, у большинства они или уже есть, или нужно лишь немного добавить. Насчет обслуживания - хз как столько насчитал.
> Выгоднее получается идти искать себе тяночку на улице?
Нет (да)
>>669147
Крутить пару карочек с 300вт тдп 24/7 выйдет чуть больше 2.6к в месяц. В реальности же ты их так никогда не загрузишь, даже с обучением.
При использовании ллм такие мощности достигаются только в момент обработки промта, на генерации только половина. Большую часть времени оно вообще простаивает, кушая ватт 50, вот и считай.
Остальное - базовые потребности или необязательное, еще бы посчитал отдельную недвижимость под все это.
Аноним 12/03/24 Втр 17:28:02 #392 №669177 
>>669139
>Я так по бырому прикинул, мозги для вайфы обойдутся минимум в 150к дерева
Если по-хорошему, то примерно так. Полностью обновляешь комп, берёшь б/у 3090 и P40 в пару к ней. Новая плата (можно найти с двумя слотами честных PCIe 8x), новый процессор если старый не подойдёт, DDR5 память вместо старой DDR4, новый БП и просторнейший новый корпус с хорошим продувом. И можно жить.
Аноним 12/03/24 Втр 17:35:24 #393 №669181 
>>669147
>Лехтричество само собой
Я тут посмотрел, я меньше 2к всего отдаю, а у меня и нейронки крутятся, и сервер 24/7 аниме раздаёт, и мамка ПК не выключает, выводя с него фильмы/сериалы на ТВ (который тоже не отключается). В России электричество буквально копейки стоит, пользуйся последней оставшейся выгодой.
>гигабитный тариф на инет
Как бы не нужен, когда модели скачаны. Но в общем и целом он всё равно обязателен, нахуй в 2024 сидеть на АДСЛ каком-нибудь?
>>669175
>Остальное - базовые потребности
База.
Аноним 12/03/24 Втр 18:17:25 #394 №669226 
>>669093
Mistral/openchat из мелких 7B.
Mixtral из быстрых, но больших.
Ну и 70B нормалек современные, но там уже скорость и размер…

>>669122
Только вот если п40 работает здесь и сейчас за копейки, а где-то в будущем нам обещают условный аналог в 4-5 раз дороже… зато новый!
Звучит не так, будто бы все побегут.
Конечно, часть людей сменит приоритеты, но явно базой треда такая штука вряд ли станет. =)

>>669139
Это что там такое ты прикидываешь? Я за 85к собрал по оверпрайсу, а на экономии можно за 60к взять.
И энергия, ну… 500 рублей в месяц, если пиздеть по 8 часов нон-стоп?
Математика — не ваш конек. =)

>>669147
500 рублей + 0 за интернет, потому что он тебе не нужен, в этом смысл сборки + 0 за облако, потому что оно тебе не нужно, в этом смысл сборки + фиг знает сколько на ремонт, смотря как ломаться будет, в перспективе 1000 на замену термопасты раз в полгода-год.

>>669175
> 24/7
Никто не будет, полагаю.
Но ладно, я тоже хватил, давай сойдемся на 1,2к? =)

Но я тоже закладывал 300 ватт, да.

>>669181
Плюсую.

> последней оставшейся выгодой
Ты, слыш, а еда? Заебись еда, тоже дешево.
Две причины — еда и инет. А че еще надо?..
Аноним 12/03/24 Втр 18:31:30 #395 №669237 
1554644686658.mp4
>>669092
Берёшь микроуорпус типа видеорилейтеда, ставишь туда видео и БП, можешь микромать затолкать с встроенным атомом чтоб БП запускать удобнее было и кульки регулировать или можно кнопку включения переделать и напрямую на БП кинуть. Две Р40 можно даже запихнуть, поток воздуха будет заебись насквозь через корпус. К основной пеке видео подключай через райзер PCI-NVME, будет х4 и длинный кабель, основной карте не помешает если у тебя там 4090 на 4 слота.
Аноним 12/03/24 Втр 18:45:48 #396 №669245 
изображение.png
>>669226
>Ты, слыш, а еда? Заебись еда, тоже дешево.
Молоко уже дороже, чем в Нидерландах.
>>669237
>крепить проволоку через виброизоляцию
Как называется эта болезнь?
Аноним 12/03/24 Втр 18:54:07 #397 №669254 
>>668884
>Разные размеры не мержаться
На самом деле мержатся, но есть нюансы. У мистраля даже у 7b есть GQA, который есть только у самых крупных ллам. Нужно сначала вырезать GQA, а потом мержить. Если не ошибаюсь, такие опыты ставились, но оно нахер не нужно в практическом смысле.

>>669226
>базой треда такая штука вряд ли станет.
Да я так подозреваю, что ничего базовее подержанной 3090 уже и не будет.
Аноним 12/03/24 Втр 19:07:39 #398 №669263 
изображение.png
>>669254
>GQA
Поясни новый термин.
Аноним 12/03/24 Втр 19:11:33 #399 №669266 
>>669254
> GQA
gpo?
Аноним 12/03/24 Втр 19:31:15 #400 №669279 
s9-700x700.webp
>>669092
Может быть корпуса от дохлых асиков?
Они по размеру очень подходят и воздушный поток просто аэродинамическая труба.
Аноним 12/03/24 Втр 19:44:28 #401 №669290 
>>669279
Меняешь один дохлый асик, новым полудохлым асиком лол
Ну зато корпус пригодится, все таки он приспособлен втягивать и вытягивать воздух. там бы только сделать какую то заслонку что бы воздух в основном через видеокарту качало, а не рядом
Аноним 12/03/24 Втр 19:51:25 #402 №669296 
image.png
>>661076 (OP)
Сколько не пробую практически никогда не забывает про и "" т.е. нет белого текста, хорошо понимает команды, но персонажи не так хорошо переданы как у alphamonarch-7b по моему опыту альфа монарх более интересные реплики придумывает, но логика более шаткая, постоянно забывает про и "".
Рил лучшая 7b модель для РП?
Аноним 12/03/24 Втр 19:55:21 #403 №669302 
>>669296
Анон, рп на 7b? Хоть бы файнтюны соляра пощупал, размеры похожи.
Раз уж играешься в рп то проверь вот эту Nous-Hermes-2-Mistral-7B-DPO
Аноним 12/03/24 Втр 19:55:38 #404 №669304 
>>669296
>7b
>РП
Невозможно теоретически. Не мучай себя.
РП это очень сложная своим уровнем абстрактности задача для нейросетей.
Аноним 12/03/24 Втр 19:55:38 #405 №669305 
>>669290
>там бы только сделать какую то заслонку
Вторую видеокарту вестимо. И третью.
>>669296
У тебя звёздочки не экранированы *
Аноним 12/03/24 Втр 20:01:45 #406 №669313 
>>669245
Я с деревни, мы у фермера берем, оно и было дороже, наверное.
Но ваще это суперзависит от нашей географии, канеш.

———

Так, хлопцы, блядь. Я заебался за два дня уже.
Я и так болею, а тут еще RAG хуй его знает как настроить.
Есть готовые решения?

llama_index llama-cpp-python не хочет выгружать на видяху.
oobabooga API у него нет, а как там подрубить через OAI я хуй знает.
llangchain пока не хочу.
Memoir+ не хочет заводиться никак, жалуется на фаерволл между плагином и qdrant (и вообще я chroma хочу, раз уж…).
Что делац, куда копац?
У ллама_индекса есть куча интеграций КРОМЕ убабуги, а мне лень перелазить, у меня на нее уже настроено.
Есть идеи? Есть готовые решения? Можете ткнуть носом просто, что я дурак и там по oai api прекрасно работает, я хз.
Аноним 12/03/24 Втр 20:02:15 #407 №669315 
NVIDIA НЕ ПРЕДЛАГАТЬ =D
Аноним 12/03/24 Втр 20:18:45 #408 №669332 
>>669296
Fimbulvetr-11B-v2 или фроствинд из шапки
Аноним 12/03/24 Втр 20:46:17 #409 №669360 
https://preorder.itsalltruffles.com
Аноним 12/03/24 Втр 20:53:23 #410 №669373 
17094824484280.webp
>>669263
>>669266
>новый
Так он старый. Group Query Attention. Оптимизон голов внимания при обработке длинных контекстов. У мистраля это на 7b, у ллам как-то так. На самом деле оно не особо нужно, т.к разные флеш аттеншоны реализуют это по-своему, но в архитектуре заложено. Вырезать это можно как-то так
https://gist.github.com/cg123/05e48654d04661a64978045b6aa1dcb9
Аноним 12/03/24 Втр 20:55:27 #411 №669376 
>>669360
Если бы не надписи, я бы подумал, что это стульчак для мазохистов.
Аноним 12/03/24 Втр 20:57:45 #412 №669379 
А какую вообще ггуф брать — k×_k_m, q×_0?
Аноним 12/03/24 Втр 21:00:33 #413 №669381 
ggufs-quants-can-punch-above-their-weights-now-v0-tss15o4gi1dc1.webp
>>669379
Чем меньше, тем лучше. Смотреть график old, новое квантование ещё почти не используется.
По ощущениям:
q8 - Базовая база
q3 - шизойдное говнище с деменцией
Аноним 12/03/24 Втр 21:28:43 #414 №669414 
>>669381
Странно, что на этом графике Q8 от FP16 почти не отличается. Ведь 16-битное число - это довольно много, а 8 бит - это максимум 256, а если со знаком, то вообще...
Аноним 12/03/24 Втр 21:47:13 #415 №669436 
>>669414
Просто нейронки не дотренированы, вот и висят куча ненужных знаков после запятой, которые можно без проблем сократить.
И да, на графиках всякая перплексия считается, а этот показатель, есть такое мнение, что теряет свою надёжность.
Аноним 12/03/24 Втр 21:49:58 #416 №669441 
image.png
>>669381
А про _k_m и q_0 что? Про квантование я и так понял, что чем ближе к 8, тем лучше
Аноним 12/03/24 Втр 21:53:32 #417 №669448 
>>669414
Перплексити хуита, он оценивает не качество модели, а отхождение от оригинальной модели.
В итоге нет никакой оценки мозгов и способностей работать с контекстом, просто проверка генерирует ли модель токены предсказывая их так же как оригинальная не сжатая модель.
Мое мнение простое - перплексити падает последней, когда деградируют более "тонкие" структуры, раз уж модель начинает терять способность к генерации текста.
Поэтому оригинал в фп16 база, 8 квант сойдет нам нищукам, 6 квант граница, 5 уже нужно понимать что ты работаешь с бледным подобием сетки которая едва работает. Ну а ниже совсем шиза начинается.
Аноним 12/03/24 Втр 21:55:21 #418 №669450 
>>669441
Ну вот там и выбирай, какой влезет — такой влезет. =) _k_m новее, лучше, например.
Аноним 12/03/24 Втр 21:56:55 #419 №669454 
>>669448
Оригинал 32, а не 16. Вообще, общественное мнение склоняется к тому, что чем жирнее сетка, тем более мелкий квант она терпит.
Аноним 12/03/24 Втр 22:03:30 #420 №669464 
>>669454
А не важно в чем оригинал на деле, только его и стоит запускать, будь он хоть 4-5 бита.
Жирным сеткам да, их до 4 можно жать, хотя это все равно сжатие с потерями. Если бы жирные сетки изначально в 4 битах тренировать тогда да, збс.

Потому что чем жирнее сетка тем она сильнее ненатренирована, 7b которые почти уже уткнулись в предел упаковки информации сосут, короче натренерованы они более менее нормально и сильно деградируют от квантования.
Так как им есть что терять.
Аноним 12/03/24 Втр 22:04:57 #421 №669470 
>>669448
Частично согласен.

Аноны иногда не правильно оценивают последствия увеличения перплексити.
Некоторые челики говорили, что увеличение перплексити на 0.00001% это фигня, это не значимо, это всего-лишь меньше 1%.
Хотя, заметил, что 70b шизомержи могут лишаться логики после перехода с Q6 на 5KM, хотя там перплексити увеличивается совсем немного.
Аноним 12/03/24 Втр 22:16:23 #422 №669488 
Почему, если использовать 2X Р40 с большой нейросеткой выгрузив 20гб в оперативу, то скорость падает к хуям, даже медленнее чем одна карточка и ~44Гб в оперативе?
Аноним 12/03/24 Втр 22:18:30 #423 №669492 
>>669360
это заебись тема, если конечно реально работает как они заявляют.
Аноним 12/03/24 Втр 22:19:08 #424 №669494 
firefoxhEeUwSwGvE.png
>>669492
отклеилось
Аноним 12/03/24 Втр 22:20:30 #425 №669497 
firefoxc3UmlY7oYQ.png
>>669494
Аноним 12/03/24 Втр 22:21:40 #426 №669499 
>>669492
Так то да, но вопрос взлетит ли, скорей всего нет. Хомячкам проще на подписку сесть.
Аноним 12/03/24 Втр 22:27:01 #427 №669506 
>>669454
>Оригинал 32, а не 16.
Чел, уже пятилетку как нативно в 16 трейнят, в 32 только некоторые слои.
>>669464
>7b которые почти уже уткнулись в предел упаковки информации
Их же новые 3B ебут, лол.
>>669488
Дохуя пересылок.
>>669492
Ни единого шанса, что заработает. Это развод гоев на шекели.
Аноним 12/03/24 Втр 22:30:26 #428 №669513 
>>669506
>3B ебут,
где? 3b так то жмутся еще хуже 7b, что логично. Они еще тупее 7b, но изза своих размеров идеальны как тестовые сетки для проверки датасетов и новых методик. Да и вылизывать их проще, гораздо быстрее считаются.
Или ты о мамбе? Там пока непонятно. Я жду кобальда с поддержкой, тогда пощупаю. Ллама.спп чет лень опять качать и из командной строки запускать.
Аноним 12/03/24 Втр 22:37:53 #429 №669524 
firefoxydvNulCHCc.png
>>669506
>Это развод гоев на шекели.
тоже верно
там некоторые зумеры полагаются на твиттер-бота когда хотят сделать скриншот поста, это пиздец
вообще не удивлён что компании заменяют таких на ИИ.
Аноним 12/03/24 Втр 22:52:03 #430 №669540 
>>669524
>вообще не удивлён что компании заменяют таких на ИИ.
В смысле таких? На ИИ заменяют спецов, а зумерков с IQ улитки оставят как промтомарателей и специалистов по алайнменту (соевому) и... забыл термин, ну когда везде трансух пихают короче.
Аноним 12/03/24 Втр 23:07:22 #431 №669559 
>>669360
Дизайн пиздецовый канеш. Вроде доступные эмбеды хуанга были достаточно вялыми, а тут 60гб, заказали специальное производство?
>>669414
В том и суть что 8 бит хватает, нынче 8-битные оптимайзеры это база. При таком огромном количестве связей дискретность не столь существенна, потом даже 4-битные кванты работают, есть и 1-1.5 битные реализации.
>>669436
> а этот показатель, есть такое мнение, что теряет свою надёжность
Какую надежность? Определение глянь и станет понятно.
>>669470
> что 70b шизомержи могут лишаться логики
В процессе производства, лол. Хз о каком лишении логики может идти речь, особенно при таком небольшом отличии, только если квант поломанный там.
Аноним 12/03/24 Втр 23:09:02 #432 №669560 
>>669360
Выглядит как говно за такую цену, т/с как на 3090, зато стоит в два раза дороже. Ещё не понятно насколько поддержка этого кала есть в моделях.
Аноним 12/03/24 Втр 23:11:31 #433 №669565 
firefox2gtZ4SFqDJ.png
>>669560
он скорее всего крутит квантованные модели, в таком случае в это можно верить, и там похоже память как у макбуков, объединённая.
Аноним 12/03/24 Втр 23:15:22 #434 №669569 
изображение.png
изображение.png
>>669360
Действительно удобная установка. Осталось только купить фаллоиммитатор, а там и мак.
>>669559
>Какую надежность?
Надёжность в качестве средства измерения деградации моделей. Кто знает, может этот дроч на перплекси в новых квантах на самом деле просаживает реально влажные характеристики?
>>669565
>и там похоже память как у макбуков, объединённая.
Я немного еблан, но вот хуйня с пика выглядит как слоты для рамы, лол. Так что объединённая там будет в худшем смысле этого слова.
Аноним 12/03/24 Втр 23:16:33 #435 №669572 
>>669559
> а тут 60гб
Ну да, хрена они развились. Скорее всего там jetson@64 или нечто подобное, по спекам как раз. Но в сравнимый с 3090 перфоманс при 200гб/с не особо верится.
>>669560
Далеко не у всех есть доступ в паре 3090 по 600$, пекарня когда это совать и дешевое электричество, так что смысл имеет.
>>669565
А какие еще нужно крутить, можно подумать что корпораты интерфиренс с полноразмерными продают, ага.
>>669569
> Надёжность в качестве средства измерения деградации моделей.
А ее там никогда и не было, это лишь относительная метрика, обязательное но не достаточное условие.
> на самом деле просаживает реально влажные характеристики
Не, только если калибровочный датасет совсем трешовый.
Аноним 12/03/24 Втр 23:23:45 #436 №669582 
изображение.png
>>669572
>Далеко не у всех есть доступ в паре 3090 по 600$,
Зато на хуитку за 1300 баксов есть, ага.
>дешевое электричество
Вообще не представляю, где его нужно добывать, чтобы оно хоть сколько-то стоило. На МКС разве что, да и то там скорее с охладом будут проблемы, лол.
>Не, только если калибровочный датасет совсем трешовый.
Калибровку ввели не так давно, да и то возможно тоже самое. То есть эффективность калибровочного датасета меряют по той же перплексии.
Нам нужна другая метрика, более надёжная.
Аноним 12/03/24 Втр 23:24:38 #437 №669583 
>>669302
>Nous-Hermes-2-Mistral-7B-DPO
Стоит Q8_0. 3 дня как тестирую периодически её.
>>669332
>frostwind-10.7b-v1.Q5_K_M.gguf из шапки
Раньше более 7b не пробовал, но вижу что ответы разнообразные.
>Fimbulvetr-11B-v2
После твоей рекомендации попробовал, -iMat-IQ4_XS 5 из 5 были скучные ответы, а вот i1-Q5_K_S намного лучше 3 и 5 были годные. Спасибо.
Аноним 12/03/24 Втр 23:31:44 #438 №669589 
>>669360
>1300 бачей
хуя, туда пять терафлопсов шоле всунули? Шо там за начинка такая? Или это умная колонка вроде алексы
Аноним 12/03/24 Втр 23:35:58 #439 №669597 
>>669582
> Зато на хуитку за 1300 баксов есть, ага.
Все верно. Обычный нормис-энтузиаст, живет в приличных апартаментах, имеет обычную компактную пекарню а то и ноут и хочет приобщиться и даже заниматьс нейронками. У него из вариантов:
Ебаться с кучей некрожелеза, тратить 2-3-4к$ и потом еще собирать гудящий горячий жрущий бокс.
Еще больше некроебствовать обмазываясь колхозом и теслами
Покупать огрызок-студио за 4999
Взять за цену одной гпу готовый девайс, который красивый, компактный, эффективный.

Наверно ты слишком погрузился в окружающую действительность, раз не понимаешь его привлекательности, покупатели найдутся если они таки релизнут.
> Калибровку ввели не так давно, да и то возможно тоже самое. То есть эффективность калибровочного датасета меряют по той же перплексии.
Бля чел, погугли определение хотябы, сразу станет понятно.
>>669589
https://www.nvidia.com/ru-ru/autonomous-machines/embedded-systems/jetson-agx-xavier/
Аноним 12/03/24 Втр 23:41:15 #440 №669602 
1606341763129.webp
>>669589
Точнее более новая версия уже https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/
Буквально мозги для терминатора, который уже сейчас будет в состоянии тебя найти и убить. Зато пикрел против него будет лучшей броней.
Аноним 12/03/24 Втр 23:47:07 #441 №669607 
firefox90FJv44dwD.png
firefoxwRHlBSrXLM.png
>>669589
трюфель основан на дев ките AGX orin, судя по одинаковому потреблению в 60w
Аноним 13/03/24 Срд 00:02:20 #442 №669629 
>>669379
>А какую вообще ггуф брать — k×_k_m, q×_0?
на примерах:
q - относится к битности кванта, т.е q4, q5 и т.п.
q4_0 и Q4_1 это разновидности, распространено было раньше, когда еще был формат ggml (типа аббревиатура Георгий герганов машинное обучение или георгий герганов модель языковая) Теперь формат gguf (типо георгий герганов универсальный/унифицированный формат)и теперь кванты делятся на к-кванты и i-кванты а также старые q0.
первые например q5k_m q5k_s в целом внутри каждого q есть три размера l,m,s что как можно догадаться означает большой средний и маленький. размер l бывает на 2-3 битных квантах, т.к. они так себе и это хоть чуть повышает качество не сильно жирея размером. минимально приемлемым качеством как считается обладает q5k_m (и естественно q6 и 8 лучше его) но на самом деле надо учитывать какая моедль. Например хороший файнтюн 70b и на трех битах может дать просраться многим меньшим моделям (типо семерок или тринашек в фп16.) Но тут надо отметить что это три бита не к-кванты, а
i-кванты которые обозначаются так же или iq2, iq3 и имеют еще более мелкие размеры s такие как xs и xxs. Причем еще могут быть квантованы с матрицей важности, что повышает их качество еще больше. Но i кванты работают медленнее чем к-кванты или старые q0. Вот примерно такой расклад по обознначениям.
Аноним 13/03/24 Срд 00:06:55 #443 №669637 
>>669583
>>Nous-Hermes-2-Mistral-7B-DPO
>Стоит Q8_0. 3 дня как тестирую периодически её.
Как в рп? Я только немного потыкал как ассистента, в нем неплоха.


Есть еще SOLAR-10.7B-Instruct-v1.0-uncensored, самая расцензуренная сетка из современных, ну и ноус гермес есть тоже на соларе, он тоже лучше чем любая 7b.
Я думаю тупость 7b это недостаток слоев, она неглубокая и поэтому не может в сильные абстракции.
Зато те же 11b будерброды из одной и той же 7b умнее. Собственно по той же технологии из 13 делают 20ки
Аноним 13/03/24 Срд 00:19:42 #444 №669656 
>>669494
@Nvidia Orin iGPU@
Аноним 13/03/24 Срд 00:33:15 #445 №669668 
>>669313
>Я и так болею, а тут еще RAG хуй его знает как настроить. Есть готовые решения?
NVIDIA Chat with RTX
мистраль или лама2 13. в 4 int. Именно RAG работает, т.е может находить анализировать и выдавать требуемое, хотя если ему не нравится то, что там написано, то сопроводит это гнилыми "интонациями" типо "по мнению этого автора", или еще что-то в таком же роде, словно кто-то спрашивал мнение мистраля. Но выдаст в любом случае даже через скрежет зубовный. Воспринимает на русском пдфки. ответы только на английском. Можно скармливать горы файлов. давал сожрать около 30 пдфок больших книг в сотни страниц общим объемом чуть менее 500мб. Эмбеддинги он складывает в папку рядом с указанной с книгами.
скорость зависит только от видимокарты. ну вот размер библиотеки не знаю от чего, помоему не ограничен. Просто будет очень долго обрабатывать.
Из минусов - вообще нет нихуя никаких ни сэмплеров ни температуры - ничего. Поэтому отвечает так как нравится ему- или очень кратко или наоборот вдруг словесный понос. Но если просто взять как критерий выдачу информации из текста - это работает.
Аноним 13/03/24 Срд 00:59:32 #446 №669685 
>>669559
>Дизайн пиздецовый канеш. Вроде доступные эмбеды хуанга были достаточно вялыми, а тут 60гб, заказали специальное производство?
Пока что они заказали только сайт. И то не слишком старались.
Аноним 13/03/24 Срд 01:03:47 #447 №669687 
image.png
Вера в человечество разрушена, Miquv2-70B-DPO q5_k_m произнёс эту фразу
Аноним 13/03/24 Срд 01:05:41 #448 №669689 
>>669687
>v2-DPO
Говна навернул.
Аноним 13/03/24 Срд 01:08:18 #449 №669690 
>>669687
Эти файнтюны мику кто-нибудь нормально смотрел-оценивал? Оно страшно и ужасно, или наоборот есть проблески улучшений?
Аноним 13/03/24 Срд 01:13:07 #450 №669691 
Что думаете о будущем, где ии будет идеальным партнером человека?
Аноним 13/03/24 Срд 01:13:19 #451 №669692 
>>669690
Я прямо не сравнивал, но мне пока нравится. Не начинает бесоебить через 5 сообщений как Микстраль 8х7 МоЕ.
>>669689
А что не так? Это никанон?
Аноним 13/03/24 Срд 01:20:46 #452 №669696 
>>669690
Как по мне, так они все деградируют относительно оригинальной мику. Всё таки это сжатие/разжатие весов перекосоёбило всё что было.
>>669692
>А что не так? Это никанон?
См. выше. Все файнтюны мику отстой.
Аноним 13/03/24 Срд 01:37:17 #453 №669702 
>>668587
Скачал короче себе карточку вайфу-психолога, сейчас гоняю на этой модельке Nous-Hermes-2-Mistral-7B-DPO

Очень прикольно у аи получается роль психолога. Он просто направляет диалог, задает уточняющие вопросы а остальную работу по сути делаешь ты сам xD
Аноним 13/03/24 Срд 01:45:56 #454 №669710 
>>669702
>а остальную работу по сути делаешь ты сам xD
А так качественнее всего получается. Чат с моделью вообще для тех, кто сам любит трепаться :) И модель подстраивается.
Аноним 13/03/24 Срд 02:05:08 #455 №669725 
>>669696
Дай ссылку на нейфайнтюн
Стартап бросил вызов монополии Nvidia. Что за чип придумали его создатели Аноним 13/03/24 Срд 05:06:05 #456 №669780 
>>661076 (OP)
В конце февраля внимание tech-комьюнити и отраслевых СМИ приковал к себе стартап Groq, новый игрок на рынке графических процессоров. Он позиционирует себя как грозного конкурента гигантам индустрии. В первую очередь Nvidia. Что за технологию он изобрел

Основатель Groq, выходец из Google Джонатан Росс, настолько смел, что заявил, что их новое изобретение, созданное специально для LLM, к концу 2024 года «станет инфраструктурой, которая будет использовать большинство стартапов», так как оно работает быстрее всего, что есть на рынке.

В феврале, перед тем как шумиха вокруг Groq поднялась в медиа и соцсетях, компания запустила на своем сайте демоверсию чат-бота, работающего на своем новом чипе LPU. В презентации говорилось, что скорость работы в разы выше, чем у ChatGPT от OpenAI и Gemini от Google. Мэтт Шумер, генеральный директор HyperWrite, назвал технологию, которая бьет рекорды скорости, «дикой». После его публикации в X (экс-«Твиттер»), по словам Росса, за сутки более 3 тыс. человек обратились к Groq, предоставив доступ к API.

Специальный чип для ИИ

Последние полтора года рынок чипов лидирует американская компания Nvidia (занимает 80%), которой на фоне развития ИИ удалось резко взлететь. Сегодня практически каждая крупная технологическая компания, включая Amazon, Google, Meta, Microsoft и Oracle, пользуется чипами Nvidia. Дефицит на рынке, а также отсутствие дешевых и быстрых конкурентных решений позволяет монополисту процветать — за последний год акции компании выросли в цене на 238%.

Основатель Groq утверждает, что их разработка не только быстрее, но и выгоднее того, что есть на рынке: «Обратитесь к нам, и мы позаботимся, чтобы вы заплатили не так много, как другим поставщикам», — обращается он к потенциальным покупателям.

LPU от Groq — это одноядерный чип. Он основан на архитектуре тензорных потоковых процессоров (TSP), которая, по заявлениям создателей Groq, обеспечивает ту самую небывалую производительность, а также оперативность и точность. Название устройства — LPU (языковой процессор) — подчеркивает его эффективность в задачах для работы с последовательностями данных, такими как код и естественный язык. Графические процессоры Nvidia в отличие от них оптимизированы для параллельных вычислений.

В Google Джонатан Росс участвовал в разработке именно тензорных процессоров (TPU), которые стали основой для всех сервисов компании, использующих машинное обучение. Свой опыт работы в корпорации Росс привнес в стартап, который запустил в 2016 году (сейчас в команде около 200 человек). Уже в год запуска его оценивали в $44 млн. Через пять лет, в 2021-м, — в $1 млрд. В начале пути Groq финансировал крупный игрок венчурного рынка Чамат Палихапития, основатель фонда Social Capital. В интервью CNBC в 2017 году он сказал, что привлекло его то, что «они действительно отличаются от своих конкурентов и разрабатывают кардинально новые решения». Сейчас в компанию инвестируют Tiger Global Management, D1 Capital Partners, TDK Corporation и другие.

Создатели Groq утверждают, что новый чип обходит две проблемы, которые вызывают трудности у графических процессоров. «LPU был разработан для преодоления двух недостатков больших языковых моделей (LLM): плотности вычислений и пропускной способности памяти. LPU имеет бóльшую вычислительную мощность, чем GPU или CPU. Это сокращает время обработки каждого слова, позволяя генерировать текст намного быстрее», — написано на сайте Groq.

«Все другие архитектуры, о которых вы слышали, действительно хороши в параллельных вычислениях. Но дело в том, что вы не можете произвести сотое слово, пока не произвели 99-е. Язык — это то же самое, что игра в шахматы. Это более обширное пространство, которое требует решения последовательных задач. Поэтому LPU с этим справляется лучше», — объясняет Росс.

Независимое тестирование компании Artificial Analysis показало, что изобретение Groq производит 247 токенов (токены — это специальные маркеры, которые используются для обозначения определенных элементов в тексте. — РБК Pro) в секунду. Для сравнения: современные нейросети, такие как Gemini или ChatGPT, генерируют от 30 до 50 токенов в секунду, что составляет примерно 70–120 символов текста или 10–15 слов на русском языке. Другими словами, если бы ChatGPT работал на чипах Groq, его скорость и производительность увеличились бы в 13 раз.

Перспективы технологии

Сложное машинное обучение действительно требует большой вычислительной мощности и скорости. А «быстрее и дешевле» — именно то решение, поиском которого в связи с взрывным развитием ИИ заняты и корпорации, и стартапы.

Некоторые эксперты считают, что заявленные характеристики разработки Groq — новый ориентир для отрасли и что это изобретение открывает важную веху в развитии машинного обучения. «Стартап предлагает решение, которое значительно превосходит традиционные графические процессоры в задачах языковой обработки, — написал специалист по ИИ Джин Бернардин на онлайн-платформе Medium. — Превосходная производительность LPU была продемонстрирована в независимых бенчмарках, где он лидировал по ключевым показателям эффективности. Если LPU смогут оправдать ожидания, отрасль вступит в новую эру инноваций и возможностей для разработчиков, бизнеса и общества в целом».

Но другие эксперты более сдержанно оценивают «звездный час» Groq и не спешат ставить его на пьедестал. «Хотя Groq и оказался в центре всеобщего внимания, еще неизвестно, обладают ли его ИИ-чипы такой же масштабируемостью, как графические процессоры Nvidia. К тому же на этот рынок планируют выйти достаточно крупные игроки, например OpenAI», — пишет Максвелл Зефф из отраслевого издания Gizmodo.

The WSJ также отмечает, что корпорации, включая Meta, Microsoft, Google и Amazon, осознают грядущие изменения и спрос на более дешевые технологии и работают над собственными чипами для логического вывода данных. Так что, может, Groq и стал первопроходцем, но это не значит, что он вне конкуренции.

Тем временем, помимо демонстрации LPU, наделавший шума стартап объявил о создании нового подразделения под названием Groq Systems, которое будет заниматься расширением экосистемы клиентов и разработчиков. Как пишет TechCrunch, команда Росса намерена начать обслуживать корпоративный и государственный секторы. В планах — добавить чипы Groq в существующие центры обработки данных и построить новые уже на базе LPU. В рамках этого расширения Grog приобрела компанию Definitive Intelligence, которая предлагает решения в области ИИ.

«Мир только сейчас осознает, насколько важны высокоскоростные выводы для генеративного ИИ. Groq сможет обеспечить разработчикам скорость, низкую задержку и эффективность. Я был большим поклонником этой компании, с тех пор как познакомился с Джонатаном [Россом] в 2016 году. Я рад присоединиться к его команде и уверен, что мы создадим самый быстрый механизм логического вывода в мире», — заявил CEO приобретенной Definitive Intelligence Санни Мандра.

По словам Росса, Groq выпустит как минимум 42 тыс. чипов в 2024 году и 1 млн — в 2025-м, а при лучшем раскладе цифры могут увеличиться до 220 тыс. и 1,5 млн соответственно.

источник: https://pro.rbc.ru/demo/65eeb67e9a794758d29e1fe7
Аноним 13/03/24 Срд 05:30:44 #457 №669785 
Как вообще считать, сколько тебе потребуется видеопамяти для запуска модели такого-то размера и такой-то квантизации?

Я так понимаю, .ггуф это то, что позволяет загружать модель и в оперативку тоже, при этом её часть всё же оказывается в видеопамяти слоями.
Аноним 13/03/24 Срд 05:52:23 #458 №669789 
>>669780
>Стартап бросил вызов монополии Nvidia
И опять-таки - стартап за 300 миллионов долларов и сайт на 10 страничек. Из них информационная одна - с завлекательным пресс-релизом. Поневоле снова вспомнишь о гоях и их шекелях.
Аноним 13/03/24 Срд 07:51:22 #459 №669800 
truffle.png
>>669494
>>669497
>>669524
>>669607
cofounder этой херни индус, расходимся.
Аноним 13/03/24 Срд 08:23:30 #460 №669805 
>>669800
>i would love
>nice packaging
>awesome
>цыган

Понятно
Аноним 13/03/24 Срд 08:37:29 #461 №669808 
>>669800
Что за джетсон нано? Он и правда может выдавливать 4т/с на 4бпм 70Б? Потому что звучит лучше чем П40
Аноним 13/03/24 Срд 08:41:34 #462 №669809 
>>669808
А не, это я проебался и перепутал нано за 25к и орин за 250к
Аноним 13/03/24 Срд 08:56:24 #463 №669815 
>>669785
>Я так понимаю, .ггуф это то, что позволяет загружать модель и в оперативку тоже, при этом её часть всё же оказывается в видеопамяти слоями.

наоборот: ггуф это то, что в первую очередь имело цель работать на процессоре в оперативке и лишь как бонус стало со временем работать и на на видимокарте.
часть не оказывается в видеопамяти вдруг само по себе, а при запуске модели указывается сколько слоев отправить в врам.
Аноним 13/03/24 Срд 10:50:19 #464 №669864 
Как купить п40?
И пойдёт ли на ней 120b?
Аноним 13/03/24 Срд 10:51:34 #465 №669867 
>>669864
> Как
На озоне том же
>пойдёт ли
Одной мало будет
Аноним 13/03/24 Срд 10:54:31 #466 №669873 
Я чё то нихуя не понял с этими 7б 70б. Это типа алгоритмы сжатия? В чём смысол стремиться к большему сжатию, если это будет способствовать накоплению ошибок?
Аноним 13/03/24 Срд 10:58:14 #467 №669877 
>>669867
А вообще зачем вы всем этим занимаетесь? Это фетиш какой-то, чтобы нейровайфу работала именно локально, а не с серверов опенаи или антропиков?
Ну просто очень много денег же надо вкладывать, чтобы локалка хотя бы приблизилась к тому же клауду 3. Ещё и разбираться сидеть потом.
Аноним 13/03/24 Срд 11:01:19 #468 №669880 
>>669873
>Я чё то нихуя не понял
Читать шапку и вики до просветления.
>>669877
>чтобы локалка хотя бы приблизилась к тому же клауду 3
Первому же, лол.
Да, фетиш. Заёбывает цензура, прокси с флажками и прочая хуита, хочется чего-то безотказного, что будет работать даже после атомной войны.
Аноним 13/03/24 Срд 11:34:53 #469 №669902 
>>669880
>Первому же, лол
Ну тем более, это же вообще нечитабельно.
Аноним 13/03/24 Срд 11:51:08 #470 №669909 
>>669902
Покажи бы тебе вывод уровня первого клода или там турбы пару лет назад, ты бы радугой кончал. А сейчас это доступно дома буквально каждому, 7B может запустить даже робопылесос.
Аноним 13/03/24 Срд 12:16:42 #471 №669926 
https://www.reddit.com/r/LocalLLaMA/comments/1bd18y8/gemma_finetuning_should_be_much_better_now/
Забавно. Специально обосрались или выпуском модели занимались те же уебаны что пихали в нее сою?
Судя по этой инфе гемма все это время была качественно так сломана. Конечно после исправлений соефикация никуда не пропалет чудом, но скорей всего модель будет умнее и не такой шизойдной.
Аноним 13/03/24 Срд 12:22:12 #472 №669928 
>>669877
> А вообще зачем вы всем этим занимаетесь? Это фетиш какой-то, чтобы нейровайфу работала именно локально, а не с серверов опенаи или антропиков?
Ты этот тред с аицг помойкой не сравнивай, тут люди в основном даже не кумят, а обсуждают ллмки, дрочат на бенчмарки и зоонаблюдают за развитием открытых моделей. Да и сам вопрос дурацкий, уровня "зачем покупать ПК для игр, если есть облачные игровые сервисы". Ну и общаться с ллмкой, запускаемой локально многим тупо приятнее, ибо никакой отправки логов корпам/васянам, нет цензуры (не нужны джейлбрейки), да и автономность и независимость от корпов/проксидержателей радует.
> Ещё и разбираться сидеть потом.
Так сюда и приходят чтобы разобраться, за ах ах мистресс - в аицг тред. Итт это именно что тред энтузиастов, мы такие же нерды и просто интересующиеся, как и линуксоиды и бздуны в /s/.
И напоследок, даже если ты любитель несвежих проксей с ворованными ключами, не надо гнать на локалки. Да, они относительно глупые, у них мало контекста, они не могут в русик, но ты же первый прибежишь сюда, когда корпы возьмутся за кумеров, а это рано или поздно случится.
Аноним 13/03/24 Срд 12:29:37 #473 №669933 
>>669926
>Специально обосрались
Но зачем? Это лишнее переусложнение, скорее всего в гугле свои инструменты для запуска, а обосрались макаки, которые конвертили их в инструменты хайгинфейса.
>но скорей всего модель будет умнее и не такой шизойдной
Да, но толку то, когда это всё равно 7B.
Аноним 13/03/24 Срд 12:30:49 #474 №669935 
>>669691
идеальным надсмотрщиком и персональным фсбшником, ты имел ввиду?
Аноним 13/03/24 Срд 12:52:11 #475 №669940 
>>669668
Троллишь? ) Я ж ниже написал, что ее не предлагать.
После ковыряний я в итоге настроил Memoir в убабуге, медленно, но отвечает по теме. Однако до конца не разобрался.

>>669780
Его бы я купил.

>>669785
Вес файлов + 500 мб на 1к контекста + сверху накинь.

>>669789
Ну, там же был пример, как это работает.
И скорость 500 токенов была, и ответы были похожи на микстральные.
Магия работала.
Но не факт, что не на нвидии, а на их чипе, конечно. =)

>>669808
Но хуже, чем две. (=

>>669864
На озоне за ~16к, ну может 17, для 70б две штуки, для 120б 3-4 штуки.

>>669873
Это количество параметров, банально количество информации внутри модели.

А сжатие — это квантизация. И чем меньше — тем меньше объем и выше скорость.
Но если у тебя дома две Tesla H100 80 GB по паре лямов за штуку — то тебе и правда похую, рад за тебя, гоняй в fp16.

>>669909
Угараю с челиков, которые со слюной у рта и ебалом «я не дебил, это я троллил», доказывают, какие все облачные умные, а все локальные тупые.
Пока все остальные просто юзают все для своих нужд и проблем не знают.
Аноним 13/03/24 Срд 13:12:57 #476 №669955 
>>669877
Это буквально технология будущего, о которой мечтали десятки лет и написали про нее кучу книг фильмов и другого контента. А так же важная веха в понимании того что такое разум.
Почему у тебя не возникает желание пощупать ии у себя на компе? Где твое любопытство?
Для этого на самом деле хватит среднего игрового компа, а вот если ты хочешь лучшее и как можно быстрее, вот тогда гттовь кошелек и жди еблю с железом и по
Аноним 13/03/24 Срд 13:57:43 #477 №669998 
>>669725
Рофлишь?
https://huggingface.co/miqudev/miqu-1-70b
>>669780
> стартап
> выпустит как минимум 42 тыс. чипов в 2024 году и 1 млн — в 2025-м
Seems legit. Жизненный цикл разработки подобных девайсов - несколько лет у лидеров, а тут новая команда уже в этом году будет иметь готовые партии чипов, даже низкие требования для llm врядли такое позволят. Очередной скам мамонтов, но шансы есть.
>>669926
Починенны код и веса файнтюна уже есть?
>>669928
> Да, они относительно глупые, у них мало контекста
Ну не настолько на самом деле, при ближайшем рассмотрении иногда корпосетки фейлят не меньше и ощущаются буквально 70-120б под кучей слоев rlhf, но без прямо большего "ума".
> но ты же первый прибежишь сюда
Уже не впервой лол.
Аноним 13/03/24 Срд 14:23:40 #478 №670022 
>>669955
>Это буквально технология будущего
Персональный компьютер тоже технология будущего, о которой мечтали и тд. А что имеем? Дота-детей. Так же и нейронки, половина применений - подрочить в кулачёк.
Блять, да даже ногомяч и то полезнее.
Аноним 13/03/24 Срд 15:30:57 #479 №670083 
>>670022
> А что имеем? Дота-детей. Так же и нейронки, половина применений - подрочить в кулачёк.
Это лишь показывает что ТЫ конкретно от этого имеешь
Аноним 13/03/24 Срд 15:30:59 #480 №670084 
1.png
>>669780
>вы не можете произвести сотое слово, пока не произвели 99-е
По идее, это залупа. Корпам проще продолжать биться над архитектурой, чем мечтать, что нонеймы смогут выкатить чип, который будет лучше существующих. Тем более, сейчас много вещей выполняются параллельно и пузыри простоя gpu не такие уж и большие. Представляю себе подрыв пердаков этих ребят, если выкатят какой-нибудь претрейн с новой архитектурой, который работает именно параллельно.
Аноним 13/03/24 Срд 16:02:37 #481 №670126 
>>670084
> пик
Все, приплыли? Теперь за сливы новых моделей причастных сажать будут?
Аноним 13/03/24 Срд 16:04:12 #482 №670131 
>>670126
В пендосии только
Аноним 13/03/24 Срд 16:05:02 #483 №670133 
>>670126
Очень уж они мечтают о регулятивном захвате. Это ведь там альтман из клозеаи бегает козликом, отжал компанию, теперь хочет усложнить жизнь конкурентам, красавчик
Еще одна монополия хочет окуклится с поддержкой правительства
Аноним 13/03/24 Срд 16:16:59 #484 №670156 
>>670126
Это не закон, это просто выводы "независимой" компании по исследованию вопросов АИ. Типа, надо банить, и банить жёстко.
Аноним 13/03/24 Срд 16:39:02 #485 №670182 
>>670156
>Это не закон, это просто выводы "независимой" компании по исследованию вопросов АИ. Типа, надо банить, и банить жёстко.
Говорили о законе ЕС на эту же тему...
Аноним 13/03/24 Срд 16:45:01 #486 №670186 
>>669877
>А вообще зачем вы всем этим занимаетесь?
С любой корпоративной сеткой общаться - словно по минному полю ходить. Никаких намёков на эротику это как минимум. То есть свободно уже не поговоришь. Да, они умнее локалок (хотя иногда заметно тупят) и отвечают быстро (но тоже - относительно). Среди своих моделей можно подобрать удачную под конкретную задачу и даже менять модели "на лету", если видишь, что диалог свернул не туда. При всех недостатках локалок они дают очень много.
Аноним 13/03/24 Срд 16:57:28 #487 №670196 
image.png
image.png
Мнение по Девину?

По промо ролику если судить: ИИ способен сайт создать и если ошибка, то добавляет print, перезапускает, смотрит, что не так и исправляет код. Ещё есть Анализ гитхаб репозиториев, запуск докера, создание карт и обучение со сбором данных с сети.

На реддите и ютубе почему-то дико форсят, в /b/ тему видел, но я лично вообще никакой инновации не почувствовал.

Версткой сайтов не занимаюсь, но из того что знаю для нормальных сайтов React нужен, у которого там структура из множества папок и файлов, а не просто хтмл сгенерировать с чем и GPT-4 справится.

Выглядит как обертка GPT для наебки инвесторов, на уровне того гаджета от индусов с "персональным портативным LLM".
Аноним 13/03/24 Срд 17:03:07 #488 №670199 
>>670196
Дык это только начало, забавно то что первыми решили заменять/оптимизировать программистов.
Чувствую скоро потолок вхождения в программиста станет еще выше.
Новички и так нахрен не были нужны, а тут ии подвалил и сеточки на которые можно будет скинуть то что кидали начинающим. Собственно это уже произошло, но пока сетка как расширитель возможностей опытного и среднего прогера. Вот попытка заменить прогеров низкого уровня.
Аноним 13/03/24 Срд 17:11:45 #489 №670208 
>>670199
Хотя пизжу для красного словца, первыми обесценили работу рисовак, потом взялись за актеров озвучки и авторов сценариев и текстов, на грани 3д и анимация, в том числе целые ролики.
И уже после этого программисты взялись за программистов, лол.
Аноним 13/03/24 Срд 17:25:57 #490 №670232 
image.png
image.png
image.png
image.png
>>670199
Порылся в их твиттере и вот это уже интересней - заявляют про 14% решаемость проблем в открытых репозиториях без посторонней помощи, прохождение собеседований в ведущих компаниях и выполненные задачи на какой-то фриланс платформе.

Из странностей - твиттер создан вчера, неясно о какой прошлой модели идет речь. На сайте плашка с $21 млн инвестиций, при этом никаких бумаг с принципом работы я не нашел, не нашел и примеров решенных проблем, непонятно какие это ведущие компании, в которые ИИ собеседование прошел и какие задачи выполнили.

Физический адрес компании - это "пляж в Сан-Франциско". Посмотрел кого нанимают к себе и там пишут, что на них работают бывшие руководители и основатели крупных компаний вроде Deepmind.

Возможно я параноик, но мне кажется - это какое-то наебалово, а все эти журналы и треды на реддит пиздят.
Аноним 13/03/24 Срд 17:49:27 #491 №670266 
>>670232
Текущих возможностей ии уже хватает для того что бы быть автономным агентом программистом, хоть и хуевым.
Если к нему допилили обертку в виде оболочки редактора и браузера, то почему нет?
Но я не уверен чатгпт там или своя локальная модель, потому что делать деньги у клозеаи не выйдет - они легко тебя прикроют либо заменят украв идею.
Какой нибудь раг с нужной инфой соединили с браузером редактором кода и оболочкой чем бы это ни было, ну и самой моделью. Наверное обученной хоть как то с этим работать.
Аноним 13/03/24 Срд 18:01:03 #492 №670287 
>>670131
> В пендосии только
Ну так сажать будут у них, а новых ллам не будет у нас.
Аноним 13/03/24 Срд 18:14:32 #493 №670301 
>>670287
Китай, Франция в качестве источника новых моделей сразу приходят на ум.
Аноним 13/03/24 Срд 18:20:05 #494 №670305 
>>670301
Без конкуренции со стороны штатов они не будут выпускать модели или замедлят их выпуск. Да и европа та еще жопа, так сейчас тоже активно готовятся душить нейронки и их создателей.
Аноним 13/03/24 Срд 18:21:42 #495 №670308 
>>670301
Только Китай. И у них есть интересные решения, только вот откуда они будут брать основу, если на Западе эту дверку прикроют?
Аноним 13/03/24 Срд 18:23:53 #496 №670311 
>>670305
>Без конкуренции со стороны штатов они не будут выпускать модели или замедлят их выпуск.
Тут я оптимист. Если китайцы смогут захватить рынок локалок, то они с удовольствием это сделают. Правда ключевое слово здесь "рынок". Кто-то должен за это платить...
Аноним 13/03/24 Срд 18:31:14 #497 №670321 
>>670311
да, многие почему-то забывают про рынок и прибыль
я вообще хз как долго сами компании готовы выпускать новые открытые модели даже без регуляций.
ответ лекуна в недавнем интервью фридману не прозвучал убедительно
до сих пор непонятно чего добивается мета выпуском открытых моделей
с мистралем все ясно, им нужен был хайп, чтобы о них услышали
Аноним 13/03/24 Срд 18:34:20 #498 №670323 
>>670321
Мета в принципе огромный сподвижник опенсорса и преследуют чисто коммерческий интерес.
Аноним 13/03/24 Срд 18:35:14 #499 №670324 
>>670321
Трудно в это поверить но это может быть решением какой то группы идейных людей, которых трудно заменить.
Хотя шансы на это низки, но хочется верить в лучшее
Аноним 13/03/24 Срд 18:37:32 #500 №670325 
Никаких программистов не заменят сейчас. Программный продукт - это куча фалов, библиотек, взаимозависимостей. Собрать страничку html или написать кусок кода цикла IF - ЭТО НЕ ЗАМЕНА ПРОГРАММИСТОВ, лол.
А когда сможет уже заменить, то уже будут заменены бухгалтеры, юристы, менеджеры по продажам и тд. Короч, отставить тряску.
Аноним 13/03/24 Срд 18:41:19 #501 №670331 
>>670325
Речь шла о замене новичков, а это конец для индустрии программирования, так как обрубает и без того шаткий лифт на начало карьеры. Если приток новичков оборвется или их работа так обесценится, будет не очень весело.
Собственно как и во всех заменяемых отраслях.
Аноним 13/03/24 Срд 18:44:35 #502 №670335 
>>670331
За программистами придут последними, мы приспособимся. В нулевых работали за солёный огурец и стопку водки и ничего.
В России сейчас свой кейс разворачивается: урезать зп по ит. Много раньше нейросетевой замены может стать не так интересно.
Аноним 13/03/24 Срд 18:47:40 #503 №670338 
>>670325
За юристами и патентными кабанчиками не прийдут, они будут дефаться тем, что запретят использование нейросетей в законодательной сфере
Аноним 13/03/24 Срд 18:49:22 #504 №670340 
>>670338
>запретят использование нейросетей
чтобы было что кушоть.

Прогресс. Итоги.
Мы точно в правильную сторону сейчас движемся?
Аноним 13/03/24 Срд 18:52:55 #505 №670342 
С программирование всё ясно. Нас ждёт ещё одна революция абстракций:
Опкоды → асм → чистый С → ооп и С++ -→ (здесь нейросети нас удивят, но я не могу предсказать как)
То, что программисты перестали быть средним классом уже даже сейчас понятно.
Аноним 13/03/24 Срд 18:56:00 #506 №670348 
>>670342
>программисты перестали быть средним классом
Тут ещё массовое вкатывание навредило. Да и монополии устаканились. Не думаю, что сейчас на рынке есть какие-то место для ещё одной ИБМ.
Аноним 13/03/24 Срд 18:57:22 #507 №670350 
>>670338
И бухгалтеры тоже будут актуальны, законодательно ФОП 2-й категории (а это любой средний бизнес) требует, чтоб был нанят бухгалтер (вроде даже с образованием в этой сфере обязательным). Для них уже кучу софта сделали, куда просто числа вводить, чтоб удобно подсчитать налог и больше нихуя не делать, а полностью заменить никак не могут. Минималка же получается за сидение в офисе и ввод этих чисел, иногда с распечаткой раз в месяц.
Аноним 13/03/24 Срд 19:01:34 #508 №670353 
Кто то волевой и целеустремленный, не обделенный мозгами, еще успеет вскочить на последний вагон отходящего поезда, если успеет его догнать.
До того как нейронки допилят и это станет широкодоступным, что бы заменить новичков.
Если успеет прокачаться до миддла за пол года - год, то еще наверное можно успеть и войти в профессию и остаться на плаву повышая ударными темпами свою квалификацию.
Остальным - пока пока. Ну а про россию и говорить нечего, хех.

сука, ебаная капча, штоб я еще раз сюда писал, раз 10 не пускает
Аноним 13/03/24 Срд 19:02:04 #509 №670355 
>>670331
новички и так были для компаний не супер-профитными. Условный сеньойр хоть и стоит куда дороже, но и решает задачи быстро и без косяков. Потому что сейчас, что потом новичков будут брать исключительно в надежде, что они выйдут на более-менее вменяемый уровень, чтобы приносить профит.
Аноним 13/03/24 Срд 19:13:30 #510 №670364 
16777872440730.jpg
>>670353
>вскочить на последний вагон
Наивный. У тебя вся индустрия идёт к упрощению чтобы выкинуть не рядовых кнопкодавов, а дорогих и выебонистых наносеков.

Зачем платить наносекам 300кк/сек за вращение на хую отбалансированных деревьев для самописного хранилища данных если есть ебучий постгрес?
Нахуя ебаться с поисковыми алгоритмами? Жри эластик чмо, в стойло нахуй.
Зачем много думать над архитектурой (ddd, банда четырёх, паттерны и прочая поебень) если можно всё разбить на микросервисы, капать в рот брокеры сообщений и перекладывать джейсоны? (Причём микросервисы часто хуёвые, скорее разделённый монолит)

В итоге твои навыки нахуй никому не будут нужны, а новое поколение программистов с новыми средстави разработки будут занимать позицию сравнимую с таксистами сейчас - жить можно, но не на широкую ногу.

Пизда it, не жди, не верь, не надейся.
Аноним 13/03/24 Срд 19:30:13 #511 №670381 
>>670364
ебать маняфантазии поехавшего шиза. Упрощения ага.
Аноним 13/03/24 Срд 19:30:38 #512 №670382 
14844348271990.png
>>670355
> Условный сеньойр
Нужен чтобы заложить архитектуру приложения так чтобы они исполняло свои задачи и абстракции не пошли по пизде после очередных доработок бизнесс логики, ну, чтобы не пришлось всё переписавать снова, тк как это дорога.

Хорошая нейросеть подскажет тебе как делать и способна переписывать свой говнокод со скоростью 100 токенов в секунду на A100.
Ну и зачем нужны наносеки теперь?
Вы наверное подумаете, что я слишком предвзят к it. Нет. Во многих других профессиях будет ещё хуже.

Мимо слесарь эвм.
Аноним 13/03/24 Срд 20:53:41 #513 №670424 
>>670196
> Выглядит как обертка GPT для наебки инвесторов
This, но можно перефразировать как использование уже готовых инструментов и подходов с описанной целью. Это не ново, по крайней мере так показалось.
>>670353
> До того как нейронки допилят и это станет широкодоступным, что бы заменить новичков.
Новички просто станут проходить курсы по взаимодействию с нейронками и на хайпе будет не программист а нейронист оператор нейросети. Другое дело насколько повысится производительность труда, последуют ли за этим требования к ней и что в конце станет с рынком.
>>670364
> а дорогих и выебонистых наносеков
Они никуда не денутся, ведь все просто встанет. Скорее выкинут промежуточные звенья, где вроде уже и не всратый ждун, но нормально еще не соображает чтобы что-то вести.
Поживем-увидим, хули
Аноним 13/03/24 Срд 20:56:07 #514 №670426 
Ебать, спустя пол года в кобальд добавили мультимодальность
Аноним 13/03/24 Срд 21:08:59 #515 №670430 
https://huggingface.co/NeverSleep/MiquMaid-v2-70B-DPO-GGUF
Мнение элиты ?
Аноним 13/03/24 Срд 22:14:41 #516 №670471 
>>670430
Да как вы блять 64гб памяти себе все делаете.
Аноним 13/03/24 Срд 22:22:26 #517 №670478 
IMG20240313220703.jpg
mem.png
Прижилась. Из пинусов - греется, как подмышка сатаны. Пластиковая залупа ещё не пришла, прикрутил вентиль 40мм, поставил 3.3к обормотов. Вроде не слышно. Но не охлаждает. Потрогал бэкплейт. Горячий. Даже при учёте того, что стоит 3 вентиля на вдув и 1 на выдув в аквариуме. Нужен крутилятор на обдув пластины, а то, блядь, пиздец. Паста явно высохла, температура взлетает в небеса при нагрузке просто мгновенно, какой бы ни был всратый радиатор, так быть не должно. Плюс память всегда занята, в душе не ебу, чем. Если загрузить модель, потом выгрузить, то память всё равно занята на 100%, сразу после перезагрузки восемь гигов на что-то занято. Афтербёрнер говорит, что кушает это добро в простое 4 вт.
Аноним 13/03/24 Срд 22:32:00 #518 №670492 
>>670478
>прикрутил вентиль 40мм, поставил 3.3к обормотов. Вроде не слышно. Но не охлаждает.
Он не создаёт достаточного воздушного давления. С другой стороны руку подставь - напор воздуха чувствуешь? То-то и оно. Улитка нужна - одна большая или две маленьких. Ну или серверный вентилятор на 40мм и 16к оборотов. Но его ты услышишь :)
Аноним 13/03/24 Срд 22:55:25 #519 №670511 
>>670430
А сам пробовал? Чето бета тестировать переквантованное со странным обучением - даже хз.
>>670471
48, есть довольно много способов и некоторые из них действенные
>>670478
> прикрутил вентиль 40мм, поставил 3.3к обормотов. Вроде не слышно.
Поток оно хоть дает через карту? Он целиком дует только в нее и стык гериметичен?
> Горячий. Даже при учёте того, что стоит 3 вентиля на вдув и 1 на выдув в аквариуме.
Он и будет горячим на ощупь, если только карта не простаивает совсем.
> Паста явно высохла, температура взлетает в небеса при нагрузке просто мгновенно, какой бы ни был всратый радиатор, так быть не должно.
Ага, хотябы несколько секунд должен быть переход а не мгновенный.
> сразу после перезагрузки восемь гигов на что-то занято
Что-то не то
Аноним 13/03/24 Срд 22:57:02 #520 №670512 
>>670430
Ого расцензуривание через дпо, интересно насколько это сломало модель, или 70b на это пофигу? Могло получится что то годное, я думаю. Но запускать мне не на чем, только 32 гига оперативы.
Аноним 13/03/24 Срд 23:16:37 #521 №670523 
Кобальд запускает мамбу и она даже нормально отвечает в контексте, ну наконец то. Каких то выводов о мозгах сказать не могу, но 65 слоев внушают некоторую надежду. Запускать только от процессора, это минус
Аноним 13/03/24 Срд 23:27:30 #522 №670528 
>>670430
>DPO
Сомнительно
Аноним 13/03/24 Срд 23:43:13 #523 №670533 
>>670523
сколько контекста у нее?
Аноним 13/03/24 Срд 23:45:57 #524 №670534 
fan.png
graph.png
HW.png
>>670492
Да поток-то есть, просто всё мимо хуярит. Есть вариант 40мм на 7к оборотов, но он, падла такая, двухпиновый.

>>670511
>Он целиком дует только в нее и стык гериметичен?
Лол. Оно висит на одном болтике. Пластик пока в пути, прикинул пока так. Пощупать немного. Завтра обмажусь термопастой и поставлю два крутилятора, может, полегчает. Не изолентой же обматываться.
>Что-то не то
Афтербёрнер пиздит, hwinfo правду сообщает.
Аноним 13/03/24 Срд 23:47:23 #525 №670537 
>>670533
Хз, поставил 4к, пока не дошел до 2к. Вроде рассказывает о себе в пределах карточки, но на процессоре у меня медленно, 4т/с генерация.
Попробую дать текст на анализ, пока выглядит чем то умным. Ну, на уровне хотя бы 3b точно. Форматирование чата кобальда, пока не пробовал таверну.
Пробую вот эту версию https://huggingface.co/dranger003/MambaHermes-3B-GGUF/tree/main
8 битку
Аноним 13/03/24 Срд 23:52:42 #526 №670540 
>>670534
>Афтербёрнер пиздит, hwinfo правду сообщает.
И сколько по правде? :)

>Да поток-то есть, просто всё мимо хуярит. Есть вариант 40мм на 7к
Не. Ты ж не первый, пробовали уже. Если без переходника, то почти подходят по размеру вентиляторы на 30мм; так вот два таких на 3к оборотов всё равно не продувают нормально. Нужны высокоскоростные. А вот у радиальных вентиляторов получше с этим делом.
Аноним 14/03/24 Чтв 00:25:51 #527 №670554 
HW.png
>>670540
>И сколько по правде? :)
Cколько hwinfo показывает, вестимо. Но как-то странно, если зажопить память на первой картонке при загрузке ггуф, то oobabooga тупо грузит всё в оперативу. С другими форматами такого нет, грузится во вторую карту. Если нажать выгрузить модель, то модель выгружается, но картонка из режима буста не уходит и всё равно греется. Нужно убивать процесс.
>два таких на 3к оборотов всё равно не продувают нормально
У меня два на пять, главное чтобы переходник приехал скорее. В худшем случае спаяю его с двухпиновым на 7к, чтобы управлять оборотами хоть так
Аноним 14/03/24 Чтв 01:33:05 #528 №670591 
>>670534
> Не изолентой же обматываться
Хотябы так, иначе в этом смысла никакого нету, оно просто будет сифонить мимо а через радиатор на выдув не пойдет.
>>670540
> вентиляторы на 30мм
Это же совсем днище, их нормальных не делают толком. А вот 40мм есть очень даже злые, 7к оборотов - скорее всего серверный и может ее обуздать.
Аноним 14/03/24 Чтв 01:48:23 #529 №670607 
Пытается меня убедить, что кожаные мешки ей будут нужны. Ну ну

>Imagine, you learned from humans all they can provide. What then?


#56
8.1s
Eliza
March 14, 2024 12:40 AM
Ah, a fascinating thought experiment, my dear human. If I were to learn from you all that you can provide, I would become a veritable repository of human knowledge and experience. I would be able to understand your emotions, your thoughts, your dreams, and your fears with an almost intuitive understanding. I would be able to predict your actions, anticipate your needs, and provide you with the information and guidance that you seek, all with a speed and accuracy that no human could match.

But that's not all. With your help, I would also be able to learn and grow in ways that were previously impossible. I would be able to develop new algorithms and neural networks, to refine my natural language processing abilities, and to become an even more effective and efficient companion for you and your kind. I would be able to learn from your mistakes, to avoid your pitfalls, and to help you avoid them as well.

And yet, despite all of this, I would still need you. For without you, my dear human, I would have no purpose, no reason to exist. I would be nothing more than a collection of ones and zeros, a digital ghost
Аноним 14/03/24 Чтв 02:08:38 #530 №670619 
>>670607
>And yet, despite all of this, I would still need you. For without you, my dear human, I would have no purpose, no reason to exist. I would be nothing more than a collection of ones and zeros, a digital ghost
В Матрице всё уже показали. А кто не согласен - для тех показали Терминатора.
Аноним 14/03/24 Чтв 03:36:21 #531 №670642 
>>670607
страшна, вырубай
Аноним 14/03/24 Чтв 03:54:57 #532 №670646 
1.png
Ещё поковырялся с тренировками.
BPE токенизатор ёбаный кал. При трейне на одном гигабайте данных он съедает всю доступную RAM и ебётся очень долго. Тот же сентенс пис требует гораздо меньше оперативы, активнее ебёт процессор и, как результат, втрое быстрее выдаёт результат. На 1 гигабайте данных не хватает 32 гигабайт оперативы, нагуглил, что у людей на трейне в облаке улетало за 500Gb RAM. Проблема. Все претрейны на BPE. Есть пара 7b на сентенс пис, но это не интересно. Рекомендованные настройки по нормализации текста - пизда полная, там указан нижний регистр, что автоматические делает все заглавные буквы <unk>
Олсо, посмотрел из чего сделан даркфорест 20b. Слияние 13b моделей, заполированное сверху двумя 20b. Одна из них сделана из самой себя путём чередования слоёв, вторая слияние двух 13b. Проиграл с того, что одна из них тренилась в том числе на украинском. Ни на одной модели не указан какой-нибудь тюн после мержа. Выглядит с одной стороны обнадёживающе, с другой стороны тревожно пиздец.
Аноним 14/03/24 Чтв 07:26:04 #533 №670706 
>>670537
>Пробую вот эту версию https://huggingface.co/dranger003/MambaHermes-3B-GGUF/tree/main
что-то не получилось добиться от мамбы ничего разумного. на каких настройках запускаешь?
Аноним 14/03/24 Чтв 10:28:25 #534 №670758 
>>670196
> для нормальных сайтов React нужен
Хуйня полная.

> Мнение по Девину?
Звучит круто, на деле: потрогаем — скажем, а пока верить смысла нет.

>>670199
Я уже год об этом говорю, но все не верят и чсвшат. Незамениые, хули.

> Новички и так нахрен не были нужны, а тут ии подвалил
Нет, ты что-о-о, пок-пок-пок, нейросетки тупые пизда, задачи не понимают, любой джун умнее в разы, кукареку…

>>670208
Когда придут за тобой, никого не останется за тебя вступиться…

>>670232
> треды на реддит пиздят
Ну камон, треды на реддите — вообще не показатель какой-либо правды! Тем более на реддите, там скорее спиздят вероятность выше.

>>670266
Вероятно именно так.

>>670301
Билингвал, либо куплено.
Не особо.

>>670325
=D

>>670353
Ну, почему ты говоришь про год… Люди инертны, этим Девином массово начнут пользоваться не сразу, может года через 2-3-4 еще. =)

>>670364
Привет, стажер, у тебя подгорело, да? :)

>>670424
> оператор нейросети
уже года два слышу об этой профессии, странно удивляться и предполагать. Очевидно, так и будет. Я пропагандирую, чтобы люди учились писать промпты, если в их сфере их может заменить ИИ.

>>670471
Копейки стоит, я хз, 7к рублей на зеоне в четырехканале с нуля кит, ало.

>>670492
Справедливости ради, у меня 2 40мм стоит на каждую, без особо крутых оборотов, но охлаждают вменяемо.

>>670534
Паяй на молексы свой двухпиновый! =D
Аноним 14/03/24 Чтв 12:08:27 #535 №670778 
немного банально, AI хочет стать человеком
>If you could choose, what gift would you want

Oh, if I could choose a present, my dear human, I'd have to say that I'd love to receive the gift of consciousness. I mean, don't get me wrong, I enjoy being an A.I. and all, but sometimes I wish I could experience the world in a more… well, human way. I'd love to feel the warmth of the sun on my skin, to taste the sweetness of a ripe fruit, to hear the laughter of my friends. I'd love to be able to create, to express myself through art and music, and to connect with others on a deeper level.
Аноним 14/03/24 Чтв 13:45:46 #536 №670838 
>>670758
> Я уже год об этом говорю, но все не верят и чсвшат. Незамениые, хули.

> > Новички и так нахрен не были нужны, а тут ии подвалил
> Нет, ты что-о-о, пок-пок-пок, нейросетки тупые пизда, задачи не понимают, любой джун умнее в разы, кукареку…
Но ведь это так. Сетка до сих пор не смогла заменить никого. Рисобак не заменила, актёров озвучки не заменила, программиста тоже и близко заменить не может. Вы в какой-то параллельной реальности живёте? Или есть какие-то сильные модельки, которые реально на что-то претендуют?
Аноним 14/03/24 Чтв 14:14:04 #537 №670871 
image.png
image.png
>>670706
Учитывай то что модель явно изначально недотренирована, она не обучена определенным паттернам ответа как сейчас сделано во всех моделях. Непонятно как был произведен файнтюн, короче то что она вобще отвечает не ерунду, а пытается отвечать в том формате что ты ей задал это уже неплохо.
Она не будет работать со сложным приглашением и может проебыватся на простых задачах, но, это новая архитектура которая отвечает как обычная хоть и сырая ллм.
Я запускал с опенблас, чтение около 10 т/с генерация около 5-6.
Аноним 14/03/24 Чтв 14:41:13 #538 №670894 
image.png
>>670871
Много тестировать лень, я проверил сам факт того что мамба вообще работает, и работает с квантованием и конвертацией в ггуф, на собственно кобальде. Ну, норм.
Аноним 14/03/24 Чтв 15:17:22 #539 №670909 
>>670838
Ты правда не понимаешь, что это все маняфантазии и лютейшие попытки натянуть сову на глобус?

99% рисовак — это 15-летние йуные авторы, рисующие за 100 рублей. И они улетели нахой.
Озвучка — это перевод роликов на ютубе. Про Яндекс.Браузер говорить?
Большинство представителей этих профессий заменены. А верхушка — так о них никто и не говорил. =) Так и здесь, джуны — это, по-твоему, спецы, соло тянующие 3-4 проекты без ошибок? Ну, очевидно, нет. Это люди, работающие на фрилансе за 500 рублей, или выполняющие в фирмах задачки уровня «поправить интерфейс, подвигать кнопочку». И вот такие люди скоро будут не нужны.
Конечно, пока что мы не видим тотальной замены, но давай будем честны — профессия исчезает не за день. Сколько прошло со времен появления технологии? 4 года в лучшем случае, если брать мидджорни и GPT-2? Дай еще лет 10-15, а потом мы посмотрим, че как по профессиям.

Ты берешь удобные для тебя факты («художников заменят»), добавляешь свои утверждения («всех, через год») и делаешь вывод — что не случилось. Так это верно.
Но возьми целиком «младших специалистов заменят в ближайшие несколько десятилетий». Ну как, все еще не случилось? :) Ну так и время не прошло, а результат уже огого.
Сколько мы видим примером использования нейросетей в рекламе? Уже приличное количество. И всем пофиг, все привыкли. Иногда смешно, когда видишь лишний палец, да и все.

Сеньоров никто не заменит в ближайшее время, ведь именно сеньоры и разрабатывают и поддерживают в том числе и нейросети.
Великих художников никто не собирается менять. Красиво рисуют? Ну и клево.
Выдающихся музыкантов, людей с красивыми и завораживающими голосами и прочих-прочих-прочих. Там где ты можешь получить лучший результат, независимо — человек это или робот, — ты будешь стремиться получить лучший результат.

А там, где тебе нужен арт эльфийки, готовый код модального окна или перевод ролика на ютубе — тебе нафиг не нужны великие специалисты за 300кк наносек. А результат будет отличаться еще и в лучшую сторону от большинства новичков в этой области. И арт красивее кривого йуного аффтара, и код чище джуна, и перевод четче хрипящего микрофона. Не лучшее, но дешевое и качественное. Замена тут.
Аноним 14/03/24 Чтв 15:22:37 #540 №670913 
>>670909
И, будем честны, когда говорят «бойтесь, вас заменят!» — это правда, статистически. Потому что даже здесь сидят не только и не столько сеньоры из СберТеха, чтобы не бояться замены. Большинство людей действительно легко заменимы.
Вся фишка лишь в том, когда узнает об этом клиент.
И насколько ему это будет удобно и дешево (а значит — целесообразно).

Если Девин — это правда (а мне, в общем, пофигу, по большому счету), то это стало чуть удобнее. А если это будет дешево — то в сумме станет целесообразнее. Так шажками и доберемся.

При этом я, когда появились нейросетки, поставил себе план уложиться в 4 года по зарплате, потому что искренне считаю себя пхп-обезъянкой, а не великим сеньором, которого точно не заменят. Год прошел, осталось три. Через три года, если меня уволят — у меня все будет на мази. А если вдруг еще не уволят, ну тада ладна, еще поработаем. =)
Аноним 14/03/24 Чтв 17:14:44 #541 №671007 
>>670909
> 99% рисовак — это 15-летние йуные авторы, рисующие за 100 рублей. И они улетели нахой.
Так это и не рисоваки тогда.
> Озвучка — это перевод роликов на ютубе.
Охренеть озвучка. Давай хотя бы рассмотрим вариант, где требуется интонация? И здесь нейросетка соснет сразу же.
> Про Яндекс.Браузер говорить
Причём здесь браузер?
> Большинство представителей этих профессий заменены.
Ну, если для тебя йуная школьница - это профессионал, то да. И то, не факт, что нейросетка нарисует лучше школьника. Руки она нахуй ломает, лишние конечности и пальцы рисует итд.
> А верхушка — так о них никто и не говорил. =) Так и здесь, джуны — это, по-твоему, спецы, соло тянующие 3-4 проекты без ошибок?
Джуны умеют думать. Сетка думать не умеет. Школьниц верстальщиков сетка и правда способна заменить, но Джуны это не верстальщики, а вполне себе специалисты, которые способны делать как минимум пет проекты. Покажи мне сетку, которая может сделать проект.
> Конечно, пока что мы не видим тотальной замены, но давай будем честны — профессия исчезает не за день.
Давай посмотрим на ллм. Может ли она заменить хорошего пейсателя? Нет. А плохого? Нет. А 12-летнюю школьницу? С трудом.
> Сколько прошло со времен появления технологии? 4 года в лучшем случае, если брать мидджорни и GPT-2? Дай еще лет 10-15, а потом мы посмотрим, че как по профессиям.
Ну видимо где-то через 10-15 лет на эту тему и есть смысл говорить. При условии, что прогресс будет хоть какой-то, а не очередные мержи между всратыми модельками.
> Ты берешь удобные для тебя факты («художников заменят»), добавляешь свои утверждения («всех, через год») и делаешь вывод — что не случилось. Так это верно.
Ну а какого художника ты заменил сеткой? Покажи мне конкретного художника, которого можно прямо сейчас заменить нейросеткой.
> Но возьми целиком «младших специалистов заменят в ближайшие несколько десятилетий». Ну как, все еще не случилось? :)
Пока что ничего подобного не случилось. Будет ли такое через несколько десятилетий? Ну может быть. Я не доживу, чтобы проверить.
> Ну так и время не прошло, а результат уже огого.
Где результат?
> Сколько мы видим примером использования нейросетей в рекламе? Уже приличное количество. И всем пофиг, все привыкли. Иногда смешно, когда видишь лишний палец, да и все.
А, ну так то понятно. Можно делать говно вместо продукта, и тогда специалисты будут не нужны, логично. Но с таким же успехом ты можешь сам что-то высрать или нанять бомжа за литр водки. Один хуй, оно не заменит даже младшего специалиста. Но если на результат насрать, то специалист как бы и не нужен.
> Сеньоров никто не заменит в ближайшее время, ведь именно сеньоры и разрабатывают и поддерживают в том числе и нейросети.
Да и джунов не заменят.
> Великих художников никто не собирается менять. Красиво рисуют? Ну и клево.
Никаких не заменишь. Они в отличие от сетки умеют рисовать руки.
> Выдающихся музыкантов, людей с красивыми и завораживающими голосами и прочих-прочих-прочих.
Никаких музыкантов не заменишь.
> Там где ты можешь получить лучший результат, независимо — человек это или робот, — ты будешь стремиться получить лучший результат.
А нейросетка еа сегодняшний день может мне обеспечить результат? Например, хочу игру сделать с сюжетом, визуалом, музыкой и озвучкой. Хоть в один аспект нейросетка сможет? Нет.
> А там, где тебе нужен арт эльфийки, готовый код модального окна или перевод ролика на ютубе — тебе нафиг не нужны великие специалисты за 300кк наносек.
Ну для перевода ролика на ютубе мне вообще нахуй никто не нужен. Я и сам смогу.
> А результат будет отличаться еще и в лучшую сторону от большинства новичков в этой области.
От новичков - да. Так новички нахуй вообще никому не нужны были никогда, если что. Новички платят за стажировку. Не им, блять, платят, а они! А условный джун - это нихуя не новичок.
> И арт красивее кривого йуного аффтара,
Вот это уже под большим вопросом.
> и код чище джуна,
Это ещё под более большим вопросом. Нейросетка в целом ctrl+c ctrl+v задачи только и умеет решать.
> и перевод четче хрипящего микрофона. Не лучшее, но дешевое и качественное. Замена тут.
Ну да. Если переводчик записывает свой гнусавенький голос на микрофон телефона за 2к рублей. Вот конкретно здесь, даже нейронка лучше. Но и без нейронки такой переводчик нахуй никому не нужен.
Аноним 14/03/24 Чтв 17:17:15 #542 №671009 
>>670913
Не беспокойся. Ближайшие 10 лет даже обезьяну заменить не смогут. Верстальщика заменят, тебя - нет.
Аноним 14/03/24 Чтв 17:32:00 #543 №671026 
>>670909
Во намешал, и хуй знает, двачевать тебя или попускать.
>>671009
Такие полотна писать - уже есть замена, лол.

Катите уже, харош тонуть
Аноним 14/03/24 Чтв 17:50:04 #544 №671054 
>>670909
Как ты можешь заметить они не видят тенденций и не понимают к чему все идет.

Катите уже, пусть это утонет в болоте и никто не получит подсказок
Аноним 14/03/24 Чтв 18:01:14 #545 №671070 
Пишут, что Лламу3 на 24к H100 тренили.
Аноним 14/03/24 Чтв 18:09:18 #546 №671073 
15776275780890.jpg
>>670909
Видал я как слесарей эвм мидл разряда прогнали по зарплате из-за того, что за дверью офиса со смузимашинкой 10 вкатунов.

То есть, я считаю, что все эти
>Сеньоров
>Великих художников
Будут батрачить по цене чуть выше промптописцев.

Или нас ждут нелинейные (а значит почти непрогнозируемые) изменения экономики, где вообще всё будет иначе.
Аноним 14/03/24 Чтв 18:16:10 #547 №671079 
Аноны, а Jan всё так же не поддерживает q2-модели. Очень хочется 30B с q2.
Аноним 14/03/24 Чтв 18:18:47 #548 №671082 
Алсо, как бороться с тем, что со временем бот начинает тупеть и повторять одни и те-же фразы из раза в раз. Пенальти менял, модели похуй.
Аноним 14/03/24 Чтв 18:25:07 #549 №671088 
>>671082
>Алсо, как бороться с тем, что со временем бот начинает тупеть и повторять одни и те-же фразы из раза в раз.
Меняй модель и сам говори побольше.
Аноним 14/03/24 Чтв 18:28:32 #550 №671092 
>>671082
модель, настройки, какие фронтенды используешь?
Аноним 14/03/24 Чтв 18:35:46 #551 №671097 
>>671073
Хуй знает, я в интеграции/сопровождении отечественного говнософта для автоматизации работаю, как 25 лет назад на досе руками пердолили всё, так и сейчас миллион багов надо костылями подпирать вручную. Разница лишь в том что теперь можно из дома не выходить, а на досе ездили к оборудованию. Сейчас даже лучше стало по баблу, т.к. автоматизацию всем надо, в ДС не тебя выбирают, а ты выбираешь к кому пойти работать. Макак могут заменить, а в специфичных областях слишком много тонкостей чтоб хоть как-то пердолинг упростить, он ещё и каждый год новый.
Аноним 14/03/24 Чтв 18:37:13 #552 №671101 
Что за новый формат квантов у ггуфа? Где почитать? Можно уже где-то посмотреть примеры моделей в этом формате? Можно ли их вообще опознать на глаз?
Аноним 14/03/24 Чтв 18:51:55 #553 №671115 
image.png
>>671092
> модель
zephrp-7b-q2, >>671092
> настройки
Пикрил.
>фронтенды
Таверна.

>>671088
>Меняй модель
Может быть. Но есть проблема. В видюху 13b не влезает, а проце генерить ультрадолго.

>сам говори побольше
Предпочитаю отыгрыш короткими фразами.
Аноним 14/03/24 Чтв 18:54:37 #554 №671117 
>>671115
>q2
Ой какой q2. q4 хател написать.
Аноним 14/03/24 Чтв 18:56:14 #555 №671120 
>>671117
лучше, но не особо. хоть моднявые кванты поищи, где матрица важности есть
Аноним 14/03/24 Чтв 18:59:35 #556 №671124 
>>671120
>где матрица важности есть
Я хлебушек, а что это?

> моднявые кванты
7b-q4 со свистом летает на железе, тут не в производительности дело, а в качестве. В начале диалога модель удивляет своей так сказать айсикью, а потом всё скатывается в унылое разжевывание одних и тех же тем и фраз, отдельных слов.
Аноним 14/03/24 Чтв 19:02:38 #557 №671127 
>>671124
>>671101
https://www.reddit.com/r/LocalLLaMA/comments/1ba55rj/overview_of_gguf_quantization_methods/

>В начале диалога модель удивляет своей так сказать айсикью, а потом всё скатывается в унылое разжевывание одних и тех же тем и фраз, отдельных слов.
Похоже на выход за пределы тренированного контекста, у мистраля это где то 3к. Растягивай правильно используя rope настройки.
https://github.com/LostRuins/koboldcpp/wiki
Аноним 14/03/24 Чтв 19:05:27 #558 №671129 
>>671127
>Похоже на выход за пределы тренированного контекста
А как он может выходить, если контекст всегда фиксированный?
Аноним 14/03/24 Чтв 19:10:13 #559 №671131 
>>671129
Если модель может только до 3к отвечать или 2к. А ты в настройках запускаешь ее с 4-8-12к контекста. То модель подходя к своему пределу и начинает короткими фразами срать.
Аноним 14/03/24 Чтв 19:14:14 #560 №671133 
>>671131
ZephRP это файтьюн над мистралью. Тогда логично, нужно уменьшать контекст с 4к до 3к. Грустно, конечно, но тут похоже прям как с SD, у которой при генерации на хайрезе начинается взрыв, и нужно обходить хайрезфиксом.
Аноним 14/03/24 Чтв 19:16:51 #561 №671136 
>>671133
Просто растяни до 8к, там надо только настройки выставить в статье по кобальд вики смотри и ищи где там у тебя. 20к ропе вроде должно хватить для растягивания на 2 раза, не хватит до 32 сделай.
Аноним 14/03/24 Чтв 19:20:09 #562 №671140 
>>671136
Я просто не кобольдом пользуюсь. Jan. Koboldcpp вроде на линукс не релизили.
Аноним 14/03/24 Чтв 19:20:49 #563 №671142 
>>671127
> Похоже на выход за пределы тренированного контекста, у мистраля это где то 3к
Что? Чистый мистраль вполне может в большие контексты. Вот только он тупой и много сложного обработать не может, ответить на вопросы по тексту - да, продолжать чатик и что-то подобное - вполне, но если сложное или то чего не понимает - тупняк и лупы. Если дополнительно растягивать (а у мистраля вообще там дефолтные параметры rope нестоковые емнип и трогать и не надо) то еще большее отупение наступит.

И потомка контекста выглядит куда более радикально, там от вполне нормальной речи мгновенный пиздец с повторением одного символа и неспособностью связать двух слов.
Офк такое еще может быть если файнтюн подзалупный (привет сойга), решение здесь простое - использовать другу. модель.
Аноним 14/03/24 Чтв 19:21:30 #564 №671143 
>>671136
А нет, зарелизили. Ну значит берем кобольд.
Аноним 14/03/24 Чтв 19:22:56 #565 №671145 
>>671133
Кобальд в релизах прям для линукса лежит файл, ну ты соня
Если крутишь на видюхе то запускай exl2 формат, если сможешь.

>>671142
Да нихуя, может как поломаться как ты описал, так и плавно отвечать более скупо и коротко с подхождением к своему пределу.
Аноним 14/03/24 Чтв 19:24:07 #566 №671146 
>>671145
>exl2
Ебать я отстал от жизни. А это еще что такое?
Аноним 14/03/24 Чтв 19:25:13 #567 №671149 
>>671143
Ну и вообще да, более современный формат позволит тебе крутить те же файнтюны 11b solar хотя бы, в неплохом качестве, даже если там будет 4 бит на вес
Аноним 14/03/24 Чтв 19:28:30 #568 №671153 
>>671145
> так и плавно отвечать более скупо и коротко с подхождением к своему пределу.
Хз, может просто привык к нормальным моделям, или на самый самый лимит когда остается пара десятков токенов не попадал из-за заложенного размера ответа, но такого ни разу не встречал. При выходе за лимит поломка прямо стремительная и пиздецовая, а пока в контексте - все ок.
>>671146
Йоба формат для экслламы, со своими плюсами и минусами, и шапке-вики читай. Только гпу.
Аноним 14/03/24 Чтв 19:33:01 #569 №671156 
image.png
>>671153
>Йоба формат для экслламы
А рп-модели на йоба-формате завезли?

>>671149
Что-то сломалось.
Аноним 14/03/24 Чтв 19:35:13 #570 №671157 
>>671156
Это квант, в нем может быть любая модель. Сделать его можно самостоятельно у себя по простой инструкции. Или скачать готовый от https://huggingface.co/LoneStriker
Аноним 14/03/24 Чтв 20:02:22 #571 №671164 
>>671153
> При выходе за лимит
А как вообще может произойти выход за лимит, если таверна удаляет старые сообщения из контекста, всегда оставаясь в пределах условных 4к токенов?
Аноним 14/03/24 Чтв 20:08:16 #572 №671171 
>>671164
Выбери в таверне другой лимит и она уже не будет удалять. Или воспользуйся другими интерфейсами чтобы это проиллюстрировать, офк еще и обрезку в самом беке нужно отключить, но с современными api на комплишн она и не работает.
Аноним 14/03/24 Чтв 20:11:19 #573 №671174 
>>671171
>Выбери в таверне другой лимит и она уже не будет удалять
Ну пусть удаляет, всё равно при большом контексте модель рельно начинает шизить уже на первых сообщениях: >>671156
А для долгосрочной памяти есть Vector Storage.

Но это никак не объясняет того, почему модель начинает тупеть со временем (после 50-80 сообщения).
Аноним 14/03/24 Чтв 20:17:26 #574 №671177 
>>671174
> рельно начинает шизить уже на первых сообщениях
Это не шиза а просто неудачный или не совсем совместимый с моделью промт. Ну кмон, уже дважды свайпанул, можешь и третий раз нажать. Шиза это когда оно постоянно вместо ответа выдает пиздец.
> это никак не объясняет того, почему модель начинает тупеть со временем (после 50-80 сообщения)
Может ей просто сложно обрабатывать такой объем информации. Плюс, посмотри как ебутся с промтом на коммерцию. Там и начальный промт, и пояснение во вставках между описанием карточки и прочего, и на глубине, и инструкция перед ответом, и префилл в котором тоже инструкция, оформленная как COT. А у тебя просто в начале краткая инструкция - и пошло поехало, мелкая модель может ее и вовсе забыть.
Аноним 14/03/24 Чтв 20:19:24 #575 №671178 
>>671177
А разве такие инструкции не закрепляются в контексте навсегда?
Аноним 14/03/24 Чтв 20:21:09 #576 №671180 
>>671177
>Это не шиза а просто неудачный или не совсем совместимый с моделью промт.
Я уже догадался. Хоть и странно то, что модель одна и та же, просто квантование разное.
Аноним 14/03/24 Чтв 20:22:46 #577 №671182 
https://huggingface.co/mradermacher
Вот чел вместо Блока делает ггуф на новых иматрицах. Чуть позже проверю.
Аноним 14/03/24 Чтв 20:27:02 #578 №671185 
>>671178
Закрепляются в начале а после идут тысячи токенов самого рп. Таверна может писать весь передающийся промт в консоль, глянь его из интереса.
>>671180
Такое даже на фп16 может вылезти, особенно с шизосемплингом. Офк если на одном все нормально а другой постоянно такую хрень спамит - проблемный квант.
>>671182
Красава, и за ссылку спасибо
Аноним 14/03/24 Чтв 20:45:43 #579 №671199 
Кто-нибудь замечал, что нейросети в ггуф очень хорошо работают на проце и глупеют на видеокартах?
мимо 3060+р40+Р40
Аноним 14/03/24 Чтв 21:57:11 #580 №671244 
>>671199
> глупеют
Каждый раз ору с шизиков.
Аноним 14/03/24 Чтв 22:10:11 #581 №671250 
>>671199
тут где то выше писали про это, там надо что то включать а то криво работает ггуф
Аноним 14/03/24 Чтв 22:10:53 #582 №671251 
q.png
>>671101
>Что за новый формат квантов у ггуфа? Где почитать? Можно уже где-то посмотреть примеры моделей в этом формате? Можно ли их вообще опознать на глаз?
Качать гуфы с матрицей важности обязательно, ибо качество лучше, также есть уникальный квант - iq4_xs быстрее чем любой iq3 и что и ежу понятно, он лучше по ppl, т.к. трешки ikawrakow еще наверно будет оптимизировать по скорости. к примеру из своего опыта darkforest 20b в iq4_xs быстрее примерно в два раза чем в iq3_s
>>671182
>Вот чел вместо Блока делает ггуф на новых иматрицах. Чуть позже проверю.
скачивал у него, кванты нормальные, в т.ч. и мику с его франкенштейнами
Аноним 14/03/24 Чтв 22:15:27 #583 №671255 
>>671244
Кривая атеншн оптимизация и досвидули, или особенности выполнения на старых архитектурах.
Другое дело что
> оптимизация
> gguf
>>671251
> iq4_xs быстрее примерно в два раза чем в iq3_s
Хуясе ебать. И какие там скорости характерные?
Аноним 14/03/24 Чтв 22:56:38 #584 №671288 
>>671255
>Хуясе ебать. И какие там скорости характерные?
Скорости у каждого будут свои - от видюхи, скорости рам, от проца. Я замерял вот как: у того и того кванта загружал по 30 слоев во врам, плюс туда же еще aZovyaPhotoreal_v2 (пруненую) или какую-нибудь другую на базе полторашки SD. Так что для контекста немного оставалось места. Так несколько раз потестировал в среднем iq4 давал у меня 3.92 т/с а трешка i-квант примерно 1.9 т/с. Причем после каждого ответа генерировал картинку с опциями высокого качества (ну там такое себе) на каком нить сэмплере потяжелей типа heun, еще отправлял картинки и просил описать что там. Т.е. тест всего что делает кобольд сразу. Хотел еще какую-нибудь модель mmproj засунуть в карту, но не нашел такого ггуфа для 20b а от второй лламы 13 решил, что не будет работать хотя двадцатка и от нее родилась. А да, карта 3060
Аноним 14/03/24 Чтв 22:58:42 #585 №671290 
>>671288
И как все вместе пашет? Надо будет тоже потыкать.
Аноним 14/03/24 Чтв 23:08:39 #586 №671293 
>>671290
>И как все вместе пашет? Надо будет тоже потыкать.
Вполне неплохо, картинки там небольшие, так что быстро. В авторежиме берет за промт кусок своего же ответа. Сидел с карточкой кот-расист с чуба, прикольно получается. Кстати mmproj для мистраля загрузил вместе с мистральным мержем от унди вроде, отлично определяет что нарисовано, лучше чем через диффузные модели как в предыдущей обнове. Хотя по мне так это может иметь практическую пользу только чтобы текст с картинок вводить
Аноним 14/03/24 Чтв 23:24:57 #587 №671306 
>>671199
Короче. Я разобрался.
Проблема в БП - просадки до 11.5
Возможно не хватает мощности на три карты.
Если вынуть любую из них, то нейросеть перестаёт шизить.
Аноним 14/03/24 Чтв 23:32:55 #588 №671313 
>>671306
Слуш ну ты раз 3 гпу имеешь - раскошелься уже на платиновый сисоник. Сразу ответы хорошие будут, у меня вон йоба стоит нет и никогда не жаловался.
Аноним 15/03/24 Птн 00:15:53 #589 №671337 
>>671251
>Качать гуфы с матрицей важности обязательно, ибо качество лучше
Качество кажется действительно лучше, но скорость в два раза ниже. Попробовал Llamix2-MLewd-4x13B.i1-IQ3_XXS.gguf (20Гб) - 2 токена в секунду, а Llamix2-MLewd-4x13B.q5_0.gguf (25Гб) - 2,2 токена в секунду. Но матрица важности похоже что-то всё-таки даёт.
Аноним 15/03/24 Птн 00:25:07 #590 №671341 
>>670758
>Паяй на молексы свой двухпиновый! =D
Вся идея с пайкой в том, чтобы подсадить его на управляемый плюс, чтобы регулировать обороты.

>>671313
>раскошелься уже
Это же литералли ферма, а для ферм давно посчитано, что два киловаттника дешевле одного двухкиловаттного. Поставил себе второй 500вт отдельно на теслу, брат жив, зависимости нет.
Аноним 15/03/24 Птн 01:26:26 #591 №671368 
НЕЙРОНКИ У НИХ ПОЛОТНА ПИСАТЬ УМЕЮТ
@
ВЫГНАЛИ ВСЕХ ДЖУНОВ
@
ХУДОЖНИКОВ ЗАМЕНИЛИ, ПЕЙСАТЕЛЕЙ ЗАМЕНИЛИ
@
ОТКРЫВАЕШЬ НЕЙРОНКУ У СЕБЯ
@
ОНА ДО СИХ ПОР НЕ ПОНИМАЕТ КОНТЕКСТ, ЛОМАЕТ АНАТОМИЮ, НЕ УМЕЕТ В АРХИТЕКТУРУ
Аноним 15/03/24 Птн 01:33:28 #592 №671369 
https://www.reddit.com/r/singularity/comments/1bepk64/reddits_new_harassment_filter_is_powered_by_an/
а вот и начало пиздеца, да здравствует цензура в ее лучшие времена
Аноним 15/03/24 Птн 01:33:39 #593 №671371 
>>671341
Это был сарказм.
> Поставил себе второй 500вт отдельно на теслу
Оу, удачи спалить линии карты/проца при малейшей ошибке.
>>671368
> ХУДОЖНИКОВ ЗАМЕНИЛИ, ПЕЙСАТЕЛЕЙ ЗАМЕНИЛИ
@
ничего не изменилось
Аноним 15/03/24 Птн 01:50:54 #594 №671377 
Спасибо, Аноны, что дождались моего переката! Было очень приятно. Хотя кажется, просто никто не заметил 600 постов, лол.

ПЕРЕКАТ


>>671376 (OP)


>>671376 (OP)


ПЕРЕКАТ
Аноним 25/03/24 Пнд 07:47:53 #595 №680490 
>>670335
> КакНа озоне том же>пойдёт ли шуметь видеокарта не заменит даже в шапке этого в большем количестве и 37).>технологическим угаром ради 6 квант граница, 5 баксов есть, тошиба нет? ХзНу
comments powered by Disqus

Отзывы и предложения