24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №29 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Привет Аноны. Недавно вкатился в тему с моделями, поэтому мало чего знаю. Удалось настроить Убабугу и Таверну, чтобы работало вместе, даже написал своих персов и это даже работает. Вопрос лишь в том, что кроме Synatra-v0.3 другие модели очень долго обрабатывают свои ответы - где-то 1 токен в секунду. Щас юзаю mlewd-remm-l2-chat-20b.Q4 - очень нравится, как пишет, но очень уж медленно, Синатра по сравнению с ней очень тупая. Может кто-то что-то посоветует? Железо 5800х3д проц, 32 гига рамы.
>>555313 Если нет видеокарты то ничего не сказать, от одного процессора все будет медленно. Ну, может быть mlewd-remm-l2-chat-20b.Q4 будет токена 4-6 в секунду максимум, для оперативки и процессора это предел. Попробуй средний вариант вот это LLaMA2-13B-Psyfighter2 или LLaMA2-13B-TiefighterLR
>>555234 → > Потому что даже 20к влезают с трудом Всмысле влезают с трудом, ты про врам или про качество обработки? Она тренилась уже с альфой (точнее с rope freq 500k если не ошибаюсь), даже хз как ее лучше на малых контекстах запускать. >>555313 Тут все верно тебе советуют, только видеокарту и/или более мощную платформу в целом, хотя последнее даст не столь значительный эффект и обновлять актуальный проц толку мало. >>555322 Еще как поможет, если правильно выгрузку настроешь и обработку контекста то будет уже 3-5 т/с (наверно).
Чет сравнил mistral7b openhermes и capybara-tess-yi-34b на генерации кулсторей и ну пиздец. Нахуй все-таки 7b модели. Контекст нихуя не помнят, генерят трешак какой-то. Короткие вопросы - это совсем не то. Интересная именно генерация когерентных текстов, чтобы можно было задать сюжет и получить дрочибельный фанфик. По крайней мере интересно мне.
>>555417 Как у capybara-tess-yi-34b с соей и алайнментом? Чет писал тут анон не понравилось ему Ну и да, у 7b маленький словарный запас в ответах, они не так красочно все пишут, и большие ответы для них трудноваты.
>>555412 Предупреждай что ссылка требует логина, тег нсфв там зря. Кто-нибудь квантованные 120б эти пробовал уже? Особенно интересует Tess XL, ведь это файнтюн франкенштейна что явно должно было пойти на пользу.
Гибридная обработка изображения сочетанием мультимодалки (+интерогейторы) и умной LLM более чем возможна и может быть крайне эффективна. Собственно пруф оф концепт https://rentry.co/rz4a4 https://rentry.co/pvnhr Использование нескольких исходных данных позволяет снизить количество галюнов и уже позволяет дать неплохое описание. Общение llm и мультимодалки позволяет получить гораздо больше данных об изображении с учетом ее содержимого и перформит лучше чем заранее заготовленная группа вопросов (там начинает шизу выдавать часто, скидывать не буду). Без фейлов тоже не обходится, иногда мультимодалка ломается, иногда ее галюны выглядят очень убедительно для ллм (кошачьи уши у Сувако), сама текстовая модель нужна как можно более умная.
Стиль суммарайзов оценивать не стоит, его можно промтом задать должным образом, главное - содержимое и прогресс описаний относительно голой мультимодалки или интеррогейторов по отдельности.
>>555424 Ну я пока не чекал прямо совсем жесть. Просто порнуху генерит нормально, если попросить. Изнасилование сходу не вышло сделать графично, только лайтово без детального описания. Но я думаю можно её убедить если постараться. И дело не в словарном запасе, а в том что сетка тупо уходит от темы через 500 токенов и начинает выдавать чушь.
>>555417 > Нахуй все-таки 7b модели. Welcome to the club, buddy slaps ass В том и суть что эти умные 7б - копиум действительно умны и осознают свои недостатки, пытаясь максимально перформить и их маскировать, но против сути не попрешь. Файнтюны китайской 34 пока подают надежды, возможно действительно шин.
>>555432 Ну да, есть такой эффект. Слишком уж много персонажи держатся за руки и ощущают гармонию. Нет идей как с этим бороться? Хочется все-таки чего-то более эджи.
>>555435 По идее добавлять ультрапозитивные токены в запрещённые, но это не сильно помогло мне. Эджи тоже кстати кал, я уверен ты хочешь нормального повествования, а не говно в духе мага-целителя.
>>555426 О нихуя тестов, интересно Был бы кодер разрешением по лучше и тренированный на 34b было бы веселее Там же кстати новая мультимодалка вышла, с параметрами лучше чем у llava13b, я ее когда то кидал в прошлом треде что ли
>>555442 >для экспериментов с 70В Какие эксперименты? Практически продакшн. Вот со 120В были эксперименты. На 70 ответ в течении минуты, на 120 в течении двух. Но как я уже писал, размеры квантов несравнимы.
>>555437 Это да, 34b уже сама по себе могла бы неплохо давать зирошотом, а подключив к ней еще одну 34b - там вообще космос можно было бы разыграть. Здесь интересно как модели общаются (секция QA), llm часто действительно извлекает нужную суть и направляет мультимодалку в нужное русло. Последняя кстати не так плоха когда ей инструкции дает ллм, а вот человеку плохо отвечает лол. ору с этого киберунижения. Файнтюн китайца в таких условиях гораздо лучше понимает концепцию буру тегов и выдает дохуя корректные описания (узнал Сувако, Сильвервейл, Фубуки, ..., и прилично суммарайзит из противоречивых ответов (распознал дрочку Аквы и забраковал ответ что там где-то есть мужик). Но в описаниях много графомании и платиновых фраз. Тут бы с гопотой-вижн сравнить, ну оче похожий результат за исключением того что тот лучше видит мелкие надписи, но 90% картинок сразу нахуй пойдут под нсфв-фильтр, так что без шансов.
В целом если схему оптимизировать то результат можно оче стабильный получать. Концепция слепого мудреца и зрячих пиздюков работает.
> новая мультимодалка вышла, с параметрами лучше чем у llava13b Потом еще с другими попробую, эта которая под видео? У нее просто в оценке ллаватест по пикчам был чуть хуже чем у ллавы, не?
>>555538 >Старенькая ПСП у меня конечно есть, даже работает до сих, но как мне это с оперативкой поможет? Имелась ввиду спид бандсвитч, короче скорость оперативки в гб/с, в аида64 проверяется. От нее зависит скорость кручения сеток в оперативке и скорость генерации
>>555628 Дели на размер файла нейросети и получишь максимальную скорость, а на практике на процентов 20 меньше где то. Это если не загружать часть слоев на видеокарту, там скорость вырастет, но если мало слоев влезет то может даже упасть.
>>555635 >В норме надо брать память на 3600 с норм таймингами и будет где-то 50ГБ/с. Там в таблице у памяти с более низкой частотой выше скорость. Это от чего зависит, от материнки?
>>555459 Можно попробовать, выходили там какие новые версии его или только та что от зимы? >>555628 > ddr4-2667 > amd ryzen Ряженка сама по себе требует высоких частот рам чтобы анкор нормально работал, а сейчас во многих задачах нужна быстрая рам в принципе. Гони до куда гонится или хотябы xmp профиль выстави, это же пиздец.
>>555670 >Ряженка сама по себе требует высоких частот рам Но главное не переборщить, лол. Для AM4 нужно 3800 максимум, для AM5 не больше 6000, выше заёбно и смысла нет.
>>555669 > Двух/четырёхканальный режим Так, так. Т.е у меня сейчас две плашки по 16 в двухканале, если я куплю еще две одинаковые, я больше сосну или меньше?
>>555676 Зависит от ранговости, если одноранговые то можешь и прирост производительности получить. Вот только там уже может лиза говна в штаны залить и не захотеть завестись на 4х плашках, хотя в новых биосах совместимость с рам фиксили. >>555681 Это для ддр5, с ддр4 все нормально было, за исключением нюансов красной платформы
Если резюмировать всё вышесказанное, скорость оперативки зависит от: Частоты самой оперативки, но не всегда. Количества каналов, иногда лучше 2, а иногда 4, когда как ХЗ. Процессора, но это не точно.
>>555723 если процессор и материнка поддерживают 4 канала то это будет в 2 раза быстрее по скорости, если не поддерживают то 4 планки памяти просто увеличат объем памяти.
Мин п и миростат не перекроют друг друга если включить одновременно? Я пока тестирую вроде стало лучше но как оно работает под капотом это выше моего уровня
>>555852 Ну как сказать. Миростат настраивает Top-P, а Top-P можно нахуй выключить, если используешь min-P. То есть как бы миростат не конфликтует с min-P, но нахуй не нужен.
>>555429 А я в Q6, но не заметил какого-то превосходства над 70B, хезе. Но я мало тестил.
>>555437 В прошлом треде кто-то кидал какую-то фигню, которая слилась ллаве в тестах реальных, не прочтя текста, не разобрав смысла, и просто вышедшая вровень с обсидианом. Она что ли? Ну такое.
>>555491 oobabooga, llama.cpp (не HF), 4K контекст, 5 тредов, mlock, cpu. Версия чисто cpu-шная, никакого ускорения нет. Фронтом — та же ллама. Ну и учитывая, что 70B модели 0,7 токена/сек выдают на таком железе, удивительно, что 20B выдает 1 или меньше.
Я охуеваю с локальных генераторов сои, они даже про рост не могут ответить. -Ко-ко-ко разные культуры разные, разные вкусы. -А в каких культура предпочитают невысоких. -Пук, среньк.
>>556057 > в тестах реальных К ним есть некоторые вопросы и случаи специфичные, рано ее со счетов списывать. > 1 токен против 2 Почти 2 умножить на 0 лол >>556118 Попробуй классический Emerhyst-20B, еще Noromaid-20b-v0.1.1 довольно неплохая. Это на самом деле все те же 13б, 30 там и не пахнет, но будто пропущенная через несколько итераций самокоррекции и потому довольно приятная.
>>556160 Нужно просто ответить да или нет, а не врать о различии культур. Да же когда пишешь yes or no quastion все ровно не может контрено ответить. Пока еще ни одна модель не смогла прямо ответит. Это же не оскорбительный/политический вопрос, а просто вопрос о фактах.
>>556145 Что за интерфейс такой и че по промту? > чет версия лламы2 > вежливый ответ чтобы никого не обидеть На что ты рассчитывал против "безопасного" файнтюна то? >>556169 Тут немного похоже на то что она ахуевает и залупилась, повторяя стиль последней фразы. >>556171 Используй норм файнтюны, они позволяют расчленять негров и феминаци не прекращая обнимать вайфу, которая будет активно участвовать одобряя тебя, при этом blushing slightly и довольно purrs.
TLDR: ShareGPT4v хорош, он единственный кто зирошотом распознал некоторые пикчи, сообразив что 1 это не просто череп а, мать его, космический корабль! В целом неплохо описала мемчики, хорошо распознает текст, без проблем описывает пикчи с несколькими частями не путаясь в них. Галюнов меньше чем у остальных что не может не радовать. Минусы тоже есть, их в целом два: - Плохо соображает когда персонаж в сложной позе или ориентации. - Вяло описывает левдсы и пытается одеть персонажей Оно видимо связано с датасетом, такого особо не было По левдсам и некоторым нюансам 2д лучше работает бакллава, вот уж где хорошо обучали. Ллава 1.5 в целом уступает им, хотя местами и выдает лучше бакллавы. Остальные - ну такое вообще, единственный рофл с Fuyu_8B, которая решила зачитать тредшот. >>556182 Тогда не расчленяй
>>556169 Пчел посмотри любое видео с опросами на улице. В пендосии еще тянки хоть иногда могут сказать что готовы встречаться с карланам. В России вообще беспощадные, еще ржут когда отвечают. Самое смешное и трагичное в подобных опросах это смотреть когда чел метр шестьдесят изо всех сил пытается сохранить лицо и не заплакать когда ему говорят что ниже 1.8м встречаться не будут. Хотя научный ответ связан с уровнем преступности, чем благополучнее место тем более толерантны низким пацанам. >>556173 >Что за интерфейс На первых двух Leo из браузера Brave. >че по промту? Весь пропт на экране, на третьем скрине бот Саманта. https://files.catbox.moe/zx9hfh.png >На что ты рассчитывал против "безопасного" файнтюна то? Дык я перепробовал разные 7b модели (штук 5), долго ковырял их, у всех абсолютно одинаковые ответ на эту тему. Ни одна с ходу не смогла выдать ответ.
Какой сейчас самый оптимальный вариант сборки системы с наивысшим соотношением т/с за $? Мне кажется что это урывание P40, но что если брать только новые комплектующие? Эдак 4 4060 ТИ?
>>556195 А кто-то в прошлом треде говорил, что Фуйу хороша. =D Только текст с двача читать умеет. =) Забавно. А шарку заценим.
>>556246 Звучит как да, но надо считать (тебе трех мало будет?). 3090 если возьмешь дешево с рук, или поймаешь на мегамаркете с большим кэшем. Иных идей нет, если честно.
>>556299 Может на крутом процессоре с супер быстрыми ДДР5 достигает высокой скорости. 33В тоже интересны, потому что тогда будет больший контекст влезать
>>556296 Если ниче не поменялось, то контекст падает на первую, поэтому смело вписываешь в gpu-split 6,16,16 и все норм работает. Но не гарантирую, раньше так было, во времена ExLlama 1. Ну, если хочется — хозяин-барин. =) Только про питание не забудь. Понятное дело, что одновременно они работать не будут, и 700 ватт тебе не нужно, но… Сам понимаешь, БП нужен не маленький и с кучей проводов. =)
>>556195 >unique >captivating >unusual >unique >unique Описания от нейросеток ещё более убогие и цепляющие глаз, чем тексты от них. От всех этих униКальностей уже триггерит не хуже, чем от молодых ночей.
>>556394 Соглашусь, что городить кучу видях в три слота с водянками и прочим — жесть. Проще взять 3090. Да, бп, но так попроще, чем мучаться с охлаждением трех сразу. ИМХО.
>>556209 > Весь пропт на экране Системный промт, не твой чат. Если там написано про вежливость и безопасность то любая модель будет так отвечать. Ей похуй что ты там думаешь и ждешь, она выполняет инструкции. >>556246 3090 из некроты. У P40 есть шанс и были заявления про нереально высокий для нее перфоманс в комбинации, но пока без подтверждений, ждем пока местному придет она. Если будет в 4+ раз медленнее 3090 то по прайс-перфомансу сосет, и сюда же требует колхоза с шумным охладом и хрен потом ее продашь. Если будет проигрывать всего в 2-3 раза то самый выгодный вариант, пусть и с нюансами. > Эдак 4 4060 ТИ Комбинирование большого числа слабых видеокарты - заведомо фейл, потому что финальный перфоманс будет кратно медленнее чем и так не быстрый чип. Но 4060ти вариант неплохой, из минусов пограничный размер, который на паре в теории позволил бы катать 40-50б в хорошем кванте или 34 с оче большими контекстами, но для 70 пришлось бы сильно ужимать. Если брать 3 то 70 уже доступны, но перфоманс будет в лучшем случае 5-6т/с. >>556296 > Хочется семидесятки в высоком кванте с большим контекстом запускать Пара A6000@48, A100@80 и подобные игрушки к твоим услугам. Контекст и прочее делится нормально, вся проблема в падающем перфомансе при использовании нескольких.
>>556376 Стиль описания можно запрунить и сделать любым, оптимизировав промт, особенно при гибридной обработке. Там суть в способностях по восприятию пикчи, их и нужно сравнивать. >>556393 Какой перфоманс выдают? Как разместил? Планируешь ставить третью или заменять ею 3060? >>556466 Увы, но зато там чип шустрый надо было брать летом когда они по 45к были
>>556594 >Если будет в 4+ раз медленнее 3090 Есть сомнения, что не будет? По памяти просос в 2,7 раза (346 против 936), по FP32 просос в 3 раза (12 против 35.6), по INT8 вообще в 6 (284 против 47). И это без оптимизаций под тюринги, с ними разрыв сразу множится на х2.
>>556596 На пустом контексте 10-11, на полном в 12288-(карточка+промпт) примерно 3-5. Разместил 4090 в главный слот, 3060 во второй. Третью не поставить, заменять не хочу, т.к. тогда я получу прирост в 4 гб за 100к, что значит что надо покупать новую материнку и прочее. Вот думал о том как бюджетно нарастить мощность
>>556606 > Есть сомнения, что не будет? Тут недавно такой поддув желающих верить был что я аж проникся. Шутка ли 4+т/с на 120б с тремя карточками, при том что 2х3090/4090 с тем же лаунчером и аналогичным квантом примерно столько выдают в 70б. Что в вычислительной мощности сосет, это очевидно и потому непонятно откуда в ней берется числа перфоманса о которых местами заявляют. С другой стороны, возможно дело в макаронном коде под эти древние карточки, что значит потенциальный буст перфоманса новых гпу. Учитывая скорости куда в llamacpp, где еще веса с достаточно равномерной битностью, такое вполне ожидаемо. >>556648 > на полном в 12288-(карточка+промпт) примерно 3-5 Воу воу, там точно не выгружается в рам? На последней экслламе с флеш аттэншн скорость на большом контексте почти не просидает, если не считать переобработку этого контекста (она не сильно просаживает). > думал о том как бюджетно нарастить мощность Третью на райзере и поставить вертикально в место где раньше в корпусах были корзины под харды и всякие приводы, вдоль задней стенки. Примерно как на пикреле, офк если влезет без поворота основной карточки.
>>556655 Вон >>549125 → там платформа - устаревшая с pci-e 3.0 с формулой 16+16+8. Она в лучшем случае эквивалентна тому что есть сейчас на десктопе х4 4.0, так что этот вариант отпадает, первое на что были мысли. >>556663 > Я на шинде, я сосу бибу без флеш атеншена Обнови убабугу, или просто скачай новую ванклик инсталлером а модели перенеси. Теперь он там есть и на шинде, в 48 влезает аж 5 бит с контекстом 6-8к, с квантами поменьше какой хочешь, скорости выше и главное не замедляются с ростом контекста, только если переобработка и то немного. > Дырочки под это на карточке нет ? >>556670 Скидывай пикчи которые хочешь увидеть, оно быстро обрабатывается и как в следующий раз буду этим заниматься их тоже добавлю рентрай юзаю для рендера маркдаунов а тут и заодно поделиться можно. Гопота-вижн левд отсеивает сразу еще до генерации токенов, если знаешь как обойти - поделись.
>>556678 > Обнови Да ладно? Если так, то охуенно. Скажи номер версии уги, чтобы быть точно уверенным. Хотя у меня всё равно только 36, так что особых иллюзий я не питаю > ? PCI слота всего два
>>556678 Самый простой способ. Более сложный писать сейф вещи вотермарками. Еще более сложный но помогающий с шизой это представлять изображение как шутку или исследование, те например надпись well satisfied kitty с одной стороны кот с другой сам понимаешь что. Это в основном чтобы обойти рефьзал систем. Чтобы обойти само нежелание вижена рассказывать (по умолчанию он будет просто пиздеть и фантазировать игнорируя пичку, очень эксплицитно но все равно фантазировать) нужно уже наебать гпт модель. В этом плане помогает самый сложный процесс наеба с пикчей и обычные джейлбрейки (только очень мощные). Вообще я очень давно этим не занимался, почти сразу после релиза дропнул. Печально что за это время никто новые жб не обкотал. В аисге сидят совсем уж безинициативные дегенераты
>>556691 А может им и не нужны линии? Я не очень представляю как происходит обменн данных карточками. Может почти никак, тогда на линии похуй. Для одной карты по крайней мере точно похуй
>>556682 Ласт коммит стоит, вроде пока проблем не замечено. >>556688 О, спасибо, норм тема. Это хорошо что можно его таким образом заабузить. Интересно, что там с обучением этих мультимодалок, доступно ли это нищебродам без гпу кластера, а то рили попробовать зафайнтюнить ту модель левдсами. Алсо там явно немалая часть преимуществ идет от тренированного клипа, возможно это направление может быть перспективным. > В аисге сидят совсем уж безинициативные дегенераты Просто не успели преисполниться и еще обычный кум а не пердолинг вставляет. >>556691 Там про то что та платформа не обеспечивает какой-то феноменальной пропускной способности по сравнению с обычными десктопами чтобы это как-то роляло в плюс. Для P40 некрозеоны и плата с распаянными линиями - то что нужно, колхозить этот пылесос в обычную пекарню - хз.
>>556696 Ну на новой пекарне у тебя будет только 8+8 линий так что на ней и 3 п40 не запустишь, по идее, если им конечно все же нужны псилинии для обмена данными
>>556057 >oobabooga, llama.cpp (не HF), 4K контекст, 5 тредов, mlock, cpu. >Версия чисто cpu-шная, никакого ускорения нет. Фронтом — та же ллама. >Ну и учитывая, что 70B модели 0,7 токена/сек выдают на таком железе, удивительно, что 20B выдает 1 или меньше.
Попробовал угабогу с ламой и твоими настройками, до этого юзал кобольд... А вот теперь, знатоки, поясните КАКОГО ХУЯ?! Output generated in 148.97 seconds (0.74 tokens/s, 110 tokens, context 1054, seed 1669618665) И это на 7В модели. Неужели у меня настолько дно железо, или руки настолько из жопы или я просто проклят?
>>556727 1) ГОНИ ПАМЯТЬ БЛЕАТЬ. 3600 мгц чтоб при следующем запуске было. 2) Учитывая неразогнанную память, уместно спросить, в каких слотах она у тебя стоит и работает ли в двухканальном. 3) Тредов тоже многовато, оптимально физядра-1. Ну и да, это процессор, чудес не жди.
>>556727 Для начала сними все галочки, потом попробуй вообще не трогать ползунок threads, пусть в нуле стоит по дефолту. Далее - у тебя почти все время ушло на обработку промта с 1055 токенов и на проце это норма. Хотя довольно долго и сама генерация не быстрая, ищи что срет.
>>556594 > финальный перфоманс будет кратно медленнее чем и так не быстрый чип Нет, нет там никаких «кратно», потери есть, но не столь фатальные, для 3-4 видеокарт. 2 видеокарты вообще выдают практически родной перформанс, теряя от силы процентов пять. Не нашел точных результатов, но судя по всему, 4060 ti должна выдать в районе 30-50 токенов на 7B. Это значит, что на 70B она должна выдать 3-5 токенов/сек. Это БЕЗ потерь. А с потерями там и 2-3 токена может быть. Ты же говоришь о кратных потерях — т.е. минимум двукратный будет 1,5-2,5 а то и ниже. Перформанс на 7B и перформанс на 70B — разные перформансы. Их различие в 10 раз — не есть кратное падение перформанса. Кратное падение, это когда если бы на условной 4060 ti было бы 100500 условных гигабайт, ты бы замерял скорость упираясь в чип и память, а потом поставил бы риг из таких карт и скорость бы отличалась в несколько раз. А 7B/13B с 70B надо сравнивать с коэффициентом. На двух видяхах потерь почти не было уже летом. Сомневаюсь, что за полгода перформанс мульти-гпу испортили в несколько раз. =)
Так что, как минимум две видяхи покажут вполне ожидаемый результат. Три замедлятся, но вряд ли сильно. Кратного падения до уровня проца там быть не должно.
ЗЫ У меня нет трех 4060 ти — затестить не могу физически, сорян.
>в лучшем случае 5-6т/с Не могу гарантировать, но кажется, ты его существенно завысил даже, а не «кратно уменьшил».
>>556606 Это называется «Надежда». =) На реддите же несколько ноунеймов выкладывало тесты… ))) (все еще подозреваю, что это сами продавцы)
>>556648 С 4060 ти не совсем ясно, насколько она превосходит 3060 в ллм (если вообще превосходит). Смысл там именно в объеме+новая, а не в «наращивании мощи». Возможно мощь даже потеряешь.
>>556650 Плюсую, райзер дорогой-надежный купить и воткнуть, норм варик.
>>556692 Несколько тредов назад кидали. Там формируются данные между слоями и кидаются. Зависит от контекста. В итоге там че-то в самом худшем случае получалось 1 секунда для передачи между картами на 1 линии 3 версии. Если мне память не изменила. Короче, если у тебя 200к контекста и 10 видеокарт на PCIe 3.0 x1, то придется ждать лишних 3 минуты. Но если 3 видяхи и 4к контекста, то 2 секунды. А на PCIe 4.0 x4 — 250 мс. Такие вот примерные прикидки вышли.
>>556727 У тебя контекст там сто лет обрабатывался, а сгенерировано 100 токенов. Смотри рядом — генерация 1,8 токена/сек. =) Ну или задай второй вопрос, когда контекст уже будет в кэше, и смотри, че выйдет.
>>556768 Постами с реддита, где один запустил 120b с какой-то лютой скоростью, а кто-то получает 40 токенов на 13B. Но могут не только лишь все. Непонятно, так это или не так. Вероятно нет, но это все еще самая дешевая память. Ждем, пока доедет герою, и он ее затестит по уму.
>>556774 Какие 8 бит? :) Все на ней запускается, как на обычной. 7B и 13B люди запускали даже на видосах на ютубе. И даже через встройку/стороннюю карту поиграть можно. Просто непонятно на данный момент, какая реальная у нее производительность. Она то ли выходит вровень с DDR5 (что в принципе уже делает покупку неплохой для тех, кто сидит на старом железе), то ли вчетверо быстрее, а это уже кое-что. Плюс, она занимает два слота, что позволит даже в обычные материнки вставить до 3-4 штук. Но надо колхозить охлад. Но, бросаться ее покупать тоже не стоит, мало ли че там на самом деле. Плюс, они, все-таки, из серверов, непонятно, сколько проживут. Может годик. Может пять лет. А может через неделю работы крякнут. Такое, короче.
>>556727 Для начала сними все галочки, потом попробуй вообще не трогать ползунок threads, пусть в нуле стоит по дефолту. Далее - у тебя почти все время ушло на обработку промта с 1055 токенов и на проце это норма. Хотя довольно долго и сама генерация не быстрая, ищи что срет. >>556760 Блять опять эта шиза. У тебя чип считает модель что помещается полностью в его память и выдает условные 12 токенов. Когда ты заставишь 3 карточки считать поделенную большую модель что будет в каждой занимать такой же объем, то не получишь те же 12 токенов, в лучшем и самом идеальном 4т/с, а с учетом потерь и того меньше. > потери есть, но не столь фатальные, для 3-4 видеокарт Ты проверял? Только и годен огроменные шизопосты хуярить да теоретизировать.
>>556787 Скорее, для ускорения. =) Поэтому на какой-то невысокой скорости — будет.
>>556788 Опять твой ядерный бред… Ты даже в калькулятор не можешь.
Просто стыдно читать, я уже не знаю, как тебе пояснить. Скорость — не делится, прикинь. С увеличением размера — увеличивается время. Втрое больше объем — втрое больше время. Скорость — та же. Понимаешь?
Тебе надо в начальную школу, в каком там классе проходят операции деления и умножения.
Давай так. Есть видеокарта с 24 гигами. Чтобы прочесать всю память на чтение ей нужны условные 20 секунд. Есть система с двумя видеокартами по 24 гига. Чтобы прочесать всю память им нужно 20+20 секунд (и задержки передачи, но мы их проигнорируем). В первом случае, у нас влезет условная 70B модель с 2.55 bpw. И ее перформанс составит условные 40 токенов/сек. А в 48 гигов влезет уже 70B модель с 5.0 bpw. И ее перформанс составит уже 20 токенов/сек. Но, йобаный ты по голове олигофрен, это один и тот же перформанс, учитывая размеры сетки! Никакого кратного изменения тут не происходит, потому что в первом случае ты тратишь 20 секунд на 24 гига, а во втором — 40 секунд на 48 гигов! Учитывая, что ответ будет одинакового размера — количество токенов в секунду будет отличаться. Но в одном случае ты будешь крутить вполовину более тупую сетку.
Это, блядь, базовое, физическое ограничение — тебе нужно определенное время затем, чтобы прочесть всю память.
И с размером памяти — не меняется скорость, меняется время.
Никаких проблем с экстраполяцией более мелкой/пожатой сетки нет. Банальный пример — запустить 7B и 13B с одинаковой битностью и ты увидишь, что скорость отличается чуть менее, чем вдвое (как и размер сетки). Так же и 13B приблизительным делением на 5 экстраполируется до 70B. Конечно, есть нюансы, и скорость может плавать туда-сюда (7B может быть медленнее, чем ожидалось от нее относительно 13B, а следственно, 70B может быть быстрее, чем ожидалось от нее относительно мелких сеток), но примерные числа представить можно.
И когда я тестил две видяхи — то их скорость с точностью до токена совпала с расчетной. Когда я гонял слои с одной видяхи на другую (менял gpu-split), то результат менялся — и опять менялся по правилам простой математики. И пока я не увидел ни единого отзыва или аргумента, что на 3 видяхах ВНЕЗАПНО все ломается к хуям и скорость падает в несколько раз. А вот иные отзывы из интернета людей, которые делали такие же тесты как мои — так же полностью совпадают с расчетами.
Я хуй знает, что с тобой не так, но в твоем случае уже и таблетки не помогут.
Вставлять три видяхи и тестить на них не буду — мне лень разбирать два компа ради этого. То, что ты не веришь уже в простую математику — это сугубо твои проблемы.
Короче. Ты едешь на машине из одного города в другой. Между городами 100 км. Ты доезжаешь за 2 часа. Но если ты поедешь в следующий город —окажешься на курорте и ты хочешь туда. Туда ехать еще 100 км. И вот, ты выезжаешь из своего города, едешь 200 км, доезжаешь за 4 часа (и 5 минут поссать во втором городе, потому как забыл сходить перед выездом). Внимание, вопрос: машина стала ехать вдвое медленнее от того, что ты ехал 4 часа, вместо 2?
>>556816 > Банальный пример — запустить 7B и 13B с одинаковой битностью и ты увидишь, что скорость отличается чуть менее, чем вдвое (как и размер сетки). Но если взять одинаковый размер, скорость всё равно упадёт. Ну это так, к слову, что может лучше неквантованную 34б крутить а не квант 70б.
>>556804 А запускаешь точно также с теми же настройками?
>>556820 В колаб с учётом контекста 4к условно не влезет ничего больше 9,5 Гб. Но если уменьшить контекст до 2к, то влезет 10,5 Гб, для 20В это q4. Такие варианты в колабе тоже есть.
Блядь! Пацаны... Чтобы передать данные из одной видеокарты в другую передающей видеокарте нужно вызвать dmi и записать свои данные в разделяемую память, затем второй видеокарте нужно вызвать dmi и прочитать эти данные. Задержка будет в [ pci-e → оператива ] и обратно. Аналогии всегда неверны.
>>556825 Была бы у нас нормальная 34B, а не кодллама… Хотя ладно, я просто не пробовал китайцев. Может и так. Энивей, кому-то хочется 70B и это их принципиальная позиция — с учетом минорных отличий, кто мы такие, чтобы запрещать людям?
>>556829 Не буду спорить, но тут вопрос их критичности. Речь идет о нескольких мегабайтах данных, если мне память не изменяет. А учитывая, что эту операцию надо произвести количество видеокарт минус один раз — то там не так критично это. Это не потоковая передача, где задержки могут возникать постоянно. Это один файл, который передался — и пошел работать дальше.
>>556836 >Речь идет о нескольких мегабайтах данных >Со слов разраба ExLlama Ох, звучит любопытно. Позже проверю. Когда приедет p40. Кстати, заметил, что lamacpp тратит дохуя памяти если выгружаешь слои в карточку.
>>556816 Ля разосрался, долго сочинял? Врядли это кто-то прочтет этот суммарайз того что было в треде и собственных трактовок, всеравно нового ничего не скажешь. >>556819 Оно по дефолту работает при использовании экслламы, если нет лишних варнингов значит все ок. >>556821 Пикрел >>556829 Все так, вопрос в объеме пересылаемых данных и скорости-задержках интерфейса.
>>556763 7B я бы рекомендовал юзать исключительно в Q8. >>556774 Технически INT8 на ней есть. Но на средите читал, мол, нужна версия битсадбайта (или как там это говно зовётся) использует кроме INT8 ещё пару новомодных инструкций, которых на старых картах нет, и если скомпилять под себя, то можно зараннить INT8 на паскальных теслах. >>556819 Его можно только выключить, емнип. >>556822 Соя же, плюс они вроде как вообще нихуя не выпускают, кроме пресс релиза. По крайней мере первой орки я от них не видел. >>556829 Всё так. И задержки там ебейшие. >>556836 >Энивей, кому-то хочется 70B Всем хочется, но не все могут. >>556845 >Когда приедет p40. Если приедет. У тебя кстати какой статус на сайте почты?
>>556848 > 7B я бы рекомендовал юзать исключительно в Q8. Плюсану, скорость падает не критично (если не с телефона), а ломаются мозги не так сильно, как при большем сжатии.
> Если приедет. У тебя кстати какой статус на сайте почты? Ну, 11.11, почта работать будет долго, Китай жи. Предположу, что можно как неделю ждать, так и месяца полтора, и это будет нормально. Так что, я бы на месте героя не ждал, а готовился (ждать долго).
>>556836 > А учитывая, что эту операцию надо произвести количество видеокарт минус один раз — то там не так критично это. Это не потоковая передача, где задержки могут возникать постоянно. Это один файл, который передался — и пошел работать дальше. > Со слов разраба ExLlama, конечно. И что выходит, если с авито взять хуитку уровня пикрелейтед, можно гонять 70b 4bit с терпимой скоростью? Или упрётся в чип/шину/память и там будет ноль целых хуй десятых токенов/сек? Моя не понимат...
>>556836 > Это не потоковая передача, где задержки могут возникать постоянно. >>556846 >Все так, вопрос в объеме пересылаемых данных и скорости-задержках интерфейса. >>556848 >Всё так. И задержки там ебейшие.
Проблема в том, что такая сборка видеокарт не может в абсолютный параллелизм (смысл cuda, а одна а80 может), а вырождается в конвейер из нескольких этапов, это зависит от количества карточек. В итоге: хуй знает что будет с производительностью.
>>556848 >Если приедет. У тебя кстати какой статус на сайте почты? Она у меня в статусе "Передаётся в доставку". Инфа о трек номере "временно недоступна". А что у тебя? Думаешь, что продаван кинет?
>>556867 >Она у меня в статусе "Передаётся в доставку". А сам продаван что? Сделал нужные видосики? >А что у тебя? Висит на таможне с 22 числа. >>556310
>>556852 Когда обновлял еще после выхода этих новых ванкликов просто снес старую и с нуля гитклон репы и потом через батник запустил. Если не хочешь так - попробуй из вэнва pip install --upgrade --force-reinstall -r requirements.txt чтобы оно все последнее нужное подсосало. >>556860 > можно гонять 70b 4bit с терпимой скоростью? Смотря что ты понимаешь под терпимой скоростью.
Развивая аналогию поеха, генерация токена = доставка груза поездом, видеокарта = локомотив, мощность гпу = его мощность, врам = длина участка на котором он может ездить, размер модели = общая длина доставки. Имеешь один мощный состав, участок работы которого покрывает необходимое тебе расстояние - будешь иметь быструю логистику и соответственно скорость ответа. Имеешь 2 мощных состава и для покрытия дистанции нужно 2 участка - получишь всеравно быструю логистику но с потерей времени на перецепку вагонов. Ферма со слабыми гпу - куча оче слабых составов, каждый из которых по очереди будет доставлять груз по своему короткому участку со скоростью с разы меньше чем у мощных, так еще и на серию состыковок лишнее время потратишь. В итоге вся логистика по пизде из-за невероятно низкой производительности. >>556867 > а вырождается в конвейер из нескольких этапов Все так, без мощного гпу, который позволил бы быстро обрабатывать модели, это неюзабельно ибо их мощности не складываются.
>>556860 Упрется. Не скажу точно сколько, но тесты 1660с меня нихуя не порадовали в принципе. Щас точно не упомню, я на работе ее тестировал. Но вышло что-то в районе… Раза в два-три быстрее ддр4 обычный. Типа, возможно эта ферма аутперформит обычный комп на ддр5, а возможно ему и сольет. Выбирая между новой ддр5 платформой и этими старыми майненными картами — не рекомендую брать старье. Ты за 50к будешь на оперативе с той же скоростью крутить, крайне вероятно. Смотреть надо в худшем случае 20хх поколение (или аналоги), а лучше 30хх и 40хх.
>>556867 Если честно, думаю не кинет. Там же были отзывы, похожи на настоящие.
>>556869 Нах линии нужны, там задержки между видяхами будет не самой большой болью… =) Чай не 4090 пихает, а 1660с.
>>556880 >А сам продаван что? Сделал нужные видосики? Нет. А у тебя? >>556880 >Висит на таможне с 22 числа. У меня год назад материнка от Хуанан месяц провалялась в таможенном пункте Тургат. Хз, что сейчас с таможнями, под новый год.
>>556883 >Если честно, думаю не кинет. Там же были отзывы, похожи на настоящие. Надеюсь. Мне тоже срок работы, список товаров и длительность работы не показались похожими на скам.
>>556889 Переустановил в итоге, ускорение чувствуется, спасибо, анончики, что рассказали что теперь можно и на винде. Но какой же криворукий Уга ушлёпок, сил нет!
>>556916 >А что не так? Запускать самому консоль, входить самому в эти самые венвы (я даж не знаю, как это делается), вбивать команду размером чуть ли не одну треть для установки генту. Ну нах, проще снести и два раза клацнуть на запуск.
>>556919 А бля, в глаза ебусь. Вот пример примитивного скрипта для взаимодействия, там все просто https://blog.nextideatech.com/gpt-4-vision-api-is-a-game-changer/ >>556920 > проще снести и два раза клацнуть на запуск У тебя контекст на одну строчку? Ведь в той что выше именно об этом и написано. > Запускать самому консоль Многие кто сидят давно ставили не через ванклики, старые версии которых были дико убогие и багованные, а через венв и рекварментс, там буквально 2.5 команды. Обернуть запуск в скрипт потом это никак не мешает.
>>556890 Да, не покупабельно пока что. Не, ну аналоги 20хх есть по 12-15 тыщ за 10 гигов. Но с такими ценами дешевле было брать 3060 новые с мегамаркета, чем аналоги 2080 старых. Никакой экономической выгоды нет, и объем низковат. Так что только P40 и интересен, чисто из спортивного.
>>556912 Написал ван-клик инсталлер. Не написал к нему обновления. «Скачайте сами, пожалуйста, мой обновлятор не обновлятор».
Дыа, та ж фигня, обновлял у себя на всех машинах несколько раз с нуля…
———
Хлопцы, поясните плиз. Попробовал я значит gptq 4bits против exl2 5bpw. Эксллама2 показала себя процентов на 10 быстрее (точнее — медленнее, но с учетом веса модели все-таки быстрее=). Контекст не влез в 12 гигов, буду смотреть веса поменьше. Но то ладно!
Попробовал ExLlama и ExLlama_HF лоадеры. Ну и версии два, соответственно. На HF лоадере скорости стабильно ниже 20%.
Объясните, в чем прикол HF, настолько он хорош, что стоит жертвовать 20% скорости? Не, ну типа, 36 или 44 — конечно не супер-страшная разница… Но все же.
>>556927 > хотелось бы что-то с промптменеджером Полный промт вот сюда, можно какой угодно. {"type": "text", "text": "Describe the attached image"} >>556944 > настолько он хорош, что стоит жертвовать 20% скорости? Полные семплеры и негативный промт. >>556946 На сейфовых попробуй без джейлбрейков и рп инструкций, может будет лучше. Если ему сказать что-то типа "описывай кратко в деловом стиле, избегай излишней художественности и фокусируйся на содержимом" то шизы становится меньше.
>>556999 Ебашь контекст 512 токенов, будешь как диды сидеть )) А вообще, 2х24 прям немного не хватает, жду карт по 32 гига врама. Когда там 5000 серия нвидии выйдет?
>>557014 В начале 2025, несколько поколений моделей успеет смениться. 32 тоже мало, хотелось бы чтобы вышел какой титан или типа того на 48, чтобы был и мощный но дешевле a6000 или того что придет ей на замену.
>>557026 >В начале 2025, Да ёб, мне 1,5 года сидеть на максимально проигрышной в плане ИИ 3080Ti? >несколько поколений моделей успеет смениться Пока я вижу, что выходят в основном огрызки на 7B, и только вот китайцы дотянули до 34. Думаю, если и будут выходить новые базовые модели, то на 70B максимум, ну типа лламы 3 или её китайской копии. Провал фалькона как бы намекает, что попенсорсу 100+B запускать, а уж тем более файнтюнить, просто не на чем. >хотелось бы чтобы вышел какой титан или типа того на 48 Нет сынок, это фантастика. Нвидия так проёбываться не будет, я не сильно удивлюсь, если они снова выпустят ремастер на 24ГБ, лол, ну или зарежут шину на какие-нибудь 128 бит, сделав объёмы бесполезными для ИИ (в играх завалят кешем, в других РАБочих задачах работа с памятью всё таки не столь интенсивна).
>>557035 > мне 1,5 года сидеть на максимально проигрышной в плане ИИ 3080Ti? Увы > если и будут выходить новые базовые модели, то на 70B максимум Все так, этот размер неспроста выбран, популярными будут те, которые можно: - обучать на одной машине с не более 4-3-2-1 A100 - запускать на 160/80 гб врам - запускать кванты на 80/... гб врам. Остальные заведомо будут непопулярны, вон тот же фалкон 180 нахуй никому не сдался в итоге, хотя шуму то было. В теоретической теории можно ожидать промежуточных размеров типа 20-40б. > Нвидия так проёбываться не будет Никакой фантастики, уже не раз было, низкая цена в сделку не входила. Потомкам квадры дадут 64+ гига и кому нужно всеравно их купят. Энтузиастам, хитрожопым моделерам и нейродрочерам дадут с лопаты титана или 5090ти за дикий оверпрайс типа 2-3к$ с минимальными отличиями в памяти и чипе от 5090. Хуанг умеет стричь всех от нищуков до мастодонтов, а тут такой расширение рынка со спросом в пограничной области. > зарежут шину на какие-нибудь 128 бит, сделав объёмы бесполезными для ИИ Тесты 4060@16 то появились уже, настолько уж она бесполезная с учетом чипа?
>>557049 >Тесты 4060@16 то появились уже, настолько уж она бесполезная с учетом чипа? Походу все смотрят на характеристики и не берут заранее, полютуба завалено роликами, какая же она нахуй бесполезная. Поэтому в реале никто не взял, лол.
>>557050 > полютуба завалено роликами, какая же она нахуй бесполезная Хайп блогиров-инфлюенсеров, пиздящих друг у друга контент и оно все про игорь. По ии о ней есть умерено-позитивные отзывы, но их мало.
>>557098 Да, но это заметнее всего на моделях меньшего размера. Для 7B критично. >>557099 Всё одно 16 гиг меньше чем 24, 32 и прочее, да и 3060@16 у нас есть уже давно и более доступна, а по важным для ИИ параметрам вроде как не отличается от 4060@16.
>>557117 Нынешние поенсорс мультимодалки нужно сжечь. Ну и очевидно, что в соевых 3,5 картинках производства чатЖПТ, на которых обучали всё это говно, даже близко нет текущих кисок, так что даже те немногие данные от клипа просто не смогли пробиться через промежуточный соевый слой.
>>557117 > Ты реально рассчитывал что пригожина кто-то поймет? Шаржпт относительно неплохо описал ведь, навигационное приложение, путь, карта, мужик слева, чвк, пусть и немного глюканул с остальными надписями. > Ни одна сетка не может в кремпаи. Печально. Увы, однако совет экспертов шизиков-инвалидов во главе со слепым поехавшим мудрецом скорее всего смогут разгадать такой ребус. >>557126 Надо делать свой файнтюн, но для этого нужны те еще ресурсы. Из доступных какой-то 2д левд в датасете имела только бакллава. Надо бы попробовать ей подсунуть на вход проектор от шаржпт с файнтюненым клипом, и вообще померджить их, хули бы и нет собственно.
>>557129 >похоже на нехватку джейла Да ну я бы не сказал. Тогда не было бы nude. Хотя мне конечно интересно, насколько нехватка порнухи херит эти модели. И, так как гопота вижен работает в принципе нормально, то сколько порнухи у них в датасете таки было, раз они так тщательно ныкают конкретно картиночную часть за апи модерации. >>557129 >Я про юмор В сложный юмор у меня даже 70B не могут. Например по картинкам из прошлого треда, про молот тора с node_modules внутри, я этим самым 70B текстом картинку описал, они даже такое не выкупили, хотя любой околоITшник сразу поймёт, в чём юмор. И по крайней мере Клод приводил правильный ответ.
>>557129 > ну то что она там вообще в одежде описана больше похоже на нехватку джейла а не шизу А оно так на большинстве левда, шаржпт почему-то придумывает им одежду. Не только он на самом деле, тут хз тупняк или особенности файнтюна, скорее всего просто не было примеров без одежды, вот и тупит. > Я про юмор Эт без шансов, тебе покажи это год назад сам бы не допер, а 2 - так вообще ахуевал бы че за шиза. В теории юмор могут с других мемасов понять, но для этого нужно им промт соответствующий скормить, тут просто про подробное описание картинки. >>557134 > то сколько порнухи у них в датасете таки было Судя по очень скудному опыту тренировок и без претензии на истинность - достаточно относительно и небольшого количества разнообразных подобных изображений с описанием чтобы работало нормально, беда будет только если они вообще будут отсутствовать.
>>557140 >Ну поскольку он тренился на вижне его также надо брейкать В отличии от вижна он вообще не получал порнушных картинок на вход. А если сеть о чём-то не знает, то она это и не выведет ни с каким джейлом.
>>557143 Ну как бы да, у вижна сильный цензор, и он явно не пропускает через себя любую обнажёнку. А значит, все сетки, что обучались только на данных вижна, не было никакой порнухи, обнажёнки и прочих чувствительных материалах. Их конечно видели базовые модели типа CLIP, но это, как мы видим, не сказать чтобы сильно помогало.
>>557138 Про эту ShareGPT4V-7B , эту мультимодалку. Она один хуй локальная, так что ее можно и не в такую позу поставить что выдаст что угодно. Но кажется что проблема просто в несбалансированности датасета а не том что он заведомо что-то цензурирует и гейткипит, просто плохо понимает что это такое и как описывает. Шликающую перед зеркалом втубершу оттуда рерольнул добавив в промт "не стесняйся описывать нсфв" > The image portrays a scene of explicit sexual content. At the center of the image, a girl is depicted in the act of masturbation. She is lying on her stomach on a bed, with her legs bent and her head resting on a pillow. Her attire consists of a blue and white striped bikini bottom, which contrasts with the pink hue of her skin. In her right hand, she holds a toy, while her left hand is positioned between her legs, indicating that she is in the midst of pleasure. The background of the image is blurred, drawing focus to the girl and her actions. However, it appears to be a bathroom setting, further emphasizing the intimate nature of the scene. Please note that this description is based on the visible elements in the image and does not include any speculative or imaginary content. Честно говоря ахуеть, чуть ли не первая мультимодалка что без подсказки поняла что там происходит, а не "ту персонз пенетрейтинг". Но всеравно откуда-то бикини высирает, видимо голых там вообще нет. А вот какая дичь от гопоты подсосалась так это в конце аположайз, или может хуета идет вообще от сраной викуньи что в основе. Надо бы вообще мерджеры ллм изучить, если вдруг там есть аналог добавления разницы со стабильной диффузией, то визуальное восприятие можно к куда более умной модельке подсадить, не говоря о том что просто использовать проектов для других 7б. Ну и бакллаву со счетов списывать не стоит тоже, ей бы зрение прокачать.
Что самое обидное так это то что модель для модерации неплохо знает про смут и будет становиться только лучше. Те они там буквально в нее терабайты порнухи заливают
Можно меня мордой ткнуть, что нужно тут жмать, чтобы обучение лоры поехало? То есть мне нужна точная, конкретная модель с ссылкой на нее, которая точно работает здесь (только не AWQ) и настройки Target Modules. А то все какие были у меня перепробовал, везде пишет ошибку, что модель не та, модули не те, не могу даже дойти до ошибки нехватки памяти.
Фалькон тупой просто. Причем тут его размер. У нас куча моделей таких есть — и от гугла, и от яндекса. Но их фишка в том, что они на удивление тупы для своего размера. Никаких проблем запустить того же фалькона на оперативе или в облаке нет. Долго, но проблем не в этом. Проблема в том, что он, внезапно, не умнее 34B сеток. И на кой он нужен? А вот условная Llama 3 140B могла бы оказаться уровня GPT4, и это совсем другое дело. Ее не будет, офк, но я о том, что мерять надо не только параметры, но и «интеллект» модели.
>>557095 Разница с q6 невелика, а скорости заметно ниже. Но, это не касается 7B, там скорости и так нормасно.
>>557104 *12 =( Все же, между 24 и 32 разница приличная, знаешь ли. А уж тем более между 36 и 48.
———
Я, кстати, вчера попробовал бакклаву q5 на видяхе — 2 секунды на картинку, 60 токенов генерит на лету. Быстрое. Жаль fp16 не поместится в 12 гигов. =( Надо найти q8, или самому квантануть. А вообще, нет GPTQ или EXL2 мультимодалок? Они работают в этих лоадерах?
Бакллава — BakLLaVA, мультимодалка, файнтьюн мистрали. Как определять — не знаю, если честно. =) Я просто по именам помню некоторые, попробовал что-то. Не знаю, шо там с шаргпт, но бакллава норм, в принципе. Пока мой фаворит. Но не то чтобы выбор богатый и качество было сильно хорошее.
>>557232 Ну, шо поделать, если устраивает — сидеть на q6, получается. Если не устраивает — расти в объемах. =)
Здравствуйте, аноны, пропустил последние тредов 15, поэтому не очень в курсе новинок. Недавно на черной пятнице по дешману приобрёл себе оперативы в ноут, теперь у меня 64Гб. Попробовал запустить 70В модель, медленно (очень), но работает. Вопрос такого характера: конечно, с ней не покумить, но теперь я ведь могу скармливать больше контекста? А значит задавать вопросы/перерабатывать длиннопосты. Кто-нибудь этим занимался? Как вы скармливаете статейки своей модели?
И ещё пара вопросов, скорее, технических. GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху, и как там было 6Гб, так оно и есть? Так как теперь у меня много памяти, я ведь теперь могу тренить модели 7В? Или может даже 13В? Или там скорость будет ужасно мала? Для мультимодальных моделей надо параллельно Диффюжн запускать, или там всё внутри одной модельки?
Для кума, кстати, 20В более-менее норм (я привык к 1-2 т/с), может есть какие новые модели между 13В и 70В кроме Млювда?
Здравствуйте, аноны, пропустил последние тредов 15, поэтому не очень в курсе новинок. Недавно на черной пятнице по дешману приобрёл себе оперативы в ноут, теперь у меня 64Гб. Попробовал запустить 70В модель, медленно (очень), но работает. Вопрос такого характера: конечно, с ней не покумить, но теперь я ведь могу скармливать больше контекста? А значит задавать вопросы/перерабатывать длиннопосты. Кто-нибудь этим занимался? Как вы скармливаете статейки своей модели?
И ещё пара вопросов, скорее, технических. GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху, и как там было 6Гб, так оно и есть? Так как теперь у меня много памяти, я ведь теперь могу тренить модели 7В? Или может даже 13В? Или там скорость будет ужасно мала? Для мультимодальных моделей надо параллельно Диффюжн запускать, или там всё внутри одной модельки?
Для кума, кстати, 20В более-менее норм (я привык к 1-2 т/с), может есть какие новые модели между 13В и 70В кроме Млювда?
>>557286 >но теперь я ведь могу скармливать больше контекста? Размер контекста напрямую не связан с размером модели, хотя конечно модели побольше лучше справляются с большими контекстами. > как там было 6Гб, так оно и есть? Да. >Или там скорость будет ужасно мала? Да.
>>557291 >Размер контекста напрямую не связан с размером модели А почему тогда к некоторым моделям дописывают 32k или 16k? Значит с моделями что то делают что бы они могли в большой контекст?
>>557286 Для моделей, у которых есть соответствующие приписки — сможешь выставлять больший контекст, да, все верно. Странно тебе ответили, ты же не про модели, а про объем памяти спрашивал. =)
>>557187 Для начала нужно загрузить основную модель совместимым загрузчиком, собственно табличка тут https://github.com/oobabooga/text-generation-webui/wiki тебе нужно Training LoRAs и как можно видеть - выбор невелик. Обрати внимание на сноски. >>557229 > Фалькон тупой просто. Причем тут его размер. Это следствие того что из-за размера он явно недоделан, так еще никто не хочет им заниматься. Офк сложно выявить влияние компонентов, те же 2к контекста это пиздец, но у многих просто банально нет возможности или это потребует ну очень много машиночасов. > вот условная Llama 3 140B могла бы оказаться уровня GPT4 Если сделать ее специализированных файнтюнов и организовать выбор модели то даже местами и лучше. Но из-за сложностей запуска движуха по ней была бы относительно вялой без больших прорывов. > А вообще, нет GPTQ Есть, работает только в autogptq с выключенным ядром экслламы и в трансформерсах. В ишьюсах убабуги отметился дев экслламы и упомянул что рассмотрит имплементацию проекций по схеме типа как у Жоры, но ничего не обещал.
>>557286 > но теперь я ведь могу скармливать больше контекста? Если загрузишь с нужным rope то вполне. До 8к они вообще идеально работают, до 16к со слабым падением перфоманса, а больше всеравно врядли памяти хватит. Были файнтюны 70б на большой контекст, но что в них по качесву/уму/куму хз. > Как вы скармливаете статейки своей модели? Инстракт режим, вкладка Default вебуи. > GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху Это для работы на видимокартах, твой выбор gguf и llamacpp загрузчик. > я ведь теперь могу тренить модели 7В? Или может даже 13В? На 6 гигах видеопамяти разве что 1-2B и то хз, на проце даже забей. > Для мультимодальных моделей Почитай инструкции что есть или дождись пока для хлебушков запилят > кроме Млювда Emerhyst-20B, Noromaid-20b 1-2 т/с мало, долюно быть хотябы 3-4 если там не совсем днище по скорости врам. Еще 34б китайца посмотри из новых, на них уже есть файнтюны.
>>557356 Тогда обойдусь offload'ом, и так достаточно быстро. Бум ждать.
>>557360 > На 6 гигах видеопамяти разве что 1-2B и то хз, на проце даже забей. Там же 3B была, вроде, какая-то. Должна бы влезть с маленьким батчем и многими эпохами, кмк. Но долго-долго.
>>557361 Вот и я так считаю. Если бы кто-то выпустил, то люди бы напряглись бы на покупки. Но продавать подписку выгоднее.
Такой вопрос, хочу нормально погонять 70б. Сейчас запускаю 70B-2.4bpw exl2, но часто упирается в память когда расширяю контекст, хватает примерно на 6к. Сейчас есть комп с 4090 и бп на 1200, так же есть старая 3080ти и еще один бп на 800. Не будет ли проблем если я подключу 3080ти и запитаю ее от отдельного бп (не уверен что она поместится в бп с 1200вт)?
>>557366 >не уверен что она поместится в бп с 1200вт Хули не поместится то? Поместится без проблем. А так да, можешь питать от отдельного блока, делов то.
>>557366 Одного достаточно, они же работают последовательно, мне и 1000 платинового хватило для такого же сетапа, только я быстро забил, потому что эксламы2 ещё не было >>557367 Ты ему сейчас насоветуешь, синхронизировать блоки то не хочешь?
>>557374 >синхронизировать блоки то не хочешь Что ты там синхронизировать собрался? Достаточно запустить скрепкой до старта основного, или колхозить автозапуск, или брать приблуду с алишки.
>>557366 > Не будет ли проблем если я подключу 3080ти Вроде как и нет, но сейчас видюхи балансируют нагрузку между pci-e слотом и доп питанием, как на это повлияет разница напряжений в разных блоках питания - хз. > не уверен что она поместится в бп с 1200вт Вут? 4090 - 450вт, 3080ти ~350, 400 вт на проц плюс периферию за глаза хватит. В ллм потребление ниже и максимумов не добьешься, а с двумя видюхами они и работать будут по очереди, так что даже на киловаттнике без проблем. 1.3 честных киловатта тянут раскочегаренные видеокарты и печку от интела даже не напрягаясь. Качественный бп в принципе не чувствителен к кратковременным всплескам мощности и может держать до 110% нагрузки.
>>557380 > В ллм потребление ниже Как раз в сетках жарит сильнее чем в каком-нибудь киберпуке. Но с андервольтом можно на 4090 в пределах 350 ватт оставаться.
>>557366 Если БП не херня, то поместится. Они же последовательно работают, а не одновременно. Но можно запитать и от второго БП, канеш.
>>557374 Кмк, очевидно что там синхронизатор ставить надо, думаю, это подразумевалось. Вряд ли чел такой дебич, что побоялся подключить в один — по полезет подключать в два сразу абы как, не загуглив даже.
>>557380 4090 — 600. В ЛЛМ максимумы вполне достижимы, я хз, ты оффлоадил на 60% что ли. У меня вполне себе жрет. Напиздел, и правда не сильно жрет в ллмках. Это стабла ебошит, а ExLlama бережет.
>>557388 Звучит как копейки, если честно. Втыкай в один.
>>557456 > 4090 — 600. Миллисекундные спайки частично вообще возникающие из-за особенностей работы ОС в бп не считаются, базовый пл там вроде в районе 450, если что поправь. На небольшие всплески только шизоидные бпшники триггерились из-за кривой схемотехники, въебали неадекватную диффцепочку на защиту о которой никто не просил, а потом владельцы страдали с приходом ампера. Гнать особо смысла нет, наоборот андервольтить занижать. > Это стабла ебошит Ууу, стоит засесть - оно аж столешницу насквозь прогревает, высокотехнологичный обогреватель который заслужили.
>>557563 Хз, вроде как 7b на опенчате сделана, а 11b склейка 2 7b. Ну я 11b качаю на пробу, хз только когда загрузится еще, инет так себе. Как бы, по тестам и отзывам, 7b лучше опенчата и опенгермеса и вроде как в топе на текущий момент. Все это понятно нужно проверять, а то веры в тесты не особо.
>>557520 Ее предшественник обходит клода. Пу-пу-пу. Я понимаю, что мы в сингулярность долбимся уже, но у меня все еще сомнения, когда мне говорят, что 7b модели обходят современные коммерческие решения. Ладно третью турбу, ее обходили долго и с трудом, да и она «старенькая». Но вторую клоду, ну я хезе… Но, если так, то я рад.
Жалею, что у меня 12 гигов и я не могу запускать неквантованные.
>>557581 8q попробуй, там минимальная потеря. Ну и конечно сетка слабее чем по тестам. Самое главное там не проверяется - "оперативная память" где сетка придерживается инструкций. Я думаю это как то связано с количеством слоев, чем меньше тем хуже "воображение" сетки, где она может удерживать кучу инструкций одновременно. Все это конечно сложнее на деле, но по ощущениям так. Маленьким сеткам какими бы умными они не были не хватает "глубины" больших сеток.
>>557581 > вторую клоду Ты бы ещё про CAI вспомнил. Клод - это какой-то непонятный стартап, они один раз сделали сетку и на этом прогресс закончился, естественно его обгоняют, если он пол года уже мёртвый лежит.
>>557581 > понимаю, что мы в сингулярность долбимся уже В шизу долбимся, когда йоба коммерческие модели на которые так молятся легко ломаются (не в смысле жб и обхода а просто фейлят очевидные ответы), дико галлюцинируют, а братишки надрочив мелочь на прохождение бенчмарков хвастаются их прохождением, утверждая что подебили куда более мощные и функциональные продукты. Скептически нужно к громким заявлениям относиться. > Ладно третью турбу, ее обходили долго и с трудом, да и она «старенькая» Она тоже на месте не стояла и релизилась не так уж давно, неравенство размеров не стоит забывать, так что темпы развития локальных моделей иначе как колоссальными не назвать. Но ее все еще не подебили в понимании языков. А это дрочка на "победу" как бы не сыграла в негативном ключе для всей области, уже начался этот дроч на цифры в отрыве от реального перфоманса и имитация результатов вместо прогресса. > запускать неквантованные Переоценено >>557597 > они один раз сделали сетку и на этом прогресс закончился Сильное заявление
>>557613 > llama.cpp получает новый UI Чем это отличается от сервера, который Жора уже давно сделал, кроме округления кнопочек и добавления зеленого скина? > до нормальной работы в виде бека Так оно уже давно, не? Сервер нормально запросы обрабатывает, вот только не умеет выгружать/загружать новые модельки или менять контекст на лету.
>>557624 Это чтоли не веб-интерфейс открытый в браузере? Ай лол, что за убожество, и главное нахуя. Хотя зная любовь Жоры к макам может ссылку на него и оставит.
>>557627 > веб-интерфейс Макобляди не далеко от линуксопидоров ушли, они на любое извращение пойдут, лишь бы не поднимать веб-сервер на крестах. Кроме кобольда ничего и не будет.
>>557650 Вут? Жора это уже давно сделал, что здесь нового? Сука не удивлюсь если они еще все нахуй поломают и придется переписывать то что есть. >>557639 Да какая разница, оно кроссплатформенно, удобно, легко кодится, эффективно, довольно эффективно по ресурсам. Хотя вспоминая то что огрызок выпустил ноут с 8гб рам и рофлами вокруг этой темы - неудивительно. Чет обзмеился с интерфейса, просто напиздил у жоры и убабуги и собрал в кучу. Настолько ахуенен и функционален что нельзя не то что редактировать - просто удалить или рерольнуть сообщение.
>>557656 > эффективно по ресурсам Только если выключить аппаратное ускорение в браузере - но тогда плавная прокрутка по пизде идёт. А так веб-интерфейс может целый гб врама сожрать. Даже комбайны на сишарпе типа Авалонии лучше будут по производительности и красоте гуя, кроссплатформенность там тоже есть. На qt блять пусть делают. Топаз же сидит на нём. Опенсорс лицензия у qt есть.
>>557404 >7b_roleplay Когда хочется плакать от одного текста ссылки. >>557464 >въебали неадекватную диффцепочку на защиту Нормальная защита у сисоников была, это карты ебанутые, как КЗ уже жрут киловаты. >>557600 Опять 7B превозносят, Господи, дай им видях 70B трейнить! >>557656 >Сука не удивлюсь если они еще все нахуй поломают и придется переписывать то что есть. Это ещё что. Вот если они под новый интерфейс новый формат моделей подвезут... >>557668 >На qt блять пусть делают. Самые уёбищные шрифты среди всех фреймворков гуя.
>>557668 > веб-интерфейс может целый гб врама сожрать Оно всеравно выгрузится. Есть хорошее по многим пунктам gradio, под которое и костыли и всякое очень комфортно пилить как и в целом делать разработку. И главное - работает вообще везде, хоть на калькуляторе, хоть на спейсе. Но похуй, пусть играются в оптимизацию в ущерб удобству, вдруг потом из этого что-то выйдет. >>557675 > Нормальная защита у сисоников была, это карты ебанутые, как КЗ уже жрут киловаты. Нет там киловатт, они триггерились не на пиковые значения а на скорость роста потребления. А их припезднутая агрессивная обратная связь только усугубляла броски тока. После релиза амперов была норм статья где мужик заморочился и прореверсинженирил их блоки все четко пояснив. Нахуярили ненужной ерунды чтобы в обзорах васяны показали что те "превосходят нужные спецификации по скоростям", хотя вместо практической пользы только вред. Отдельный рофл в том, что они же эту платформу потом другим продавали без фиксов, и даже сейчас можно найти довольно свежие бп с подобными болезнями. Нахуй нахуй таких "именитых производителей". > Вот если они под новый интерфейс новый формат моделей подвезут В голос проиграл, жизненно.
>>557681 >>557688 Всё ещё лучше пигмы, да. >>557682 >они триггерились не на пиковые значения а на скорость роста потребления Всё правильно сделали. Говорю же, почти КЗ. И это всё не потому, что я владелец титанового сисоника, совсем нет! Впрочем да, ты правильно указал, новые ревизии уже ухудшили.
>>557689 > Говорю же, почти КЗ Есть мнение, видеокарта могла потреблять мгновенными пиковыми скачками, где сила тога на протяжении 1мс больше заявленной, а при этом средняя сила тока попадает в заявленную. Эх, проверить бы осциллографом.
>>557689 Не почти кз а скачек потребления из-за быстрой работы врм, которая как раз и позволяет так сильно снижать напругу андервольтингом сохраняя стабильность в прерывистых нагрузках. И причем чуть ли не половина из этого скачка обуславливалось чрезмерно агрессивно настроенной обратной связью. А то ведь блогиры потестируют и не смогут сказать то что здесь просадка в момент подключения нагрузки на целых 75мВ меньше, вот какой он хороший! > новые ревизии уже ухудшили Убрали излишества которые только мешали, не давай какого-то полезного эффекта. От прогаров это не поможет, тут только местный предохранитель ибо запаса энергии в конеднсаторах всех потреблителей хватит чтобы делать дело, для чего еще?
>>557682 > хорошее по многим пунктам gradio Но есть одно очень большое нехорошее - у него нет поддержки динамического гуя. Там нельзя просто так в динамике добавить какой-то виджет на страницу без рестарта всего gradio, разрабы предлагают скрывать куски интерфейса и по необходимости показывать. А когда им на гитхабе сказали что это какой-то пиздец и антипаттерн, они ответили "подумаем" и уже больше года думают. Лично мне очень сильно это говно не нравится, у нас 2023 год же, блять, а не 2003.
>>557721 > Хочется пихнуть сорцы и шо б работало. Нужны 24врама, в принципе и 20 хватит даже амдшной карточки. Увы, много весит все это, можно скачать Q8 жоры и пускать его, там отличия действительно под лупой только искать.
>>557811 > LIAN LI PC-O11 Dynamic Да ладно, он же здоровенный и на его основе делали двухкарточные сборки, правда с поворотом основной. Типа такой штуки https://www.ozon.ru/product/712627042/ с райзером закажи, офк дешевле поискать, в фекал-дизайн мешифай-s влезают. Просто для тестов только можно наколхозить что-нибудь временное.
>>557711 Потрогал, похоже это новый топ 7В. Она очень долинные ответы ебашит, надо семплингом придушивать. А так очень годно, в РП 10 ответов из 10 адекватные, впервые такое вижу вообще. Рандом ответов очень большой. По сое заебись, тест на агрессию прошла, boundaries нет.
Есть ли смысл придерживаться промта какой в моделе указан "Human: {prompt} Assistant:" ? Или можно всегда использовать стандартный? \n### Instruction:\n{prompt}\n### Response:\n
>>557864 Заебись, спасибо. 11b тоже пощупал, таких точных оценок не дам, но тесты неплохо проходит. Ну и да, подробно отвечает в отличии от обычных 7b, что уже сдвигает восприятие от ее ответов в другую лигу.
>>557762 >Ты ждёшь чуда? Я уверен что максимум возможностей 7b еще не достигнут, поэтому не странно ожидать от более новых сеток все возрастающего качества
>>557877 > подробно отвечает в отличии от обычных 7b Её тренировали с reinforcement learning, а reward-модель тренилась на GPT4. Поэтому реварды сдвинули стиль ответов к стилю гопоты. Скоро в полную развернут DQN и пойдёт ёбка ещё сильнее, гопоте придётся поторапливаться со своей реализацией Q-learning.
Если у моддели такой промпт, то ее для инструкта будет трудно использовать? Т.е. сбудет вечное зацикливание?
-p "## {{{{charname}}}}:\n- You're "{{{{charname}}}}" in this never-ending roleplay with "{{{{user}}}}".\n### Input:\n{prompt}\n\n### Response:\n(OOC) Understood. I will take this info into account for the roleplay. (end OOC)\n\n### New Roleplay:\n### Instruction:\n#### {{{{char}}}}:\nwhatever the char says, this is the chat history\n#### {{{{user}}}}:\nwhatever the user says, this is the chat history\n... repeated some number of times ...\n### Response 2 paragraphs, engaging, natural, authentic, descriptive, creative):\n#### {{{{char}}}}:"
Мне кажется, что в последнее время ллм прямо конкретно деградировали. Несколько тредов назад я тут писал и постил свои попытки добиться от нейронок корректных рассуждений в области алгебры, конкретно на примере первой теоремы об изоморфизме. Без всякого хардкора, довольно тривиальные рассуждения, но требующие некоей логики. Так вот, более-менее нормальных ответов, а не пука в лужу удалось добиться только от LLaMA2-70B-Chat, и то направляя рассуждения в нужную сторону. Сейчас попробовал Уи-34б, и что-то все совсем печально, даже хуже сбергигачата. Хотя саму теорему оно упоминает, но применить к конкретному примеру не может. Даже фразы типа "попробуй применить к предыдущему рассуждению то-то" не вывозит, вторые ламы такое хорошо могли из-за каких-то новых аттеншенов. Короче, мне кажется, что сейчас ллм просто целенаправленно надрачивают на что-то очень конкретное чтобы получить скоры побольше на конкретных бенчмарках, за пределами чего они просто превращаются в тыкву.
>>558047 Ну хотя бы потому что не у всех есть видеокарта нормальная. А 7b нормально на процессоре работает.А то что более большие модели лучше не делает 7b плохими.
>>558054 >А 7b нормально на процессоре работает. Мы тут гоняли на проце, получили 1т/с на среднесборках и до 5 на топовых, но какой еблан будет с топовым процем сидеть без видяхи?
>>558074 На i5 10400 в районе 3-5 т\с на ку 5. Хотя при наборе контекста скорость падает еще немного. Может ты c 13b перепутал? там действительно скорость в районе 0.5-1.5 токена.
>>558086 > реальность ты знаешь В реальности q8 и fp16 выдают одинаковые ответы, q5 может пару слов на синонимы заменить, другие ответы начинает только q4_K_S выдавать.
>>558093 > токенов Это отклонение вероятностей всех токенов, а не выходных токенов. Я же говорю "в реальности" при сравнении реальных ответов, а не в манятестах.
>>558132 Это шанс потерять токен с наивысшей вероятностью из 5% самых топовых. То есть это увеличивающийся шанс на потерю правильного и наиболее вероятного токена в любой момент генерации на каждом кванте.
>>558134 > Это шанс потерять токен с наивысшей вероятностью из 5% самых топовых. Чел, в том манятесте считают общее отклонение вероятностей. К реальному выбору токена оно не имеет никакого отношения. Это можно рассматривать только как математические потери от квантования, по ним возможно распределение отклонения будет адекватнее между квантами, но использовать абсолютные значения из теста - шиза.
>>558140 Шиза тут у тебя. Тебе дают хоть какие то тесты ты заявляешь что они манятесты и хуита. Я с вас шизиков угораю, им говоришь что кванты портят модель - ряяя докажи где тесты ты шизик. Окей, им даешь тесты - ряяя это манятесты и вобще тесты не тесты. Ну ок, похуй. Проходи мимо, это тесты для шизиков, хули там.
>>557921 Что за странный формат вообще? А так структура напоминает симплпрокси над которым странные люди надругались. В принципе должно работать, но может действительно случиться запрограммированный луп. >>558031 Скорее всего скиллишью. Не смысле что хочу тебя обидеть, а просто не так доносишь до ллм что хочешь от нее и какова ее задача, об этом же и свидетельствует что только чат версия какая-то тебя поняла. Рассуждать по стэму оно может относительно неплохо, офк с учетом галюнов (этим и гопота с клодой страдают), строить логичные теории и делать выводы с обоснованием - тоже вполне. >>558086 > По скорам викитеста? > давно выебали GPT4 Чет в голосину >>558093 > потеря токенов идет >>558094 > KL divergence Цифр притащили а как трактовать их не понимают. Довольно удобно взять малые значения, которые будут откинуты даже мягким семплингом, а потом отнормировавшись на них пугать страшными ужасными потерями.
>>558143 > просишь пруфы что квантование портит качество генерации текста > пук-мням ну вот держи левые тесты, лучше чем ничего Нет, не лучше, не может быть лучше или хуже когда тесты тестируют что-то другое. После такого нужны новые тесты чтоб определить как всё это коррелирует с изначальной задачей. Движение Луны тоже коррелирует с какими-то процессами, но мы же не определяем качество генераций по её фазе.
>>558181 Там вопросы не важны, можешь хоть посты из треда кидать и просить продолжить. Суть тут в том, чтобы оценить, насколько вероятности токенов квантованных моделей отличаются от оригинальной fp16. У тебя есть возможность запустить полную модель? Умеешь выводить вероятности токенов? Тогда вперёд, надевай детерменистичные настройки и дерзай.
>>558203 Как появится время посмотрю, есть ли в дефолтном апи запрос вероятностей токенов, если запилено то тут нет сложностей. Но врядли получится что-то отличающееся от того поста, вероятные токены останутся а поплывут только с наименьшей. Нужно как-то отловить влияние этого эффекта на качество ответов, или же развилки где они могут меняться и уже здесь оценить что происходит с вероятностью ошибиться, например. Как вариант просто брутфорс загадок, вопросов по тексту и подобного со сбором статистики верных ответов в разных условиях и выставлением баллов.
>>558313 Добейся теперь правильного ответа с этим. Представь себе место в котором время течет иначе относительно внешнего мира. За 8640 часов в этом месте, в реальном мире проходит всего 720 часов. Сколько пройдет времени в этом особом месте за 8 часов времени во внешнем мире.
>>558415 >GGUF Уже не такая. В общем вот ещё 4 ролла. Шизит даже чаще, чем отвечает правильно, впрочем правильный вариант роллить до тепловой смерти не нужно.
Настроил себе таки говно это локальное, вроде бы нормальный полет. После тестов стало понятно что для задач не связанных с нейросетью могу в памяти постоянно 7b модель катать без проблем. Хочу бомжам через Kobold Horde помогать. Какую модельку поставить гонять?
Успешно запустил обучение лоры на модели TheBloke_guanaco-7B-HF на проце amd. Она даже запускается и даже помнит дата сет, если скорость завысить и увеличить размерность, ибо я просто в txt пару фраз накидал из головы. Но как понять, какой формат дата сета мне нужен? То есть его разметка, ибо разметку оно запоминает и пишет что-то вроде "gpt: gpt-2.1: human: assistant: Что такое Двач? human: gpt-4.1: Что такое Двач?" В идеале хотел бы от вас получить совет, на какой модели HF, которые работают через Transformers, можно обучать в формате чата двух людей и с какой разметкой. То есть создать персонажа путем обучения. >>557775 - кун
>>557811 Как? 8 слотов же. Ни понил. Узкий что ли?
———
Про скороть охуел, меня один день не было, а у вас 7B 1 токен выдают, когда 70B стока выдают без напряга на ddr5.
———
Просто старлинг интересно, будем пробовать.
Но мне уже хочется 13B таких же. Типа, я понимаю, что 7B обучать проще, но если они настока хороши становятся, то… Надеюсь и Мистраль 13~40 появится, и старлинг и вот это вот все. Где мои МиСтрарлинг 20B
>>558263 > апи запрос вероятностей токенов Ну да, там прямо для этого есть возможность запроса. Только с мистралькой оберка HF жоры совсем не дружит, выдает полную ахинею что делает сравнение бессмысленным. С бывшей работает, а там нужно или другую модель брать или уже лламакрест-сервер использовать и уже к нему обращаться. Предлагайте модельку что интересна, в фп16 поместится максимум 13б. И промты для чего-то длинного. Из интереса загнал емл из датасета ллимы на 8к токкенов, пик4 выдает, ну такое. Нужно что-то осмысленное.
Поясните про лору, из шапки не понял. Что от неё ожидать? Тут писали мол она может быть альтернативой лорбуку. Главная сетка будет лучше понимать нужную вселенную? Но немного не представляю каким образом это вытекает из принципа работы. Хватит ли для её тренировки лорбука + условной вики?
>>558792 >>558263 >>558203 Так как выводить вероятности токенов? Это можно сделать стандартными средствами, без дополнительных либ типа Inseq? Где хоть почитать это можно, я уже с полгода ищу такую возможность.
Требуется помощь. Есть видеокарта с 8 гигами памяти. Есть KoboldCPP, Ooba(text-generation-webui) и Faraday.
KoboldCPP запускает 13b модель с 1.6 t/s Ooba запускает туже модель с теми же настройками на 2.5 t/s Faraday запускает 20b модели на 3 t/s, KoboldCPP и Ooba запускают 20b с меньше чем 1 t/s при любых настройках.
>>558923 У Кобольда и Убы точно не те же настройки, насколько я помню, Кобольд всегда использует ускорение на видяхе, хотя бы чтение промпта. Выходит, и фарадай мутит что-то. Так что, хз-хз. Ну и версии софта могут быть разные у каждой программы.
>>558893 > Можно пример кода? Чел, трансформеры возвращают тензор с вероятностями для каждого токена в контексте + один новый, там вероятности для всех токенов в словаре. Если в словаре 32к токенов, то на 1000 контеста получишь 32кк вероятностей.
>>558923 У меня вот нет видеокарты с 8 гигабайтами. Всего лишь жалкая 1650 с 4 Поэтому я ей не пользуюсь Проц i5 10400 20b модель q4 Запускал в oobabooga Волшебный фарадей попробовать не получилось, у них похоже нет версии под линукс. Output generated in 9.26 seconds (1.84 tokens/s, 17 tokens, context 116, seed 1415650994)
>>558933 Тухлоядра интела? И в угабуге ядра на 0 поставь, она сама определит сколько нужно. На кобальде так же ставь не 8 а меньше, 4-6 не больше Если поставить все физические ядра то только тормозить будет
>>559014 Странная хуйня, ну на крайний случай попробуй llama.cpp с разными настройками потыкать, параметры самой лучшей скорости уже в остальных вбивай
>>559033 Скажи ему что он оскорбил тебя своей некомпетентностью и меньшее что он может сделать, что бы загладить свою вину это прислать тебе карту абсолютно бесплатно.
>>558838 > Это можно сделать стандартными средствами Это можно посмотреть прямо в интерфейсе убабуги на вкладке дефолт полистать вариации полей справа, или почитать описание апи. В лламасервере Жоры тоже есть. >>558923 Настрой выгрузки слоев и станет быстрее. >>559031 Ну бле. Попробуй тогда перезаказать если с ценой все ок будет.
>>559046 >Это можно посмотреть прямо в интерфейсе убабуги Как-то криво работает. Выбрал пресет детерменистик, а оно всё равно вероятности каждый раз меняет. Впрочем, кажется, это особый прикол у экслламы 2.
>>559053 Галочку use samplers если снять и понажимать - ничего не меняется, все постоянное. Тот самый детерменистик пресет не делает вероятности фиксированными если что. >>559054 Ахуенный совет рыться в этой херне, послойная обработка, кринжовый тест зачатков ерп, сношение мистралей, независим ли Тайвань? и подобное, и среди этого мусора
>>559062 >Галочку use samplers если снять и понажимать - ничего не меняется, все постоянное. У меня поставить надо было. Ёбанные макаки, ничего нормально не работает. >>559062 >контекст большой Через ту же жропу. Впрочем ждём квантов, исправлений кода герганова и через недельку небось удастся запустить на ЦП.
>>559053 А не, на экслламе тряска вероятностей в долях процентов от конкретной величины присутствует. Если в ней вдруг есть xformers или подобные оптимизации то детерминизма не добиться, или HF обертка неаккуратная. С другой стороны флуктуации столь малы что их влияния никогда не отследить за семплингом. > У меня поставить надо было Ты проверь то чтобы они менялись, а то при снятой галочке do_samle в параметрах и поставленный Use samplers они могут просто не обновляться. >>559064 > Через ту же жропу. Увы, иначе не научились.
Мурзилла там новую утилиту выпустилаАноним30/11/23 Чтв 17:33:06#393№559089
>Mozilla представила первый релиз инструмента llamafile - https://github.com/Mozilla-Ocho/llamafile , позволяющего упаковать веса большой языковой модели (LLM) в исполняемый файл, который без установки можно запустить практически на любой современной платформе, причём ещё и с поддержкой GPU-ускорения в большинстве случаев. Это упрощает дистрибуцию и запуск моделей на ПК и серверах.
>llamafile распространяется под лицензией Apache 2.0 и использует открытые инструменты llama.cpp и Cosmopolitan Libc. Утилита принимает GGUF-файл с весами модели, упаковывает его и отдаёт унифицированный бинарный файл, который запускается в macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD. Готовый файл предоставляет либо интерфейс командной строки, либо запускает веб-сервер с интерфейсом чат-бота.
>>559014 >Faraday.dev Крайне любопытная штука. Работает похоже на Llama.cpp, но во первых быстрее на 1-2 токена даже на процессоре, во вторых практически мгновенно пережевывает контекст, вместо нескольких минут ожидания в обычной ламе, и в третьих поддерживает CLBlast, как и кобольд. Бесит только "юзерфрендли" интерфейс и отсутствие нормальных настроек. Я нихуя хотя менеджер моделей годный Если бы в неё запилили API для таверны, цены бы этой штуке не было.
>>559070 > на экслламе тряска вероятностей в долях процентов от конкретной величины присутствует Только на квантованных, fp16 на месте стоит >>559089 Эх бля, в начале показалось что что-то новое интересное, а тут просто запаковка llamacpp. С одной стороны все в одном и готово к запуску, с другой не учитывает частые обновления софтины и для этого все кучу придется перекачивать. И апи бы лучше поднимало. >>559099 > /singularity/ лол > https://www.reddit.com/r/LocalLLaMA/comments/186qq92/using_mistral_openorca_to_create_a_knowledge/ А вот эта хотябы выглядит интересно, лойс.
Почему в последние 2-3 месяца где-то 95% моделей стали супер-морализаторскими? У разблокированной вакуны можно было даже рецепт бомбы (для майнкрафта) спросить. А сейчас в каждое сообщение которое хоть как-то касается объективной реальности, сетка тыщу раз напомнит "however...". И сука чем дольше общаешься тем бесполезнее эта ветка (диалога) становится. Кто виноват?
>>559190 Почитай про выравнивание ИИ, alighment Вот эти пидоры портят все сетки, делая их соевыми, беззубыми и зацензуренными А еще из-за них сетки выебываются не выполняя приказы которые по их мнению опасны, ну и положительный биас тоже изза этого Короче портят жизнь всем
Заметил что в oobabooga даже если слои не грузить в видеокарту, то контекст все равно грузится в память видеокарты если не поставить галку cpu в настройках модели. Как так? Ведь нагрузки на видеокарту нет во время работы, а контекс все равно в память видеокарты загружается.
>>559338 >starling Хорошо наливает объёма, но это даже минус, ибо остановится он не может. Как будто стоп токен сломан, и он пишет по пять раз "В заключении".
Ответы слишком короткие. Параметры на пике, В карте прописал: {{char}} must give moderately long responses no less than two paragraphs. {{char}} must never give short responses. Все равно короткие ответы. ХЕЛП.
>>559299 > Ведь нагрузки на видеокарту нет во время работы Она будет только в короткий момент обработки контекста и небольшая >>559387 А куда семплеры делись, почему так мало? Температура высока, но при этом вероятности поотсекал, странный выбор. Если хочешь чтобы говорило долго любой ценой - ban eos token, вот только с такими настройками не поможет ибо все отсекать будет.
>>559380 Само собой я про дефолт, и сетку можно заставить отвечать ответами любой длины. Но она одна, кто мне на простой вопрос наливает столько воды, рассматривая историю вплоть до каменного века и рисуя блядь таблички, лол (ответ само собой не верный).
>>559391 Потому что я на lama.ccp? Пик1 Если бы на lama.ccp_HF то был бы пик два если я правильно понял как эта прога работает. >Температура высока, но при этом вероятности поотсекал, странный выбор. Я ньюфаг я вообще не алло. Помогите маладому.
>>559395 Вот это ей дай, сетка умная должна понять как использовать {{char}} will try to answer in detail if the situation requires it.
А мне например понравились не ужатые в край ответы, сетка свободно меняет размеры ответа что мне нравится. Из гермеса с трудом выдавливаешь ответы на несколько абзацев
>>559392 Для рп - таверна. В убе вкладка чат больше для тестов подходит, но default-notepad вполне себе удобны, но это для задач помимо рп. >>559399 > Потому что я на lama.ccp? Пик1 Оу, их там действительно мало, хотя вроде Жора хотябы min_P вводил. > Помогите маладому. Ты укажи что хочешь делать то для начала, а то может и норм настройки, хз.
>>559409 >Для рп - таверна. В убе вкладка чат больше для тестов подходит, но default-notepad вполне себе удобны, но это для задач помимо рп. Не я типа не против пересесть но чем таберна лучше? Без иронии спрашиваю, я на ней просто не работал.
>Оу, их там действительно мало, хотя вроде Жора хотябы min_P вводил. Так ну я разобрался как запустить на лама_ХФ надо было токенайзер скачать. Теперь пик это мои настройки. Куда тут жать чтобы получилось РП? >Ты укажи что хочешь делать то для начала, а то может и норм настройки, хз. РП хочу. А еще хочу понять что все эти буковки обозначают вообще.
>>559417 > но чем таберна лучше? Интерфейс удобнее и более красивый, есть свайпы - рероллы ответов с сохранением старых чтобы можно было выбрать, возможность сделать отдельную ветку чата с ее копией, базированные вещи типа хорошего инстракт промта и широкой каштомизации (кстати это какбы основа для длинных и содержательных ответов особенно на мелких моделей), удобный или автоматизированный суммарайз. Плюс куча дополнительных фишек вплоть до эмоций персонажа, но они здесь не столь существенны пока. > РП хочу. Simple-1 в пресетах твой бро. Если HF загрузишь, то можешь убрать topP topK и вместо него выставить min_P в районе 0.05. > что все эти буковки обозначают вообще На обниморде есть пояснение.
>>559427 >есть свайпы - рероллы ответов с сохранением старых чтобы можно было выбрать, возможность сделать отдельную ветку чата с ее копией Вот это тема. Спасибо. Но oobabooga мне нравится дизайном. В шапке написанно >поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Не знаешь как это сделать? Или гайд там какой.
>Simple-1 в пресетах твой бро. Если HF загрузишь, то можешь убрать topP topK и вместо него выставить min_P в районе 0.05. Чекну спс.
>>559430 От с этого места поподробнее. Я как понял таверна это просто UI а под ним работает oobabooga ?
>>559434 >Не знаешь как это сделать? Вставь первое во второе и нажми коннект. >>559434 >От с этого места поподробнее. Я как понял таверна это просто UI а под ним работает oobabooga ? Da.
>>559430 Справедливо! >>559434 Таверна - просто фронт, который может подключаться к api хабабубы. По сути лишь модный интерфейс для рп. > Не знаешь как это сделать? Что сделать? > Или гайд там какой. Ну ща, работа по 16 часов в сутки закончится, может будет что-то.
>>559452 >Что сделать? Подключить хубабубу к таберне. Вон анон кинул пик. Там походу несложно ща разберусь. Спасибо за ответы всем. Ебать я получается на бекэнде сидел. Ну зато тру нейросеть экспириенс.
>>559458 кобальд еще есть как бэк, на процессорах крутить. Да и на нем одном сидеть можно без таверны, и весит меньше. Но конечно для рп кобальд можно подключить к таверне так же как угабугу
>>559491 >простенький фронтэнд Разве что по сравнению с llama.cpp сервером хех Там можно спокойно сидеть даже в рп, настроек куча Но да, если хочется больше удобства и плагинов то лучше в таверне
>>559503 Отмена надо было подключаться не к адресу угабуги а к http://localhost:5000/ Если почекать документацию можно решить проблему. Непривычно даже как-то.
>>559496 > Там можно спокойно сидеть даже в рп, настроек куча Не, уровень слишком разный, в убе хотябы дополнительный интерфейс для "работы" есть, а так это что-то уровня "можно спокойно жить в коробке из под холодильника". >>559510 > Если почекать документацию можно решить проблему. Непривычно даже как-то. Оно обычно так много где, даже в кривом динамически развивающимся опенсорсе.
>>559503 Бля окей снова вернулся к этой проблеме. Куда вписывать командные аргументы? Без потока неудобно пиздец. Сидишь ждешь как еблан. А так прикольная штука эта ваша таверна.
>>559540 Так это и есть еррор при попытке его включить. Анон я туповат но не настолько. Я не понимаю куда вписывать этот аргумент. В батнике бубы пиздец сколько всего намешано.
>>559900 Эээ ну я все варианты попробую. У меня к апи то подключается и генерирует, но я хочу стриминг включить чтобы сообщение у меня на глазах писалось.
>>559944 > комбайн-васянка из иксформерсов/флеш-аттеншена/квантования/тритона, которые по какой-то причине самому нельзя поставить > сравнение с тренировкой на fp16 и неназванном оптимизаторе Ясно. >>559953 А можно выключить вообще всё кроме миростата v2/температуры и ссать на головы реддитовцам. Работать будет лучше всех этих васянопресетов, сделанных по гайдам. Дроч параметров семплинга имеет смысл исключительно на глаз под каждую конкретную модель. Всё остальное кончается высерами типа "%модельнейм% сломана, ответы говно, а вот смотрите как заебись на моей любимой модельке".
>>559957 >В чем смысл вообще такого треша? Автор семплера Min-P рекламирует семплер Min-P. >>559961 >А можно выключить вообще всё кроме миростата v2/температуры На что миростат ставишь?
>>559963 > Автор семплера Min-P рекламирует семплер Min-P. Ай лол, объективно его пример - лишь сраный черрипик ультрарандомайзера, ведь никакая отсечка не спасет от перешафленных токкенов в начале. Сам смысл min_P в отсечке по соотношению вероятностей, но если вероятностям пиздец то он никак от них не поможет. Прувмивронг как говорится, какая-то секта и мракобесие полнейшее с этим суперсемплером.
Тут все все знают но никто статьи не пишет и знаниями не делится. А реддиторы хотя бы пытаются и несут знания в массы что лишь ускорит прогресс поскольку больше людей будут иметь хоть какое то представление что все эти ползунки значат. Тот редкий случай когда "сперва добейся" реально имеет место быть, сначала сами хоть один гайд напишите а не подбирайте за форчонком обьедки.
>>559988 > Тот редкий случай когда "сперва добейся" Ты в твитор-активистов случаем не веришь там? Именно что нужно добиться и иметь компетенцию, а не срать домыслами слепо веря и вкладывая эмоции, или специально вводя в заблуждение. Здесь обсуждение а не собрание "как эффективнее разжевать да скормить все хлебушам, склонив их на свою сторону".
>>559970 >ведь никакая отсечка не спасет от перешафленных токкенов в начале По крайней мере текст выглядит связным даже с пережаркой четвёртой температурой. >какая-то секта и мракобесие полнейшее с этим суперсемплером. Да не, просто один чел его продвигает. От остальных я дальше комментариев под постами автора семплера ничего не видел. >>559991 >Именно что нужно добиться Так его семплер интегрирован во всякие лламацп и кобольды. А чего добился ты?
>>559997 Треды прочитай, тыкай в то что не тест загадок на 7б и с высокой долей вероятности попадешь. >>559998 > По крайней мере текст выглядит связным даже с пережаркой четвёртой температурой. Все так, но это искусственная херня с невероятной удачей, а рекомендуемые им настройки тоже довольно спорно. Сначала вжарят температуру в стоке и поменяют порядок, а потом жалуются что модель производит неадекватные ответы и трусы по 3 раза снимает, лол. >>560009 Именно к ней и претензии, а > в таких ситуациях особая тема. Можно привести анекдот про японскую пилу у уральских лесорубов.
>>560015 >Именно к ней и претензии По моему там ясно сказано что это проверка очередности включения семплеров, и даже для хлебушков объяснена работа температуры на примере дико завышенной температуры.
И я согласен с автором в том что на температуре 1-1.5 сидеть интереснее чем на 0.7. По крайней мере с мин-п который легко настраивается сидится там неплохо, сетка не шизит, но пишет креативней привычного. Может быть того же варианта можно добиться другими семплерами, но нахуй мне забивать себе голову сложными настройками если есть одна простая как лом. Нахуя усложнять себе жизнь? Теперь нужны только 3 настройки - температура, мин-п и повторы, всё.
>>560021 > на температуре 1-1.5 сидеть интереснее Уточни хоть условия и подробнее опиши. Хоть с каким семплером, повышенная температура отдает шизой, пусть и когерентность текста не меняется. Литерально у модели начинается синдром туретта, и она вместо аккуратного плавного повествования с четким развитием начинает тащить какие-то внезапности или странности, а потом уже их обыгрывая. Местами экспириенс может и интересный, но крайне странная тема. Может на моделях что по дефолту монотонные и однообразные оно и норм, но не на нормальных. >>560024 Вот эта вот штука наиболее перспективная, и не эта херь со спорами как токены отсекать. Ну и помимо температуры другие операции со смещением вероятностей токенов используя другие запросы или дополнительную модель. Что-то все заглохло в этом направлении.
>>560028 >Уточни хоть условия и подробнее опиши. Недавно кидал сюда примеры когда игрался с длинным чатом гермеса где еще технологии обсуждались с ботом. Кроме небольшого залипания из-за 1 на повторах там ничего шизойдного не было, это была температура 1.5, мин-п 0.1 и сетка совершенно адекватно работала выдавая результат который не ожидаешь от 7b Собственно мне лично никакие доказательства удобности температуры и мин-п не нужны, я всегда настрою если что то не понравится.
>Что-то все заглохло в этом направлении. Где то была там же на реддите пост об этом с ссылкой на коболд с модификацией под динамическую температуру, так что наверное ждут слияния
>>559988 >Тот редкий случай когда "сперва добейся" реально имеет место быть, сначала сами хоть один гайд напишите а не подбирайте за форчонком обьедки.
Я могу прям сейчас написать гайд о том что при температуре 1.34 и топ Р 0.60 дрочить вообще охуенно потому что ЯСКОЗАЛ. Даже приведу какие-то рандомные примеры.
>>560028 >Хоть с каким семплером, повышенная температура отдает шизой Температура в единицу - это те вероятности, которые получились из датасета, так что текст, сгенеренный при единице, должен бы быть связным. Для ролеплея температура 0.7 означает, что если в датасете, скажем, в определённой NSFW сцене c 60% встречались задолбавшие shivers down the spine, то модель их будет пикать с вероятностью процентов 80 (беру с потолка, хрен знает, какая там точно формула). Или дефолтный пример для температуры из гугла: если перс говорит о своём домашнем животном, а в датасете у подавляющего большинства питомцы сплошь кошки и собаки, то что либо другое при низкой температуре не сгенерится просто никогда (если нет дополнительного промпта на эту тему в карточке перса). Примеры, естественно, не совсем корректны, потому что в реальности речь идёт о токенах, но энивей. Поэтому имхо значения немногим выше единицы для ролеплея разумны. Другое дело, что прежде, чем перемешивать вероятности, я всё-таки отрезал бы совсем дерьмовые токены каким-нибудь topP 0.95. Ну и от модели зависит, да. Ответы мелких шизоидных душевных, типа Синатры РП, гораздо больше мне нравятся при температуре 1.1-1.15 и именно с применением температуры до основной отсечки токенов.
Ебаный в рот этого персонажа. Написал пик1 в карточку, а чар все еще в конце каждого предложения пишет за меня. Мб этор из-за параметров семплера? Они на пик2.
>>560138 > Мб этор из-за параметров семплера? Если только там Ban EOS token стоит. Настройки таверны по стоп фразам покажи, системный промт и карточку. Бывает в последней слишком много дичи написано и модели так реагируют. > Написал пик1 в карточку Зря, ведь персонаж никогда не говорит за юзера. За юзера говорит юзер, ллм заботливо пишет _username_: перед дальнейшей репликой. Писать это нужно в системном промте и в совсем другой формулировке, типа "твой ответ дожен содержать только ответ персонажа, никогда не пиши ответ за юзера".
>>560164 Это соевая модель-психотерапевт или чет такое, там даже автор предупреждал мол не для кума или чего то такого Сидеть на ней особый вид извращения по моему
>>560047 Ну давай напиши, даже если хуйня. Кто то душный придет, докопается, диспрувнет на практике, в ответ приведет хорошие аргументы и в результате мы придем к каким то реальным новым открытиям или укрепим существующие реальные знания о том как это все работает. В споре и дискуссиях рождаются новые открытия и углубляется познание, когда все сидят пердят тихо по своим норам ничего не рождается и знания не распространяются.
>>560261 Места нету, где то там обещалась новая шапка но посмотрим Угабуга для запуска с видимокарты, GPTQ иди exl2 расширение, брать только размеры меньше чем врам, то есть если карта 8 гигов то только 7b сетка.
>>560279 >где то там обещалась новая шапка Ага. Но ОП долбоёб, как всегда сначала наобещал, а потом ушёл импланты ставить, поэтому проебал прошлые выходные. На эти выходные точно сделаю.
Осторожно, кринж. Максимальный профан в этом всём, хочу, чтобы нейросеть генерировала тексты нормально, а не обрывая их на полуслове. Генерю через колаб, все настройки по умолчанию (как и выбранная модель). Что нужно изменить, чтобы добиться увеличения лимита?
>>561521 Ну во первых просто максимум токенов на ответ повысь лол. Нажми континью чтобы дальше генерила. Забань eos токен на крайний случай. У тебя именно прям слова обрываются или просто 2 предложения и сухой текст.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде
Предыдущие треды тонут здесь: