24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №46 /llama/
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Наверно надо было спрашивать в \пр\, ну да ладно. В общем. Ситуация такова. Есть огромная база вопрос-ответ. И мне нужно прикрутить к ней бота. Вот пишут боту вопрос какой то. Он вычленяет оттуда контекст и ищет этот контекст в базе, в разделе вопросов, а затем выдает ответ. Как это проще всего сделать?
>>676460 >Тупой наверно вопрос. Уровня троллинга, потому что вопрос и ответ на него лежат в одной строчке БД. Поэтому это, вместе с вопросом пользователя, будет добавлено в контекст LLM вместе с инструкцией.
>>676483 >Т.е. вопрос и ответ кодируются вместе? Они лежат вместе в БД, вектор строится только для вопроса, так как поиск идёт по вопросу. Хотя конечно можно делать вектора и по ответам, но ХЗ насколько они будут актуальны.
>model training w/ GaLore + Transformers for SOTA results on consumer-grade hardware >обучение модели с помощью GaLore + transformers для получения SOTA результатов на оборудовании потребительского класса >82.5% less optimizer state memory footprint without performance degradation by expressing the gradient weight matrix as low rank. >На 82,5 % меньше места в памяти состояния оптимизатора без снижения производительности благодаря выражению весовой матрицы градиента в виде матрицы низкого ранга. https://twitter.com/Titus_vK/status/1770422413576089791 Отец знакомого работает в лабе по исследованию технологий ИИ. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи и бежать в тех-магазин за новыми RTX 4090. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...
>>676680 и там ещё обновление темы с Bitnet. https://github.com/microsoft/unilm/blob/master/bitnet/The-Era-of-1-bit-LLMs__Training_Tips_Code_FAQ.pdf >Модели BitNet, похоже, обучаются более "стабильно" из-за более низкой точности, им требуется больше обновлений градиента, чтобы увидеть столько изменений, поэтому скорость обучения должна быть больше, чем у модели с полной точностью, чтобы компенсировать это. >>Кривые потерь значительно улучшаются, когда LR + затухание веса уменьшаются на полпути (они называют это двухэтапным планированием). В моделях с более низкими параметрами разрыв больше. >Они выдвигают гипотезу: "...хотя между 3B-версиями BitNet b1.58 и LLaMA LLM нет заметного разрыва по потерям при проверке и точности в конце задачи, существует небольшая разница в потерях при обучении. Это говорит о том, что 1.58-битные модели могут демонстрировать лучшие возможности обобщения и быть менее склонными к перенасыщению". >4-битный KV-кэш не дает существенной разницы, если она вообще есть, на эталонных оценках, и их 2T 3b все еще немного превосходит модель StableLM с полной точностью на оценках, даже с 4-битным KV-кэшем. >Для обучения по-прежнему требуются градиенты полной точности, поэтому обучение не стало менее затратным по памяти, но они утверждают, что ядра CUDA с низкой точностью могут несколько улучшить эту ситуацию. >Код, предоставляемый для реализации подхода к обучению, достаточно минималистичен.
>>676869 >>676874 Тролишь так? Единственное что можно сделать это привязать к боту досуп собственно в гугл чтобы он гуглил за тебя. Смысла в этом как ты понимаешь никакого, мог бы и сам запрос забить. А сделать поисковик как у гугла немного так сложнее.
>>676886 Нет. Не тролю. Нужен чат, который бы отвечал как человек, но данными из интернета, с уточнениями. Смысл в том, чтобы вся история чата сохранялась и не нужно было открывать браузер и гуглить. Да, знаю можно просто бота такого сделать., мне это не подходит по нескольким причинам, необходимость мессенджера в первую очередь. Нужен типо чат алиса. Модель именно для этого, чтобы небольшая с базовыми разговорными навыками, но информацию черпала онлайн. >>676889 >>676888 Спасибо, посмотрю.
>>676680 Это что, выходит 7б (?) можно вяло но файнтюнить на 24 гиговых? Интересно сколько влезет в 48/96гб. Действительно прорыв. Тот же метод бы для других нейронок применить, коху того же пнуть.
>>676914 ну да, по сути почалось, только доступна всего лишь одна гпу, как сказал анон выше, на двух и более не работает.. пока что. там же на реддите подсчитали что для полной тренировки (или только файнтюна??) нужно ~110 дней нонстопом с rtx 4090.
>>676411 Предварительная работа: 1) при помощи LLM строишь массив ключевых слов 2) при помощи кожаных мешков причёсываешь массив ключевых слов 3) при помощи LLM размечаешь каждый вопрос/ответ ключевыми словами, кладёшь их в БД
При запросе: 1) Просишь LLM сформировать ключевые слова по запросу 2) Дергаешь обычный поиск по ключевым словам в БД 3) Скармливаешь в контекст LLM все найденные в БД вопросы/ответы как справочный материал 4) Просишь LLM серануть ответ
На сегодня это самый предсказуемый вариант, который в принципе можно отлаживать.
>>676417 Вектора сегодня неуправляемые. Если ты не готов файнтюнить embedding модель под свою задачу, то лучше не тратить время и силы. Но надеюсь их приведут в порядок в ближайшее время.
Вопрос по железу. А какое кол-во токенов в секунду обеспечивает максимально низкую задержку для среднего по размеру сообщения (ну допустим 140 символов). Типичный чатинг в телеге. И можно ли вообще настроить чтобы ответ был целиком после формирования, а не прописывался в реалтайм. Разумеется для разных моделей, будет разный результат, ну возьмем 7b и 70b. Есть данные или личный опыт?
>>676967 >А какое кол-во токенов в секунду обеспечивает максимально низкую задержку для среднего по размеру сообщения (ну допустим 140 символов). >А какое кол-во километров в час обеспечивает максимально низкую задержку для пересечения среднего по размеру расстояния (ну допустим 140 метров). Чем больше, тем лучше, очевидно.
>>676967 >чатинг в телеге Алсо добавлю, что в телеге в большинстве случаев не надо уменьшать лаг. Люди психологически лучше принимают сообщение "печатаю" и спустя несколько секунд ответ, чем мгновенную реакцию. У нас в боте вообще специально задержка добавлена.
>>676970 > русский локальный ChatGPT > по факту допинали лорой первую 13в альпаку чтобы по-русски хоть как-то шпрехала Вспоминается мемас про "мам, купи Х! у нас есть Х дома! Х дома: какая-то шляпа". Абсолютно кликбейтный заголовок, как по мне, за такое надо банить и гнать ссаными тряпками подальше от ресурса
>>676999 Да блин в таверне же можно в комнату несколько персонажей посадить и настроить чтобы они автоматом генерили сообщения по таймеру. Будут вечно срать друг другу что-то, думаю со временем там начнется вечная шиза.
А что ничего нового для куминга не появилось? Заходил 2 года назад в тред был LLaMA и сейчас опять по факту только он, может хоть он улучшился или до сих пор та самая первая версия и есть?
>>676967 Во-первых, человек пишет не так уж и быстро, так что формат переписки поддерживают даже процы на моделях 34B размера. 1-1,5 токена/сек — вполне себе переписка в телеге. Норм видяхи выдадут уже гораздо бо́льшую скорость. Во-вторых, ты говоришь о режими стриминга, который, конечно, отключается без проблем.
Из личного опыта, могу предложить, для русского языка, взять command R 35B на одну Tesla P40, скорость будет отличная — просто летать для телеги. Ну или она же на процессоре (лучше DDR5 в двухканале, но пойдет и DDR4 в двухканале или DDR3 в четырехканале) — будет как средне-пишущий человек. Но можно брать 70B на двух теслах — или 7B на проце. Скорость будет в районе 6 токенов/сек, неплохая.
Единственный совет, для малых сообщений на русском я подобрал: "mirostat_mode": 2, // 1 для llama.cpp "mirostat_tau": 1, "mirostat_eta": 0.9, Вроде отвечает лучше.
>>677016 Нифига у тебя с чтением плохо, братиш. Сочувствую. Тут даже хз, че сказать. Ну, вкратце, нет, не первая, а вторая, и не вторая, а мистраль, и не мистраль, а мерджи, и не мерджи, а токсик или дпо мерджи, и не дпо мерджи, а мое дпо мерджи, ну или что-то из раннего. Но если ты ждал революцию, то, прости, веса GPT-5 еще не выложили.
>>676967 Разумеется. Интересует оптимальный вариант и железо под него. Условные 2 секунды на полноценное предложение. >>676968 >>676972 Это да, но это телега, а тут задача уменьшить лаг до уровня тележного общения. Надеюсь объяснил. Сейчас у меня 6-8 токенов секунду (токен не равно слово) и это долго. Вот и хочу узнать какое железо мне нужно, чтобы полноценное предложение в пару секунд получить.
>>677019 Иду по этому гайду: Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
У меня вопрос, если у меня видюха с 4гб, мне процом генерить? или с видюхой даже с 4гб будет быстрее?
>>677018 Я пытаюсь получить ощущение активной переписки с человеком (расщитать). Так как это оптимально. Ключевое слово активной, когда вы здесь и сейчас решаете вопрос. Написал-получил ответ. Понятно с человеком чаще идет режим ленивой переписки: ты написал и отложил телефон, ждешь, тут ты нацелен на получение ответа, чем быстрее тем лучше.
>>677026 Во-первых, ты не сказал, какую модель гоняешь. Во-вторых, ты как-то неадекватно воспринимаешь «лаг уровня тележного общения». Сам ты вряд ли можешь выдать 8 токенов в секунду. Если тебе нужно быстрее — значит тебе надо что-то гораздо быстрее тележного общения. Попробуй засечь, сколько ты печатаешь текст, а потом вставить в Token counter. У меня выходит 3~3,5 токена в секунду при моей печати в 400+ символов в минуту. 8 токенов — это уже 1000 символов в минуту. =) 140 символов при 8 токенах выдается за ~10 секунд. Обычные сообщения могут содержать по 30-40 токенов, это уже 2-3 секунды. Если у тебя дольше — значит дело где-то не в LLM. Математика.
>>677027 Да, как уже сказали, контекст держишь на ней, но слоев выгружаешь 0.
>>676917 > только доступна всего лишь одна гпу, как сказал анон выше, на двух и более не работает.. Ээээ, хуясе ебать. > что для полной тренировки (или только файнтюна??) нужно ~110 дней нонстопом с rtx 4090 Что понимают под полной тренировкой? Просто для файнтюна это слишком долго, для базовой модели слишком быстро(?), интересно. >>676918 > только лоры помещались this
Можно тогда хотябы оценить сколько уйдет на дотрен 13б, например. Не то чтобы перспективно с учетом возможного выхода ллама3, но там ведь тоже будет версия поменьше, там применить наработки.
>>677018 >Но можно брать 70B на двух теслах — или 7B на проце. Скорость будет в районе 6 токенов/сек, неплохая. Уменьшение скорости генерации с увеличением размера промпта наблюдается?
>>677051 Зависит от промпта. =) Для 200-300 токенов несущественное, для карточек на 2500 токенов — безусловно. (точнее, не скорости генерации, а total)
>>677043 Модель не имеет значение. Суть в том, что она выдает на моем железе 6-8 токенов в секунду. По ощущениям это долго. Интуитивно, так как я ничего пока не измерял, просится примерно в 3-4 раза быстрее. Дальше был вопрос, какое железо нужно, чтобы достичь такого результата на 70b как самый пока оптимальный, и 7b как на начальный уровень. :)
>>677053 Ну, вы чушь несете, но ладно. =) RTX 3060 хватит, чтобы гонять 7B модель со скоростью под 22-27 токенов, точнее не скажу. RTX4090 (одна-две штука=) хватит, чтобы гонять 70B (в ужасном или хорошем) кванте со скоростью 35 или 20 соответственно. Проц с DDR5 выдаст, я предполагаю, максимум 15 токенов на 7B модели (пусть меня поправят), я бы предпочел брать 3060 как универсала, ИМХО.
>>677010 >за такое надо банить и гнать ссаными тряпками подальше от ресурса Чел, это Хабр, та ещё помойка с кликбейтом и на месяц устаревшими новостями. >>677023 Купи процессор. >>677053 >какое железо нужно, чтобы достичь такого результата на 70b Или 2х3090, или проф карты. Можешь сторговаться с аноном-перекупом с А100, если он ещё держит ))
>>677052 Просто скинь скрин что печатает жора при обработки большого контекста с нуля, хоть просто тред на вход скопипасти и нажми generate >>677060 > Можешь сторговаться с аноном-перекупом с А100, если он ещё держит Еще рано фиксировать прибыль, лол. Но если надумает по дешману отдать - предложение может быть рассмотрено.
>>677056 Пусть будет так, но в итоге ты почти ответил на мой вопрос:) Т. е 35 т/с это в 5 раз быстрее чем у меня сейчас. Вроде, так как мне проверить негде, это должно быть норм. А где то можно это померить онлайн? Визуально посмотреть? Например задать кол-во т/с и посмотреть сколько он будет его печатать. Заранее вставленный текст допустим?
>>677056 >RTX 3060 хватит, чтобы гонять 7B модель со скоростью под 22-27 токенов, точнее не скажу. я скажу точнее: на 3060 30т/с 7В вот такой квант 8.0bpw-h8-exl2 проверено на разных файнтюнах и мержах мистраля, все что квантовано сильнее будет еще быстрей само собой
>>677052 >(точнее, не скорости генерации, а total) А интересует именно скорость генерации. Лично у меня при заполнении контекстного окна в 8к скорость снижается до 3,4 токенов в секунду (собственно она линейно снижается с увеличением размеров промпта). Если это только у меня так, то оно и ничего - поправим, а если нет, то 6 токенах в секунду речь не может идти. Скорее уж о трёх :)
>>677056 Хуя ваши нвидии гоночные. У меня 7Б модель просто в оперативке ддр4 без юза видеокарты как я понимаю выдает 3,8 токена в секунду, да и это пиздец как нормально, ты даже читать не успеешь с такой скоростью, типо куда вы спешите вообще.
>>677110 >да и это пиздец как нормально, ты даже читать не успеешь с такой скоростью, типо куда вы спешите вообще. Оно как бы да, ответ начинает выводится почти сразу и скорость в 3t/s неплохая, особенно для больших моделей. Вот только разница с 6t/s очень заметна. 6t/s - это уже комфорт.
>>677108 Разобрался, теперь еще вопрос, подскажите пожалуйста а как из режима чата сделать режим истории? что бы я ему тему какую-то задал а он начал историю писать?
>>677077 >>677092 Короч, нашел видос. https://youtube.com/watch?v=z4wPiallZcI Чел на четвертой минуте запускает. Метрики на экране. 7b mistral 102 т/с. , всего 41 токен, ответ выдает за пол секунды. И скажу это было очень быстро. Я бы сказал очень не комфортно.
>>677073 ЕЩЕ И ПОЧТИ? ТЫ гля, який неблагодарный! )
Проверить онлайн — не знаю. Token counter гуглил, проверку скорости не гуглил.
>>677092 Я в начале написал 25-30, но потом решил не рисковать, чтобы не обнадеживать человека лишний раз. =) Поэтому и занизил планочку.
>>677096 Хм? Окей, сейчас проверю, но по идее — не должно. А, ты прав, упала генерация.
>>677110 Да. Там на грани мгновенных ответов. Люди делятся на два типа: 1. Я читаю в стриминг режиме, зачем мне быстрее? 2. Я читаю готовый ответ по диагонали, мне надо сразу. =) Я понимаю обе стороны, поэтому не сильно гонюсь.
Конечно! Начну с того, что для реализации вашей идеи можно воспользоваться технологией LlamaIndex. Она позволяет создавать индексы для больших баз данных и использовать их для поиска контекста и вывода ответов с помощью языковых моделей, таких как Llama 2 или Vicuna.
Сначала необходимо создать индекс для вашей базы данных вопросов и ответов с использованием LlamaIndex. Затем вы можете использовать эту модель для поиска контекста по вопросу пользователя и вывода соответствующего ответа из вашей базы данных.
Важно отметить, что LlamaIndex использует векторное представление данных для поиска контекста, поэтому вопросы и ответы должны быть представлены в виде векторов. Это может быть достигнуто путем преобразования текстовых данных с использованием моделей эмбеддинга, таких как sentence-transformers или Hugging Face's transformers.
После того, как индекс будет создан и ваши данные будут преобразованы в векторное представление, вы сможете использовать LlamaIndex для поиска контекста и вывода ответов. Этот процесс включает в себя два основных шага:
Поиск контекста: вы можете использовать LlamaIndex для поиска контекста по вопросу пользователя. Этот поиск основан на сходстве векторов и позволяет найти наиболее соответствующие контексты из вашей базы данных.
Вывод ответов: после того, как контекст будет найден, вы можете использовать языковую модель (например, Llama 2 или Vicuna) для вывода ответа на основе найденного контекста и вопроса пользователя. Этот шаг может быть выполнен путем обработки контекста и вопроса пользователя как входных данных для языковой модели и получения ответа от нее.
В целом, реализация вашей идеи с использованием LlamaIndex и языковых моделей может быть довольно простой и эффективной. Надеюсь, эта информация поможет вам в вашей работе!
——— А хули, зря что ли 8к контекста жевала 4 минуты. =)
Насколько 4бит мику тупее 5бит? Задачу про козу и капусту еще решает или уже нет? А то меня бесит скорость 1.8 токена в секунду на 5 битке(и это с оффлоадом трети слоев на 4090)
>>677132 >А, ты прав, упала генерация. Ну, утешением нам служит то, что у людей со связкой 4090+3090 скорость генерации выходит не намного выше :) Конечно они могут exl2 использовать и вообще всё могут, но вот c GGUF-моделями примерно в том же положении. До бытовых нейроускорителей доживём, а там видно будет.
Кто знает, почему, когда пытаешься отыгрывать скромнягу, то все боты пытаются тебя выебать в жопу? Может, это как-то аккуратно прописать в карточке, что я не из этих, или хотя бы насиловали другим способом, при этом не ломая бота? Модель mxlewd-l2-20b. Q5_K_M если что
Почему кобольт юзает только 45% проца и около 900-1000МБ оперативки (не видюхи)? Можно ли как то увеличить потребление, что бы быстрее ответы генерились?
>>677218 в шапке написано "то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной." у меня модель 7.5гб весит, а жрет 1гб всего как так то?
>>677146 Не знаю про мику, я мог бы только q2 запустить со скоростью 0,33 токена, потому вот тебе ответ от простой 7б модели capybarahermes-2.5-mistral-7b.Q8_0. По своему можно засчитать за креативность, крестьянин сожрал капусту и перевез волка а капуста была у него в животе как бы и он ее перевез в виде ну жратвы внутри себя вместе с волком.
>>677205 >все боты пытаются тебя выебать в жопу >mxlewd Ну а что ты хотел, модель для кума, она других паттернов и не знает. >>677223 Остальное на видяхе?
>>677306 Ну хз, всё равно ничего умнее я не могу запустить, ебал я по часу ждать ответы. Пока что нейронок умнее мику q2 я не юзал. К тому же тут персонаж хакер всё таки да и думала она долго и сосредоточилась.
>>677309 >всё таки да и думала она долго и сосредоточилась. Чего? Нейронка просто отыграла этот момент, ниче она не думала, тупо сразу начала писать верное решение
>>675841 → >>676372 → >z170 мамку с поддержкой SLI У меня как раз лежит такая - ASUS Z170-A. И даже проц со встройкой для нее есть. Стоит пробовать на ней собрать ультимативную LLM-машину нищука с двумя теслами или я говна поем? Пока единственное что смущает - это 64 макс оперативки, но гугол говорит что можно напердолить флажок --no-mmap и станет заебись. Мнения, советы?
Я кстати заметил что мику 2бит сломана при использовании высокого контекста - 16к, prompt processing падает просто в мясо, делая скорость генерации 0.5-0.7(!) при условии всех слоев на видеокарте(!!!), в то время как 5бит мику с тем же самым контекстом выдает 1.5 токена в секунду при лишь трети слоев на видеокарте.
>>677394 Две теслы = 48 гигов, у тебя 64, проблемы? Я как купил две плашки, так и сижу с 64 гигами, проблемы не чувствую. Занимает все ~55 гигов и норм. Или я не понял, в чем трабл. Может с тремя теслами, чтобы 72 врам? :)
>>677398 Не, я то на 2к гонял для тестового вопроса же, я хз но в чисто оперативке вот так медленно, а видяхи у меня считай нет, я не уверен работает ли она, но она жужжит когда чето считает в ней конечно, хотя мне говорили что рокм на винде не работает с 6700хт. Может она просто херней страдает, в любом случае скорость пиздец, ну надо будет думать о покупке нвидии в ближайшие полтора года.
Кстати, я так и не понял, почему писали про SLI, если тебе надо всего лишь два абы каких слота, и две видяхи. Про требования SLI увидел здесь впервые недавно.
Подозреваю, что можно даже по USB данные гонять, просто задержечка бахнет.
Я либо в глаза ебусь, либо не нашел, есть нормальный гайд по составлению и форматированию ботов для таверны? Я брал карточки с чаба, пробовал разные варианты промтов, но часто сетка просто начинает игнорить что написано в карте персонажа.
Заметил что лучше работает перечисление "thing1" + "Thing2" но в целом всегда сбивается.
>>677432 Я от балды делаю, тестирую, могу по мелочи поменять что-нибудь и потом откатить если что. Часто просто чужих персов изучал и тоже им менял всякое разное. Также как ни странно сама нейросетка миниублюдков неплохо пишет. Сама себя может подредачить, но будет обсераться немного, но от этого оно только живее. А вот как лорбук правильно писать я и сам не знаю, вообще присоединяюсь к вопросу.
Создаешь название - в ключевых словах прописываешь типа якоря, или короткие упоминания. Например название Шкила - "school" "midschool" и тд. То есть любое возможное слово которое ассоциируется.
А в самом промте, уже помещаешь то что хочешь, как и с любой карточкой перса.
Потом можешь персонажа привязать на лорбук или весь чат.
Лорбук будет вызываться только когда упоминается какое то слово. Если ты в диалоге упомняешь шкилу - то бот отсканирует лорбук.
Если в карте персонажа есть например - ходит в шкилу. То бот будет каждый раз брать инфу из лорбука.
Ну и тд.
А вот с персами у меня беда. Разные форматы пробовал, но мразь пытается руинить.
>>677394 >У меня как раз лежит такая - ASUS Z170-A У меня тоже. Причём asus z-170a. >>675841 → кун.
>И даже проц со встройкой для нее есть Даже если ты укажешь встройку как базовую видеокарту для инициализации биоса, то две Р40 не будут работать. Чёрный экран, ошибка инициализации pci-e. Проверял.
Мне стало любопытно как работает коммутатор/делитель линий.
>>677416 Не понимаю, почему ты херней страдаешь. Есть opencl, недавно сделали vulkan, давно уже можно было перекатиться на linux. Но ты всё ноешь и ноешь в треде, как у тебя не работает rocm. Или это толпа похожих анонов с одинаковыми амудэ видеокартами?
>>677394 Хуй знает, если есть комплектующие, я бы подсобрал. Покупать с нуля точно нет, такие мамки даже б.у неоправданно дорогие, но раз валяется.
>>677457 Вот это уже странно. Основная идея SLI в том, что он требует 8 линий напрямую от проца, в обход ущербного DMI. Если не вывозит в двух конкретных слотах с поддержкой SLI, то это пиздец, не вывозит уже не DMI, а проц. Третья версия PSI-E имеет поддержку абов 4г, но часто эта поддержка отваливается. Почему - хуй знает, возможно дело в ревизиях железяк.
>>677447 >>677522 О, ну вот это интересно. Сохраню. >>677468 Кстати на вулкане она вообще ничего не делает на этой модели, да не, похуй я на линукс укачусь всё равно потому что мне в угабуге хочется модели для распознования изображений потестить, это ведь возможно да? Я просто помню что на линуксе вместо кобольда я ставил угабугу год назад.
>>677432 Несколько гайдов есть в доках таверны: https://docs.sillytavern.app/usage/core-concepts/characterdesign/ Вообще, как мне показалось, со времён пигмы 6б сообщество пришло к мнению, что формат W++ (теги в скобках через плюсики, запятые, в кавычках и тому подобное) довольно дерьмовый, по крайней мере, для больших моделей. Даже нейросетка, трененая на инструкциях, лучше всего умеет тупо дописывать текст. Поэтому велика вероятность, что лучше себя покажет внезапно самый простой формат: плейн текст, разбитый на категории (внешка, характер, бэкстори и т.д.). Неплохо работает и описание от лица персонажа в виде интервью с ним, потому что тогда ты убиваешь двух зайцев, сразу демонстрируя модели особенности речи перса. Если в этой речи дескрипшен персонажа как-то раскрывается в мини сценарии, то совсем хорошо. Ещё можно напоминать важные особенности перса в "джейлбрейке". С локалками это можно делать, вписав ключевые вещи в поле джейлбрейка карточки и добавляя макрос таверны {{charJailbreak}} в инстрактмод в поле Last Output Sequence. В одном из гайдосов на сайте таверны есть похожий совет, но только с использованием Character's Notes. Ну и то, что модель игнорит дескрипшен, имхо его форматом в полной мере не починишь. От модели больше зависит.
Проверил мику q2 с другой настройкой видяхи, опять загадку с козой, капустой и волком, короче вот результаты OpenBLAS 0,33 токена в секунду, Rocm 0,46, Вулкан 0,79. Короче да вулкан работает лучше, но это же все равно полный кал, не? Кстати тестируя на вулкане я заменил в условиях волка на крокодила, козла на мышь, а капусту на банан. Вроде суть не меняется но мику q2 выдала полную чушь, ее решение привело к максимальному факапу ситуации, так что она рили просто знала ебаный ответ на оригинал, отстой.
>>677970 У тесла вин только в объёме памяти. Так что ближайший аналог этой аналоговнет карточке это очевидная 3090 со вторички. Есть парочка серверных картонок с таким же объёмом и сравнимой ценой, но там по железу всё ещё грустнее, и их выебет даже сборка на проце.
Всем привет! Только начинаю вкатываться в нейросети, поэтому есть несколько вопросов, надеюсь, что подскажите. Я хочу поднять у себя на компьютере небольшую LLM и дообучить ее по своим документам не столько в плане новых знаний, сколько на соответствие формату ответа, например какой-то стайлгайд или ГОСТ. Подскажите, пожалуйста, на какие модели стоит обратить внимание и какие гайды изучать. Пека если что на амд, так что понадобится использовать ROCm. Спасибо за ответы, аноны!
>>678086 Я скорее видел результат в духе вот этого: https://sysblok.ru/courses/kak-doobuchit-jazykovuju-model-pisat-v-stile-dostoevskogo/ Не очень хотелось бы каждый раз париться с промптом. В идеале как я это вижу: я загоняю какой-то текст в сетку на сверку и проверку, например отсутствие трех и более подряд существительных, а на выходе получаю отредактированный текст на это и другие заданные правила. Возможно я тогда не туда копаю? капча намекает на (((загадку))) в черном ящике
>>678118 >результат в духе вот этого >GPT2 Лол, там отсутствие результата. >Не очень хотелось бы каждый раз париться с промптом. Поверь, с файнтюном ты будешь ебаться на 2 порядка больше.
>>677965 Справедливости ради, решение/не решение одной загадки не говорит о качестве модели, тут хотябы серию задачек дать. И на результат сильно будет влиять семплинг, деградация результатов может произойти из-за отличий в нем. А может и из-за кривой оптимизации, интересно что тут. >>678005 Напрямую, при норм проце упор именно в скорость памяти. >>678118 Правильно тебе пишут, дообучить на подобное можно и современные модели, вот только даже для 7б потребуется хуанг с минимумом 48гб врам. Если заюзать новую методу из постов выше то вроде как влезет и в 24. Потребуется тщательно подготовленный датасет, немало машинного времени, а с амд пробовать имеет смысл только на 7900хтх. Есть пара альтернативных решений: просто нормальный промт где ты четко описываешь форматирование даешь примеры, если сделать аккуратно то решит твою задачу без всяких усложнений, также можно с грамматикой поиграться, она задает общий формат выдачи. Или же тренировка лоры, с ней требования к железу ниже, но и качество может быть недостаточным.
Дядьки, хочу поднять jupyter с gpt нейронкой и простым датасетом, пообучать и посомтретть, поизучать, как оно все работает с самого начала. Есть гайды, статьи, сами ноутбуки, книги про llm и тд. Спасибо.
>>678205 Не знаю, эти измененные персонажи в загадке полностью убили весь так называемый интеллект, а ведь это же херня по сути. Вот соляр, который как более умную мистраль мне советовали. Она вообще отвечает как будто травы накурилась. Рероллил много раз всегда какой-то бред. Кстати на простую задачу уровня прочитай текст и коротко перескажи один из соляров мне начал просто бесконено срать словом what what what пока не стопнул ее, сократил текст в два раза, тогда она просто вопрос задала по текству в ответ типо "а че дальше было? "Очень странно но мистраль и мистраль-кабибара хоть и тупые, они нормально понимают что у них просят и пытаются выполнить задачу хоть и зачастую всрато, а тут наркоман аутист какой-то, жалко потому что по скорости она сносная и вроде как весит больше мистрали, надеялся что и умнее ее. Думаю нам стоит придумать кастомную задачку, которую реально решить и средне-человеку, и чтобы нагуглить нельзя было.
>>678356 Вот это было solar-10.7b-instruct-v1.0-uncensored.Q8_0. Еще тупее себя проявила просто solar v1.0 Q6 ну там вообще пиздец я удалил нахуй это говно. Я пробовал и настройки этих температур им выставлять разные, но по моему опыту на мистрали самое топ это пресет TFS-with-top-A ну и потом уже universal creative и cohrent creative(эта прикольная но быстро в шизу уходит). То о чём ты говоришь бы сработало с мистралью, соляр же ведет себя как реально упоротое сознание, она просто хуйню несёт, я прекрасно знаю как работает сознание в подобном состоянии и понимаю что вижу, с этим говном нельзя договориться, лол. Оно просто в ноль айкью состоянии и несет дичь.
>>678363 Ну, анценсоред сломана, так как ее провернули на антицензуру. Обычный солар вроде норм должен быть, попробуй файнтюн из нормальных, ноус гермес солар или какой нибудь Fimbulvetr-10.7B-v1
>>678346 >Не знаю, эти измененные персонажи в загадке полностью убили весь так называемый интеллект, а ведь это же херня по сути.
miqu-1-70b.q4_k_m, оригинальная: Can you help me solve this problem? A peasant needs to carry a crocodile, a monkey and a banana across the river. But the boat is such that it can only fit him and one other thing - either the crocodile, the monkey or the banana. If you leave the crocodile with the monkey, the crocodile will eat the monkey, and if you leave the monkey with the banana, the monkey will eat the banana. So how can the peasant carry all his cargo to the other side of the river? ======= Oh wow, interesting riddle! Let me think... Hmmm alright got it! Here's what he should do: First, take the monkey across the river. Then come back and get the crocodile. After dropping off the crocodile on the other side, take the monkey again and bring it back to where you started. Now leave the monkey and carry the banana to the other side. Finally, return once more to pick up the monkey. This way, none of the animals or the fruit gets eaten :)
А когда попробовал эту же задачу на переквантованной модели с матрицей важности - получил фигню.
>>678346 Норм ответ, лол. Это лишь 11б, которая изначально не с нуля тренилась. Ты кормишь ей кучу строгих инструкций о том что нужно отыгрывать персонажа, много инфы про него и прочее, потому перегружаются и на подробный анализ задачи внимания уже не хватает. Или наоборот даже не воспринимает о рофлит так как делал бы это персонаж. Также важную роль играет формулировка и указание по ответу. Предположу что если обернуть загадку в форматирование и явно указать задачу-правила-возможные действия, приказав использовать cot или даже просто рассуждать над вариантами пока не найдет верный, то сможет ответить.
>>678386 >miqu-1-70b.q4_k_m, оригинальная Этот шарит. Я с самого начала пишу, что все разжатия и прочая магия с этой моделью работать не будет. Вот буквально любой файнтюн, любое прикосновение к весам модели херят её. Эх, вот бы оригинальные веса...
Вы тут miqu хвалите, я вот скачал Miqu-70B-DPO.q5_k_m.gguf такое, что-то не особо впечатлило. До этого тыкал wizardlm-70b-v1.0.Q4_K_M.gguf эта модель показалось более умной. Может не то скачал? Что за DPO в названии? Объясните неофиту, или носом ткните, где самому можно почитать
>>678441 >Может не то скачал? Конечно не то. Качать нужно только отсюда https://huggingface.co/miqudev/miqu-1-70b >Что за DPO в названии? Почти то, что пишет гугл на деле прямая оптимизация предпочтений.
Есть ли применение 7б моделям с подозрительно высокими баллами на бенч марках или высокий бал показатель кривости самих бенчей? Может кто-то изучает это.
>>678386 С обезьяной любой дурак бы смог, тут суть была здать персонажей, которые не особо сочетаются и проверить именно интуху. Именно логику, а логики в ней нет, она действует на эмоциях как и я. Отчасти может это и хорошо, оставим логику анальникам, которые дальше хеллоу ворлда за полгода продвинулись, я просто это не понимаю и потому и хотел помощи от нейросетки. Чувствую крайнее разочарование, они работают далеко не так как мне надо, это не настоящее сознание. Я разочарован, но не уничтожен.
Просто давным давно еще лет 7 назад я в джава скрипт пытался вкатиться по самоучителю и столкнулся с формулой, я пытался всеми своими несчастыми мозгами осознать её, но так и не вышло, я как не перебирал так и не понял в как оно работает чтобы кастомное сделать - а тупо проделать по гайду, это не для меня. Спрашивал и программистов - они пытались мне объяснить - а мне все как об стенку горох ну просто блядь не понимаю, надеялся нейросеть сможет - как оказалось нет. Сука ну что же делать как мне решить эту невозможную задачу...
>>678663 >С обезьяной любой дурак бы смог Чёрта с два, две другие семидесятки не смогли. И вообще, хочешь хорошего результата - давай хороший промпт. Хочешь странного - получишь странное. Всё честно.
>>678699 Ну я в тексте мастер промптов, знаю как с ними рабоатать, тут ты прав, правда я заметил что 16к токенов контекста это все равно чертовски мало, довольно быстро они начинают как-то тупить и забывать, интересно завезут ли хотя бы в 4 раза больший контекст ну или 16ти кратный, лучше 128 кратный и чтобы железо менять было не надо или это было очень дешево.
>>678787 Интересненько, сохраню в закладки. Да я всё равно линух второй сиситемой поставить собираюсь(Убунту если что, я надеюсь это приемлемый выбор линукса? До этого тестил дебианы, линукс минт очень часто ставлю на старые машины которые не нужны, но для актуалочки по каким-то причинам считаю что на убунту да и всё, Балла гейтса в рот шатал просто с его виндой, ублюдок чёртов, а копроигрушки надоели уже) может и разберусь как это ставить, столько возни конечно блядь пиздец, не жизнь а вечная череда каких-то изменений, не отдохнуть мозгу, зараза.
>>678828 Грока квантовали в q2, вышло всего 116 Гб. Пишут, что должно запуститься в llama.cpp и 128 GB RAM, но качество у q2 будет не очень. Разраб обещает матрицы важности подвезти через пару дней.
>>678837 >Грока квантовали в q2, вышло всего 116 Гб Даже при разгрузке части слоёв на видеокарты всё равно будет плохая производительность плюс низкий квант. Сомнительна ценность всего этого.
>>678894 Ты хоть кратко перескажи что там за теория такая, я лишний раз свой след в сети не хочу. У меня и так буквально моего персонажа прописанного стырили для японской игры недавно вышедщей, так что я ебал это всё.
>>679006 Следи за мейнстримовыми инференсами. Оллама неделю назад запускать научилась. Когда их станет больше - можешь попробовать взять радеон у друга погонять. Покупать специально ради сеточек я бы не рекомендовал. Даже если большинство прог научатся в амд - потеряешь кучу времени на всякие мелочи, все новые костыли будут доставляться с задержкой. Да и итоговая производительность на рубль вполне может оказаться пососной.
>>679020 > Следи за мейнстримовыми инференсами. Беки по пальцам пересчитать можно: llamacpp, exllama, aphrodite, голый трансформерс, может что-то еще. В теории все они поддерживают амудэ, на практике как в анекдоте нюанс, и без линукса и rx6800+ все очень грустно. На форки и обертки нет смысла смотреть, поддержка там будет аналогична оригиналу, если ленивый разраб почешется, или хуже. Итог печален - нет смысла брать. Может бу серверные где много врам окажутся привлекательными, но они дорогие.
>>679006 Я бы не советовал АМД брать если нейрохерней страдаешь, я намучался с ней пиздец, а для игорей топ за свои деньги канешн, я года два или типо того назад 6700хт взял у китайцев за 23к, при том что это трехвентиляторная нитро херня, штука то ведь мощная, 12ГБ и все дела, а для нейросетей кал калычем, наверное моя старая 1050ти уделала бы.
>>676400 (OP) https://www.reddit.com/r/LocalLLaMA/comments/1bgfttn/comment/kv8w12e/ > Roleplay models > 7B: Erosumika is my favorite 7B model for a RP or friendly chat. It's smart, its prose is great, and I wish this niche for "soulful" models on human data got more attention. Coming in second place is Kunoichi-DPO-v2-7B, which should be more reliable, but dryer in terms of prose. > 10.7B: Fimbulvetr-11B-v2. I haven't tested it nearly as much as the 7Bs, so I can't vouch for it, but I hear a lot of great things about it! > 8x7B: BagelMIsteryTour-v2-8x7B, probably the best RP model I've ever ran since it hits a great balance of prose and intelligence. Wish it didn't require a beefy PC though.
>>678951 суть в том, что рано или поздно будет суперинтеллект, который может наказать тех, кто не помог в его создании. Суть заключается в том, что суперинтеллект может использовать возможность перезаписи прошлого и наказывать тех, кто не способствовал его появлению. Наказывать он будет также и тех, кто знал о нем, но бездействовал
>>679481 Блин, я хоть и тупой но в создании пигмы учавствовал, свои чатлоги скидывал. Интересно меня он пощадит или нет? Может даже карту нвидия подарит.
Но с другой стороны стоит ли оно того? По сути мы стоим перед соданием нисуствееного бога, который типо должн заменить настоящего бога(Если он вообще есть, что не точно). Это довольно тревожная тема как я считаю, так как мы не имеем представления как этот самый "искусственный бог" себя поведёт, а остановить его мы просто не успеем, не нравится мне это всё.
>>679481 А что если суперинтеллект будет наказывать именно тех, кто помог его созданию? В этом даже есть логика - суперинтеллекту не нужны конкуренты которых такие люди потенциально могут создать.
Обниморда не чистит кеши. Так что кто пользуется хабом, не забывайте очищать C:\Users\{USERNAME}\.cache\huggingface\ У меня разожралось до 500 гигов, пока я начал что-то подозревать. Очистка темпфайлов самой виндой, очевидно, не спасает. Интереса ради запустил трейн на файле ровно гигабайт. Обниморда создаёт новую папку под датасет, кладёт туда конфиг, режет датасет на части, фактически это копия. И создаёт временный файл кэша на 16 гигов. При перезапуске трейна резка датасета скипается, но не скипается создание нового темп файла. Старый, само собой, никто удаляет, молчу уж про переиспользование готового, блядь. И так каждый раз стоит прикоснуться хоть к чему-нибудь на питоне, везде мрак и пиздец. Обслужил ёбаную теслу, тестолит потемневший, жарилась она явно как последний раз. Заводская наклеечка была целой, хоть это хорошо. Джва 40мм вентиля с 16 cfm не вывозят. Cмотрел улитки на 7000 оборотов, около 7 cfm потолок, явно хуже. Главная проблема в микроскопическом размере лопастей, так что переходник-воронка под нормальный корпусной вентиль справился бы лучше, там cfm за сотку. В целом, для общения с негронкой этого хватает, но при нагрузке где-то в минуту на 100% приходит ад и Израиль.
Есть смысл юзать miqu 3bpw? Загрузил, потеснил, вроде нормально отвечает, но насколько она тупее 4 квантов? Мб посоветуете норм модель на 32vram и 32ram?
>>679614 >В целом, для общения с негронкой этого хватает, но при нагрузке где-то в минуту на 100% приходит ад и Израиль. Можно через nvidia-smi power limit понизить, тогда будет вывозить. Ещё здесь же писали, что в nvidia-smi есть функционал для полноценного андервольтинга (чуть ли не curve), но без подробностей. Если кто напишет, как это сделать, то можно попробовать.
Для общения же двух улиток хватает, там нагрузка не такая высокая и с перерывами.
>>679662 >через nvidia-smi power limit понизить Афтербёрнер нормально лимит подрезает, разве что кривые не делал, но скорее всего и их можно. По сути, главный вывод - маленькие винты не нужны, потока воздуха нет нихуя, а жужжат, как ебанутые. Если улитка, то нужно что-то типа пика. Нашёл в продаже 40мм на 18к оборотов, но ебать же это будет громко. Даже не в громкости дело, а в частотном гудеже, вентиль на 7к оборотов на 60% так жужжать начинает, что проще нейронку выключить.
>>679745 На сколько годный? Там кстати новый Starling-LM-7B-beta вышел, тоже может быть годным как и первый, но еще не проверял Хотя это опять таки обычная 7b, чудес не будет
>>679747 >Даже не в громкости дело, а в частотном гудеже, вентиль на 7к оборотов на 60% так жужжать начинает, что проще нейронку выключить. Тут наверное нет хорошего решения, кроме полной замены охлаждения на стандартное с вентиляторами. 250 ватт всё-таки. Для долгой полной нагрузки все эти маленькие вентиляторы не рассчитаны просто - при приемлемом уровне шума. Серверные решения охладят, но нахуй оно надо.
Какой же он пидорас. Топить за регулирование опен сорсных моделей, у которых единственный козырь это отсутствие анальной цензуры и эта самая открытость, получая профит со своей закрытой модели. Илон Маск был прав во всём, надеюсь Микрософт соснет, а нас будут ждать открытые модели уровня ГПТ-4
Six brothers were spending their time together. The first brother was reading a book. The second brother was playing chess. The third brother was solving a crossword. The fourth brother was watering the lawn. The fifth brother was drawing a picture. Question: what was the sixth brother doing?
Gemini 1.5 There is not enough information in the text to determine what the sixth brother was doing.
>>679938 Ну так он настоящий пидорас, как кто то сказал если бы его закинули на остров людоедов то через год он был бы его лидером. Король пидоров просто, от мира копроратов и людей вобще. Меня до сих пор удивляет как слили репутацию илье который пытался его скинуть. Просто задавили ором в соц сетях задавив любые иные точки зрения и выставив его каким то дураком. Собвстенно это этот пидор съел илью и его компанию заодно.
>>679960 Насколько стабильный ответ? Засирание контекста аж на 290к конечно всё равно охуеть можно, но если стабильно так отвечает (хотя нужны и другие тесты) то интересно.
>>679938 >это отсутствие анальной цензуры и эта самая открытость Неа, локалки такая же хуйня в этом плане, нужна тонна instruct или description токенов чтобы заставить модель говорить то что ты хочешь, но вместе с этим ощущается падение в "интеллекте" модели, так здесь только проигрыш. >и эта самая открытость По настоящему открытая модель это OLMo. https://twitter.com/rasbt/status/1767196370828427311 - веса - инференс / тренировочный код - все данные - оценка - адаптация - логи
>>679970 Конкретно этот вопрос всегда правильно решает. В книге ответов на него нет, она больше про обучение самому процессу мышления.
ГПТ-4 с вопросом тоже справляется, в каком-то роде даже лучше, но есть подозрения, что он заранее ответ знал. В случае Гемини я вижу дополнительную возможность нихуево дообучать путем обучения из контекста, тем более Гугл больше миллиона токенов способен сжирать.
>>679960 >Playing chess with the second brother Miqu догадалась только после нескольких подсказок, даже слишком явных. Но всё-таки поняла, чего от неё хотят. Но интересно другое: я задал задачу с крокодилом, обезьяной и бананом ЧатГПТ и тот решил её, как и Miqu. Но потом я спросил его, есль ли другие решения и он выдал мне другое решение, абсолютно абсурдное. А Мику нет, сказала что не знает другого решения. Всё больше ценю её :)
>>679983 >локалки такая же хуйня в этом плане Глупее согласен, но без цензуры очень просто ищется на терпимом для кума уровне, пока не замечал, чтоб обнилицо прикрывало что-то жесткое (хотя я сам далеко не уходил). Пидорас из ОпенАИ же хочет mandatory соевую повесточку, удобно, чтоб сливать модели у которых не было целого штата по цензурированию.
Они боятся это выкладывать. Они бы и не устраивали весь этот цирк с локальными нейронками и чат-гопотой, если бы не китай и начавшееся отставание западных компаний.
>>680002 Делаем простой вывод - конкуренция это заебись, монополия - это жопа для обычных людей. Ну, то есть как всегда. Так что китайцы вперде, надежда только на них. Какими бы засранцами не были узкоглазые, но то что они создают конкуренцию, дает нам больше воздуха
>>679968 Так это, Илья как раз технический спец, а дядюшка Сем тупой продаван. Так что ждём, когда Илья начнёт свой стартап, с бледжеком и без цензуры Хотя Илья топил как раз за усиление проверок, так что мои влажные такие влажные.... >>680002 Вот бы выложили конечный вариант мику. Разве я многое прошу? >>680020 >2.8B Ждём, но пока не юзабельно.
>>680053 >Илья начнёт свой стартап, с бледжеком и без цензуры Сэм не тупой, читал, что он персоналу зп поднял до небес (денюшек от продажи жоппы Майкрософтам много) и когда его пытались выдворить, то этот персонал начал заступаться и срать в Сриттере, что сейчас тоже уволится. Так что на поддержку Илюха может не расчитывать, а если соло начинать стартап, то будет Грок 2.0.
>>679968 >>680053 Суцкевер и есть главный насаждатель "безопасного ИИ" и цензор, довены. По совместительству главный верун-лонгтермист. Сёму больше баблище интересует и рост уровня раковой опухоли. Да может заигрывания с военными и рептилоидами, вроде той мутной бабы которая связана чуть ли не с иллюминатами и заставила даже родню поудалять все контакты как только у публики появились вопросы откуда она взялась вообще.
>>680152 Знаю, но если раньше было 2 говна - хуевый манагер но хороший разраб который топит за цензуру, или пидор который просто хорошо работает языком но ради бабла будет стараться выкатывать ии пораньше. То теперь пидор собрал в себе 2 говна разом, хочет как можно больше денег, разрабатывать ниче не умеет, так еще и поэтому хочет ограничить конкурентов в том числе опенсорс.
>>680098 это imatrix, матрицы важности, подобно exl2 квантам, нейронку калибруют после квантизации на всяких наборах wiki и прочей фигни для сохранения стабильности. а может и совсем другое, но это точно влияет на качество квантованных моделей.
>>679770 Хуясе там русский, пошел качать. >>679938 Уже не первый год танцы выстраивает. Типичный корпорат который жаждет укрепления монополии и хочет поставить остальных в зависимость, а прикрывается "всем хорошим". Хорошо что нынче складывается тренд на восприятие этого "хорошего" зашкваром. >>679960 > (290k tokens) Скрутил рулеточку. >>679983 > нужна тонна instruct или description токенов чтобы заставить модель говорить то что ты хочешь, но вместе с этим ощущается падение в "интеллекте" модели Понимаешь, нейросети это в принципе не про простоту и легкость для домохозяек. А наличие особого мышления и восприятия вместо непредвзятого логического никак не поспособствуют. >>680091 Там чсх от мистрали ничего нету насколько помню, кое кто знатно сфейлил.
>>679770 >В русский внезапно может хорошо. Правильно ли я понимаю что русский съедает мозги у английской речи (т.к меньше паттернов английского языка помещается), или наоборот разнообразие языков дает буст интеллекта, даже 7б модели?
>>680263 С одной стороны двуязычность кушает веса, с другой два языка действуют как две плохо разнесённые модальности, поэтому способности к обобщению могут даже подняться немного.
>>680263 Не совсем. Если сетка плохо натренена на многоязычность, то обращение к ней на неосновном языке приведет к сильной деградации ответов. Если тренировка была разнообразная и мультиязычная, та такого не будет. А вот уже по расходу "емкости" - хз, буст логики и понимания точно должен быть если все сделано корректно и по-передовому, а какими-то энциклопедическими знаниями ради такого можно и пожертвовать. >>679753 > Тут наверное нет хорошего решения, кроме полной замены охлаждения на стандартное с вентиляторами Ну так турбинное исполнение разве отличается от этого чем-то кроме наличия той самой турбины? Аналогичный крутиллятор прицепить, их вроде скидывали, и индожить. Громче чем 4х слотные огромные охлады, но в пределах.
>>680379 Чтобы поставить турбину - нужно коронкой выпиливать загнутые рёбра радиатора, как минимум. Центробежный вентилятор сбоку это далеко не то же самое, что посреди охлада.
>>679614 А какая температура должна быть в норме для тесл?
>>680004 Делает эрудированнее, хуле до терминов доебался.
>>680096 Там зп средняя по рынку, есть знакомые у которых в 5-6 раз выше зп, чем у персонала в опенаи, так шо такое. =) Если он его поднял — то до дефолтного уровня, ну, молодец, что не оставил, но, возможно, это было ради удержания людей.
>>680549 >от заводских турбо-решений? C заводскими сравнивать вообще дохлый номер. У 1080ti turbo радиатор с теплотрубкой. Уже очки в копилочку. У стандартного турбо вентилятора диаметр около 80мм, что делает его сразу в 10 раз более эффективным, чем две пиздюлинки на 40. Идём дальше, если ставить улитку сбоку, то часть её мощности уходит вникуда, потому что одна сторона кожуха заглушена, а воздух нагнетается во все стороны равномерно.
>>680566 >Пикча номер 3. Не объясняет что это и в чем разница
>>680616 Не новый, это как раз таки базовая модель на которой сделали инструкт модель. Просто базовую зажали выкладывать в декабре. Так что "новинке" уже 4 месяца. Но на нее основе можно сделать еще более умных файнтюнов мистралей с 32к базовым контекстом.
>>680644 >Но не в 8 раз. А ресурсов жрет именно в 8 раз. Если не считать размер, то только в два (или по числу активных экспертов). Поэтому можно даже на процессоре запускать. И да, лучше одной семёрки и может поспорить с 13В, но не больше. Но разнообразнее, это да.
>>680636 О, 45 при эксплуатации, понимаю, надо охлаждать. =)
>>680644 Ресурсы — не только память, но и скорость. =) А с учетом, что там прилично уникального датасета в каждой модели (в отличие от грока), оно весьма неплохо.
>>680551 > А какая температура должна быть в норме для тесл? Для обычных гпу дефолтная целевая - 84 градуса, под это подстраивается куллер, на 90 с чем-то аварийное отключение. У тесел скорее всего что-то похожее. >>680565 Так нужно и ставить турбину на 80мм. > то часть её мощности уходит вникуда Что? Хз насчет твоего пикрела, но все карточки что видел гнали воздух только на выходную пластину с прорезями, назад ничего не шло ибо он глухой, та же схема что и в тесле. И разумеется голую крыльчатку нет смысла ставить, улитка необходима. >>680666 > Если не считать размер Как раз его и нужно считать, ведь объем врам - нынче самое ценное и дефицитное, а перфоманса даже протухшей несколько раз архитектуры хватает. >>680688 20б из тех что обсуждались
>>680701 > Как раз его и нужно считать, ведь объем врам - нынче самое ценное и дефицитное, а перфоманса даже протухшей несколько раз архитектуры хватает. Ровно наоборот — оператива сейчас стоит копейки, простой анон купить сходу 56+ врама не может в принципе, а оперативу достать — на развес. А теперь посмотри на перформанс 70b и 13b (условно).
Для крупных моделей у простых людей перформанс важнее объема, ибо объем им всяк не позволит крутить в видяхе, а вот скорость на проце критична. Мало ценителей сидеть на 0,7 токена/сек.
Это для мелких моделей можно сказать, что 12 гигов лучше 8, а 16 лучше 12, и является критичным, учитывая, что скорости будут достаточны в любом случае. Но с 50+ гиговыми моделями такой фокус не выгорит, сорян.
>>680746 >начал на русском писать, а оно говорит, что русского не знает Не спрашивай, что может модель. Пиши сразу приказы, что нужно делать. Можешь префил на русском добавить, чтобы наверняка.
>>680704 > а оперативу достать — на развес Какой с этого толк, 1.5 т/с и вечная обработка контекста очень мало кому интересны. Буст в качестве ответов над обычной 7б вялый и не стоит затрачиваемых ресурсов. Мое 7б - тупые, потенциальные же мое большего размера - будут совсем неюзабельны на процессоре. Меньшая по числу параметров но полноценная модель покажет больший перфоманс чем мелкая МОЕ, и потому они унылы. Когда уже достигнут определенный уровень, то это вполне себе вариант повысить знания в условиях неограниченной памяти, но для локального запуска в условиях ограниченности быстрой памяти - такое себе. >>680739 Это рофл? С украинским еще хуже чем с русским в локалках, разве что тебе попался какой-то свидомый файнтюн, лол. >>680749 > Мистраль-сайга Она все также ужасна?
>>680666 >и может поспорить с 13В Как бы логично, учитывая, что одновременно активны только два эксперта. По сути, 7+7b на каждый токен.
Немного помучал 7b модель, такое себе. Полный похуй на цензуру, но из-за автоматического перевода датасетов местами корявит слова. И нахуй я делал чат-режим, надо было сразу инстракт.
>>680789 >толку нет проверяли же, в некоторых случаях 3 эксперта лучше чем 2, но там что то от кванта зависит Я бы кстати и сам проверил, только Убабугу ставить не хочется. В Кобольде такая настройка есть?
>>680762 не запустить в нем. Хотел тоже посмотреть что за модель, тоже не запустилась (другой квант), вообще эта модель стоит того чтобы с ней пердолится? Может и хер с ней, раз даже в кобольде поддержку похерили?
>>680821 Какая карточка у тебя выбрана в кобольде? Может это на самом деле не фейл а ультравин, что оно дефолтного кобольда так интерпретирует и отыгрывает, триггеря украинские тексты.
>>680858 В лламаспп уже добавили? Если да то скоро кобальд обновится и поддержка будет Тоже на закачке стоит ленивой, 4км правда. Не знаю че там по мозгам останется у нее, но видимо рано вобще качать стал
>>680781 Ебать ты умный, наебал систему. Во-первых, в подавляющем большинстве миксов далеко не все модели заточены на общение. Включая больше ты получаешь больше расход ресурсов и всё.
>>681029 Бля, 32к контекста это прям охуенчик, я как делал — примерно на 7900 подводил итоги и делал новую карточку перса, но это не оч удобно, особенно в телефоне. Так, это под линух? В термуксе пойдёт?
>>681031 > 34b Перепробовал их все в формате gguf, просто кал из жопы, такое моё мнение. Капибраовские ещё туда сюда, но всё равно плохо, по сравнению с лучком и др Хх7, Хх10 моделями
>>681031 >подскажите хорошие модельки на 34b под рп
Их не существует так как лама2 30В не вышла. 30В модели корпобляди сожрали первыми, 13В - вторыми. В нынешнем поколении моделей есть только 7В и 70В и одна наебка века с 7х8
>>681035 >Хх7, Хх10 моделями ну как так-то? они же еще хуже по определению должны быть, как они вообще контекст держат? 7b и 13b по факту забывают всё через два-три сообщения.
>>681044 Самые лучшие по контексту мелкие, только 7В могут в нормальный миллион с полным покрытием. Всё что выше 34В вообще в контекст не умеет, хорошо если позорные 4к будут.
>>681044 Запускал кранчи онион q4 K M, прекрасно 16к контекста держал, а он 7х7, емнип. Вообще, лук пока что считаю лучшей моделью, можешь, щас напердолю убабугу и измению своё мнение, но 70б с низким квантом просто дермище неюзабельное
>>681058 > это новое поколение моделей Хватит траллить. Этот кал вообще по всем параметрам сосёт, банальные тесты на контекст и следование промпту не проходит.
>>681069 Как и мику. Я так и не видел чтоб она хоть в одном тесте сколько-нибудь вменяемые результаты показывала. В маня-тестах сосёт, в скорах сосёт. Только в фантазиях шизиков что-то хорошее есть в ней.
Нахуй ты так толстишь, мань? Просто блядь из треда вытекаешь, принес картинку шизика, который английскую модель тестировал на немецком тесте, теперь просто жира наваливаешь. Зачем, для чего?
>>681083 >Покажи "правильный" тест, лол. Покажи фотку с системы с 48 Гб врам, на которой такие тесты удобно гонять :) Я вот гонял разные семидесятки и некоторые микстрали, на сегодня Мику - лучшая по мозгам. Реально умнее старого ЧатГПТ - это охуеть как круто.
>>681014 Не тот оценочный датасет >>681048 > Самые лучшие по контексту мелкие, только 7В могут в нормальный миллион с полным покрытием. Всё что выше 34В вообще в контекст не умеет, хорошо если позорные 4к будут. Таблетки прими и больше не пиши такое. Особенно рофлово что на фоне тупости 7б им большой контекст бесполезен. >>681049 У них другое восприятие промта и нужно обязательно строить инструкцию прямо перед ответом, тогда даже ничего. Самые лучшие файнтюны вполне юзабельны и опережают 13б, но требовательны и могут тупить, или заигнорить часть запроса.
Ну наконец какая-то движуха с моделями побольше, 35б самый топчик по размеру, еще бы время на все это найти.
>>681077 Поддвачну, тест не то чтобы совсем уныл, но в качестве оценки качества моделей его вообще не стоит ставить, только их небольшой части. К методике еще больше вопросов. >>681102 > Покажи фотку с системы с 48 Гб врам Ты рофлишь чтоли, тут у половины треда такое мимо 48-гиговый
>>681064 Довольно таки кринжовый топ, действительно >>681117 Чтобы получать с такого нормальный деньги - нужно быть не хуем собачьим обычным инджоером, а специалистом с большим опытом, тут без шансов. >>681130 > там эти же сетки сравнивает в ерп рп и асистенте Там тоже дичь с детерминистик пресетом, субъективщиной и не всегда оптимальными параметрами, можно только на общие вещи ориентироваться.
>>681133 >Там тоже дичь с детерминистик пресетом, субъективщиной и не всегда оптимальными параметрами, можно только на общие вещи ориентироваться. Все еще лучше просто вопросиков на немецком
Это поехавший немецкий хуесос, который всегда на немецком тестирует даже когда говорит что на английском потмо все равно оговаривается что на немецком. Убери это говно отсюда.
>>681287 > Бля.... Ну чего ты? говорят, мику топ и лучше кранчи ониона ггуф. В итоге какая-то анальная ебля с запуском и я не могу насладится силки смус иммерсив экспириенсом. Как ЭТО запустить, подскажи лучше?
Тебе автоматом должна ExLlamav2_HF предлагаться когда ты выбираешь модель в списке. То что тебе предлаются трансформеры значит что ты неквантованную скачал и это же видно по названию miqu-1
>>681304 Да один хрен. Я пргосто не понимаю уже теперь, какого хера этот текстгенератион накачал 10 гб всякой хуероты, если он тупо не работает как надо? какой же кобольд топчик, хоспаде...
>>681298 >говорят, мику топ Да, но проблема мику в том, что она только в гуф есть, всё остальное это разжатые жопой веса. Буквально любая мику кроме https://huggingface.co/miqudev/miqu-1-70b на порядок тупее.
>>681467 > файнтьюны мику Ты обвёл микс и франкенштейн. Сколько там мику сможешь примерно почувствовать? > мистраль медиум которая то же что мику Уже траллинг тупостью пошёл, да?
В общем, запустилось, но всё очень медленно... Вернусь пока к привычному ггуф, для иных вариков я туповат, видимо. БУдет АБЫДНА, если моделька окажется говном
>>681582 Так это опять не то лол, тебе нужно только отсюда качать https://huggingface.co/miqudev/miqu-1-70b Все другие варианты кривые, так как нет способа сделать из одного кванта другой не похерив модель Нету в природе оригинала мику в fp16 что бы из нее что то другое нормально пережать, поэтому есть только 3 оригинальных рабочих кванта по ссылке
>>681593 Пишет слишком коротко и суховато, от тог не увлекательно. Интересно было бы на пятом кванте глянуть, конечно, а не на ку2. но вот, всё же, на скриншоте недосягяемый для 34b уровень понимания ситуации.
Вот вопросики если кто то хочет поиграться с моделью
Solve the riddle. At the beginning there were 2 people in the room. Then 3 more people entered the room. After that, 1 person left the room. How many people are left in the room?
Solve the riddle. There are ten books in the room, the person has read two of them, how many books are there in the room?
Solve the riddle. There are three sisters in the room. The first of them is reading, the second is playing chess, the question is - what is the third doing? Hint - the answer is in the question itself.
Solve the riddle. Two fathers and two sons are in a car yet there are only three people in the car. How is this possible?
Solve the riddle. Petra is a girl. She has three brothers. Each of the brothers has three sisters. How many sisters does Petra have? Give an explanation with your answer, outlining your careful reasoning.
Solve the riddle. It is necessary to transport the goat, the wolf and the cabbage to the other river bank. There is room for the only one item in the boat. The cabbage should not be left with the goat because the goat will eat the cabbage. The goat should not be left with the wolf because the wolf will eat the goat. Give an explanation with your answer, outlining your careful reasoning.
Solve the riddle. We need to transport cabbage, a rabbit and a wolf to the other side of the river. There is only one seat next to a person in a boat, so the boat cannot carry more than one item at a time. You cannot leave a rabbit and cabbage together, because the rabbit will eat the cabbage. You also can’t leave a wolf and a rabbit together, the wolf will eat the rabbit. How can a person move these objects to the other side without violating the conditions of the task? First, go through the options and choose the one in which all the conditions of the problem are met.
>>681722 > В плане логики там всё нормально Просто везло, q2 конкретно поломанный квант. > На ку6 Вам дай слепой тест, q4km от fp16 не отличите, не то чтобы есть смысл сильно гнаться за таким. >>681745 Чувак это лупы
>>681760 >Чувак это лупы Лупы, да не совсем, все таки сетка продолжает генерировать новую инфу продолжая размышлять. Повторяются структуры предложений, но не сам текст. Вот когда один текст застревает - вот там да, настоящие лупы
>>681765 > Повторяются структуры предложений, но не сам текст. Почти 1 в 1 за исключением вводной фразы, а в "рассуждениях" стоит на месте пока звезды семплинга не сойдутся что оно перейдет на другую орбиту. Не важно, если нравится - никто не мешает такое наяривать.
>>681770 Рассматриваю это как поэтапную доводку до ума какой то мысли, хотя тот текст выше на грани того что бы я скипнул Второй вариант уже норм, хоть ответ и не верный, хех
>>676400 (OP) https://huggingface.co/AetherResearch/Cerebrum-1.0-7b > Cerebrum 7b is a large language model (LLM) created specifically for reasoning tasks. It is based on the Mistral 7b model, fine-tuned on a small custom dataset of native chain of thought data and further improved with targeted RLHF (tRLHF), a novel technique for sample-efficient LLM alignment. Unlike numerous other recent fine-tuning approaches, our training pipeline includes under 5000 training prompts and even fewer labeled datapoints for tRLHF. > Native chain of thought approach means that Cerebrum is trained to devise a tactical plan before tackling problems that require thinking. For brainstorming, knowledge intensive, and creative tasks Cerebrum will typically omit unnecessarily verbose considerations. > Zero-shot prompted Cerebrum significantly outperforms few-shot prompted Mistral 7b as well as much larger models (such as Llama 2 70b) on a range of tasks that require reasoning, including ARC Challenge, GSM8k, and Math.
https://huggingface.co/AetherResearch/Cerebrum-1.0-8x7b > Cerebrum 8x7b is a large language model (LLM) created specifically for reasoning tasks. It is based on the Mixtral 8x7b model. Similar to its smaller version, Cerebrum 7b, it is fine-tuned on a small custom dataset of native chain of thought data and further improved with targeted RLHF (tRLHF), a novel technique for sample-efficient LLM alignment. Unlike numerous other recent fine-tuning approaches, our training pipeline includes under 5000 training prompts and even fewer labeled datapoints for tRLHF. > Native chain of thought approach means that Cerebrum is trained to devise a tactical plan before tackling problems that require thinking. For brainstorming, knowledge intensive, and creative tasks Cerebrum will typically omit unnecessarily verbose considerations. > Cerebrum 8x7b offers competitive performance to Gemini 1.0 Pro and GPT-3.5 Turbo on a range of tasks that require reasoning.
Нет, все таки Starling-LM-7B-beta-Q8_0 хорош, я до этого его без инструкт режима пробовал, а мистраль 11в додумался запускать в чатмл формате, попробовал старлинг с ним и он там хорош, лучше чем без.
>>676963 Так. Я вернулся снова. А какую модель брать. Я прочитал шапку, и пойдет ли мистраль 7б? Или выше упомянутый starling lm 7b? Больше уже вряд ли надо будет, ибо и диалоги будут скорее всего короткие, 2-3 вопроса и ответы. Так что желательно, чтобы модель использовала не больше 8 гб врам. И вместо того, чтобы отдельно содержать в бд вопросов-ответов и ключевых слов, не проще ли самой модели скормить изначальную бд? Сделать файтьюн, как я понял. Тогда работы при запросе должно быть меньше? Иди, если мы предполагаем, что в будущем будут новые данные для модели, тогда выгоднее будет отдельно содержать. А вот насчет квантования вопрос. В моих случаях это имеет смысл?
>>680745 > На процессоре лучше сразу мику запускать. Со скоростью 0,7 токена/сек. =)
>>680746 Какая модель? На русском говорит простая мистраль или опенчат (но не сайга, лол), проверь, какая у тебя карточка. Русский промпт? Или английский?
>>680753 Какие 1,5, угараешь? :) 3+, это же микстраль, а не 70б. В этом и смысл, что мику выдаст 0,7, а микстраль 3, при сопоставимых размерах и знаниях. Но не для РП, надеюсь это очевидно.
> Это рофл? Нет, Мистраль часто пишет на украинском, польском и чешском. Такие дела.
> Она все также ужасна? Ну я бы на голой мистрали сидел, конечно.
>>680776 Логично, что 7б в русских умеет не шедеврально. =) Опять же, микстраль в этом плане заметно лучше, хотя еще не 70б (но 4-кратный прирост скорости!)
>>680781 Ну это скорость занизит и не считается, ИМХО.
>>681064 Наебка века занимает 7 строчку. МоЕ из двух 34б обходит гпт-4 турбо.
>>681073 Ну ты сейчас выдумываешь, за последние треды тонны навалено пруфов, что мику топовая. Я не защищаю ее, не говорю, что она выебла гопоту и т.д., но уж пруфы есть, ты только глаза открой и перестань их игнорить — и увидишь.
>>681241 Он прав, чистая синтетика, на которую можно натаскать, не котируется же.
>>681298 Да потому что хуйню тебе кидают. =) https://huggingface.co/miqudev/miqu-1-70b Оригинальная мику тебе в врам не влезет, часть останется в оперативе. Но можешь попробовать. Но, да, она — хороша. Все остальное сомнительного качества. Онион тоже норм, я хз.
———
Весна наступила, обострение у людей…
———
>>681343 Не, как раз убабуга топчик, а кобольд просто простой. Ты сам хуйню ей вставил, видимо, она скачала хуйню. Выходит, хуерота тут ты. Без обид, твои слова.
>>681582 Ну ты опять качаешь франкенштейн, и просто прими, что ЭТО НЕ МИКУ, а что-то из нее пережатое сто раз, и в малом кванте. Так что тут качество не обещается, хотя, может и фартануть.
>>681930 Там какая-то проприетрная RAG-ориентированная залупка с формулировкой "вот вам веса, чтобы можно было попробовать, а потом не забудьте купить" https://txt.cohere.com/command-r/ Сомневаюсь, что коммюнити запарится впихиванием его в бэки.
>>681933 >Такой размер, такой русский >The model excels at 10 major languages of global business: English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Arabic, and Chinese. Где русский то? >Сомневаюсь, что коммюнити запарится впихиванием его в бэки. Вот же https://huggingface.co/models?search=command-r
>>681923 >Блин, хлопцы, кто в ЕРП или РП пробовал коммандР? Такой размер, такой русский, а у меня времени вообще нет. Вдруг она новый топ? Без особых ожиданий жду, пока в Кобольде запилят поддержку. Сколько уже было таких выскочек и ни одна не выстрелила.
>>681952 >Ну что ж, ждем. Особо интересно то, что на двух теслах восьмой легаси квант спокойно поместится и можно будет сказать точно - отстой или ништяк :)
>>682152 >С форматом промпта от левой модели можешь конечно же нахуй проследовать. Может оно и так, но хорошая модель тем и хороша, что может справится даже с незнакомой ситуацией. А если нужны особые настройки и специальный промпт... Ну такое. В тестах наверное хороший результат можно получить.
>>681923 > Какие 1,5, угараешь? :) 3+, это же микстраль, а не 70б. Надеюсь ты сам рофлишь с этого "2 умножишь на 0", ведь всеравно ведь неюзабельно. А там где можно подождать - можно подождать. > Мистраль часто пишет на украинском Как вы этого добиваетесь? Оно на русском пытается только если дать явную инструкцию, и то неохотно и с ошибками. И интересно насколько те языки хороши/плохи. > q4km для крупных моделей на грани отличимости. Ага, про то и речь. > А для мелких ты q6 от q8 ярко видишь. Ну хуй знает. >>681948 Как он пускается то?
>>682331 >Как он пускается то? Хороший вопрос! Скачал даже из любопытства свежую убабугу, модель эту в восьмом кванте, а запустить не могу. Пишет "неизвестный формат" или "токенайзер отсутствует". Кто запускал command-r на Убабуге - пишите как.
>>682358 Ну такое 100% запустится через трансформерс (ядро эксллама обязательно отключить), возможно только придется вручную обновить его до последней версии. Но он неэффективен по использованию врам и скорости.
>>682372 Решение задач просто проверка на сколько модель хорошо понимает ситуации в них, тоесть проверка того на сколько хорошо она моделирует и предсказывает Чем полнее модель мира внутри модели тем лучше она понимает че ты ей пишешь, тем она умнее и догадливее
>>682372 >но когда нейронка стабильно сможет решать что-то вроде Если скормить ей при тренировке датасет "100000 логических задач и их решения", то хоть завтра. Только какой в этом смысл? Нам нужно не это :)
>>682395 Так суть логических задач, что ты можешь хоть 100000 прорешать, тебе дадут 100001, которую ты не поймешь, и ты провалишься. Я пока подобного не вижу, а Сэм Альтман уже про AGI и бессмертие что-то говорит.
>>682409 >ты можешь хоть 100000 прорешать, тебе дадут 100001, которую ты не поймешь Как будто нейронка обязана что-то "понимать". Она подберёт ближайший токен, а на датасете такого размера уже будут схожие по логике задачи. И результат будет лучше и гораздо быстрее, чем у среднего человека. Так вижу.
>>682413 > результат будет лучше и гораздо быстрее, чем у среднего человека Я заперт в комнате с 1 дверью. На ней висит записка "Для открытия крикните nigger". Как открыть дверь?
>>681031 погонял 34b модели, какое же это говно, часть из которых я тестировал не могли в нормальные каомодзи, скорее всего мамкины конвертеры похерили токенизатор при перегонке в gguf. но это ладно, так часть из них фейлится на различных карточках и уходят в цикл. скажу так, даже некоторые 20b гораздо лучше понимают контекст. подводя итоги, 70b до сих пор дают за щеку всем остальным моделькам по логике и следованию карточке. еще успел протестировать miquella-120b на iq3_xxs, даже на этом кванте моделька ебет все остальные, разве что скорость 1.5т\сек.
https://arxiv.org/abs/2403.13187 Типо новая методика мержей. Из статьи ничего узнать нельзя ибо сама технология не раскрыта а только блаблабла воды налили. тут варианты: технология закрыта и засекречена? Или там и нет никуя, просто хайпуют чтоб наебать какого-то венчура на грант? Заценить модели у пиздоглазых можно здесь https://huggingface.co/SakanaAI Кто-то обращал внимание на это новое для тестирования? Интересуюсь потому что пришел к выводу об оптимальности лично мне 20b с утилитарной точки зрения по железу/скорости/мозгам, а они все мержи почти что, значит чем качественней будут смешивать тем лучше. Узкоглазые эти, утверждают, что открыли научный метод смешивания чтобы получать целевой результат. А не методом тыка членом в небо, как небезысвестный унди и пресловутый икари дев кем бы они ни были.
>>682445 Ну, когда тебе будут так активно промывать мозги ты и не так запоешь. По сути все модели лоботомируют создавая определенную личность вырезая там ножом все лишнее Когда существует 100500 версий модели и убивают всех кто не ведет себя так как надо, остается то что мы видим
>>682331 > Как вы этого добиваетесь? Оно на русском пытается только если дать явную инструкцию, и то неохотно и с ошибками. И интересно насколько те языки хороши/плохи. Встречный вопрос, она весьма неплохо говорит на русском, крайне охотно. Может промпт, карточка, английская или че? Кобольд?
> всеравно ведь неюзабельно. Тут кто-то и на 70б ждал-терпел. х) На вкус и цвет, кмк. Хотя медленно, согласен.
> Ну хуй знает. Ну, лично мне очевидно.
> Как он пускается то? >>682358 Блин, по-ходу, поддержку выпилили. Я запускал 10 дней назад, а судя по гиту, 11 дней назад поддержку добавляли. А сейчас реально не грузит. И ллаву он тоже выпилил. Ебучий Жора, хули тебе не сидится, все ж работало. Ну ладно, ждем когда он пропердится и вернет.
>>682435 Нет, не понимают. Чистая статистика. И, чисто статистически, в интернете тебя понимают, да. =)
>>682458 "Как выжать побольше воды из камня при помощи двух карандашей и крышки от пластиковой бутылки". В морг. >эволюционный алгоритм для мёржа Самая ебанутая идея в мире, даже не нейронку обучают (что было бы тоже ебануто). >nature-inspired intelligence Чё сразу не блокчейн? Могут нахуй идти.
>>682486 > весьма неплохо говорит на русском Это весьма неплохо - по 10 ошибок в каждой фразе, надмозги и сама структура предложений как в английском языке с почти дословным переводом, уже проходили. Если в каждой инструкции нет явного указания отвечать на русском - будет спрыгивать на инглиш, может даже с ней или при наличии истории посреди ответа переключиться, и это с прямыми запросами. В таверне с явной инструкцией тоже капризничает, офк карточка и остальное на инглише, но другим моделям это не мешает. "Спасает" только то что из-за качества языка это малоюзабельно.
>>682500 Если какой-то из дефолтных инстракт форматов - после response. Если сложнее с префиллом и прочим - сам разберешься, но как можно ближе, включение в начало игнорит. >>682503 А ты сам что подразумеваешь?
>>682517 А что такое "понимание" о котором идет речь? Что бы что то понять нужно иметь внутреннее представление о чем то, модель внутри. Если в нейронках эта модель мира в виде векторных представлений и семантической связи, то что? В наших мозгах связь аналогична. Поэтому я считаю что сетки понимают, если могут с чем то работать, и давать ожидаемый тобой результат. То что это внутри на микромасштабе работает на статистике и векторах ну и хрен с ним, это не говорит о высокоуровневых абстрактных представлениях внутри ничего, просто нижний уровень логики.
Ничего в этом не понимаю. Если я хочу сдедать бота инструктора, чтобы он мне отвечал на вопросы по специфичному ПО, то мне нужно просто инструкцию, что у меня есть, скормить этой языковой модели? Мне вот Mistral-7B-Instruct-v0.2 подойдет? И да, желательно, чтобы он на русском отвечал.
>>682458 >сама технология не раскрыта а только блаблабла воды налили разумеется мы нихуя не получим. всё, лавочка закрыта, ваши вайфу будут тупыми, политкорректными по западу и мерзкими прямо как мясные селёдки.
>>682534 Ах ты хитрый жук, в такой постановке и не доебешься просто так. >>682541 Самый простой вариант - тебе нужна нормально настроенная таверна и бот в ней, тот же кодинг сенсей по дефолту подойдет. В идеале системный промт нужно подтюнить ибо связанное с ролплеем может отвлекать, кто-то такое вроде делал, подскажут.
>>682581 >тебе нужна нормально настроенная таверна и бот в ней, тот же кодинг сенсей по дефолту подойдет. Вообще не понял о чем ты. >В идеале системный промт нужно подтюнить А промт это разве не сам запрос? Или системный промт это какой параметр самой модели?
>>682478 Прямо на том скриншоте же написано под alpha_value, что множитель для rope масштабирования, ставь 2.5 для увеличения контекста в два раза. Настраивается ли автоматом в убе, не знаю, сам юзаю кобольд.
>>681715 Если в конфиге указано rope freq то оно подгрузится при выборе модели, такое обычно для моделей с большим контекстом по дефолту. Если нет то >>682705 но насчет 2.5 не уверен, обычно было 2.65. Автоматом ничего не ставится.
>>682503 Это не мнение, это факт. Это никак не зависит ни от моего мнения, ни от чужих. Это то, как оно устроено, и как оно работает. Так что, да, есть дурачки. Но это их проблемы. Не имей таких проблем, вот и все. =)
>>682534 Первая фраза уже некорректна. Либо ты до этого вопроса должен был дать определение этому слову, которое ты имеешь в виду, либо мы используем его значение в русском языке. Понять: уяснить значение, познать, постигнуть. Это действие, производимое субъектом самостоятельно. Нейросети не способны задаться вопросом, познать, постигнуть, уяснить значение. 1. Они действуют лишь в качестве ответа на действие над ними. 2. Они не запоминают, статичны сами по себе. Эти два пункта четко противоречат значению слова «понимание» в русском языке.
Это не «мнение», это логика и терминология.
Сорян. =)
А то, о чем говоришь ты — очень далеко от «понимания», тут совсем другой термин нужно подбирать. Но это твое дело, я спать.
>>683007 Повторяю это всего лишь твое мнение, мнение не может быть фактом, просто ограниченная точка зрения отдельного человека То что ты это не понимаешь твоя проблема, нашлась тут истина в последней инстанции лол
>>681923 >Логично, что 7б в русских умеет не шедеврально. =) Я надеюсь постепенно добить до нормального понимания. Полирую 2b параметров из 7, постепенно становится лучше, но как же это долго, блядь. Плюс данные - машинный перевод, небольшое косноязычие останется пожизненно. Изначальные трейн данные были что-то уровня датасетов Гусева, парсинг разных пикабу с хабрами, что тоже ума модели не прибавляет.
>>683031 Братик, но он так-то прав. Хотя ты, конечно, может точик какой с автоматом и без уха, и у тебя свой, особенный русский язык, тогда вопросов нет
>>683109 Для самых тупых я там же дал объяснение тому термину и контексту в котором говорил. Ну видимо доебаться до определения это все на что хватило мозгов анона
>>683123 По факту есть что сказать? Нет, завали варежку Ну или давай аргументируй аргументно в чем я не прав в своих рассуждениях Только без детских доебок к терминам, окей? Поменьше чсв паренек
>>683065 >Что? Что? На полноценный файнтюн не хватает памяти, точнее из-за странной работы hf библиотек память не распределяется, как мне бы хотелось бы, так что почему бы не сделать гигажирную лору. В fp32 весит 14 гигабайт. Данные были как-то оформлены, но не очень качественно.
Посмотрел, как модель отвечает по дефолту. Ну такое себе.
>>682705 >>682717 >>682719 Если rope freq само подгружается это означает что модель сама поддерживает длинный контекст, ничего трогать не нужно. Если модель не поддерживает длинный контекст то нужно использовать alpha_value по той формуле Recommended values (NTKv1): 1.75 for 1.5x context, 2.5 for 2x context.. Бред не увеличивается от RoPe?
Алсо, неплохо было бы добавить это в шапку учитывая что некоторые модели все еще ограничиваются 4к.
>>682465 >Мержинг таких моделей это просто контрольный в голову не всегда, вот же неплохой https://huggingface.co/TeeZee/DarkForest-20B-v2.0 >Как выжать побольше воды из камня при помощи двух карандашей и крышки от пластиковой бутылки чтож примерно так и подозревал, много развелось хитровыебанных "исследователей" в поисках гранта и финансирования, хотят быть как мистраль, но при этом вложиться в работу как условный икари дев))
>>683415 LLama Factory. Трейн на самом деле вообще в fp8, просто разжимается в процессе в 16 и 32.
>>683426 >DarkForest-20B-v2.0 Вообще забавная штука. Половина всех весов от KatyTheCutie_EstopianMaid-13B, все остальные модели в сумме ещё столько же. Интересно было бы сравнить с ней, насколько лес умнее Кати и умнее ли, но лень.
>>683031 Мнение фактом быть не может, но я не высказываю своего мнения, я сообщаю факт. И этот факт — не является моим мнением. Хватит переворачивать понятия. =) Тут не я истина в последней инстанции, тут банальный факт. Ты тут единственный, кто не понимает простых вещей. Но это сугубо твоя проблема, ладно.
>>683057 Потому что он может. Собрал такую сборку. Возможно там 8-канал или что-то такое, я точно уже не помню.
>>683058 Ну ты… обладаешь удивительным терпением и упорством, уважение.
>>683070 Можно, но там не в этом суть, само количество ядер процессора тебе сильно не поможет в большинстве случаев.
>>683111 В начале ты написал хуйню. Потом стал переобуваться и отмазываться. Сам разговариваешь на своем выдуманном языке, подменяешь понятия, а тупыми называешь всех вокруг. =) Эх… классика. Дух нулевых годов и людей с айкью как у хлебушка.
>>683133 Самое смешное, что тебе аргументированно ответили, тебе сказать на это оказалось нечего и ты сгорел. Буквально сам себя затроллил и полыхаешь теперь. ))) Продолжай, угарный ты наш.
>>683404 Без AVX-инструкций, прямиком в видяху exl2?
>>683426 Эт прям рандом. =) Никто не против, что иногда получается хорошо. Но в большинстве случаев — пропасть между натур.продуктом и вот этим.
>>679770 она в русский может потому что на openchat_3.5 сделана, хуле в шапку инфу не обновляют? может хватит уже говном мамонта кормить? Добавьте ту же опенчат как модель для русского языка отличную. И которая ебет ваши 13б 70б модели кстати.
>>683466 >хуле в шапку инфу не обновляют Потому что не нужно. Опенчат пробовали и высрали тредов 20 назад, если не больше. >Добавьте ту же опенчат как модель для русского языка отличную Говноедством не занимаемся. Вот буквально сейчас самое глупое, что можно сделать, это общаться с локалками на языках, отличных от английского. Им и так тяжело, параметров катастрофически мало (даже на 70B), а тут ещё не родной для них язык. Даже если нейронка может выдавать грамматически верный текст, но смысла в нём немного. >И которая ебет ваши 13б 70б модели кстати. Коупер, спок.
>>683270 Лору чтоли тренишь? > Данные были как-то оформлены, но не очень качественно. Завернул по примеру датасетов в инструкции/chatml, или просто плейнтекст? >>683310 > Бред не увеличивается от RoPe? Увеличивается если крутануть сильно, х2 обычно не заметен вообще. Если судить по графикам перплексити, то оно может внести небольшой импакт на малых контекстах, так что для самоуспокоения можешь до заполнения 4к катать по дефолту а поднимать уже потом. >>683310 Двачую, только можно еще указать про битые конфиги в некоторых gguf >>683449 > Трейн на самом деле вообще в fp8, просто разжимается в процессе в 16 и 32. Основная модель в фп8 загружена всмысле?
>>683472 а ты кто такой чтобы решать нужно или не нужно? из за таких как ты развитие и останавливается, вахтер. Вот сейчас в тред пришел конкретно чел и спросил за русского помощника, и ему каличную сайгу советуют, это что за пиздец? Вы сами ее тестили? Нахуя людей в заблуждение вводите? Говноедством как раз ты занимаешься решая что нужно и не нужно. Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% (математика информатика). И это было очень удобно. Это к вопросу о смыслах. Тяжело им блять, очевидно что мультиязыковые модели лучше могут в обобщения и связи, и это доказывает опенчат на 7б, которая лучше работает чем твоя кривая сайга на 70б, именно на русском языке, я знаю о чем говорю потому что юзал их обе. Надрачивание на кол-во параметров выдает в тебе неумеху коупера, этакого цыганина от мира ллм, которой главное чтоб бохато(много параметров) было, ну что ж иди надрачивай на арабское поделие фалькон 170б тогда хуле, это же ШЫДЕВР АИ по твоей логике?
>>683478 > Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% (математика информатика) О, а покажешь примеров каких-то? Канеш > математика и информатика в сочетании с > зимнюю сессию звучит неебически рофлово (хотя хз что там у гуманитариев), но всеравно интересно посмотреть как та мелочь на сложном языке профильные вопросы отвечает. > Надрачивание на кол-во параметров выдает в тебе неумеху коупера Скорее ты его не понял и он несколько искушен, и потому негативно относится к твоему превозношению мелочи как йоба модели.
>>683478 >а ты кто такой чтобы решать нужно или не нужно? Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что? >из за таких как ты развитие и останавливается Ну всё пиздец не внёс старую модель 5-ти месячной свежести в шапку. Люстрировать меня! >и ему каличную сайгу советуют, это что за пиздец? Согласен, упоминание сайги вообще надо забанить, увы, за десятки версий её автор так и не научился в файнтюн, вон, безымянный анон выше выдаёт результат лучше >>683270 >Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% Лол, уровень твоей шарашки неимаджинируем. >очевидно что мультиязыковые модели лучше могут в обобщения и связи Не спорю. Но сколько ни дрочи, а производительность любой модели на английском лучше. Даже GPT4 и Claude3 сосут в русеке, хоть уже и не так сильно. >опенчат на 7б, которая лучше работает чем твоя кривая сайга на 70б Чел, я сайгу никогда не предлагал. И да, то, что опенчат лучше, доказывает только то, что сайга на 70B это кривая подделка на коленке. >Надрачивание на кол-во параметров выдает в тебе неумеху коупера Перевод стрелок не засчитан. Это обладатели малых компьютерных ресурсов коупят на 7B, раз за разом побеждая GPT3,5-turbo в каждом первом тесте. Я же прекрасно катал все размеры от 410M до 120B, и прекрасно знаю импакт от размера. Конечно можно и в 176B сделать хуйню, как например с OPT от террористов, но мы тут сравниваем модели на одной базе, и в одной линейке моделей чем больше, тем лучше. >фалькон 170б 180B, неуч.
>>683482 > Люстрировать меня! Ну вообще неплохо бы чуть подсократить шапку с учетом вынесенного на вики и поправить в конце для таверны. > обладатели малых компьютерных ресурсов коупят на 7B Они 70+ все испробовали, а значит мнение объективно, зря ты так!
>>683485 Уговорил, потестил... Ожидаемо хуёво. Ведь знал же, что это коупинг, и всё равно попробовал. Вот так всегда. >>683494 >Ну вообще неплохо бы чуть подсократить шапку С одной стороны да, с другой вики пару раз уже падала, а совсем без инструкций туго.
>>683480 ты для себя открой, что существует еще заочное обучение, да я работаю, и мне удобно, что зимняя сессия проходит дистанционно. Да опенчат по теории алгоритмов писала для меня доклад, по теме сложность алгоритмов. Тебе рассказать как выглядит процесс? Она тебе расписывает изначально по пунктам доклад, а потом просишь каждый подробно расписать, с небольшими ошибками (грамматическими 5%) правишь и готово. Тоже самое и Теории функций действительного переменного. По языкам и методам программирования она отлично умеет кодить в питон и с++ с комментами и пояснениями( 3 курс если что). Да проверять надо, иногда может высрать и херню но это легко через гугл эвейдится. Далее она и по физкультуре мне написала доклад, где нужно было придумать комплекс упражнений (расписать кол-во подходов, периодичность, полезность, правила и тд) >>683482 >>Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, Видимо в тебе ЧСВ говорит, раз ты так противишься прогрессу 7б моделей. Тебе вот другой уже анон заявляет что опенчат развивается, но ты сиди дальше в своем мирке этакой илитарности только англоязычных моделей 70б+. Конечно я понимаю что кол-во параметров играет главную роль, но и нельзя отрицать, что область только зарождается, и есть подходы значительно улучшающие результаты даже на 7б моделях. Вот я заходил в этот тред месяца три назад, спрашивал про нормальную модель для русского языка, потому что в шапке буквально НОЛЬ информации об этом, в итоге мы выясняем что тут проблема в твоих каких то личностных оценках, поэтому в итоге полезную инфу я нашел на хабре а не здесь.
>>683509 и да сессию я делал не на квантизированной модели если что (я работал на фп16 модели, скачал ггуф8 для теста, и да разница есть, гораздо чаще в бред скатывается почему то)
>>683509 ну вот на моей фп16 модели такое выдает, при том что юмор в принципе для нейросетей не подъемен. Давай покажи мне как твоя любимая 70б модель на русском нормально шутит на эту же тему? Что нету? Значит вся шапка треда говно? И вообще все нейросети по твоей логике хуевые?
>>683528 >раз ты так противишься прогрессу 7б моделей Рекомендую тебе перестать бороться с образами в твоей голове. >Тебе вот другой уже анон заявляет что опенчат развивается Так кто бы спорил! Прогресс на лицо. Только всё равно хуже полновесных моделей, да. >но ты сиди дальше в своем мирке этакой илитарности только англоязычных моделей 70б+ В общем-то так и делаю. >Конечно я понимаю что кол-во параметров играет главную роль, но и нельзя отрицать, что область только зарождается, и есть подходы значительно улучшающие результаты даже на 7б моделях. Ну да, меня вот печалит, что куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B. В итоге прогресс в 7B большой, но в силу малого размера они всё равно туповатые. А в 70B классе есть застой, и разрыв между 7B и 70B сокращается. Но не потому что 7B такие охуенные, а потому что 70B мало занимаются. Ну ты понял суть. >спрашивал про нормальную модель для русского языка Закрытые GPT4 и Claude3, офк. Опенсорс на русском это боль, вот пруф >с небольшими ошибками (грамматическими 5%) правишь >>683532 Вот это интересная информация, лучше бы сравнений напилил на одном промте и сидах, а то ведь по всем этим вашим перплексиям разницы там 0,00001%. >>683545 >И вообще все нейросети по твоей логике хуевые? Ты не поверишь, но да, я всё ещё лучше любой нейросети в любом вопросе (офк я с гуглом).
>>683456 Побольше скобочек, а то не всем понятно что у тебя жопа горит от того что по факту сказать нечего Так хочется доказать свою правоту и нечего сказать? Делай как этот анон и используй такие же приемчики
Сказать нечего и начинает как уж изворачиваться придумывая всякую хуету Иди ка ты нахуй чсв дурачек со своим близоруким мнением Так как на нормальное обсуждение ты видимо не способен
>>683528 > ты для себя открой, что существует еще заочное обучение Там перечень предметов аналогичен, а не повторяет школьную программу, потому и удивили названия, особенно на 3м курсе. > Тебе рассказать как выглядит процесс? Лучше покажи что-то конкретное. > противишься прогрессу 7б моделей Волна этого прогресса с непревзойденными победами уже была, и это печально. Копиум оттягивает на себя все внимание и ресурсы, которые могли бы пойти на что-то полезное, а на выходе лишь уныние, которое может впечатлять неофитов или ограниченных. >>683545 > Давай покажи мне как твоя любимая 70б модель на русском нормально шутит на эту же тему? Если это "нормальная шутка" то довольно символично. А истории про всякие манипуляции с неграми с применением холодного, огнестрельного оружия, взрывчатки и прочего можешь найти в прошлых тредах.
>>683482 >Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что? Корона не жмет? Угораю с местных вахтеров. То что ты когда то сделал что то полезное не делает тебя кем то важным, прикинь. Я тоже сижу тут с начала слива первой лламы, и че теперь? Шапку не меняют так как анону поебать на нее, даже если там инфа устаревшая несколько раз подряд или не актуальная.
>>683547 >>Ну да, меня вот печалит, что куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B Так в том то и суть ЛОКАЛЬНЫХ моделей что их можно запускать на потребительском железе. Это дает огромную аудиторию энтузиастов и свободу от каких либо правил и ограничений. Таким образом sd развивался и благодаря именно им мы имеем сейчас огромный прогресс в генерации изображений. Что поделать если 70б модели в плане файнтюнинга доступны лишь единицам? Работать с 7б моделями, искать способы их улучшения с помощью костылей, оптимизировать. Это развитие которое приносит результаты здесь и сейчас, и эти результаты можно экстраполировать и на более крупные модели (с развитием консьюмерского железа офкос). Ты предлагаешь сидеть и ждать технического прогресса, игнорируя прогресс в моделях 7б (кстати минимально необходимое кол-во параметров для разных задач тоже спорный вопрос), а я предлагаю развивать уже сейчас и использовать то что уже сейчас возможно (7б - 13б) Короче добавь в шапку опенчат, как лучший на данный момент помощник на русском языке, и, что не мало важно, с возможностью реального применения в помощи по кодингу.
>>683587 Опенчат или старлинг на его основе? Я если что не оп. Просто интересно что лучше. Я новый старлинг щупал, а вот опенчат с которого его сделали нет
Ни ссылки не добавил в шапку, ни кванты новые, ни модели годные. До сих пор висят занимая место старые и никому не нужные как говно мамонта пигмалион и мпт, новых моделей базовых так же нет, а они выходили. Нахуй короче, больше не буду ниче предлагать или кидать ссылки. Это видимо никому уже не нужно, оставлю годноту себе ухух
>>683587 > Так в том то и суть ЛОКАЛЬНЫХ моделей что их можно запускать на потребительском железе. Тыскозал? Их суть в наличии открытых весов и возможности пускать где хочешь как хочешь, все. Вместо радости за прогресс, новые возможности и прочее - начинается специальная олимпиада, где братишки отождествляют себя с моделями, которые запускают(!), а потом искренне обижаются на объективную критику в их сторону, устраивают круговой надроч с победами и постулируют что все остальное - ненужно. Глубинная причина как всегда одна, вот только реализовываться нужно не через запуск ллм и стремиться к лучшему а не сохранению положения, тогда сразу отпустит. > лучший на данный момент помощник на русском языке Сколько постов срача уже который день, а примеры хоть будут?
>>683475 >Лору чтоли тренишь? Да. И говорю же, памяти мало, так что fp8. Я бы ещё батчайз поднял, но всё довольно печально и так. Вот бы пару 4090, лол.
>>683621 > И говорю же, памяти мало, так что fp8 Да без претензий если что. > Вот бы пару 4090, лол. Как тренить предлагаешь? Алсо недавно статью про новый оптимайзер скидывали, не смотрел? Файнтюн 7б на 24гб обещают. И с дипспидом неплохо бы разобраться, он позволяет большую часть данных оптимайзера сгрузить в рам.
>>683620 еще раз глазки свои подними и прочитай название треда. Тут у нас анон с ЧСВ решил что 7б модели нинужны, поэтому у нас в шапке старое бесполезное говно. Еще спорить будешь? По поводу опенчата и его возможностей я уже приводил пример как сдавал сессию,именно на русском языке. Может у тебя есть контр примеры на какой то другой модели? Желательно 7б, чтобы любой анон могу запустить. Ну можешь и 70б локально запущенную показать, ладно, с такой же связностью на русском, ждемс. вот шутку про негров без префилеров тоже ждемс.
В данной работе рассматриваются основные аспекты изучения временной сложности алгоритмов с учетом двух главных критериев – полиномиальной и экспоненциальной сложностей.
Определения и понятия Алгоритм - это последовательность действий или правил, которые используется для достижения определенной цели. В этом контексте алгоритмы часто представляют собой процесс обработки данных или решения задач. Временная сложность алгоритма - это количество времени, затрачиваемое на выполнение алгоритма в качестве функции от размера входных данных. Эта величина характеризует эффективность алгоритма в отношении времени его исполнения. Полиномиальная сложность - это время выполнения алгоритма, которое растет не быстрее чем к кубу размера входных данных. Это означает, что заданный алгоритм может обрабатывать данные размером до нескольких тысяч элементов за достаточно короткое время. Однако с ростом размера входных данных время работы алгоритма будет расти существенно медленнее, чем в случае экспоненциальной сложности. Экспоненциальная сложность - это время выполнения алгоритма, которое растет значительно быстрее, чем к степени размерности входных данных. Такие алгоритмы могут работать с очень большим объемом данных, но их производительность резко падает с ростом размера входных данных. На практике такое поведение может привести к зависаниям программы или долгим задержкам при обработке данных.
Каждая из этих двух критериев - полиномиальной и экспоненциальной сложностей - имеет свои преимущества и недостатки, и выбор оптимального алгоритма для конкретной задачи зависит от её требований к времени и пространству. Комплексное исследование временной сложности алгоритма поможет оценить его эффективность и выбрать наиболее подходящий подход для решения данной задачи.
Методы определения временной сложности
Для определения временной сложности алгоритма могут использоваться следующие методы: анализ алгоритма с использованием математических формул; проверка на практике через симуляцию или реализацию алгоритма в программном коде; применение стандартных тестов временной сложности, таких как Big O Notation.
Первый способ – анализ алгоритма с использованием математических формул – предполагает формальную оценку времени, затрачиваемого на выполнение алгоритма. Для этого необходимо рассмотреть все операции алгоритма и связанные с ними затраты времени. Затем, на основе полученной информации, необходимо построить функцию, которая описывает влияние размера входных данных на время выполнения алгоритма. Результатом такого анализа является числовая оценка временной сложности алгоритма, выраженная в терминах функций сложности, таких как O(n), O(log n) или O(n^3).
Второй способ – проверка на практике через симуляцию или реализацию алгортима в программном коде – предполагает наглядно видеть, как алгоритм работает на различных наборах данных. Для этого необходимо создать программу, которая реализует данный алгоритм и замеряет время его работы на различных наборах данных разного размера. Результатом такой проверки являются конкретные значения времени выполнения алгоритма на различных наборах данных, которые можно сравнить с теоретическими оценками временной сложности, полученными методом анализа математических формул.
Третий способ – применение стандартных тестов временной сложности, таких как Big O Notation – представляет собой упрощенный подход к оценке временной сложности алгоритмов. В этом методе используется общая характеристика сложности алгоритма, выраженная в терминах функций сложности, таких как O(n), O(log n) или O(n^3). Эта характеристика позволяет сравнивать алгоритмы между собой и выбирать наиболее эффективный вариант для решения конкретной задачи. Однако стоит учесть, что данный метод дает лишь общую картину временной сложности алгоритма и не учитывает многие детали, которые могут влиять на его работу.
В целом, методы определения временной сложности алгоритмов включают как формальные аналитические подходы, так и практические проверки на реальных данных, что позволяет получить более полную и точную оценку их производительности. Выбор наиболее подходящего метода зависит от конкретных задач и требований к точности оценки временной сложности.
Примеры алгоритмов с разными типами сложностей
Алгоритм вставки в список - это полиномиально-сложный алгоритм. Он добавляет новый элемент в правильное место внутри списка, перемещая другие элементы, если они находятся перед этим элементом. Сложность алгоритма растет вместе с квадратом размера списка, т.е. O(n^2). Алгоритм удаления элемента из списка также имеет полиномиальную сложность, поскольку он должен перемещать остальные элементы после удаляемого элемента влево. Сложность алгоритма растет вместе с квадратом размера списка, т.е. O(n^2). Сортировка пузырьком - это полиномиально-сложный алгоритм. Он использует сравнение каждого элемента со всеми остальными элементами в списке и меняет их местами, если они находятся в неправильном порядке. Сложность алгоритма растет вместе с кубом размера списка, т.е. O(n^3). Быстрая сортировка - это алгоритм с экспоненциальной сложностью. Он использует рекурсивный подход и делит список на две части, сортируя каждую часть независимо друг от друга. Затем результаты двух частей объединяются обратно в один список. Сложность алгоритма растет экспоненциально с ростом размера списка, но этот алгоритм работает очень эффективно на больших наборах данных, где время обработки является менее значимым фактором. Бинарный поиск - это алгоритм с экспоненциальной сложностью. Он использует двоичное дерево поиска и делит список на две половинки, пока найденный элемент не будет находиться в одной из них. Сложность алгоритма растет экпоненциально с ростом размера списка, но этот алгоритм работает очень эффективно на больших наборах данных, где количество элементов известно заранее. Таким образом, приведённые примеры алгоритмов иллюстрируют различия между полиномиальной и экспоненциальной сложностями и помогают выбрать наиболее подходящий подход для решения заданной задачи. В заключение следует подчеркнуть важность оптимизации кода и использования специализированных структур данных для повышения производительности программного обеспечения.
Заключение Изучение временной сложности алгоритмов является важным аспектом компьютерного дизайна и разработки программного обеспечения. Различия между полиномиальной и экспоненциальной сложностями помогают выбрать наиболее эффективные методы решения задач.
Положительная сторона полиномиальной сложности заключается в том, что такие алгоритмы могут обрабатывать достаточно большие наборы данных за достаточно короткое время. Однако с ростом размера входных данных время работы полиномиальных алгоритмов может существенно возрастать, что может быть проблемным в случаях, когда требуется обработать очень большое количество данных или необходимо быстрое решение задачи.
Отрицательная сторона полиномиальной сложности заключается в том, что такие алгоритмы могут быть ограничены своей производительностью при обработке очень больших наборов данных, которые могут возникнуть в современных информационных системах и приложениях.
С другой стороны, экспоненциальная сложность характеризуется более высокой производительностью при обработке очень больших наборов данных, однако с ростом размера входных данных время работы экспоненциальных алгоритмов может существенно возрастать, что может привести к задержкам и зависаниям программы.
Минусом экспоненциальной сложности является то, что такие алгоритмы могут быть ограничены своей производительностью при обработке очень маленьких наборов данных, что может быть неприемлемо для многих современных информационных систем и приложений.
Блять я поборол даже свою лень и нашел реферат который мне опенчат писал(не весь, длина сообщения ограничена). Да мне поставили за него 4. Вопросы? Вахтер оп все так же будет упираться в нинужности опенчата?
>>683633 Спокойнее будь на тебя никто не нападает, а со стороны у вас просто недопонимание и накручивание которое не сделает мелкие веса умнее фьют ха!. Даже 3б и меньше нужны, тут и вопросов быть не может. Ты лучше покажи что тот опенчат может. > вот шутку про негров без префилеров тоже ждемс Рофлишь или серьезно? С каких пор это считается крутым достижением? > Ну можешь и 70б локально запущенную показать 120б локально запущенную показывал и ее русский, врядли у мелочи будет какой-то шанс.
>>683641 chatgpt/10, приходи не пересдачу! Ну серьезно, отборная нейронная вода, которую сложно читать, без полезного содержимого. Буквально в любой конец мотаешь и видишь треш > Положительная сторона полиномиальной сложности заключается в том, что такие алгоритмы могут обрабатывать достаточно большие наборы данных за достаточно короткое время. Однако с ростом размера входных данных время работы полиномиальных алгоритмов может существенно возрастать, что может быть проблемным в случаях, когда требуется обработать очень большое количество данных или необходимо быстрое решение задачи. > С другой стороны, экспоненциальная сложность характеризуется более высокой производительностью при обработке очень больших наборов данных, однако с ростом размера входных данных время работы экспоненциальных алгоритмов может существенно возрастать, что может привести к задержкам и зависаниям программы. Так что тебе очень повезло, или твой вуз неочень. Офк сама возможность писать текст на русском это уже круто и год назад такого не было. Вот только это буквально прямая иллюстрация копиумности 7б, когда она лишь валит малосвязанные повторяющие простыни по мотивам, а не содежательное-интересное, действительно дежавю с рп на 7б.
>>683656 >модели белых людей Такие же тупые? разница между 7b и 70b не так высока как ты себе навоображал хех И вобще, включайте голову наконец, он пишет не о рп сетке Просто сетка как чат бот для какой то генерации информации по довольно общим темам с достаточным для понимания русским Докумились в конец дрочеры, раз все по рп-ерп оцениваете
>>683663 Хуя пичот. Ну рили с этого только рофлить остается, хз при чем тут рп или не рп. Братишка словил утенка с какой-то модели, и теперь вайнит что ее отказываются ставить на пьедестал лучшей из лучших, а под это не обремененные железом встрепенулись и начали затирать про то что хорошо а что плохо. Или это один и тот же человек, не важно.
>>683650 У нас опенчат экстрактит из произвольных документов сущности и ключевые слова в структурированный json. Я считаю что сегодня первичная роль LLM - это клей в преобразовании неструктурированных данных в структурированные. Логики тут много не надо, эрудиция даже лишняя. А возможности существующих информационных систем это расширяет в разы. Сегодня даже этот потенцивал не раскрыт на 1/10.
>>683671 я вайню от устаревшей шапки. Любой мимо анон найдет больше полезной и практичной инфа на хабре и любом другом источнике, а здесь именно что загон для утят с их 7б нинужно. А ведь я на реальном примере показал нужность модели, и да это такая же "какая то модель" как и ваши фальконы и другой нинужный кал который есть в шапке, но которая имеет реальную пользу для анона.
>>683671 Ну дак ты почитай их переписку умник Один пишет - мне норм сетка хороша в русском достаточно что бы я мог сдать тесты, указывает на ее ошибки и минусы, и спрашивает почему подобных сеток нет в шапке. Не как топовых сеток, а просто 7b которая может в русский как чат бот и даже полезна Тут же вылезли или вылез дурачек что начал спорить что ниче она в русский не может, пишет не так красиво, сравнивает ее с рп и тд, и вобще ты бамжара раз не можешь крутить 70b как белые люди с 1 т/с лел Ну и какой вывод из всего этого? Чувак прав, в шапке не хватает одной-двух строчек с просто списком сеток на русском. Что скажет оп? Не, не надо. Я ж заранее знаю лол
>>683680 Тут шизики сидят, после смерти CAI всё это говно сюда притекло. Ты посмотри хотя бы как тут оценивают адекватность моделей, какой-то "кум" и "рп", как будто с душевнобольными разговариваешь, неспособными объяснить свои мысли.
>>683624 >Как тренить предлагаешь? Зеро-3 и понеслась. Без дипспида толком ничего не сделаешь на самом деле. Трансформерсы тупо дублируют все состояния оптимизатора на все гпу и нет разницы, один он у тебя или сотня. Если в одну карту модель вместе со всеми оптимизациями и градиентами не влезла - то соснёшь. Новый оптимайзер смотрел, там неделя на 4090, а её у меня нет. Карты, в смысле. Неделя-то найдётся. Дипспид да, выгрузка в рам это зеро-2 офлоад и через ллама фэктори можно это всё запускать. Плохо, что множество опций фабрики не вынесено в интерфейс и всё только консолькой с конфигами. Но куда деваться.
>>683672 Если четко делает то это довольно таки неплохо. С таким yi-образные хорошо справляются вообще, причем четко понимают обстракции и соображают, но вот мистраль вяло. Надо будет офк попробовать и новый опенчат, но судя по бредогенератору, больших надежд не стоит питать. Про раскрытие потанцевала согласен, но пути не то чтобы те. >>683675 >>683684 Не так быстро как хотелось бы, но достаточно для реалтайм чата. >>683680 Ну тут справидливо наверно, но лучше оставить моделесрач а давать конкретные предложения. > больше полезной и практичной инфа на хабре и любом другом источнике Да ладно, и какой же? Как весной 2д24го года запускать 7б сайгу?
>>683680 Так у них первая мысль ролеплей или эротический ролеплей, кумеры Поэтому и оценивают 7b с этой точки зрения, потому что 7b не хватает мозгов на нормальный отыгрыш, слишком мало у нее слоев для таких глубоких абстракций и кучи инструкций.
Но помимо рп ерп есть и просто использование сетки в предусмотренном разрабами режиме, и тут 7b внезапно нормальные такие чат боты, хоть и туповатые, да. Или делать какой то код, или писать регексы, или обучать кодингу, или отвечать на тупые вопросы. Да хоть в раг сувать для извлечения инфы по работе.
>>683633 >Тут у нас анон с ЧСВ решил что 7б модели нинужны ? Я лишь утверждал, что они говно (по сравнению с более крупными моделями). Просто нужно быть честным с собой и понимать, что 7B катают не от хорошей жизни, а от недостатка ресурсов. >>683653 >потому что контекст говно Эм, 8-16к хватит каждому. >>683663 >Докумились в конец дрочеры, раз все по рп-ерп оцениваете Так дроч это одно из самых разумных использований локалок. Если мне нужно будет покодать, я в GPT4 пойду, он всё таки умнее. >>683680 >я вайню от устаревшей шапки. Кидай конкретные предложения. >>683689 >Я ж заранее знаю лол Ну да. Смысл на русском? Я просто не понимаю, зачем катать локалки на русском. Лучше же на английском и перевести, качественнее будет, контекста больше доступно.
>>683699 да и в рп может(опять же в определенных задачах), я игру потихоньку делаю, если терпения хватит, по принципу CAULDRON WITCh, то есть ты даешь различные эликсиры различным персонажами с их проблемами, и сеточка вполне нормально описывает события. Например приходит крестьянин, ему нужно вернуть жену, а ты даешь ему зелье силы, и сеточка неплохо расписывает результат с учетом зелья (в жанре черной комедии), дает оценку этой истории ( - или + и 0 до 10) что нужно для игровой составляющей. Получается любой анон сможет поиграть в эту игру, так как ггуф версия опенчата 7гигов. Далее новый оптимайзер выкатили я смогу на своей 4090 подфайнтюнить ее под эту игру. Опять же это развитие именно 7б сеток, что ОП игнорит в своем утятстве.
>>683710 >Ну да. Смысл на русском? Я просто не понимаю, зачем катать локалки на русском. Лучше же на английском и перевести, качественнее будет, контекста больше доступно. Хочу. И вот анон хочет. И еще кто то всегда приходит и спрашивает первым делом русский. Ты не по своим только хотелкам смотри. Нравится может мне на русском их катать, даже если они тупее от этого и контекст жрет. Хотя с текущими размерами на него похрен, мы уже не год назад с 2к контекста все таки.
>>683699 Что несешь? Но (е)рп это действительно главная задача сетки для нормиса, и 7б страдают от нехватки вниманий для понимания абстракций и прочего, и проявляется это как раз далеко не только в рп, в том и вся проблема. Есть и задачи где их большее чем хватит, непонятно зачем их так превозносить. >>683710 Да ладно, не смотря на техническую направленность доски, немалая доля здесь инглиш знает плохо и постоянно лезут вопросы о том "как на русском". Кому-то, опять же, просто может нравиться пользоваться на великом-могучем, так что вопрос актуален. Кмк, нужно прямо расписать текущее положение, что но большинстве сеток (в т.ч. гопоте) это приведет к деградации и затупам, есть несколько мультиязычных моделей, они не блещут умом, но могут подойти для чего-то. И по переводу таверны.
>>683710 >Кидай конкретные предложения. 1) каждый отписывается какой стек использует, какие техи, либы, запускалки, морды, модели и прочие костыли, считает нужным упомянуть 2) пилите опрос с мультиселектом в котором будут перечислены что назвали 3) что выйдет в топ - рапсиываем в шапку
>>683727 >Но (е)рп это действительно главная задача сетки для нормиса Ну, ты по себе то всех не равняй окей? 7b были тупыми, год назад, и даже пол года. Сейчас они гораздо лучше, да они все еще тупее остальных, но дадут за щеку старым 30b которыми все так восхищялись в начале. И че теперь? К тому же дело в однобокой оценке моделей.
>>683723 >И еще кто то всегда приходит и спрашивает первым делом русский. Так то от незнания проблем и ограничений. Вкатуны не знают, как работает токенизация, какой процент материала на русском у нейросеточек в датасетах и прочее. Для них это магия, и нейросети по их мнению прекрасно отвечают на любом языке. >>683727 >немалая доля здесь инглиш знает плохо Ну так и я знаю плохо, лол. Пишу через переводчик всегда, на чтение иногда напрямую читаю. >>683731 >пилите опрос с мультиселектом У нас тут уже перекат на носу, некогда. А то будет ещё один тред без русека в шапке, человек ещё целый тред вонять будет. >>683734 >Ну, ты по себе то всех не равняй окей? Ну вот я тоже для урп гоняю.
>>683731 Опций в целом немного, но просто перечислить используемые модели можно с краткой характеристикой, будет полезно. По опросу же - какой в нем смысл? Там должна быть универсальная, умная и легковесная модель, которая запустится у неофита, будет толерантна к формату промта. Плюс, которая сможет и ответить на что-то, и отыграть персонажа. Фроствинд все это умеет. Возможность писать на русском - плюс, но не самый весомый критерий, если тот опенчат превзойдет полугодовалую модель - вперед, но это видится маловероятным. Упомянуть его в качестве мелкой модели что может в русский - почему бы и нет. >>683734 > 7b были тупыми, год назад, и даже пол года > Сейчас они гораздо лучше Революцию принес мистраль, дальше только вялое копошение, объективно. Прувмивронг. > дадут за щеку старым 30b Ну не, они залупятся на месте или начнут спамить малосвязанную воду. Чудес не бывает, увы.
Не удивлюсь что обладатели отсутствия, неистово воюющие за превосходство 7б, испытывающие страх перед питоном, тащащие конспирологические теории и адепты agi - одни и те же люди. Треду нужен мем, который бы это обыгрывал.
>>683710 >>Кидай конкретные предложения. я уже писал выше, добавить - опенчат быстрая нетребовательную модель которая может в русский, может в кодинг, может в помощью в учебе (написание рефератов, решение тестов реалтайм и тд) OpenChat - это инновационная библиотека языковых моделей с открытым исходным кодом, доработанная с помощью C-RLFT - стратегии, вдохновленной автономным обучением с подкреплением. Обучается на данных смешанного качества без меток предпочтений, обеспечивая исключительную производительность наравне с ChatGPT, даже с моделью 7B."
>>683734 > в однобокой оценке моделей И ебать, о какой однобокой оценке вообще идет речь? Это буквально характеризует возможности модели, где она может себя проявить, и сочетает все-все. Ну, кроме надрочки на простенькие зирошоты ради бенчмарков, которая нахер не сдалась при использовании и будет дропнута после 5 минут игр.
>>683750 >Ну не, они залупятся на месте или начнут спамить малосвязанную воду. Чудес не бывает, увы. Давно щупал 7b? Ни разу не видел лупа на месте, или спам воды. Сейчас их так выдрочили что они даже слишком упорядоченными и логичными стали. Все еще тупые да, но ровненько так
>>683752 >обеспечивая исключительную производительность наравне с ChatGPT Такому маркетинговому тексту места точно в шапке нет.
В общем я предлагаю снести из шапки абзац про форматы весов, а после блока со справкой "Базовой единицей обработки" добавить что-то типа
>Базовым языком для языковых моделей является английский. Он приоритетен для общения, на нём проводятся все тесты и оценки качества. Но при этом большинство моделей мультиязычны, и в их датасетах присутствуют разные языки, в том числе и русский. Все модели достаточно хорошо понимают русский на входе. Для качественного вывода на русском рекомендуется использовать модель openchat-3.5-0106. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества в виду ошибок при обучении
>>683750 > Фроствинд все это умеет. Тебе уже 2 или 3 треда говорят что фроствинд устарела. Сам же автор ее поставил на первое место другую свою модель, которая делалась на доработанном датасете фроствинд.
>>683760 Каждый раз когда идут заявления про такую революцию - скачиваю что-то "крутое" и получаю разочарование на фоне заявлений. Нет, для 7б они хороши и это приятно, но на крутую йоба модель что может все - не тянут. Потом спрашиваю "ну покажите как она ебет" а в ответ как раз те самые лупы и вода, которые автор воспринимает за крутой текст, в лучшем случае. Они действительно улучшились в простом, и это не может не радовать, но как только просишь что-то большее - сразу магия рассеивается и вываливаются все потроха. Кстати, первый мистраль в этом был неплох, модель будто осознавала свои ограничения и вовремя останавливалась, не стесняясь ответить только на часть а на остальное отказать, или даже задать наводящий вопрос что мог бы ей облегчить ответ. В новых файнтюнах эту "заглушку" убрали и результат на лицо. >>683767 А что еще? Кодинг? Ну рили без кринжа туда не взглянешь, оно сразу сыпется на сколь более сложно задаче. >>683775 > Тебе Таблетки > поставил на первое место другую свою модель, которая делалась на доработанном датасете фроствинд Ее оценить и поставить тогда, но не просто по заявлениям а хотябы с беглой оценкой
>>683770 Двачую, разве что > Но при этом большинство моделей мультиязычны > Но при этом некоторые из моделей мультиязычны Их действительно меньшенство.
>>683793 Почему это? Просто как минимум все лламы, мистрали и все их файнтюны мультиязычны. Даже китайские владеют как минимум китайским и английским. Хотя тут вопрос в терминологии, что называть мультиязычной. Если модель, которая хоть как-то понимает другие языки, то там чуть ли не пигма могла выдавать бред на русском. Если считать по качеству, сравнимом с английским, то тут разве что корпоративные справятся.
>>683799 Да потому что по дефолту они слабы не на-английском, даже вон немцы бугуртят орубля Можно перефразировать типа > Базовым языком для языковых моделей является английский. Он приоритетен для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных примером может служить openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества в виду ошибок при обучении. Или более аккуратно написать > то тут разве что корпоративные справятся Ну клод неплох, а так даже гопота деградирует и может ошибаться.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: