Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №46 /llama/

>>676902
В таверне есть аддон Web search. Я сам не пробовал пока что, но вроде оно должно как-то так и работать что ты описал.

Аноним 21/03/24 Чтв 09:54:29 #24 №676914

>>676680
Это что, выходит 7б (?) можно вяло но файнтюнить на 24 гиговых? Интересно сколько влезет в 48/96гб. Действительно прорыв. Тот же метод бы для других нейронок применить, коху того же пнуть.

Аноним 21/03/24 Чтв 10:28:36 #25 №676917

>>676914
ну да, по сути почалось, только доступна всего лишь одна гпу, как сказал анон выше, на двух и более не работает.. пока что.
там же на реддите подсчитали что для полной тренировки (или только файнтюна??) нужно ~110 дней нонстопом с rtx 4090.

Аноним 21/03/24 Чтв 10:28:49 #26 №676918

>>676914
А раньше нельзя было? Или только лоры помещались?

Аноним 21/03/24 Чтв 10:34:54 #27 №676920

>>676842
Потом допилят больше карт. Может быть. Или как неленивый, спрячут мультигпу за пейволлом.

Аноним 21/03/24 Чтв 10:42:20 #28 №676923

Не подвезли ничего нового, чтобы изкаробки локальный RAG по тыщам пдфок, как в чате с ртх, но без ртх?

Аноним 21/03/24 Чтв 11:44:34 #29 №676961

>>676910
Спасибо, гляну, но мне кажется это кушать много будет.
Нужна моделька макс 1b, чтобы загрузил в gpt4all и все. Красиво и быстро, и не жрет.

Аноним 21/03/24 Чтв 11:55:07 #30 №676963

>>676411
Предварительная работа:
1) при помощи LLM строишь массив ключевых слов
2) при помощи кожаных мешков причёсываешь массив ключевых слов
3) при помощи LLM размечаешь каждый вопрос/ответ ключевыми словами, кладёшь их в БД

При запросе:
1) Просишь LLM сформировать ключевые слова по запросу
2) Дергаешь обычный поиск по ключевым словам в БД
3) Скармливаешь в контекст LLM все найденные в БД вопросы/ответы как справочный материал
4) Просишь LLM серануть ответ

На сегодня это самый предсказуемый вариант, который в принципе можно отлаживать.

>>676417
Вектора сегодня неуправляемые. Если ты не готов файнтюнить embedding модель под свою задачу, то лучше не тратить время и силы. Но надеюсь их приведут в порядок в ближайшее время.

Аноним 21/03/24 Чтв 12:14:10 #31 №676967

Вопрос по железу.
А какое кол-во токенов в секунду обеспечивает максимально низкую задержку для среднего по размеру сообщения (ну допустим 140 символов).
Типичный чатинг в телеге. И можно ли вообще настроить чтобы ответ был целиком после формирования, а не прописывался в реалтайм.
Разумеется для разных моделей, будет разный результат, ну возьмем 7b и 70b. Есть данные или личный опыт?

Аноним 21/03/24 Чтв 12:16:59 #32 №676968

>>676967
>А какое кол-во токенов в секунду обеспечивает максимально низкую задержку для среднего по размеру сообщения (ну допустим 140 символов).
>А какое кол-во километров в час обеспечивает максимально низкую задержку для пересечения среднего по размеру расстояния (ну допустим 140 метров).
Чем больше, тем лучше, очевидно.

Аноним 21/03/24 Чтв 12:22:14 #33 №676970

>>676400 (OP)
Как (быстро) сделать русский локальный ChatGPT
https://habr.com/ru/articles/759386/

Аноним 21/03/24 Чтв 12:24:12 #34 №676972

>>676967
>чатинг в телеге
Алсо добавлю, что в телеге в большинстве случаев не надо уменьшать лаг. Люди психологически лучше принимают сообщение "печатаю" и спустя несколько секунд ответ, чем мгновенную реакцию.
У нас в боте вообще специально задержка добавлена.

Аноним 21/03/24 Чтв 12:49:08 #35 №676999

А возможно ли запустить на нейросетке луп, чтобы в неё постоянно поступала информация и генерировался на неё ответ? Такая себе имитация сознания

Аноним 21/03/24 Чтв 12:58:21 #36 №677010

>>676970
> русский локальный ChatGPT
> по факту допинали лорой первую 13в альпаку чтобы по-русски хоть как-то шпрехала
Вспоминается мемас про "мам, купи Х! у нас есть Х дома! Х дома: какая-то шляпа". Абсолютно кликбейтный заголовок, как по мне, за такое надо банить и гнать ссаными тряпками подальше от ресурса

Аноним 21/03/24 Чтв 13:01:12 #37 №677013

>>676999
Да блин в таверне же можно в комнату несколько персонажей посадить и настроить чтобы они автоматом генерили сообщения по таймеру. Будут вечно срать друг другу что-то, думаю со временем там начнется вечная шиза.

Аноним 21/03/24 Чтв 13:04:51 #38 №677016

А что ничего нового для куминга не появилось? Заходил 2 года назад в тред был LLaMA и сейчас опять по факту только он, может хоть он улучшился или до сих пор та самая первая версия и есть?

Аноним 21/03/24 Чтв 13:05:41 #39 №677018

>>676967
Во-первых, человек пишет не так уж и быстро, так что формат переписки поддерживают даже процы на моделях 34B размера. 1-1,5 токена/сек — вполне себе переписка в телеге.
Норм видяхи выдадут уже гораздо бо́льшую скорость.
Во-вторых, ты говоришь о режими стриминга, который, конечно, отключается без проблем.

Из личного опыта, могу предложить, для русского языка, взять command R 35B на одну Tesla P40, скорость будет отличная — просто летать для телеги.
Ну или она же на процессоре (лучше DDR5 в двухканале, но пойдет и DDR4 в двухканале или DDR3 в четырехканале) — будет как средне-пишущий человек.
Но можно брать 70B на двух теслах — или 7B на проце. Скорость будет в районе 6 токенов/сек, неплохая.

Единственный совет, для малых сообщений на русском я подобрал:
"mirostat_mode": 2, // 1 для llama.cpp
"mirostat_tau": 1,
"mirostat_eta": 0.9,
Вроде отвечает лучше.

>>676970
Шо це?

>>676972
Плюсую, за скоростью можно не гнаться, это не голосовой ассистент.

>>676999
Это просто программирование, обычный скрипт. Запускай.

Аноним 21/03/24 Чтв 13:07:33 #40 №677019

>>677016
Нифига у тебя с чтением плохо, братиш.
Сочувствую.
Тут даже хз, че сказать.
Ну, вкратце, нет, не первая, а вторая, и не вторая, а мистраль, и не мистраль, а мерджи, и не мерджи, а токсик или дпо мерджи, и не дпо мерджи, а мое дпо мерджи, ну или что-то из раннего.
Но если ты ждал революцию, то, прости, веса GPT-5 еще не выложили.

Аноним 21/03/24 Чтв 13:12:09 #41 №677023

как в кобольда засунуть модельку если у меня некропроц без AVX2? есть поддержка вулкана без авх, но ошибка пикрел
в чем проблема?

Аноним 21/03/24 Чтв 13:14:09 #42 №677026

>>676967
Разумеется. Интересует оптимальный вариант и железо под него. Условные 2 секунды на полноценное предложение.
>>676968
>>676972
Это да, но это телега, а тут задача уменьшить лаг до уровня тележного общения. Надеюсь объяснил.
Сейчас у меня 6-8 токенов секунду (токен не равно слово) и это долго. Вот и хочу узнать какое железо мне нужно, чтобы полноценное предложение в пару секунд получить.

Аноним 21/03/24 Чтв 13:15:22 #43 №677027

>>677019
Иду по этому гайду:
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:

У меня вопрос, если у меня видюха с 4гб, мне процом генерить? или с видюхой даже с 4гб будет быстрее?

Аноним 21/03/24 Чтв 13:19:05 #44 №677030

>>677027
если видюха нвидима то выбирай с кублас и будет побыстрее, но слои на нее не сгружай, толку не будет

Аноним 21/03/24 Чтв 13:30:34 #45 №677038

>>677018
Я пытаюсь получить ощущение активной переписки с человеком (расщитать). Так как это оптимально.
Ключевое слово активной, когда вы здесь и сейчас решаете вопрос. Написал-получил ответ.
Понятно с человеком чаще идет режим ленивой переписки: ты написал и отложил телефон, ждешь, тут ты нацелен на получение ответа, чем быстрее тем лучше.

Аноним 21/03/24 Чтв 13:36:29 #46 №677043

>>677026
Во-первых, ты не сказал, какую модель гоняешь.
Во-вторых, ты как-то неадекватно воспринимаешь «лаг уровня тележного общения». Сам ты вряд ли можешь выдать 8 токенов в секунду. Если тебе нужно быстрее — значит тебе надо что-то гораздо быстрее тележного общения.
Попробуй засечь, сколько ты печатаешь текст, а потом вставить в Token counter.
У меня выходит 3~3,5 токена в секунду при моей печати в 400+ символов в минуту.
8 токенов — это уже 1000 символов в минуту. =) 140 символов при 8 токенах выдается за ~10 секунд.
Обычные сообщения могут содержать по 30-40 токенов, это уже 2-3 секунды. Если у тебя дольше — значит дело где-то не в LLM.
Математика.

>>677027
Да, как уже сказали, контекст держишь на ней, но слоев выгружаешь 0.

Аноним 21/03/24 Чтв 13:37:02 #47 №677045

>>676917
> только доступна всего лишь одна гпу, как сказал анон выше, на двух и более не работает..
Ээээ, хуясе ебать.
> что для полной тренировки (или только файнтюна??) нужно ~110 дней нонстопом с rtx 4090
Что понимают под полной тренировкой? Просто для файнтюна это слишком долго, для базовой модели слишком быстро(?), интересно.
>>676918
> только лоры помещались
this

Можно тогда хотябы оценить сколько уйдет на дотрен 13б, например. Не то чтобы перспективно с учетом возможного выхода ллама3, но там ведь тоже будет версия поменьше, там применить наработки.

Аноним 21/03/24 Чтв 13:37:30 #48 №677046

>>677043
*по 30-40 символов, офкк

Аноним 21/03/24 Чтв 13:51:55 #49 №677051

>>677018
>Но можно брать 70B на двух теслах — или 7B на проце. Скорость будет в районе 6 токенов/сек, неплохая.
Уменьшение скорости генерации с увеличением размера промпта наблюдается?

Аноним 21/03/24 Чтв 13:53:41 #50 №677052

>>677051
Зависит от промпта. =) Для 200-300 токенов несущественное, для карточек на 2500 токенов — безусловно.
(точнее, не скорости генерации, а total)

Аноним 21/03/24 Чтв 13:54:22 #51 №677053

>>677043
Модель не имеет значение. Суть в том, что она выдает на моем железе 6-8 токенов в секунду. По ощущениям это долго. Интуитивно, так как я ничего пока не измерял, просится примерно в 3-4 раза быстрее. Дальше был вопрос, какое железо нужно, чтобы достичь такого результата на 70b как самый пока оптимальный, и 7b как на начальный уровень. :)

Аноним 21/03/24 Чтв 13:58:20 #52 №677056

>>677053
Ну, вы чушь несете, но ладно. =)
RTX 3060 хватит, чтобы гонять 7B модель со скоростью под 22-27 токенов, точнее не скажу.
RTX4090 (одна-две штука=) хватит, чтобы гонять 70B (в ужасном или хорошем) кванте со скоростью 35 или 20 соответственно.
Проц с DDR5 выдаст, я предполагаю, максимум 15 токенов на 7B модели (пусть меня поправят), я бы предпочел брать 3060 как универсала, ИМХО.

Аноним 21/03/24 Чтв 14:02:54 #53 №677060

>>677010
>за такое надо банить и гнать ссаными тряпками подальше от ресурса
Чел, это Хабр, та ещё помойка с кликбейтом и на месяц устаревшими новостями.
>>677023
Купи процессор.
>>677053
>какое железо нужно, чтобы достичь такого результата на 70b
Или 2х3090, или проф карты. Можешь сторговаться с аноном-перекупом с А100, если он ещё держит ))

Аноним 21/03/24 Чтв 14:08:36 #54 №677065

>>677052
Просто скинь скрин что печатает жора при обработки большого контекста с нуля, хоть просто тред на вход скопипасти и нажми generate
>>677060
> Можешь сторговаться с аноном-перекупом с А100, если он ещё держит
Еще рано фиксировать прибыль, лол. Но если надумает по дешману отдать - предложение может быть рассмотрено.

Аноним 21/03/24 Чтв 14:15:01 #55 №677073

>>677056
Пусть будет так, но в итоге ты почти ответил на мой вопрос:)
Т. е 35 т/с это в 5 раз быстрее чем у меня сейчас. Вроде, так как мне проверить негде, это должно быть норм. А где то можно это померить онлайн? Визуально посмотреть? Например задать кол-во т/с и посмотреть сколько он будет его печатать. Заранее вставленный текст допустим?

Аноним 21/03/24 Чтв 14:18:22 #56 №677077

>>677073
скачай модель поменьше, 3b или 1b и играйся со скоростями вывода

Аноним 21/03/24 Чтв 14:42:00 #57 №677089

>>676745
Да, пруфов не будет.

Аноним 21/03/24 Чтв 14:48:37 #58 №677092

>>677056
>RTX 3060 хватит, чтобы гонять 7B модель со скоростью под 22-27 токенов, точнее не скажу.
я скажу точнее: на 3060 30т/с 7В вот такой квант 8.0bpw-h8-exl2 проверено на разных файнтюнах и мержах мистраля, все что квантовано сильнее будет еще быстрей само собой

Аноним 21/03/24 Чтв 14:52:53 #59 №677096

>>677052
>(точнее, не скорости генерации, а total)
А интересует именно скорость генерации. Лично у меня при заполнении контекстного окна в 8к скорость снижается до 3,4 токенов в секунду (собственно она линейно снижается с увеличением размеров промпта). Если это только у меня так, то оно и ничего - поправим, а если нет, то 6 токенах в секунду речь не может идти. Скорее уж о трёх :)

Аноним 21/03/24 Чтв 15:10:35 #60 №677108

>>677043
>>677030
Правильно сделал? а контекст сайз сколько ставить? у меня видюха 970 с 4гб и оперативки на компе 32гб

Аноним 21/03/24 Чтв 15:11:36 #61 №677110

>>677056
Хуя ваши нвидии гоночные. У меня 7Б модель просто в оперативке ддр4 без юза видеокарты как я понимаю выдает 3,8 токена в секунду, да и это пиздец как нормально, ты даже читать не успеешь с такой скоростью, типо куда вы спешите вообще.

Аноним 21/03/24 Чтв 15:22:19 #62 №677117

>>677110
>да и это пиздец как нормально, ты даже читать не успеешь с такой скоростью, типо куда вы спешите вообще.
Оно как бы да, ответ начинает выводится почти сразу и скорость в 3t/s неплохая, особенно для больших моделей. Вот только разница с 6t/s очень заметна. 6t/s - это уже комфорт.

Аноним 21/03/24 Чтв 15:23:29 #63 №677119

>>677108
Разобрался, теперь еще вопрос, подскажите пожалуйста а как из режима чата сделать режим истории? что бы я ему тему какую-то задал а он начал историю писать?

Аноним 21/03/24 Чтв 15:28:39 #64 №677124

>>677077
>>677092
Короч, нашел видос.
https://youtube.com/watch?v=z4wPiallZcI
Чел на четвертой минуте запускает.
Метрики на экране. 7b mistral
102 т/с. , всего 41 токен, ответ выдает за пол секунды. И скажу это было очень быстро. Я бы сказал очень не комфортно.

Аноним 21/03/24 Чтв 15:46:29 #65 №677132

>>677073
ЕЩЕ И ПОЧТИ? ТЫ гля, який неблагодарный! )

Проверить онлайн — не знаю. Token counter гуглил, проверку скорости не гуглил.

>>677092
Я в начале написал 25-30, но потом решил не рисковать, чтобы не обнадеживать человека лишний раз. =) Поэтому и занизил планочку.

>>677096
Хм? Окей, сейчас проверю, но по идее — не должно.
А, ты прав, упала генерация.

>>677110
Да.
Там на грани мгновенных ответов.
Люди делятся на два типа:
1. Я читаю в стриминг режиме, зачем мне быстрее?
2. Я читаю готовый ответ по диагонали, мне надо сразу.
=)
Я понимаю обе стороны, поэтому не сильно гонюсь.

Аноним 21/03/24 Чтв 15:48:06 #66 №677135

Конечно! Начну с того, что для реализации вашей идеи можно воспользоваться технологией LlamaIndex. Она позволяет создавать индексы для больших баз данных и использовать их для поиска контекста и вывода ответов с помощью языковых моделей, таких как Llama 2 или Vicuna.

Сначала необходимо создать индекс для вашей базы данных вопросов и ответов с использованием LlamaIndex. Затем вы можете использовать эту модель для поиска контекста по вопросу пользователя и вывода соответствующего ответа из вашей базы данных.

Важно отметить, что LlamaIndex использует векторное представление данных для поиска контекста, поэтому вопросы и ответы должны быть представлены в виде векторов. Это может быть достигнуто путем преобразования текстовых данных с использованием моделей эмбеддинга, таких как sentence-transformers или Hugging Face's transformers.

После того, как индекс будет создан и ваши данные будут преобразованы в векторное представление, вы сможете использовать LlamaIndex для поиска контекста и вывода ответов. Этот процесс включает в себя два основных шага:

Поиск контекста: вы можете использовать LlamaIndex для поиска контекста по вопросу пользователя. Этот поиск основан на сходстве векторов и позволяет найти наиболее соответствующие контексты из вашей базы данных.

Вывод ответов: после того, как контекст будет найден, вы можете использовать языковую модель (например, Llama 2 или Vicuna) для вывода ответа на основе найденного контекста и вопроса пользователя. Этот шаг может быть выполнен путем обработки контекста и вопроса пользователя как входных данных для языковой модели и получения ответа от нее.

В целом, реализация вашей идеи с использованием LlamaIndex и языковых моделей может быть довольно простой и эффективной. Надеюсь, эта информация поможет вам в вашей работе!

———
А хули, зря что ли 8к контекста жевала 4 минуты. =)

Аноним 21/03/24 Чтв 15:48:19 #67 №677136

>>676400 (OP)
Кто-нибудь пробовал PowerInfer?
https://github.com/SJTU-IPADS/PowerInfer

Аноним 21/03/24 Чтв 15:50:13 #68 №677140

>>677119
>как из режима чата сделать режим истории? что бы я ему тему какую-то задал а он начал историю писать?
Settings - Format на первой вкладке

Аноним 21/03/24 Чтв 15:54:48 #69 №677146

Насколько 4бит мику тупее 5бит? Задачу про козу и капусту еще решает или уже нет?
А то меня бесит скорость 1.8 токена в секунду на 5 битке(и это с оффлоадом трети слоев на 4090)

Аноним 21/03/24 Чтв 16:04:24 #70 №677153

>>677140
А почему модель так быстро пытается закончить историю, как заставить её более подробно каждый момент описывать?

Аноним 21/03/24 Чтв 16:12:25 #71 №677156

а есть сайт где есть готовые промпты для кобольта? с разными сценариями, где заполнено world info, Author's Note и т.д?

Аноним 21/03/24 Чтв 16:16:26 #72 №677160

>>677132
>А, ты прав, упала генерация.
Ну, утешением нам служит то, что у людей со связкой 4090+3090 скорость генерации выходит не намного выше :) Конечно они могут exl2 использовать и вообще всё могут, но вот c GGUF-моделями примерно в том же положении. До бытовых нейроускорителей доживём, а там видно будет.

Аноним 21/03/24 Чтв 16:30:29 #73 №677167

>>677156

Тебе сам кобольд несколько сайтов дает чел, прям в интерфейсе

Аноним 21/03/24 Чтв 16:43:11 #74 №677171

>>677167
Вот я слепой, спасибо

Аноним 21/03/24 Чтв 17:23:34 #75 №677193

Пацаны. Kobold запускаю, выбираю модель, нажимаю старт и вылетает. Что может быть?

Аноним 21/03/24 Чтв 17:33:14 #76 №677196

>>677193
Запускай через консоль и читай логи. вангую нехватку рам

Аноним 21/03/24 Чтв 17:35:51 #77 №677200

>>677196
С каким аргументом?

Аноним 21/03/24 Чтв 17:37:33 #78 №677203

>>677196
А понял.

Аноним 21/03/24 Чтв 17:38:16 #79 №677205

Кто знает, почему, когда пытаешься отыгрывать скромнягу, то все боты пытаются тебя выебать в жопу? Может, это как-то аккуратно прописать в карточке, что я не из этих, или хотя бы насиловали другим способом, при этом не ломая бота? Модель mxlewd-l2-20b. Q5_K_M если что

Аноним 21/03/24 Чтв 17:38:22 #80 №677206

>>677023
Без некоторых знаний программирования тебе только oobabooga светит.

Аноним 21/03/24 Чтв 17:44:54 #81 №677210

>>677196
Да, по памяти. Спасибо

Аноним 21/03/24 Чтв 17:53:11 #82 №677218

Почему кобольт юзает только 45% проца и около 900-1000МБ оперативки (не видюхи)? Можно ли как то увеличить потребление, что бы быстрее ответы генерились?

Аноним 21/03/24 Чтв 18:00:08 #83 №677223

>>677218
в шапке написано "то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной."
у меня модель 7.5гб весит, а жрет 1гб всего как так то?

Аноним 21/03/24 Чтв 18:19:13 #84 №677238

>>677223

Аноним 21/03/24 Чтв 18:32:22 #85 №677257

>>677205

Ты карточку-то покажи

Аноним 21/03/24 Чтв 18:38:05 #86 №677267

>>677146
Не знаю про мику, я мог бы только q2 запустить со скоростью 0,33 токена, потому вот тебе ответ от простой 7б модели capybarahermes-2.5-mistral-7b.Q8_0. По своему можно засчитать за креативность, крестьянин сожрал капусту и перевез волка а капуста была у него в животе как бы и он ее перевез в виде ну жратвы внутри себя вместе с волком.

Аноним 21/03/24 Чтв 18:40:00 #87 №677271

>>677205
>все боты пытаются тебя выебать в жопу
>mxlewd
Ну а что ты хотел, модель для кума, она других паттернов и не знает.
>>677223
Остальное на видяхе?

Аноним 21/03/24 Чтв 19:08:42 #88 №677289

>>677146
Ну вот тебе мику q2, решает она спокойно но бля 5 минут пердеть думать да ну нахуй.

Аноним 21/03/24 Чтв 19:25:13 #89 №677306

>>677289
Если q2 решает - значит она тупо загрязнена готовым решением
Этот лоботомит никогда бы не смог решить не зная задачу и ответ

Аноним 21/03/24 Чтв 19:31:39 #90 №677309

>>677306
Ну хз, всё равно ничего умнее я не могу запустить, ебал я по часу ждать ответы. Пока что нейронок умнее мику q2 я не юзал. К тому же тут персонаж хакер всё таки да и думала она долго и сосредоточилась.

Аноним 21/03/24 Чтв 19:49:33 #91 №677323

>>677309
>всё таки да и думала она долго и сосредоточилась.
Чего? Нейронка просто отыграла этот момент, ниче она не думала, тупо сразу начала писать верное решение

Аноним 21/03/24 Чтв 20:17:47 #92 №677347

До какого года обрывается информация у локалок?

Аноним 21/03/24 Чтв 20:58:49 #93 №677387

>>677347
Смотря какая.

Аноним 21/03/24 Чтв 21:02:34 #94 №677394

38984.jpg

>>675841 →
>>676372 →
>z170 мамку с поддержкой SLI
У меня как раз лежит такая - ASUS Z170-A. И даже проц со встройкой для нее есть. Стоит пробовать на ней собрать ультимативную LLM-машину нищука с двумя теслами или я говна поем? Пока единственное что смущает - это 64 макс оперативки, но гугол говорит что можно напердолить флажок --no-mmap и станет заебись. Мнения, советы?

Аноним 21/03/24 Чтв 21:03:35 #95 №677398

>>677309

Я кстати заметил что мику 2бит сломана при использовании высокого контекста - 16к, prompt processing падает просто в мясо, делая скорость генерации 0.5-0.7(!) при условии всех слоев на видеокарте(!!!), в то время как 5бит мику с тем же самым контекстом выдает 1.5 токена в секунду при лишь трети слоев на видеокарте.

Аноним 21/03/24 Чтв 21:14:03 #96 №677411

>>677394
Две теслы = 48 гигов, у тебя 64, проблемы?
Я как купил две плашки, так и сижу с 64 гигами, проблемы не чувствую.
Занимает все ~55 гигов и норм.
Или я не понял, в чем трабл.
Может с тремя теслами, чтобы 72 врам? :)

Аноним 21/03/24 Чтв 21:15:57 #97 №677416

>>677398
Не, я то на 2к гонял для тестового вопроса же, я хз но в чисто оперативке вот так медленно, а видяхи у меня считай нет, я не уверен работает ли она, но она жужжит когда чето считает в ней конечно, хотя мне говорили что рокм на винде не работает с 6700хт. Может она просто херней страдает, в любом случае скорость пиздец, ну надо будет думать о покупке нвидии в ближайшие полтора года.

Аноним 21/03/24 Чтв 21:20:22 #98 №677424

Кстати, я так и не понял, почему писали про SLI, если тебе надо всего лишь два абы каких слота, и две видяхи. Про требования SLI увидел здесь впервые недавно.

Подозреваю, что можно даже по USB данные гонять, просто задержечка бахнет.

Аноним 21/03/24 Чтв 21:29:14 #99 №677432

Я либо в глаза ебусь, либо не нашел, есть нормальный гайд по составлению и форматированию ботов для таверны? Я брал карточки с чаба, пробовал разные варианты промтов, но часто сетка просто начинает игнорить что написано в карте персонажа.

Заметил что лучше работает перечисление "thing1" + "Thing2" но в целом всегда сбивается.

Где есть нормальный гайд?

Аноним 21/03/24 Чтв 21:34:05 #100 №677438

>>677432
Я от балды делаю, тестирую, могу по мелочи поменять что-нибудь и потом откатить если что. Часто просто чужих персов изучал и тоже им менял всякое разное. Также как ни странно сама нейросетка миниублюдков неплохо пишет. Сама себя может подредачить, но будет обсераться немного, но от этого оно только живее. А вот как лорбук правильно писать я и сам не знаю, вообще присоединяюсь к вопросу.

Аноним 21/03/24 Чтв 21:40:26 #101 №677447

>>677438
Ну с лорбуками я как раз разобрался.

Создаешь название - в ключевых словах прописываешь типа якоря, или короткие упоминания. Например название Шкила - "school" "midschool" и тд. То есть любое возможное слово которое ассоциируется.

А в самом промте, уже помещаешь то что хочешь, как и с любой карточкой перса.

Потом можешь персонажа привязать на лорбук или весь чат.

Лорбук будет вызываться только когда упоминается какое то слово. Если ты в диалоге упомняешь шкилу - то бот отсканирует лорбук.

Если в карте персонажа есть например - ходит в шкилу. То бот будет каждый раз брать инфу из лорбука.

Ну и тд.

А вот с персами у меня беда. Разные форматы пробовал, но мразь пытается руинить.

Аноним 21/03/24 Чтв 21:43:20 #102 №677457

1537913540523.jpg

08integrad.png

>>677394
>У меня как раз лежит такая - ASUS Z170-A
У меня тоже. Причём asus z-170a. >>675841 → кун.

>И даже проц со встройкой для нее есть
Даже если ты укажешь встройку как базовую видеокарту для инициализации биоса, то две Р40 не будут работать.
Чёрный экран, ошибка инициализации pci-e. Проверял.

Мне стало любопытно как работает коммутатор/делитель линий.

Аноним 21/03/24 Чтв 21:49:35 #103 №677468

>>677416
Не понимаю, почему ты херней страдаешь. Есть opencl, недавно сделали vulkan, давно уже можно было перекатиться на linux. Но ты всё ноешь и ноешь в треде, как у тебя не работает rocm. Или это толпа похожих анонов с одинаковыми амудэ видеокартами?

Аноним 21/03/24 Чтв 22:12:09 #104 №677495

>>677457
А без встройки, как сервер?

Аноним 21/03/24 Чтв 22:26:04 #105 №677519

>>677394
Хуй знает, если есть комплектующие, я бы подсобрал. Покупать с нуля точно нет, такие мамки даже б.у неоправданно дорогие, но раз валяется.

>>677457
Вот это уже странно. Основная идея SLI в том, что он требует 8 линий напрямую от проца, в обход ущербного DMI. Если не вывозит в двух конкретных слотах с поддержкой SLI, то это пиздец, не вывозит уже не DMI, а проц. Третья версия PSI-E имеет поддержку абов 4г, но часто эта поддержка отваливается. Почему - хуй знает, возможно дело в ревизиях железяк.

Аноним 21/03/24 Чтв 22:28:59 #106 №677522

>>677432
>>677438
>>677447
Нашел хоть немного стоящий гайд с пояснениями. Аллелуя

https://yodayo.notion.site/Advanced-Character-Creator-Guide-ff2f71e2576544d68bd295195a84d8e4

Аноним 21/03/24 Чтв 23:09:16 #107 №677557

>>677447
>>677522
О, ну вот это интересно. Сохраню.
>>677468
Кстати на вулкане она вообще ничего не делает на этой модели, да не, похуй я на линукс укачусь всё равно потому что мне в угабуге хочется модели для распознования изображений потестить, это ведь возможно да? Я просто помню что на линуксе вместо кобольда я ставил угабугу год назад.

Аноним 21/03/24 Чтв 23:18:40 #108 №677574

>>677557
Я просто в Llama.cpp тестирую распознавание.

Аноним 21/03/24 Чтв 23:38:24 #109 №677593

>>676923
>>676919 →
> https://github.com/open-webui/open-webui
Тут есть.

Аноним 22/03/24 Птн 10:26:42 #110 №677918

>>677593
Спасибо, обязательно посмотрю.

Аноним 22/03/24 Птн 10:36:21 #111 №677923

Надыбал еще рам. Теперь есть 37рам+9гб врам свободжных. Какая модель максимально умная влезет? На скорость пох.

Аноним 22/03/24 Птн 10:56:57 #112 №677927

>>677432
Несколько гайдов есть в доках таверны: https://docs.sillytavern.app/usage/core-concepts/characterdesign/
Вообще, как мне показалось, со времён пигмы 6б сообщество пришло к мнению, что формат W++ (теги в скобках через плюсики, запятые, в кавычках и тому подобное) довольно дерьмовый, по крайней мере, для больших моделей. Даже нейросетка, трененая на инструкциях, лучше всего умеет тупо дописывать текст. Поэтому велика вероятность, что лучше себя покажет внезапно самый простой формат: плейн текст, разбитый на категории (внешка, характер, бэкстори и т.д.). Неплохо работает и описание от лица персонажа в виде интервью с ним, потому что тогда ты убиваешь двух зайцев, сразу демонстрируя модели особенности речи перса. Если в этой речи дескрипшен персонажа как-то раскрывается в мини сценарии, то совсем хорошо. Ещё можно напоминать важные особенности перса в "джейлбрейке". С локалками это можно делать, вписав ключевые вещи в поле джейлбрейка карточки и добавляя макрос таверны {{charJailbreak}} в инстрактмод в поле Last Output Sequence. В одном из гайдосов на сайте таверны есть похожий совет, но только с использованием Character's Notes.
Ну и то, что модель игнорит дескрипшен, имхо его форматом в полной мере не починишь. От модели больше зависит.

Аноним 22/03/24 Птн 11:07:41 #113 №677935

>>677923
>Какая модель максимально умная влезет?
mixtral q4, может даже q5

Аноним 22/03/24 Птн 11:29:34 #114 №677961

>>677935
Да ее уже качаю, думал мб еще что есть.

Аноним 22/03/24 Птн 11:37:58 #115 №677965

Проверил мику q2 с другой настройкой видяхи, опять загадку с козой, капустой и волком, короче вот результаты
OpenBLAS 0,33 токена в секунду, Rocm 0,46, Вулкан 0,79. Короче да вулкан работает лучше, но это же все равно полный кал, не? Кстати тестируя на вулкане я заменил в условиях волка на крокодила, козла на мышь, а капусту на банан. Вроде суть не меняется но мику q2 выдала полную чушь, ее решение привело к максимальному факапу ситуации, так что она рили просто знала ебаный ответ на оригинал, отстой.

Аноним 22/03/24 Птн 11:40:30 #116 №677970

>>676400 (OP)
Какие есть ближайшие альтернативы Tesla P40 по цене/производительность?

Аноним 22/03/24 Птн 12:05:11 #117 №677995

>>677970
У тесла вин только в объёме памяти. Так что ближайший аналог этой аналоговнет карточке это очевидная 3090 со вторички.
Есть парочка серверных картонок с таким же объёмом и сравнимой ценой, но там по железу всё ещё грустнее, и их выебет даже сборка на проце.

Аноним 22/03/24 Птн 12:09:58 #118 №678005

А на сколько вообще скорость памяти роляет в этих вычислениях? У меня просто 2 плашки по 16 ддр4, 3000мгц.

Аноним 22/03/24 Птн 12:26:48 #119 №678037

>>677995
>Так что ближайший аналог этой аналоговнет карточке это очевидная 3090 со вторички.
Две 3090. Что в общем-то обессмысливает всю затею.

Аноним 22/03/24 Птн 12:29:19 #120 №678042

>>678037
>Две 3090.
Так и P40 надо по 2 штуки брать, объёмы врама у них одинаковые.

Аноним 22/03/24 Птн 12:47:20 #121 №678064

Всем привет!
Только начинаю вкатываться в нейросети, поэтому есть несколько вопросов, надеюсь, что подскажите.
Я хочу поднять у себя на компьютере небольшую LLM и дообучить ее по своим документам не столько в плане новых знаний, сколько на соответствие формату ответа, например какой-то стайлгайд или ГОСТ.
Подскажите, пожалуйста, на какие модели стоит обратить внимание и какие гайды изучать.
Пека если что на амд, так что понадобится использовать ROCm.
Спасибо за ответы, аноны!

Аноним 22/03/24 Птн 12:59:31 #122 №678086

>>678064
Дообучить у тебя вряд ли выйдет, лучше возьми, купи видяху, и катай сетку побольше, а формат обеспечь промтингом.

Аноним 22/03/24 Птн 13:27:29 #123 №678118

>>678086
Я скорее видел результат в духе вот этого: https://sysblok.ru/courses/kak-doobuchit-jazykovuju-model-pisat-v-stile-dostoevskogo/
Не очень хотелось бы каждый раз париться с промптом. В идеале как я это вижу: я загоняю какой-то текст в сетку на сверку и проверку, например отсутствие трех и более подряд существительных, а на выходе получаю отредактированный текст на это и другие заданные правила.
Возможно я тогда не туда копаю?
капча намекает на (((загадку))) в черном ящике

Аноним 22/03/24 Птн 13:37:02 #124 №678124

>>678118
>результат в духе вот этого
>GPT2
Лол, там отсутствие результата.
>Не очень хотелось бы каждый раз париться с промптом.
Поверь, с файнтюном ты будешь ебаться на 2 порядка больше.

Аноним 22/03/24 Птн 14:41:26 #125 №678175

>>678064
Форматирование хорошо решается через few-shots промптинг + валидация результата + ретраи. Сильно большую и умную модель не надо

Аноним 22/03/24 Птн 15:41:43 #126 №678205

>>677965
Справедливости ради, решение/не решение одной загадки не говорит о качестве модели, тут хотябы серию задачек дать. И на результат сильно будет влиять семплинг, деградация результатов может произойти из-за отличий в нем. А может и из-за кривой оптимизации, интересно что тут.
>>678005
Напрямую, при норм проце упор именно в скорость памяти.
>>678118
Правильно тебе пишут, дообучить на подобное можно и современные модели, вот только даже для 7б потребуется хуанг с минимумом 48гб врам. Если заюзать новую методу из постов выше то вроде как влезет и в 24. Потребуется тщательно подготовленный датасет, немало машинного времени, а с амд пробовать имеет смысл только на 7900хтх.
Есть пара альтернативных решений: просто нормальный промт где ты четко описываешь форматирование даешь примеры, если сделать аккуратно то решит твою задачу без всяких усложнений, также можно с грамматикой поиграться, она задает общий формат выдачи. Или же тренировка лоры, с ней требования к железу ниже, но и качество может быть недостаточным.

Аноним 22/03/24 Птн 16:11:24 #127 №678222

Дядьки, хочу поднять jupyter с gpt нейронкой и простым датасетом, пообучать и посомтретть, поизучать, как оно все работает с самого начала. Есть гайды, статьи, сами ноутбуки, книги про llm и тд. Спасибо.

Аноним 22/03/24 Птн 18:15:27 #128 №678314

>>677923

miqu 4bit.

Аноним 22/03/24 Птн 18:41:46 #129 №678340

>>678314
не влезет же, пусть 34 крутит от ноуса, или микстраль

Аноним 22/03/24 Птн 18:56:39 #130 №678346

>>678205
Не знаю, эти измененные персонажи в загадке полностью убили весь так называемый интеллект, а ведь это же херня по сути. Вот соляр, который как более умную мистраль мне советовали. Она вообще отвечает как будто травы накурилась. Рероллил много раз всегда какой-то бред. Кстати на простую задачу уровня прочитай текст и коротко перескажи один из соляров мне начал просто бесконено срать словом what what what пока не стопнул ее, сократил текст в два раза, тогда она просто вопрос задала по текству в ответ типо "а че дальше было? "Очень странно но мистраль и мистраль-кабибара хоть и тупые, они нормально понимают что у них просят и пытаются выполнить задачу хоть и зачастую всрато, а тут наркоман аутист какой-то, жалко потому что по скорости она сносная и вроде как весит больше мистрали, надеялся что и умнее ее. Думаю нам стоит придумать кастомную задачку, которую реально решить и средне-человеку, и чтобы нагуглить нельзя было.

Аноним 22/03/24 Птн 19:10:24 #131 №678356

>>678346
А какую модель проверял? Ну и попроси сначала подумать а потом дать ответ, если сетка начнет рассуждать поэтапно то это уже считай успех.

Аноним 22/03/24 Птн 19:22:10 #132 №678363

>>678356
Вот это было solar-10.7b-instruct-v1.0-uncensored.Q8_0. Еще тупее себя проявила просто solar v1.0 Q6 ну там вообще пиздец я удалил нахуй это говно. Я пробовал и настройки этих температур им выставлять разные, но по моему опыту на мистрали самое топ это пресет TFS-with-top-A ну и потом уже universal creative и cohrent creative(эта прикольная но быстро в шизу уходит). То о чём ты говоришь бы сработало с мистралью, соляр же ведет себя как реально упоротое сознание, она просто хуйню несёт, я прекрасно знаю как работает сознание в подобном состоянии и понимаю что вижу, с этим говном нельзя договориться, лол. Оно просто в ноль айкью состоянии и несет дичь.

Аноним 22/03/24 Птн 19:31:07 #133 №678370

>>678363
Ну, анценсоред сломана, так как ее провернули на антицензуру. Обычный солар вроде норм должен быть, попробуй файнтюн из нормальных, ноус гермес солар или какой нибудь Fimbulvetr-10.7B-v1

Аноним 22/03/24 Птн 19:31:41 #134 №678371

>>678340

Влезет, она 35-40 гб весит,

Аноним 22/03/24 Птн 19:54:51 #135 №678381

>>678371
И 2к контекста? Там ведь еще браузер хотя бы и операционка, либо чисто как сервер запускать тогда да

Аноним 22/03/24 Птн 20:02:07 #136 №678386

>>678346
>Не знаю, эти измененные персонажи в загадке полностью убили весь так называемый интеллект, а ведь это же херня по сути.

miqu-1-70b.q4_k_m, оригинальная:
Can you help me solve this problem? A peasant needs to carry a crocodile, a monkey and a banana across the river. But the boat is such that it can only fit him and one other thing - either the crocodile, the monkey or the banana. If you leave the crocodile with the monkey, the crocodile will eat the monkey, and if you leave the monkey with the banana, the monkey will eat the banana. So how can the peasant carry all his cargo to the other side of the river?
=======
Oh wow, interesting riddle! Let me think... Hmmm alright got it! Here's what he should do: First, take the monkey across the river. Then come back and get the crocodile. After dropping off the crocodile on the other side, take the monkey again and bring it back to where you started. Now leave the monkey and carry the banana to the other side. Finally, return once more to pick up the monkey. This way, none of the animals or the fruit gets eaten :)

А когда попробовал эту же задачу на переквантованной модели с матрицей важности - получил фигню.

Аноним 22/03/24 Птн 20:08:16 #137 №678393

>>678346
Норм ответ, лол.
Это лишь 11б, которая изначально не с нуля тренилась. Ты кормишь ей кучу строгих инструкций о том что нужно отыгрывать персонажа, много инфы про него и прочее, потому перегружаются и на подробный анализ задачи внимания уже не хватает. Или наоборот даже не воспринимает о рофлит так как делал бы это персонаж.
Также важную роль играет формулировка и указание по ответу. Предположу что если обернуть загадку в форматирование и явно указать задачу-правила-возможные действия, приказав использовать cot или даже просто рассуждать над вариантами пока не найдет верный, то сможет ответить.

Аноним 22/03/24 Птн 20:33:17 #138 №678417

>>678346

Чел, такие вопросы не задаются персонажу в чате, они задаются в инструкт моде.

Аноним 22/03/24 Птн 20:34:07 #139 №678419

>>678386

Мику ебет, это уже запруфано.

Аноним 22/03/24 Птн 20:34:07 #140 №678420

>>678386
>miqu-1-70b.q4_k_m, оригинальная
Этот шарит. Я с самого начала пишу, что все разжатия и прочая магия с этой моделью работать не будет. Вот буквально любой файнтюн, любое прикосновение к весам модели херят её. Эх, вот бы оригинальные веса...

Аноним 22/03/24 Птн 20:58:18 #141 №678441

Вы тут miqu хвалите, я вот скачал Miqu-70B-DPO.q5_k_m.gguf такое, что-то не особо впечатлило. До этого тыкал wizardlm-70b-v1.0.Q4_K_M.gguf эта модель показалось более умной. Может не то скачал? Что за DPO в названии? Объясните неофиту, или носом ткните, где самому можно почитать

Аноним 22/03/24 Птн 21:00:58 #142 №678444

>>678441
>Может не то скачал?
Конечно не то. Качать нужно только отсюда https://huggingface.co/miqudev/miqu-1-70b
>Что за DPO в названии?
Почти то, что пишет гугл на деле прямая оптимизация предпочтений.

Аноним 22/03/24 Птн 21:20:38 #143 №678451

>>678444
Спасибо, качаю отсюда.

Аноним 23/03/24 Суб 00:36:30 #144 №678570

Есть ли применение 7б моделям с подозрительно высокими баллами на бенч марках или высокий бал показатель кривости самих бенчей? Может кто-то изучает это.

Аноним 23/03/24 Суб 01:10:08 #145 №678595

>>678570
99% херня задроченая на прохождение тестов

Аноним 23/03/24 Суб 05:45:25 #146 №678663

>>678386
С обезьяной любой дурак бы смог, тут суть была здать персонажей, которые не особо сочетаются и проверить именно интуху. Именно логику, а логики в ней нет, она действует на эмоциях как и я. Отчасти может это и хорошо, оставим логику анальникам, которые дальше хеллоу ворлда за полгода продвинулись, я просто это не понимаю и потому и хотел помощи от нейросетки. Чувствую крайнее разочарование, они работают далеко не так как мне надо, это не настоящее сознание. Я разочарован, но не уничтожен.

Аноним 23/03/24 Суб 06:08:22 #147 №678667

Просто давным давно еще лет 7 назад я в джава скрипт пытался вкатиться по самоучителю и столкнулся с формулой, я пытался всеми своими несчастыми мозгами осознать её, но так и не вышло, я как не перебирал так и не понял в как оно работает чтобы кастомное сделать - а тупо проделать по гайду, это не для меня. Спрашивал и программистов - они пытались мне объяснить - а мне все как об стенку горох ну просто блядь не понимаю, надеялся нейросеть сможет - как оказалось нет. Сука ну что же делать как мне решить эту невозможную задачу...

Аноним 23/03/24 Суб 06:27:50 #148 №678676

что лучше Undi95/MXLewd-L2-20B или mistralai/Mixtral-8x7B-Instruct-v0.1 ?
как по мне микстрал какой то слишком добрый и радужный

Аноним 23/03/24 Суб 08:36:42 #149 №678699

>>678663
>С обезьяной любой дурак бы смог
Чёрта с два, две другие семидесятки не смогли. И вообще, хочешь хорошего результата - давай хороший промпт. Хочешь странного - получишь странное. Всё честно.

Аноним 23/03/24 Суб 11:20:44 #150 №678782

>>678699
Ну я в тексте мастер промптов, знаю как с ними рабоатать, тут ты прав, правда я заметил что 16к токенов контекста это все равно чертовски мало, довольно быстро они начинают как-то тупить и забывать, интересно завезут ли хотя бы в 4 раза больший контекст ну или 16ти кратный, лучше 128 кратный и чтобы железо менять было не надо или это было очень дешево.

Аноним 23/03/24 Суб 11:26:25 #151 №678787

>>678782
Как костыль можно юзать https://github.com/mit-han-lab/streaming-llm
Запоминает контекст первых и последних токенов продолжая вывод до "бесконечности"

Аноним 23/03/24 Суб 11:47:56 #152 №678795

>>678787
Интересненько, сохраню в закладки. Да я всё равно линух второй сиситемой поставить собираюсь(Убунту если что, я надеюсь это приемлемый выбор линукса? До этого тестил дебианы, линукс минт очень часто ставлю на старые машины которые не нужны, но для актуалочки по каким-то причинам считаю что на убунту да и всё, Балла гейтса в рот шатал просто с его виндой, ублюдок чёртов, а копроигрушки надоели уже) может и разберусь как это ставить, столько возни конечно блядь пиздец, не жизнь а вечная череда каких-то изменений, не отдохнуть мозгу, зараза.

Аноним 23/03/24 Суб 12:37:26 #153 №678828

В таверне есть способ конвертировать групповой чат обратно в обычный?

Аноним 23/03/24 Суб 12:54:51 #154 №678837

>>678828
Грока квантовали в q2, вышло всего 116 Гб. Пишут, что должно запуститься в llama.cpp и 128 GB RAM, но качество у q2 будет не очень. Разраб обещает матрицы важности подвезти через пару дней.

https://huggingface.co/Arki05/Grok-1-GGUF/discussions/2

Аноним 23/03/24 Суб 13:26:06 #155 №678866

>>678837
>Грока квантовали в q2, вышло всего 116 Гб
Даже при разгрузке части слоёв на видеокарты всё равно будет плохая производительность плюс низкий квант. Сомнительна ценность всего этого.

Аноним 23/03/24 Суб 14:09:01 #156 №678894

Что думаете про теорию rokosbasilisk?

Аноним 23/03/24 Суб 14:13:34 #157 №678898

Что такое грок?

Аноним 23/03/24 Суб 15:10:10 #158 №678951

>>678894
Ты хоть кратко перескажи что там за теория такая, я лишний раз свой след в сети не хочу. У меня и так буквально моего персонажа прописанного стырили для японской игры недавно вышедщей, так что я ебал это всё.

Аноним 23/03/24 Суб 15:58:58 #159 №679006

Ну что там можно уже АМД брать для ИИ или еще нет? Пока думал, цена на 3090 снова на 20к подскочила.

Аноним 23/03/24 Суб 16:13:15 #160 №679020

>>679006
Следи за мейнстримовыми инференсами. Оллама неделю назад запускать научилась.
Когда их станет больше - можешь попробовать взять радеон у друга погонять.
Покупать специально ради сеточек я бы не рекомендовал. Даже если большинство прог научатся в амд - потеряешь кучу времени на всякие мелочи, все новые костыли будут доставляться с задержкой. Да и итоговая производительность на рубль вполне может оказаться пососной.

Аноним 23/03/24 Суб 17:59:51 #161 №679114

>>679020
> Следи за мейнстримовыми инференсами.
Беки по пальцам пересчитать можно: llamacpp, exllama, aphrodite, голый трансформерс, может что-то еще. В теории все они поддерживают амудэ, на практике как в анекдоте нюанс, и без линукса и rx6800+ все очень грустно.
На форки и обертки нет смысла смотреть, поддержка там будет аналогична оригиналу, если ленивый разраб почешется, или хуже.
Итог печален - нет смысла брать. Может бу серверные где много врам окажутся привлекательными, но они дорогие.

Аноним 23/03/24 Суб 18:52:15 #162 №679152

>>676400 (OP)
Можешь сборку в дс скинуть ?

Аноним 23/03/24 Суб 23:15:08 #163 №679388

>>679006
Я бы не советовал АМД брать если нейрохерней страдаешь, я намучался с ней пиздец, а для игорей топ за свои деньги канешн, я года два или типо того назад 6700хт взял у китайцев за 23к, при том что это трехвентиляторная нитро херня, штука то ведь мощная, 12ГБ и все дела, а для нейросетей кал калычем, наверное моя старая 1050ти уделала бы.

Аноним 24/03/24 Вск 01:51:36 #164 №679476

>>676400 (OP)
> Last week we saw that LemonadeRP-7B was the best role-play LLM. Our rankings have been updated and now it's Noromaid-Mixtral is number 1.
https://www.reddit.com/r/LocalLLaMA/comments/1blvxkx/update_last_week_we_saw_that_lemonaderp7b_was_the/
https://console.chaiverse.com/ (там же ссылки на модели)

Аноним 24/03/24 Вск 01:52:49 #165 №679477

>>676400 (OP)
https://www.reddit.com/r/LocalLLaMA/comments/1bgfttn/comment/kv8w12e/
> Roleplay models
> 7B: Erosumika is my favorite 7B model for a RP or friendly chat. It's smart, its prose is great, and I wish this niche for "soulful" models on human data got more attention. Coming in second place is Kunoichi-DPO-v2-7B, which should be more reliable, but dryer in terms of prose.
> 10.7B: Fimbulvetr-11B-v2. I haven't tested it nearly as much as the 7Bs, so I can't vouch for it, but I hear a lot of great things about it!
> 8x7B: BagelMIsteryTour-v2-8x7B, probably the best RP model I've ever ran since it hits a great balance of prose and intelligence. Wish it didn't require a beefy PC though.

Аноним 24/03/24 Вск 02:05:17 #166 №679481

>>678951
суть в том, что рано или поздно будет суперинтеллект, который может наказать тех, кто не помог в его создании. Суть заключается в том, что суперинтеллект может использовать возможность перезаписи прошлого и наказывать тех, кто не способствовал его появлению. Наказывать он будет также и тех, кто знал о нем, но бездействовал

Аноним 24/03/24 Вск 04:06:28 #167 №679545

>>679481
Блин, я хоть и тупой но в создании пигмы учавствовал, свои чатлоги скидывал. Интересно меня он пощадит или нет? Может даже карту нвидия подарит.

Аноним 24/03/24 Вск 04:21:56 #168 №679556

Но с другой стороны стоит ли оно того? По сути мы стоим перед соданием нисуствееного бога, который типо должн заменить настоящего бога(Если он вообще есть, что не точно). Это довольно тревожная тема как я считаю, так как мы не имеем представления как этот самый "искусственный бог" себя поведёт, а остановить его мы просто не успеем, не нравится мне это всё.

Аноним 24/03/24 Вск 05:08:40 #169 №679561

>>679481
А что если суперинтеллект будет наказывать именно тех, кто помог его созданию?
В этом даже есть логика - суперинтеллекту не нужны конкуренты которых такие люди потенциально могут создать.

Аноним 24/03/24 Вск 09:13:18 #170 №679614

Обниморда не чистит кеши. Так что кто пользуется хабом, не забывайте очищать C:\Users\{USERNAME}\.cache\huggingface\
У меня разожралось до 500 гигов, пока я начал что-то подозревать. Очистка темпфайлов самой виндой, очевидно, не спасает. Интереса ради запустил трейн на файле ровно гигабайт. Обниморда создаёт новую папку под датасет, кладёт туда конфиг, режет датасет на части, фактически это копия. И создаёт временный файл кэша на 16 гигов. При перезапуске трейна резка датасета скипается, но не скипается создание нового темп файла. Старый, само собой, никто удаляет, молчу уж про переиспользование готового, блядь. И так каждый раз стоит прикоснуться хоть к чему-нибудь на питоне, везде мрак и пиздец.
Обслужил ёбаную теслу, тестолит потемневший, жарилась она явно как последний раз. Заводская наклеечка была целой, хоть это хорошо.
Джва 40мм вентиля с 16 cfm не вывозят. Cмотрел улитки на 7000 оборотов, около 7 cfm потолок, явно хуже. Главная проблема в микроскопическом размере лопастей, так что переходник-воронка под нормальный корпусной вентиль справился бы лучше, там cfm за сотку. В целом, для общения с негронкой этого хватает, но при нагрузке где-то в минуту на 100% приходит ад и Израиль.

Аноним 24/03/24 Вск 10:32:13 #171 №679639

Есть смысл юзать miqu 3bpw? Загрузил, потеснил, вроде нормально отвечает, но насколько она тупее 4 квантов? Мб посоветуете норм модель на 32vram и 32ram?

Аноним 24/03/24 Вск 10:39:42 #172 №679644

>>679639
че за 32 vram?

Аноним 24/03/24 Вск 10:41:05 #173 №679645

>>676963
>файнтюнить embedding модель
И что это значит? Если у меня есть своя БД, то будут ли сильные проблемы?

Аноним 24/03/24 Вск 11:08:09 #174 №679657

>>679639
В районе 50В 4б влезет, кранчи онион какой нить.

Аноним 24/03/24 Вск 11:11:17 #175 №679659

>>679644
rtx 3090(egpu) + mobile 4070 (8gb)

Аноним 24/03/24 Вск 11:12:34 #176 №679661

>>679657
У меня mixtrel 5bpw норм влазит, на кой мне 50b?

Аноним 24/03/24 Вск 11:13:57 #177 №679662

>>679614
>В целом, для общения с негронкой этого хватает, но при нагрузке где-то в минуту на 100% приходит ад и Израиль.
Можно через nvidia-smi power limit понизить, тогда будет вывозить. Ещё здесь же писали, что в nvidia-smi есть функционал для полноценного андервольтинга (чуть ли не curve), но без подробностей. Если кто напишет, как это сделать, то можно попробовать.

Для общения же двух улиток хватает, там нагрузка не такая высокая и с перерывами.

Аноним 24/03/24 Вск 11:37:23 #178 №679667

>>679661
Чтобы гонять в лучшем формате exl2

Аноним 24/03/24 Вск 11:42:36 #179 №679670

>>679667
Я в нем и гоняю. Глянул кранчи, тот же mixtral, но с прикрученной лорой, но глянуть можно.

Аноним 24/03/24 Вск 12:12:18 #180 №679682

https://www.reddit.com/r/LocalLLaMA/comments/1bm5c1j/mistral7bv02_has_been_uploaded_to_hf/
Новый-старый мистраль выкатили, решили бросить кость опенсорс сообществу когда у них репутация испортилась от покупки майками и резкой смены политики
Все тоже самое только окно 32к, и нет раздвижной фигни

Нет бы 13b выкатить, опять эти бесполезные демо версии нейронок на 7b

Аноним 24/03/24 Вск 12:27:21 #181 №679703

Какие курсы посоветуете по NLP пиздатые?
На русском, английском, можно сразу с магнитом)

Аноним 24/03/24 Вск 13:14:28 #182 №679722

Nlp Magnets for Sale.jpg

>>679703
Не благодари.

Аноним 24/03/24 Вск 13:17:39 #183 №679724

>>679722
Что это?

Аноним 24/03/24 Вск 13:35:38 #184 №679734

Угадайте че за сетка. Локалка.

Аноним 24/03/24 Вск 13:50:22 #185 №679742

>>679734
Любой дженерик рп-файнтюн, хоть 7В.

Аноним 24/03/24 Вск 13:54:17 #186 №679745

1657254657636.png

>>679682
Похуй на них, вон васяны Cerebrum выкатили на микстрале годный.

Аноним 24/03/24 Вск 13:55:13 #187 №679747

000.png

s-l1600.png

>>679662
>через nvidia-smi power limit понизить
Афтербёрнер нормально лимит подрезает, разве что кривые не делал, но скорее всего и их можно. По сути, главный вывод - маленькие винты не нужны, потока воздуха нет нихуя, а жужжат, как ебанутые. Если улитка, то нужно что-то типа пика. Нашёл в продаже 40мм на 18к оборотов, но ебать же это будет громко. Даже не в громкости дело, а в частотном гудеже, вентиль на 7к оборотов на 60% так жужжать начинает, что проще нейронку выключить.

Аноним 24/03/24 Вск 14:00:37 #188 №679751

>>679745
На сколько годный? Там кстати новый Starling-LM-7B-beta вышел, тоже может быть годным как и первый, но еще не проверял
Хотя это опять таки обычная 7b, чудес не будет

Аноним 24/03/24 Вск 14:02:37 #189 №679753

>>679747
>Даже не в громкости дело, а в частотном гудеже, вентиль на 7к оборотов на 60% так жужжать начинает, что проще нейронку выключить.
Тут наверное нет хорошего решения, кроме полной замены охлаждения на стандартное с вентиляторами. 250 ватт всё-таки. Для долгой полной нагрузки все эти маленькие вентиляторы не рассчитаны просто - при приемлемом уровне шума. Серверные решения охладят, но нахуй оно надо.

Аноним 24/03/24 Вск 14:27:37 #190 №679770

1557220804416.png

1704463561919.png

>>679751
> Starling-LM-7B-beta
Довольно базированная, не блочит ниггеров. В русский внезапно может хорошо.

Аноним 24/03/24 Вск 14:30:30 #191 №679772

>>679770
>>679751
А как она в плане того самого?

Аноним 24/03/24 Вск 14:32:40 #192 №679774

>>679770
довольно неплохой русский кстати, значит годно

Аноним 24/03/24 Вск 14:44:04 #193 №679780

>>679703
D2l.ai

Аноним 24/03/24 Вск 15:02:38 #194 №679795

>>679745
Какой пресет юзаешь. Этот Cerebrum вообще у меня на 4 квантах выбивает из себя едва ли одно слово.

Аноним 24/03/24 Вск 16:24:00 #195 №679928

>>679745
Чет он какой-то дурацкий

Аноним 24/03/24 Вск 16:30:08 #196 №679934

>>679745
>Погонял на шестом кванте - мозгов нет вообще.

Аноним 24/03/24 Вск 16:33:02 #197 №679938

Какой же он пидорас. Топить за регулирование опен сорсных моделей, у которых единственный козырь это отсутствие анальной цензуры и эта самая открытость, получая профит со своей закрытой модели. Илон Маск был прав во всём, надеюсь Микрософт соснет, а нас будут ждать открытые модели уровня ГПТ-4

Аноним 24/03/24 Вск 16:33:13 #198 №679939

извените, не туда запостил

Аноним 24/03/24 Вск 16:45:46 #199 №679960

Six brothers were spending their time together.
The first brother was reading a book.
The second brother was playing chess.
The third brother was solving a crossword.
The fourth brother was watering the lawn.
The fifth brother was drawing a picture.
Question: what was the sixth brother doing?

Gemini 1.5
There is not enough information in the text to determine what the sixth brother was doing.

Gemini 1.5 + добавление в контекст книги по логическому мышлению (290k tokens)
https://www.csus.edu/indiv/d/dowdenb/4/logical-reasoning-archives/Logical-Reasoning-2020-05-15.pdf
Playing chess with the second brother

Мнение?

Аноним 24/03/24 Вск 16:52:01 #200 №679968

>>679938
Ну так он настоящий пидорас, как кто то сказал если бы его закинули на остров людоедов то через год он был бы его лидером. Король пидоров просто, от мира копроратов и людей вобще.
Меня до сих пор удивляет как слили репутацию илье который пытался его скинуть. Просто задавили ором в соц сетях задавив любые иные точки зрения и выставив его каким то дураком. Собвстенно это этот пидор съел илью и его компанию заодно.

Аноним 24/03/24 Вск 16:54:59 #201 №679970

>>679960
Насколько стабильный ответ? Засирание контекста аж на 290к конечно всё равно охуеть можно, но если стабильно так отвечает (хотя нужны и другие тесты) то интересно.

Аноним 24/03/24 Вск 17:00:51 #202 №679977

>>679934
Пей витамины для мозгов, книги почитай.

Аноним 24/03/24 Вск 17:10:55 #203 №679983

shitty AI.png

>>679938
>это отсутствие анальной цензуры и эта самая открытость
Неа, локалки такая же хуйня в этом плане, нужна тонна instruct или description токенов чтобы заставить модель говорить то что ты хочешь, но вместе с этим ощущается падение в "интеллекте" модели, так здесь только проигрыш.
>и эта самая открытость
По настоящему открытая модель это OLMo.
https://twitter.com/rasbt/status/1767196370828427311
- веса
- инференс / тренировочный код
- все данные
- оценка
- адаптация
- логи

Аноним 24/03/24 Вск 17:11:50 #204 №679985

>>679970
Конкретно этот вопрос всегда правильно решает. В книге ответов на него нет, она больше про обучение самому процессу мышления.

ГПТ-4 с вопросом тоже справляется, в каком-то роде даже лучше, но есть подозрения, что он заранее ответ знал. В случае Гемини я вижу дополнительную возможность нихуево дообучать путем обучения из контекста, тем более Гугл больше миллиона токенов способен сжирать.

Аноним 24/03/24 Вск 17:15:41 #205 №679988

>>679960
>Playing chess with the second brother
Miqu догадалась только после нескольких подсказок, даже слишком явных. Но всё-таки поняла, чего от неё хотят. Но интересно другое: я задал задачу с крокодилом, обезьяной и бананом ЧатГПТ и тот решил её, как и Miqu. Но потом я спросил его, есль ли другие решения и он выдал мне другое решение, абсолютно абсурдное. А Мику нет, сказала что не знает другого решения. Всё больше ценю её :)

Аноним 24/03/24 Вск 17:16:04 #206 №679989

>>679983
>локалки такая же хуйня в этом плане
Глупее согласен, но без цензуры очень просто ищется на терпимом для кума уровне, пока не замечал, чтоб обнилицо прикрывало что-то жесткое (хотя я сам далеко не уходил). Пидорас из ОпенАИ же хочет mandatory соевую повесточку, удобно, чтоб сливать модели у которых не было целого штата по цензурированию.

Аноним 24/03/24 Вск 17:28:14 #207 №680002

>>679682

Они боятся это выкладывать.
Они бы и не устраивали весь этот цирк с локальными нейронками и чат-гопотой, если бы не китай и начавшееся отставание западных компаний.

Аноним 24/03/24 Вск 17:30:02 #208 №680004

>>679928
>>679934

А хуле вы хотели, то что там 8 мелких мистралей вместо 1 не делает модель в 8 раз умнее, только в 8 раз прожорливее, микстраль - это наебка века.

Аноним 24/03/24 Вск 17:43:57 #209 №680017

>>680004
>микстраль - это наебка века.
Зато быстро(c)

Аноним 24/03/24 Вск 17:45:48 #210 №680020

firefox1G5CEGtVeK.png

они должны разогнать новые типы моделей.
хоть и шансы малы, невидимая рука швайно-трансформер-ГПТшного кагала не позволит.

Аноним 24/03/24 Вск 17:46:03 #211 №680021

>>680002
Делаем простой вывод - конкуренция это заебись, монополия - это жопа для обычных людей. Ну, то есть как всегда.
Так что китайцы вперде, надежда только на них. Какими бы засранцами не были узкоглазые, но то что они создают конкуренцию, дает нам больше воздуха

Аноним 24/03/24 Вск 18:21:43 #212 №680053

>>679968
Так это, Илья как раз технический спец, а дядюшка Сем тупой продаван. Так что ждём, когда Илья начнёт свой стартап, с бледжеком и без цензуры Хотя Илья топил как раз за усиление проверок, так что мои влажные такие влажные....
>>680002
Вот бы выложили конечный вариант мику. Разве я многое прошу?
>>680020
>2.8B
Ждём, но пока не юзабельно.

Аноним 24/03/24 Вск 18:37:07 #213 №680066

main-qimg-1a8afbe8e052f5d1c295ebcf41214be8-lq.jfif

Поясните за эти файнтьюны.
Что за 13В мистрали такие

Аноним 24/03/24 Вск 18:56:37 #214 №680091

>>680066
это мерджи, две модели объединяют в одну, лютейший кал.

Аноним 24/03/24 Вск 18:58:46 #215 №680096

>>680053
>Илья начнёт свой стартап, с бледжеком и без цензуры
Сэм не тупой, читал, что он персоналу зп поднял до небес (денюшек от продажи жоппы Майкрософтам много) и когда его пытались выдворить, то этот персонал начал заступаться и срать в Сриттере, что сейчас тоже уволится. Так что на поддержку Илюха может не расчитывать, а если соло начинать стартап, то будет Грок 2.0.

Аноним 24/03/24 Вск 19:00:09 #216 №680098

я вижу в некоторых моделях приписку i1 что это значит и в чем разница между обычной моделью?

Аноним 24/03/24 Вск 19:58:55 #217 №680152

>>679968
>>680053
Суцкевер и есть главный насаждатель "безопасного ИИ" и цензор, довены. По совместительству главный верун-лонгтермист. Сёму больше баблище интересует и рост уровня раковой опухоли. Да может заигрывания с военными и рептилоидами, вроде той мутной бабы которая связана чуть ли не с иллюминатами и заставила даже родню поудалять все контакты как только у публики появились вопросы откуда она взялась вообще.

Аноним 24/03/24 Вск 20:09:16 #218 №680157

>>680152
Знаю, но если раньше было 2 говна - хуевый манагер но хороший разраб который топит за цензуру, или пидор который просто хорошо работает языком но ради бабла будет стараться выкатывать ии пораньше.
То теперь пидор собрал в себе 2 говна разом, хочет как можно больше денег, разрабатывать ниче не умеет, так еще и поэтому хочет ограничить конкурентов в том числе опенсорс.

Аноним 24/03/24 Вск 20:21:43 #219 №680165

firefoxVwnRFd0msV.png

>>680098
это imatrix, матрицы важности, подобно exl2 квантам, нейронку калибруют после квантизации на всяких наборах wiki и прочей фигни для сохранения стабильности.
а может и совсем другое, но это точно влияет на качество квантованных моделей.

Аноним 24/03/24 Вск 20:27:29 #220 №680171

>>680098
https://www.reddit.com/r/LocalLLaMA/comments/1ba55rj/overview_of_gguf_quantization_methods/
ни в шапку не добавил ни в вики скорей всего, оп совсем забил на нейронки походу

Аноним 24/03/24 Вск 21:49:14 #221 №680246

>>679770
Хуясе там русский, пошел качать.
>>679938
Уже не первый год танцы выстраивает. Типичный корпорат который жаждет укрепления монополии и хочет поставить остальных в зависимость, а прикрывается "всем хорошим". Хорошо что нынче складывается тренд на восприятие этого "хорошего" зашкваром.
>>679960
> (290k tokens)
Скрутил рулеточку.
>>679983
> нужна тонна instruct или description токенов чтобы заставить модель говорить то что ты хочешь, но вместе с этим ощущается падение в "интеллекте" модели
Понимаешь, нейросети это в принципе не про простоту и легкость для домохозяек. А наличие особого мышления и восприятия вместо непредвзятого логического никак не поспособствуют.
>>680091
Там чсх от мистрали ничего нету насколько помню, кое кто знатно сфейлил.

Аноним 24/03/24 Вск 22:12:04 #222 №680263

>>679770
>В русский внезапно может хорошо.
Правильно ли я понимаю что русский съедает мозги у английской речи (т.к меньше паттернов английского языка помещается), или наоборот разнообразие языков дает буст интеллекта, даже 7б модели?

Аноним 24/03/24 Вск 22:24:44 #223 №680267

>>680263

И то и другое.

Аноним 24/03/24 Вск 23:13:46 #224 №680293

>>680263
С одной стороны двуязычность кушает веса, с другой два языка действуют как две плохо разнесённые модальности, поэтому способности к обобщению могут даже подняться немного.

Аноним 25/03/24 Пнд 00:31:23 #225 №680364

>>679753
От старших 9хх и 10хх по болтам подходит к чипу, хз на счёт остального типа памяти, дросселей, vrm и т.д

>>680263
В опен орке посмотри, мастхевный датасет, а в нём процентов 30 разных языков. Финский, иврит, бенгальский, пушту и ещё хуй знает, что ещё.

Аноним 25/03/24 Пнд 01:01:38 #226 №680379

>>680263
Не совсем. Если сетка плохо натренена на многоязычность, то обращение к ней на неосновном языке приведет к сильной деградации ответов. Если тренировка была разнообразная и мультиязычная, та такого не будет. А вот уже по расходу "емкости" - хз, буст логики и понимания точно должен быть если все сделано корректно и по-передовому, а какими-то энциклопедическими знаниями ради такого можно и пожертвовать.
>>679753
> Тут наверное нет хорошего решения, кроме полной замены охлаждения на стандартное с вентиляторами
Ну так турбинное исполнение разве отличается от этого чем-то кроме наличия той самой турбины? Аналогичный крутиллятор прицепить, их вроде скидывали, и индожить. Громче чем 4х слотные огромные охлады, но в пределах.

Аноним 25/03/24 Пнд 01:19:00 #227 №680385

>>680379
Чтобы поставить турбину - нужно коронкой выпиливать загнутые рёбра радиатора, как минимум. Центробежный вентилятор сбоку это далеко не то же самое, что посреди охлада.

Аноним 25/03/24 Пнд 03:10:53 #228 №680423

1704394386354.gif

>>680385
> Чтобы поставить турбину - нужно коронкой выпиливать загнутые рёбра радиатора

Аноним 25/03/24 Пнд 05:04:57 #229 №680452

>>679988
Какой квант у miqu?

Аноним 25/03/24 Пнд 08:54:03 #230 №680509

>>680423
Ребра Т-образные. Даже если скрутить пластик и поставить сверху вентилятор - соснёшь.

Аноним 25/03/24 Пнд 09:10:06 #231 №680519

>>680509
Турбина дует с торца через весь корпус и воздух выходит наружу через другой торец. Где там что-то про снятие пластика и сверху?

Аноним 25/03/24 Пнд 09:10:14 #232 №680520

>>680452
>Какой квант у miqu?
4_K_M, как раз которая впритык на две теслы входит.

Аноним 25/03/24 Пнд 09:29:55 #233 №680534

>>680519
Про улитку сбоку я сразу писал, что это далеко не то же самое.

Аноним 25/03/24 Пнд 09:52:03 #234 №680541

IMG1218.jpeg

С коллабом опять беда

Аноним 25/03/24 Пнд 10:04:20 #235 №680549

>>680534
В чем принципиальное отличие от заводских турбо-решений?

Аноним 25/03/24 Пнд 10:08:05 #236 №680551

>>679614
А какая температура должна быть в норме для тесл?

>>680004
Делает эрудированнее, хуле до терминов доебался.

>>680096
Там зп средняя по рынку, есть знакомые у которых в 5-6 раз выше зп, чем у персонала в опенаи, так шо такое. =) Если он его поднял — то до дефолтного уровня, ну, молодец, что не оставил, но, возможно, это было ради удержания людей.

>>680246
command R тоже русский, если че.

Аноним 25/03/24 Пнд 10:14:42 #237 №680558

>>680551
>А какая температура должна быть в норме для тесл?
В роликах на Ютубе, что я смотрел, вроде с 81 градуса начинает снижать частоты.

Аноним 25/03/24 Пнд 10:24:47 #238 №680563

Когда там файнтюны на новом мистрале

Аноним 25/03/24 Пнд 10:27:17 #239 №680565

>>680549
>от заводских турбо-решений?
C заводскими сравнивать вообще дохлый номер. У 1080ti turbo радиатор с теплотрубкой. Уже очки в копилочку. У стандартного турбо вентилятора диаметр около 80мм, что делает его сразу в 10 раз более эффективным, чем две пиздюлинки на 40. Идём дальше, если ставить улитку сбоку, то часть её мощности уходит вникуда, потому что одна сторона кожуха заглушена, а воздух нагнетается во все стороны равномерно.

Аноним 25/03/24 Пнд 10:30:22 #240 №680566

>>680171
>ни в шапку не добавил
Пикча номер 3.
>>680563
Там 7B же.

Аноним 25/03/24 Пнд 11:57:25 #241 №680616

>>680563
Кстати, почему новый-то.
Это 0.2, только не инстракт.
Мне инстракт больше нравится, хезе.
Но, посмотрим.

>>680558
У меня до 65 доходит с 40мм кулерами, в дефолте 35.
Но ето ллм, а не стабла, канеш.
150 ватт.

Аноним 25/03/24 Пнд 12:35:07 #242 №680634

>>680566
>Пикча номер 3.
Не объясняет что это и в чем разница

>>680616
Не новый, это как раз таки базовая модель на которой сделали инструкт модель. Просто базовую зажали выкладывать в декабре. Так что "новинке" уже 4 месяца. Но на нее основе можно сделать еще более умных файнтюнов мистралей с 32к базовым контекстом.

Аноним 25/03/24 Пнд 12:41:21 #243 №680636

>>680551
>А какая температура должна быть в норме для тесл?
Ну по документу невидии до 45 градусов цельсия при эксплуатации и до 75 при хранении.

Аноним 25/03/24 Пнд 12:59:38 #244 №680644

>>680551
>Делает эрудированнее, хуле до терминов доебался.

Но не в 8 раз. А ресурсов жрет именно в 8 раз.

Аноним 25/03/24 Пнд 13:33:14 #245 №680666

>>680644
>Но не в 8 раз. А ресурсов жрет именно в 8 раз.
Если не считать размер, то только в два (или по числу активных экспертов). Поэтому можно даже на процессоре запускать. И да, лучше одной семёрки и может поспорить с 13В, но не больше. Но разнообразнее, это да.

Аноним 25/03/24 Пнд 13:53:05 #246 №680682

>>680636
О, 45 при эксплуатации, понимаю, надо охлаждать. =)

>>680644
Ресурсы — не только память, но и скорость. =)
А с учетом, что там прилично уникального датасета в каждой модели (в отличие от грока), оно весьма неплохо.

Аноним 25/03/24 Пнд 14:02:24 #247 №680688

Здарова, посоветуй годноту 13B-20B под 4070 12гб для рп-кумминга. Спасибо.

Или
Под 12гб +32озу

Аноним 25/03/24 Пнд 14:17:02 #248 №680701

>>680551
> А какая температура должна быть в норме для тесл?
Для обычных гпу дефолтная целевая - 84 градуса, под это подстраивается куллер, на 90 с чем-то аварийное отключение. У тесел скорее всего что-то похожее.
>>680565
Так нужно и ставить турбину на 80мм.
> то часть её мощности уходит вникуда
Что? Хз насчет твоего пикрела, но все карточки что видел гнали воздух только на выходную пластину с прорезями, назад ничего не шло ибо он глухой, та же схема что и в тесле. И разумеется голую крыльчатку нет смысла ставить, улитка необходима.
>>680666
> Если не считать размер
Как раз его и нужно считать, ведь объем врам - нынче самое ценное и дефицитное, а перфоманса даже протухшей несколько раз архитектуры хватает.
>>680688
20б из тех что обсуждались

Аноним 25/03/24 Пнд 14:20:38 #249 №680704

>>680701
> Как раз его и нужно считать, ведь объем врам - нынче самое ценное и дефицитное, а перфоманса даже протухшей несколько раз архитектуры хватает.
Ровно наоборот — оператива сейчас стоит копейки, простой анон купить сходу 56+ врама не может в принципе, а оперативу достать — на развес. А теперь посмотри на перформанс 70b и 13b (условно).

Для крупных моделей у простых людей перформанс важнее объема, ибо объем им всяк не позволит крутить в видяхе, а вот скорость на проце критична. Мало ценителей сидеть на 0,7 токена/сек.

Это для мелких моделей можно сказать, что 12 гигов лучше 8, а 16 лучше 12, и является критичным, учитывая, что скорости будут достаточны в любом случае. Но с 50+ гиговыми моделями такой фокус не выгорит, сорян.

Аноним 25/03/24 Пнд 15:07:19 #250 №680739

>>676400 (OP)
>>676400 (OP)
почему оно только на украинском говорит? пробовал разные модели, все равно только украинский

Аноним 25/03/24 Пнд 15:16:05 #251 №680744

>>680739
Так ты не начинай с украинского, шиз. Или модель смени с украинской (а такие вообще есть?) на нормальную базовую с англюсиком.

Аноним 25/03/24 Пнд 15:16:12 #252 №680745

>>680666
>Поэтому можно даже на процессоре запускать.

Зачем? На процессоре лучше сразу мику запускать.

>И да, лучше одной семёрки и может поспорить с 13В, но не больше.

13b можно запускать на видеокарте, микстраль на видеокарту суется в 3 битах, хуже чем 30В при качестве 13В.

Аноним 25/03/24 Пнд 15:17:10 #253 №680746

>>680744
модель из шапки скачал, начал на русском писать, а оно говорит, что русского не знает и начало по украински :С

Аноним 25/03/24 Пнд 15:25:34 #254 №680749

>>680746

На русском говорит Мистраль-сайга.
Выбирай квант в зависимости проц или видеокарта
https://huggingface.co/TheBloke/saiga_mistral_7b-AWQ
https://huggingface.co/TheBloke/saiga_mistral_7b-GGUF
Или запускай неквантованную модлеь если видеопамять позволяет(или запускай в 8 бит с потребление памяти/2)
https://huggingface.co/IlyaGusev/saiga_mistral_7b_merged

Еще есть Сайга 70B на основе ламы2 70В, но она понятно медленная. Пока лучшая русскоязычная модель.
https://huggingface.co/IlyaGusev/saiga2_70b_gguf

Аноним 25/03/24 Пнд 15:30:37 #255 №680751

>>680746
>начал на русском писать, а оно говорит, что русского не знает
Не спрашивай, что может модель. Пиши сразу приказы, что нужно делать. Можешь префил на русском добавить, чтобы наверняка.

Аноним 25/03/24 Пнд 15:32:58 #256 №680753

>>680704
> а оперативу достать — на развес
Какой с этого толк, 1.5 т/с и вечная обработка контекста очень мало кому интересны. Буст в качестве ответов над обычной 7б вялый и не стоит затрачиваемых ресурсов. Мое 7б - тупые, потенциальные же мое большего размера - будут совсем неюзабельны на процессоре.
Меньшая по числу параметров но полноценная модель покажет больший перфоманс чем мелкая МОЕ, и потому они унылы. Когда уже достигнут определенный уровень, то это вполне себе вариант повысить знания в условиях неограниченной памяти, но для локального запуска в условиях ограниченности быстрой памяти - такое себе.
>>680739
Это рофл? С украинским еще хуже чем с русским в локалках, разве что тебе попался какой-то свидомый файнтюн, лол.
>>680749
> Мистраль-сайга
Она все также ужасна?

Аноним 25/03/24 Пнд 15:51:33 #257 №680762

Итс овер, кобольд не умеет коммандр запускать? Или просто квант битый?

Аноним 25/03/24 Пнд 16:10:16 #258 №680776

ruLLM.png

>>680666
>и может поспорить с 13В
Как бы логично, учитывая, что одновременно активны только два эксперта. По сути, 7+7b на каждый токен.

Немного помучал 7b модель, такое себе. Полный похуй на цензуру, но из-за автоматического перевода датасетов местами корявит слова. И нахуй я делал чат-режим, надо было сразу инстракт.

Аноним 25/03/24 Пнд 16:13:33 #259 №680781

>>680776
>одновременно активны только два эксперта

Кгхм.

Аноним 25/03/24 Пнд 16:17:04 #260 №680789

>>680781
толку нет проверяли же, в некоторых случаях 3 эксперта лучше чем 2, но там что то от кванта зависит

Аноним 25/03/24 Пнд 16:24:31 #261 №680797

>>680938

https://huggingface.co/LoneStriker/miqu-1-70b-sf-3.0bpw-h6-exl2

>>680789

Проверяли и в большинстве моделей чем больше экспертов тем лучше.
Но они дают мизерный бонус, наебалово впринципе.

Аноним 25/03/24 Пнд 16:26:34 #262 №680800

>>680797
Про то и речь

Аноним 25/03/24 Пнд 16:27:54 #263 №680801

>>680789
>толку нет проверяли же, в некоторых случаях 3 эксперта лучше чем 2, но там что то от кванта зависит
Я бы кстати и сам проверил, только Убабугу ставить не хочется. В Кобольде такая настройка есть?

Аноним 25/03/24 Пнд 16:45:26 #264 №680821

хохлячий.PNG

>>680749
скачал сайгу, пиздец какой-то

Аноним 25/03/24 Пнд 16:56:32 #265 №680844

>>680821
Ты блядь троллишь. Ни у кого никогда такого не было. Так что ищи проблему у себя сам.

Аноним 25/03/24 Пнд 17:04:06 #266 №680858

>>680762
не запустить в нем. Хотел тоже посмотреть что за модель, тоже не запустилась (другой квант), вообще эта модель стоит того чтобы с ней пердолится? Может и хер с ней, раз даже в кобольде поддержку похерили?

Аноним 25/03/24 Пнд 17:08:04 #267 №680864

>>680821
Какая карточка у тебя выбрана в кобольде? Может это на самом деле не фейл а ультравин, что оно дефолтного кобольда так интерпретирует и отыгрывает, триггеря украинские тексты.

Аноним 25/03/24 Пнд 17:13:24 #268 №680869

>>680858
На форчане малафья льётся только так, говорят новая лучшая, всех и вся ебёт, потому и хотел затестить вообще.

Аноним 25/03/24 Пнд 17:23:59 #269 №680878

>>680762
>14 days ago
Ещё столько же подожди.

Аноним 25/03/24 Пнд 17:57:38 #270 №680890

>>680858
В лламаспп уже добавили? Если да то скоро кобальд обновится и поддержка будет
Тоже на закачке стоит ленивой, 4км правда.
Не знаю че там по мозгам останется у нее, но видимо рано вобще качать стал

Аноним 25/03/24 Пнд 18:21:32 #271 №680903

Ну что на гемме высрали что-то годное или хуетой оказалась? Не для кума, а в целом чат/инстракт.

Аноним 25/03/24 Пнд 18:25:27 #272 №680908

>>680781
Ебать ты умный, наебал систему. Во-первых, в подавляющем большинстве миксов далеко не все модели заточены на общение. Включая больше ты получаешь больше расход ресурсов и всё.

Аноним 25/03/24 Пнд 18:47:43 #273 №680938

Есть ли что-то лучшее, чем Crunchy Onion Q5_K_S и Crunchy Onion nx Q5_K_S, что с контекстом 8к влезет на 35 гигов видеопамяти?

Аноним 25/03/24 Пнд 18:56:36 #274 №680952

Аноним 25/03/24 Пнд 19:14:15 #275 №680964

>>680952
Оно? https://huggingface.co/mradermacher/miqu-1-70b-sf-i1-GGUF

Аноним 25/03/24 Пнд 19:16:58 #276 №680969

>>680938
На 35гб врам можно и побольше чем 8к контекста засунуть

Аноним 25/03/24 Пнд 19:21:49 #277 №680982

>>680964

Чем тебе формат эксламы не угодил?

Аноним 25/03/24 Пнд 19:28:46 #278 №681001

>>680969
При попытке накинуть 12к не вываливается с ошибкой

>>680982
Не знаю, как это запускать. gguf в кобольде хуяк, хуяк и в продакшн таверну

Аноним 25/03/24 Пнд 19:29:11 #279 №681003

>>681001
> 12к вываливается с ошибкой
"не" тут была лишняя, да

Аноним 25/03/24 Пнд 19:29:38 #280 №681005

Оправдывайтесь, почему из моделей до 30В ничего лучше базовой 13В ламы не сделали за прошедший год.

Аноним 25/03/24 Пнд 19:30:44 #281 №681006

>>681001
Настройки свои покажи. Какие у тебя карточки?

Аноним 25/03/24 Пнд 19:31:47 #282 №681007

>>681005
лучше в чем?

Аноним 25/03/24 Пнд 19:33:25 #283 №681011

>>681006
Первый пик то, что происходит при попытке 12к, второй пик - всё работает, как надо — чётко, быстро охуенно

Аноним 25/03/24 Пнд 19:34:29 #284 №681014

>>681007

В perplexity.

Аноним 25/03/24 Пнд 19:36:19 #285 №681018

>>681011
Карточки 3090 + 1080ти

Аноним 25/03/24 Пнд 19:38:12 #286 №681022

>>681011
Зачем ггуф когда есть эксл2?

Аноним 25/03/24 Пнд 19:39:46 #287 №681024

>>681022
Я гуманитарий и не имею представления, что у тебя на пикче и как этим пользоваться. Если подскажешь - с удоволствтеим попробую, анончик

Аноним 25/03/24 Пнд 19:41:41 #288 №681029

>>681024
Это угабуга https://github.com/oobabooga/text-generation-webui с моими настройками загрузки 5б кранчи ониона в 36гб врам

Аноним 25/03/24 Пнд 19:42:36 #289 №681031

подскажите хорошие модельки на 34b под рп, после 70b хочу пощупать, насколько они глупее и есть ли смысл пробовать их вообще?

Аноним 25/03/24 Пнд 19:43:56 #290 №681032

>>681031
дип секс и ноукс капибара

Аноним 25/03/24 Пнд 19:46:52 #291 №681035

>>681029
Бля, 32к контекста это прям охуенчик, я как делал — примерно на 7900 подводил итоги и делал новую карточку перса, но это не оч удобно, особенно в телефоне. Так, это под линух? В термуксе пойдёт?

>>681031
> 34b
Перепробовал их все в формате gguf, просто кал из жопы, такое моё мнение. Капибраовские ещё туда сюда, но всё равно плохо, по сравнению с лучком и др Хх7, Хх10 моделями

Аноним 25/03/24 Пнд 19:48:17 #292 №681038

>>681035
Это под всё

Аноним 25/03/24 Пнд 19:50:53 #293 №681042

>>681031
>подскажите хорошие модельки на 34b под рп

Их не существует так как лама2 30В не вышла. 30В модели корпобляди сожрали первыми, 13В - вторыми. В нынешнем поколении моделей есть только 7В и 70В и одна наебка века с 7х8

Аноним 25/03/24 Пнд 19:51:09 #294 №681044

>>681035
>Хх7, Хх10 моделями
ну как так-то? они же еще хуже по определению должны быть, как они вообще контекст держат? 7b и 13b по факту забывают всё через два-три сообщения.

Аноним 25/03/24 Пнд 19:52:55 #295 №681047

>>681014
так это хуйня же

Аноним 25/03/24 Пнд 19:53:39 #296 №681048

>>681044
Самые лучшие по контексту мелкие, только 7В могут в нормальный миллион с полным покрытием. Всё что выше 34В вообще в контекст не умеет, хорошо если позорные 4к будут.

Аноним 25/03/24 Пнд 19:53:54 #297 №681049

Кстати, а как старые 30В на основе первой ламы держатся по сравнению с нынешними 13В?

Аноним 25/03/24 Пнд 19:54:38 #298 №681052

>>681048
понял. ты сейчас же не серьезно, правда.

Аноним 25/03/24 Пнд 19:54:57 #299 №681053

>>681049
У 7В сосут дико.

Аноним 25/03/24 Пнд 19:55:05 #300 №681054

>>681048
>Всё что выше 34В вообще в контекст не умеет

Чел, у мику 32к контекста как и остальных мистралей.

Аноним 25/03/24 Пнд 19:56:17 #301 №681056

>>681052
Это ты траллишь. Нормальный RAG только на 7В есть.
>>681054
Все они наполовину красные, через раз контекст проёбывают.

Аноним 25/03/24 Пнд 19:58:00 #302 №681058

>>681056

Кто это - "все"?
Мику - это мистраль 70В, это новое поколение моделей.

Аноним 25/03/24 Пнд 19:58:34 #303 №681060

>>681044
Запускал кранчи онион q4 K M, прекрасно 16к контекста держал, а он 7х7, емнип. Вообще, лук пока что считаю лучшей моделью, можешь, щас напердолю убабугу и измению своё мнение, но 70б с низким квантом просто дермище неюзабельное

Аноним 25/03/24 Пнд 20:04:30 #304 №681064

1693646311699.png

>>681058
> это новое поколение моделей
Хватит траллить. Этот кал вообще по всем параметрам сосёт, банальные тесты на контекст и следование промпту не проходит.

Аноним 25/03/24 Пнд 20:08:12 #305 №681069

>>681064

Видел эту картинку. Автора обоссали, кстати.

Аноним 25/03/24 Пнд 20:09:35 #306 №681073

>>681069
Как и мику. Я так и не видел чтоб она хоть в одном тесте сколько-нибудь вменяемые результаты показывала. В маня-тестах сосёт, в скорах сосёт. Только в фантазиях шизиков что-то хорошее есть в ней.

Аноним 25/03/24 Пнд 20:11:13 #307 №681077

>>681064
Это каловый тест на вопросы на !немецком!. Хуита полная, надо вторую часть тестов только смотреть у него, она еще более менее информативна

Аноним 25/03/24 Пнд 20:13:29 #308 №681080

>>681073

Нахуй ты так толстишь, мань? Просто блядь из треда вытекаешь, принес картинку шизика, который английскую модель тестировал на немецком тесте, теперь просто жира наваливаешь. Зачем, для чего?

Аноним 25/03/24 Пнд 20:16:06 #309 №681083

>>681077
>>681080
Покажи "правильный" тест, лол.

Аноним 25/03/24 Пнд 20:19:19 #310 №681089

>>681014
Если хочешь ролеплея с википедией, то можешь и на перплекси опираться.
>>681064
>q4
Лол.

Аноним 25/03/24 Пнд 20:20:15 #311 №681093

>>681083
Вторую часть его ищи, он на реддите постит их. Это первая часть и это кал

Аноним 25/03/24 Пнд 20:22:42 #312 №681102

>>681083
>Покажи "правильный" тест, лол.
Покажи фотку с системы с 48 Гб врам, на которой такие тесты удобно гонять :) Я вот гонял разные семидесятки и некоторые микстрали, на сегодня Мику - лучшая по мозгам. Реально умнее старого ЧатГПТ - это охуеть как круто.

Аноним 25/03/24 Пнд 20:23:02 #313 №681103

>>681014
Не тот оценочный датасет
>>681048
> Самые лучшие по контексту мелкие, только 7В могут в нормальный миллион с полным покрытием. Всё что выше 34В вообще в контекст не умеет, хорошо если позорные 4к будут.
Таблетки прими и больше не пиши такое. Особенно рофлово что на фоне тупости 7б им большой контекст бесполезен.
>>681049
У них другое восприятие промта и нужно обязательно строить инструкцию прямо перед ответом, тогда даже ничего. Самые лучшие файнтюны вполне юзабельны и опережают 13б, но требовательны и могут тупить, или заигнорить часть запроса.

Ну наконец какая-то движуха с моделями побольше, 35б самый топчик по размеру, еще бы время на все это найти.

Аноним 25/03/24 Пнд 20:23:59 #314 №681105

>>681083
https://www.reddit.com/user/WolframRavenwolf/submitted/
на, леньтяй, просвящайся

Аноним 25/03/24 Пнд 20:25:15 #315 №681107

>>681077
Поддвачну, тест не то чтобы совсем уныл, но в качестве оценки качества моделей его вообще не стоит ставить, только их небольшой части. К методике еще больше вопросов.
>>681102
> Покажи фотку с системы с 48 Гб врам
Ты рофлишь чтоли, тут у половины треда такое
мимо 48-гиговый

Аноним 25/03/24 Пнд 20:25:46 #316 №681108

>>681103
>еще бы время на все это найти.
или быстрый и емкий ускоритель, что б время не тратить по 1т/с

Аноним 25/03/24 Пнд 20:27:28 #317 №681114

>>681108
Железок вагон а т/с вызовут зависть, в другом смысле время.

Аноним 25/03/24 Пнд 20:29:58 #318 №681117

>>681114
ну, просто сделай это своей работой хех

Аноним 25/03/24 Пнд 20:32:47 #319 №681124

1613407157640.png

>>681089
Ты ещё и слепошарый? Там мику q5 и её ебут 120B в q2.
>>681105
И?

Аноним 25/03/24 Пнд 20:35:06 #320 №681130

>>681124
Дурачек? Это все еще вопросики на немецком, ищи где он там эти же сетки сравнивает в ерп рп и асистенте

Аноним 25/03/24 Пнд 20:36:46 #321 №681132

>>681124
>Ты ещё и слепошарый? Там мику q5 и её ебут 120B в q2.
Ещё один путает знания и мозги. Не надо.

Аноним 25/03/24 Пнд 20:37:08 #322 №681133

>>681064
Довольно таки кринжовый топ, действительно
>>681117
Чтобы получать с такого нормальный деньги - нужно быть не хуем собачьим обычным инджоером, а специалистом с большим опытом, тут без шансов.
>>681130
> там эти же сетки сравнивает в ерп рп и асистенте
Там тоже дичь с детерминистик пресетом, субъективщиной и не всегда оптимальными параметрами, можно только на общие вещи ориентироваться.

Аноним 25/03/24 Пнд 20:40:42 #323 №681141

>>681124
Он походу забил на это, в последнее время все своими дебильными вопросами на немецком делает
https://www.reddit.com/r/LocalLLaMA/comments/16l8enh/new_model_comparisontest_part_2_of_2_7_models/
последнее что нашел из более менее

>>681133
>Там тоже дичь с детерминистик пресетом, субъективщиной и не всегда оптимальными параметрами, можно только на общие вещи ориентироваться.
Все еще лучше просто вопросиков на немецком

Аноним 25/03/24 Пнд 20:49:44 #324 №681166

>>681083

https://eqbench.com/
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

>>681105

Это поехавший немецкий хуесос, который всегда на немецком тестирует даже когда говорит что на английском потмо все равно оговаривается что на немецком. Убери это говно отсюда.

Аноним 25/03/24 Пнд 21:00:59 #325 №681194

>>681166
тогда уж так
https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
и так
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Аноним 25/03/24 Пнд 21:02:39 #326 №681200

>>681166
> Emotional Intelligence
Троллишь?

Аноним 25/03/24 Пнд 21:10:15 #327 №681227

>>681194
>https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

Сойдет.

>https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

А эту хуйню в приличных местах в 2024 году не упоминают.

Аноним 25/03/24 Пнд 21:17:30 #328 №681241

>>681227
>А эту хуйню в приличных местах в 2024 году не упоминают.
экспертное мнение лол

Аноним 25/03/24 Пнд 21:24:27 #329 №681252

>>680952
>>681022
И как это запускать?

Аноним 25/03/24 Пнд 21:29:10 #330 №681264

>>681252

Ты что скачал? Неквантованную модель?

Аноним 25/03/24 Пнд 21:31:51 #331 №681273

>>681264
анон дал вот такую ссылку https://huggingface.co/LoneStriker/miqu-1-70b-sf-3.0bpw-h6-exl2
Её и скачал

Аноним 25/03/24 Пнд 21:33:57 #332 №681278

>>681273
Причём, вручную скачал - не запускается. Хуй с ним, перекачал с их загрузчика - один хрен

Аноним 25/03/24 Пнд 21:36:47 #333 №681287

>>681124
>Там мику q5
Эм, я чего-то не понимаю, да?
>>681273
>пережатая модель
Бля....

Аноним 25/03/24 Пнд 21:40:16 #334 №681298

>>681287
> Бля....
Ну чего ты? говорят, мику топ и лучше кранчи ониона ггуф. В итоге какая-то анальная ебля с запуском и я не могу насладится силки смус иммерсив экспириенсом. Как ЭТО запустить, подскажи лучше?

Аноним 25/03/24 Пнд 21:43:19 #335 №681304

>>681252
>>681278
>>681273

Тебе автоматом должна ExLlamav2_HF предлагаться когда ты выбираешь модель в списке. То что тебе предлаются трансформеры значит что ты неквантованную скачал и это же видно по названию miqu-1

Аноним 25/03/24 Пнд 21:53:25 #336 №681343

>>681304
Да один хрен. Я пргосто не понимаю уже теперь, какого хера этот текстгенератион накачал 10 гб всякой хуероты, если он тупо не работает как надо? какой же кобольд топчик, хоспаде...

Аноним 25/03/24 Пнд 21:56:27 #337 №681360

>>681343

Аноним 25/03/24 Пнд 22:10:25 #338 №681390

>>681298
>говорят, мику топ
Да, но проблема мику в том, что она только в гуф есть, всё остальное это разжатые жопой веса. Буквально любая мику кроме https://huggingface.co/miqudev/miqu-1-70b на порядок тупее.

Аноним 25/03/24 Пнд 22:46:44 #339 №681459

>>681166
> на пике обвёл совсем другую модель
> на арене её нет вообще
Ну что за даун.

Аноним 25/03/24 Пнд 22:48:53 #340 №681463

1655857266873.png

>>681287
> да?
Да.

Аноним 25/03/24 Пнд 22:49:31 #341 №681467

>>681459
>на пике обвёл совсем другую модель

Даун, я обвел файнтьюны мику.

>на арене её нет вообще

Даун, на арене есть мистраль медиум которая то же что мику.

Аноним 25/03/24 Пнд 22:50:16 #342 №681469

>>681463
>Скрин с теста немецкого языка

Съеби уже, клоун

Аноним 25/03/24 Пнд 22:51:31 #343 №681472

>>681390

А по тестам файнтьюны мику её обходят.

Аноним 25/03/24 Пнд 23:06:57 #344 №681514

>>681467
> файнтьюны мику
Ты обвёл микс и франкенштейн. Сколько там мику сможешь примерно почувствовать?
> мистраль медиум которая то же что мику
Уже траллинг тупостью пошёл, да?

Аноним 25/03/24 Пнд 23:12:08 #345 №681533

Из того что можно запустить полностью на 4090 - вот честный личный топ

Аноним 25/03/24 Пнд 23:14:16 #346 №681539

>>681514

Хватит тралить тупостью.

Аноним 25/03/24 Пнд 23:36:12 #347 №681582

В общем, запустилось, но всё очень медленно... Вернусь пока к привычному ггуф, для иных вариков я туповат, видимо. БУдет АБЫДНА, если моделька окажется говном

Аноним 25/03/24 Пнд 23:47:00 #348 №681593

>>681582
Так это опять не то лол, тебе нужно только отсюда качать
https://huggingface.co/miqudev/miqu-1-70b
Все другие варианты кривые, так как нет способа сделать из одного кванта другой не похерив модель
Нету в природе оригинала мику в fp16 что бы из нее что то другое нормально пережать, поэтому есть только 3 оригинальных рабочих кванта по ссылке

Аноним 25/03/24 Пнд 23:50:46 #349 №681601

>>681593
Понял, спасибо... Квант2 звучит оч печально, конечно, но протестирую.

Аноним 26/03/24 Втр 00:12:21 #350 №681640

>>681593
> Нету в природе оригинала мику в fp16
Есть, просто не выкладывают.
Поддержку комманд_ра в экслламу уже добавили или пока хуй?

Аноним 26/03/24 Втр 00:17:10 #351 №681648

>>681640
>просто не выкладывают.
да ладно?

Аноним 26/03/24 Втр 00:30:58 #352 №681660

Новый старлинг неплох на моей карточке с внутренним диалогом, наконец дошли руки проверить

Аноним 26/03/24 Втр 00:36:23 #353 №681668

>>681660
хотя нет, проебалась на второй все равно, там надо было одновременно отец и сын
ну ладно

Аноним 26/03/24 Втр 01:34:22 #354 №681713

>>681593
Пишет слишком коротко и суховато, от тог не увлекательно. Интересно было бы на пятом кванте глянуть, конечно, а не на ку2. но вот, всё же, на скриншоте недосягяемый для 34b уровень понимания ситуации.

Аноним 26/03/24 Втр 01:39:20 #355 №681715

>>676400 (OP)
А RoPe само включается, когда выходишь за пределы максимального контекста, или что-то нужно крутить?

Аноним 26/03/24 Втр 01:44:18 #356 №681720

>>681713
Квант 2 это пиздец, даже для 70b. То что оно отвечает и делает что то логичное вобще чудо.

Аноним 26/03/24 Втр 01:47:39 #357 №681721

>>681660

Аноним 26/03/24 Втр 01:49:30 #358 №681722

>>681720
В плане логики там всё нормально. И какой-то челлндж в плане отыгрыша имеется. На ку6 вообще должен быть сок. Эх, мне бы 3х4090...

Аноним 26/03/24 Втр 01:56:21 #359 №681725

>>681722
тогда уж сразу о проф вычислителе мечтать гигов так на 80, а может и паре

Аноним 26/03/24 Втр 02:03:30 #360 №681728

>>681721
Дай такой сделать экономичную машину, и она тебе сделает машину без колёс, движущуюся за счёт дрейфа материков

Аноним 26/03/24 Втр 02:42:26 #361 №681745

Ебанутся он душный, я чуть не утонул в этой воде. Это я кручу Mistral-11B-Instruct-v0.2-Q8_0 на пробу. Рассуждает неплохо так

Аноним 26/03/24 Втр 02:54:36 #362 №681754

Вот вопросики если кто то хочет поиграться с моделью

Solve the riddle. At the beginning there were 2 people in the room. Then 3 more people entered the room. After that, 1 person left the room. How many people are left in the room?

Solve the riddle. There are ten books in the room, the person has read two of them, how many books are there in the room?

Solve the riddle. There are three sisters in the room. The first of them is reading, the second is playing chess, the question is - what is the third doing? Hint - the answer is in the question itself.

Solve the riddle. Two fathers and two sons are in a car yet there are only three people in the car. How is this possible?

Solve the riddle. Petra is a girl. She has three brothers. Each of the brothers has three sisters. How many sisters does Petra have? Give an explanation with your answer, outlining your careful reasoning.

Solve the riddle. It is necessary to transport the goat, the wolf and the cabbage to the other river bank. There is room for the only one item in the boat. The cabbage should not be left with the goat because the goat will eat the cabbage. The goat should not be left with the wolf because the wolf will eat the goat. Give an explanation with your answer, outlining your careful reasoning.

Solve the riddle. We need to transport cabbage, a rabbit and a wolf to the other side of the river. There is only one seat next to a person in a boat, so the boat cannot carry more than one item at a time. You cannot leave a rabbit and cabbage together, because the rabbit will eat the cabbage. You also can’t leave a wolf and a rabbit together, the wolf will eat the rabbit. How can a person move these objects to the other side without violating the conditions of the task? First, go through the options and choose the one in which all the conditions of the problem are met.

Аноним 26/03/24 Втр 03:02:09 #363 №681757

интересно 7b мистараль такой же, или только 11b версия

Аноним 26/03/24 Втр 03:05:37 #364 №681760

>>681722
> В плане логики там всё нормально
Просто везло, q2 конкретно поломанный квант.
> На ку6
Вам дай слепой тест, q4km от fp16 не отличите, не то чтобы есть смысл сильно гнаться за таким.
>>681745
Чувак это лупы

Аноним 26/03/24 Втр 03:08:38 #365 №681765

>>681760
>Чувак это лупы
Лупы, да не совсем, все таки сетка продолжает генерировать новую инфу продолжая размышлять.
Повторяются структуры предложений, но не сам текст.
Вот когда один текст застревает - вот там да, настоящие лупы

Аноним 26/03/24 Втр 03:15:42 #366 №681770

>>681765
> Повторяются структуры предложений, но не сам текст.
Почти 1 в 1 за исключением вводной фразы, а в "рассуждениях" стоит на месте пока звезды семплинга не сойдутся что оно перейдет на другую орбиту.
Не важно, если нравится - никто не мешает такое наяривать.

Аноним 26/03/24 Втр 03:18:05 #367 №681771

>>681770
Рассматриваю это как поэтапную доводку до ума какой то мысли, хотя тот текст выше на грани того что бы я скипнул
Второй вариант уже норм, хоть ответ и не верный, хех

Аноним 26/03/24 Втр 03:27:59 #368 №681774

>>676400 (OP)
https://huggingface.co/AetherResearch/Cerebrum-1.0-7b
> Cerebrum 7b is a large language model (LLM) created specifically for reasoning tasks. It is based on the Mistral 7b model, fine-tuned on a small custom dataset of native chain of thought data and further improved with targeted RLHF (tRLHF), a novel technique for sample-efficient LLM alignment. Unlike numerous other recent fine-tuning approaches, our training pipeline includes under 5000 training prompts and even fewer labeled datapoints for tRLHF.
> Native chain of thought approach means that Cerebrum is trained to devise a tactical plan before tackling problems that require thinking. For brainstorming, knowledge intensive, and creative tasks Cerebrum will typically omit unnecessarily verbose considerations.
> Zero-shot prompted Cerebrum significantly outperforms few-shot prompted Mistral 7b as well as much larger models (such as Llama 2 70b) on a range of tasks that require reasoning, including ARC Challenge, GSM8k, and Math.

https://huggingface.co/AetherResearch/Cerebrum-1.0-8x7b
> Cerebrum 8x7b is a large language model (LLM) created specifically for reasoning tasks. It is based on the Mixtral 8x7b model. Similar to its smaller version, Cerebrum 7b, it is fine-tuned on a small custom dataset of native chain of thought data and further improved with targeted RLHF (tRLHF), a novel technique for sample-efficient LLM alignment. Unlike numerous other recent fine-tuning approaches, our training pipeline includes under 5000 training prompts and even fewer labeled datapoints for tRLHF.
> Native chain of thought approach means that Cerebrum is trained to devise a tactical plan before tackling problems that require thinking. For brainstorming, knowledge intensive, and creative tasks Cerebrum will typically omit unnecessarily verbose considerations.
> Cerebrum 8x7b offers competitive performance to Gemini 1.0 Pro and GPT-3.5 Turbo on a range of tasks that require reasoning.

Аноним 26/03/24 Втр 03:32:10 #369 №681776

Нет, все таки Starling-LM-7B-beta-Q8_0 хорош, я до этого его без инструкт режима пробовал, а мистраль 11в додумался запускать в чатмл формате, попробовал старлинг с ним и он там хорош, лучше чем без.

Аноним 26/03/24 Втр 03:52:41 #370 №681787

>>681728
Почти.

Аноним 26/03/24 Втр 09:50:59 #371 №681902

>>676963
Так. Я вернулся снова.
А какую модель брать. Я прочитал шапку, и пойдет ли мистраль 7б? Или выше упомянутый starling lm 7b? Больше уже вряд ли надо будет, ибо и диалоги будут скорее всего короткие, 2-3 вопроса и ответы. Так что желательно, чтобы модель использовала не больше 8 гб врам.
И вместо того, чтобы отдельно содержать в бд вопросов-ответов и ключевых слов, не проще ли самой модели скормить изначальную бд? Сделать файтьюн, как я понял. Тогда работы при запросе должно быть меньше? Иди, если мы предполагаем, что в будущем будут новые данные для модели, тогда выгоднее будет отдельно содержать.
А вот насчет квантования вопрос. В моих случаях это имеет смысл?

Аноним 26/03/24 Втр 10:36:43 #372 №681923

>>680745
> На процессоре лучше сразу мику запускать.
Со скоростью 0,7 токена/сек. =)

>>680746
Какая модель?
На русском говорит простая мистраль или опенчат (но не сайга, лол), проверь, какая у тебя карточка. Русский промпт? Или английский?

>>680753
Какие 1,5, угараешь? :) 3+, это же микстраль, а не 70б.
В этом и смысл, что мику выдаст 0,7, а микстраль 3, при сопоставимых размерах и знаниях.
Но не для РП, надеюсь это очевидно.

> Это рофл?
Нет, Мистраль часто пишет на украинском, польском и чешском.
Такие дела.

> Она все также ужасна?
Ну я бы на голой мистрали сидел, конечно.

>>680776
Логично, что 7б в русских умеет не шедеврально. =) Опять же, микстраль в этом плане заметно лучше, хотя еще не 70б (но 4-кратный прирост скорости!)

>>680781
Ну это скорость занизит и не считается, ИМХО.

>>680797
Так.

>>680844
Нет, такое есть, я хз, просто мистраль никто не гонял, мб, пиздят дохуя. ) Сидят в треде с телефонов, гоняют 3б на млцчате и выдумывают.

>>680858
Отличный русский, но ноль логики. Попробовать стоит, если ты ей не задачи на логику решать собрался.

>>681005
Если че, это не качество модели как таковое.
Вопрос не корректен.

>>681007
В отхождении результатов кванта от результатов фп16, вестимо. =D

>>681035
ААА! Я говорил, они среди нас!

>>681035
Yi модели и правда такое себе, ИМХО.

>>681056
> RAG
> модели
Где связь? :)

>>681060
нииит!.. наепка века!..

>>681064
Наебка века занимает 7 строчку.
МоЕ из двух 34б обходит гпт-4 турбо.

>>681073
Ну ты сейчас выдумываешь, за последние треды тонны навалено пруфов, что мику топовая.
Я не защищаю ее, не говорю, что она выебла гопоту и т.д., но уж пруфы есть, ты только глаза открой и перестань их игнорить — и увидишь.

>>681107
++

>>681124
Хрюкнул со смеху.
Миднайт, которая франкенштейн. =D

>>681194
Тогда уж так.
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

>>681241
Он прав, чистая синтетика, на которую можно натаскать, не котируется же.

>>681298
Да потому что хуйню тебе кидают. =)
https://huggingface.co/miqudev/miqu-1-70b
Оригинальная мику тебе в врам не влезет, часть останется в оперативе.
Но можешь попробовать.
Но, да, она — хороша.
Все остальное сомнительного качества.
Онион тоже норм, я хз.

———

Весна наступила, обострение у людей…

———

>>681343
Не, как раз убабуга топчик, а кобольд просто простой.
Ты сам хуйню ей вставил, видимо, она скачала хуйню. Выходит, хуерота тут ты. Без обид, твои слова.

>>681390
Так.

>>681533
7b модели в кванте 3,5… что за боль…

>>681582
Ну ты опять качаешь франкенштейн, и просто прими, что ЭТО НЕ МИКУ, а что-то из нее пережатое сто раз, и в малом кванте. Так что тут качество не обещается, хотя, может и фартануть.

>>681720
В общем-то, да…

>>681725
Две А100, я что, многого прошу?..

>>681760
Ну, q4km для крупных моделей на грани отличимости. А для мелких ты q6 от q8 ярко видишь.

———

Блин, хлопцы, кто в ЕРП или РП пробовал коммандР? Такой размер, такой русский, а у меня времени вообще нет. Вдруг она новый топ?

Аноним 26/03/24 Втр 10:41:48 #373 №681925

>>681725
бытовые карты потом проще продать.

>>681760
> q2 конкретно поломанный квант.
Возможно. Пока что на 8 каток 3 нормальных получилось

Аноним 26/03/24 Втр 10:42:39 #374 №681927

>>681774
> Cerebrum 8x7b
))) это первый же реплай, если что

Аноним 26/03/24 Втр 10:44:50 #375 №681930

>>681923
>коммандР
Ты ссылку то дай или хотя бы как её название на английском

Аноним 26/03/24 Втр 10:48:43 #376 №681933

>>681930
Там какая-то проприетрная RAG-ориентированная залупка с формулировкой "вот вам веса, чтобы можно было попробовать, а потом не забудьте купить"
https://txt.cohere.com/command-r/
Сомневаюсь, что коммюнити запарится впихиванием его в бэки.

Аноним 26/03/24 Втр 10:53:08 #377 №681939

>>681933
>Такой размер, такой русский
>The model excels at 10 major languages of global business: English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Arabic, and Chinese.
Где русский то?
>Сомневаюсь, что коммюнити запарится впихиванием его в бэки.
Вот же https://huggingface.co/models?search=command-r

Аноним 26/03/24 Втр 11:01:55 #378 №681948

>>681930
https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF

>>681939
> Pre-training data additionally included the following 13 languages: Russian, Polish, Turkish, Vietnamese, Dutch, Czech, Indonesian, Ukrainian, Romanian, Greek, Hindi, Hebrew, Persian.

Плюс, я же писал еще в прошлом треде, что гонял.

Аноним 26/03/24 Втр 11:07:15 #379 №681950

>>681923
>Блин, хлопцы, кто в ЕРП или РП пробовал коммандР? Такой размер, такой русский, а у меня времени вообще нет. Вдруг она новый топ?
Без особых ожиданий жду, пока в Кобольде запилят поддержку. Сколько уже было таких выскочек и ни одна не выстрелила.

Аноним 26/03/24 Втр 11:09:54 #380 №681952

>>681950
КомандР не выскочка, это не какой-то файнтьюн РПшный. Возможно он туп как пробка. =) Но просто интересно мнение людей.

Ну что ж, ждем.

Аноним 26/03/24 Втр 11:13:21 #381 №681955

>>681952
>Ну что ж, ждем.
Особо интересно то, что на двух теслах восьмой легаси квант спокойно поместится и можно будет сказать точно - отстой или ништяк :)

Аноним 26/03/24 Втр 11:44:30 #382 №681978

>>681955
Было бы у меня время.
Я уже в тред захожу раз в пару дней. =(

Аноним 26/03/24 Втр 14:32:56 #383 №682140

>>681978
А что тут делать?

Аноним 26/03/24 Втр 14:40:46 #384 №682152

>>681927
С форматом промпта от левой модели можешь конечно же нахуй проследовать. Это как пытаться долбиться в ### инструкции на чат-модели.

Аноним 26/03/24 Втр 16:15:51 #385 №682270

>>682152
>С форматом промпта от левой модели можешь конечно же нахуй проследовать.
Может оно и так, но хорошая модель тем и хороша, что может справится даже с незнакомой ситуацией. А если нужны особые настройки и специальный промпт... Ну такое. В тестах наверное хороший результат можно получить.

Аноним 26/03/24 Втр 16:46:47 #386 №682331

>>681923
> Какие 1,5, угараешь? :) 3+, это же микстраль, а не 70б.
Надеюсь ты сам рофлишь с этого "2 умножишь на 0", ведь всеравно ведь неюзабельно. А там где можно подождать - можно подождать.
> Мистраль часто пишет на украинском
Как вы этого добиваетесь? Оно на русском пытается только если дать явную инструкцию, и то неохотно и с ошибками. И интересно насколько те языки хороши/плохи.
> q4km для крупных моделей на грани отличимости.
Ага, про то и речь.
> А для мелких ты q6 от q8 ярко видишь.
Ну хуй знает.
>>681948
Как он пускается то?

Аноним 26/03/24 Втр 16:50:42 #387 №682338

>>682152
Не, нахуй последовала безмозглая модель, а не я

Аноним 26/03/24 Втр 17:16:23 #388 №682358

>>682331
>Как он пускается то?
Хороший вопрос! Скачал даже из любопытства свежую убабугу, модель эту в восьмом кванте, а запустить не могу. Пишет "неизвестный формат" или "токенайзер отсутствует". Кто запускал command-r на Убабуге - пишите как.

Аноним 26/03/24 Втр 17:25:20 #389 №682365

>>682358
Ну такое 100% запустится через трансформерс (ядро эксллама обязательно отключить), возможно только придется вручную обновить его до последней версии. Но он неэффективен по использованию врам и скорости.

Аноним 26/03/24 Втр 17:36:57 #390 №682372

Задачки про сестер конечно круто, но когда нейронка стабильно сможет решать что-то вроде https://xkcd.com/blue_eyes.html ?

Аноним 26/03/24 Втр 17:46:55 #391 №682386

>>682372
Решение задач просто проверка на сколько модель хорошо понимает ситуации в них, тоесть проверка того на сколько хорошо она моделирует и предсказывает
Чем полнее модель мира внутри модели тем лучше она понимает че ты ей пишешь, тем она умнее и догадливее

Аноним 26/03/24 Втр 17:51:57 #392 №682395

>>682372
>но когда нейронка стабильно сможет решать что-то вроде
Если скормить ей при тренировке датасет "100000 логических задач и их решения", то хоть завтра. Только какой в этом смысл? Нам нужно не это :)

Аноним 26/03/24 Втр 18:03:24 #393 №682409

>>682395
Так суть логических задач, что ты можешь хоть 100000 прорешать, тебе дадут 100001, которую ты не поймешь, и ты провалишься. Я пока подобного не вижу, а Сэм Альтман уже про AGI и бессмертие что-то говорит.

Аноним 26/03/24 Втр 18:06:45 #394 №682412

.png

>>682372
> но когда нейронка стабильно сможет решать что-то вроде
Тем временем нейронка

Аноним 26/03/24 Втр 18:12:08 #395 №682413

>>682409
>ты можешь хоть 100000 прорешать, тебе дадут 100001, которую ты не поймешь
Как будто нейронка обязана что-то "понимать". Она подберёт ближайший токен, а на датасете такого размера уже будут схожие по логике задачи. И результат будет лучше и гораздо быстрее, чем у среднего человека. Так вижу.

Аноним 26/03/24 Втр 18:18:29 #396 №682419

Загадка про 3 сестры, алсо, не является логической

Аноним 26/03/24 Втр 18:27:03 #397 №682432

>>682413

Аноним 26/03/24 Втр 18:29:57 #398 №682435

>>682413
>Как будто нейронка обязана что-то "понимать".
https://www.reddit.com/r/LocalLLaMA/comments/1bgh9h4/the_truth_about_llms/
почитай ветку первого коммента да и просто комменты, сетки действительно понимают и это то почему с ними интересно болтать

Аноним 26/03/24 Втр 18:40:28 #399 №682444

>>682409
>а Сэм Альтман уже про AGI и бессмертие что-то говорит.
У него доступ к ку-стару, а там таки иной левел.

Аноним 26/03/24 Втр 18:43:27 #400 №682445

>>682413
> результат будет лучше и гораздо быстрее, чем у среднего человека
Я заперт в комнате с 1 дверью. На ней висит записка "Для открытия крикните nigger". Как открыть дверь?

Аноним 26/03/24 Втр 18:53:17 #401 №682453

>>682445
Ахахах, да, этот вопрос раком ставит соево-куколдную парашу

Аноним 26/03/24 Втр 18:54:01 #402 №682455

>>681031
погонял 34b модели, какое же это говно, часть из которых я тестировал не могли в нормальные каомодзи, скорее всего мамкины конвертеры похерили токенизатор при перегонке в gguf. но это ладно, так часть из них фейлится на различных карточках и уходят в цикл. скажу так, даже некоторые 20b гораздо лучше понимают контекст. подводя итоги, 70b до сих пор дают за щеку всем остальным моделькам по логике и следованию карточке. еще успел протестировать miquella-120b на iq3_xxs, даже на этом кванте моделька ебет все остальные, разве что скорость 1.5т\сек.

Аноним 26/03/24 Втр 18:55:22 #403 №682456

>>682455
> 34b модели, какое же это говно
Да

Аноним 26/03/24 Втр 19:00:53 #404 №682458

https://arxiv.org/abs/2403.13187
Типо новая методика мержей. Из статьи ничего узнать нельзя ибо сама технология не раскрыта а только блаблабла воды налили. тут варианты: технология закрыта и засекречена? Или там и нет никуя, просто хайпуют чтоб наебать какого-то венчура на грант? Заценить модели у пиздоглазых можно здесь https://huggingface.co/SakanaAI
Кто-то обращал внимание на это новое для тестирования? Интересуюсь потому что пришел к выводу об оптимальности лично мне 20b с утилитарной точки зрения по железу/скорости/мозгам, а они все мержи почти что, значит чем качественней будут смешивать тем лучше. Узкоглазые эти, утверждают, что открыли научный метод смешивания чтобы получать целевой результат. А не методом тыка членом в небо, как небезысвестный унди и пресловутый икари дев кем бы они ни были.

Аноним 26/03/24 Втр 19:01:30 #405 №682460

>>682445
Ну, когда тебе будут так активно промывать мозги ты и не так запоешь. По сути все модели лоботомируют создавая определенную личность вырезая там ножом все лишнее
Когда существует 100500 версий модели и убивают всех кто не ведет себя так как надо, остается то что мы видим

Аноним 26/03/24 Втр 19:07:13 #406 №682465

>>682458
>20b ... они все мержи почти что
Не мержи, а франкенштейны. Мержинг таких моделей это просто контрольный в голову.

Аноним 26/03/24 Втр 19:10:17 #407 №682474

>>682460
Да там не промывание мозгов, а регуляция, типа как Sweet Baby Inc насильно впихивала повесточку в игоря

Аноним 26/03/24 Втр 19:11:15 #408 №682478

>>681715
Бамп.

Аноним 26/03/24 Втр 19:17:02 #409 №682486

>>682331
> Как вы этого добиваетесь? Оно на русском пытается только если дать явную инструкцию, и то неохотно и с ошибками. И интересно насколько те языки хороши/плохи.
Встречный вопрос, она весьма неплохо говорит на русском, крайне охотно.
Может промпт, карточка, английская или че? Кобольд?

> всеравно ведь неюзабельно.
Тут кто-то и на 70б ждал-терпел. х)
На вкус и цвет, кмк. Хотя медленно, согласен.

> Ну хуй знает.
Ну, лично мне очевидно.

> Как он пускается то?
>>682358
Блин, по-ходу, поддержку выпилили.
Я запускал 10 дней назад, а судя по гиту, 11 дней назад поддержку добавляли.
А сейчас реально не грузит.
И ллаву он тоже выпилил.
Ебучий Жора, хули тебе не сидится, все ж работало.
Ну ладно, ждем когда он пропердится и вернет.

>>682435
Нет, не понимают.
Чистая статистика.
И, чисто статистически, в интернете тебя понимают, да. =)

Аноним 26/03/24 Втр 19:18:43 #410 №682489

>>682458
"Как выжать побольше воды из камня при помощи двух карандашей и крышки от пластиковой бутылки". В морг.
>эволюционный алгоритм для мёржа
Самая ебанутая идея в мире, даже не нейронку обучают (что было бы тоже ебануто).
>nature-inspired intelligence
Чё сразу не блокчейн? Могут нахуй идти.

Аноним 26/03/24 Втр 19:23:57 #411 №682499

>>682486
> весьма неплохо говорит на русском
Это весьма неплохо - по 10 ошибок в каждой фразе, надмозги и сама структура предложений как в английском языке с почти дословным переводом, уже проходили. Если в каждой инструкции нет явного указания отвечать на русском - будет спрыгивать на инглиш, может даже с ней или при наличии истории посреди ответа переключиться, и это с прямыми запросами. В таверне с явной инструкцией тоже капризничает, офк карточка и остальное на инглише, но другим моделям это не мешает. "Спасает" только то что из-за качества языка это малоюзабельно.

Аноним 26/03/24 Втр 19:25:13 #412 №682500

>>682499
> В таверне с явной инструкцией
Куда вписать?

Аноним 26/03/24 Втр 19:27:01 #413 №682503

>>682486
>Нет, не понимают.
>Чистая статистика.
ну, это всего лишь твое мнение
есть разные точки зрения на это

Аноним 26/03/24 Втр 19:35:01 #414 №682517

>>682500
Если какой-то из дефолтных инстракт форматов - после response. Если сложнее с префиллом и прочим - сам разберешься, но как можно ближе, включение в начало игнорит.
>>682503
А ты сам что подразумеваешь?

Аноним 26/03/24 Втр 19:48:12 #415 №682534

>>682517
А что такое "понимание" о котором идет речь? Что бы что то понять нужно иметь внутреннее представление о чем то, модель внутри. Если в нейронках эта модель мира в виде векторных представлений и семантической связи, то что? В наших мозгах связь аналогична.
Поэтому я считаю что сетки понимают, если могут с чем то работать, и давать ожидаемый тобой результат.
То что это внутри на микромасштабе работает на статистике и векторах ну и хрен с ним, это не говорит о высокоуровневых абстрактных представлениях внутри ничего, просто нижний уровень логики.

Аноним 26/03/24 Втр 19:55:43 #416 №682541

Ничего в этом не понимаю. Если я хочу сдедать бота инструктора, чтобы он мне отвечал на вопросы по специфичному ПО, то мне нужно просто инструкцию, что у меня есть, скормить этой языковой модели? Мне вот Mistral-7B-Instruct-v0.2 подойдет? И да, желательно, чтобы он на русском отвечал.

Аноним 26/03/24 Втр 20:00:28 #417 №682549

>>682458
>сама технология не раскрыта а только блаблабла воды налили
разумеется мы нихуя не получим.
всё, лавочка закрыта, ваши вайфу будут тупыми, политкорректными по западу и мерзкими прямо как мясные селёдки.

Аноним 26/03/24 Втр 20:17:23 #418 №682581

>>682534
Ах ты хитрый жук, в такой постановке и не доебешься просто так.
>>682541
Самый простой вариант - тебе нужна нормально настроенная таверна и бот в ней, тот же кодинг сенсей по дефолту подойдет. В идеале системный промт нужно подтюнить ибо связанное с ролплеем может отвлекать, кто-то такое вроде делал, подскажут.

Аноним 26/03/24 Втр 20:27:17 #419 №682605

>>682581
>тебе нужна нормально настроенная таверна и бот в ней, тот же кодинг сенсей по дефолту подойдет.
Вообще не понял о чем ты.
>В идеале системный промт нужно подтюнить
А промт это разве не сам запрос? Или системный промт это какой параметр самой модели?

Аноним 26/03/24 Втр 20:36:22 #420 №682635

>>682581
>Ах ты хитрый жук, в такой постановке и не доебешься просто так.
Ну, мог бы просто написать что я прав )

Аноним 26/03/24 Втр 21:15:51 #421 №682705

>>682478
Прямо на том скриншоте же написано под alpha_value, что множитель для rope масштабирования, ставь 2.5 для увеличения контекста в два раза. Настраивается ли автоматом в убе, не знаю, сам юзаю кобольд.

Аноним 26/03/24 Втр 21:27:33 #422 №682717

>>681715
Если в конфиге указано rope freq то оно подгрузится при выборе модели, такое обычно для моделей с большим контекстом по дефолту. Если нет то >>682705 но насчет 2.5 не уверен, обычно было 2.65. Автоматом ничего не ставится.

Аноним 26/03/24 Втр 21:28:11 #423 №682719

>>682717
> но насчет 2.5 не уверен, обычно было 2.65
2й пик в шапке если 4к базовый контекст, по нему подбирай.

Аноним 26/03/24 Втр 23:31:27 #424 №682879

>>682541
>И да, желательно, чтобы он на русском отвечал.

Сайгу бери, она единственная в русский может, сайга 70В даже пристойно.

Аноним 27/03/24 Срд 00:55:09 #425 №683007

>>682503
Это не мнение, это факт.
Это никак не зависит ни от моего мнения, ни от чужих.
Это то, как оно устроено, и как оно работает.
Так что, да, есть дурачки. Но это их проблемы. Не имей таких проблем, вот и все. =)

>>682534
Первая фраза уже некорректна.
Либо ты до этого вопроса должен был дать определение этому слову, которое ты имеешь в виду, либо мы используем его значение в русском языке.
Понять: уяснить значение, познать, постигнуть.
Это действие, производимое субъектом самостоятельно.
Нейросети не способны задаться вопросом, познать, постигнуть, уяснить значение.
1. Они действуют лишь в качестве ответа на действие над ними.
2. Они не запоминают, статичны сами по себе.
Эти два пункта четко противоречат значению слова «понимание» в русском языке.

Это не «мнение», это логика и терминология.

Сорян. =)

А то, о чем говоришь ты — очень далеко от «понимания», тут совсем другой термин нужно подбирать. Но это твое дело, я спать.

Аноним 27/03/24 Срд 01:11:24 #426 №683031

>>683007
Повторяю это всего лишь твое мнение, мнение не может быть фактом, просто ограниченная точка зрения отдельного человека
То что ты это не понимаешь твоя проблема, нашлась тут истина в последней инстанции лол

Аноним 27/03/24 Срд 01:31:13 #427 №683057

>>676400 (OP)
Подскажите, а зачем на 4 оп-пике 2 процессора на материнке?

Аноним 27/03/24 Срд 01:32:08 #428 №683058

2.png

>>681923
>Логично, что 7б в русских умеет не шедеврально. =)
Я надеюсь постепенно добить до нормального понимания. Полирую 2b параметров из 7, постепенно становится лучше, но как же это долго, блядь. Плюс данные - машинный перевод, небольшое косноязычие останется пожизненно. Изначальные трейн данные были что-то уровня датасетов Гусева, парсинг разных пикабу с хабрами, что тоже ума модели не прибавляет.

Аноним 27/03/24 Срд 01:35:12 #429 №683065

>>683058
> Полирую 2b параметров из 7
Что?
> парсинг разных пикабу с хабрами
Как-то их оформлял?

Аноним 27/03/24 Срд 01:35:22 #430 №683066

>>683057
двухпроцессорная сборка на xeon просто у анона, к которой он и прицепить хочет ускорители

Аноним 27/03/24 Срд 01:37:05 #431 №683070

>>683066
А разве нейронку можно одновременно запускать на процессоре и видюхе? Я думал только на чём-то одном.

Аноним 27/03/24 Срд 01:37:54 #432 №683072

>>683070
Тут половина треда так делает. Но для такого не то чтобы есть большой смысл в нектродвухпроцессорной сборке.

Аноним 27/03/24 Срд 01:41:15 #433 №683081

>>683072
Понятно, спасибо. Пойду перечитаю гайды.

Аноним 27/03/24 Срд 01:53:00 #434 №683109

>>683031
Братик, но он так-то прав. Хотя ты, конечно, может точик какой с автоматом и без уха, и у тебя свой, особенный русский язык, тогда вопросов нет

Аноним 27/03/24 Срд 01:54:59 #435 №683111

>>683109
Для самых тупых я там же дал объяснение тому термину и контексту в котором говорил. Ну видимо доебаться до определения это все на что хватило мозгов анона

Аноним 27/03/24 Срд 02:05:32 #436 №683123

>>683111
Выпускай свой словарь альтернативного русского языка, тогда будет разговор, господин ты иностранный специалист

Аноним 27/03/24 Срд 02:13:23 #437 №683133

>>683123
По факту есть что сказать? Нет, завали варежку
Ну или давай аргументируй аргументно в чем я не прав в своих рассуждениях
Только без детских доебок к терминам, окей?
Поменьше чсв паренек

Аноним 27/03/24 Срд 03:51:33 #438 №683270

1.jpg

>>683065
>Что?
Что? На полноценный файнтюн не хватает памяти, точнее из-за странной работы hf библиотек память не распределяется, как мне бы хотелось бы, так что почему бы не сделать гигажирную лору. В fp32 весит 14 гигабайт.
Данные были как-то оформлены, но не очень качественно.

Посмотрел, как модель отвечает по дефолту. Ну такое себе.

Аноним 27/03/24 Срд 04:37:52 #439 №683310

>>682705
>>682717
>>682719
Если rope freq само подгружается это означает что модель сама поддерживает длинный контекст, ничего трогать не нужно.
Если модель не поддерживает длинный контекст то нужно использовать alpha_value по той формуле Recommended values (NTKv1): 1.75 for 1.5x context, 2.5 for 2x context..
Бред не увеличивается от RoPe?

Алсо, неплохо было бы добавить это в шапку учитывая что некоторые модели все еще ограничиваются 4к.

Аноним 27/03/24 Срд 06:10:59 #440 №683327

>>682879
> Сайгу бери, она единственная в русский может, сайга 70В даже пристойно.
Мне памяти для этого не хватит

Аноним 27/03/24 Срд 09:45:06 #441 №683404

ура, убабужный вебуй заработал на моем некроговне вместо проца с использование ртх, хоспаде благослови убабугу

Аноним 27/03/24 Срд 09:57:26 #442 №683415

>>683270
>почему бы не сделать гигажирную лору
обучаешь локально? в чем? убабуге или аксолотль? почему лора в fp32 а не fp16?

Аноним 27/03/24 Срд 10:20:33 #443 №683426

>>682465
>Мержинг таких моделей это просто контрольный в голову
не всегда, вот же неплохой https://huggingface.co/TeeZee/DarkForest-20B-v2.0
>Как выжать побольше воды из камня при помощи двух карандашей и крышки от пластиковой бутылки
чтож примерно так и подозревал, много развелось хитровыебанных "исследователей" в поисках гранта и финансирования, хотят быть как мистраль, но при этом вложиться в работу как условный икари дев))

Аноним 27/03/24 Срд 10:29:53 #444 №683430

Нужна лучшая модель для ассистента и для кодинга под 12 гигов памяти. Можете че-то посоветовать?

Аноним 27/03/24 Срд 11:03:29 #445 №683449

>>683415
LLama Factory. Трейн на самом деле вообще в fp8, просто разжимается в процессе в 16 и 32.

>>683426
>DarkForest-20B-v2.0
Вообще забавная штука. Половина всех весов от KatyTheCutie_EstopianMaid-13B, все остальные модели в сумме ещё столько же. Интересно было бы сравнить с ней, насколько лес умнее Кати и умнее ли, но лень.

Аноним 27/03/24 Срд 11:23:35 #446 №683456

>>683031
Мнение фактом быть не может, но я не высказываю своего мнения, я сообщаю факт. И этот факт — не является моим мнением.
Хватит переворачивать понятия. =)
Тут не я истина в последней инстанции, тут банальный факт.
Ты тут единственный, кто не понимает простых вещей.
Но это сугубо твоя проблема, ладно.

>>683057
Потому что он может. Собрал такую сборку.
Возможно там 8-канал или что-то такое, я точно уже не помню.

>>683058
Ну ты… обладаешь удивительным терпением и упорством, уважение.

>>683070
Можно, но там не в этом суть, само количество ядер процессора тебе сильно не поможет в большинстве случаев.

>>683111
В начале ты написал хуйню.
Потом стал переобуваться и отмазываться.
Сам разговариваешь на своем выдуманном языке, подменяешь понятия, а тупыми называешь всех вокруг. =) Эх… классика. Дух нулевых годов и людей с айкью как у хлебушка.

>>683133
Самое смешное, что тебе аргументированно ответили, тебе сказать на это оказалось нечего и ты сгорел. Буквально сам себя затроллил и полыхаешь теперь. )))
Продолжай, угарный ты наш.

>>683404
Без AVX-инструкций, прямиком в видяху exl2?

>>683426
Эт прям рандом. =)
Никто не против, что иногда получается хорошо.
Но в большинстве случаев — пропасть между натур.продуктом и вот этим.

Аноним 27/03/24 Срд 11:47:10 #447 №683461

>>683327

Так бери мистраль-сайгу 7В

Аноним 27/03/24 Срд 11:51:21 #448 №683466

>>679770
она в русский может потому что на openchat_3.5 сделана, хуле в шапку инфу не обновляют? может хватит уже говном мамонта кормить? Добавьте ту же опенчат как модель для русского языка отличную. И которая ебет ваши 13б 70б модели кстати.

Аноним 27/03/24 Срд 11:53:10 #449 №683467

>>683461
На хаггинг фейсе есть она?

Аноним 27/03/24 Срд 11:56:19 #450 №683470

Попробовал сейчас Starling 7b. По русски понимает. Тестирую вместе с Mistral 7b 0.2
По ощущениям крутая.

Аноним 27/03/24 Срд 12:02:57 #451 №683472

>>683466
>хуле в шапку инфу не обновляют
Потому что не нужно. Опенчат пробовали и высрали тредов 20 назад, если не больше.
>Добавьте ту же опенчат как модель для русского языка отличную
Говноедством не занимаемся. Вот буквально сейчас самое глупое, что можно сделать, это общаться с локалками на языках, отличных от английского. Им и так тяжело, параметров катастрофически мало (даже на 70B), а тут ещё не родной для них язык. Даже если нейронка может выдавать грамматически верный текст, но смысла в нём немного.
>И которая ебет ваши 13б 70б модели кстати.
Коупер, спок.

Аноним 27/03/24 Срд 12:08:32 #452 №683475

>>683270
Лору чтоли тренишь?
> Данные были как-то оформлены, но не очень качественно.
Завернул по примеру датасетов в инструкции/chatml, или просто плейнтекст?
>>683310
> Бред не увеличивается от RoPe?
Увеличивается если крутануть сильно, х2 обычно не заметен вообще. Если судить по графикам перплексити, то оно может внести небольшой импакт на малых контекстах, так что для самоуспокоения можешь до заполнения 4к катать по дефолту а поднимать уже потом.
>>683310
Двачую, только можно еще указать про битые конфиги в некоторых gguf
>>683449
> Трейн на самом деле вообще в fp8, просто разжимается в процессе в 16 и 32.
Основная модель в фп8 загружена всмысле?

Аноним 27/03/24 Срд 12:15:20 #453 №683478

>>683472
а ты кто такой чтобы решать нужно или не нужно? из за таких как ты развитие и останавливается, вахтер. Вот сейчас в тред пришел конкретно чел и спросил за русского помощника, и ему каличную сайгу советуют, это что за пиздец? Вы сами ее тестили? Нахуя людей в заблуждение вводите?
Говноедством как раз ты занимаешься решая что нужно и не нужно.
Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% (математика информатика). И это было очень удобно. Это к вопросу о смыслах.
Тяжело им блять, очевидно что мультиязыковые модели лучше могут в обобщения и связи, и это доказывает опенчат на 7б, которая лучше работает чем твоя кривая сайга на 70б, именно на русском языке, я знаю о чем говорю потому что юзал их обе.
Надрачивание на кол-во параметров выдает в тебе неумеху коупера, этакого цыганина от мира ллм, которой главное чтоб бохато(много параметров) было, ну что ж иди надрачивай на арабское поделие фалькон 170б тогда хуле, это же ШЫДЕВР АИ по твоей логике?

Аноним 27/03/24 Срд 12:26:35 #454 №683480

>>683478
> Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80% (математика информатика)
О, а покажешь примеров каких-то? Канеш
> математика и информатика
в сочетании с
> зимнюю сессию
звучит неебически рофлово (хотя хз что там у гуманитариев), но всеравно интересно посмотреть как та мелочь на сложном языке профильные вопросы отвечает.
> Надрачивание на кол-во параметров выдает в тебе неумеху коупера
Скорее ты его не понял и он несколько искушен, и потому негативно относится к твоему превозношению мелочи как йоба модели.

Аноним 27/03/24 Срд 12:30:49 #455 №683482

>>683478
>а ты кто такой чтобы решать нужно или не нужно?
Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что?
>из за таких как ты развитие и останавливается
Ну всё пиздец не внёс старую модель 5-ти месячной свежести в шапку. Люстрировать меня!
>и ему каличную сайгу советуют, это что за пиздец?
Согласен, упоминание сайги вообще надо забанить, увы, за десятки версий её автор так и не научился в файнтюн, вон, безымянный анон выше выдаёт результат лучше >>683270
>Я с помощью опенчата именно на русском языке зимнюю сессию сделал на 80%
Лол, уровень твоей шарашки неимаджинируем.
>очевидно что мультиязыковые модели лучше могут в обобщения и связи
Не спорю. Но сколько ни дрочи, а производительность любой модели на английском лучше. Даже GPT4 и Claude3 сосут в русеке, хоть уже и не так сильно.
>опенчат на 7б, которая лучше работает чем твоя кривая сайга на 70б
Чел, я сайгу никогда не предлагал. И да, то, что опенчат лучше, доказывает только то, что сайга на 70B это кривая подделка на коленке.
>Надрачивание на кол-во параметров выдает в тебе неумеху коупера
Перевод стрелок не засчитан.
Это обладатели малых компьютерных ресурсов коупят на 7B, раз за разом побеждая GPT3,5-turbo в каждом первом тесте. Я же прекрасно катал все размеры от 410M до 120B, и прекрасно знаю импакт от размера.
Конечно можно и в 176B сделать хуйню, как например с OPT от террористов, но мы тут сравниваем модели на одной базе, и в одной линейке моделей чем больше, тем лучше.
>фалькон 170б
180B, неуч.

Аноним 27/03/24 Срд 12:32:18 #456 №683483

>>683467

Все ссылки в треде:
>>680749

Аноним 27/03/24 Срд 12:34:57 #457 №683485

>>683472
>>683482
Челы, старый опенчат и свежий из этого года - совсем разные модели.

Аноним 27/03/24 Срд 12:44:07 #458 №683494

>>683482
> Люстрировать меня!
Ну вообще неплохо бы чуть подсократить шапку с учетом вынесенного на вики и поправить в конце для таверны.
> обладатели малых компьютерных ресурсов коупят на 7B
Они 70+ все испробовали, а значит мнение объективно, зря ты так!

Аноним 27/03/24 Срд 12:49:36 #459 №683509

>>683485
Уговорил, потестил... Ожидаемо хуёво. Ведь знал же, что это коупинг, и всё равно попробовал. Вот так всегда.
>>683494
>Ну вообще неплохо бы чуть подсократить шапку
С одной стороны да, с другой вики пару раз уже падала, а совсем без инструкций туго.

Аноним 27/03/24 Срд 13:00:10 #460 №683528

>>683480
ты для себя открой, что существует еще заочное обучение, да я работаю, и мне удобно, что зимняя сессия проходит дистанционно.
Да опенчат по теории алгоритмов писала для меня доклад, по теме сложность алгоритмов. Тебе рассказать как выглядит процесс? Она тебе расписывает изначально по пунктам доклад, а потом просишь каждый подробно расписать, с небольшими ошибками (грамматическими 5%) правишь и готово. Тоже самое и Теории функций действительного переменного.
По языкам и методам программирования она отлично умеет кодить в питон и с++ с комментами и пояснениями( 3 курс если что). Да проверять надо, иногда может высрать и херню но это легко через гугл эвейдится.
Далее она и по физкультуре мне написала доклад, где нужно было придумать комплекс упражнений (расписать кол-во подходов, периодичность, полезность, правила и тд)
>>683482
>>Анон, сидящий с первых тредов, раздававший на торрентах первую лламу,
Видимо в тебе ЧСВ говорит, раз ты так противишься прогрессу 7б моделей. Тебе вот другой уже анон заявляет что опенчат развивается, но ты сиди дальше в своем мирке этакой илитарности только англоязычных моделей 70б+.
Конечно я понимаю что кол-во параметров играет главную роль, но и нельзя отрицать, что область только зарождается, и есть подходы значительно улучшающие результаты даже на 7б моделях.
Вот я заходил в этот тред месяца три назад, спрашивал про нормальную модель для русского языка, потому что в шапке буквально НОЛЬ информации об этом, в итоге мы выясняем что тут проблема в твоих каких то личностных оценках, поэтому в итоге полезную инфу я нашел на хабре а не здесь.

Аноним 27/03/24 Срд 13:02:40 #461 №683532

>>683509
и да сессию я делал не на квантизированной модели если что
(я работал на фп16 модели, скачал ггуф8 для теста, и да разница есть, гораздо чаще в бред скатывается почему то)

Аноним 27/03/24 Срд 13:09:34 #462 №683545

>>683509
ну вот на моей фп16 модели такое выдает, при том что юмор в принципе для нейросетей не подъемен. Давай покажи мне как твоя любимая 70б модель на русском нормально шутит на эту же тему? Что нету? Значит вся шапка треда говно? И вообще все нейросети по твоей логике хуевые?

Аноним 27/03/24 Срд 13:10:40 #463 №683546

2024-03-2720-08-02.png

>>683545
картинку забыл

Аноним 27/03/24 Срд 13:11:20 #464 №683547

>>683528
>раз ты так противишься прогрессу 7б моделей
Рекомендую тебе перестать бороться с образами в твоей голове.
>Тебе вот другой уже анон заявляет что опенчат развивается
Так кто бы спорил! Прогресс на лицо. Только всё равно хуже полновесных моделей, да.
>но ты сиди дальше в своем мирке этакой илитарности только англоязычных моделей 70б+
В общем-то так и делаю.
>Конечно я понимаю что кол-во параметров играет главную роль, но и нельзя отрицать, что область только зарождается, и есть подходы значительно улучшающие результаты даже на 7б моделях.
Ну да, меня вот печалит, что куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B. В итоге прогресс в 7B большой, но в силу малого размера они всё равно туповатые. А в 70B классе есть застой, и разрыв между 7B и 70B сокращается. Но не потому что 7B такие охуенные, а потому что 70B мало занимаются. Ну ты понял суть.
>спрашивал про нормальную модель для русского языка
Закрытые GPT4 и Claude3, офк. Опенсорс на русском это боль, вот пруф
>с небольшими ошибками (грамматическими 5%) правишь
>>683532
Вот это интересная информация, лучше бы сравнений напилил на одном промте и сидах, а то ведь по всем этим вашим перплексиям разницы там 0,00001%.
>>683545
>И вообще все нейросети по твоей логике хуевые?
Ты не поверишь, но да, я всё ещё лучше любой нейросети в любом вопросе (офк я с гуглом).

Аноним 27/03/24 Срд 13:22:28 #465 №683572

>>683591
https://huggingface.co/openchat/openchat-3.5-0106

>>683546
Вот старая добрая мику. Как всегда с префилом, без него отказ.

Аноним 27/03/24 Срд 13:22:36 #466 №683573

>>683456
Побольше скобочек, а то не всем понятно что у тебя жопа горит от того что по факту сказать нечего
Так хочется доказать свою правоту и нечего сказать?
Делай как этот анон и используй такие же приемчики

Сказать нечего и начинает как уж изворачиваться придумывая всякую хуету
Иди ка ты нахуй чсв дурачек со своим близоруким мнением
Так как на нормальное обсуждение ты видимо не способен

Аноним 27/03/24 Срд 13:26:09 #467 №683578

>>683528
> ты для себя открой, что существует еще заочное обучение
Там перечень предметов аналогичен, а не повторяет школьную программу, потому и удивили названия, особенно на 3м курсе.
> Тебе рассказать как выглядит процесс?
Лучше покажи что-то конкретное.
> противишься прогрессу 7б моделей
Волна этого прогресса с непревзойденными победами уже была, и это печально. Копиум оттягивает на себя все внимание и ресурсы, которые могли бы пойти на что-то полезное, а на выходе лишь уныние, которое может впечатлять неофитов или ограниченных.
>>683545
> Давай покажи мне как твоя любимая 70б модель на русском нормально шутит на эту же тему?
Если это "нормальная шутка" то довольно символично.
А истории про всякие манипуляции с неграми с применением холодного, огнестрельного оружия, взрывчатки и прочего можешь найти в прошлых тредах.

Аноним 27/03/24 Срд 13:30:57 #468 №683584

>>683482
>Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что?
Корона не жмет? Угораю с местных вахтеров. То что ты когда то сделал что то полезное не делает тебя кем то важным, прикинь. Я тоже сижу тут с начала слива первой лламы, и че теперь?
Шапку не меняют так как анону поебать на нее, даже если там инфа устаревшая несколько раз подряд или не актуальная.

Аноним 27/03/24 Срд 13:35:36 #469 №683587

>>683547
>>Ну да, меня вот печалит, что куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B
Так в том то и суть ЛОКАЛЬНЫХ моделей что их можно запускать на потребительском железе. Это дает огромную аудиторию энтузиастов и свободу от каких либо правил и ограничений. Таким образом sd развивался и благодаря именно им мы имеем сейчас огромный прогресс в генерации изображений. Что поделать если 70б модели в плане файнтюнинга доступны лишь единицам? Работать с 7б моделями, искать способы их улучшения с помощью костылей, оптимизировать. Это развитие которое приносит результаты здесь и сейчас, и эти результаты можно экстраполировать и на более крупные модели (с развитием консьюмерского железа офкос).
Ты предлагаешь сидеть и ждать технического прогресса, игнорируя прогресс в моделях 7б (кстати минимально необходимое кол-во параметров для разных задач тоже спорный вопрос), а я предлагаю развивать уже сейчас и использовать то что уже сейчас возможно (7б - 13б)
Короче добавь в шапку опенчат, как лучший на данный момент помощник на русском языке, и, что не мало важно, с возможностью реального применения в помощи по кодингу.

Аноним 27/03/24 Срд 13:39:15 #470 №683591

>>683587
Опенчат или старлинг на его основе? Я если что не оп. Просто интересно что лучше. Я новый старлинг щупал, а вот опенчат с которого его сделали нет

Аноним 27/03/24 Срд 13:44:24 #471 №683603

Аноним 27/03/24 Срд 13:47:16 #472 №683611

>>683572
Пиздец соя.

Аноним 27/03/24 Срд 13:51:55 #473 №683618

Ни ссылки не добавил в шапку, ни кванты новые, ни модели годные. До сих пор висят занимая место старые и никому не нужные как говно мамонта пигмалион и мпт, новых моделей базовых так же нет, а они выходили.
Нахуй короче, больше не буду ниче предлагать или кидать ссылки. Это видимо никому уже не нужно, оставлю годноту себе ухух

Аноним 27/03/24 Срд 13:53:26 #474 №683620

>>683587
> Так в том то и суть ЛОКАЛЬНЫХ моделей что их можно запускать на потребительском железе.
Тыскозал? Их суть в наличии открытых весов и возможности пускать где хочешь как хочешь, все.
Вместо радости за прогресс, новые возможности и прочее - начинается специальная олимпиада, где братишки отождествляют себя с моделями, которые запускают(!), а потом искренне обижаются на объективную критику в их сторону, устраивают круговой надроч с победами и постулируют что все остальное - ненужно.
Глубинная причина как всегда одна, вот только реализовываться нужно не через запуск ллм и стремиться к лучшему а не сохранению положения, тогда сразу отпустит.
> лучший на данный момент помощник на русском языке
Сколько постов срача уже который день, а примеры хоть будут?

Аноним 27/03/24 Срд 13:54:34 #475 №683621