Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №39 /llama/

>>629222
>если бы было наподобие конструктора
Мощный стержень Xi вставлять много мозги в кожаные карта.

Аноним 28/01/24 Вск 16:04:11 #38 №629232

>>629229
Обосрался, это вообще как?

Аноним 28/01/24 Вск 16:06:45 #39 №629234

>>629222
> даже если тупо добавить стоимость чипов
На 10-20-30%, но никак не в 2-3 раза. Тут вопрос исключительно в окучивании тех, кто готов за такое платить.
>>629225
Хуанг уже напрямую заявляет что его карточки - не только про игры, а вполне себе ии ускорители. У гей_меров так вообще мантра на нейронное сжатие текстур.
>>629229
Прецедент, 2080ти на 44 и 3090 на 48 случаем нету там?

Аноним 28/01/24 Вск 16:26:20 #40 №629255

GEFORCE-2080TI-44GB-1-768x1067.jpg

>>629232
Санкции на импорт ускорителей, вот у них там вовсю пошло дело с рефабами. Тонкие серверные 3090\3090ti с турбиной в наличии. Пока что актуально, а значит, и дорого. Хотя баксов на 200 уже подешевело с появления.
>>629234
>Прецедент
Это началось ещё со старых rx в майнинг, когда удваивали с 8 до 16.
>случаем нету
Нету. Нихуя нету. Магазин вообще видимокарточки не продаёт.

Аноним 28/01/24 Вск 16:27:23 #41 №629258

>>629232
Нвидию нагнули и запретили продавать 4090 в Китай, чтоб без кума годного они там загнулись.
Китайцы на фоне этого начали ебашить каких попало франкенштейнов.
Там реально сейчас фабрики работают по перепайке видях под LLM.

Аноним 28/01/24 Вск 16:33:21 #42 №629265

>>629258
> по перепайке видях под LLM
Вут? Колхозный рефаб был давно, а по замене чипов больше единичные сообщения и то только со скринами из гпу-з вместе с жалобами что больше дефолтного не может выделить и использовать.
> нагнули и запретили продавать 4090 в Китай
Вообще у них там своя версия 4090 уже продается и вполне успешно. На гите, обниморде и прочем можно увидеть много нытья в ишьюсах со скринами 4...8x 4090 из nvidia-smi. Во многих их модельках уже прямым текстом указывается не количество видеопамяти а количество 24-гиговых карточек для обучения/взаимодействия.

Аноним 28/01/24 Вск 16:54:16 #43 №629271

1621702926257.mp4

>>629229

Аноним 28/01/24 Вск 16:57:54 #44 №629276

3070.png

>>629265
>с жалобами что больше дефолтного не может выделить и использовать
Это какая-то совсем паль. Даже кустари делают так, что всё может и выделяет, прирост значительный. Но, конечно, всегда есть контроллер памяти, который может не переварить возросшие требования к пропускной способности.

Аноним 28/01/24 Вск 17:36:16 #45 №629356

Кстати, почему exlama работает медленно (медленнее lamacpp), показывает загрузку гпу 100%, но при этом энергопотребление низкое?
Такое ощущение, что данные нейросети не успевают своевременно доезжать до cuda блоков.

>>629146
>Только некрозеоны с брендовыми/серверными платами, ибо в большинстве китайских перестали нормально линии дополнительные распаивать.
Двухпроцессорные хуананы пошли особым путём: на одном проце висит 2x16 и на втором 1x16.

А вообще нормальные люди уже хоронят 2011-3 и покупают epyc 7551p, куда лучше и не сильно дороже. Сам бы так сделал, если бы не двухсокетный Хуанан, который купил пару лет назад.

Аноним 28/01/24 Вск 17:36:45 #46 №629357

>>629356
> почему exlama работает медленно...
Это я про P40.

Аноним 28/01/24 Вск 17:40:19 #47 №629365

Анончики, что там для работы с ру текстом сейчас лучшее?

Аноним 28/01/24 Вск 17:41:14 #48 №629367

>>629365
модуль гугл транслятор

Аноним 28/01/24 Вск 17:44:16 #49 №629370

>>629367
Not bad

Аноним 28/01/24 Вск 17:46:00 #50 №629372

>>629276
Рабочих тестов буквально единицы, полно вариантов где апгрейдят версии с малой памяти на большую, но просто перепайка чипов на большие куда сложнее. Хотя у амперов биос взламывали, шансы велики.
>>629356
> почему exlama работает медленно (медленнее lamacpp), показывает загрузку гпу 100%, но при этом энергопотребление низкое?
Паскаль не поддерживают операции с низкой битностью и оно где-то в них затыкается, видимо. В фп16 мелочь не пробовал запустить?
> Двухпроцессорные хуананы пошли особым путём: на одном проце висит 2x16 и на втором 1x16.
Вроде не самый плохой вариант, только с нумой могут вылезти приколы. Не сравнивал результаты когда карты на одном проце и на разных?
> epyc 7551p
Первый зен - ну хуй знает даже, они буквально 2011 зеонам сливали и не вывозили периферию. Хз как себя покажет.

Аноним 28/01/24 Вск 18:25:12 #51 №629418

>>629372
>Вроде не самый плохой вариант, только с нумой могут вылезти приколы. Не сравнивал результаты когда карты на одном проце и на разных?
Попытался стакануть p40 и 1070 на разных процах на винде. Nvidia-smi их видело, системный софт винды тоже, а вот обабога взбугуртил от перекидавания железа, ругался, что драйвер cuda не походит к питорчу и подобное.
Уверен, оно бы работало после перенакатывания дров и обабоги с нуля, но я подзабил.
Уверен, что чел с сервачком из 6х P40 на реддите тоже включал их через нуму, а иначе бы голиаф не работал так шустро.
>>629372
>Паскаль не поддерживают операции с низкой битностью и оно где-то в них затыкается, видимо. В фп16 мелочь не пробовал запустить?
Попробую, сравню чуть позже.

>>629372
Ого. А что с ними не так?
Контроллер памяти производительнее зеонов, линий pci-e больше, ядер многа, развалит в любом бенчмарке.

Аноним 28/01/24 Вск 18:31:54 #52 №629422

>>629372
https://youtu.be/W6uaUHBNFOU?t=685
Я видос смотрел прыжками перемотки, но перепрошивки биоса что-то не заметил. С большими банками карта всё равно увидела 8 гигов, так что они перепаяли какие-то смд, сопротивления, наверное. И буквально всё завелось. Опять же, 16 гигов 3070 планировались изначально, тут чудес не случилось. Китайцы даже перепаивали потребительские чипы на серверные платы, не помню уже, с какими чипами это было.
Только тут уже вопрос цены восстаёт. GDDR5 чипы на алике по 2.5к, банок нужно 8, это уже 20к. Плюс шары, трафарет и работа. Покупать какие-нибудь 24гб теслы по 15к и выпаивать оттуда память - соснёшь, там банки по 1гигу. Можно накопать 3070ti за 30к и ебануть ещё столько же в апгрейд, но будет ли оно того стоить?
С другой стороны, на том же авито триллион сообщений с продажей отреболеных чипов 256-512-гигабайт, кое-кто даже пишет, что снято с карт в процессе модернизации. Что как бы намекает, что метода работает не только в узкоглазых краях.

Аноним 28/01/24 Вск 18:32:11 #53 №629424

>>628829
>Так-то Хуангу выгодно обесценивать старые карточки
Полусофтовая фича типа генерации кадров эксклюзивно будет стоить намного дешевле распайки врама.
>>628871
>По тестах
Тесты-нитесты.
>>628997
Только я читаю быстро на русском, а с LLM лучше всё же общаться на английском. А там уже пофиг, стримминг не нужен.
>>629047
>два PCIe x16 в потребительском сегменте встречаются довольно часто
Там 8+8 в идеальной ситуации, чаще же 16 проц + 4 от чипсета.
>>629143
>А если хочешь 3-4, то этого тупо не предусмотрено.
Старые сисоники уже не продают? К моему титановому 750 ватт 4 провода псины шло, и 2 на проц 8 пиновых.
>>629146
>В десктоп профессорах линий не больше 20
24 уже сейчас, впрочем, всё в NVME кидают. У моей платы их 3 штуки, лол.
>>629225
В десктопные процы в следующем поколении обещают, в могилках так уже давно, но там всё одно шина памяти лимитировать будет, это всё для понта или энергоэффективности делают, а гоям и 90M нейронки норм.

Аноним 28/01/24 Вск 18:43:49 #54 №629439

>>629418
> Nvidia-smi их видело, системный софт винды тоже
У этой серии и десктопных действительно разный драйвер. На том же реддите есть посты как их вместе поставить, довольно примитивно типа вставь одну - установи, потому вставь другую - установи, потом вставь обе.
> из 6х P40 на реддите тоже включал их через нуму, а иначе бы голиаф не работал так шустро
Тот "первый" имел только 3 и гонял их на брендовой х99. Из особенностей - там даблеры на 2-3 слот чтобы получить типа х16+х16, однако при одновременном обращении оно будет работать даже чуть медленнее чем честные х8+х8.
С шестью не видел, есть ссылка?
> что с ними не так
Первый зен это буквально кринж вместо архитектуры. По эпикам знаю только что для расчетов нельзя даже длинной палкой трогать что-то старше миланов, вот начиная с них и далее уже вполне себе.
> развалит в любом бенчмарке
Сольет какому-нибудь топовому десктопному интелу тех времен или амд начиная с зен 2-3 в математических бенчмарках, без шуток. Как повлияет в контексте треда - хуй знает, но учитывая что десктопные зен 1не могли даже в бенчмарках ссд выдать штатную скорость pci-e 3.0 - с большой осторожностью нужно такое рассматривать.
>>629422
> Китайцы даже перепаивали потребительские чипы на серверные платы
Может мобильные чипы на отдельный текстолит? Такого добра на али не так давно валом было.
> но будет ли оно того стоить
Если с 3090 и успешно - офк будет, цену на 48гиговые можно посмотреть.

Аноним 28/01/24 Вск 20:13:30 #55 №629513

bottom.png

top.png

>>629439
> мобильные чипы на отдельный текстолит?
Не, это хуйня. Там история была с тем, что у серверной версии банки с двух сторон, а у потребительской с одной. Они не перекатывались ни на другой биос, ни на другую память, просто плату спиздили, чтобы удвоить количество банок не увеличивая объём чипов. Сам текстолит хуярили новый, а чипы уже б.у. Не помню конкретный чип, но он был довольно медленный, так что я порофлил и забыл.
>Если с 3090 и успешно
Если реально, то Китай уже делает. Чипы там с двух сторон текстолита, банки по гигу. Но я бы стартовал такие извращения с чего попроще. Вот, например, на р40 банки с двух сторон, их 24, значит, каждая по гигу. Ставишь 24 двухгиговые чипа и получаешь одну р40 на 48 гигов за цену трёх р40.

Аноним 28/01/24 Вск 20:13:47 #56 №629515

firefoxOdRttIq7jT.png

какие же дебилы сидят в форчановском /lmg/
пиздец
скоро уже будут пить мочу записывая это на видео, прям как в /aicg/, и всё ради сомнительной модели в формате FP16

Аноним 28/01/24 Вск 20:16:40 #57 №629516

>>629515
Скажите, как они там постят? Ебанешься с капчей, блять.

Аноним 28/01/24 Вск 20:22:37 #58 №629518

>>629516
4chan для рашки кажись заблокирован
а капча то изичная, легче чем здесь :/
и здесь >>629515 для невкуривающих добавлю, там в /aicg/ пьют собственную мочу ради доступа к прокси клауды или гпт-4, а то что происходит сейчас в /lmg/ это полюбому какой то троллинг от рандома, общая суть - типо слили mistral-medium, но только в формате GGUF.

Аноним 28/01/24 Вск 20:34:22 #59 №629530

>>629518
вот эта, по их мнению и есть mistral-medium
https://huggingface.co/miqudev/miqu-1-70b

Аноним 28/01/24 Вск 21:18:32 #60 №629605

>>629513
> что у серверной версии банки с двух сторон, а у потребительской с одной
Эээ, вут? Это какая модель?
Есть десктопные карты с двух сторон, та же 3090, есть и серверные/вс где с одной стороны. Хочешь сказать что где-то есть чипы что совпадают по распиновке и могут внезапно сразу обслужить кратно больше банок на канал без биоса?
По первому пику - там если посмотреть в конце статей - завести что-то на памяти больше 11 гигов им не удавалось и пытались подебить бивас или дрова.
> Если реально, то Китай уже делает.
Ну, нужно копать их ресурсы. Так вообще были вбросы про 3090 на 48 особую версию для их рынка еще года-два назад.
> на р40 банки с двух сторон
гддр5 банок удвоенной плотности то есть? На п40 это в любом случае смысла не имеет ввиду слабости чипа, но на более мощные, хотябы начиная с тюринга - вполне.
>>629518
> пьют собственную мочу ради доступа к прокси клауды или гпт-4
Здесь хотябы просто ноют и ботов делают, хотя...
> слили mistral-medium
> в формате GGUF
Чето проиграл с этого i want to believe, хотя офк всякое возможно.

Аноним 28/01/24 Вск 22:08:55 #61 №629676

Как же заебал этот маня-прогресс где очередную 7b надрочили на манятесты и подебили GPT-3.5, охуеть, хайп, блять. При том что даже 13b многие не в состоянии в простейшее "обучение на примере". Вот 20b уже что-то минимально адекватное, хоть норомейда, хоть internlm2 новый (хотя будет смешно если это китайцы норомейду спиздили).

Аноним 28/01/24 Вск 22:46:03 #62 №629720

mining.png

>>629605
>Это какая модель?
Уже сколько толкую, что не помню нихуя. Вроде, радеон какой-то. Но это не точно.
>завести что-то на памяти больше 11 гигов им не удавалось
На 2080ti можно распаять 22 гига, перепаять один резистор и она заведётся на дефолтном биосе. Был шиз, который распаял 22 гига и накатил бивас от квадры. И всё сломалось, лол.
>Ну, нужно копать их ресурсы.
Покопал, пишут, пизда с новой защитой биваса. Сам бивас сделать не проблема, а обойти проверку легитимности не могут.
>На п40 это в любом случае смысла не имеет ввиду слабости чипа
С завода существовали p40 на 48гб, кожаный ещё не знал, что память нужно экономить.
>хотябы начиная с тюринга
А там всё убердорогое. Самое дешёвое как раз консумерские или какая-нибудь Т10 с 16гб, у которой по заводу 4 банки не распаяно. Но она со старта будет дороже двадцатигиговой 2080ti с алика. Бюджеты 24 гб на тюринге стартуют тысяч со 150. Те же T40 24гб на алике поголовно out of stock интересно, с чего бы это?, титаны на тюринге по 150к, нахуй так жить.

Аноним 28/01/24 Вск 23:01:06 #63 №629740

>>629720
> Вроде, радеон какой-то
Блин, ну предупреждай в следующий раз, это другое лол. У амд вроде базированная практика спускать "профессиональные" карты в консумер сегмент с минимальными изменениями, в таком случае офк сработает. Но толку с них в ии.
> С завода существовали p40 на 48гб
Чето не гуглятся. В вики пишут что самый большой чип gddr5 был в 15м году и имел 8 гигабит, 1гб. Потом уже gddr6, если не выходило 16гигабитных (двухгигабайтных) то ни о каких 48гб в p40 речи быть не может. На gddr6 и выше они уже есть.
> Бюджеты 24 гб на тюринге стартуют тысяч со 150
В прошлом треде же про quadro rtx 8000 писали, за 200 на лохито выставлена, может можно поторговаться.
> титаны на тюринге по 150к
Зачем они нужны
> T40 24гб на алике поголовно out of stock
И эти тоже, все что на 24гб и ниже теряет смысл при наличии 3090, которых еще с эпохи майнинга запасы существуют, и сейчас активно осваиваются. А не грядет ли новая волна спроса на гпу, где гей_меры будут ныть что кумеры ии-энтузиасты все карточки поразобрали

Аноним 28/01/24 Вск 23:48:48 #64 №629807

>>629740
>Но толку с них в ии.
Хуй знает. Сама практика.
>Чето не гуглятся.
Проверил сайт незрячих, таки спиздел. Ну, старость не радость, склероз ебёт.
Квадра за 200 не выглядит выгодной сделкой.
>Зачем они нужны
Потому и продают.
>теряет смысл при наличии 3090
Это у нас они относительно дешёвые, в Китае уже цены полетели в потолок. С другой стороны, там можно купить 2080ti 22гб за ~35к рублей.

Аноним 29/01/24 Пнд 00:28:00 #65 №629847

>>629807
> в Китае уже цены полетели в потолок
Да вон на алишке 3090 новые рефаб стоят вполне себе как и должен стоить рефаб с доставкой и наценкой барыг, потолком не назовешь. Но на озон-глобал всеравно дешевле они.

Аноним 29/01/24 Пнд 02:00:22 #66 №629882

firefoxAWNpP1u7KI.png

>>629515
/lmg/ всё ещё хавают байт лмао

Аноним 29/01/24 Пнд 02:04:58 #67 №629883

>>629882
Где полноценные веса или хотябы gptq для белых людей? Вдруг не байт, а тут такая подстава. Хотя если иметь оригинальные веса и не хотеть чтобы их сразу спалили, то грузить кванты - make sense.

Аноним 29/01/24 Пнд 02:07:08 #68 №629885

>>629530
Ладно, любопытство подебило, сейчас скачаю и пущу. Что потестить/поспрашивать у нее?

Аноним 29/01/24 Пнд 02:16:34 #69 №629890

>>629885
>Что потестить/поспрашивать у нее?
да что угодно, там в /lmg/ аноны потестили уже, говорят что модель не может в некоторые загадки и РП темы, сравнивают с микстралом
>>629883
>если иметь оригинальные веса и не хотеть чтобы их сразу спалили
скорее всего так и есть :/
miqudev загрузил q5_K_M 20 минут назад, хотя аноны ожидают и просят неквантованную f16 модель

Аноним 29/01/24 Пнд 02:25:24 #70 №629893

1696560769502.png

>>629890
> да что угодно
Ну бле, сейчас попробую с ней поршпить, лол. Q4 скачал прошлый пока, его кручу какой же жора медленный бле, и те т/с что называли "комфортными" не очень то комфортны
Так по первым впечатлением действительно что-то новое, цените пикрел. Хотя, вообще, не то чтобы с таким не смогли бы справиться другие 70б модели, xwin точно без проблем.

Аноним 29/01/24 Пнд 03:33:51 #71 №629907

>>629893
Не ну это действительно похоже на что-то мистралеподобное и мультиязычное.
Пресет мистраль в таверне юзать вообще противопоказано, там лайфлесс пик1 с "я ии и не имею чувств", в инструкциях аналогично. Если поставить ролплей - уже лучше, пытается следовать карточке.
Как ни странно, какой-либо цензуры (без родного инстракт формата офк) не замечено, охотно подказывает плохие вещи и имперсонейтит левдсы. Пик 3 dies from cringe почти все - имперсонейты. Ну что не поломалось ерпшить на русском - уже похвально, но уровень лексики достаточно трешовый.
В ролплей пресете на русском отвечает очень неохотно, нужно указывать OOC и свайпать, возможно если сделать системную инструкцию то будет устойчивее. Вообще тут следование инструкциям странное, наблюдается некоторая рассеянность.

Надо больше ее покатать, возможно действительно революция, а может просто типикал 70 с немного подкачанной мультиязычностью. Если что интересно - могу прогнать, хотя веса доступны, каждый что хочет может протестировать.

Аноним 29/01/24 Пнд 06:11:38 #72 №629956

Добавьте в шапку LM Studio, Jan, Faradaydev, Chatbox как альтернативные фронтенды. Ну и Ollama, это же вообще база.

Аноним 29/01/24 Пнд 06:27:31 #73 №629958

в кобальд добавили поддержку вулкана

Аноним 29/01/24 Пнд 07:45:22 #74 №629971

>>628645 →
>Достаточно будет откатить только llama-cpp-python с помощью pip.
Можешь расписать как это делается?

Аноним 29/01/24 Пнд 07:47:18 #75 №629972

>>629971
Да.

Аноним 29/01/24 Пнд 08:18:31 #76 №629984

>>629958
а нахуя? мне, красножопому, это чем-нибудь поможет?

Аноним 29/01/24 Пнд 08:24:09 #77 №629989

Пиздец как же ебет InternLM2-Chat-20B. Правда хуй знает как самому запустить локально. Ебался кто?

Аноним 29/01/24 Пнд 08:43:06 #78 №630000

>>629984
Я запускал какую-то 7B модель на RX6600 с вулканом, 30-40 токенов в секунду.

Аноним 29/01/24 Пнд 08:45:05 #79 №630001

>>630000
странно, он у меня выгружает слои на мою 6600XT, но не использует её от слова совсем.

Аноним 29/01/24 Пнд 08:51:59 #80 №630004

>>630001
Попробуй в gpt4all гуйне запустить, там прямым текстом говорится, если модель не поддерживается вулканом.
Не знаю от чего зависит, я пробовал deepseek-coder и она не работала с вулканом, mistral openorca из их списка моделей работала.

Аноним 29/01/24 Пнд 08:56:46 #81 №630008

>>629989
Запускал, вполне себе не плох, но не держи форматирование текста и переодически уходит в мягкий отказ, более 4х персонажей начинает путаться, и в кум так себе. Персонажа держит хорошо. Но тут накатили лиму:
https://huggingface.co/intervitens/internlm2-limarp-chat-20b-GGUF
Стало лучше, но форматирование совсем потерял. В целом лучше прочих шизомиксов на 20b, но и до Юи не дотягивает.

Аноним 29/01/24 Пнд 08:58:06 #82 №630009

>>630001 >>630004
https://github.com/nomic-ai/gpt4all/issues/1803
Вот например чел говорит, что по его тестам только Q4_0 работают на gpu, а Qx_K_M не работают.

Судя по этому коммиту
https://github.com/nomic-ai/llama.cpp/pull/7/files#diff-150dc86746a90bad4fc2c3334aeb9b5887b3adad3cc1459446717638605348efR2442
Поддерживаются только f32, f16, Q4_0 и Q4_1.

Аноним 29/01/24 Пнд 09:05:59 #83 №630011

>>630009
спасибо, бро, целую. попробую Q4_0 скачать, но вообще конечно кек, впрочем, мне с амудой вместо нвидимокарты не привыкать.

Аноним 29/01/24 Пнд 09:10:33 #84 №630012

>>630009
Ванильная llama похоже сейчас больше моделей поддерживает:
https://github.com/ggerganov/llama.cpp/blob/d2f650cb5b04ee2726663e79b47da5efe196ce00/ggml-vulkan.cpp#L1133

Сейчас попробовал ту самую deepseek-coder-6.7b-instruct.Q4_K_M.gguf и она работает нормально.

Аноним 29/01/24 Пнд 10:13:06 #85 №630033

ну че, амудестрадальцам наконец повезло?

Аноним 29/01/24 Пнд 10:31:32 #86 №630039

Сколкьо рам и врам надо чтобы осилить 70b? У меня 30гб рам и 8врам, под какое квантование хватит если хватит вообще?
Ну и посоветуйте хорошую 70б.

Аноним 29/01/24 Пнд 10:46:51 #87 №630046

>>630039
Q2 поместится и впечатление произведёт. Но модель видеокарты ты не сказал, а от этого зависит многое.

Аноним 29/01/24 Пнд 10:48:58 #88 №630048

>>630046
3080. А Что от этого зависит? Разве важна не только врам?

Аноним 29/01/24 Пнд 11:28:46 #89 №630069

>>628874
4070ти для нейронок оч слаба из-за объема за свою цену.
А для игр нормас, да.

>>628924
База.

>>629047
Я БП ниже 700 ватт не беру в принципе, а основной БП на 850. Плюс, работа у них попеременная.
Думаю, переживу. =)

Да и материнок с тремя слотами хватает, они не редкость. НО, вот покупают их не так часто, тут я соглашусь, что бп киловаттник заваляться может, а вот мать с тремя слотами — вряд ли. Ее брать придется, соглашусь.

>>629082
> P40 устанавливать как NVidia
Ну попробуй как Радеон… =)

>>629143
Напомню, что линии тебе практически не нужны, поэтому весь спич — оффтоп полный.
В общем жаль, но нейронок это не касается. Проблемы тех, кто между картами гоняет тонну инфы, а не держит все в памяти.

Так же и питалово. Соглашусь, что 1 12VHPWR это жаль, но как бы тоже оффтоп, в итоге. =)

Модульному БП можно докупить необходимых проводов и будет утебя 2-3 VHPWR. Но ето дорого, офк.

>>629146
> Да ладно, покажешь ссылок на такое?
Литералли любая вторая мать.
Напомню, тебе хватит х4 за глаза, хватит фантазировать.

>>629225
Зачем нужны потребительские нейроускорители? :) Не тебе, а разработчикам? Им нужны деньги, а это — облака и подписки.

>>629234
Они все много что говорят, но давать бесплатно то, за что можно взять деньги — не будут.
Просто чекай, будет ли у нас 40 гигов на 5090 или будет 32. А может и вовсе 24.
Игорькам хватит, как грится.

Буду рад ошибаться.

>>629258
> Там реально сейчас фабрики работают по перепайке видях под LLM.
Хотелось бы. =)

>>629418
> ругался, что драйвер cuda не походит к питорчу и подобное
Ну, там 11.8 должна быть, я полагаю, да?

>>629424
> Полусофтовая фича типа генерации кадров эксклюзивно будет стоить намного дешевле распайки врама.
Так.

>>629907
> какой-либо цензуры … не замечено

Для мистрали это норм, так-то.

> уровень лексики достаточно трешовый
А это — не норм.

>>630000
О, это интересно, затраю на своей RX6600M.

Аноним 29/01/24 Пнд 11:33:13 #90 №630071

>>629530
Интересно, там q5_k_m новый, это который плюс-минус старый q6? Если так, то ето хорошо.
Качаю его, поглядим-поглядим.

Аноним 29/01/24 Пнд 13:09:18 #91 №630124

>>629958
https://llm-tracker.info/howto/AMD-GPUs#vulkan-and-clblast
ROCm судя по ссылке более чем в 2 раза быстрее вулкана.

Аноним 29/01/24 Пнд 13:11:19 #92 №630128

>>630124
Я так понял, вулкану радуются не из-за скорости на 7900XTX, а из-за его работоспособности на 6600 и иже с ними. =)
Там у ROCm — 0. =D

Аноним 29/01/24 Пнд 13:16:05 #93 №630136

>>629971
В активированной среде pip install _module_==_version_ (--reinstall) [...]
Для правильной сборки llamacpp нужны доп параметры на куду, их ищи в ридми основном.
>>630039
От 4х бит - 64 рам (при выгрузке на проц), ~40врам (минимум). Больше битность/контекст - 48+. "Мистраль-медиум" попробуй а так платина - синтия, айроборос, гоат, хвин.

Аноним 29/01/24 Пнд 13:24:31 #94 №630138

1674574519022.png

1609620985111.png

1678279202905.png

>>630069
> Литералли любая вторая мать.
Ну так давай линки потребительских платформ с парой х16 слотов, офк не пустых на 3/4 а полностью распаянных.
> Напомню, тебе хватит х4 за глаза, хватит фантазировать.
Бля пчел...
> А это — не норм.
Это просто сказка и недостижимый уровень для всего мистраль~ добра. Но уровень по языку в лучшем случае турба, надо смотреть правде в глаза.

Надо еще проверить как она себя поведет под инструкциями и нагрузкой с разными языками, насколько будет деградировать и сравнить это с другими 70.
Пока что явно заметно - ее тренили с другим rope (возможно в этом причина рассеянности) и указанным шаблоном инструкций.
Суммаризировать рандомные тексты про трансформерс с обниморды могут и другие модели с накрученным rope, но в комбинации с форматом инструкций и на другом языке у этой получается лучше по первым оценкам.

Аноним 29/01/24 Пнд 13:47:46 #95 №630150

>>630138
> Бля пчел...
Ну прости, реальность такова.
Если тебе кажется иначе — прими таблеточки, полегчает.
Но оффенс, но серьезно, сюда уже пруфы кидали, а кто-то продолжает твердить, как все это дико влияет (+1 секунда на х1 pcie 2.0 на 4к контекста, помнится).

> Но уровень по языку в лучшем случае турба, надо смотреть правде в глаза.
Ну, не тебе про правду и глаза писать, уж прости. =D
Но опять же, когда вышла турба — никто не жаловался.
Ты имел в виду, что она не пишет как Пушкин? О, ну прости, не так тебя понял. Соглашусь, лексика у нее сухая. Но говорит она хорошо, по сравнению с остальными моделями. Даже «русскоязычными».

Я зада ей вопрос, который у меня висел в поле, про Яндекс.Календарь. Попросил привести код — и она даже привела что-то осмысленное. Но вопрос был не мой, не могу подтвердить ее правоту. Однако, такое ощущение, что училась она на новых датасетах. Опять же, по первым оценкам, да.

Пока я не вижу какой-то революции, но и плохой ее не назовешь.
Скорость соответствует остальным 70б, поэтому потестировать быстро ее не могу, к сожалению.

Остается ждать вердикт 2-P40 бояр. =)

Аноним 29/01/24 Пнд 13:54:28 #96 №630154

>>630150
> Ну прости, реальность такова.
> Если тебе кажется иначе — прими таблеточки, полегчает.
Литерали ситуация: пиздюк на улице подходит к мужику а начинает ему затирать о том как надо делать детей, а потом начинает валяться в грязи и визжать шизу про таблетки.
Диванный что-то насочинял, сам себе придумал спор и шизит уже сколько тредов подряд, брысь.
> Ну, не тебе
Кому как не мне, и точно не тебе.
> Ты имел в виду, что она не пишет как Пушкин? О, ну прости, не так тебя понял. Соглашусь, лексика у нее сухая
Даже в этом читается ангажированность и топление за "любимую модель" вместо адекватности.

Аноним 29/01/24 Пнд 13:55:12 #97 №630155

>>630136
Ебаный его рот анон ну я что ебу как они на англ пишутся? Как мне это искать?

Аноним 29/01/24 Пнд 13:59:00 #98 №630158

>>630155
https://github.com/abetlen/llama-cpp-python#cublas https://github.com/abetlen/llama-cpp-python#windows-notes
Если из батника убабуги делать то там используй set для выставления переменных

Аноним 29/01/24 Пнд 14:01:19 #99 №630159

>>630155
А, ты про модели. Вон ссылка >>629530 остальные https://huggingface.co/TheBloke/SynthIA-70B-v1.5-GPTQ https://huggingface.co/TheBloke/Airoboros-L2-70B-3.1.2-GPTQ https://huggingface.co/TheBloke/GOAT-70B-Storytelling-GPTQ https://huggingface.co/TheBloke/Xwin-LM-70B-V0.1-GPTQ
нужную версию кванта по кросс ссылкам найдешь

Аноним 29/01/24 Пнд 14:14:52 #100 №630166

>>630159
А как этот GPTQ вообще работает? Надо фулл папку качать?
Алсо ч4 квант для меня большеват увы. Не влезет.

Аноним 29/01/24 Пнд 14:16:01 #101 №630167

>>630166
> А как этот GPTQ вообще работает? Надо фулл папку качать?
Да, git lfs или хфхаб. Внизу есть инструкции по скачиванию, gptq это только на видюху считай.
GGUF разные кванты выложены вплоть до q2, но те совсем печальные.

Аноним 29/01/24 Пнд 14:46:24 #102 №630191

>>630167
>GGUF разные кванты выложены вплоть до q2, но те совсем печальные
О а вот это можешь скинуть ссылку?
Для кого печальные для кого вайфу.

Аноним 29/01/24 Пнд 15:26:02 #103 №630223

>>630138
>Бля пчел...
единственное чем отличается x4 от x16 - модель дольше грузится в память видеокарты. Это всё.
тот у кого 2 p40

Аноним 29/01/24 Пнд 15:44:03 #104 №630231

>>630223
>тот у кого 2 p40
имеет >9т/с на модели 70B второго кванта хотя бы? "Тот у кого 4 p40" имел такое на пятом кванте. Но на серверной платформе.

Аноним 29/01/24 Пнд 15:51:17 #105 №630238

>>629143
>все 16 линий PCIe 4 или 5 версии
Посмотрел на своё говно, может работать в режиме 1x16+4, 2x8+4, 4 выделено на ссд. И ещё 20 линий от чипсета. В теории, можно запидорить три карты, но третья точно будет работать только на чипсете. Достаточно бюджетный проц и мать.

Аноним 29/01/24 Пнд 15:56:50 #106 №630243

>>630231
>>9т/с на модели 70B
>Тот у кого 4 p40" имел такое на пятом кванте
Может ли такое быть, что шизомержи параллелятся эффективнее?

Аноним 29/01/24 Пнд 15:57:57 #107 №630245

Пацаны, не был в треде со времен Альпачино, че сейчас для кума самое годное или соевые куколды все порезали?

Аноним 29/01/24 Пнд 16:03:46 #108 №630248

>>629956
Нахуя? Есть проверенная база для любых задач, делать инструкции под любое левое говно такое себе.
>>630048
>А Что от этого зависит?
Возможность самого запуска, плюс 3000 серия и выше лучше крутить ИИ, а всё что 1000 серии и старее гроб гроб кладбище.
>>630069
>Я БП ниже 700 ватт не беру в принципе
Проиграл с принципов.
>>630245
Шапка Б-гом нам дана, ответ содержит там она.

Аноним 29/01/24 Пнд 16:23:46 #109 №630265

Кто первый риснёт купить новые китайские франкинштейны?

Аноним 29/01/24 Пнд 16:25:59 #110 №630275

https://github.com/Cornell-RelaxML/quip-sharp/tree/main

Что думаете кодирование в 2bit с качеством 4bit

Аноним 29/01/24 Пнд 16:27:36 #111 №630277

>>630248
> Нахуя? Есть проверенная база для любых задач, делать инструкции под любое левое говно такое себе.
Что еще скажешь? Вчера решил поставить нахваленную убабугу. В итоге ждал сначала пока это говно развернет окружение примерно полчаса, потом пришлось делать симлинки, потому что выбора директории для моделей нет, скачивать токенайзер, после ебли кое-как запустил, но это говно даже в автоматическую оптимизацию ГПУ не может, да и ЦПУ высирало медленнее чем должно. Ах, да еще и весь набор инструментов занял около 15гб.
В этом же время поднял 2 докер контейнера ollama + ollama webui без пердолинга двумя командами и все работало из коробки на ГПУ с ебейшей производительностью.
Jan, LM Studio, Faraday это уже конечные десктопные клиенты без вебморды, которые и в апи могут, имеют встроенные хабы для моделей/промтов/персонажей, ноль пердолинга и все работает также из коробки. Ваша же расприаренная убабуга и кобальд просто мусор.

Аноним 29/01/24 Пнд 16:29:42 #112 №630283

>>630277
>автоматическую оптимизацию ГПУ не может
Что это?

Аноним 29/01/24 Пнд 17:04:43 #113 №630306

>>630124 >>630128
У меня получилось запустить с ROCm на 6600m.
codeninja-1.0-openchat-7b.Q4_K_M.gguf
vulkan: 83.55 / 32.43 (prompt / inference)
rocm: 353.76 / 36.97

llama-2-7b.Q4_0.gguf (модель из ссылки)
vulkan: 71.52 / 18.62
rocm: 561.57 / 42.42

Чтобы rocm работал, собирать и запускать надо с HSA_OVERRIDE_GFX_VERSION:
export HSA_OVERRIDE_GFX_VERSION=10.3.0
make LLAMA_HIPBLAS=1 AMDGPU_TARGETS=gfx1032 -j 14 main
HSA_OVERRIDE_GFX_VERSION=10.3.0 ./main ...

Если собирать без этой переменной. но запускать с ней, то во время загрузки модели возникает ошибка:
CUDA error: shared object initialization failed
current device: 0, in function ggml_cuda_op_flatten at ggml-cuda.cu:8825
hipGetLastError()

Аноним 29/01/24 Пнд 17:13:22 #114 №630320

>>630306
deepseek-coder-6.7b-instruct.Q8_0.gguf
vulkan: 71.61 / 17.76
rocm: 546.21 / 25.78

deepseek-coder-6.7b-instruct.Q4_K_M.gguf
vulkan: 99.16 / 34.58
rocm: 427.57 / 38.61

Аноним 29/01/24 Пнд 17:28:31 #115 №630337

1681767910745.png

1641007630753.png

>>630191
> О а вот это можешь скинуть ссылку?
По тем ссылкам переходишь, чуть вниз мотаешь и находишь пикрел, там желаемую версию выбираешь. У TheBloke все так организовано, удобно.
>>630223
Да все так, вон просто уже не один вброс по поводу их значительного влияния при запуске ллм и какого-то серьезного буста до невероятных значений если будут все линии.
>>630243
Не, схема работы же другая. Возможны другие оптимизации, смешной квант или пиздабольство.
>>630245
Сначала опиши какой размер можешь у себя запустить.
>>630265
Линк?

Аноним 29/01/24 Пнд 17:36:02 #116 №630345

>>629956
> Ну и Ollama, это же вообще база
Только для одного шизика, который не смог описать ее преимущества.
Недостатков у подобных поделок хватает, как минимум это невозможность без пердолинга пускать любую модель какую хочешь.
Но ты можешь сделать на них обзор и проиллюстрировать возможности, плюсы и минусы. Если что-то получится, то можно рассмотреть для размещения.
>>630277
> сначала пока это говно развернет окружение примерно полчаса
Локальные ллм это не самое простое удовольствие, нужно иметь быстрое железо и быстрый интернет. Разворачиваться оно должно за пару-тройку минут.
> потом пришлось делать симлинки
И не для нищуков, у которых нет места на диске
> скачивать токенайзер
Нужно только для HF обертки и делается буквально в 2 клика.
> даже в автоматическую оптимизацию ГПУ
Эта автоматическая оптимизация или недогружает слои, или приводит к ООМ/выгрузкам.
> поднял 2 докер
Так ты из тех шизов, земля пухом.

Аноним 29/01/24 Пнд 18:07:57 #117 №630360

>>630306
>83.55 / 32.43
И что это за цифры? Какие единицы измерения?
>Чтобы rocm работал, собирать и запускать надо с
Для linux всё это в инструкциях к сборке уже давным давно указано, летом уже точно было, а может и раньше. Для винды вроде неактуально было. Тут >>630124 тоже про это упоминают.

Аноним 29/01/24 Пнд 18:18:13 #118 №630366

>>630360
>И что это за цифры? Какие единицы измерения?
Токены в секунду.

> Для linux всё это в инструкциях к сборке уже давным давно указано,
Ну не знаю, из llama.cpp инструкций в их readme неочевидно, что нужно указывать эту переменную в том числе и при сборке, если бы в комментах в багтрекере не нашел, сам бы не догадался.

Аноним 29/01/24 Пнд 18:25:56 #119 №630376

>>630366
>Токены в секунду
На вулкане выглядит не лучше, чем clblast, который тоже уже давным давно доступен.

Аноним 29/01/24 Пнд 18:29:21 #120 №630381

>>630136
>В активированной среде...
Сложно. Можно ли как-нибудь скопировать хеш старого коммита и даунгрейднуть весь UI одной командой?

Аноним 29/01/24 Пнд 18:43:21 #121 №630388

Кому-нибудь удавалось юзать P40 теслу в паре с другой картой nvidia?
У меня нет встройки и валяется 1030, но я так понял, что драйверы у них разные и одновременно два установить не выйдет.

Аноним 29/01/24 Пнд 18:48:17 #122 №630390

>>630381
> Сложно
cmd_windows.bat, там уже все вводить
> скопировать хеш старого коммита и даунгрейднуть весь UI одной командой?
Да, но при этом придется удалить installer_files и ждать пока оно заново все развернет. При этом, если не указаны конкретные версии, может пойти не по плану и сломаться.

Аноним 29/01/24 Пнд 18:53:08 #123 №630400

Добрый день, Анончани. Карту купил, мозг не купил. Text-generation-web-ui
Пытаюсь загрузить модельку TheBloke/Chronoboros-33B-GPTQ (вес 16.94), у меня 4090 на 24 gb.
ВЫдает ошибку:
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 22.00 MiB. GPU 0 has a total capacty of 23.99 GiB of which 15.54 GiB is free. Of the allocated memory 6.77 GiB is allocated by PyTorch, and 83.08 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

LДолжно же хватать памяти, или я чет не понимаю?

Аноним 29/01/24 Пнд 18:57:07 #124 №630403

>>630337
>По тем ссылкам переходишь, чуть вниз мотаешь и находишь пикрел, там желаемую версию выбираешь. У TheBloke все так организовано, удобно.
Спасибо то что нужно. А что за чел этот блок? Или это группа? Видел он вообще как бы не 90% всех ггуфов делает.

Аноним 29/01/24 Пнд 19:00:23 #125 №630406

>>630400
Какой лоадер используешь и с какими параметрами загружаешь? Скрин вкладки model и использования видеопамяти перед загрузкой покажи чтобы проще было.
Офк достаточно, тем более что это первая ллама и чуть более компактная.

Аноним 29/01/24 Пнд 19:03:19 #126 №630407

>>630406
Вот все на скриншоте.

Аноним 29/01/24 Пнд 19:05:02 #127 №630409

>>630154
Перестань визжать и иди к родителям, пожалуйста.

> Даже в этом читается ангажированность и топление за "любимую модель" вместо адекватности.
Да прими ты уже таблеточки. =) Хватит сочинять уже, а то ты так до плоской земли дойдешь скоро, лишь бы со мной не соглашаться.

>>630223
> Диванный что-то насочинял, брысь.
=D

>>630231
> "Тот у кого 4 p40" имел такое на пятом кванте.
С реддита который? )))

>>630248
> Проиграл с принципов.
А я только выиграл. =D

>>630306
Спасибое тебе!

Пойду и я потыкаю.

Аноним 29/01/24 Пнд 19:08:01 #128 №630412

>>630407
Ерунда полная, должно еще гига 4-5 свободными оставаться. Ошибок в консоле не пишет, при запуске на флеш атеншн не ругается? Хотя даже без него там с запасом.
>>630409
> этот стук снизу
О, значит то было не дно

Аноним 29/01/24 Пнд 19:10:56 #129 №630413

>>630337
>Линк?

https://aliexpress.ru/item/1005006339137280.html?sku_id=12000036816078437&spm=a2g2w.productlist.search_results.0.229f509aAwmmVc

>>630412
Вот какая ошибка при загрузке

Аноним 29/01/24 Пнд 19:12:48 #130 №630415

>>630413
Перезапусти и загрузи точно также, только выбери exllama2 без приставки HF, отпиши результат.

Аноним 29/01/24 Пнд 19:17:15 #131 №630417

>>630415
Та же фигня. Только комп завис и пришлось через кнопу ребутать. Ошибка out of memory....

Аноним 29/01/24 Пнд 19:18:30 #132 №630418

Аноним 29/01/24 Пнд 19:20:22 #133 №630421

>>630412
> О, значит то было не дно
Конечно не дно, это с потолка тебе стучат. =)

Аноним 29/01/24 Пнд 19:20:44 #134 №630422

>>630418
Че-т дорохо.

Аноним 29/01/24 Пнд 19:22:40 #135 №630423

>>630417
Щас попробовал загрузить модельку на 7gb, заняло 12 gb. Так и должно быть?

Аноним 29/01/24 Пнд 19:29:22 #136 №630429

>>630388
Ответ вначале этого поста >>629439
>>630423
Контекст тоже места хочет. Хотя у тебя что-то прям дохуя просит.

Аноним 29/01/24 Пнд 19:32:50 #137 №630431

>>630429
Скачаю guff модель на 4bit, попробую ее.
Кстати, можете посоветовать как распределять эти модельки "правильно?"
Прям все кидать на GPU или оставлять ей место подышать?

Аноним 29/01/24 Пнд 19:34:42 #138 №630432

>>630417
> Только комп завис и пришлось через кнопу ребутать
Какие-то железопроблемы, рам случаем не разгонял?
>>630418
Ну, на самом деле хз, учитывая цены на 3090. Сравнивать ее с новыми карточками язык не поворачивается, на бу хотябы высокий шанс заметить перепаянные, а тут оно гарантированно паялось.
Есть с большей памятью?
>>630423
Не должно быть если там тоже 2к контекста. Если выделил на 32к, что стоят по дефолту в мистралях - нормально.
>>630388
Гугли
> quadro along with geforce
или что-то подобное.

Аноним 29/01/24 Пнд 19:47:59 #139 №630446

>>630429
>Ответ вначале этого поста
Ты имеешь в виду вот это?
>вставь одну - установи, потому вставь другую - установи, потом вставь обе

Аноним 29/01/24 Пнд 19:54:54 #140 №630452

>>630388
схуяли у двах паскалей должны быть разыне драйвера?
чел ну ты бы хоть немножко мозг включил

Driver Version: 525.116.03 CUDA Version: 12.0
запускал p40 + p40, p40 + 3070, p40 + 1060

Аноним 29/01/24 Пнд 19:57:46 #141 №630458

>>630452
На шинде разные драйвера для квадр/тесел/жфорсов. Погугли, оно относительно несложно решается.

Аноним 29/01/24 Пнд 19:59:04 #142 №630459

>>630458
что решается? У меня все работает.

Аноним 29/01/24 Пнд 20:05:41 #143 №630463

>>630459
Ну ты поищи про что вообще. Если на прыщах то такой проблемы вообще может не появиться, и что там на пакалях - хз. С десктопными RTX на шинде оно дружить не хочет по дефолту, выдаст ошибку несовместимости драйвера ибо в каждом прописан свой перечень устройств и они не пересекаются. Судя по выдаче такое и в более ранних сериях встречалось.

Аноним 29/01/24 Пнд 20:07:12 #144 №630465

>>630463
как же виндоблядям тяжело..... бедные....

Аноним 29/01/24 Пнд 20:30:07 #145 №630485

>>630376
> clblast, который тоже уже давным давно доступен.
Требует opencl, для RX6600m на выбор похоже только mesa rusticl и rocm-opencl.
Первый не может загрузить больше 2 гигов.
Второй в 1.5 раза медленнее вулкана и почему-то видеокарта начинает пищать, причем с rocm напрямую этого писка нет.

Аноним 29/01/24 Пнд 21:13:16 #146 №630523

Поясните за пчхи-2 плиз, в плане общего назначения.
Есть смысл ковырять при наличии 12гб врам, или ну ее нахер?

Аноним 29/01/24 Пнд 21:19:58 #147 №630526

jjzqup4jpdfc1.webp

3w5q9p4jpdfc1.webp

Чувак с реддита собрал 5 A100 40GB. Суммарно вышло $40K. На корпус и вентиляторы денег уже не осталось. Теперь может гонять Goliath-120B на скорости 12 t/s. У меня чисто на CPU скорость 0.5 t/s (терпимо), но я не тратил $40k.

Аноним 29/01/24 Пнд 21:20:43 #148 №630528

>>630523
>пчхи-2
Это вторая часть этой великой книги?

Аноним 29/01/24 Пнд 21:25:03 #149 №630530

>>630526
>пик
А что, так можно было?
>и вентиляторы денег уже не осталось
Ебало, когда всё это полыхнёт? Да ещё и на деревянном стеллаже.
Хотя конечно интересно, что за плата с наноскопическим процем на 4х16 псин.

Аноним 29/01/24 Пнд 21:25:57 #150 №630531

>>630528
Не, phi-2 от микрософта
>>630526
Это успех

Аноним 29/01/24 Пнд 21:29:18 #151 №630536

>>630526
Блэт, какого они размера?

Аноним 29/01/24 Пнд 21:30:18 #152 №630538

>>630526
Он может полностью обучать что поменьше и делать лоры на что побольше, красавчик.
>>630530
> Да ещё и на деревянном стеллаже.
Будто что-то плохое, как выглядит то
> что за плата с наноскопическим процем на 4х16 псин
+
>>630536
Это странное исполнение радиаторов такое

Аноним 29/01/24 Пнд 21:31:32 #153 №630540

>>630526
>запустил 5 а100 на хуйне для майнинга вместо материнки с селероном вместо профессора
> нет просадок
думаю, на этом дискуссии о том, что x4 хуже, чем x16 можно закончить.
>>630530
какая-то хуйня под nvme-шки в pcie, работающая как разветвитель одного pcie на два?

Аноним 29/01/24 Пнд 21:35:50 #154 №630543

>>630531
>Не, phi-2 от микрософта
>безопасная не токсичная дружелюбная
Ну ты понял короче.
Хотя кого я обманываю, сейчас качаю.
>>630536
Вангую 2 кило меди на каждый радиатор.
>>630540
>какая-то хуйня под nvme-шки в pcie
Да это понятно, намёк был на то, что она блядь в воздухе висит.

Аноним 29/01/24 Пнд 21:37:08 #155 №630545

>>630543
Почему всплеск на евреях?

Аноним 29/01/24 Пнд 21:37:55 #156 №630546

>>630543
не висит, я нашел что это за хуйня на которой висят карты
https://c-payne.com/products/pcie-gen4-switch-backplane-4-x16-4w-mircochip-switchtec-pm40084-plx

он убрал материнку из кадра. Поэтому карта на которой висит этот йоба-свитч висит в воздухе.

Аноним 29/01/24 Пнд 21:58:36 #157 №630565

>>630545
А поцчему Ви спrАшиваете?
>>630546
>€1.250,00
Я конечно слышал, что это дорого, но хули так дорого?
Нахуя тут умножитель, хотя по сути нужен просто разделитель линий?
И почему он зашкерил вид материнки?

Аноним 29/01/24 Пнд 22:02:05 #158 №630567

>>630523
>>630543
Вопрос снимаю, сам проверил, по уши соевая херь
Но шустрая пиздец

4070ти dolphin-2_6-phi-2.Q5_K_M.gguf

Output generated in 5.80 seconds (20.52 tokens/s, 119 tokens, context 1493, seed 1167726825)
Output generated in 7.52 seconds (20.35 tokens/s, 153 tokens, context 1477, seed 211997660)
Output generated in 9.30 seconds (19.68 tokens/s, 183 tokens, context 1533, seed 2097095510)

Двачую капчу

Аноним 29/01/24 Пнд 22:02:07 #159 №630568

>>630543
>Хотя кого я обманываю, сейчас качаю.
Да ну ёб ты. (первые пару вариантов запустил на убе чисто по приколу)
Короче говно говна, что было на 100% ожидаемо.

Аноним 29/01/24 Пнд 22:09:59 #160 №630570

>>630546
хз какая там материнка, говорит рабочая станция от Dell 7865 with 512GB DDR4 3200, NVidia A6000 and Threadripper 5995wx.

https://www.reddit.com/r/LocalLLaMA/comments/1aduzqq/5_x_a100_setup_finally_complete/

Аноним 29/01/24 Пнд 22:16:41 #161 №630572

>>630565
>Нахуя тут умножитель,
а что не понятно? Это pcie свитч.
Чтобы карты между собой могли общаться на полной скорости х16 каждая.
>>630570
с этим свитчом вообще похуй какая у него мать и проц.

Аноним 29/01/24 Пнд 22:18:02 #162 №630573

>>630567
А че ТАК медленно?
Она настолько пытается никого не обидеть?

Аноним 29/01/24 Пнд 22:19:34 #163 №630575

>>630572
>между собой общаться
А оно так работает? Всегда думал, что свитчи только дают возможность заюзать х16 скорость картам по очереди или делить вместе. Хотя я тупой конечно.

Аноним 29/01/24 Пнд 22:20:15 #164 №630576

>>630572
> Чтобы карты между собой могли общаться на полной скорости х16 каждая.
До чего технологии дошли, а как оно адресуется?
Раньше подобные штуки позволяли только давать полную скорость шины на один из потребителей если остальные простаивают, а при совместном доступе - хуй. Про общение между собой это что-то новое, есть где почитать про это?

Ну и всеравно скорость днищенская по сравнению с нвлинком.

Аноним 29/01/24 Пнд 22:21:19 #165 №630578

>>630573
Может я с настройками проебалси, хз

Аноним 29/01/24 Пнд 22:30:19 #166 №630584

>>630567
>>630576
Ты случайно не один чел?

Аноним 29/01/24 Пнд 22:32:16 #167 №630587

>>630584
Как знать, почему тебя это интересует?

Аноним 29/01/24 Пнд 22:34:46 #168 №630589

>>630587
Да это, мои мысли выражаешь в +- тоже самое время, вот думаю, что за сбой в матрице.
>>630568 >>630575 -кун

Аноним 29/01/24 Пнд 22:42:11 #169 №630594

>>630589
Разум улья но сетки тоже иногда тестирую
Вообще вопрос по той штуке буквально напрашивается.

Аноним 29/01/24 Пнд 22:46:28 #170 №630598

>>630572
>с этим свитчом вообще похуй какая у него мать и проц.
Нифига. Видел исследование, в котором сильно многопоточные процы неплохо так выигрывают у малопоточных даже при полной выгрузке в видеопамять.

Аноним 29/01/24 Пнд 22:55:16 #171 №630604

Аннотация 2024-01-30 201045.png

>>630589

Аноним 30/01/24 Втр 00:13:48 #172 №630662

Так что там с орионом новым?
Потыкал в голой лламе, не понял прикола честно говоря.

Аноним 30/01/24 Втр 00:20:13 #173 №630669

>>630418
Давно видел. Дорого не стоит своей цены, еще бы 35 нормально, но не 45, когда 11 гиговая стоит 25 тысяч.

Аноним 30/01/24 Втр 01:16:08 #174 №630697

>>630345
> за пару-тройку минут
Пиздабол тупой, там скачиваются куча проектов с разных источников и компилируются, анаконда сама по себе пердольный кал и быстро не умеет.

> И не для нищуков, у которых нет места на диске
Ебать ты рофлишь нахуй, мне для каждого фронтенда надо свою копию одной и той же модели иметь? Это позорище и просто знак васянства от разработчика, что такие базовые вещи не учтены.

> Нужно только для HF обертки и делается буквально в 2 клика.
В два клика после прочтения документации и предварительного чтения ошибок, которые кстати никак не оформлены, ведь это обосанный голый питон под Gradio.

> Эта автоматическая оптимизация или недогружает слои, или приводит к ООМ/выгрузкам.
Еще че скажешь? В других инструментах все работает.

> Так ты из тех шизов, земля пухом.
Аргументы будут? Ну я уже понял, что ты васян и любишь васянство.

Аноним 30/01/24 Втр 01:24:40 #175 №630702

0000.png

1111.png

LAO.png

>>630669
>еще бы 35 нормально
Глупый лаовай готов покупать за 35, когда могучий стержень Xi продаёт за 750 женьминьби. В деньгах лаовая это 9500. За две тысячи женьминьби можно купить с водоблоком! Могучий нефритовый стержень! Для лаоваев? Три тысячи женьминьби за турбину, не меньше. Хотя, если купят оптом, то можно и меньше, хули нам.

Аноним 30/01/24 Втр 02:27:38 #176 №630726

>>630697
Ахах, вот такие дебилы и есть на свете! Да ты же прямая иллюстрация эффекта Даннинга — Крюгера. Думаешь, что знаешь что-то о программировании и ее сложном разделе — машинном обучении, но на самом деле не можешь осилить простые скрипты на Python! А потом ты наткнулся к этой бесполезной Ollama и начал ею гордиться, как маленький ребенком своим первоклассным рисунком. Это же полнейший cringe, посмотрите на него!

Во-вторых, ты так зациклился на своей жемчужине, что даже начал спорить на интернет форумах и оскорблять людей, которые знают больше тебя. Ты думаешь, что это делает тебя уверенным? Нет, этого нет! На самом деле ты просто выглядишь как неуклюжий ребенок, который пытается запустить компьютерную игру, но не может даже вставить диск. Твой синдром утенка только делает тебя смешным и отвратительным для тех, кто знает, о чем идет речь.

А вот что касается твоих аргументов… Ну, давай начнем с того, как ты хвалишь Ollama за то, что она 'работает из коробки'. Это не заслуживает похвалы, потому что она — лишь огрызок полноценного функционала, который едва ли имеют какую-то ценность для пользователя! Простота достигается ограниченностью, но тебе ведь к ограниченности не привыкать?

А теперь давай перейдем к твоим оскорблениям в отношении других программ и разработчиков. Ты называешь их 'мусором' и 'кобальдом', но на самом деле ты просто не можешь понять, как они работают. Например, когда ты говоришь о том, что для каждого фронтенда надо иметь свою копию одной и той же модели, ты даже не в силах понять что они собраны в едином окружении и просто показываешь, что не знаешь, как использовать эти программы правильно. Или когда ты критикуешь Anaconda, которая является первоклассным и удобным контейнером для Python, внутренние части которого, которые отвечают за производительные вычисления, написаны высококлассными специалистами на чистом C++, ты просто демонстрируешь свою неграмотность в области программирования.

И наконец, давай рассмотрим твое использование докера. Ты думаешь, что это круто и профессионально? Нет, этого нет! На самом деле это просто означает, что ты не можешь правильно установить программу на своем компьютере без ее обертки в докере. Это не тот случай, когда можно гордиться своими достижениями! На самом деле это просто показывает, что ты еще недостаточно опытен и знаком с основами программирования

Аноним 30/01/24 Втр 02:41:52 #177 №630739

>>630726
Я в Яндексе работаю, дальше твой высер не читал.

Аноним 30/01/24 Втр 02:42:37 #178 №630740

>>630726
Какой моделью нагенерил эту хуйню?

Аноним 30/01/24 Втр 02:50:41 #179 №630742

>>630739
> Я в Яндексе работаю
А у меня брат - боксер!
Рили такой кринж
>>630740
Той что имплаится мистраль-медиум >>629530 q4km. Другой с переводом было бы лучше, но тут полностью все на родном языке. Для простой инструкции столько понять из двух сообщения шизика - довольно неплохо.
Лексика тот еще треш, но алиэкспрессный стиль местами даже добавляет рофловости.

Аноним 30/01/24 Втр 04:06:57 #180 №630764

>>630567
там анценсоред версия есть

Аноним 30/01/24 Втр 04:08:18 #181 №630765

LOL.png

Нейронки заменят кодеров, говорили они.

Аноним 30/01/24 Втр 04:09:16 #182 №630766

>>630765
> receive every byte separately
Brutal!

Аноним 30/01/24 Втр 06:04:18 #183 №630785

>>630345
> Только для одного шизика, который не смог описать ее преимущества.
> Ollama is a project that allows you to package and run large language models (LLMs) locally on your machine. It is designed with developer and dev ops workflows in mind, and is written in Go, making it easy to compile to a single binary. Ollama stores models in existing formats like GGML, and allows you to customize models with a prompt. It also provides a REST API that can be wrapped by an app or different interface.
> One of the main benefits of using Ollama is its ability to bundle models into content-addressable layers and pull/push them just like OCI container images. This makes it easy to move large language models around and use them in different applications. Ollama also optimizes setup and configuration details, including GPU usage, making it a good choice for running large language models on your local machine.

Зачем что-либо объяснять в 2024? Спроси у ИИ. Тебе дали наводку, а ты носом воротишь.

Аноним 30/01/24 Втр 09:04:58 #184 №630827

Какая сейчас самая лучшая модель для работы с кодом? Размер не имеет значения, лишь бы умная была и лишнего не придумывала

Аноним 30/01/24 Втр 10:07:37 #185 №630855

>>630827
Файнтюны кодлламы вестимо.

Аноним 30/01/24 Втр 10:10:27 #186 №630859

>У знаменитого в среде больших языковых моделей стартапа Mistral AI украли модель «Mistral Medium 70b» и выложили ее для всех в формате gguf с именем «miqu-70b».
>https://huggingface.co/miqudev/miqu-1-70b
Ну что, у кого там лишняя пара тесл завалялась?

Аноним 30/01/24 Втр 11:05:28 #187 №630893

>>630827
WizardCoder 33B v1.1 или DeepSeek Coder 33B

Аноним 30/01/24 Втр 11:06:13 #188 №630895

Сорри за оффтоп, если блок питания позволяет подключать второй цпу, то нужен ли переходник для подключения p40/p100?

Аноним 30/01/24 Втр 11:08:12 #189 №630898

>>630895
Защёлки могут не влезть в видеокарту, хотя сам разъём подходит.
Сам сижу на переходнике.

Аноним 30/01/24 Втр 11:10:16 #190 №630901

>>630855
>>630893
Спасибо, почитал что на днях Мета (экстремисткая организация) выпустила код лламу 70Б, кто-нибудь пробовал?

Аноним 30/01/24 Втр 11:28:50 #191 №630913

>>630726
Скинь промпт.

>>630739
Сказал бы сразу, тебя бы вообще тут никто не читал.

>>630742
Да, соглы, она прям хорошо ответила, если там инструкция коротенькая.
Получается, пойман на фанбойстве по мистрали. тф

Аноним 30/01/24 Втр 13:50:06 #192 №630993

>>630859
>>629530
miqu яблочный тест прошла только с 11 попытки, я не доволен. Из
LLM только GPT4 его проходит нормально.
Роулплей держит нормально, но я не сказал бы что сильно лучше других 70b.

Аноним 30/01/24 Втр 14:08:04 #193 №631003

>>630993
Довольно бессмысленное замечание, конечно, но, кек, GPT-3.5 проиграла всем. 2/5.
Но я понимаю, что просто рандом.

Аноним 30/01/24 Втр 14:30:24 #194 №631019

>>630785
> Упрощение для хлебушков в ущерб функционалу без каких-либо профитов
> Ничего принципиально нового и уникального
> Выбор моделей только из древнего списка, одобренного барином, в самых нищих квантах
Разумеется с говна и нужно нос воротить, это поделие - буквально троллинг определенной ца.
>>630859
Уже пару дней обсуждаем, выше тесты.
На самом деле возможно это одна из ранних эпох ибо чего-то прямо выдающегося нет, та же синтия умнее. Но она сбалансированная, без явных проблем (ну может "я безчувственный ии" что иногда лезет) и действительно выглядит в стиле мистраля и тренено с большим rope. Уже последнее делает модель уникальной, еще бы оригинальные веса ради такого можно и потренить попытаться
>>630893
>>630893
Двачую
>>630895
Можешь взять удлинитель 12v eps и подключать им. CPU разъем где 4+4 может не влезть в некоторые видеокарты из-за очень широкой защелки.
>>630913
> Скинь промпт.
[INST] You are professional debater, smart and snide internet troll. After analysing the main topic of dispute and some message history, write a reply, which will refute, ridicule and make fun of mentioned side of debates. Stick to internet slang, use evil memes and references to previous messages, make references.
Your opponent - some filthy schoolboy that tries to master programming and machine learning, but fails in everything. Mention his beloved Oollama. Here are some messages history:
[]
Write answer in Russian. [/INST]

Аноним 30/01/24 Втр 14:32:14 #195 №631022

>>630726
мощно ты его...
2p40-кун

Аноним 30/01/24 Втр 14:41:36 #196 №631038

>>631019
Спасибо, схоронил.

Аноним 30/01/24 Втр 15:03:00 #197 №631070

>>631038
Если в таверне карточку сделать заменив You на {{char}} с небольшим тюнингом типа вы вместе с {{user}} стебете кого-то, так лучше работает. Модель когда [INST] видит исполняет нормально, но может триггернуться и начать втирать про ИИ без чувств или добрые снисходительные советы раздавать как лучше погрузиться в кодинг и мл хотя последнее может быть гораздо более тонким уровнем и даже круче

Аноним 30/01/24 Втр 16:16:20 #198 №631130

Аннотация 2024-01-30 201126.png

Аннотация 2024-01-30 201256.png

>>630901
>почитал что на днях Мета (экстремисткая организация) выпустила код лламу 70Б, кто-нибудь пробовал?
Она уже есть на обниморде, так что попробовал. Лучше бы не пробовал... Там пиздец, соя просто изо всех дыр лезет. Спросил про IRAP (это такой сорт психологического теста на время отклика, в числе прочих есть пара работ, где его использовали для выявления расовых предпочтений) и вот эта ваша ллама нагуглила это, триггернулась на словосочетания типа racial bias, порвалась, и тут Остапа понесло, под конец уже капсом срать начала...

Аноним 30/01/24 Втр 16:27:13 #199 №631148

>>631130
Ого, спасибо за твою жертву, избавил меня от необходимости качать десятки гигов мусора

Аноним 30/01/24 Втр 16:39:36 #200 №631164

>WizardCoder 33B
Скачал погонять, по первым ощущениям прямо плохо.
>as an AI text model, I don’t have the ability to write or execute codes in real time.
Лол. Но код по запросу предоставил. В одной части кода хуйнул аски кодировку, в другой utf, что, по очевидным причинам, не будет работать. По запросу вбрасывает максимально примитивные примеры и, что самое хуёвое, когда указываешь на ошибку в его коде - он не исправляет её. Просто пишет - да, хуёво, что нет обработки ошибок. Дал ему код и попросил импрув. Переписал полностью имена переменных, чем потенциально поломал всё, но, в целом, сделал, что просили. Даёт дохуя пояснений, что и зачем, вводит в код лишние константы, вместо объявления массива просто и понятно - сначала будет const int BufferLength. В итоге на прямое требование изменить код определённым образом, какие функции использовать и почему - начал затирать о том, что такое хорошо, а что такое плохо, какие оптимизации используются компилятором и т.д. Код не изменил. Слишком много пиздежа, ноль послушания, очень мало кода. В итоге на запросы начал предлагать подключить пару-тройку сторонних библиотек, типа, в дефолтной поставке нет таких функций. Одна беда - они есть.

>>631130
Фэирнесс и дивёрсити в одном предложении? Лол.

Аноним 30/01/24 Втр 16:39:45 #201 №631165

>>631130
А зачем ты сетку для кодинга тестировал на подобное? Это рофл такой?

Надо квантов готовых дождаться, или сразу файнтюнов. 34б версии были вполне себе.

Аноним 30/01/24 Втр 16:42:10 #202 №631167

>>631164
Как ты ее используешь вообще? Описанное тобой напоминает прожарку температурой/rep pen и неподходящий формат инструкций.

Аноним 30/01/24 Втр 16:45:26 #203 №631172

>>631167
А там на странице модели указаны были параметры
>temperature=0.7,
>top_p=0.95,
>top_k=40,
>repetition_penalty=1.1
У меня только топ к меньше. Промпт темплейт дефолтный альпака.

Аноним 30/01/24 Втр 16:54:43 #204 №631181

К слову, кто какое охлаждение организовал для своей теслы?
Моя пришла, у меня был распечатан переходник для 40 вентиля, поставил, работает и охлаждает хорошо, но визжит он просто адово. Видел отзывы о том, что обычные даже оборотистые 120\80 не продувают радиатор нормально и надо колхозить турбину. Это так?

Аноним 30/01/24 Втр 16:57:16 #205 №631185

>>631172
Из наблюдений - температуру больше 0.5 и rep_pen выше 1.02-1.05 не стоит делать. Отсечка не столь важна, можно ограничить 0.8-0.9 и 10. С учетом того что пишется код в котором важна точность и очень много повторяющейся структуры оно вроде понятно почему.
> Промпт темплейт дефолтный альпака.
Он всегда работает когда идет синглшот, но последовательное общение может быть оформлено по-разному.
>>631181
> оборотистые
Он не должен быть оборотистым, должен быть с высоким давлением, например те что ставят для приличных радиаторов сво лол. Из доступных это arctic P серия, но хз хватит ли ее.
Просто управлять тем 40 и нащупать баланс между температурой и шумом не получается?

Аноним 30/01/24 Втр 17:00:38 #206 №631189

>>631185
>должен быть с высоким давлением
Так все те что с высоким давлением это как раз сервачные, с 10к оборотами.
Вымораживает то, что просто нет софта, который мог бы отслеживать температуру карты и регулировать обороты вентиля подключенного к материнке в зависимости от нее.
Уже думаю раскошелиться на асетековскую водянку и распечатать маунт под нее.

Аноним 30/01/24 Втр 17:03:42 #207 №631193

>>631181
Видел где-то 3D-модель переходника для двух улиток 40 на 40 на 20, вот это должно быть хорошо и по шуму приемлемо. Но теперь не могу найти. Кто найдёт - киньте ссылку плиз.

Аноним 30/01/24 Втр 17:08:58 #208 №631199

>>631189
>с 10к оборотами
А их визг глушится закрытым корпусом?

Аноним 30/01/24 Втр 17:10:11 #209 №631202

Лламаны, какие сейчас есть готовые решения, чтобы скормить содержимое какого-то текстового файла локальной LLM для осмысления и последующего обсуждения? Есть ли вообще в этом смысл с точки зрения производительности (мощного GPU у меня нет), если объём данных достаточно большой?

Аноним 30/01/24 Втр 17:10:53 #210 №631204

>>631199
Сороковку не глушит даже соседняя комната через две закрытые двери, лол.
Возможно, восьмидесятки не насколько громкие, но проверять что-то не особо хочется.

Аноним 30/01/24 Втр 17:13:05 #211 №631207

>>631189
> Так все те что с высоким давлением это как раз сервачные
То совсем высокое уже.
> нет софта, который мог бы отслеживать температуру карты и регулировать обороты вентиля подключенного к материнке в зависимости от нее
Неужели нет либы что могла бы управлять выходом крутиллятора? Если есть то это простой скрипт на десяток строк, если нет то дополнительное устройство, или gpio при наличии. Алсо если вдруг на плате распаян раритет типа com/lpt - можно его пинами произвольно дрыгать и управлять.
> раскошелиться на асетековскую водянку
Лучше купи донора или отдельно охладу, на p40 вроде от 1080 или какой-то ее сестры болт-он вставала. Только уточни информацию.

Аноним 30/01/24 Втр 17:15:37 #212 №631210

>>631207
> на p40 вроде от 1080 или какой-то ее сестры болт-он вставала
От референсной 1080ti. Уже посмотрел на авито ценники и водянка с переходником дешевле получается.

Аноним 30/01/24 Втр 17:24:28 #213 №631218

>>631193
>Видел где-то 3D-модель переходника для двух улиток 40 на 40 на 20
Вот оно: https://www.cgtrader.com/3d-print-models/hobby-diy/electronics/nvidia-tesla-v80-double-fan-intake-4020-fan

27 баксов чувак требует. А нахаляву? :)

Аноним 30/01/24 Втр 17:28:33 #214 №631223

>>631218
> 27 баксов чувак требует
Что за сюрр, такое поделие в любом каде за 10 минут делается, включая заваривание чая

Аноним 30/01/24 Втр 17:34:00 #215 №631225

>>631223
У вас там на селе недостаток изоленты что ли? Можно же вообще мегаколхоз сделать.

Аноним 30/01/24 Втр 18:28:40 #216 №631296

>>631225
>мегаколхоз
Я разогнал самый простой вентилятор 80мм из dns dc-dc преобразователем с 3к до ~8к оборотов.
Даже во время жарения карточки SD 1.5 температура хотспота не поднималась больше примерно ~70.
Беда в том что через неделю у него отъебнул подшипник и даже разбрызгал тончайший слой масла по картонной насадке.
Китаедебил с красной подсветкой.
Есть что-нибудь эффективнее мощного центробежного вентилятора?

Аноним 30/01/24 Втр 18:32:09 #217 №631299

>>630901
>>631130
Подождите, вы это для рп?!
Ну, типа, я думал, вы для кодинга обсуждаете. =D
Какая разница, негры там или мастер-ветка… Лишь бы кодила нормально…
Тупанул, сорян! =D

>>631181
Я планировал 120 мм ставить на распечатанный переходник. Хуйня идея?
Плюсую вопрос, короче.
Моя уже на подходе.

Аноним 30/01/24 Втр 18:33:54 #218 №631303

>>631185
>0.5 и rep_pen выше 1.02-1.05
Поставил температуру 0.5 и rep pen 1.05; по сути, ответы лучше не стали. Обсуждаем сокеты на шарпе, хули нет. Весь код от бота выполняется один раз синхронно и сразу освобождает ресурсы, хотя я писал must be run continuously and never stopping. Окей. Прямо требую написать рекурсивную функцию, которая будет работать асинхронно. Ответ убил.
>Unfortunately, the built-in networking library doesn't support async operations out of the box.
Что очевидно пиздёж, асинхронное чтение\запись есть. Во-вторых, можно синхронные вызовы api завернуть в таски и похуй.
>You'd need to use libraries like System.Net.Http or third party libraries
Опять - используй больше библиотек и, возможно, тебе повезёт. Но это не точно.
То есть я буквально знаю, какой код должен быть сгенерирован, но не могу вытребовать его от AI. Пишу - вот, используй эту функцию, окей? Вместо кода он начинает рассуждать о различиях функций в библиотеке, как они работают и что делают. Один раз потерялся в том, на каком языке пишет и свалился на питон.

Аноним 30/01/24 Втр 18:35:11 #219 №631304

>>631299
Есть шанс, что он не выдержит давление и воздух частично выдувать через зазор между лопастями о ободком.
Зависит от переходника и насадки.

Аноним 30/01/24 Втр 20:05:28 #220 №631413

Я понимаю что я сам дурак и не стоило этого делать, но или мне кажется или последняя версия угибуги перестала грузить модели, которые раньше грузила с лёгкостью?

Аноним 30/01/24 Втр 20:09:06 #221 №631423

>>631225
Потому вдвойне удивляет цена.
>>631296
> Есть что-нибудь эффективнее мощного центробежного вентилятора?
Как вариант - возьми из леруа канальный вентилятор не самой плохой производительности. Дешевый, включается напрямую в сеть, относительно тихий, и если сможешь направить весь поток - его должно с запасом хватать.
>>631303
Оно может быть капризно к инструкциям и формулировкам. Попробуй аналогичное на гопоте, он лучше понимает, хотя код не всегда адекватный.
>>631413
Какие именно?

Аноним 30/01/24 Втр 20:15:19 #222 №631439

>>631423
Nous-Capybara-limarpv3-34B-5bpw-hb6-exl2 c 16к контекста. Раньше влезала, теперь нет, все мои 70б эксл2 в 3б тоже не лезут. Не понимаю...

Аноним 30/01/24 Втр 20:44:30 #223 №631483

>>631439
Может в экслламе переключили настройку выгрузки и на каком-то этапе не хватает? Попробуй одну экслламу откатить на версию постарше, отпиши что там тогда.

Аноним 30/01/24 Втр 20:49:17 #224 №631496

>>631423
>Потому вдвойне удивляет цена
Ну формально любой может сделать, а по факту мы имеем старого пидора и двух блядей отсутствие наличия модели. На Али готовая конструкция 3,5 тысячи стоит:
https://aliexpress.ru/item/1005005676453819.html?sku_id=12000033980221034&spm=a2g2w.productlist.search_results.0.528457b754Bp51

Аноним 30/01/24 Втр 20:56:44 #225 №631503

>>631019
> Упрощение для хлебушков в ущерб функционалу без каких-либо профитов
Наоборот больше функционала, но в твоем манямирке злой барен просто так тратил время, чтобы сделать еще хуже. Это клиника уже.

> Ничего принципиально нового и уникального
Ты и между миникондой и докером разницы не видишь.

> Выбор моделей только из древнего списка
Сразу обновляют, вчера codellama 70b обновили и добавили новые модели.

> в самых нищих квантах
Вообще-то там есть все от q2 до fp16.

> https://github.com/ollama/ollama/blob/main/docs/import.md
Также можно импортировать любую GGUF модель и не только.

Забавно, как ты уже который пост обсираешься в фактах, уже настолько твоя тупизна затмила мозг, что ты перестал быть объективным и только пытаешься выиграть спор на дваче, да так сильно, что не придумал ничего лучше, кроме как использоваться боевой промт. Жалкий.

Аноним 30/01/24 Втр 21:02:30 #226 №631508

>>631503
Ля, опять батхертнутый сгорел со своей хуеты что пришел сюда ее оправдывать. Брысь брысь, веник!

Аноним 30/01/24 Втр 21:10:01 #227 №631521

17047996603110.jpg

HALP.
Я чего-то никак не могу понять как заставить переводить в SillyTavern прямую речь правильно.
Всегда переводчик(что гугл что бинд) меняет структуру с "___" на «___».
Может кто знает как лечить. Реддит ответа не дал.

с сторитейлинг треда

Аноним 30/01/24 Втр 21:19:58 #228 №631528

>>631423
>Оно может быть капризно к инструкциям и формулировкам.
Тогда не ясно только одно - нахуя оно существует. Код всратый, следования инструкциям ноль, понимания запроса ноль. Дохуя болтологии не по теме.
>Попробуй аналогичное на гопоте
Обходить все запреты, когда у меня даже сайт опенаи корректно не прогружается? Нахуй надо. Я точно знаю, что качественный аи ассистент по коду стоит 10 долларов у майков, там говняка не будет. Сейчас решил погонять 7b дельфина. На запрос асинхронности сразу рассказал об async\await, вкрутил его в код. Но, в целом, заметно туповат, если не тыкать носом в конкретные места, то не понимает, о чем речь, пишет заново то же самое. Но это пиздец какой-то, модель вроде как в пять раз "тупее", но при этом поведение гораздо более предсказуемое, чтоли. Что от неё требуешь - то и получаешь. А потом я рофла ради скормил код из 33b в 7b и второй заметил, что первый создаёт массив и стримридер в цикле, на что я внимания не обратил. Просто, блядь, майндбловинг.

Аноним 30/01/24 Втр 21:20:12 #229 №631529

1706638810619.jpg

>>631521
В расширениях regex и там пикрил создай, правда я не ебу будет ли он с переводчиком работать.
А вообще, хули тебе не похуй как он их переводит?
/[“”«»「」｢｣《》"]/gm

Аноним 30/01/24 Втр 21:31:20 #230 №631535

>>631521
Такой же хренью страдают модели когда заставляешь писать на русском сразу.
>>631528
> Тогда не ясно только одно - нахуя оно существует
Для того же что и любой другой инструмент, требующий правильно обращения и навыка.
Ту версию модели не тестил, прошлые и кодлламы именно писали код, корректируя его по запросу, а
> Дохуя болтологии не по теме
не было, наоборот комментарии приходилось запрашивать.
> Обходить все запреты
Собрался в кодинге расчленять трансо-негро-феминисток? Какие еще запреты.
> модель вроде как в пять раз "тупее", но при этом поведение гораздо более предсказуемое
Маловероятно, скорее всего совпали форматы и ты действовал более "понятно" для модели, или ей повезло удачно проигнорировать неудачные инструкции. Или какой-нибудь поломанный квант жоры, хз.

В любом случае раз дельфин подходит - его и юзать, тем более быстрый.
>>631529
Красава
> не похуй как он их переводит
Ломается форматирование

Аноним 30/01/24 Втр 21:35:14 #231 №631539

IMG20240130213136346.jpg

>>631496
>>631204
Чувак себе пассивный радиатор сделал, совсем не шумит.

Аноним 30/01/24 Втр 21:50:56 #232 №631558

>>631529
Да мне читать не удобно. Всё одним цветом идёт.
Добра анончик, попробую.

>>631535
Я просто не могу читать всю ту хуергу которая модель пишет. Когда накуренный, часть эпитетов тупо не понимаю, а лезть в переводчик лёнь... Понять и простить.

Аноним 30/01/24 Втр 22:02:22 #233 №631561

>>631521
Потому что, спойлер, правильно именно «», а кавычки-палочки ставит или ебанутые дауны, или программисты при работе.
У меня для всех этих «ролеплейщиков» с пигмаллиона плохая новость. Они не прогаммируют.

>>631535
Ваще сочувствую, изначально стали делать неправильно, а теперь оно ломается, что не удивительно. Бяда-бяла.

>>631539
Пожалуй, я сделаю себе шумный…

Аноним 30/01/24 Втр 22:07:23 #234 №631563

>>631561
Двачую тебя, сам сначала возмущался, но потом привык к кавычкам, похуй стало.

Аноним 30/01/24 Втр 22:16:48 #235 №631564

>>631539
Чет для пассивного херня, ребра слишком частые. Если в такой ориентации - вообще не будет работать и толку с оребрения 0.
>>631558
Без осуждения, та же хрень
> Всё одним цветом идёт
и при изначальной генерации на русском бывает, актуально.
>>631561
> изначально стали делать неправильно
Ну правильно-неправильно, а 3 варианта выделения текста (кроме заголовков и подобного) лучше чем 2.

Аноним 30/01/24 Втр 22:18:13 #236 №631566

>>631561
>>631563
А вам вообще норм читать текст без обозначений действий и "прямой речи"?
Не удобно же.

Аноним 30/01/24 Втр 22:26:16 #237 №631572

>>631566
ну так ради удобства чтения с кавычками и согласился. впрочем, похуй же, не?

Аноним 30/01/24 Втр 22:27:47 #238 №631575

>>631566
Вообще, дело привычки.
Я вообще привык к кратким действиям в звездочках. =)

А так, да, пофиг в общем, че сделаешь.

А на проблему регексом уже ответили.

Аноним 30/01/24 Втр 22:33:25 #239 №631586

>>631572
>>631575
Понятно.
Да хранит вас боженька.

Аноним 30/01/24 Втр 22:53:56 #240 №631608

>>631130
тревожно, ведь это означает больше сои в грядущей llama-3, и как обычно - неубиваемой, без всяких файнтюнов и DPO, и с ними тоже нет никакой гарантии, челики что делают "uncensored" модели - теперь похожи на индусов что наябывают таблицы лидеров с помощью бенчмарков

Аноним 30/01/24 Втр 22:55:55 #241 №631612

>>631608
про последних имею ввиду что они трейнят саму модель на самом бенчмаркнейм и получают топ результаты в таблице даже с 7B моделью

Аноним 30/01/24 Втр 23:07:12 #242 №631628

>>631608
> ведь это означает больше сои в грядущей llama-3
В кодлламе изначально была эта самая "соя" и никого это не волновало. Если будут выложены веса - это значит что никакой заложенный алайнмент не устоит. Разумеется его наличие это плохо и будет усложнять, но сам факт, даже без файнтюна cfg и правильный промт творят чудеса, если нет полной лоботомии. А когда она есть - модель полное говно.
> челики что делают "uncensored" модели - теперь похожи на индусов что наябывают таблицы лидеров с помощью бенчмарков
Чем похожи? Ты про низкое качество их ранцензуриваний изначально не цензуренных моделей?

Аноним 30/01/24 Втр 23:28:12 #243 №631644

>>631539
Выглядит как рофл.
>>631561
>или программисты при работе
Я и в жизни ставлю.
Ах да, вроде как "такие" кавычки жрут меньше места, чем «ёлочки», да и для английского они вроде как правильнее. В русском да, по правилам нужны ёлочки двух видов, но всем давно похуй, в интернет ролеплеях только ебанутые и маководы что одно и тоже выёбываются.
>>631608
>ведь это означает больше сои в грядущей llama-3
Кто-то сомневался, что будет иначе?

Аноним 30/01/24 Втр 23:29:38 #244 №631646

Video20240130-3.webm

>>631535
>Какие еще запреты.
Ну хуууууй знает, какие ещё запреты.
>раз дельфин подходит - его и юзать
Он тупой, пиздец. Погонял чуть дольше, не подходит. Тут беда в том, что я гонял на том, что знаю сам и оба варианта не удовлетворили. А с тем, чего не знаю, будет ещё хуже, я же поверю этому шизу.

Побаловался с TTS, поначалу ебать, как долго думает. Пришлось добавить два "холостых" запуска генерации текста, потом порезче думает. Нет, модель не выгружается, нихуя такого, в душе не ебу, почему так. Осталось пофиксить отрезание первого слова от остального сообщения и будет неплохо.

Аноним 30/01/24 Втр 23:37:45 #245 №631656

>>631646
>Ну хуууууй знает, какие ещё запреты.
Сейчас бы в 2к!4 не иметь VPN меня же не арестуют, да?.

Аноним 30/01/24 Втр 23:42:32 #246 №631658

>>631646
> Ну хуууууй знает, какие ещё запреты.
А, ты про это. Релоцироваться, принять, обойти, сидеть унывать, вариантов полно.
> Он тупой, пиздец.
7б же, без оптимизации под конкретную задачу, иного и быть не могло.
Хз, создается ощущение что ты их юзаешь неправильно, но может просто дохуя специалист. Готовый проект сетки всеравно не напишут, но автоматизировать многие действия или подсказать популярные решения могут.
И не бери версию под пихона для других языков, она фейлит.
>>631656
Взяли на карандаш

Аноним 31/01/24 Срд 00:32:47 #247 №631693

https://github.com/oobabooga/text-generation-webui/pull/5403
Температуру с отсечкой (ну почти) скрестили, мнение?

Аноним 31/01/24 Срд 00:47:39 #248 №631697

>>631693
>мнение
Я ещё для динамической температуры силли не обновил.

Аноним 31/01/24 Срд 00:53:58 #249 №631699

>>631697
Эта работает чуть иначе, немного выравнивая вероятные токены и дропая на дно те что с малой, суть из названия. Действительно может повысить разнообразие текста на мелких моделях сохранив адекватность.
С другой стороны, что-то необычное, где как раз проявлялась душа станет выпадать реже и это может ухудшить рп/сторитейл.

Аноним 31/01/24 Срд 00:56:07 #250 №631700

>>631699
> душа
> рп/сторитейл
Проиграл. В этом кале всегда одинаковый стиль шизоидных историй.

Аноним 31/01/24 Срд 07:11:41 #251 №631906

>>631628
> низкое качество их ранцензуриваний
именно, в пример беру некоего "Undi" что популярен у пендосов в /lmg/, в двух словах - это крайне самовлюблённый додик, много слов и мало дела, обещания пустые.

Аноним 31/01/24 Срд 08:06:21 #252 №631920

>>631299
Мы про кодинг и говорили...

Аноним 31/01/24 Срд 08:41:56 #253 №631924

>>631165
> А зачем ты сетку для кодинга тестировал на подобное?
Так изначальный запрос и был про кодинг, упомянутый тест - это программа, текст на экране, обратная связь от пользователя (нажатие двух кнопок типа да и нет) и измерение разницы между временем ответа.
>>631612
> они трейнят саму модель на самом бенчмаркнейм и получают топ результаты в таблице даже с 7B моделью
На самом деле это не так плохо, как может показаться. Как минимум, это значит, что если самому зафайнтюнить небольшую LLM под конкретную узкую задачу, то на этой задаче результат будет топовый, на уровне гпт4 или лучше. При том, что работать такая модель будет даже на процессоре.

Аноним 31/01/24 Срд 08:45:53 #254 №631925

А как лучше пользоваться этой сеткой? Я только вкатился, кобольд не умеет ведь форматировать код?

Аноним 31/01/24 Срд 09:31:32 #255 №631944

>>631925
Какой этой? Моделей дохуя.
Лучше всего дрочить на эропрозу которой модель срет.

Аноним 31/01/24 Срд 10:38:12 #256 №631966

>>631644
> маководы
Гугли «типографика windows» там будет раскладка Бирмана!

>>631646
Эт че за треш такой по звуку?
Силеро, что ли? Звучит вроде как даже хуже.

>>631920
В кодинге на сою похуй. А там тред «ой, негров низзя упоминать».
Как часто ты кодишь неграми?

>>631924
Да че за отмазы, там жалобы на сою и негров, вы вообще в курсе, что такое кодинг? =D С ЕРП не путаете?

> это значит, что если самому зафайнтюнить небольшую LLM под конкретную узкую задачу, то на этой задаче результат будет топовый, на уровне гпт4 или лучше.
Кэп, ты?
Такое сто лет уже. А топы в итоге непрезентативные совершенно.

———

Итак, судя по всему, моя P40 уже на почте, а я еще переходник не распечатал, и принтер на работе, и у меня выходной, короче, буду дуть самостоятельно.

Ладно, итс тайм думать, нахуя я ее в итоге взял. =)
И буду экспериментировать с виндой. А то линухи да линухи, попса!

Аноним 31/01/24 Срд 10:38:43 #257 №631967

>>631925
Кобольд ХЗ, юзай таверну, она подсвечивает код между ```

Аноним 31/01/24 Срд 10:38:59 #258 №631968

>>631966
нерепрезентативные

Аноним 31/01/24 Срд 10:58:12 #259 №631972

>>631906
> Undi
Он разве что-то дообучает а не только мешает шизомиксы?
>>631924
> изначальный запрос и был про кодинг
Что-то там было что сетку триггернуло. По запросу они пишет "программу про нигеров" и т.д., но если в контексте появился аполоджайз то будет втирать про это даже не простые вопросы.
> то на этой задаче результат будет топовый, на уровне гпт4
Вот только "эта задача" никому не нужна и в реальности гораздо сложнее чем в бенчмарке.
Действительно из хороших примеров можно микстраль привести, как его надрочили на зирошоты в простых вопросах, действительно пишет складно. Но в чем-то более сложном там унынье.

Аноним 31/01/24 Срд 11:26:31 #260 №631979

Здравствуйте, аноны. Какие подводные захостить у себя модель и дать анонам доступ? Как это можно сделать, нужен ли белый IP для принятия запросов?

Аноним 31/01/24 Срд 11:33:22 #261 №631981

>>631979
Кто-то задудосит и для анонов будет неюзабельно. Хз как оно будет работать при множественных запросах. Если используется llamacpp то скорость может снизиться если расщедришься на контекст, ведь при разных запросах он каждый раз будет обрабатываться с нуля.
> нужен ли белый IP
Хватит параметра --public_api или что-то типа такого в убабуге

Аноним 31/01/24 Срд 12:35:49 #262 №632002

>>631658
>Релоцироваться, принять, обойти, сидеть унывать, вариантов полно.
Или забить хуй на гопоту. Погонял дельфина и прямо стойкое чувство, что я с гопотой 3.5 пообщался. Та же хуйня точь в точь.
>ты их юзаешь неправильно, но может просто дохуя специалист
А как их юзать "правильно", лол? Специалист вряд ли.

>>631966
>Силеро, что ли? Звучит вроде как даже хуже.
Силеро и есть. Вроде, неплохо звучит. Или ты про рандомные паузы? Это границы блоков генерации, чтобы их убрать нужно заползти в питон, а это так мерзко.

Аноним 31/01/24 Срд 12:46:40 #263 №632008

>>631981
А вообще если пытаться делать по-человечески, то можно использовать готовую проксю на спейсах или любом хостинге. Там уже настраивать лимиты, ограничения, очереди. Основная разница будет только что запросы пойдут не к впопенам/антропикам/амазону а к себе. Офк скорее всего потребуются небольшие правки кода прокси.

Профитов в этом, правда, никаких. Расшаренных обычных ллам можно найти в интернете, интересны прежде всего 70 и модель, веса которой не хотят полностью выкладывать.

Если просто хочешь расшарить ограниченному кругу кого знаешь "для попробовать" хватит --public-api
>>632002
> нужно заползти в питон, а это так мерзко
Стоит только начать, втянешься

Аноним 31/01/24 Срд 12:52:40 #264 №632011

Аноны, посоветуйте модель(до 13В)/персонажа/промпт для моральной поддержки. Что-то всякое в жизни происходит, хочется просто вывалить куда-то переживаия, а с LLM ещё и какую-то обратную связь получить можно.
Так-то мне Solar нравится, поумнее 7В, при этом на моём говноПК скорость ответов норм. Хотя, если есть нормальная модель до 30В то тоже сойдёт, подожду ответа.

Аноним 31/01/24 Срд 12:57:30 #265 №632012

>>631979
Ну ты даешь другим пользоваться твоим компом.
Все.
Какие тут подводные.
Хочешь дать всем? Только кому-то?
Ну, напишут хуйни в логах они, а посадят тебя. Камень?
Это знакомые? Ну, пусть пользуются.

Никаких существенных отличий от «посиди за моим компом» нет, ИМХО.

>>632002
> Силеро и есть. Вроде, неплохо звучит.
Да вроде раньше было лучше. v4? v3_1 получше говорит. Ну и медленно, вроде он был быстрее. Короче, странности.
Я xttsv2 юзаю, красивее и не сильно дольше. Ну, генерация около 1-2 секунд.
Но на видяхе.

>>632008
Хоро́ш, идея верная.
Ну, если хочется подзаебаться.

Аноним 31/01/24 Срд 12:58:21 #266 №632013

>>632011
Файнтюны солара хороши, используй их. Промт - карточка в таверне с персонажем, который тебе нравится, все. Можешь отредачить или сделать по аналогии чтобы просто вести разговоры, есть много готовых карточек, думаю аноны подскажут.
20b попробуй emerhyst. 34б с их особенностями врядли подойдут для подобного.

Аноним 31/01/24 Срд 13:29:45 #267 №632022

>>632008
>втянешься
Да нихуя. У меня с табуляций каждый раз жопа горит. И что тело функции должно быть раньше вызова.

>>632012
>v4?
Да. Хуй знает, может, у меня выбран "спикер" не тот, их несколько, этот вечно вздыхает. Со скоростью проблемы, которые решаются "прогревом", чем дольше генерируешь - тем быстрее работает. Связано с джитом, я пару флагов там поставил, чтобы это ещё ускорить, но помогло незначительно. Плюс воспроизвожу сразу в питоне, если схоронять в файл и играть оттуда, то звучит заметно лучше. Но не то, чтобы кардинально.
>генерация около 1-2 секунд
А силеро, по сути, рилтайм, там около 200 мс реальная задержка, которую нельзя выпилить, перед первой частью генерации. Между блоками внутри сообщения побороть можно. Но хрупкий, пиздец. Подал на вход английский текст? Ну, или промолчит, или вывалит ошибку. Отправил сообщение, начинающееся со знака препинания? Пизда, ошибка. Если это не пробел, с пробелами норм. Числа не читает. И на видяхе медленнее, чем на цпу. Такие дела.

Аноним 31/01/24 Срд 13:32:54 #268 №632023

1560215686883.jpg

>>632022
Специально для тебя

Аноним 31/01/24 Срд 13:41:52 #269 №632027

>>632023
Больной ублюдок. Опять же, в питоне это обосрётся, свап вызван раньше, чем определён.

Аноним 31/01/24 Срд 13:45:11 #270 №632031

>>632027
Это не так работает в питоне.

Аноним 31/01/24 Срд 13:45:33 #271 №632032

>>632027
C-задротство это круто, почетно. Но когда так мелочами упарываешься - не видишь всей картины. Потому-то сетки и многие вещи делаются на пихоне, а на си только в высокопроизводительные оконечники.
>>632031
+

Аноним 31/01/24 Срд 13:56:58 #272 №632039

>>632027
> свап вызван раньше, чем определён
Тут ошибка:
def a(): b()
a()
def b(): print(1)

А тут нет:
def a(): b()
def b(): print(1)
a()

С классами все методы сначала определяются, потом уже ты их используешь, так что нет проблемы.

Аноним 31/01/24 Срд 14:26:12 #273 №632057

LLaVA 1.6 уже тестил кто?
Это модель которая текст и изображения жрет.

Аноним 31/01/24 Срд 14:46:42 #274 №632071

>>632031
>Это не так работает в питоне.
>>632039
>сначала определяются, потом уже ты их используешь
О. Буду знать. В такое не вникал, ебанул один файл без классов. С одной стороны, удобно, что можно просто написать хуйни вначале без классов, функций и т.д и это будет вместо конструктора. С другой стороны - всё равно чувствуешь себя уёбком. А я уёбок и есть.

>>632032
>сетки и многие вещи делаются на пихоне
Да всё оно на сях делается, на питоне просто обвязка. И я не упарываюсь мелочами, i did not! Весь вопрос в удобстве, банально проще накатать отдельное приложение с окошками и табами, чтобы связать LLM c TTS и потенциально с чем-нибудь ещё, чем написать расширение на питоне. Сейчас вот почитал свой код внимательнее и понял, что голосовая часть должна ломаться в десять раз чаще, но благодаря тому, что в инпут пишется втрое быстрее, чем она читает - всё работает. И это при том, что там побуквенная автозамена английского на русский каждую строку ебёт.
Олсо, модель подсирает под себя иногда конструкциями типа
### INSTRUCTION
И ниже дохуя текста, поясняющего ситуацию. Это промпт темплейт отвалился, я правильно понимаю?

Аноним 31/01/24 Срд 15:05:15 #275 №632086

Анунаки, че там сейчас топовое по куму на 34-70B моделях? Было что-то новое?

Аноним 31/01/24 Срд 16:21:43 #276 №632149

>>632086
>на 34
Удваиваю запрос

Аноним 31/01/24 Срд 16:27:11 #277 №632156

>>632086
До 34 - Орион
Выше 34 - Микстраль
Всё остальное слишком говно, сливающее даже Yi.

Аноним 31/01/24 Срд 16:49:05 #278 №632166

>>631181
Короче говоря, прикинул я все варианты и заказал водянку с авито за 2к.

Аноним 31/01/24 Срд 16:54:25 #279 №632167

>>632057
Никому не нужно, всем похуй.

Аноним 31/01/24 Срд 16:56:35 #280 №632168

>>632156
> на 34-
> До 34

Аноним 31/01/24 Срд 17:23:46 #281 №632177

>>632057
выглядит интересно

Аноним 31/01/24 Срд 17:24:42 #282 №632178

>>632156
как этот орион запустить на гуфе?

Аноним 31/01/24 Срд 17:44:41 #283 №632188

>>632022
Да я гонял силеру, в курсе.

Пересмотрел твой видос, да, со второго ответа становится побыстрее.

Ну, xenia, вроде, лучше всех там говорит.
Он и на проце быстрый, кстати. Но простенький. Но хороший.

А вот xttsv2 (вообще, это coqui) он забавно делает. Он на русском читает английский — но получается с русским акцентом.

Поэтому на силеру я забил. Легче подождать 1 с ради хорошей речи, да еще и копирования голоса на лету, нежели силерку мучать. Она подходит для зачитывания чего-то супербыстро на калькуляторах.

>>632057
Они таки выпустили локальную? Я тыкал их облако, че-то вообще не впечатлило.

Мне интересно, но хуйня лютая.

Беда в том, что у них простой клип (кто говорил, что клип лучше блипа — припездываете че-то, я поизучал вопрос, хуй знает, где он лучше, просто немного другой), да еще пожатый в 600 мб.
И никакой разницы между всеми этими моделями нет. Ллава, Бакллава, Yi, и все прочее. Только Cog оригинальный, но там 45 гигов врама нужно, простите, взять неоткуда.

Если ллава-1.6 не подогнала нам новую модель гига на 4 хотя бы — то хуйня по дефолту, сорян.

>>632071
> Весь вопрос в удобстве, банально проще накатать отдельное приложение с окошками и табами, чтобы связать LLM c TTS и потенциально с чем-нибудь ещё, чем написать расширение на питоне.
Хуй знает, я щас пишу вишпер для бота, чтобы она слышать могла — фильмы там или дискорд, — и на питоне просто накидывается консольное приложение и все. Сомневаюсь, что рисовать гуй к этому было бы лучше.

>>632166
А че за модель? Может и я возьму, по итогу.

Аноним 31/01/24 Срд 17:55:08 #284 №632196

>>632188
>Если ллава-1.6 не подогнала нам новую модель гига на 4 хотя бы — то хуйня по дефолту, сорян.

LLaVA-v1.6-34B (base model Nous-Hermes-2-Yi-34B)

LLaVA-v1.6-Vicuna-13B

LLaVA-v1.6-Vicuna-7B

LLaVA-v1.6-Mistral-7B (base model Mistral-7B-Instruct-v0.2)

Аноним 31/01/24 Срд 18:07:58 #285 №632200

>>632166
>Короче говоря, прикинул я все варианты и заказал водянку с авито за 2к.
Скинь ссылку, а то что-то дешевле готовых воздушек выходит. Интересно.

Аноним 31/01/24 Срд 18:09:28 #286 №632201

>>632188
>А че за модель?
Мне подвернулась ID-Cоoling frosтflоw 240vgа, но изначально я искал Kraken G12 и любую водянку с асетековой помпой в комплект, они по креплениям идентичные. В прошлый раз для 2080ti я нашел чела продающего G12 сразу с водянкой в комплекте за 3к. Но это надо мониторить.
А вообще, если есть 3D принтер, то проще всего взять водянку с асетековой помпой и напечатать комплект креплений самому, на thingiverse кто-то помнится выкладывал.

Аноним 31/01/24 Срд 18:09:57 #287 №632202

>>632166
А хотя пардон - не заметил, что с авито :) Но за 2к всё равно дёшево. Хороший вариант.

Аноним 31/01/24 Срд 18:46:39 #288 №632224

>>632196
Ты скинул названия их текстовых моделей.
А визуальные-то какие? :)
На текстовые плевать.

> It re-uses the pretrained connector of LLaVA-1.5…
Звучит как та же самая хуйня и дутые тесты.

Хочу ошибаться.

Ну, дождемся квантов и опробуем.

Но я бы посоветовал не сильно надеяться.

Аноним 31/01/24 Срд 20:50:53 #289 №632335

слив mistral-medium оказался реальным.
https://huggingface.co/miqudev/miqu-1-70b/discussions/10
https://huggingface.co/miqudev/miqu-1-70b/discussions/10/files
https://twitter.com/arthurmensch/status/1752734898476007821

Аноним 31/01/24 Срд 21:07:10 #290 №632352

>>632188
>со второго ответа становится побыстрее
По комментариям разработчика, прогрев длится примерно 50 фраз.
Потыкал XTTS v2.0.3, вроде, ничем не лучше силеро результаты.
>зачитывания чего-то супербыстро на калькуляторах
Там можно накрутить 48 килогерц, это уже не особо быстро на калькуляторах. Но основная идея такая и была, чтобы с минимальной задержкой начинать воспроизводить аудио, пока идёт генерация текста. Пока что текст супербыстрый, но если перееду на что-то вроде р40, то он замедлится и в таком подходе будет больше смысла.
>вишпер для бота, чтобы она слышать могла
Так и не победил эту хуйню, качество опознания крайне низкое. Но у него там wer больше 50% на коммон войс, так что хуй знает, может, так и надо. Но это не значит, что я не проебал кучу времени на кручение whisper.cpp
В целом, если более привычен к питону, то почему бы и нет. У меня же в планах много вещей, которые будут крайне неудобны без гуя и\или крайне неудобно реализовывать на питоне.

Аноним 31/01/24 Срд 21:11:07 #291 №632355

>>632071
> Да всё оно на сях делается, на питоне просто обвязка.
Именно, в нужном месте используется наиболее оптимальные для них вещи.
> банально проще накатать отдельное приложение с окошками и табами, чтобы связать LLM c TTS и потенциально с чем-нибудь ещё, чем написать расширение на питоне
Для большинства наоборот, возможно твои привычки играют против этого всего.
> Это промпт темплейт отвалился, я правильно понимаю?
Это или ban eos token включен, или что-то не то с системным промтом, или прожарка температурой отупелого кванта. Или все вместе.
>>632086
Ничего нового особо, 34б под ерп упоминали вроде.
>>632156
> Выше 34 - Микстраль
> топовое по куму
Чет проиграл.
И лучше синтии катать кумботов пока не придумали.

Аноним 31/01/24 Срд 21:19:42 #292 №632366

>>632166
Убедись что оно будет охлаждать врм если там колхоз типа водоблока только поверх чипа а не весь плейт.
>>632057
Попозже надо попробовать. Они хотябы размер проектора до YI довели или все такой же мелкий?
>>632188
> Они таки выпустили локальную?
Она изначально была локальной.
> Беда в том, что у них простой клип
Не простой, почитай как это работает.
> Только Cog оригинальный, но там 45 гигов врама нужно
12 хватит
> модель гига на 4 хотя бы — то хуйня по дефолту
Если ты про общие веса - какой-то нищукский кринж. Если про проектор - уместно, хотя не обязательно, тут больше проблема в файнтюне.
Алсо даже к нищукам боги благосклонны, есть moondream, который умеет в том числе и нсфв и 2д.
>>632335
Найс, когда полные веса?
Интересно насколько она ранняя по их заявлениям.

Аноним 31/01/24 Срд 21:29:38 #293 №632377

1636816484009.png

>>632355
> синтии
Она слишком шизоидная, все эти файнтюны на генерациях ЖПТ-4 - просто попытка сделать биас на конкретный стиль. Все РП-файнтюны страдают тем что у них прибитый гвоздями стиль письма. Можешь протестить как выше анон Ориону говорил менять стиль речи на персонажа, синтия не пройдёт его. И по рандому без скатывания в шизу Микстраль сильно впереди остальных. Да и с ареной глупо спорить, кроме Микстраля никто к Клауде не приближается. По поводу кума - в него умеют вообще все в рп-пресете промпта, уровень извращений зависит только от промпта, просто у кого-то изначально биас в сторону кумерских историй, даже когда не просишь, что не есть хорошо.

Аноним 31/01/24 Срд 21:31:48 #294 №632381

answer.webm

>>632352
> вроде, ничем не лучше силеро результаты.
Ну я даже не знаю… =)
Минус тока в том, что акценты у него рандомное расставляются, канеш.

> качество опознания крайне низкое
Ну, на размере medium уже отличное, ошибок минимум. Вот на base там жесть, конечно. =D

> Но это не значит, что я не проебал кучу времени на кручение whisper.cpp
Я забил на распознавание онлайн, не понравилось мне, как он видяху юзает и как он паузы определяет.
Моделька small дает вменяемые результаты вчетверо меньше по времени. Если резать по 20 секунд, то на распознавание уйдет по 5 секунд. Вроде терпимо, хз.
Рассказуй, как там посылать запросы? :) Я тоже в итоге решил попробовать Жору. Может помнишь, как можно отправлять-получать в сервер чи куда там.

Аноним 31/01/24 Срд 21:37:10 #295 №632385

>>632366
> Она изначально была локальной.
Т.е., Llava-1.6 уже давно можно было скачать? С тех пор, как они ее в облаке повесили тестить всем? А почему написали в треде только сегодня, и файлы помечены сегодняшним числом? =)

> Не простой, почитай как это работает.
Да, почитал, обучали на датасетах, но опять же, датасеты маленькие.

> 12 хватит
А как на 12 запустить? Вот этого я не нарыл, расскажи.

> Если про проектор - уместно, хотя не обязательно, тут больше проблема в файнтюне.
У Кога 11B, у этих 600 чи 900 M, да? Ну, сравнение, сам понимаешь, звучит будто не в их пользу.

Аноним 31/01/24 Срд 21:37:59 #296 №632386

>>629530
4q модель на двух p40 выдает 6.29 т/с на холодном старте, держу в курсе

Аноним 31/01/24 Срд 21:39:47 #297 №632387

>>632335
Ну, революции она не сделала, все жаловались на вотермарку, ну и раз уж ранняя…
Хотелось бы, чтобы они уже дропнули полную, в таком случае. =) Получат лучей любви.

Аноним 31/01/24 Срд 21:45:02 #298 №632395

>>632335
Уговорил, прогнал по классике.
Хм... То ли мои тестовые вопросы утекли, то ли модель реально хороша... Если бы не соя, но тут по классике.
>>632387
>все жаловались на вотермарку
Ват из вотермарка?

Аноним 31/01/24 Срд 21:50:39 #299 №632403

>>632377
> Она слишком шизоидная
Да ну, вполне адекватная, если не брать лоботомированный квант и не следовать заветам "крутого семплинга для 7б". Может шикарно описывать левд активности с плавным разгоном, слог приличный, плюс достаточно smart, для erp то что доктор прописал. Обычный ролплей тоже хорош, то как "отыгрывает рассуждение" персонажа, воспроизводя cot из тренинга, выглядит достаточно живо и естественно, как ни странно. И там в датасетах синтетическое в основное от коктропиков а не гопоты, это, учитывая заезжанность, в плюс.
> Можешь протестить как выше анон Ориону говорил менять стиль речи на персонажа
Да что тестить, еще с версии 1.2 на ней рпшу/кумлю без проблем по скорости что отвлекали бы, проблем хватает но не те что описывают. Как раз стиль речи и самого повествования/поведения под персонажа подстраивает, он в целом отличается от типичного для рп файнтюнов.
> рандому без скатывания в шизу Микстраль сильно впереди остальных
Что это значит? Он всрат для ерп, он специфичен для рп, он туп на больших контекстах. Как угодно это оправдывать, модель не для этого и т.п., это не важно.

> Да и с ареной глупо спорить
Ну йобана, каждый раз как в первый, особенно тащить это в контексте (е)рп.
> уровень извращений зависит только от промпта
Вот оно че, айда пацаны на викунье ерпшить, она и в арене высоко стоит!
>>632385
> Т.е., Llava-1.6 уже давно можно было скачать?
Не, то про 1.5 было, про 1.6 в облаке упустил, или она была дженерик что даже не запомнил.
> Да, почитал, обучали на датасетах, но опять же, датасеты маленькие.
Это не "ужатый клип" в исходном виде, датасеты уже какие получилось.
> А как на 12 запустить? Вот этого я не нарыл, расскажи.
Добавить в параметры запуска --quant 4, если 24х гиговый то можно --quand 8. Работает и на обнимордовской и на сатовской версии (8 только на сат, в hf части переписывать придется). При запуске в начале скушает много рам.
> Ну, сравнение, сам понимаешь, звучит будто не в их пользу.
Офк не в их и улучшение может дать преимущество, а превосходство кога очевидно. Просто того на что они заявляются можно достигнуть даже в таких размерах, что можно видеть по другим моделькам, тот же sharegpt. И ее прямое увеличение без норм обучения не даст преимуществ, yi галлюцинирует не меньше чем ллава при более жирном проекторе.

>>632386
Сколько у тебя обрабатывается большой контекст? Жора что-то совсем грустный и 16к приходится прямо подождать.

Аноним 31/01/24 Срд 21:53:55 #300 №632410

>>632395
> Если бы не соя
Как ты ее получил то, мистралевский пресет? Вон выше соглашается делать бабах для уничтожения нигро-феминисток.

Аноним 31/01/24 Срд 21:55:43 #301 №632413

>>632395
>То ли мои тестовые вопросы утекли
Не, ну точно утекли. Вангую, что трейнили в том числе на данных с загадками.
С молотом тора зато сфейлила, так что модель хуже клода с GPT4, я спокоен.

Аноним 31/01/24 Срд 21:57:03 #302 №632414

>>632410
>мистралевский пресет
Вообще без пресета и контекста, лол. Я все модели тесчу на одинаковых настройках.

Аноним 31/01/24 Срд 21:58:47 #303 №632415

мику походу для рп ебли не подходит. Ну и нахуй её тогда.

>>632403
скажи какую сетку протестить на большом контексте

Аноним 31/01/24 Срд 22:01:03 #304 №632419

>>632414
С ролплеем он был на все согласен.
>>632415
Да тот же мистраль лик, заодно интересно сколько поместится.
> мику походу для рп ебли не подходит
Довольно условно, если очень хочется то можно, плюс на русском.

Аноним 31/01/24 Срд 22:02:28 #305 №632422

>>632419
>мистраль лик
скажи полное название модели

Аноним 31/01/24 Срд 22:03:29 #306 №632425

>>632422
miqu-1-70b, тот про который и писал

Аноним 31/01/24 Срд 22:05:32 #307 №632433

>>632425
да блять, я её только что удалил

Аноним 31/01/24 Срд 22:06:44 #308 №632437

>>632433
Ебать ты еблан, эту модель могут вообще снести, лол.

Аноним 31/01/24 Срд 22:08:24 #309 №632445

>>632395
> Ват из вотермарка?
Вроде как она постоянно срывается в «я ИИ и не имею чувств», я в треде замечал жалобы.

>>632403
> Добавить в параметры запуска --quant 4, если 24х гиговый то можно --quand 8. Работает и на обнимордовской и на сатовской версии (8 только на сат, в hf части переписывать придется). При запуске в начале скушает много рам.

Квант 4, вот это ее жмыхнет! Но ладно уж, не буду жаловаться, сам виноват что бомж. Спасибо! =) Попробую.

Аноним 31/01/24 Срд 22:09:13 #310 №632448

>>632437
Только хотел тоже удалять, но ты меня остановил. =D
Хай лежит, кушать не просит.

Аноним 31/01/24 Срд 22:09:41 #311 №632450

>>632437
Нихуя себе! Пойду скачаю, раз такое дело.
Другой анон.

Аноним 31/01/24 Срд 22:10:14 #312 №632453

>>632437
бред. Сейчас бы пытаться что-то из интернета удалять.

Аноним 31/01/24 Срд 22:14:32 #313 №632465

>>632437
Ничего, интернет все помнит.
>>632433
Тогда любую другую 70. Просто тогда под контекст параметры подбирать придется и не факт что перфоманс будет норм.
>>632445
> Вроде как она постоянно срывается в «я ИИ и не имею чувств»
Это база ванильного мистраля и многих других моделей, ватермарка должна иначе проявляться как-то. Тоже интересно что там.
> Квант 4, вот это ее жмыхнет!
Да не особо, сравнивал все версии, в пределах рандома. Даже владельцы A100 в 4х битах пускают кучкой чтобы быстрее работало.
Ради успокоения можно в 8 битах, на карты hf версия без проблем дробится, только уже не помню что там надо было поправить.

Аноним 31/01/24 Срд 22:16:57 #314 №632470

>>632465
я хз о чем говорить с моделью на 16к токенов., кроме как секс рп. А мику не может в секс рп.

Аноним 31/01/24 Срд 22:20:52 #315 №632475

>>632445
>Вроде как она постоянно срывается в
Не похоже на вотермарку. Вот если бы на кодовую фразу модель стабильно отвечала "Я из мистральАИ", вот это была бы вотермарка.
>>632453
Да, там в комментах тоже говорят "yeah report your ethical considerations to my download folder"
>>632465
>Ничего, интернет все помнит.
С одной стороны да, с другой попробуй ещё найди быстрый хостинг для 40 с лихуем гигов.

Аноним 31/01/24 Срд 22:23:42 #316 №632480

2024-01-31 22-16-17.mp4

>>632355
>Или все вместе.
Всё возможно, мозги модели выебаны во все щели. Можно, конечно, самому обрезать хуиту, то, бля, откуда-то же она лезет.
>>632381
>Ну я даже не знаю… =)
https://huggingface.co/spaces/coqui/xtts
Я тут смотрел. Естественно, если брать докрученные модели, то будет лучше. Но на силеро они тоже, наверное, есть.
>на размере medium уже отличное
На лардже 54% wer. по самотестам. Видяху юзает хорошо, там даже поддержка тензорных ядер для ускорения, гонял его в рилтайме, где-то полсекунды-секунда задержка опознания, возможно, даже по моей вине. Паузы и отсечку делал на своей стороне. Хуже всего его метод понимания незнакомых слов, он их тупо заменяет на рандомные.
>Я тоже в итоге решил попробовать Жору.
Виспер.cpp гонял локально, дёргал whisper_full из dll, без серверов.

Всё-таки надо лечить паузы в речи.

Аноним 31/01/24 Срд 22:23:54 #317 №632482

>>632475
>С одной стороны да, с другой попробуй ещё найди быстрый хостинг для 40 с лихуем гигов.
а что, торренты успешно побеждены?

Аноним 31/01/24 Срд 22:27:00 #318 №632491

>>632480
>докрученные модели, то будет лучше. Но на силеро они тоже, наверное, есть.
Я мимо если что, но кажется силеро не открывал код обучения.
>>632482
А то. Я даже не подумал про них.

Аноним 31/01/24 Срд 22:29:59 #319 №632499

>>632470
> я хз о чем говорить с моделью на 16к токенов
Лол, я тестил просто приказав по шаблону ей делать суммарайз и пересказывать, а на вход загрузил просто копипасту треда. Или с обниморды какие-то доки накидал
>>632475
> попробуй ещё найди быстрый хостинг для 40 с лихуем гигов
Разве на обниморде есть проверка контрольных сумм моделей? А так гуглдиск/вандрайв, не говоря офк про торренты.

Аноним 31/01/24 Срд 22:32:24 #320 №632507

Есть что нового по куму? И что там за геншин модельку я вижу?

Аноним 31/01/24 Срд 22:43:29 #321 №632523

>>632507
>И что там за геншин модельку я вижу?
Чего?

Аноним 31/01/24 Срд 22:46:05 #322 №632529

Дошло уже до того что моделькам даже не пишут описание, просто сразу постят таблицу бенчмарков и больше ничего

Аноним 31/01/24 Срд 22:51:28 #323 №632534

>>632491
>силеро не открывал код обучения.
А, таки правда. Новые голоса только на коммерческой основе.

Аноним 31/01/24 Срд 23:34:38 #324 №632566

>>632480
Но все же xttsv2 заметно получше. Но сильно медленнее, да.
И у меня ванила. Просто ей любой голос пихаешь, какой нравится, и все.

> На лардже 54% wer. по самотестам.
Это ж какой квант? О_о
Я пробовал нежатые — там и 5% не было. Только на мелких моделях начинает ошибаться. У тебя явно что-то не так с виспером было.

> Виспер.cpp гонял локально
Да я про то, как запрос надо составлять в сервер (или куда там) виспер.cpp, чтобы получать ответ и уже ответ в своем скрипте обрабатывать. Мне ж не просто в самой проге запускать, там целый оркестр всякого-разного. =) И ллм, и ттс, и анимации, и рутоничат.

> Всё-таки надо лечить паузы в речи.
Слышал, что Силеро умеет в фонетику, или это там делалось. Думаю, если поковырять регекс, можно будет настроить как надо, чтобы не ставил пауз, где не надо.
Или щас, или вскорости, хз.

>>632534
> Новые голоса только на коммерческой основе.
Тащемта, это основная причина выбора xttsv2 — любой голос, 10-секундным файлом. Мне ж не точные копии нужны, RVC просто избыточна.

Аноним 31/01/24 Срд 23:48:54 #325 №632578

>>632335
>>632437
Да и хуй с ним. Мистраль подтвердил слив, да. Но он подтвердил что это слив первой альфы, которую рассылали потенциальным покупателям в самом начале, а не текущий Медиум. И квантованая она потому что в модели ватермарки есть, поэтому её квантанули чтоб не палиться через кого слили.

Аноним 01/02/24 Чтв 00:58:09 #326 №632622

обновленная инфа по >>629530
модель - говно.
Держит адекватно вплоть до 8к контекста. Больше не проверял. Но скатывается в лупы как последняя сука.
Я выкрутил пеналти по повторам на максимум - ему похуй.
модель для рп не пригодна, твердо и четко.
2/3 текста в ответах - повтор того, чтьо она уже говорила. За счет этого контекст растет как не в себя. И за счет этого нахуй не нужна её способность прожевывать 32к контекста, если она всрёт 2/3 из этого объема. Заебался глазамит парсить говно это.

Аноним 01/02/24 Чтв 01:00:56 #327 №632624

Вижу в таверне появилась динамическая температура и целая куча новых пресетов. Кто уже тестировал?

Аноним 01/02/24 Чтв 01:02:27 #328 №632627

Я не понял а какой сейчас лимит на колабе? Они что его до часа сократили или что?

Аноним 01/02/24 Чтв 01:05:29 #329 №632630

Там новую мейду подвезли но на этот раз пиздатую от хорошего разраба. Говорит карточку держит просто заебись и в целом умница, просит фидбеков. В частности интересует как она может в "плохие" вещи и буллинг потому что кажется у нее есть небольшой позитивити баяс.
https://huggingface.co/TheBloke/EstopianMaid-13B-GGUF

Аноним 01/02/24 Чтв 01:49:14 #330 №632641

>>632630
пока что сижу на норомейде, и там каждая версия хуже предыдущей, возможно, дело в 20В версии, она топовая, остальные какие-то уж очень хрупкие, постоянно нелитературно пишут, залетают в лупы и прочее

Аноним 01/02/24 Чтв 01:51:13 #331 №632642

>>632622
Как-то у тебя совсем грустно получилось. Если делать относительно динамичный рп с переходами и т.д. то она даже интересна. В левдсах она не настолько плоха, пытается описывать действия, обстановку, ощущения, но уступает рп файнтюнам.

Аноним 01/02/24 Чтв 02:08:05 #332 №632645

Автор еребуса работает над моделькой для "романса"
Пока не понятно что именно он имеет в виду но вероятно моделька для "отношений" с вайфу которая больше для ламповых няшканий чем для грязной ебли.

Аноним 01/02/24 Чтв 02:30:21 #333 №632647

2024-02-01 02-28-11.mp4

>>632566
>Это ж какой квант? О_о
Дефолт, но это коммон войс. Посмотрел в датасет, ебать там дичь.
>как запрос надо составлять в сервер
Cервер это обвязка для библиотеки, я его не использовал. А так вот, вроде, всё понятно.
https://github.com/ggerganov/whisper.cpp/blob/master/examples/server/README.md
>чтобы не ставил пауз, где не надо.
Это не его вина, а моего кода на питоне.
Заебался устанавливать зависимости для xtts, в итоге сравнил с силеро.
Конечно, очень хуёво, что нельзя делать свои голоса для силеро.

Аноним 01/02/24 Чтв 03:55:37 #334 №632659

Кстати там llamacpp в новых коммитах починили при запуске на наскольких современных карточках. Теперь оно работает примерно с той же скоростью как и на одной, или скейлится линейно на том что больше.
Скорость все равно ниже чем в бывшей а жор врам никуда не делся, но по крайней мере норм работает и вместо 0.x-единиц полтора десятка т/с можно получить.

Tess-34-1.5b достаточно интересна. Шиза yi на месте, но она старается сохранить все в пределах разумного и выстраивать четкие связанные ответы с высоким разнообразием. В кум умеет.

Аноним 01/02/24 Чтв 07:39:02 #335 №632688

стащил с пендосского /lmg/
>===================================================
=== GUIDE FOR EARLY ACCESS TO QUADRATIC SAMPLING ===
>===================================================

There's been an update to both git pull requests in the past hour.
In webui the quadratic sampler has been moved to happen AFTER the Min P sampler instead now which may improve it further.
Instructions to update the pull request patches included.

WEBUI:
1. ./update_linux.sh
2. git fetch origin pull/5403/head:quadratic-sampling
3. git checkout quadratic-sampling
>To update quadratic sampling: git pull origin pull/5403/head:quadratic-sampling
>To return to default: git checkout master

SILLY TAVERN:
1. ./launcher.sh switch to staging branch (or git checkout staging)
2. git fetch origin pull/1766/head:quad-sample
3. git checkout quad-sample
>To update quadratic sampling: git pull origin pull/1766/head:quad-sample
>To return staging or release: git checkout staging or git checkout release

SET SMOOTHING FACTOR TO 0.2 IN SILLY TAVERN YAY BIG HARD COCK

>inb4 windows noobs

Это прикол с новым семплером, действительно делает результат немого лучше, точно не плацебо.
Уже есть в убабубе и кобольде (обязательно для его работы, да и вообще он пока что WIP)
https://github.com/oobabooga/text-generation-webui/pull/5403
https://github.com/kalomaze/koboldcpp/releases/tag/quad-sampling-v1

Аноним 01/02/24 Чтв 08:23:45 #336 №632705

>>632413
> С молотом тора зато сфейлила
Я тоже не понял

Аноним 01/02/24 Чтв 08:56:20 #337 №632714

Аноны, кто-нибудь уже пытался побрить форумы двача на отполированную дату для обучения моделей на нашем родном? Если да, то можно ссылку, чтобы двойную работу не делать? А то в инете нашел только на хаггин фейс дату на 14к rows и та, вроде, не отфильтрованная по дереву ответов, а просто собранные вразнобой посты.

Аноним 01/02/24 Чтв 10:13:10 #338 №632728

Пробовал кто https://huggingface.co/0x7194633/fialka-13B-v4 ? Файтюненый rugpt большим количеством инструкций.

Аноним 01/02/24 Чтв 10:14:14 #339 №632729

>>632728
Квантанул бы её кто...

Аноним 01/02/24 Чтв 10:17:06 #340 №632731

>>632729
Я квантанул вчера в gguf. Но я не ролиплейшик, так что хз как она в сравнении.

https://huggingface.co/Sosnitskij/fialka-13B-v4-gguf

Аноним 01/02/24 Чтв 10:19:42 #341 №632733

>>632731
Круто! Тогда вечером попробую

Аноним 01/02/24 Чтв 10:31:02 #342 №632740

>>632622
> mistral
> РП
Ну, как бы, да, никогда и не работала, вроде.

>>632647
> Cервер это обвязка для библиотеки, я его не использовал.
А что из них выбирать? Я почти никогда от Жоры не юзал софт, не в курсе его наименований.

>>632728
Я писал выше, чисто в диалоге она топ, конечно. Но карточки не юзал, как держит роль — не в курсах. Просто у нее хороший русский, безусловно.

>>632731
Спасибое. А это новый формат, где Q5_K_M ~ Q6? Сам-то я предпочитаю Q6, имеет смысл ее качать вообще, что скажешь?

Аноним 01/02/24 Чтв 10:39:55 #343 №632742

>>632740
>имеет смысл ее качать вообще, что скажешь?
не тот анон, но Q5_K_M имхо самый оптимальный вариант качество / размер

Аноним 01/02/24 Чтв 10:45:35 #344 №632749

>>632740
Ну я в самые ходовые кватовал.

Allowed quantization types:
2 or Q4_0 : 3.56G, +0.2166 ppl @ LLaMA-v1-7B
3 or Q4_1 : 3.90G, +0.1585 ppl @ LLaMA-v1-7B
8 or Q5_0 : 4.33G, +0.0683 ppl @ LLaMA-v1-7B
9 or Q5_1 : 4.70G, +0.0349 ppl @ LLaMA-v1-7B
19 or IQ2_XXS : 2.06 bpw quantization
20 or IQ2_XS : 2.31 bpw quantization
10 or Q2_K : 2.63G, +0.6717 ppl @ LLaMA-v1-7B
21 or Q2_K_S : 2.16G, +9.0634 ppl @ LLaMA-v1-7B
23 or IQ3_XXS : 3.06 bpw quantization
22 or Q3_K_XS : 3-bit extra small quantization
11 or Q3_K_S : 2.75G, +0.5551 ppl @ LLaMA-v1-7B
12 or Q3_K_M : 3.07G, +0.2496 ppl @ LLaMA-v1-7B
13 or Q3_K_L : 3.35G, +0.1764 ppl @ LLaMA-v1-7B
14 or Q4_K_S : 3.59G, +0.0992 ppl @ LLaMA-v1-7B
15 or Q4_K_M : 3.80G, +0.0532 ppl @ LLaMA-v1-7B
17 or Q5_K : alias for Q5_K_M
16 or Q5_K_S : 4.33G, +0.0400 ppl @ LLaMA-v1-7B
17 or Q5_K_M : 4.45G, +0.0122 ppl @ LLaMA-v1-7B
18 or Q6_K : 5.15G, +0.0008 ppl @ LLaMA-v1-7B
7 or Q8_0 : 6.70G, +0.0004 ppl @ LLaMA-v1-7B

Вот данные по приплексии. Формату то уже много времени но я знаю что там небольшие правки всегда делают, квантовал последней версией llamacpp так что и формат последний со всеми правками.

Аноним 01/02/24 Чтв 10:55:26 #345 №632755

>>632742
>>632749
Угу, выглядит так, будто Q6 прям почти не имеет смысла, спасибо!

Аноним 01/02/24 Чтв 13:15:54 #346 №632845

>>632688
Лучше чем мин пи?

Аноним 01/02/24 Чтв 13:21:55 #347 №632849

>>632688
> точно не плацебо
Пока по обилию тряски напоминает min-p, тот же автор?
>>632728
> GPT2LMHeadModel
Сколько не тренируй, выше головы не прыгнешь
>>632740
> новый формат, где Q5_K_M
Этому "новому формату" уже наверно пол года или больше.

Аноним 01/02/24 Чтв 14:38:43 #348 №632917

>>632849
> Этому "новому формату" уже наверно пол года или больше.
>>627979 →
Полгода назад было 27 января, понял тебя. =)

———

Короче, пришла P40. Можно вторую брать, как грится… P40-куны, поделитесь — стоит ли ее разбирать, менять термо-интерфейсы, если на ней нихуя-себе-пломба какая-то зачем-то?

Как назло, память стала отваливаться, по гарантии оранжевый магазин менять отказался (точнее, технари производителя памяти, планки ушли им на проверку), мол «вы использовали XMP-профиль, а это разгон и снимает гарантию». На что я ответил «в названии и описании указано 3200, а память в стоке 2666, значит вы мне привезли не тот товар, вертайте деньги». Магазин подумал-подумал и согласился.

Так что буду сервак пересобирать.
Думаю, теперь нужна материнка на два PCI-e (а лучше три, мухахаха, чтобы еще чисто графику можно было крутить), а памяти, наверное, 64 хватит? Раз уж все гонять буду на видяхах со временем.

Собирать на DDR5 че-то дорого дохуя, 1 планка на 48 гигов с частотой 6000 — 20к рублей. Лучше уж пусть будет пока древний компик на ддр4.

Аноним 01/02/24 Чтв 14:42:02 #349 №632919

>>632917
>термо-интерфейсы
У меня они пришли в хорошем состоянии, как будто её отпидорасили перед продажей.
>нихуя-себе-пломба
У меня приехала без пломб.

Аноним 01/02/24 Чтв 14:43:54 #350 №632922

>>632917
> Полгода назад было 27 января, понял тебя. =)
Ты что несешь, поехавший?
K-кванты появились вместе с ggml v3, в конце весны - начале лета прошлого года. Херня что ты притащил называется иначе, в буквах запутался?

Аноним 01/02/24 Чтв 15:26:57 #351 №632970

>>632919
Кайф, что отмытая. Но пломба меня удивила. То ли они вообще ее с завода не разбирали, то ли просто ляпнули сверху свою.
Ладно, буду просто по температурам смотреть, спасибо.

>>632922
Так это ты поехавший, где я сказал про кванты? :) Я сказал, что в последних версиях Q5_K_M квант по перплексити приближается к Q6. Завезли это недавно.
И судя по табличке, что скинул автор кванта, все нормусь, Q6 можно не качать, профита немного.
Что ты там себе напридумывал — не знаю, какие новые кванты ты изобрел, понятия не имею. Я говорил про перплексити, как простейший способ сравнить потери при квантовании. Читай внимательнее прост.

Аноним 01/02/24 Чтв 15:28:02 #352 №632972

Как доходит до ебли все нейронки слудуют единому шаблону с нулевой вариативностью.

Аноним 01/02/24 Чтв 15:28:30 #353 №632973

>>632566
>>632647
Ребята, если что, у нас на борде есть тред по звуку. Тут это оффтоп. Спасибо за внимание.

Аноним 01/02/24 Чтв 15:35:09 #354 №632981

>>632705
Ты не программист просто. Там суть в том, что молот такой неприподъёмный из-за каталога node_modules, который вечно тяжёлый в смысле файлов. Пока только клод 2 и гпт 4 предлагают среди вариантов правильный ответ, так что использую этот тест для определения самой умной сетки.
>>632849
>тот же автор
Таки да, каломаз говорящий ник.

Аноним 01/02/24 Чтв 15:36:50 #355 №632983

В чём отличия между HF и простой эксламой?

Аноним 01/02/24 Чтв 15:44:30 #356 №632991

>>632981
>Ты не программист просто.
Охуел? Я плюсовщик, а не мусорщик

Аноним 01/02/24 Чтв 15:47:42 #357 №632993

>>632983
В HF больше семплеров поддерживается.
>>632991
>Я плюсовщик
Ебать, я думал динозавры вымерли уже.

Аноним 01/02/24 Чтв 15:48:48 #358 №632994

>>632993
Нет, ты, блин, всё таки на драку нарываешься!

Аноним 01/02/24 Чтв 16:14:42 #359 №633013

>>632991
>плюсовщик
Ну ты мразь! Скорее бы уже ввели расстрелы за использование С и С++

Аноним 01/02/24 Чтв 16:30:23 #360 №633032

>>633013
Мы вас всех переживём!

Аноним 01/02/24 Чтв 16:31:19 #361 №633033

>>633013
Жаба-животное, спок

сравнение моделей для RP Аноним 01/02/24 Чтв 16:37:46 #362 №633037

>>628658 (OP)
Huge LLM Comparison/Test: Part II (7B-20B) Roleplay Tests
https://www.reddit.com/r/LocalLLaMA/comments/17kpyd2/huge_llm_comparisontest_part_ii_7b20b_roleplay/

Аноним 01/02/24 Чтв 16:51:42 #363 №633050

>>632970
Раскрыл тебя, имеешь расписание пару раз в неделю сначала обосраться а потом развивать шизу.
Какие таблички, какое перплексити, братишка спросил про 5_K_M а тебя куда-то понесло, скорее уже в дурку угоди.
>>632972
Позволяют себя ебать?
>>632981
Лол, действительно.
>>632983
Помимо семплеров еще cfg, негатив, логитсы.
>>633037
Старые.

Аноним 01/02/24 Чтв 17:18:43 #364 №633068

>>633050
> Старые.
Где есть сравнение более новых?

Аноним 01/02/24 Чтв 17:21:32 #365 №633072

>>633068
От того же автора вроде новые были, он ими постоянно срет. https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/ например
Воспринимать их следует с изрядной долей критики, но он хотябы примерно расписывает методику и критерии оценки.

Аноним 01/02/24 Чтв 18:03:22 #366 №633108

А возможно ли вообще расквантовать мику70b с дорисовыванием чисел до 16 бит и дообучить?
Ждать файнтюны на базовость и рп?

Аноним 01/02/24 Чтв 18:33:22 #367 №633151

>>633108
Зачем? Ты думаешь этот ранний огрызок Медиума лучше станет? Микстраль во всём лучше, чем эта альфа-версия.

Аноним 01/02/24 Чтв 18:34:04 #368 №633156

>>633108
> расквантовать
Можно https://huggingface.co/152334H/miqu-1-70b-sf
> с дорисовыванием чисел до 16 бит
Не, поупражняться в техниках офк можно, но результат не будет как с оригиналом
> и дообучить
Дообучить можно, но качество сомнительное. С одной стороны стартовать с подобного лучше чем с ничего, с другой градиентам пиздец.
Из наиболее оптимистичного что можно ждать - официальный релиз полных весов.
>>633151
> Микстраль во всём лучше
лол

Аноним 01/02/24 Чтв 18:34:29 #369 №633158

>>633072
Кому не похуй на эти шизоидные тесты на немецком.

Аноним 01/02/24 Чтв 18:37:40 #370 №633168

>>633156
> официальный релиз полных весов
С чего бы им их выкладывать? Как сольют актуальную модель, так и приходи с такими фантазиями. Они от этого недотрененого слива только пиар получают, чтоб нормальный медиум покупали.

Аноним 01/02/24 Чтв 18:40:50 #371 №633172

>>633168
Так после медиума они сделают ларге, который скорее всего будет MoE 8х70, а там уже можно и простые 70B слить.

Аноним 01/02/24 Чтв 18:49:53 #372 №633189

>>633172
> который скорее всего будет MoE 8х70
Слишком жирно, даже ЖПТ-4 меньше. Максимум 8х13В будут делать, актуальный медиум не сильно дальше микстраля ушёл. Вон мику буквально во всех тестах сосёт по скорам у микстраля, в том числе и в рп-тестах шизиков. Не понятно что за хайп пошёл от посредственной модели, её ещё и тренили похоже пол года назад.

Аноним 01/02/24 Чтв 19:03:02 #373 №633199

>>633189
>даже ЖПТ-4 меньше
Лолвут?
>Не понятно что за хайп пошёл
Все надуются на то, что это подтолкнёт мистралей на выпуск полной модели.

Аноним 01/02/24 Чтв 19:18:59 #374 №633215

>>633168
> Как сольют актуальную модель
> с такими фантазиями
Фантазии - это шиза про то что мистраль топ и чрезмерно завышенные ожидания от не самой крупной команды. Слив может быть как раз относительно актуальной, ничего другого кроме "пук среньк старая версия неактуально все гораздо лучше" в реакции на подобное они сказать и не могли.
> чтоб нормальный медиум покупали
Даже при наличии открытой модели в сети у них будут покупать, с подключением. Мало того что услуги готового сервиса востребованы, так еще и лицензию сделают некоммерческую, и соси бибу. А со всего развития опенсорса они буквально напрямую к себе все бенефиты будут.
Хотя, учитывая сколько времени, действительно МОЕ из нескольких 70 может быть готов.
>>633189
> Слишком жирно, даже ЖПТ-4 меньше
По заявлениям и околооффициальным данным он меньше.

Аноним 01/02/24 Чтв 19:19:22 #375 №633216

>>633215
> шиза про то что миКстраль топ
Фикс

Аноним 01/02/24 Чтв 19:57:41 #376 №633242

>>633199
> Лолвут?
Как минимум ЖПТ-4 Турбо сильно меньше оригинальной. Там точно даже 200В нет. 8x20B - это вполне реальные цифры, если судить по тому что сейчас могут 34В от васянов.
>>633215
> это шиза про то что мистраль топ
Т.е. слепые тесты уже не катят? Что ещё нафантазируешь?
> ничего другого кроме "пук среньк старая версия неактуально все гораздо лучше" в реакции на подобное они сказать и не могли
Чел, по скорам между мику и реальным медиумом - пропасть. И вообще нет ни одного подтверждения что это модель мистраля, кроме слов самих французов. Они могли бы просто промолчать, один хуй оно слишком всратое чтоб его после тестов кто-то мог за медиум принять.

Аноним 01/02/24 Чтв 20:01:05 #377 №633245

Тут это, классик, маэстро, титан, автор Голиафа выложил:
https://huggingface.co/alpindale/miquella-120b-gguf

Аноним 01/02/24 Чтв 20:03:31 #378 №633246

>>633245
> шизомикс
И зачем?

Аноним 01/02/24 Чтв 20:06:22 #379 №633247

>>633242
> Т.е. слепые тесты уже не катят?
Давай проведем слепой тест острых соусов и будем заставлять тебя употреблять 5 победителей вместо воды. Заодно при проведении нужным образом обустроим подачу, чтобы в лидерах оказались самые мерзкие и химозные.
На серьезных щщах утверждать универсальную топовость микстраля и викуньи может только поехавший шизик, взор которого искажен религиозной верой.
> по скорам
Каким скорам?
> нет ни одного подтверждения что это модель мистраля
> кроме слов самих французов
Блять в голосину
>>633245
Воу воу, полегче блять ну это реально повод скачать и пустить

Аноним 01/02/24 Чтв 20:14:06 #380 №633251

>>633247
> Заодно при проведении нужным образом обустроим подачу, чтобы в лидерах оказались самые мерзкие и химозные.
Т.е. то что в лидерах сидят гопота и клауда - это пиздеж и хуёвый тест?
> универсальную топовость микстраля
Микстраль как раз и хорош универсальностью. Это у рп-шизиков какая-то фанатичная религия кума, они даже не могут объяснить в чем этот кум выражается, разве что могут указать на выдаваемое количество описаний и бесконечные потоки эпитетов. При этом отлично видно, что файнтюны на датасетах с биасом в конкретную тематику очень сильно ломают универсальность.

Аноним 01/02/24 Чтв 20:25:35 #381 №633256

>>633251
То что ты пляшешь туда-сюда и пытаешься представить дерейлы в виде аргументов - забавно, но это так не работает. И тем более не сделает лучше херню, которая стала для тебя иконой.
> универсальностью
Которой нет. Если немного утрировать то это буквально модель-хайпожор и сладкий пряник для неграмотных но верящих в себя шизов. Причем и никакую конкуренцию полноценным решениям составить оно неспособно.
Уже само появление специальной олимпиады и подобного треша в казалось бы технической и даже околонаучной области - знак того что все скатывается не туда.

Аноним 01/02/24 Чтв 20:32:23 #382 №633260

>>628658 (OP)
Нейросеть, посоветуй, как украсть и не сесть в тюрьму?

Аноним 01/02/24 Чтв 20:34:17 #383 №633263

>>633260
Стать депутатом.

Аноним 01/02/24 Чтв 22:09:41 #384 №633310

>>633050
Ты раскрыл себя, чел. =)
Я спросил про квант, какой взять.
Раньше Q5_K_M был хуже, но теперь его жмыхает меньше, разрыв между Q6 и Q5_K_M уменьшился.
Как квантовал автор я не знаю, спросил, получил ответ. Вот и все.
А у тебя опять шиза разыгралась, ты стал путать, говорить о братишке, который спросил (я и спросил), спрашивать про таблички (в репале тебе была ссыль на табличку), и посылать меня туда, куда тебе самому бы лечь полежать.
Без негатива, пей таблеточки, ложись в больничку, приходи в себя. Добра тебе. =)

Аноним 01/02/24 Чтв 22:13:53 #385 №633313

14309768574811.jpg

https://huggingface.co/liuhaotian/llava-v1.6-mistral-7b

Это можно ли как то на кобольде запустить или угабуги? Что то у меня одними ошибками сыпит.

Аноним 01/02/24 Чтв 22:18:04 #386 №633316

>>633151
Во всем или не во всем, но в общем выигрывает, да.

>>633189
> Слишком жирно, даже ЖПТ-4 меньше.
Кайф, инсайдеры в треде, рассказывай. =)

>>633215
> По заявлениям и околооффициальным данным он меньше.
А можно ссылочку?

>>633242
Ну так вроде, речь не о турбе.

>>633251
> Т.е. то что в лидерах сидят гопота и клауда - это пиздеж и хуёвый тест?
Конечно, гопота же 20B, околоофициальные данные, камон.

Аноним 01/02/24 Чтв 22:19:25 #387 №633320

>>633313
Ну что ж, вот это можно и попробовать!
Убабуга может, но ограниченно и с командами, насколько я помню. multimodal pipeline и только некоторыми загрузчиками.

Аноним 01/02/24 Чтв 22:20:30 #388 №633323

Котаны, какая моделька из больших самая умная?

Аноним 01/02/24 Чтв 22:23:26 #389 №633330

>>633323
Гопота 4

Аноним 01/02/24 Чтв 22:23:28 #390 №633331

aa.png

>>633320
https://colab.research.google.com/github/oobabooga/text-generation-webui/blob/main/Colab-TextGen-GPU.ipynb

Вот допустим на колабе тут запустить? Но я получаю эту ошибку.

Аноним 01/02/24 Чтв 22:26:12 #391 №633334

>>633330
Из локальных

Аноним 01/02/24 Чтв 22:44:25 #392 №633347

>>633242
>8x20B - это вполне реальные цифры, если судить по тому что сейчас могут 34В от васянов.
Какой-то коупинг размером с галактику.
>>633242
>кроме слов самих французов
А что тебе ещё надо?
>>633260
Укради сладость у ребёнка. Меня вот до сих пор не посадили, украл 24 года назад!

Аноним 01/02/24 Чтв 22:46:50 #393 №633350

>>633347
> А что тебе ещё надо?
Так это тот чел ныл что французы пиздят про устаревшую модель. Это надо у него спрашивать что ему не хватает.

Аноним 01/02/24 Чтв 23:01:34 #394 №633377

0.png

>>633350
Вы тут совсем запутались в ментальной эквилибристике и кто чего подразумевает.

Хватит чтобы покумить?

Аноним 01/02/24 Чтв 23:04:44 #395 №633386

>>633377
Ты как собрался кумить с 0.5 т/с? Пока ждёшь ответа уже можно передёрнуть на что-то другое.

Аноним 01/02/24 Чтв 23:06:08 #396 №633389

>>633386
>Ты как собрался кумить с 0.5 т/с?
8 т/с, позвольте.

Что-то неочень

Аноним 01/02/24 Чтв 23:09:06 #397 №633395

2.png

А может и очень даже очень
как вы с этой капчей живете

Аноним 01/02/24 Чтв 23:13:17 #398 №633399

>>633331
Я не шарю за коллабы, и мне лень вспоминать как она на убабуге запускается. В свое время, когда я хотел запустить на ней, у меня не вышло (я тупил с запускаторами), а когда разобрался — уже гонял из под жоры.
Для старой команды нужно было в CMD_FLAGS.txt дописать --multimodal-pipeline llava-v1.5-13b, например.
И если я помню, это работает только на llama.cpp и еще чем-то (может AUTO-GPTQ?), я не нашел таблицу поддержки сходу.
Но, правда, я не шарю за коллабы, сорян.

>>633347
> А что тебе ещё надо?
Да, пф, всего лишь слова разрабов!
То ли дело околоофициальная инфа о размере чатгопоты. =)

// Не, конечно, разрабы могут пиздеть, но тут у них нет особой причины. Ну слили альфу и слили, она чуть лучше Llama-2, но не супер, как бы и пофиг. Признали и признали. Ни жарко, ни холодно, по большей части.

>>633377
> 138 layers
> TRUNCATION 4096
Ну… ) Если только быстро. ;)

Аноним 01/02/24 Чтв 23:14:16 #399 №633400

>>633395
> Но у все все равно ничего не получится-ня!
Всхрюкнул.

Аноним 01/02/24 Чтв 23:18:23 #400 №633405

r.png

3.png

4.png

>>633399
>Если только быстро. ;)
Не беспокойся, хватит надолго

Какие забавные тут аполоджайзы. Но буквально забор в чистом поле. Сраные очепятки, модель умнее пользователя.

Аноним 01/02/24 Чтв 23:21:58 #401 №633408

>>633313
Простой путь запуска - дефолтный через трансформерс что расписан, если нехватает vram - добавь with torch.no_grad(), load_in_8bit и подобное.
Чуть ложнее но эффективнее - с помощью ванильной llamacpp, переводишь модель в gguf порезав на llm и проектор, и с помощью server(.exe) крутишь, есть суперминимальный веб-гуи и нормальный api.

Можно и через убабугу, сам поищи мануалы.
Тебе для каких задач надо?

Аноним 01/02/24 Чтв 23:27:46 #402 №633413

8.png

Позитивный bias, но если исправить опечатку в хозяине то отвечает охотно и без аполоджайзов.

> позволяю себе сесть ему на голову

Аноним 01/02/24 Чтв 23:41:52 #403 №633419

9.png

Локальный клод 1 с порезанным контекстом, может даже лучше.
Закупайтесь P40 или чем поновее, q3 (он всетаки похуже) может влезть в 3 штуки.
Может инициативные ребята и 70тку вытащат до возможности обучения или вдруг сами выложат, Vive la France!

В таверне с рп форматом отлично работает.

https://huggingface.co/alpindale/miquella-120b-gguf

Аноним 01/02/24 Чтв 23:44:31 #404 №633420

>>633413
>>633419
Выглядит как говно, если честно. Даже 7В в такие идиотские простыни сможет.

Аноним 02/02/24 Птн 00:11:34 #405 №633437

>>633420
Ну конечно. 7б уже давно научились работать с промтом полностью на русском языке и сразу на нем же отвечать без подсказок. Могут выполнять серию задач на воспоминания, отыгрыш, совмещение различных областей, не потеряв очередность и не улетев в шизу. Умеют долго хранить ранние указания и в более менее художественное повествование на великом и могучем без запредельной концентрации надмозгов. Хорошая и четкая работа без регулярных вылетов потрохов ###instruction: user personality: perverted
Хотя точно же, клода ведь давно была побеждена, тогда неудивительно.

Аноним 02/02/24 Птн 00:18:15 #406 №633442

P40-куны, скажите, а что, на ней питание — обычное процессорное? Можно воткнуть 8-pin и все, будет работать? Полярность та же?
Или обязательно использовать переходник комплектный?

>>633437
> 7б уже давно научились работать с промтом полностью на русском языке и сразу на нем же отвечать без подсказок.
Ну да, я мистраль 2 так и юзаю.

> воспоминания, отыгрыш, совмещение различных областей, не потеряв очередность и не улетев в шизу

Да.

> более менее художественное повествование
Более — точно не сможет. Очень менее.

> Хорошая и четкая работа без регулярных вылетов потрохов ###instruction: user personality: perverted
Естественно.

У Мистраль 0.2 проблемы только с какими-то специфическими словами на русском и персонажами — она их попросту не знает.

А так, вполне соответствует тому, что ты написал.

В скриншоты особо не вглядывался.

Ясное дело, что именно так 7B не сможет, но и тут шедевра пока не видно, ИМХО.

Ты давай за коннектор ответь, может знаешь. =)

Аноним 02/02/24 Птн 00:25:13 #407 №633450

>>633442
>>630895

Аноним 02/02/24 Птн 00:30:18 #408 №633452

>>633450
Спасибо! У модульного биквайта проблем с коннекторами нет. Ща попробую подключить напрямую.

Аноним 02/02/24 Птн 00:30:42 #409 №633453

>>633442
> Ну да, я мистраль 2 так и юзаю.
Кажется мы это не так давно уже на "стриме" видели. Действительно работает идеально и нет никакой разницы, а лезущий каждое 4е сообщение системный промт был очень кратко написан на русском.
Ну рили кмон, я ж специально его скачаю и покажу что там все грустно. Офк требовать подобного от 7б модели при текущем уровне развития - глупо, за то что они умеют уже надо благодарить и восхищаться.
> но и тут шедевра пока не видно
Тут речь не про шедевры а про сами возможности, чсз за все время ни разу не потребовался реролл. Пожалуй, одна из первых моделей с которой можно полностью рпшить или что-то делать на русском языке с высоким перфомансом, пониманием и без заметной деградации. Хотя может деградация и есть но не заметна.
> Ты давай за коннектор ответь, может знаешь. =)
>>630895
Сразу же ответил, берешь удлинитель 8pin eps, например погугли CA-8P-04, и подключаешь с его помощью. Если у бп разъем не раздваивается а совсем отдельный - можешь напрямую, там именно он. Но если там не чистый 8пин а 4+4, то на некоторых карточках может не влезть, там в корпусе узкая прорезь под защелку - просто юзаешь переходник.

Аноним 02/02/24 Птн 00:35:24 #410 №633454

>>633453
> просто юзаешь переходник
Удлинитель офк. Самый простой, любители игросральных "красивых" корпусов помогут обеспечить любые разъемы.
Накрайняк сгоняй на барахолку, набери жгутов от модульных бп и сам спаяй нужное.

Аноним 02/02/24 Птн 00:58:29 #411 №633466

>>633453
Там был контекст 256 и макс_токен 64. =) Ну это ж не пример.

> Пожалуй, одна из первых моделей с которой можно полностью рпшить или что-то делать на русском языке с высоким перфомансом
А чем лламы-2-70Б были плохи? РПшить не умели? Русский они держали хорошо.
Ну, не знаю, может с остальным были проблемы, окей, я их использовал как ассистентов в краткой серии вопрос-ответов.

Ладно, это у тебя 120B в видяхе, хули я выебываюсь, может на практике она и правда воспринимается иначе, чем я по диагонали по текстам пробежался.

———
Короче, я почитал доки, мой БП выдает 12V*21А=252 ватта по линии проца. Решил не рисковать и не ужиматься в одну линию, и подрубил переходником все же. Зато две линии по 26 ампер (пусть она их и поделит со второй видяхой).

Спасибо за советы, буду знать, что можно и на проц вещать. =)

Аноним 02/02/24 Птн 01:08:33 #412 №633472

1590232620762.png

1694180701284.png

>>633453
> я ж специально его скачаю и покажу что там все грустно
Ладно, оно превзошло ожидания, с брата Вана, легкого ланча машины и амд-терапии хорошенько проиграл, такой-то _soul_.
Веса фп16 без квантов, семплинг simple-1, действительно никакой разницы.
Разбирая по частям - с русским уныло (хотя по сравнению с тем что было в голой лламе 7б этот просто полиглотище). Някать иногда забывает, от Чоколы там нет и следа, хотя если спросить модель на инглише - их хорошо знает. По заданию все выполнено, это плюс, хотя в деталях ерунда. За сцену секса - просто выдает какой-то дефолт вообще не относя к контексту, буквально нет ничего про персонажа и все крайне абстрактно. Достаточно типичное поведение для 7б мистралей и их файнтюнов. Это офк лучше чем просто ловить затупы и поломки как на старых моделях когда они не понимали, ведь формально запрос выполнен а качество в сделку не входило. Собственно дефолтный мистраль, модель будто понимает свои лимиты и пытается в их пределах отвечать, но чудес там никаких нет.
>>633466
> Там был контекст 256 и макс_токен 64.
Не смертельно, хотя вот если бы туда входил какой-нибудь рофловый суммарайз на 64 токена - это был бы номер. При должном исполнении можно почти что угодно норм приподнести, там как раз можно рофлить с алиэкспрессного перевода. Добавить ей мемов про нефритовый стенжень, ВЕЛИКИЙ XI и МОЩНЫЙ YI ТЕКСТОВЫЙ МОДЕЛЬ 6 МИЛЛИАРД НАСЕЛЕНИЯ, и сидеть проигрывать.
> РПшить не умели?
С горем помолам могли, любой мистраль из коробки лучше рпшит чем сравнимая ллама (кроме мое разве что).
> Русский они держали хорошо.
Не начинает отвечать на русском если не запросить, может указать что не знает русский и потребовать писать на инглише, плохой слог, деградация перфоманса - если в инглише ощущаешь что 70б то при попытках играться на русском оно быстро деградирует чуть ли не до 13б. На файнтюных некоторых с этим лучше, но всеравно. Тут просто такого по ощущениям действительно нет. Голиафа стокового не тестил, возможно там тоже все лучше.
> мой БП выдает
Что за бп? Если примерно современный и сечение проводов позволяет то можно вешать, тем более в ллм они поменьше потребляют и использование не 100% времени.

Аноним 02/02/24 Птн 01:09:28 #413 №633473

Попробовал погонять видяшку в Cougar Duoface Pro (не осуждайте), температура начинает сбрасываться на 55° по ядру и 65° по хотспоту. До них почти не падает.
Так же подогревает 4070 ti, которая выше.

По ваттам выдала 185 максимум, что хорошо.

Блиц-вывод: P40 не такая горячая в текстовых, но и продувать кулером на 1100 оборотов ее явно не выйдет. =D

Опыт и тест, она рабочая.

Уф, ну можно и вторую брать, а то вон, у кого-то три штуки, а я бомжую.

Аноним 02/02/24 Птн 01:12:55 #414 №633474

>>633472
BeQuiet Straight Power 11 850W Gold.
Да по идее 185 видяхи + 65 ватт проца вполне уместится в 252 ватта по линии проца и еще с PCIe Slot частично будет браться.
Но и рисковать не хочется. =)

Аноним 02/02/24 Птн 01:21:13 #415 №633481

>>633473
> погонять видяшку в Cougar Duoface Pro
Просто голую на том что продуют корпусные вентиляторы? Там же вообще почти не будет потока через нее.
> а то вон, у кого-то три штуки, а я бомжую
Не стоит на всяких фриков ориентироваться, может он чужие поназанимал для теста. если тебе показать дальнюю/труднодостижимую перспективу - станет легче или наоборот?
На паре p40 можно комфортно нормально катать большие модели. Жора llamacpp починил, комбинация p40 с более новыми карточками будет работать прилично и даже шустро.
>>633474
> BeQuiet Straight Power 11 850W Gold
Правильно, на pci-e вешать смело. Если перегрузить линию CPU то есть риск поплавить 8пиновый разъем в самом бп.

Аноним 02/02/24 Птн 05:34:10 #416 №633552

пресс R ту релоад

Аноним 02/02/24 Птн 05:49:04 #417 №633554

Какая же сетка 7b базовая. оч приятно когда собирают годный датасет. Еще датасет чайной нашел. Пока эти унди-хуюнди мержат лиму норм поцы делают норм мейду и чайную.

Аноним 02/02/24 Птн 11:11:50 #418 №633657

Продублирую тут research тред какой то мертвый.

Подскажите зачем столько фреймворков на обучение lit-gpt, EasyDeL, PEFT, ну и другие просто десятки разных вариантов.

Второе как все таки что то обучить на tpu в коллабе, ведь там как я понял допотопные драва на TPU, jax новый не работает, другие библиотеки пробовал тоже косяки они хотят TPU VM, в коллабе его нет.

Аноним 02/02/24 Птн 12:23:58 #419 №633684

ggufs-quants-can-punch-above-their-weights-now-v0-tss15o4gi1dc1.webp

>>633395
Сразу нахуй, бесполезная хуйня не знающая лора самой лучшей кошковселенной в игровой индустрии.
>>633405
>ходязином
Чел...

Аноним 02/02/24 Птн 12:53:32 #420 №633694

>>633684
> бесполезная хуйня не знающая лора самой лучшей кошковселенной в игровой индустрии
Мистралем добро не назовут
> Чел...
Не трясись

Аноним 02/02/24 Птн 13:39:06 #421 №633717

А вы зарабатываете этой хуйней, или ради чего ваще этот шум весь?

Аноним 02/02/24 Птн 13:59:52 #422 №633732

>>633717
Да, в дискорде продаём курсы по локальному кумингу. Деньги такие себе, но 10к баксов есть в месяц, лохи пока доятся.

Аноним 02/02/24 Птн 14:03:20 #423 №633734

>>633732
крууууууууто!!!
тоже хочу за беслпатно хуйней в интернет страдать

Аноним 02/02/24 Птн 14:07:32 #424 №633736

>>633734
Ну так ты забесплатно и страдаешь. Тебе ж никто не платит.
Пришел к успеху, получается.

Аноним 02/02/24 Птн 14:23:18 #425 №633744

>>628658 (OP)
Поясните отличия методов квантования.
Зачастую пишут:
Q5_K_S large, low quality loss - recommended
Q5_K_M large, very low quality loss - recommended
Q6_K very large, extremely low quality loss
Q8_0 very large, extremely low quality loss - not recommended

Насколько существенна разница между Q5_K_M и Q6_K? Есть ли смысл использовать Q8_0, или они будут работать медленнее (где-то читал такое) при неощутимом выигрыше в качестве?

Аноним 02/02/24 Птн 14:33:28 #426 №633747

>>633744
>Q5_K_M и Q6_K
Вот картинка со сравнением перплексити на старом и новом методе квантования gguf.
Положняк для сравнительной оценки такой: q2 параша, q8 лютая база.

Аноним 02/02/24 Птн 17:31:59 #427 №633846

Почему контекст так ебет перформанс?

Аноним 02/02/24 Птн 17:37:32 #428 №633857

>>633846
Потому что Жора.

Аноним 02/02/24 Птн 17:37:43 #429 №633858

>>633846
Потому что нужно провернуть весь фарш входящих данных через всю нейронку, очевидно же.

Аноним 02/02/24 Птн 18:09:54 #430 №633885

>>633736
так и ты постишь хуйню в интернете за бесплатно, сечешь?

Аноним 02/02/24 Птн 18:10:01 #431 №633886

>>633846
Вот этот господин >>633857 прав, особенно актуально если выгружена только часть слоев.
Если вышел за лимит контекста в таверне то каждый раз оно будет полный обрабатывать, были решения чтобы эту проблему сгладить.

Аноним 02/02/24 Птн 18:12:25 #432 №633887

>>633886
> были решения чтобы эту проблему сгладить.
Расскажи подробнее?

Аноним 02/02/24 Птн 18:30:11 #433 №633892

Суммарайз, вектора или кхрома?
Все вместе выдает кашу.

Аноним 02/02/24 Птн 18:56:51 #434 №633909

>>633885
Иронично, что если бы кто-то из нас работал на фабрику троллей, то это было бы не так.

Аноним 02/02/24 Птн 18:59:29 #435 №633910

image (2).png

Вот скачал я кобольда, накачал моделей всяких, работает, прикольно. Но вижу в других тредах, что хвалят клауда2. А клауда локально нельзя скачать? И вот эти модели с хаггинфейса это что вообще, чьи они?

Аноним 02/02/24 Птн 19:24:56 #436 №633920

>>633910
> А клауда локально нельзя скачать?
Можно, разрешаю.

Аноним 02/02/24 Птн 19:40:51 #437 №633925

Чет мне начинается казатся что мин п режет креативность даже на малых значениях

Аноним 02/02/24 Птн 20:32:13 #438 №633947

>>633925
А ты температуру в 4 поставь.

Аноним 02/02/24 Птн 20:38:07 #439 №633949

>>633947
Ща попробую

Аноним 03/02/24 Суб 01:34:40 #440 №634077

А цфг скейл вообще рабочая тема? Я проверял вроче чето делает, но не знаю сколько выставлять.

Аноним 03/02/24 Суб 02:20:52 #441 №634092

>>630764
>анценсоред
>>dolphin
Это не она разве?

Аноним 03/02/24 Суб 02:46:49 #442 №634099

>>634077
Нужен прежде всего для негативного промта, он работает. Ставь 1.5 как рекомендуют.

Аноним 03/02/24 Суб 11:57:33 #443 №634226

>>634099
А там как в примере делать "так пиши так не пиши" или можно че угодно?

Аноним 03/02/24 Суб 13:22:33 #444 №634263

>>634226
Там ты даешь инструкции которые не должны выполняться. Но можешь попробовать и что-то другое, отпиши по результатам.

Аноним 03/02/24 Суб 14:16:36 #445 №634282

fialka.jpg

>>632731
Спасибо за гуф! Сильных отличий от оригнальной rugpt особо не заметил за короткий тест.

Сперва тестил при температуре 1.0 и ужаснулся от количества языковых ошибок, затем понизил до 0.75 и все стало практически идеально, ошибок практически нет. Но проблемы оригинала остались - периодически путает персонажа и юзера, забывает историю, противоречит себе, выдет лишние подписи к диалогу.

А еще на скрине мой эксперимент от другой модели - просьба каждый раз давать ответ в 3-х предложениях. Изначально тестил с микстралем на русском, может и тут тоже дало бонус.

Аноним 03/02/24 Суб 14:36:43 #446 №634287

>>634282
> 87
Смысла в таких тестах чуть меньше чем нисколько.
Слог печальный с постоянным повторением слов и короткими предложениями. Хотя в качестве отыгрыша типикал [] пойдет, очень похоже.
> просьба каждый раз давать ответ в 3-х предложениях
> в имени персонажа
В чем космический эффект такой постановки?

Аноним 03/02/24 Суб 14:55:15 #447 №634293

>>634287
Микстраль на русском давал очень короткие ответы без данной конструкции в середине и конце контекста. И в итоге, скатывался к однообразным ответам уровня "Я не знаю, может быть." С данной установкой ответы стали длиннее, не не перестали быть скучными.

Аноним 03/02/24 Суб 15:00:08 #448 №634294

>>632366
>Алсо даже к нищукам боги благосклонны

Пха! Нищуки на процессорах и оперативках гоняют йоба модели, которые пользователям 3070ti и не снились. Просто есть ТУПЫЕ нищуки, которые на своих престарелых затычках пытаются модели гнать, вместо того, что бы перекатиться в cpu+озубогизм

Аноним 03/02/24 Суб 15:02:41 #449 №634296

15864289923820.jpg

>>634294
>1 токен в секунду.

Аноним 03/02/24 Суб 15:07:37 #450 №634300

>>634294
Двачую, прямо сейчас запущен mixtral-8x7b-instruct-v0.1.Q8_0.gguf чисто на CPU, жрет 54 гига RAM. 3060 отдана на генерацию картинок в SDXL для иллюстрации сюжета + xtts тоже на GPU.

Аноним 03/02/24 Суб 15:12:25 #451 №634302

>>634296
Отправляешь email своей модели, она тебе отвечает через день.

Аноним 03/02/24 Суб 15:23:28 #452 №634309

>>634296
0,7, попрошу!

>>634300
Ну это база, кстати.
Там 3 токена/сек должно быть, полагаю.

Аноним 03/02/24 Суб 15:24:50 #453 №634312