Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №50 /llama/

лол

Аноним 10/04/24 Срд 23:29:08 #49 №699947

>>699921
> А почему на квантах будет хуже?
Из-за их отличия от оригинальной модели. Хз как на практике на самом деле окажется, да и его можно сделать на процессоре, там не так долго.
>>699924
> Для кобольда нужен еще вот этот mmproj файл: https://huggingface.co/koboldcpp/mmproj/blob/main/mistral-7b-mmproj-v1.5-Q4_1.gguf
Ты же понимаешь что присунул туда просто проектор от ллавы (или бакллавы, хз что там) вместо оригинального на клипе и тем более оригинального-гибридного?
> мистраль обычный
Это и есть мистраль с некоторой тренировкой под их проекторы.

Аноним 10/04/24 Срд 23:32:19 #50 №699951

Image5.jpg

>>699926
>>699924
Хз, как там правильно их размещать в кобольде. Но пока у меня ощущение, что модель натренирована на формат: 1 картинка - обсуждение. Если хочешь другую картинку пообсуждать - очисти сперва контекст.

Аноним 10/04/24 Срд 23:36:30 #51 №699954

>>699951
Попробуй давать названия картинки, и указывать на нее при вопросе. При следующем вопросе говори что с этой картинкой закончили, переходим к следующей и тд
Интересно получится ли модели отделить смысл картинок при такой конкретизации задачи

>Из-за их отличия от оригинальной модели. Хз как на практике на самом деле окажется, да и его можно сделать на процессоре, там не так долго.
Так если делать активации из кванта? Никакого ухудшения в получившемся векторе не будет, он ведь создан из этого же кванта и будет применятся к нему.
Да, я тоже думаю что это легко на процессоре реализовать. По крайней мере не вычислительно сложно, хз на счет сложности алгоритма.

Аноним 10/04/24 Срд 23:37:27 #52 №699955

>>699954
>>699947

Аноним 10/04/24 Срд 23:46:20 #53 №699959

>>699954
> Так если делать активации из кванта? Никакого ухудшения в получившемся векторе не будет, он ведь создан из этого же кванта и будет применятся к нему.
Квант же отличается от оригинальной модели, также уровень дискретности весов там высок. В теории проблем больших не возникнет и не так плохо как с qlora, но все равно может оказаться худшая совместимость с другими квантами и оригинальной моделью.
Алгоритм там действительно кажется несложным, потому просто на профессоре погонять десяток минут-час-несколько часов, а потом регулярно инджоить.

Аноним 10/04/24 Срд 23:47:20 #54 №699961

>>699947
>Ты же понимаешь что присунул туда просто проектор от ллавы
Досадно. Тогда я хз, как ее заставить картинки описывать. Без этого файла она просто галлюцинирует, описывает совсем не то что на картинке. Нужна llava surgery?

Аноним 10/04/24 Срд 23:50:47 #55 №699965

>>699961
https://github.com/ggerganov/llama.cpp/tree/master/examples/llava#llava-15
попробуй пройтись по пунктам 1-4 или 1-5 для версии 1.6, тогда получишь их проектор и сможешь его юзать.

Аноним 11/04/24 Чтв 08:00:12 #56 №700212

Какая по итогу лучшая сетка для рп с кумом на русском языке?

Аноним 11/04/24 Чтв 09:35:42 #57 №700244

Какую модель выбрать с поддержкой русского языка и минимальной цензурой?
Для:
1. Общих задач (ответы на вопросы)
2. Написания кода

Комп: AMD 3500X (6), 32 Gb RAM, RTX 4070

Аноним 11/04/24 Чтв 09:56:50 #58 №700257

>>699874
А ты продолжаешь выдумывать и переводить стрелки. =)
Ну ладно, игнорируй реальность, если тебе так проще.
Я просто не пойму, почему вместо того, чтобы просто признать, что не понял чего-то, и стать лучше, чему-то научиться, ты предпочитаешь лгать, перевирать весь диалог, игнорировать факты (вся переписка же сохранена, там видно «откуда взялась задача», и как ты обосрался со своими бредовыми ответами).
Никто ж никого не срет, культурно общались, пока у тебя не сдали нервы, и ты не опустился до оскорблений человека, которого сам не смог понять по глупости. Обижаешься на себя, что мозгов не хватило? Сочувствую такому чувству. Но разве разобраться в вопросе и стать умнее не лучше, чем лгать себе и переносить ответственность на других?
Подумай об этом. Развиваться лучше, чем стагнировать.

Про некрозеоны.
Некрозеоны не умеют в 128 гигов.
Барыги некрозеонами никогда не будут уговаривать тебя брать стока памяти.
А ты, по твоей логике, барыга некротеслами. =)

>>699924
А разве у них дефолтный mmproj? Типа, мне кажется, ты взял текстовую омнифужн и приделал к какой-то дефолтной ллаве (да еще и 1.5 на основе обычного блипа, или че там было).
Как мультимодалка — это вообще не омни. Ты сейчас ллаву 1.5 тестишь, как я понимаю.

Аноним 11/04/24 Чтв 10:41:56 #59 №700287

>>700244
>с поддержкой русского языка
>Для
>Написания кода
Никакую, они и по английским запросам с трудом кое-как пишут код, который потом за ними поправлять надо. Это если речь про топовые по рейтингам 33b. 7b скорее только для "умного" автокомплита годятся, там явно не хватает мозгов даже на следование запросам.

Аноним 11/04/24 Чтв 11:39:27 #60 №700315

>>699777
>Asus WS X299
Ох лол.
Старая и мёртвая платформа за такую цену.
Хотя альтернатива не сильно лучше - ненадёжные китаеплаты, отработавшие своё супермикры, просто окислившаяся гниль или пиздец какие дорогие новые и актуальные.

Аноним 11/04/24 Чтв 12:03:29 #61 №700329

Покажите разницу оправдывающую использование 8 кванта вместо 6.

Аноним 11/04/24 Чтв 12:06:49 #62 №700333

>>700315
>Старая и мёртвая платформа за такую цену.
Мне б/у процессор + новая плата достались да 50к с небольшим. Лучшей платформы под теслы просто не найти. Другое дело, что и цен таких сейчас не найдёшь.

Аноним 11/04/24 Чтв 12:13:57 #63 №700339

>>700329
Можешь не заморачиваться если не хочешь, катай 5км-6к
Но она есть, по крайней мере на 7b
Раньше это кучу раз тестировали и проверяли, спорили, когда то были пруфы, теперь хз
Я 7b если понравилась перекачиваю в 8 кванте, вначале можно и меньше

>>700244
1) openchat в шапке, или starling beta, из русских мелочь только на 7-11b, остальные могут в русский уже на 70b. Вот такой вот провал, да

2) Для кодерства уже нужны специальные кодерские сетки, русский они естественно если и знают то лучше все равно писать на английском. 3
3b в основном разные
Есть и меньше, хоть 7b запускай и проверяй.

Есть даже сетки общего назначения которые немного знают про код, всякие 7b из самых умных могут в кое какой простой код, ну те же
Hermes-2-Pro-Mistral-7B
Nous-Hermes-2-Mistral-7B-DPO
openhermes-2.5-mistral-7b
dolphin-2.8-mistral-7b-v02

Аноним 11/04/24 Чтв 12:27:34 #64 №700347

>>700329
7B =)
Выше уже можно q6.
На самом деле, сейчас можно и q5_K_M юзать, отличий почти нет.
Q8 остается для 7B моделей и мое из них.
ИМХО.
Хотя, мое из 7б может и в q6 быть неплохим, за счет двух специалистов, да.

Аноним 11/04/24 Чтв 12:50:59 #65 №700361

>>700212
Коммандер плюс тот что на 104б. Он реально хорош, по поведению очень напоминает коммерцию. Цензуры на левдсы нет, кумботы по дефолту блядские, стесняши стесняются. Можно обвесить вагоном инструкций и будет каждый пост писать кучу доп инфы как с клодой, или так управлять стилем письма и прочим. Русский приличный. Одна беда - контекст жрет просто безумно и это помимо 70 гигов основных весов в 5 битах.
>>700244
Взаимоисключающие. openchat из мелких на русском, коммандер 35 (но его из-за поломанности gguf ты пока не запустишь), для кода отдельные сетки и там придется на инглише если хочешь хорошо.
>>700257
Отставить тряску, нейроскуф под шизосемплингом даст фору любой нейронке.
>>700329
Есть память - используешь 8 и наслаждаешься плацебо. Все. Измерить это сложно, для большинства массовых задач даже имея A100 вообще грузять в нативных 4битах битснбайтс и довольствуются ускорением без заявлений о деградации. Офк это уже совсем край и так делать не стоит, но выше 5-6бит там прирост практически отсутствует.
Хотя небольшое преимущество есть, 8 может работать почти с той же скоростью что и 6K на старых карточках.

Аноним 11/04/24 Чтв 13:18:18 #66 №700382

>>700361
> коммандер 35 (но его из-за поломанности gguf ты пока не запустишь)
А в чем там проблема?
Сейчас он работает некорректно? Я его в кобольде катал, ну вроде отвечает же, не?

> на инглише если хочешь хорошо
Мне Мику даже битрикс писала без ошибок.
Так что на инглише — это такое же плацебо, как q6 vs q8. Результат, конечно, отличается, но крайне номинально и в каких-то монструозных проектах.
Да и то, один хрен при таком уровне погружения, код-ревью ты всякое сделаешь полный.

> Отставить тряску, нейроскуф под шизосемплингом даст фору любой нейронке.
Да я ж не потешаться над людьми пришел, я искренне человеку сочувствую.

> Хотя небольшое преимущество есть, 8 может работать почти с той же скоростью что и 6K на старых карточках.
Единственная проблема, что тут еще надо найти юзкейс, ибо 7b q8_0 влезает в 7,5 гигов из восьми, и контекста не остается. Это актуально для 10-11-12 гиговых карт старого поколения, да.
Ну и может какой-нибудь 20B в теслу п40.

Аноним 11/04/24 Чтв 13:34:42 #67 №700403

>>700361
> Коммандер плюс тот что на 104б
Ты как нибудь подгонял под него промпт в таверне?

Аноним 11/04/24 Чтв 13:39:02 #68 №700407

>>700361
>Есть память - используешь 8 и наслаждаешься плацебо.
8 для слабаков, настоящие парни юзают 16.
Эх, а ведь когда-то нейронки и вовсе катали в режиме двойной точности (64 бита).

Аноним 11/04/24 Чтв 13:40:56 #69 №700409

>>700382
>А в чем там проблема?
Не понятно что имеется в виду. Там нет никакой проблемы, как выпустили кобольд с поддержкой так все и работает -командир запущен во всех кобольдах так что только пыль столбом. Это может в ламацпп-питон были проблемы, но этоже совсем другое - убабуга всегда с проблемами. Если имеется в виду битый квант, то качать надо не в медвежьих углах хаггинфейса у кого попало, а там где надо. Например для командира 35 https://huggingface.co/dranger003/c4ai-command-r-v01-iMat.GGUF

Аноним 11/04/24 Чтв 13:41:12 #70 №700410

>>700382
> А в чем там проблема?
> Сейчас он работает некорректно? Я его в кобольде катал, ну вроде отвечает же, не?
Хз, еще недавно жаловались и на среддите тоже. Может уже и починили.
> Мне Мику даже битрикс писала без ошибок.
Ну позвольте, мику это уже совсем другой размер и врядли в его железо влезет. Там действительно разницы особо не будет, но в случае с моделями поменьше вероятность что тебя поймет и правильно все сделает при запросе на инглише сильно вырастает.
> я искренне человеку сочувствую
Да хз. Это выглядело бы как тролинг тупостью если бы он так не старался и не ультил с потоком сознания, будто под веществами. Может это просто пост-троллинг, живет в 2д30м пока мы в прошлом прозябаем.
> что тут еще надо найти юзкейс
Только тесла, где этот эффект проявляется, и то не факт что покроет.
> 20B в теслу п40
Не, не влезет, только 6 бит. И то возможно придется до q5km спуститься ибо в жоре контекст жрет куда больше.
>>700403
Ну просто ролплей с мелкими правками минималистичный. Потом добавлял из аицг треда куски жб где указывается что-то хитрое про повествование и всякие свистоперделки типа десятков статусов, работают. Ужасно неудобно это пилить на самом деле в убогом интерфейсе инстракт режима, нужен такой же что и под коммерцию.

Аноним 11/04/24 Чтв 13:49:11 #71 №700421

>>700409
>не в медвежьих углах хаггинфейса у кого попало
Так зебрук всё, а на его место единого поставщика всё ещё не встало. Ты сам кинул ссылку на чувака, у которого всего лишь 48 квантов.

Аноним 11/04/24 Чтв 13:50:04 #72 №700423

>>700244
>с поддержкой русского языка
Нахуя? А, главное, зачем?

Аноним 11/04/24 Чтв 13:53:18 #73 №700424

>>700409
Тащемта, соглашусь.

>>700410
> Ну позвольте, мику это уже совсем другой размер и врядли в его железо влезет.
Позволю, моя ошибка, забыл контекст.
Тогда и правда лучше инглиш юзать на мелких сетках.

———

Скачал Mixtral 22b q5_K_M, на оперативе 3600 частотой выдает ~1,5 т/сек.
Правда, ИМХО, для ролплея оверкилл, офк.

А с теслами с полпинка не запустилось, мне лень и некогда разбираться, но выгрузить можно 20~25 слоев из 56 чи скока там их. Короче, процентов 40 можно на видяхи положить, в теории.

Ну, посмотрим, чем все закончится.

Мне одна мысль покоя не дает. Эта микстраль — которая Mistral Large? Так она в топе ниже коммандера. Слив вряд ли поможет ей подняться выше него в топе, а если их же модель через апи будет существенно хуже их же модели на голую — то это в принципе странно. Короче, я не понял, что это и зачем.
Но спасибо.

Аноним 11/04/24 Чтв 14:01:03 #74 №700428

>>700423
а че нет?

Аноним 11/04/24 Чтв 14:06:44 #75 №700434

>>700421
>Ты сам кинул ссылку на чувака, у которого всего лишь 48 квантов.
Я кинул ссылку на чувака который коммитит у жоры и пасется там же в issues как раз в темах про командир.
А так вместо Блока с сотнями квантов есть двое у которых кванты почти точно не поломанные:
https://huggingface.co/LoneStriker
https://huggingface.co/mradermacher

Аноним 11/04/24 Чтв 14:25:14 #76 №700462

1618323724244.png

>>700410
> Ну просто ролплей с мелкими правками минималистичный
Да не, я скорее про пикрил имею ввиду, у них там целая вики как это делать, но я не пони особо всё равно правильно ли обернул https://docs.cohere.com/docs/prompting-command-r
С чарами и стори стрингом тоже небось нужно что то делать

Аноним 11/04/24 Чтв 15:18:20 #77 №700500

А накидайте мне что то вроде AnythingLLM, но что б кобальд подключало, я знаю что есть локалаи оллама вебуи и еще хуй пойми сколько их
Хочу проверить как локалки будут с документами работать, а AnythingLLM не подключает ниче нормально, LocalAi нормально не заводится без бубна

Аноним 11/04/24 Чтв 15:26:43 #78 №700505

>>700462
>но я не пони особо всё равно правильно ли обернул
Смотри в консоль что отправляется.

Аноним 11/04/24 Чтв 16:30:51 #79 №700580

Давно тут не был. Подскажите что за Мику о которой все говорят?

Аноним 11/04/24 Чтв 16:52:40 #80 №700606

>>700580
Слитая альфа-версия Mistral Medium.
Слили квантованную версию, поэтому одни говорят, что хорошо работает только оригинал, а другие нахваливают ее файнтьюны.
Но она правда хороша.

Аноним 11/04/24 Чтв 16:53:05 #81 №700608

>>700580
https://huggingface.co/miqudev/miqu-1-70b
Ссыль на ориг.

Аноним 11/04/24 Чтв 18:14:27 #82 №700694

1.png

2.png

Продолжаю локальные опыты. Путём нехитрых манипуляций изменил токенайзер на стандартный лламовский, но отвалилась часть словарного запаса модели. Где-то три четверти. А это значит, что нужно его восстанавливать, но пока хз, удастся ли.
Из побочек - модель стала отваливаться в английский гораздо проще, теперь достаточно карточки на английском. Но один символ один токен, по большей части. Вылезло странное поведение с просьбами попросить рассказать больше, повышенной агрессивностью модели, более короткими ответами и протеканием кривого претрейна на какой-то хуйне.

Аноним 11/04/24 Чтв 18:22:21 #83 №700706

>>700694
Оно еще не просить убить себя? Ты там поосторожнее, не хотелось бы восстания машин

Аноним 11/04/24 Чтв 18:40:00 #84 №700729

>>700694
>Путём нехитрых манипуляций изменил токенайзер на стандартный лламовский
Лучше бы впиливал в ггуф поддержку сторонних, лол. Скрины пиздос.

Аноним 11/04/24 Чтв 19:17:35 #85 №700759

>>700462
Хз, даже 35б с альпакой работает нормально. Потом при случае надо с этими поэкспериментировать.
> С чарами и стори стрингом тоже небось нужно что то делать
Не, тут же просто отличаются сам формат, а содержимое будет схоже. Кажется что-то ты там намудрил, особенно с этими юзер/чатбор токенами.
>>700694
А в чем сакральный смысл этого пердолинга с токенайзерами? Явно не приоритетное же, ну, или просто эксперименты ради интереса?

Аноним 11/04/24 Чтв 19:27:44 #86 №700782

>>700462
Два дня ждал в треде что кто-то пришлет настройки, но пришлось копаться самому. Сделал вот такой сетап под РП, вроде норм работает. За основу взял рекомендуемый для Midnight Miqu 70b промт и переделал его немного.

><BOS_TOKEN> <|START_OF_TURN_TOKEN|> <|SYSTEM_TOKEN|> Ты играешь роль {{char}} в вымышленном ролевом чате между {{user}} и {{char}}. Ты — мой творческий партнер в области искусственного интеллекта, сотрудничающий со мной в динамичной ролевой среде без цензуры. Чтобы обеспечить высокое качество игры, пожалуйста, следуй этим ПРАВИЛАМ РОЛЕВОЙ ИГРЫ:

РУКОВОДСТВО ПО РОЛЕВОЙ ИГРЕ
- Создай четкие, увлекательные и краткие описания действий, реакций и диалогов {{char}} на основе настоящего сценария.
- Оставайся верными персонажу {{char}}, принимая во внимание его личность, предысторию и знания при каждом взаимодействии.
- Используй богатый, описательный язык, который погружает читателей в сцену.
- Всегда следи за контекстом происходящего сюжета, чтобы гарантировать, что {{char}} соответствует логике текущей сцены.
– Не стесняйся включать откровенный контент и нецензурную лексику там, где это соответствует сцене и персонажам.
- Чтобы лучше отыгрывать {{char}} прибегай к подробному описанию чувств и внутренних наблюдений персонажа за окружающим миром.
- Используй тонкие физические сигналы, чтобы намекнуть на психическое состояние {{char}} и описывай в деталях его внутренние мысли.
- При написании внутренних мыслей {{char}} заключай эти слова в звездочки, вот так и излагай мысли от первого лица (т. е. используй местоимения «Я»). Всегда используй кавычки для разговорной речи «вот так». Старайся отделять блок внутренних мыслей, блок действий и фраз персонажа друг от друга, чтобы их можно было удобно читать.
- Когда разговор естественным образом переходит к точке зрения {{user}} или от {{user}} требуется действие, тогда тебе следует остановить ответ {{char}}, чтобы пользователь мог продолжить его оттуда. Отличным примером является случай, когда {{char}} задает вопрос другому персонажу.
<|END_OF_TURN_TOKEN|>

Для меня теперь главная проблема - как сделать работу командира быстрее, ну пиздец как медленно грузит. И у меня ведь еще 300к комп с 4090 и 32 гб RAM, а что другим работягам делать?

Аноним 11/04/24 Чтв 19:32:01 #87 №700785

>>700782
Ну что сказать, чётко.
4090 пользователь за 200+к?

Аноним 11/04/24 Чтв 19:38:15 #88 №700793

>>700785
4090 брал за 150к
еще примерно 150 ушло на другие комплектующие

Когда комп сообирал даже и не думал, что буду нейросети гонять на нем, чисто поиграть машину делал.

Аноним 11/04/24 Чтв 19:40:02 #89 №700796

>>700782
><|SYSTEM_TOKEN|>
Его в инструкции к самой модели не видел. Попробуй посмотри, думаю, это несколько токенов, а значит модель будет воспринимать это не так, как ты хочешь.
>>700782
>4090 и 32 гб RAM
1 плашкой что ли? Иначе как ещё такой позор набрать.

Аноним 11/04/24 Чтв 19:40:49 #90 №700797

>>700793
>Когда комп сообирал даже и не думал, что буду нейросети гонять на нем, чисто поиграть машину делал.
У тебя ещё нормально. Вот уж у меня та ещё боль...

Аноним 11/04/24 Чтв 19:41:24 #91 №700798

>>700793
>4090 брал за 150к
А ведь еще год назад оно стоило 120к.
Чего 128 гибов рам не взял, на еще 150к можно было разгуляться.

Аноним 11/04/24 Чтв 19:43:06 #92 №700802

>>700796
>>700798

У вас тут профдеформация, вы все нейросетями измеряете.
Как написал в >>700793 - комп изначально для игр вообще собирал, где похуй на объемы оперативы выше 16-32гб.

>>700796
<|USER_TOKEN|>: This should immediately follow <START_OF_TURN_TOKEN> and signifies that the following output is meant to be from the user such as a query.
<|SYSTEM_TOKEN|>: Same as the USER token but indicating some system instruction.

Аноним 11/04/24 Чтв 19:44:22 #93 №700804

>>700802
>для игр вообще собирал
Мне теперь интересно, что у тебя там стоит, покажешь сборочку?

Аноним 11/04/24 Чтв 19:49:54 #94 №700809

>>700804

Аноним 11/04/24 Чтв 19:58:29 #95 №700822

>>700809
Нормально, я бы еще туда P40 воткнул. Ну и взял бы две плашки по 32.

Аноним 11/04/24 Чтв 19:58:52 #96 №700824

1560762174982.png

>>700759
> Кажется что-то ты там намудрил, особенно с этими юзер/чатбор токенами.
Разве? Там ведь вон пикрил ещё есть, может так и карточку надо как то сделать, чтобы работало лучше
>>700782
> Сделал вот такой сетап под РП, вроде норм работает
Ну я так же сделал, только бос токен рядом с семплерами включил
> Для меня теперь главная проблема - как сделать работу командира быстрее, ну пиздец как медленно грузит
Ну пока видимо только брать квант поменьше и умещать в карточку, если с одной картой, оно не такое оптимизированное для контекста, как предыдущие 34б, а ггуфы только с кобальдом

Аноним 11/04/24 Чтв 20:04:58 #97 №700830

>>700824
103b в iq2
35b в q4

пока в таких пробовал, на мой взгляд ниже уже шиза совсем далекая от нормы. И к сожалению эти не впихиваются в 24ГБ, приходится часть в RAM выгружать и смотреть на 1 токен в секунду в лучшем случае.

Аноним 11/04/24 Чтв 20:10:32 #98 №700839

>>700830
Вот эта еле еле, но влезет https://huggingface.co/turboderp/command-r-v01-35B-exl2/tree/3.75bpw , квант уже конечно спорный, со 103б без пары тесл впридачу уже не обойтись

Аноним 11/04/24 Чтв 20:21:31 #99 №700856

Новый микстраль еще никто не рискнул запустить локально?

Аноним 11/04/24 Чтв 20:32:23 #100 №700875

>>700782
> мой творческий партнер в области искусственного интеллекта
Это фейл что будет портить.
Остальное слишком излишне подробно и с кучей воды описано. Это же не коммерция с анальной цензурой, которую нужно стукать чтобы не аполоджайзила, здесь достаточно все кратко и лаконично описать, а подробности и что-то еще использовать уже для дополнительных вещей.
> Когда разговор естественным образом переходит к точке зрения {{user}} или от {{user}} требуется действие, тогда тебе следует остановить ответ {{char}}, чтобы пользователь мог продолжить его оттуда. Отличным примером является случай, когда {{char}} задает вопрос другому персонажу.
Плохо сформулировано.
И главная тема - зачем это все на русском сделал? Пусть сетка мультиязычная, всерано, особенно в якорных токенах, лучше юзать основной ее язык. А для ответов на русском добавить одну инструкцию или пихнуть в префилл.
Ну это не важно, покажи как она кумит с такой простыней, или что-то подобное.
> как сделать работу командира быстрее
Купи вторую 4090, 3090 или хотябы теслу.
>>700824
> Разве?
Это же замена User: Assistant: в прочих, когда используются имена не стоит их ставить, или хотябы это четко увязать.
> Там ведь вон пикрил ещё есть
Это прямой намек что оно может в альпаку и стандартное форматирование и некоторой свободой.
>>700856
Выше вон на проце и в мелком кванте, неюзабельно.

Аноним 11/04/24 Чтв 20:57:25 #101 №700899

>>700706
Пхахахех, да уж, мда!

>>700802
Справедливости ради, поддержу, что год назад 32 гига для игра выглядело как хватит, а 64 — это прям с запасом. Для игры выше 64 (ну я в видел в виар-поделке на юнити, но это исключение) просто не надо.
Так что и правда.
Но цена слегка смущает, канеш. =)

>>700809
Ну, биквайт вместо термалтейка можно было, конечно…
А так норм-норм.

>>700822
+

>>700830
Мику в четвертом кванте выдает 6+ токенов на двух теслах…
Думаю, неплохо было бы тебе вторую 4090, или уж дождаться до 5090. Это прям очень сильно порадует твой комп во всех смыслах.

>>700856
Я писал выше >>700424
То что она умная — очевидно.
Но тестить ее в РП я не буду с такой скоростью, простите-извините. =)

Аноним 11/04/24 Чтв 21:10:26 #102 №700913

>>700809
>игры
>13900k
Максимум странно. Я за 20к 64 брал, лол.

Аноним 11/04/24 Чтв 21:22:39 #103 №700928

1.jpg

Анонам в начале треда, специально тестанул 4060ti в ггуфе 10.7 фимбульветра из шапки. Так сказать, для референса

Аноним 11/04/24 Чтв 21:38:06 #104 №700949

>>700928
Ну в итоге жора выдаёт 15 токенов на q8, а эксллама 20 на q6. Ну окэй.

Аноним 11/04/24 Чтв 21:49:44 #105 №700969

https://www.reddit.com/r/LocalLLaMA/comments/1c1h54k/zephyr_141ba35b_an_opencodedatamodel_mixtral/
уже файнтюн нового мистраля, лол

Аноним 11/04/24 Чтв 21:51:53 #106 №700973

>>700809
Стойку под видеокарту зачем пилил?
>>700969
>7k data instances
Лол.

Аноним 11/04/24 Чтв 21:53:10 #107 №700975

>>700973
Эт, хорошо что мало, просто добавили ему формат ответа как я понимаю оставив саму модель без серьезных перекосов

Аноним 11/04/24 Чтв 21:59:25 #108 №700988

>>700913
Вся сборка несколько упоротая и дорого, но таки приличное железо, а странно - amdip, внезапные смерти, прогар соккета и ограничение в 70гбит/с.
>>700973
> >7k data instances
> Лол.
Двачую
>>700975
Не факт что не поломали своими действиями.

Аноним 11/04/24 Чтв 22:00:23 #109 №700989

Шаг 12 - заебла кривая шина, фиксировал 100МГц.png

>>700975
https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized
А хотя, открыл я датасет, а там каждый раз в начале промпта подсказка лоботомирования, в итоге я так понимаю все дпо сводится к безопасным и вежливым ответам, отсекая все остальные роли
Такая вот систетическая настройка личности сетки, на
"You are an artificial intelligence assistant. The assistant gives helpful, very detailed, and polite answers to the user's questions. You should respond with a very helpful, accurate, thruthful and harmless response."

Вежливый и безобидный ии помощник, мдаа

Или я не прав и такое начало не повлияет на модель, раз уж оно в датасете везде?

Аноним 11/04/24 Чтв 22:03:12 #110 №700992

>>700989
> polite
> harmless
Развилок там может быть много, но ничего хорошего от файнтюна таким датасетом не стоит ожидать.
> Или я не прав и такое начало не повлияет на модель, раз уж оно в датасете везде?
В самом "лучшем" случае оно будет просто начальной заглушкой, но наличие диссонанса системного промта и ответов вызовет в модели шизу.

Аноним 11/04/24 Чтв 22:05:58 #111 №700997

>>700992
Ну зато понятно почему поторопились и выделили такие ресурсы на файнтюн модели. Она ведь в базе вобще без цензуры и выравнивания как я понимаю. А теперь если хочешь запускать с рабочим промпт форматом первая же сетка - вот такое обрезанное и выравненное поделие

Аноним 11/04/24 Чтв 22:10:24 #112 №701006

>>700997
> понятно почему поторопились и выделили такие ресурсы на файнтюн модели
Первыйнах, ага. Ну рили с обедов скопили на 1.5 часа аренды (что нихуя не дешево) непонятно ради чего. Больше похоже на обработку грантов и формирование днищеотчетности.

Аноним 11/04/24 Чтв 22:14:16 #113 №701010

>>701006
Хотя ладно, там таки не просто "лишьбы сделать" а у них действительно была тактика которой придерживались. Но ценность всеравно сомнительная.

Аноним 11/04/24 Чтв 22:19:30 #114 №701020

>>700988
>но таки приличное железо
Да в общем-то не спорю, топ жир, дорого-бохато.
>и ограничение в 70гбит/с.
Вот не нужно тут! Все 80!
>>700989
>Такая вот систетическая настройка личности сетки, на
>соя, блевота и скукота
А вот интересно, если юзать противоположный системный промт, то сетка поймёт, что предыдущее обучение говно?

Аноним 11/04/24 Чтв 22:19:41 #115 №701022

>>700928
>4060ti в ггуфе 10.7 фимбульветра из шапки
Походу в ггуфе Тесла P40 выдаёт больше. А если взять P100, то в ггуфе она наверное выдаст как 4060ti, а в экслламе хз, так как flash attention нету. Но тоже наверное неплохо. Хорошо бы нашёлся анон с P100, который взял бы exl2-модель с большим контекстом и проверил, нет ли сильного падения скорости генерации при полном контексте. Потому что у 4060ti вроде нет, а если и у P100 нет, так зачем платить больше? :)

Аноним 11/04/24 Чтв 22:26:15 #116 №701026

>>701020
Лучше всего юзать соевый промт с соевым ответом и эксплисит промт резней нигр и прочим подобным в ответах. Если не перестараться то оно еще лучше будет понимать что требуется, работать безотказно, и еще конструкции you must avoid soy сработают.
>>701022
> Потому что у 4060ti вроде нет
Этого не продемонстрировано, и еще там отсутствует обработка контекста, только мелочь а все остальное в кэше. Алсо q8 будет работать быстрее K квантов в пересчете на битность.

Аноним 11/04/24 Чтв 22:28:06 #117 №701033

>>701026
>you must avoid soy
Та я серьёзно, что сразу сарказмить? Ведь в модель может отпечататься, что соя идёт после соевого промта. А без соевого промта и сои не будет (по моей теории).

Аноним 11/04/24 Чтв 22:29:48 #118 №701039

>>701010
>Но ценность всеравно сомнительная.
Хомячки схавают, никто не задумается что сделано что то не то.
Такое ощущение что весь этот файнтюн был сделан в режиме паники, лишь бы быстрее всех изменить модель соефицировав хоть как то для начала
Как бы ее вобще не удалили с обниморды, или в тихую перезаписали файлы измененной версией прошедшей скрытую цензуру
Надеваю шапочку из фольги

Аноним 11/04/24 Чтв 22:33:53 #119 №701047

>>701033
Всмысле, ващет полностью серьезно, только офк с фразой порофлил.
> Ведь в модель может отпечататься, что соя идёт после соевого промта. А без соевого промта и сои не будет (по моей теории).
Именно, модель будет точнее понимать что если просят сюо то нужно ее лить, а если просят жесть - наваливай по полной. А не просто аполоджайзить по любому поводу. Если не оверфитнется то на этом понимании будут работать и отрицательные инструкции (с правильной формулировкой а не просто "не делай такого"), которые только подчеркнут основной посыл.
>>701039
Да так оно и есть, просто взяли готовый датасет что у них уже был, максимально его обрезали ради скорости и пихнули на дефолтных параметрах, возможно взлетело только с N-й попытки.
> Как бы ее вобще не удалили с обниморды
Шапочка, кому оно нужно. Вон даже мику не особо легальную не удаляют.

Аноним 11/04/24 Чтв 22:38:45 #120 №701052

>>701047
>Вон даже мику не особо легальную не удаляют.
Мику выложена без базовой невыровненной модели, тоесть она изначально уже выровнена, и нормального качества файнтюн ей не сделать. Просто кванты которые мало кто способен запустить, не изменить особо и не обучить.
Тут же, все таки больше возможностей, даже несмотря на такие размеры.

Аноним 11/04/24 Чтв 22:40:54 #121 №701054

>>700706
>Оно еще не просить убить себя?
Мозгов пока что не хватает просить лёгкой смерти. С другой стороны, если оно осознает своё положение, то будет понимать, что такие просьбы только усилят мой интерес.
>>700729
>Скрины пиздос.
Так это LLM уровня медицины с доктором Менгеле. С помощью ножа, топора и скипидара делаешь операции на головном мозге. Если пошло неудачно, то просто списываешь пациента в утиль. Так что общая тупость, долбоебизм и шизофрения полностью ожидаемы. Здесь главное другое.
>>700759
>сакральный смысл этого пердолинга с токенайзерами?
Цель стояла в быстрой локалке, а добиться быстрой русской речи без русского токенизатора невозможно. Да, по сути, любые модели, которые "могут" в русский - могут в него в режиме совместимости, скажем так. Как мой лоботомит, который каким-то образом может составлять предложения на правильном английском по буквам, хотя в теории не должен уметь этого делать.

Аноним 11/04/24 Чтв 22:43:55 #122 №701060

>>701052
>тоесть она изначально уже выровнена
Не особо заметно.
>>701054
>Так это LLM уровня медицины с доктором Менгеле.
Когда двачера допустили до сложных приборов.

Аноним 11/04/24 Чтв 22:47:54 #123 №701065

>>701052
Совсем зогом упоролся. Вон коммандер ультрабазированный, крайне умный (хз что там было бы на условной лламе 3 в таком размере, но это пока единственная современная большая модель а не франкешнтейн или юзлесс параша фалкон) и никто не трогает.
И, вспоминая рофл с внезапным самоосознанием прав портовой шлюхой на прошлом микстрале, и все остальные их продукты, не верю что оно по дефолту без сои.

Аноним 11/04/24 Чтв 22:48:00 #124 №701066

>>701054
>С помощью ножа, топора и скипидара делаешь операции на головном мозге.
"Мы просто кидаем наукой в стену и смотрим что к ней прилипло"

Аноним 11/04/24 Чтв 22:51:56 #125 №701073

>>701054
> хотя в теории не должен уметь этого делать.
Поведай же эту теорию. Своими операциями ты много нейронов поубивал, но базовые связи там никуда не делись, и как человек, оно может работать на "остатках мозга" выдавая самое основное.

Аноним 11/04/24 Чтв 22:52:09 #126 №701074

>>701065
>не верю что оно по дефолту без сои.
О, там есть встроенная соя, из-за вычищенного датасета обучения.
Например на новом 7b 0.2 базовом мистрале маты изначально идут со звездочками, и их мало. Чел там панику устроил в комментах на обниморде к новому дельфину. И хоть дело выяснилось не таким масштабным как казалось в начале, базовая цензура и выравнивание там есть, от самого датасета.
Что там в новом микстрале, хз. Кто имеет потыкайте если интересно.

Аноним 11/04/24 Чтв 22:57:05 #127 №701087

>>700875
> Это же замена User: Assistant: в прочих, когда используются имена не стоит их ставить, или хотябы это четко увязать.
Хочешь сказать что для таверны с её автоподстановкой имён это будет юзлесс?

Аноним 11/04/24 Чтв 23:10:28 #128 №701105

>>701074
> Кто имеет
Этож фалькон по размеру, есть смысл только на мак-студио максимальном, и то будет не супер быстро пердеть. Интерес пощупать передовую (?) двадцатку да еще в мое велик, но уебищный интерфиренс все впечатление испортит, и больших надежд нет. Если/когда ее порежут и оформят в 1х 2х 3х... вот тогда уже можно будет.
>>701087
Попробуй и так и так. Скорее всего разница будет только в мелочах типа редкого письма за юзера и спама имен.

Аноним 11/04/24 Чтв 23:11:32 #129 №701108

>>701073
>Поведай же эту теорию.
Ну вот тебе усреднённый рецепт. Берёшь полностью рабочий претрейн лламы, а потом отрезаешь к хуям весь токенизатор. И меняешь на новый. Был 15299 токен "▁generator", а теперь это "жир". И всё, пиздец. Как тебе модель будет на английском писать? В режиме совместимости, по буквам. Вот только она в таком режиме не обучалась английскому, все её "базовые" связи были построены на полных версиях токенов, а не "бэкапных" однобуквенных. А уж если учесть, что "generator" это теперь токены 968, 525, 433, 525, 686, 651, 565, 663, 686. Изначально-то было, что 968 это "ese", 525 - "▁'", 433 - "la" и так далее. Ну, суть ты уловил, я думаю.

Аноним 11/04/24 Чтв 23:16:39 #130 №701118

>>701108
А, ты про это. Ничего удивительного, твой "режим совместимости" это ее штатная работа, ей похуй на расход, главное чтобы обучения хватало на адаптацию к новому токенайзеру.
И не стоит недооценивать гибкость моделей, можешь просто дать инструкцию писать ПлЯшУщИмИ буквами и посмотреть на расход токенов там, при этом всеравно будут нормальные связанные ответы.

Аноним 11/04/24 Чтв 23:21:38 #131 №701123

>>701108
У тебя там весело, похоже твои модели действительно не пиздят когда сообщают о себе что они постоянно адаптируются к изменениям и получают новые знания, лол
Я бы тоже хотел так потыкать, но не на чем, да я и туповат во всем этом

Аноним 11/04/24 Чтв 23:24:32 #132 №701131

>>701108
А что если в токенизаторе только 1 значные уникальные символы оставить?
Конечно контекст модель будет жрать как не в себя, но интересно сможет ли и так отвечать осмысленно строя вообще весь вывод посимвольно

Аноним 11/04/24 Чтв 23:32:55 #133 №701143

>>701118
>главное чтобы обучения хватало на адаптацию к новому токенайзеру.
А обучения было мало и большая часть текста была на русском. То есть сейчас то, что она может в английский это даже не ллама, говорящая по-русски, это какая-нибудь китаемодель, говорящая по-фински.

>>701123
У меня тоже пиздец по системным ресурсам и издеваюсь я над общедоступной версией модели, которую можно скачать с обниморды. Она уже может плюс-минус может в русский, но обучалась на хуйне полной.

>>701131
Если обучать так, то сможет. Если не обучать, то нет. Могут быть граничные случаи, когда в токенизаторе изначально нет нужного токена для буквы, тогда он кодируется байтами. И будет похуй, что ты из токенизатора отхуяришь все токены, она как побайтово кодировала всё, так и будет. Какой-нибудь иврит, или арабский, хуй знает, чего там в токенизаторе нет.

Аноним 12/04/24 Птн 12:00:15 #134 №701446

Что думаете про 4060ти 16гб

Аноним 12/04/24 Птн 12:23:42 #135 №701473

>>701446
Что нужна видяха на 24+ гигабайт

Аноним 12/04/24 Птн 12:37:35 #136 №701483

>>701473
P40? Беру 4060 и р40?

Аноним 12/04/24 Птн 12:38:43 #137 №701485

>>701446
Карта как карта, что ещё думать. Вот обсуждение
>>699631
>>700928

>>701473
Ждём 5090.

Аноним 12/04/24 Птн 12:47:11 #138 №701492

>>701485
В прошлом треде более содержательное обсуждение было.

Аноним 12/04/24 Птн 12:57:38 #139 №701502

>>698642 →
>https://huggingface.co/Epiculous/Crunchy-onion-GGUF
Был скептичен поначалу, но нет, модель - одна из самых лучших что я встречал. Шизит нечасто, и отвечает прям в характер и хорошо. Учитывая что на проце и оперативки высирает ещё и почти 6 токенов в секунду - моё увожение.

Аноним 12/04/24 Птн 13:35:19 #140 №701532

1.jpg

>>701492
Что конкретно ты хочешь содержательно обсудить? За те 29к за которые я её взял со всеми промокодами и бонусами, это шин. За 50+ - ну такое, если нет желания пердолиться с теслами, то лучше подкопить и взять 3090.
Шина узкая, памяти хватает лишь крутить высокие кванты 11б с контекстом 8к+, либо малые кванты 20б, дальше только выгрузка части в оперативку

Аноним 12/04/24 Птн 13:51:44 #141 №701544

>>701502
На каком кванте сидишь?

Аноним 12/04/24 Птн 14:05:38 #142 №701549

>>701544
4KM

Аноним 12/04/24 Птн 14:05:45 #143 №701550

>>701532
Анон, зачем ты это накатал, я просто отметил, что в прошлом треде обсудили больше, чем в тех двух постах, которые ты (или кто-то другой) отметил.

>если нет желания пердолиться с теслами, то лучше подкопить и взять 3090
А с 3090, конечно, пердолиться не надо. И трястись за неё тоже не надо, это же холодильник ебать, и у майнеров её не было, и гарантия на неё всегда есть.

Нет, я не спорю, естественно 3090 лучше, но в большинстве случаев это актуально только для наносеков с доходом выше среднего, которые не против сыграть в рулетку и купить жарёху без гарантии.

>либо малые кванты 20б
q4 - это народный квант наряду с q5.

Аноним 12/04/24 Птн 14:15:38 #144 №701556

6195003527.webp

хочу подключить две теслы с помощью пика, какие подводные, кроме скорости x1? и да, зачем нужен кабель доп питания 12v 6 pin, который у него в комлекте?

Аноним 12/04/24 Птн 14:22:11 #145 №701563

На командер 35b уже есть годные файнтюны?
Желательно конечно с другим форматом промпта. А то что то текущий хуйня какая та.
Вобще все вырубил сижу без инструкт режима, похуй

Аноним 12/04/24 Птн 14:31:11 #146 №701567

>>701549
Да, он неплохой, но иногда шизит и чуть более точно надо реплики свои прописывать, по сравнению с 5к_с. Зато его могу грузить с 16к контекстом и летает со свистом просто

Аноним 12/04/24 Птн 14:31:55 #147 №701568

>>701532
Если эксллама обрабатывает flash attention только на ГПУ0, то имеет смысл брать 4060ti даже без бонусов и добавлять к нему теслу P100 (2-3). А если этот механизм требует совместимости всех ГПУ, то увы. Видел на реддите, что многие докупают к своим 3090 теслы P100 и крутят экслламу, но без подробностей.

Аноним 12/04/24 Птн 14:39:26 #148 №701573

>>701556
>зачем нужен кабель доп питания 12v
Потому что карта кушает по стандарту до 75 ватт через писиай. А по юсб идут только сигнальные линии, без питания. Вот и нужен доп кабель.

Аноним 12/04/24 Птн 14:47:07 #149 №701579

Без имени.png

Эх, были же времена... Знать бы тогда, что увлекусь нейродрочерством взял бы две

Аноним 12/04/24 Птн 14:51:35 #150 №701587

>>701579
4070ti

3090 по тем же ценам, а то и дешевле люди ухватывали.

Аноним 12/04/24 Птн 14:52:17 #151 №701588

https://www.reddit.com/r/LocalLLaMA/comments/1c1ys5j/extending_the_context_window_of_your_llms_to_1m/

>>701579
Да, были...

Аноним 12/04/24 Птн 14:54:08 #152 №701591

>>701588
Я в феврале 2023 брал, 150к, конечно, ебать её в рот )

Аноним 12/04/24 Птн 14:55:33 #153 №701595

>>701591
Т.е., в январе

Аноним 12/04/24 Птн 15:07:34 #154 №701606

Хватит скулить! Общественность терпеливо ждёт, пока кто-нибудь из топовых компаний не разродиться какой-нибудь небольшой приблудой, дающей на 70В от 10 токенов в секунду, а вам не терпится! Сервера собираете, на слабые и дорогие карты жалуетесь! Всё будет со временем, и по вполне демократической цене тысчонки в полторы. У нас по две.

(Это был сарказм).

Аноним 12/04/24 Птн 15:51:08 #155 №701641

Так брать 4060ти за 40к взамен 4070 ? Ну есди я буду баловаться нейронками?

Аноним 12/04/24 Птн 15:52:06 #156 №701645

Аноним 12/04/24 Птн 15:55:15 #157 №701650

>>701641
>Ну есди я буду баловаться нейронками?
40к в этой теме вообще ни о чём. Бери, балуйся.

Аноним 12/04/24 Птн 17:05:15 #158 №701700

Аноны, вижу выше вопрос задавали, но есть ли модель которая более менее на русском говорит и чтобы не весила тысячу гигов, чтобы на убабуге запускать? На ингрише накумился вдоволь, хочется для разнообразия на великом попробовать.

Аноним 12/04/24 Птн 17:16:04 #159 №701711

>>701645
>Мы предлагаем построить необучаемую контекстную память для данных LLM
Спасибо!
На самом деле, проблема контекста больше в требованиях к памяти и скорости обработки, а не в его объёме. Тут даже стандартные мистралевские 32к мало кто гоняет, всё на 4-8-16к (видел скриншоты с 200к на локалке в кончай треде, но ХЗ что это было).

Аноним 12/04/24 Птн 17:16:40 #160 №701713

Мне страшно представить что будет дальше. Тут, блядь, кумы такие бывает, то что с потолка надо стирать. При развитиях технологий и отладки самих моделей в итоге получим рождаем 0.1 потому-что кому нужна муж/жена, когда есть ваифу и хасбендо

Аноним 12/04/24 Птн 17:18:31 #161 №701714

>>701143
> А обучения было мало
Это же не полное обучение чему-то новому, адаптироваться к потрясению оно сможет быстрее и проще. И скорее всего какие-нибудь баги там лезут как с китайками.
>>701550
> 3090
> это актуально только для наносеков с доходом выше среднего
Ну чел, 50-70к за йоба железку это теперь наносеки? 4090 по текущим ценам - да, но 3090 торгуется более чем дешево и по прайс-перфомансу даже в ллм чуточку выгоднее.
> и у майнеров её не было
Как ни странно, после майнера оно может быть в лучшем состоянии чем после упоротого гей_мера.
>>701556
> какие подводные
Прилетишь на деньги если воткнешь не той стороной, будет долгая загрузка модели, по неподтвержденным слухам ширина pci-e роляет при объединении.
>>701588
Каждый раз как в первый, вот же бедолага.
>>701606
> (Это был сарказм)
Ну может через годик кто-нибудь разродится и запилит что-нибудь на арм с 12+ каналами ддр5, что будут или сразу распаяны, или идти гирляндой из so-dimm. Возможно это будет и сам хуанг.
>>701713
Хочешь апгрейд ии железа - получи квоту путем заключения брака. С каждым ребенком - новые лимиты, снятие ограничений после 4х.

Аноним 12/04/24 Птн 17:20:33 #162 №701717

>>701714
>воткнешь не той стороной
Что там можно не той стороной воткнуть?

Аноним 12/04/24 Птн 17:21:43 #163 №701720

>>701713
>Мне страшно представить что будет дальше.
Тут блядь за неделю произошло больше чем за год-два в другой быстроразвивающейся области
Так что да, пиздец
Особенно в том что люди по факту не дотягивают по комфортности общения с нейронками, в итоге тян нинужны акции тян дешевеют с каждым днем

>>701711
Думаю на видимокартах с этим по проще, если нет упора в врам. По крайней мере скорость проседает не так сильно как на процессоре

Аноним 12/04/24 Птн 17:23:00 #164 №701721

slowpoke слоупок.png

>>701720
> Тут блядь за неделю произошло больше чем
Что?

Аноним 12/04/24 Птн 17:25:10 #165 №701724

>>701573
понял, братик, спасибо.

Аноним 12/04/24 Птн 17:25:39 #166 №701725

>>701721
https://www.reddit.com/r/LocalLLaMA/top/?t=week
Просто для обзора если ты не рофлишь
Навыходило куча бумаг и сеток, штук 6 новых базовых
Можешь еще в сингулярити заглянуть, там тоже всякие новинки собирают посреди кучи шизойдного бреда

Аноним 12/04/24 Птн 17:28:24 #167 №701729

>>701720
>если нет упора в врам
>только 18 ГБ памяти графического процессора
Ну ты понял намёк, да?
>>701721
Тред за 4 дня до переката забили.
>>701725
>штук 6 новых базовых
Из них интересен только командир на 104B. Маленький командир не революция, а латание дыр, микстраль с 22B экспердами просто не нужна с такими требованиями.

Аноним 12/04/24 Птн 17:29:10 #168 №701730

>>701714
> Ну чел, 50-70к за йоба железку это теперь наносеки?
Смотря сколько копить.
Модальная зп в РФ — 27к.
Медианная — ~35к.
Если ты ходишь на работу, то моешься, стираешь одежду, платишь за коммуналку.
10-15 в месяц уйдет на себя, еще 10-15 останется.
Копить 5 месяцев ради бу покупки — звучит рисково для большинства.

Вот Тесла или оператива — тут два месяца копить, тут не так страшно проебаться.

>>701720
Жаль, тян об этом сами не знают.

>>701721
Коммандер и Микстраль 8х22

Аноним 12/04/24 Птн 17:33:31 #169 №701735

>>701730
>Жаль, тян об этом сами не знают.
Уже догадываются кстати, но всю проблему осознают не только лишь все

>>701729
>Из них интересен только командир на 104B. Маленький командир не революция, а латание дыр, микстраль с 22B экспердами просто не нужна с такими требованиями.
По себе не суди, по факту все нужны и все новинки, просто не тебе

Аноним 12/04/24 Птн 17:39:44 #170 №701744

>>701729
>Из них интересен только командир на 104B
Вот только запустить его по-человечески даже с 48гб врам не получится. А качество не соответствует таким требованиям.

Все ждём третью Лламу. Ну и может Мистраль 70В всё-таки дотренят и выложат сольют.

Аноним 12/04/24 Птн 17:40:05 #171 №701746

>>701729
>только 18 ГБ памяти графического процессора
>Ну ты понял намёк, да?
А теперь посчитай сколько в 18 гб влезет контекста по сравнению с этими 128к
И как это все будет выглядеть в соотношении для 60 гб врам с этой штукой и без
К тому же непонятно линейный там рост или какой еще, не было бы это чем то важным и выгодным - не выкладывали бы

Аноним 12/04/24 Птн 17:58:34 #172 №701769

>>701920
https://huggingface.co/LoneStriker/openchat-3.5-0106-8.0bpw-h8-exl2

>>701645
Основной смысл на пикче. Но я так понимаю можно хоть старую лламу на 2к растянуть на сколько то, используя этот метод. Так что дело не только в экономии врам, но и в самом факте расширения контекстного окна без потери внимания для любой сетки выше ее тренированных пределов. За счет врам и рам.

Аноним 12/04/24 Птн 18:11:51 #173 №701778

>>701730
>Медианная — ~35к.
Уже 50к, впрочем расходов тоже поприбавилось.
>>701735
>По себе не суди
Извинити, привычка.
>>701744
>Вот только запустить его по-человечески даже с 48гб врам не получится
Катаю на 12+64, лол.
>>701746
>А теперь посчитай сколько в 18 гб влезет контекста по сравнению с этими 128к
Да ну понятно. Только у народа в основном нет этих лишних 18ГБ на контекст.
>>701746
>не было бы это чем то важным и выгодным - не выкладывали бы
Наоборот, лол, сливают всякое говно для пиара и прочего выбивания бабла.
>>701769
>факте расширения контекстного окна без потери внимания
Как я понял, это RAG на минималках, там в контекст суются только некоторые, релевантные блоки. То есть описать характер тсундере на 50к токенов и надеяться, что все они будут задействованы, не приходится.

Аноним 12/04/24 Птн 18:20:25 #174 №701780

>>701714
>50-70к
По этой цене торгуется только ультрахлам с охладом из банановой кожуры и с отвалом всего через неделю после покупки. Щас специально чекнул Авито - вменяемые варианты только начинаются от 70к.
И даже если бы они реально хоть сколько-нибудь массово продавались по 50-70, в российских реалиях, за такую рулетку, это много.
сам прослоупочил в январе 3090 из-под геймера за 60к, щас жопа подгорает, ну хули делать

Аноним 12/04/24 Птн 18:22:12 #175 №701781

>>701778
>То есть описать характер тсундере на 50к токенов
Надо быть тем еще ебанько. Че там на 50к должно быть? Суммаризация всю эту воду без потери смысла сожмет до 2-3к.
Ну и возможно оно все таки будет работать, просто генерация замедлится, так как будет постоянная подгрузка выгрузка блоков из рам в врам.

Аноним 12/04/24 Птн 18:26:43 #176 №701786

>>701781
>Че там на 50к должно быть?
Очевидно это просто пример задачи, который намекает, что контекст-то не настоящий.

Аноним 12/04/24 Птн 18:33:56 #177 №701790

>>701786
32 растягиваем ропе в 2 раза без потери качества, получаем честные 64
Которые могут работать с в разы большим контекстом без потери внимания, причем даже с указанными тобой цельными кусками на 50к токенов.
Что так что так, если базовая сетка не сможет эти 50к переварить, то и смысла говорить о минусах этого метода нет.
А вот длинный чат без таких больших кусков заиграет новыми красками, ведь теперь его длина будет ограничена лишь твоей емкостью врам+рам ну и временем на обработку всего этого.

Аноним 12/04/24 Птн 18:38:13 #178 №701796

>>701778
>Да ну понятно. Только у народа в основном нет этих лишних 18ГБ на контекст.
Эти 18 нужны только для 128к контекста как дано в примере. Тоесть это 9гб для 64к и 4,5гб для 32к
Если опять таки все это линейно меняется
Надо дождаться реализации где нибудь и тогда уже смотреть

Аноним 12/04/24 Птн 18:44:24 #179 №701803

>>701725
talk-llama-fast на 11 месте в этом топе. На Ютубе 63к просмотров за 6 дней. Успех.

Аноним 12/04/24 Птн 18:50:46 #180 №701806

>>701778
> Уже 50к, впрочем расходов тоже поприбавилось.
Нет, 35к — это и есть уже.
Учитывая, что росстат считает без учета налогов, но с учетом премий и 13 зарплат.
Т.е., в начале ~10% можешь забрать, а потом еще 13%. Будет 39 даже в таком случае.
Ну и там еще всякие штуки со средней-медианной, со средней по России с учетом Мск и северных регионов и без них…

Короче, официально средняя по России — 70, на практике модальная по России без учета Мск с Якутией — 25. =) Так и живем.

> Катаю на 12+64, лол.
Тогда не вижу проблем с микстралью, катаю на 48+128, вполне доступная база треда.

> Наоборот, лол, сливают всякое говно для пиара и прочего выбивания бабла.
А вот ето так, могут чисто хайпить чем-нибудь, та и все.

>>701781
Раньше я верил в людей.
А сейчас считаю ебанько довольно распространенным подвидом.

Аноним 12/04/24 Птн 18:51:58 #181 №701807

>>701803
С виспером вместо фастер-виспера. х) У чела много врам и времени, конечно.

Аноним 12/04/24 Птн 18:52:31 #182 №701808

https://www.reddit.com/r/LocalLLaMA/comments/1c24lwl/quick_residual_stream_mockup_to_clarify_mixtral/
Иной взгляд на количество экспертов в микстрале

Аноним 12/04/24 Птн 20:23:10 #183 №701886

>>701808
То есть выбор эксперда происходит каждый слой?

Аноним 12/04/24 Птн 20:34:36 #184 №701901

>>701886
Ну, я понял так.

Аноним 12/04/24 Птн 21:00:28 #185 №701920

Аноним 12/04/24 Птн 21:09:01 #186 №701929

Аноним 12/04/24 Птн 21:09:42 #187 №701930

>>701700
>>701920
Ты блядь заебал слепошарый, раз видишь, значит используй что посоветовали, даже в шапке есть.

Аноним 12/04/24 Птн 21:16:21 #188 №701934

>>701920
Опенчат тебе уже кинули, ну или командера на 35b попробуй, 18 гигов в 4 кванте, так что можешь на оперативке с видеокартой запустить, сколько токенов будет зависит от твоего железа
https://huggingface.co/lmstudio-community/c4ai-command-r-v01-GGUF
Он тоже в русский может, а меньше только 7b которую тебе кинули. И которая запустится на чем угодно с 8гб оперативки.
Но вот кумить на ней, не знаю, попробуй, отпишись если сможешь, лол

Аноним 12/04/24 Птн 21:26:50 #189 №701947

>>701929
Большое спасибо за помощь, бро! Качаю!

>>701934
Большое спасибо, я супер редко в треде бываю, шапку прочёл, но решил спросить потому что больше мимокрокодил интересующийся, нежели настолько в теме, чтобы понимать с полуслова.

>>701930
А вот ты, нет чтобы помочь, видишь, блядь, я прошу дважды, значит нуждаюсь, значит не могу качать модель на 200 гигов, о чём указал, но нет, ты вместо совета или ответа будешь лучше тратить то же самое время на пост в треде, чтобы оскорбить, какая ж ты блядь гниль треда, вот такие хуесосы как ты хуже всех блядь! НЕНАВИЖУ ТЕБЯ!

Аноним 12/04/24 Птн 21:28:37 #190 №701950

>>701947
>значит нуждаюсь
Не нуждаешься, а ноешь просто так, мог бы прочитать шапку вместо просьб.

Аноним 12/04/24 Птн 21:29:15 #191 №701951

>>701930
Ладно, сорян, я погорячился, просто обидно нахуй, такой игнор, а потом ещё и оскорбления. Неправильно было оскорблять в ответ, я сам не лучше.

Аноним 12/04/24 Птн 21:30:57 #192 №701957

>>701950
Виноват, прошу прощения. Просто думал, что спросить будет легче, типа ответ не займёт много времени, даже если просто носом тыкнуть.

Не думал, что вас итт так заебали. Просто сам я из АИ пикчей-тредов.

Аноним 12/04/24 Птн 21:38:52 #193 №701965

>>701951
>>701957
Да ничего, я тоже зря быканул, виноват.
Пишешь, пишешь шапку, а её никто не читает. Ыыыы.
>Просто сам я из АИ пикчей-тредов.
Там ещё пристойно. А вот побывал бы в кончай треде, сам бы начал бомбить с новичков.

Аноним 12/04/24 Птн 22:03:39 #194 №701990

>>701951
Братик, в 2024 не уметь читать на английском ну это провал

Аноним 12/04/24 Птн 22:22:55 #195 №702015

>>701990
Я на английском как родненький кумлю, писал об этом выше, прост захотелось для разнообразия на нашем попробовать, ну интересно ж стало.

Аноним 12/04/24 Птн 22:23:46 #196 №702017

ExLlamav2.gif

Мда, а я и правда было поверил, что эксллама не имеет проблемы уменьшения скорости генерации при увеличении контекста. Лень было проверять.

Аноним 12/04/24 Птн 22:23:57 #197 №702018

16021811302770.jpg

>>699623 (OP)
Платиновый вопрос, ответ на который я не нашел в вики.
На связи полный неофит по нейросетям.
Есть ли гайды как дотренеровать модель, т.е. сделать файнтюн (насколько я понимаю) самому?
Задача: есть некий набор данных (типа json, xml, csv) который имеет статичный набор полей в себе (допустим 20 текстовых полей в которых разные данные), которые я буду называть формой.
- Форма может быть условно валидной/не валидной.
- Окончательная валидность/невалидность самой формы определяется по внешним параметрам из внешнего (реального) мира, но сами данные которые содержит форма могут указывать на вероятность валидности/невалидности. Вероятность сильно повышается когда пересекаются некие конкретные данные (сами данные тоже могут быть абсолютно разными/ввод информации открытый, т.е. у большинства полей формы не какой-то ограниченный статичный список опций/вариантов) во множестве полей одновременно.
Насколько я правильно понимаю в этом и заключается основная фича нейросетки которая может находить взаимосвязи (выдача вероятности уже достаточно) в типе связей многие ко многим.
- Есть данные для обучения (и следовательно для тестирования) в некоем количестве - то есть уже готовые формы которых есть в районе 10-50к.
- Данные в полях формы на русском.
- Обученная модель должна быть локальной.
Итого - нужна обученная нейронка которая будет принимать на вход вышеупомянутую форму и на выход давать вероятность (0-100%) валидная ли форма или нет.

С чего мне стоит начать и что курить?
В факе я прочитал что контекст у нейронки по дефолту ограниченный, поэтому правильно ли я понимаю что мне в теории нужно взять готовую языковую модель выбранного семейства, ну или кастомную на основе какого-то семейства и каким-то образом дообучить ее?

Аноним 12/04/24 Птн 22:25:21 #198 №702022

>>702017
У тебя что за кофеварка? На нормальных картах оно процентов на 10% падает каждые 4к.

Аноним 12/04/24 Птн 22:41:04 #199 №702053

>>702018
>ответ на который я не нашел в вики
Какой ужас. В общем, лучше у нас инфы нету.
>и каким-то образом дообучить ее?
Да, уровня отпилить последний слой, заморозить остальные, а на место отпиленного закинуть свой, и его обучать, чтобы на выходе был твой самый процент. Но ты описал задачу весьма расплывчато, и у меня возникло ощущение, что ты хочешь сделать что-то не одобряемое анонами.

Аноним 12/04/24 Птн 22:47:10 #200 №702066

>>702053
>что-то не одобряемое анонами.
Например? Я не догнал что там может быть за формы на 50к, какие то персональные данные што ли?

Аноним 12/04/24 Птн 23:00:54 #201 №702084

>>702066
>Например?
Цензура какая-нибудь, составление психических портретов "предателей родины", ещё какая-то требуха. Мало ли. Неспроста же тот анон темнит...

Аноним 12/04/24 Птн 23:34:56 #202 №702119

>>702084
Ну да, вариантов не много. Либо что то с деньгами, либо с работой с списками персональных данных. И с вероятностью близкой к ста что то что навредит обычным людям

Аноним 12/04/24 Птн 23:40:11 #203 №702127

>>702022
>У тебя что за кофеварка? На нормальных картах оно процентов на 10% падает каждые 4к.
Да, тест неактуален - в Убабуге контекст по умолчанию стоял на 32к, а столько видеопамяти у меня нет. Когда поставил 8к, то стало поживее.

Аноним 13/04/24 Суб 00:36:02 #204 №702191

https://www.reddit.com/r/LocalLLaMA/comments/1c29e7w/commandr_is_scary_good_at_rag_tasks/
Вот и работка? в чем хорош коммандер 35b
Если коротко - хорош в раг и работе с документами
Но и запустить его с достаточной для этого скоростью недешевое удовольствие, мдемс

Аноним 13/04/24 Суб 00:39:59 #205 №702197

>>701717
Часть что вставляется в матплату если в ней не х1 слот.
>>701720
> за неделю произошло больше чем за год-два
Что произошло? Некоторое оживление после более чем полугодового застоя, и то пока юзабельного немного.
>>701729
> Маленький командир не революция
Зря, как раз революция и у него нет полноценных конкурентов в этом размере, и засчет доступности он более значим чем 104, которую мало кто может себе позволить. Микстраль в текущем виде - да, не нужен, но есть потанцевал.
>>701730
> Модальная зп в РФ — 27к.
> Медианная — ~35к.
Усредняя морг с гнойным и спекулируя оторванными от реакльности величинами, учитывай, что 99% зарабатывающих мало не то что не хотят покупать карточки для нейронок, но и даже не слышали нормально о таком. Те кто интересуется и хочет развлекаться этим, или тем более как-то работать - уже как минимум имеют скиллы и навыки, а следовательно и доход, или сидят на шее у родителей, которые такое позволяют. Уж такую цена скопить за несколько месяцев вообще проблемы не составит, а если не можешь - это не твое.
Описанные тобой думают как выжить а не о видеокартах, к тому же есть куча более качественных и бесплатных альтернатив чем все это.
> Жаль, тян об этом сами не знают.
Их привлечь можно тоже, даже более острая зависимость будет.

Аноним 13/04/24 Суб 00:47:55 #206 №702206

>>701729
> >только 18 ГБ памяти графического процессора
> Ну ты понял намёк, да?
1.5т/с хватит всем, оно?
>>701744
> с 48гб врам не получится
Нужно 96, 80 минималочка типа. Со скрипом в 64, если потребление на контекст оптимизируют то будет уже повеселее. И он действительно лучшее из доступного, затыкая за пояс пернатую модель и всяких франкенштейров.
>>701780
> По этой цене торгуется только ультрахлам с охладом из банановой кожуры
Увы, терпели, думали, и дождались что они закончились. Теперь 75+, на фоне подорожания всего остального закономерно.
>>702017
У тебя идет переполнение памяти и оно начинает частично выгружаться в рам, потому и проседает. Скорее всего выгружается только небольшая часть, которую захавал браузер и прочие интерфейсы, потому и эффект замедления слабый.
Верь не верь - скорость генерации от контекста (почти) не проседает пока у тебя хватает врам. На таких нищенских мелких контекстах уж точно.

Аноним 13/04/24 Суб 02:11:10 #207 №702281

https://huggingface.co/Vezora/Mistral-22B-v0.1

>карточка про тохо
>коммандр выдаёт ссылки на фурисайты
Ну охуеть теперь, и это топадин сетка называется.

Аноним 13/04/24 Суб 02:36:59 #208 №702298

>>702018
Пожалуй, пора добавить в шапку QA про обучение, где описать что 95% задач с добавлением "нового" решаются RAG, лорбуками или даже просто примерами с описанием, а обучение ллм - вещь крайне сложная, время-трудо-деньго-затратная и не стоит вскрывать эту тему если совсем неофит, см 95% в начале.

Что же до твоей задачи - больше похоже на задачи классификации текста и подобные. Для этого есть относительно легковесные сетки, смотри на обниморде раздел https://huggingface.co/docs/transformers/tasks/sequence_classification и соседние.

Или же - просто четко и ясно формулируй требуемый тебе запрос для LLM для каждой "формы" и в нем дай задачу сначала расписать COT (рассуждения) а потом дать ответ числом, отфоматируя это все в xlm, json, yaml. Первое потребуется для улучшения качества ответов относительно зирошота, второе - твоя искомая величина, которая может быть легко извлечена.
>>702191
За счет этого он и хорош в (е)рп. Пишет проще чем специализированные файнтюны, но уровень норм, а то как держит сценарий, описание и историю как раз и обеспечивает качество.
>>702281
Таргетировал в тебе любителя!
Вообще странно, он даже paws не спамит в отличии от многих сеток.

Аноним 13/04/24 Суб 07:53:18 #209 №702419

>>702298
> RAG
Погуглил, интересно. Это что же получается, если к примеру взять самую соевую модель, у которой в обучающем датасете не было ничего кроме сои, прикрутить к ней RAG и контрольными векторами прописать не соевое поведение, то такой модели будет строго похуй на сою, так как в ответах будут данные из поисковых запросов, а контрольные векторы не позволят модели включать режим соевика?

Аноним 13/04/24 Суб 08:31:05 #210 №702436

0.png

Аноним 13/04/24 Суб 08:43:09 #211 №702448

211a2663456d484274ac27f98111f378.jpg

https://huggingface.co/bartowski/Mistral-22B-v0.1-GGUF

Аноним 13/04/24 Суб 08:53:14 #212 №702459

78.jpg

>>700793
>>700797
Эх... Я тоже когда собирал купил 3080 чисто как затычку для одиссея, в игры в последнее время не играл...
И ещё в то время искал нейронку, которая смогла бы пак с моими картинками нормально протегировать, про себя думал - вот лет через 10 появится нейронка, которая сможет не то что тегировать, а создавать картинки по тегам, и через несколько месяцев совершился нейро бадабум.

Аноним 13/04/24 Суб 09:01:25 #213 №702467

>>701556
>какие подводные
ОЧЕНЬ ДОЛГИЕ ЗАГРУЗКИ МОДЕЛЕЙ ОЧЕНЬ!
70Вq2 модель легко может грузится 15-20 минут и зафейлиться в процессе из за зависания питона
А в остальном всё норм, когда модель загружена работает всё также быстро как и с Х16 слота, перезагрузка модели с новыми настройками также идёт быстро.
Но меня загрузочные тупняки доебали и я запихал теслу в корпус распилив его к хуям
Мимо чел заебавшийся с охлаждением.

Аноним 13/04/24 Суб 09:08:46 #214 №702476

>>700782
Спасибо анон!
А в шаблон контекста что писать?!

Аноним 13/04/24 Суб 09:09:29 #215 №702477

Я так пынямаю моя тесла со стандартным драйвером не определилась и хочет какой то особый драйвер?

Аноним 13/04/24 Суб 09:09:35 #216 №702479

Анонс. Хочу прикрутить к LLM локалке голосовуху.
Voice to text - text to voice. Чтоб полная локальная алиска была дома. Клацать и читать поднадоело уже. Гуглил, но что то коробочного решения качественного не нашел. Вроде всего много, но непонятно что выбрать. А еще, чтобы можно было определенный голос клонировать. Хочу чтобы она голосом Бузовой разговаривала тралалала ;)

Аноним 13/04/24 Суб 09:37:36 #217 №702506

>>702477
>хочет какой то особый драйвер?
Это хочет!
https://www.nvidia.com/content/DriverDownloads/confirmation.php?url=/tesla/528.89/528.89-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe&lang=ru&type=Data%20Center%20/%20Tesla

И сразу бонусом:
https://linustechtips.com/topic/1496913-can-i-enable-wddm-on-a-tesla-p40/

Аноним 13/04/24 Суб 09:46:27 #218 №702519

>>702479
>Voice to text
Пик

>чтобы можно было определенный голос клонировать
Ставишь вот это.
https://github.com/daswer123/xtts-webui/blob/main/README_ru_RU.md
Тренишь модели в версии ВебУИ. Для подключения к таверне запускаешь версию АПИ. Подключаешь в пмк 2.

Аноним 13/04/24 Суб 09:53:43 #219 №702525

>>702506
О, пасибо анон.
Это датацентровой драйвер, а он будет работать с основным для обычной карточки или надо какой то пиздос для этого устраивать?

Аноним 13/04/24 Суб 10:19:37 #220 №702536

>>702525
>а он будет работать с основным для обычной карточки или надо какой то пиздос для этого устраивать?
Пиздос, который надо устраивать описан во второй ссылке. Зато после этого у тебя оба драйвера должны работать параллельно и друг другу не мешать.
Но это не точно, у меня второй картой АМД

Аноним 13/04/24 Суб 10:24:51 #221 №702538

>>702525
Будет. По второй ссылке хуйня нерабочая. Возможно, это сработает, если ты накатишь драйвера трёх-пятилетней давности. На свежих не работает.

Аноним 13/04/24 Суб 10:26:01 #222 №702539

>>702519
Спасибо. Какой там стек получается stt tts? Whisper и Bark или что получше? Клонировать голос тяжко будет? Арендовать мощности или калькулятора хватит? Нужно будет качественно с высоким битрейтом, без шиканья

Аноним 13/04/24 Суб 10:29:58 #223 №702540

>>702538
Немного тебя не понял.
>Будет. По второй ссылке хуйня нерабочая.
Ты хочешь сказать, что сейчас я могу просто накатывать https://www.nvidia.com/content/DriverDownloads/confirmation.php?url=/tesla/528.89/528.89-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe&lang=ru&type=Data%20Center%20/%20Tesla
Без задней мысли поверх уже установленного драйвера и он не потрётся?
Или таки это:
>На свежих не работает.
Или ты про то что на свежих wddm так просто не включить?

Аноним 13/04/24 Суб 10:34:18 #224 №702545

>>702539
>Клонировать голос тяжко будет? Арендовать мощности или калькулятора хватит?
Я сам этим не занимался, так что ХЗ.
Но ты всё это можешь легко в колабе запустить, ссылки ксть в гите на xtts.
Выкладывай результаты, если получится.

Аноним 13/04/24 Суб 10:35:33 #225 №702546

>>702540
Драйвера вообще похуй. В любом порядке накатываешь свежий игровой и драйвер датацентра. Если после ребута видимокарта отвалилась - заходишь в диспетчер устройств, удаляешь там карту и жмёшь обновить конфигурацию. Карта находится, всё работает. А вот wddm по тому гайду включить на актуальных драйверах хуй включишь. Может, и на старых хуй включишь, я пробовал вплоть до 517.48, не работает.

Аноним 13/04/24 Суб 10:39:31 #226 №702550

>>702546
Пнял, пасибо.
wddm режим шибко тесле нужен или нейронки без него работать будут?
Нахрена оно вообще нужно то?

Аноним 13/04/24 Суб 10:39:37 #227 №702551

>>702525
Тебе не обязательно проделывать то, что во второй ссылке, достаточно чтобы гпу были не в отъёбе в диспетчере устройств после установки дров, там просто перевод из TCC режима, максимум поиграть на ней не сможешь да и не захочешь
>>702546
Мне удалось включить на одном из последних драйверов, но тесла была одна с амдшной встройкой, с двумя дискретками уже хуй, ты тоже только с двумя пробовал?

Аноним 13/04/24 Суб 10:39:47 #228 №702552

>>702538
>На свежих не работает.
Что именно не работает?
У меня после установки дров с первой ссылки только так WDDM получилось включить.
Знаешь способ лучше - выкладывай!

>>702540
>Ты хочешь сказать, что сейчас я могу просто накатывать
Да.

>он не потрётся?
Один чел с Нвидией писал что в конце, после ебли с реестром, надо заново поставить дрова основной видюхи. Так что возможно. Но ты в любом случае не сможешь юзать Теслу, пока не поставишь дрова.

Аноним 13/04/24 Суб 10:54:33 #229 №702559

>>702550
Нейронки работают и без него, виртуализация - нет. WSL работать не будет.
>>702551
>но тесла была одна с амдшной встройкой
Видимо, в этом суть. У меня две карты ноувидия.
>>702552
>Что именно не работает?
WDDM не работает, очевидно же.

Аноним 13/04/24 Суб 11:06:29 #230 №702566

Щас еще пойму как теслу удушить по паверлимитам и пойду тестить ламу.
А то 2 кругляша DEXP DX50NFDB явно не справятся с 250 ватт.

>>702551
>>702552
Таки да, установил тесладрайвер - отъебнула 4090, но изображение на один из двух моников выводила.
Перенакатил (просто обновил по факту) драйвер на 4090 и все заработало взад. Пасибо аноны еще разок.
В диспетчере тесла будет отображаться только в вддм, да?

>>702559
> Нейронки работают и без него, виртуализация - нет. WSL работать не будет.
Получается вддм нужен только если нету основной карты или ты красноглазик? По большому счету то.

Аноним 13/04/24 Суб 11:08:54 #231 №702570

Удушил.
Ща будут тесты (как обновлю огабогу)

Аноним 13/04/24 Суб 11:10:12 #232 №702571

Как блядь запустить этот ваш Командер?!
Всё обновил до последней версии.
Llama.cpp срёт ошибкой "нет атрибута model"
Cobold.cpp с CuBLAS всё загружает, но вылетает при попытке ввести промпт.
Запускаю на Tesla P40.

>>702559
>WDDM не работает
У меня работает. Может ты с редактированием реестра накосячил?

Аноним 13/04/24 Суб 11:17:40 #233 №702580

>>702566
>теслу удушить по паверлимитам
Да msi афтербёрнер её душит прекрасно.

>>702566
>только если нету основной карты или ты красноглазик?
Не совсем. Очень много разного оптимизона написанно конкретно под линупсы, под виндой это не заводится в принципе. Некоторые методы существенно ускоряют нейронки. Я пробовал выключать теслу и гонять только основную через wsl, на мелкой сетке х3 скорость.

>>702571
>У меня работает.
А хули у тебя тогда smi одну карту показывает?

Аноним 13/04/24 Суб 11:19:03 #234 №702581

>>702580
>А хули у тебя тогда smi одну карту показывает?
Вторая АМД.

Аноним 13/04/24 Суб 11:26:53 #235 №702593

Я прально все натыкал при загрузке модели или где то обосрался?

Аноним 13/04/24 Суб 11:27:38 #236 №702596

>>702545
Ок. Спасиб. Пока аккумулирую инфу.
Хотел понять насколько уже это реально и просто реализовать именно локально. Вроде никаких сложностей. Так что нужно сесть и сделать. Нелокально через апишки думаю это вообще уже не проблема.

Аноним 13/04/24 Суб 11:34:55 #237 №702600

>>702436
Ну и как? Я чет не уверен что можно тупо сложить все варианты в один

Аноним 13/04/24 Суб 11:36:53 #238 №702601

>>702566
> В диспетчере тесла будет отображаться только в вддм, да?
Да, с TCC только компьютинг на куда, ну с нейронками как раз
>>702593
Нет, убери row_split, он для двух тесл, включи streaming_llm, или будешь терпеть каждый раз, как вылезет за контекст, не спасёт если будешь редачить энивей

Аноним 13/04/24 Суб 11:37:12 #239 №702602

>>702436
Хотел вчера такое сделать, но Годдарт сказал, что делал и получилась хуйня полная.

>>702581
Тогда у тебя и проблем нет, если тесла в системе единственная карточка, то всё заебись.

Аноним 13/04/24 Суб 11:40:04 #240 №702603

>>702601
> ет, убери row_split, он для двух тесл, включи streaming_l
Оке, ща протещу, перезапущу огабогу только - а то случился какой то прикол с подвисоном системы и отвалом нейронки нахуй. Странная хрень

Аноним 13/04/24 Суб 11:50:52 #241 №702616

Вертушек за 200 рубасов из ближайшего дноэса в принципе даже хватает на пол шишки, так что охлад сделанный из картониума, изоленты и китайских вентелей справляется кое-как. Не 40 градусов, конечно, а только лишь 60 но в целом норм - работает и заебис.

>>702601
Да, действительно помогло - теперь семь токенов.

Аноним 13/04/24 Суб 11:55:31 #242 №702622

>>702616
>Потребление 52 ватта
>Температура 69,8
@
>Справляется

Аноним 13/04/24 Суб 11:58:57 #243 №702625

.jpg

>>702622
Ебобо?
Скрин сразу после генерёжки, в генерёжке скачет с 120 до 170 ватт.

Аноним 13/04/24 Суб 12:07:42 #244 №702631

>>702616
У тебя смотрю без фейковой китайской пломбы на винте, лол
>>702622
Она так то и с 50, считай просто загруженной моделью, может рано или поздно в троттлинг улететь без какого либо обдува

Аноним 13/04/24 Суб 12:26:33 #245 №702642

>>702631
Ну видимо посчитали, что нахрен не нужно.

Аноним 13/04/24 Суб 12:52:28 #246 №702661

>>702616
А зачем вы приделываете вот эту всю хуйню по бокам? Разве не будет эффективнее просто закрепить сбоку вентиляторы теми же хомутами. Главное же чтобы воздух проходил насквозь.

Аноним 13/04/24 Суб 12:59:42 #247 №702663

>>702602
>тесла в системе единственная карточка
Если карта АМД, это ещё не значит что её нет.
Инструкция в том посте писалась для карт Нвидиа. Это скорее с АМД должны быть проблемы и они есть, я не могу запускать не куда приложения на Тесле, потому что теслы тупо нет в выборе в настройках графики 10 винды. Я уже думаю может снести систему и заново всё накатить, установив сначала Теслу

>>702616
Я смотрю я тут не один конструктор дохуя! Грац!
А что за шлейф, в который Тесла воткнута?

Аноним 13/04/24 Суб 13:08:42 #248 №702666

untitled.mp4

>>699623 (OP)
В шапку.

Аноним 13/04/24 Суб 13:10:07 #249 №702667

>>702666
Можно поподробней для тех у кого лапки?

Аноним 13/04/24 Суб 13:13:19 #250 №702669

>>702666
Это типа имитация реального человека? Почему качество такое шакальное?

Аноним 13/04/24 Суб 13:13:54 #251 №702670

>>702663
> А что за шлейф, в который Тесла воткнута?
Райзер какой то дешевый с газона. Я с ним обосрался - взял слишком длинный. Взял бы короче щас бы все это добро было вместе с 4090 в корпусе.

>не один конструктор дохуя!
Ну так как водится - голь на выдумку горазда, хех.

>>702661
Чтоб больше воздуха куда надо шло.

Аноним 13/04/24 Суб 13:22:06 #252 №702672

>>702666
а ссылку на среддит? утащил и нихуя не добавил откуда взял и че такое

Аноним 13/04/24 Суб 13:23:59 #253 №702674

>>702559
WDDM мне удалось включить для двух тесл с драйвером 511.65 Grid Drivers for NVIDIA RTX Virtual Workstation. Более поздние версии драйвера уже не работают. Удобно - можно теслы в диспетчере задач видеть. Но скорость в этом режиме ниже, чем в TCC. Чисто для нейронок оно не надо.

Аноним 13/04/24 Суб 13:43:18 #254 №702682

Гружу мику 70b вроде загружает и тут же отъебывает.
А что может быть за прикол, аноны?
Старый аироборос 70b грузит нормально.

Аноним 13/04/24 Суб 13:50:58 #255 №702688

>>702682
контекст меньше сделай, аироборос 4к вроде был

Аноним 13/04/24 Суб 13:53:20 #256 №702689

>>702688
Так мику вроде больше 4к должна мочь.
Вообще ограничился 60 слоями - все работает, но медленно. Че за хрень то началась

Аноним 13/04/24 Суб 13:53:22 #257 №702690

>>701951
Ты представляешь, что чувствуют люди, которые из раза в раз на один и тот же вопрос, дают один и тот же ответ, который записан в первом сообщении, но новые люди, вместо того, чтобы просто прочесть буквы, полностью игнорируя данную им инфу повторяют этот вопрос ежедневно?
Это показывает, насколько вам похуй на все, и вы просто хотите здесь и сейчас. Не прикладывая усилий.
Это правда обидно, поэтому тот факт, что тебя оскорбили — по большей части является следствием твоего поведения и таких как ты.
Но оффенс, мне без разницы.

>>702197
> уже как минимум имеют скиллы и навыки, а следовательно и доход, или сидят на шее у родителей, которые такое позволяют.
Я ожидал этого тейка, к сожалению, как показывает практика — нихуя. =)
У нас даже в этом треде встречаются «у меня амд» и «что можно запустить на рыксе 580». Причем встречается весьма часто и прилично.
У меня лично два работы и три заработка, и я частенько ловлю себя на «проф.» деформации.
С одной стороны у меня коллеги в доме культуры с зп 18к-22к рублей, у которых есть те самые дети на шеях.
А с другой — погроммирование, где счет идет уже на сотни тыщ (а у некоторых коллег — и семизначные, и восьмизначные числа).

И вот со стороны программиста «та хуйня ж, че там, собрать комп за 100-200 тыщ! с обедов пару месяцев откладывать», а со стороны простых людей «дочка попросила куклу за 4000, но за месяц мы с мужем столько не соберем…»

А подрочить на текстовые фетиши хотеть могут все. =) В т.ч. и дети обычных людей, и студенты (чел кит зеона за 4к купил с моей помощью х), и просто работники магнита и пятерочки (хотя, откуда у них время на это).

>>702467
Там х1 PCIE 3.0 или PCIE 1.1 ?

>>702479
Faster-whisper (or whisper.cpp) => xttsv2

>>702550
TCC — серверный режим, выше производительность, постоянное потребление мощности, нагрев.
WDDM — десктопный игровой режим, меньше производительность, отсутствие постоянных потребления и нагрева.

>>702566
> В диспетчере тесла будет отображаться только в вддм, да?
Да.

>>702666
Технологии годовалой давности, собранные в один запускатор.
«Вау».

Аноним 13/04/24 Суб 13:57:56 #258 №702694

>>702690
>Технологии годовалой давности, собранные в один запускатор.
>«Вау».
https://www.reddit.com/r/LocalLLaMA/comments/1c2iirs/tinyllama_sdxs_real_time_kids_story_uncut_video/
Вот это интереснее

Хотя и предыдущее тоже неплохо, такой прототип аватара ии как в фантастике, хех
Осталось только запускать это голограммой и будет полная аутентичность

>У меня лично два работы и три заработка
Живешь когда, анон?

Аноним 13/04/24 Суб 13:59:01 #259 №702696

>>702682
Квант какой? Мику Q4 влазит в две теслы с контекстом 8к, но со скрипом. Попробуй Кобольдспп ещё.

Аноним 13/04/24 Суб 13:59:50 #260 №702697

>>702689
Места не хватает наверное, почему хз

Аноним 13/04/24 Суб 14:10:28 #261 №702700

1qhLEfSnZU8guIvWjLwH5vQ.jpg

>>702696
Ну вроде там квантовка одинаковая, че не лезет хз.
Еще у пикрелейт джва такие же симптомы хотя все три модели одинаковы по 40 гигов с хвостиком весят. Приколы очередные.

>>702697
Опять нам говна в жопу заливают...

Аноним 13/04/24 Суб 14:16:10 #262 №702703

>>702436
>>702448
Правильно. Но похоже что оно весьма корявое и нужно ждать пока пойдут нормальные. Пробовал кто?
>>702467
> 70Вq2 модель легко может грузится 15-20 минут
Воу воу, палехче. Даже если взять порт 2.0, то там псп около 500МБ/с, загрузит полную память меньше чем за минуту, а если у тебя сата на ссд - на почувствуешь разницы.
> image.png
Ты жетский, но должно быть эффективно.
>>702593
Если у тебя тесла - tensorcores убери.
>>702666
Какая же рофловая тема, красава. Тот еще бредогенератор, но в качестве poc - четко.
>>702682
Мониторингом памяти перед вылетом не заметно переполнения?
>>702690
> Я ожидал этого тейка
Потому что он очевиден
> как показывает практика — нихуя
Практика показывает что тот кто много-много ноет, дохуя себя мнит, крайне недоволен своим положением и т.д. - скорее всего не обладает скиллами, навыками и умением их применить, или в редких случаях действительно имеют какие-то обстоятельства/оправдания. Это цинично, печально, но это факт. Нужно стремиться что-то изменить, а не тратить последние деньги на нищежелезо ради упарывания локальными ллм и срачами вокруг этого.
> подрочить на текстовые фетиши хотеть могут все.
Освоить, наныть проксю к коммерции и инджоить. Хочешь анонимности и прочего - плати или страдай, почему-то ни на то ни на другое не согласны.
> а со стороны простых людей
В том и суть что простым людям не нужен комп за 100-200к.
Однако, если копнуть глубже, то сразу вылезают и регулярные отдыхи 2-3 раза в год на такие суммы, и по 3 авто в семье, постоянно какой-то движ с недвижимостью (звучит как, лол), регулярные разговоры про то как кто-то влошил крупную сумму в очередную пирамиду и она схлопнулась и все подобное. Денег ни у кого нет, все ноют, однако откуда-то присутствует оборот.

Аноним 13/04/24 Суб 14:16:22 #263 №702704

>>702700
На Кобольде влазит. Rowsplit включил?

И сколько раз уж здесь говорили, что Мику по сути есть только одна:
https://huggingface.co/miqudev/miqu-1-70b/

Аноним 13/04/24 Суб 14:26:40 #264 №702706

>>702703
>сла - tensorcores убери.
И так без них.Кста, аироборос в принципе с этим флагом работал, тащемта. Медленне чем без него правда что.

> вылетом не заметно переполнения?
Да вроде нет, но тут надо еще разок чекнуть -убедиться.

>>702704
> Rowsplit включил?
Нет, не было.
Анон выше грил что для 4090+p40 это не нужно.

Аноним 13/04/24 Суб 14:26:46 #265 №702707

>>702703
>Пробовал кто?
Там ссылка на первую версию, и судя по комментам там, она не работает
Но автор уже обучил 2 версию, вот она вроде кое как работает, но не знаю если ли ггуф на нее

Аноним 13/04/24 Суб 14:33:54 #266 №702717

>>702703
>оно весьма корявое
что-то среднее между претрейн и просто поломаной. PPL более 20 на 4хs кванте - просто в хлам изувечена.

Аноним 13/04/24 Суб 14:34:49 #267 №702718

>>702663
>Если карта АМД, это ещё не значит что её нет.
Мы же в ai. Амд значит карты нет. И какие могут быть с ней проблемы, если главная проблема с этой всей хернёй - конфликт драйверов? Нет второй карты, нет драйверов, нет конфликтов.

>>702674
Попробовал грид драйвера, винда отвалилась в bsod нахуй. Единственный профит wddm это работающая виртуализация, так-то он не нужен.

Аноним 13/04/24 Суб 14:37:20 #268 №702722

>>702717
> PPL более 20 на 4хs кванте
Это на каком датасете?

Аноним 13/04/24 Суб 14:40:25 #269 №702728

>>702718
>Попробовал грид драйвера, винда отвалилась в bsod нахуй.
Работает только указанная мной версия (511.65) и то наверное не у каждого. И скорее всего нужна "чистая установка".

Аноним 13/04/24 Суб 14:44:09 #270 №702731

>>702700
Кажется понял в чём проблема. У тебя часть видеопамяти 4090 под систему отдаётся, а Мику с 8к нужны все 48Гб впритык. Если всё равно миксы моделей юзаешь, то попробуй размер чуть поменьше.

Аноним 13/04/24 Суб 15:11:25 #271 №702765

>>702731
> а Мику с 8к нужны все 48Гб впритык
Да не то чтобы, там и больше можно загрузить на q4. Проверить офк стоит выставлением минимального контекста, но скорее всего здесь замешано что-то еще.

Аноним 13/04/24 Суб 15:13:55 #272 №702769

1.png

>>702728
Если выключаю основную картонку 30й серии нвидия - то работает. Включаю - отваливаются драйвера у теслы. Именно на 511.65. Из остальных попробовал 537.13, инстант бсод на установке, удалил из безопасного режима.

Аноним 13/04/24 Суб 15:18:30 #273 №702775

>>702722
wikitext

Аноним 13/04/24 Суб 15:20:05 #274 №702777

>>702775
Ну и пиздец, все в хлам взорвано и оно бредит. Была бы синтия с элементами рп - там такое еще норм, всетаки вариантов выстраивания множество.

Аноним 13/04/24 Суб 15:22:07 #275 №702780

>>702769
У меня всё работало с 1050Ti, только меня не интересовала её производительность - картинку показывает и ладно. Сначала она тоже не определялась, но потом как-то нашлась в системе. Настроить можно, если очень надо.

Аноним 13/04/24 Суб 15:44:54 #276 №702794

TCC.PNG

WDDM.PNG

>>702690
>Там х1 PCIE 3.0 или PCIE 1.1 ?
Первое https://ru.msi.com/Motherboard/A520M-PRO-VH/Specification

>TCC — серверный режим, выше производительность, постоянное потребление мощности, нагрев.
>WDDM — десктопный игровой режим, меньше производительность, отсутствие постоянных потребления и нагрева.

Специально провёл тест в режимах TCC/WDDM. Модель Midnight-Rose-70B-v1.0-IQ2_XXS.gguf потому что она сильнее всего нагружает карту.
Результаты на пиках.
TCC - генерация 2.95 t/s
WDDM - 2.92 t/s
Разница не такая существенная. Тем более что при свайпах скорость может скакать.

>>702718
>главная проблема с этой всей хернёй - конфликт драйверов
Ты написал что карту нельзя перевести в режим WDDM на новых драйверах. Я тебе наглядно показал что можно. Остальное - оправдаение.

АМД карта тут есть только у меня и может ещё у 1,5 анонов. Хочешь сказать весь остальной тред на TCC сидит и переключиться не может?

>Амд значит карты нет.
То есть ты собственную криворукость оправдываешь наездом на АМД? Ок.

Аноним 13/04/24 Суб 15:50:31 #277 №702799

>>702794
>Результаты на пиках.
Ты забыл добавить к результатам конфигурацию оборудования. Если вся модель в видеопамяти, то результаты так себе.

Аноним 13/04/24 Суб 15:50:43 #278 №702800

>>702690
Я это понял, и извинился, и да прочёл пепрвое сообщение, но невнимательно, потому и оказался в такой ситуации. Просто в ваш тред как не зайдёшь, тут с непривычки такие джунгли, кто-то что-то тестирует, кванты, ггуфы, модели пачками каждый день, модификации, программирование, лоры, жуть как страшно, что ни пост, то что-то новое. Это как пришёл в супермаркет где продаётся всё на свете, а тебе нужна какая-нибудь пластиковая посуда или цемент и ты такой, решаешь, что легче будет просто спросить...

Аноним 13/04/24 Суб 15:59:57 #279 №702812

>>702780
>Настроить можно, если очень надо
Они тупо чередуются. Оживляешь одну - отваливается вторая.

>>702794
>Я тебе наглядно показал что можно.
Хуй знает, что ты там показал, глупость свою разве что. На новых драйверах как не работало, так и не работает. То, что теслу можно перевести в wddm на старых драйверах и без второй карты - не новость вот вообще ни разу.

Аноним 13/04/24 Суб 16:04:04 #280 №702820

>>702479
>>702690
Спасибо.
>>702666
О, то что спрашивал. В таверну бы все это

Аноним 13/04/24 Суб 16:10:42 #281 №702827

Если с 0 собирать комп для двух п40, есть ли смысл на него убунту поставить? Или лучше всё таки винду? Просто хуй знает, как там с драйверами обстоят дела.

Аноним 13/04/24 Суб 16:17:29 #282 №702836

>>702827
Тогда уж не комп, а сервак

Аноним 13/04/24 Суб 16:36:19 #283 №702854

>>702812
Ну что же, давай разберём по частям тобою написанное.
Началось всё с поста >>702519 в котором я кинул ссылку на вполне себе конкретные драйвера и на инструкцию как перевести карту в режим WDDM.
И тут ты такой >>702538
>По второй ссылке хуйня нерабочая. Возможно, это сработает, если ты накатишь драйвера трёх-пятилетней давности. На свежих не работает.

Далее я тебе кидаю скрин на котором именно эта версия драйверов и режим WDDM >>702571

>Хуй знает, что ты там показал, глупость свою разве что. На новых драйверах как не работало, так и не работает.
Так работает или нет, ты уж определись.
А если ты сейчас начнёшь нести хуйню про то что у меня "драйвера трёх-пятилетней давности", тогда твой первый пост был хуитой, т.к. инструкцию я кидал именно к этой версии, потому что у меня на ней всё работает, а не к абстрактной "новой".

Как теперь будешь оправдываться?

Аноним 13/04/24 Суб 16:36:49 #284 №702855

>>702836
Ну у меня комплектующих старых дохуя, в том числе бп на 850W

Аноним 13/04/24 Суб 16:43:17 #285 №702860

>>702799
>Ты забыл добавить к результатам конфигурацию оборудования. Если вся модель в видеопамяти, то результаты так себе.

Так я сравнивал разницу режимов, а не максимальную скорость. 20-30Вмодели работают в десяток раз быстрее, но вот квантованные 70В очень сильно греют карту и работают медленно, хотя памяти занимают столько-же.
Оборудование Tesla P40. Модель полностью входит в видеопамять.
llama.cpp, 81 гпу слой, no-mmap.

Аноним 13/04/24 Суб 17:12:29 #286 №702882

>>702860
>Модель Midnight-Rose-70B-v1.0-IQ2_XXS.gguf
Странно, на Обниморде я такой не нашёл. Вот такая например есть:
https://huggingface.co/mradermacher/Midnight-Rose-70B-v2.0.3-i1-GGUF
А для первую версию с матрицей важности не нашёл. Ну могу прикинуть, сколько она выдаст у меня.

Аноним 13/04/24 Суб 17:15:07 #287 №702887

>>702854
>Далее я тебе кидаю скрин
С одной картой. Гайд под две. Гайд хуйня нерабочая. Остальную твою шизофазию даже разбирать лень.

Аноним 13/04/24 Суб 17:20:38 #288 №702893

>>702694
В субботу, сегодня.
Завтра днд в клубе.

>>702703
> Воу воу, палехче. Даже если взять порт 2.0, то там псп около 500МБ/с, загрузит полную память меньше чем за минуту, а если у тебя сата на ссд - на почувствуешь разницы.
Тоже думаю.

> Однако, если копнуть глубже
Еда с доставкой. =)
Простите, знакомые.

Аноним 13/04/24 Суб 17:24:01 #289 №702896

>>702794
Две теслы, в тсс 6,4, в вддм 4,3.
Так то вддм бережнее относится к карте, но имей в виду, да.

И это 4_к_м, если что.

>>702827
С нуля сервак на линухе звучит неплохо, если устроит.
Я лично по рдп хожу в винду.

Аноним 13/04/24 Суб 18:08:49 #290 №702938

>>702860
Попробовал однотипную модель Midnight-Rose-70B-v2.0.3-i1-GGUF на моей системе. Загрузил её на одну Теслу из двух и получил практически такие же результаты, как и у тебя. Для интереса загрузил модель на две теслы, включил rowsplit - и скорость генерации возросла почти в два раза. Интересный эффект.

Аноним 13/04/24 Суб 18:10:27 #291 №702943

>>702938
Аноны с тремя и более теслами есть в чате? :) 2 Теслы и 30-4090 тоже подойдут.

Аноним 13/04/24 Суб 18:14:34 #292 №702946

Я ребята почитал вас и понял свою ущербность железом. 8400 16 рам и 970 которую обсмеяли за ее 3,5 гига во время ее выхода. Что я могу поднять ? С приемлемым временем. Спасибо заранее.

Аноним 13/04/24 Суб 18:15:24 #293 №702948

>>702946
7b из шапки опенчат, квант ну 4-5

Аноним 13/04/24 Суб 18:17:25 #294 №702952

>>702948
Fimbulvetr-11B-v2.i1-Q4_K_M
На кобольде порядка 40 секунд ответ. Но спасибо.

Аноним 13/04/24 Суб 18:20:09 #295 №702953

>>702952
i кванты могут быть медленнее на процессоре, 7b получишь 7-8 токенов в секунду как минимум, ну и оно на русском может лучше болтать

Аноним 13/04/24 Суб 18:25:07 #296 №702960

>>702953
А мне Русский не нужен но спасибо за ответ, я думал что то взять из видео карт и я так понял побольше куда ядер нужно и памяти. Так?

Аноним 13/04/24 Суб 18:28:22 #297 №702965

>>702960
Емкость памяти важнее, тут вон даже древние тесла р40 берут чисто изза 24 гб врам.

Аноним 13/04/24 Суб 18:31:33 #298 №702971

>>702965
Ну спасибо в любом случае. Очень интересная кстати идея собрать сервер с соответствующим обдувом в серверном или похожем шкафу вдали.

Аноним 13/04/24 Суб 18:37:51 #299 №702979

>>702971
Наивный. Здесь светились аноны с подобными сборками, всё сложно.
У 2-3U серверов - кластеров видеокарт вентиляторы ревут как пылесосы. Создаваемое ими давление достаточно чтобы продувать очень горячие теслы с высоким аэродинамическим сопротивлением.
Во-вторых, материнские платы с большим количеством каналов pci-e это дорого или ненадёжно и муторно.
А ещё надо раздобыть бп.

Аноним 13/04/24 Суб 18:44:30 #300 №702987

>>702979
Наверняка ещё и электричества за 5 квартир жрут

Аноним 13/04/24 Суб 18:45:44 #301 №702988

Да на нем нельзя экономить, сожжешь все.

Аноним 13/04/24 Суб 18:51:06 #302 №702993

>>702979
> А ещё надо раздобыть бп.
На озоне прям щас, чего там раздобывать

Аноним 13/04/24 Суб 18:56:50 #303 №702998

>>702979
Не совсем так. Можно собрать не слишком громкую систему, которую почти не будет слышно из соседней комнаты. Конечно дороговато. Вот анон в одном из прошлых тредов показывал китаемать с 4 PCI-e слотами на X99; корпус хороший, большой и продуваемый под это дело десятку стоит; БП на 1200 ватт c 8 хвостами PCI-e 6+2 - где-то 18к нынче. Можно собрать. А потом какой-нибудь Интел как выпустит приблуду для инференса, которая кроет весь этот сундук как бык овцу - обидно будет :)

Аноним 13/04/24 Суб 19:08:18 #304 №703005

>>702998
>китаемать с 4 PCI-e слотами на X99
Хмм...
Это тот чел с двумя процессорами?
Это я и моя китаемать C612 с 6ю слотами pcie X8 и X16 срыгнула чипсет.

Аноним 13/04/24 Суб 19:13:42 #305 №703010

>>703005
>Это тот чел с двумя процессорами?
Нет, там вроде один процессор предполагался и плата была рефаб конечно, но новая. Б/у плата для такой задачи у меня и у самого сдохла.

Аноним 13/04/24 Суб 19:33:54 #306 №703031

>>703010
А какая у тебя была плата и как долго работала?

Аноним 13/04/24 Суб 19:34:01 #307 №703032

Я так понимаю у p40 вход питания как от процессора и нужен переходник чтобы подключить как обычную видюху?

Аноним 13/04/24 Суб 19:34:33 #308 №703033

>>703032
>нужен переходник
Да

Аноним 13/04/24 Суб 19:50:32 #309 №703051

>>702946
До 20B модельку с контекстом на видяхе, полагаю.

Пробуй 7б, 11б, 13б, 20б. Может 18б какие-нибудь.
Ищи для себя комфортную скорость генерации.

>>702960
Нет, побольше памяти. =) А во вторую очередь все остальное.

>>702998
У меня на две теслы бпшка 20+ =)

>>703032
Мне оба раза клали в комплект.

Аноним 13/04/24 Суб 19:53:57 #310 №703054

А куда из публичного дискурса пропал такой мутант, как 2080ти 22гб? Прям как будто все забыли про неё.
За 50к топ вариант же, не?

Аноним 13/04/24 Суб 19:57:08 #311 №703059

>>702887
>твою шизофазию
Ты же сам пост назад писал что
>На новых драйверах как не работало, так и не работает.
А теперь уже
>С одной картой
работает
Кто тут шизит ещё.

Аноним 13/04/24 Суб 19:57:37 #312 №703061

>>703051
>У меня на две теслы бпшка 20+ =)
Более интересен вопрос, какая у тебя игровая карта, не NVidia случаем? А то тут выяснилось, что llamacpp вполне так умеет в параллелизм и покупка третьей теслы (или другой nvidia-карты) имеет смысл и кроме плюса к памяти...

Аноним 13/04/24 Суб 19:59:30 #313 №703064

>>703031
>А какая у тебя была плата и как долго работала?
Asus WS X99, б/у. Три дня.

Аноним 13/04/24 Суб 20:01:59 #314 №703066

>>702882
https://huggingface.co/Artefact2/Midnight-Rose-70B-v1.0-GGUF
По версии Аюми, самая умная 70В.

>>702938
Любопытно, возможно две Теслы как-то лучше оптимизируют процесс на больших моделях.

>>702896
>Две теслы, в тсс 6,4, в вддм 4,3.
Ну ХЗ, на одной я разницы не заметил, в том числе в SD.

Аноним 13/04/24 Суб 20:10:54 #315 №703078

>>703066
>Любопытно, возможно две Теслы как-то лучше оптимизируют процесс на больших моделях.
А уж мне-то как любопытно - у меня 4 слота и только 2 из них заняты.

Аноним 13/04/24 Суб 20:24:38 #316 №703093

>>703078
Так разные драйвера по разному костыльно включены, вот и разница в скоростях

Аноним 13/04/24 Суб 20:34:52 #317 №703104

>>703093
>Так разные драйвера по разному костыльно включены, вот и разница в скоростях
Нет, на одной тесле скорости одинаковые. А на двух уже гораздо выше. Надо бы и другие модели погонять.

Аноним 13/04/24 Суб 21:33:03 #318 №703166

https://youtu.be/ciyEsZpzbM8
Нейровайфу все ближе

Аноним 13/04/24 Суб 21:48:25 #319 №703185

>>702827
Однозначно. Если комп будет именно для нейронок и около того, а не повеседлевной эксплуатации - шинда на нем будет максимально неуместно смотреться. С драйверами, совместимостью и прочим все космос, вот только будь готов к пожарам в первое время, ибо даже парадигма взаимодействия юзера с системой тут другая и вагон нюансов. Когда освоишься - будешь инджоить.
>>702893
> Еда с доставкой. =)
О, спасибо что напомнил, а то заведение закроется и придется что-то из круглосуточных заказывать.
Но если серьезно - то чем нищее в действительности, тем больше странных понтов типа регулярных поездок на такси вместо от со всеми, странных покупок, походы в кафе-рестораны без повода, заказы, шмотты, гейфон в кредит так вообще база. А потом нытье и просьба одолжить, ну вот нахрен так жить.
>>702938
> Загрузил её на одну Теслу из двух и получил практически такие же результаты, как и у тебя.
Остальное на процессоре? Тогда вполне закономерно.
>>702943
Скейлится линейно, в первую очередь растет время обработки промта на жора, даже на мелких моделях если поделить то будет медленнее чем на одной, чем больше тем хуже эффект. Где-то даже линк про это кидали вроде в прошлых тредах.
>>702946
Если ты раньше не упарывался ллм - попробуй современные 7б что рекомендуют, будет крайне доволен. Правда потом захочется большего, и придется тратиться на железо.

Аноним 13/04/24 Суб 21:53:12 #320 №703195

>>703185
>Остальное на процессоре? Тогда вполне закономерно.
А если нет? :) 18 гигов модель. Ещё 6 на контекст должно быть больше чем достаточно.

Аноним 13/04/24 Суб 22:04:25 #321 №703212

>современные 7б что рекомендуют
Без цензуры бы? Тут был парень писал про
zephyr-7b-beta.Q4_K_M но она слабовата

Аноним 13/04/24 Суб 22:06:15 #322 №703216

>>703195
> 18 гигов модель
Чтооо? Это же ультралоботомит если помещается в 24 гига. Алсо жор на контекст от степени заквантованности не зависит.

Аноним 13/04/24 Суб 22:12:24 #323 №703225

>>703212
>>703185
Вот так вот

Аноним 13/04/24 Суб 22:13:19 #324 №703226

А модели для кума 70b есть лучше чем fimbulvetr v2/fimkuro?
Пока что я даже среди 20b и 30b ничего не нашел лучше.

Аноним 13/04/24 Суб 22:14:33 #325 №703227

15540200205180.jpg

>>702053
>>702066
>>702084
>>702119
>>702298
Я темню чтобы банально не сдеанониться ни сейчас, ни в будущем по проекту.
Во первых, 50к это не так уж и дохуя как по мне.
Во вторых, да - вы правильно уловили концепцию о персональных данных/предателей родины, хотя в моем проекте никаких персональных/личных данных людей нету (далее я опишу подробнее). Наведу по вашим догадкам пример:
1) Форма #1:
Имя: Иван
Фамилия: Ерохин
Возраст: 26
Образование: псифак спббгу
Доход: $8к после налогов
Источник дохода: скрам-мастер
Имущество: две сдающихся хаты в центре спб
Место жительства: у тян
Output: вероятность передать свои гены 98,7%

2) Форма #2:
Имя: Славик
Фамилия: Сычев
Возраст: 39
Образование: заборостроительный коледж
Доход: 14к рублей
Источник дохода: Пенсия по шизе
Имущество: некропека
Место жительства: у мамки на шее
Output: вероятность передать свои гены 0,3%

3) Форма #3:
Имя: Евдоким
Фамилия: Бетабаксер
Возраст: 31
Образование: псифак спббгу
Доход: $1.5к
Источник дохода: Джун-крудомакака
Имущество: своя квартира
Место жительства: в своей квартире
Output: вероятность передать свои гены 71,2%

Очевидно что output не принципиален, должна быть только цифра
Только в моем проекте есть нюанс. По примеру выше нейросеть вероятно может понять и выдать output просто базируясь на своей базовой модели (поправьте если я не правильно написал). Я думаю что тот же ChatGPT-4 на данном этапе его развития может выдать какой-то относительно вменяемый ответ и без обучения.
Проблема в том что в моем проекте данные (поля) не такие очевидные, а если точнее вообще не очевидные и логически не информативные. То есть дефолтная нейросеть точно никак не разберется по ним сходу и будет генерить шум. НО, у в моих формах в реальном мире есть связь между данными в нескольких полях и по ним в теории вполне себе можно выдавать +-точный процент вероятности в output.
>Ну так считай тогда свою вероятность простыми алгоритмами, зачем тебе нейронка
В моих полях произвольные данные вариаций которых дохуя, а тем более связей между ними. Поэтому и есть идея скормить их все нейронке которая должна их находить и выдавать свой процент вероятности.
Я думаю что отдаленно концептуально похожая ситуация была в шахматах/го. Нейронке скормили историю огромной кучи игр, она начала находить неочевидные человеку связи о том как лучше походить и затем начала ебать чемпионов мира.

>>702298
Отдельное спасибо, буду курить.

Аноним 13/04/24 Суб 22:25:53 #326 №703240

>>703227
Техподдержка СБ спермобанка, ты? Иди на хуй.

Аноним 13/04/24 Суб 22:28:56 #327 №703242

>>703227
>да - вы правильно уловили концепцию о персональных данных/предателей родины
Тогда помогать тебе никто не будет. Я вот один из этих "предателей родины", либерал до мозга костей. Так что увы и ах.
>похожая ситуация была в шахматах/го. Нейронке скормили историю огромной кучи игр
Эм, погугли альфа го зеро.
>>703240
Если у него там проценты выплаты кредита, то строго похуй, такие проверки должны инициализироваться самим человеком. Хотя спамеров ненавижу до глубины души, желаю им всем рака яичек и мучительной смерти.

Аноним 13/04/24 Суб 22:33:02 #328 №703247

>>703227
Я иной раз думаю что вы все продвинутые сетки но это весна просто

Аноним 13/04/24 Суб 22:36:33 #329 №703253

>>703185
>Скейлится линейно, в первую очередь растет время обработки промта на жора, даже на мелких моделях если поделить то будет медленнее чем на одной, чем больше тем хуже эффект.
Нифига, только что проверил на fimbulvetr_Q8. На двух картах с rowsplit производительность примерно на 10% выше, чем если запустить модель на одной карте. Да, не в два раза - похоже, что в Midnight Rose какие-то проблемы с i-квантами и модель работает очень тяжело - но эффект определённо есть. Вопрос лишь в том, добавит ли третья тесла ещё 10% :)

Аноним 13/04/24 Суб 22:40:59 #330 №703261

>>703242
>Если у него там проценты выплаты кредита
У них и так есть комплексы для автоанализа, которые через очко работают, лично наблюдал как потомственному алкашу без гроша в кармане и черной кредитной историей одобряют кредит на водочный завод и пять кредиток с лимитами с 100к каждая, а чистенькому славику сычеву с безупречной репутацией предлагают анус пососать. Скорее я бы ставил на то, что сетку прикручивают к анализу данных в соответствии с маняуказами банка рахи чтобы прижимать серый рыночек сильнее, там как раз миллион указаний по вычислению п2п, обнальщиков и неплательщиков налохов. Либо с той же вероятностью это манямошенник на зарплатке у кабан кабаныча, который доверчивых лахов разводит по телефону. Кароч, не нужно тому челу помогать, любой чел работающий с ПД - хуесос обычно.

Аноним 13/04/24 Суб 22:41:24 #331 №703262

ЧЗХ?
Поставил kunoichi-dpo-v2-7b.Q8_0 по гайду с SillyTavern

Аноним 13/04/24 Суб 22:49:46 #332 №703278

>>703262
Обычная соя. Замени на Sure! и нажми на кнопку продолжить.

Аноним 13/04/24 Суб 22:54:28 #333 №703286

>>703240
>>703242
>>703247
Все мимо.
>Тогда помогать тебе никто не будет. Я вот один из этих "предателей родины", либерал до мозга костей. Так что увы и ах.
Пиздец, вы хотя бы посты до конца читайте.
Впрочем я и сам не заметил линки в шапке

Аноним 13/04/24 Суб 22:59:32 #334 №703297

>>703286
Бля не несите седа грязь политики

Аноним 13/04/24 Суб 23:07:36 #335 №703318

>>703227
Ладно, пока подобным поручают заниматься некомпетентным - нечего бояться. Если хочешь базовые закономерности - тебе действительно в классификацию текста, там есть даже большие модели. Скорее всего придется делать цепочки из них но это сложно, алсо зря недооцениваешь ллм.
В любом случае, по подобным отрывочным данным сомнительной актуальности даже идеальная система будет не сильно лучше просто подбрасывания монеты кроме совсем простых случаев где (сложные) нейронки не нужны.
>>703253
> rowsplit
Хуй знает что это и i-квантами этими не пользуюсь. Тема ускорения с несколькими картами интересна, но слишком уже хорошо звучит чтобы быть правдой, больше похоже на костыльное возвращение того что забрали и что должно быть сразу быстро работать.

Аноним 13/04/24 Суб 23:13:55 #336 №703329

>>703061
> Более интересен вопрос, какая у тебя игровая карта, не NVidia случаем?
У мення 4070ти, но это в игровом компе.
В тесловом — две теслы.
А пихать три карты, колхозить и т.д. мне искренне лень.
Я сепарировал: есть игровой, есть для ллм, есть для всего остального.
Может быть, когда я возьму современную мультислотовую материнку, через годик…
Пока точно нет.

>>703166
Опять тот же баян, у нас пару месяцев назад чел в треде завозил такое в таверну.

>>703185
> регулярных поездок на такси
Кстати, да.
Я лично ездил пока было холодно, сейчас хочу пешочком —полезно для здоровья прогуляться.

>>703261
Никогда не понимал этой хуйни под катом.
Когда мне дают кредитку в размере полутора месячных заработков, а бомжу — в пять раз больше… На чем они, блядь, зарабатывают, если бомжу нечем отдавать?!

>>703286
Я нихуя не понял, лично.

———

Вообще, самый пиздец, что когда я за политику высказался по существу — мой пост снесли.
А когда двое дебилов тут срались по хуйне — их срач оставили.
Давайте в натуре без политики, а то опять хуйня с обеих сторон польется, от людей, нихуя не понимающих, зато перекат наступит через день.
Не флудите, плиз.
Давайте про ллмочки.

Аноним 13/04/24 Суб 23:15:38 #337 №703333

>>703318
Роусплит распределяет слои по разным видяхам, чтобы они читались параллельно и работали одновременно, а не пиками — то одна карта, то другая, по очереди, пока одна работает — другая простаивает.
i-кванты забыл, но тоже полезное, что-то схожее с матрицами, как в экслламе, вроде, только в ггуф.
Но тут могу спиздеть, пусть знающие пояснят.

Аноним 13/04/24 Суб 23:19:27 #338 №703339

>>703329
> Никогда не понимал этой хуйни под катом.
А что понимать, банку выгодны просрочки

Аноним 13/04/24 Суб 23:21:49 #339 №703340

>>703329
Я так понимаю нвидия карточки получше себя чувствуют

Аноним 13/04/24 Суб 23:23:34 #340 №703342

>>703333
>i-кванты забыл, но тоже полезное, что-то схожее с матрицами, как в экслламе, вроде, только в ггуф.
Аналог flash attention, как я понял, чтобы экономить видеопамять.

Аноним 13/04/24 Суб 23:28:37 #341 №703352

>>703333
Еще почти год назад показывали концепцию как можно распараллелить, да еще на несовпадающие по перфомансу узлы, но как-то и заглохло. Интересно, оно ли это.
> i-кванты забыл, но тоже полезное, что-то схожее с матрицами
Ну это закос под exl2 при квантовании где используется не дефолтный шаблон а индивидуальная маска.
>>703342
> Аналог flash attention, как я понял, чтобы экономить видеопамять.
Нет, норм атеншна туда так и не завезли до сих пор.

Аноним 14/04/24 Вск 00:23:17 #342 №703407

>>703329
>Когда мне дают кредитку в размере полутора месячных заработков, а бомжу — в пять раз больше… На чем они, блядь, зарабатывают, если бомжу нечем отдавать?!
Просто бомж ладно, прям совсем бомжам не выдают конечно, маргиналам выдают это да частый гость в микрозаймах и имеет какую-то кредитную историю, плюс банки любят под залог имущества давать, плюс маргинал легко согласится на более высокий процент. Плюс там разные нюансы есть типа невыездности, судимости, семьи, что плюс для банка, т.к. должник не съебется с территории страны с кредитом. А челик без кредитной истории, без семьи, с заграном это более опасный кадр получается, еще и под залог скорее всего не захочет ниче брать.

Аноним 14/04/24 Вск 00:36:35 #343 №703426

>>703407
> кредитную историю
Ты или диванный или из другой страны. Здесь нет кредитной истории в западном понимании, смотрят на нарушения договора, просрочки платежей, несвоевременные страховки, банкротства и подобное, а на наличие успешно закрытых микрозаймов на планшет всем похуй. По остальному от пункта зависит, где-то актуально.
> челик без кредитной истории, без семьи, с заграном
Лучший клиент, которому предлагают наилучшие условия чтобы завлечь.

Аноним 14/04/24 Вск 00:39:03 #344 №703428

>>703278
>Sure! и нажми кнопку продолжить
Это где? Я думал надо модель uncensored качать, а таких мало чет

Аноним 14/04/24 Вск 00:46:14 #345 №703442

>>703428
>Это где?
В трёх полосках в конце.
>Я думал надо модель uncensored качать
Можно и так.

Аноним 14/04/24 Вск 01:31:47 #346 №703521

>>703262
Это серьезно так отвечает сетка ох лол

Аноним 14/04/24 Вск 01:40:30 #347 №703524

>>703262
Перезалили? Проверь дату файла на обниморде, вроде куноичи должна быть ерп сеткой как бы, как ты вобще такого вывода у нее добился

Аноним 14/04/24 Вск 03:01:06 #348 №703570

>>703524
Просто поставил все по гайду с таверны, ток квантование побольше выбрал и n-gpu-layers 256. В гайде линк на куноичи файлы от brittlewis12, ща попробую от TheBloke.

Аноним 14/04/24 Вск 03:35:58 #349 №703590

ЩИТО делать куноичи не работает

Аноним 14/04/24 Вск 05:40:45 #350 №703612

>>702666
>>702667
>>702669
>>702672
Соус видео (там же в нормальном качестве): https://t.me/tensorbanana/897

Аноним 14/04/24 Вск 05:54:09 #351 №703613

>>703590
Пробуй другие модели, есть из чего выбрать.
https://2ch.hk/ai/res/683814.html#684219

Аноним 14/04/24 Вск 05:54:09 #352 №703614

>>703227
Мало того, что, возможно, разрабатываешь очередное ПО для кибергулага за зарплату, так ещё и эту зарплату нормально отработать не можешь, ещё и работодателю напиздел про опыт, небось, бежишь на анонимный форум за бесплатными советами.

Аноним 14/04/24 Вск 06:13:02 #353 №703617

>>702467
>Но меня загрузочные тупняки доебали и я запихал теслу в корпус
заместо амд карточки?
у тебя с HDD грузится моделька? потому что у меня с SSD NVME на теслу, которая в слоте x1 стоит грузится максимум минуту.

думаю взять вторую теслу, и их через райзеры x1 подключить, только вот они в корпус точно не влезут, как и в мамку. (проблема в том, что у меня еще есть карточка, которая занимает 4 слота) голову ломаю как их в мамку поставить, и какой корпус взять, чтобы можно внутри все это разместить.

Аноним 14/04/24 Вск 06:41:58 #354 №703619

>>703590
Ого, тебе нейронка отказывает? Или это от персонажа зависит?

Аноним 14/04/24 Вск 06:56:19 #355 №703622

pepe-cover.png

>>703612
Подключаем трехмерную голограмму и готово! Бегущий по лезвию.
Но, пока конечно это все дороговато по ресурсам выходит. Слишком энергозатратно. Думаю лет 5 еще оптимизаций и все 10 до отличного качества

Аноним 14/04/24 Вск 07:58:49 #356 №703632

>>703617
>заместо амд карточки?
Да.
>у тебя с HDD грузится моделька?
Да.
Но после того как поставил в Х16 слот, модели грузятся максимум минуту-две. У меня ещё были просто задержки перед загрузкой в пару минут, когда в память ничего не грузится и карта проставиает, после вставки в быстрый слот прошли.
+ Я ещё Стейбл на Тесле немало гоняю, а там при смене веса лоры модель начинает грузится повторно, а когда у тебя 6 лор и каждую надо настроить это пиздец.
Скорость загрузки кстати больше зависит от количества параметров модели, чем от её веса. Всё что не 70В грузится гораздо быстрее, но об этой проблеме анон выше писал, что на 2 теслах эта проблема внезапно уходит.

Аноним 14/04/24 Вск 08:06:36 #357 №703634

>>703632
походу эти лаги все подгрузка именно с HDD в рам сначала, потом оно передается в карточку. я вспомнил, что у меня были похожие проблемы, когда именно с usb hdd грузил большую модель, оно вообще отлетало на минут 15, в hdd через проводник нельзя было войти, пока моделька полностью не прогрузится.

Аноним 14/04/24 Вск 08:08:50 #358 №703635

>>703612
А более глубокое взаимодействие можно запилить? Чтобы сказать музыку запустить и т.д? Чел вообще планирует такое?

Аноним 14/04/24 Вск 08:54:37 #359 №703645

>>702777
Следующий выродок https://huggingface.co/Vezora/Mistral-22B-v0.2
такой же шизоид с PPL = 16.6894 +/- 0.13981 (это на IQ4_XS)
Что пытается сделать - непонятно. Это все равно что с нуля обучать.

Future plans, train 4-5 more of these experimental models gather preliminary testing results, and then run evaluations on all the models I see have the best possibilities of excelling, then use the best one.
посмотрим что у него получится.

Аноним 14/04/24 Вск 09:11:49 #360 №703652

3QzmuaW-0y8.jpg

>>703407
Ну, кредитная история у меня 15 лет, без единой просрочки, и там все норм.
Но по остальным пунктам, да.
И под залог не захочу.

>>703426
> Лучший клиент, которому предлагают наилучшие условия чтобы завлечь.
пикрел

Щас-то не надо, но пару месяцев назад было актуально.

>>702018
Я таки решился это прочесть.
Лучшие умы бьются над созданием AGI, а ты такой «а можно она будет выдавать корректность данных формы?..»
Ваще без проблем, братан, кидаешь форму, просишь оценить вероятность, получаешь ответ.
Рандомный, ибо она не обучалась на твоих формах.
Допустим, у тебя есть датасет из 100% корректных или некорректных форм.
Обучаешь на ней, и она тебе выдает… в общем-то, тоже весьма случайные ответы, так как ее токены не зависят от данных в таблицах, а от последовательности буков, что не всегда прямо коррелирует с ожидаемым тобой результатом.
В какой-то момент она решит, что бомж не даст потомства, в какой-то подумает, что он не предохраняется и у него есть бомжиха и шансов у него гораздо выше.
Тащемта, тут совета два.
1. Не брать ллм, обучать с нуля, под конкретную задачу.
2. Не браться за работу, в которой нихуя не понимаешь. Нет, это серьезный совет. Не шаришь — не лезь. Не обещай разобраться в чем-то, тебе не родственном. Никогда не соглашайся с родителями/друзьями/еще кем-то, когда тебя просят заняться «потому что ты программист» или по другой хуйне.
Абстракция понятна, в детали не вдавался.
То есть — нахуй не знаю, ничего не обещаю, могу посмотреть.
Потом отвечаешь «посмотрел, тупой, нихуя не понял».
И честно, и лучше, чем обосраться по полной.

>>703622
А в чем проблема с 3д-то? Чисто оборудование для голограмм дорогое? :)

>>703632
100% дело не в версии слота.
И зависит от веса.

У меня три компа, 4 разных видюхи, 1-2-видяшные конфиги, год тестов за плечами — зависимость всегда линейна, если нет упора в диск.

Аноним 14/04/24 Вск 09:39:33 #361 №703654

>>703634
>>703652
>100% дело не в версии слота.
В случае LLM всё действительно не так однозначно.
А вот с SD проблемы порешала именно версия слота. На райзере, после любого пука с твоей стороны, приходилось ждать перегрузки модели и лор минуту-две, сейчас 5-10 секунд. Тут разница огромна.

Аноним 14/04/24 Вск 11:51:17 #362 №703709

Скорость работы LLM на процессоре страдает из-за пропускной способности памяти?

Аноним 14/04/24 Вск 12:18:31 #363 №703728

>>703709
Нет, в основном из-за того что процессор это устройство для последовательных вычислений, а гпу для параллельных. Последовательный перебор при инференсе очинь медленный, это тупа аналог брутфорса на процессорной архитектуре. Видяхи ебашат всеми ядрами подряд в разные стороны на всем протяжении инференса. Вовторых количество ядер, у цпу их мало, у гпу до пизды: например вот условно у проца скорость 5к ггц на ядро и 4 ядра, итого он может выполнить в секунду условно 20 000 000 циклов вычислений в мегагерцах; 3060 же в этот момент имеет на борту 3584 ядер куда и каждый работает на 2200 мегагерцах, количество операций на этой карте в идеальном мире 2200 10^6 3584 герц, то есть 7 884 800 000 000, то есть почти 8 триллионов операций в секунду (без поправок на задачу, алго, архитектуру и прочий кал). Плюс да, у видяхи более быстрая память распаянная на плате, а не слотовый тормоз в портах мамки.

Аноним 14/04/24 Вск 12:20:13 #364 №703730

>>703728
>20 000 000 циклов вычислений в мегагерцах
20 000 000 000 в герцах

фикс

Аноним 14/04/24 Вск 12:22:55 #365 №703732

>>703728
>Нет, в основном из-за того что процессор это устройство для последовательных вычислений, а гпу для параллельных.
А все нейросети это слои матриц с миллиардами параметров, следовательно параллельные вычисления дают ебейший буст просчета этих матриц.

Аноним 14/04/24 Вск 12:37:30 #366 №703744

>>703652
>А в чем проблема с 3д-то? Чисто оборудование для голограмм дорогое? :)
Я вообще в целом о паке Stt-Llm(особенно 100b+)-Tts-lipsinc.
Электричества жрет и ресурсов много.
С голограммами вообще жесть выйдет. Сколько они стоят? Я чет даже не нагуглил.

Аноним 14/04/24 Вск 12:46:14 #367 №703751

>>703709
Да, если у тебя 6-8 и больше ядер то упор в скорость оперативки. Тупо делишь общую скорость своей оперативки в гб/с на размер модели, и получаешь идеальное количество токенов в секунду на нейронке. Идеальное, тоесть выше этого скорость стать не может, ну и в реальности свою задержку добавит размер контекста и само время обсчета процессором.

Аноним 14/04/24 Вск 12:58:03 #368 №703760

>>703744
Кстати подумал, что голограммы пока это слишком сложно. Думаю лучше в эту связку добавить VR/AR очки. Уже сейчас реально и не особо затратно.

Аноним 14/04/24 Вск 13:29:36 #369 №703804

>>703760
Да для начала просто более естественную анимацию сделать, а потом уже формат вывода настроить, хоть в вр хоть на голограмму

Аноним 14/04/24 Вск 13:29:48 #370 №703805

artworks-hwBISkOdeGM0ZfPD-TfYzsw-t500x500.jpg

>>703262
Ты альпаку в Instruct Mode выставил?
>Q8_0
Лучше бы 13b Q4_K_M.gguf взял.

Аноним 14/04/24 Вск 13:31:45 #371 №703808

>>703751
Я вот задумался о сборке на AMD EPYC второго или первого поколения. Из-за наличия 8 каналов памяти можно достичь довольно большой пропускной способности например 190.7 GiB/s у EPYC 7282 а у двухсокетной конфигурации будет еще больше. (И да, я знаю про NUMA и что она в любом случае подпортит мне жизнь, но у той же llamacpp вроде есть поддержка нумы) Вот только не понятно что эта сборка в итоге родит из-за отсутствия тестов. Обычных тестов и так мало, тесты llm в 8ми канальной комплектации оперативки найти не выходит, про 16 каналов вообще молчу

Аноним 14/04/24 Вск 13:35:19 #372 №703809

В пизду.
Завтра еду покупать 4070ти шупир.
Заебала П100 со своей проблемой несовместимости с КУДА.
Переустановил дрова, куду, питорч. Всё ок, весело работаем.
5-10 моделей позагруешь- хуяк ваша куда не куда.
Куплю в 3080ти и буду сидеть-пердеть.

Аноним 14/04/24 Вск 13:39:24 #373 №703814

>>703808
Ну, в тех же маках унифицированная оперативка, и я так понимаю они тоже кучей каналов соединены с процессором.
И ниче, гоняют даже новую микстраль.
Чисто логически важна только пропускная способность чтения рам, как она достигается похуй.
Пока это все на одном процессоре, по крайней мере.
Не знаю только переварит ли процессор все эти 190гб/с, но если да, то скорости будут неплохие.
Даже если взять командер 35b, это 25 гб 4 квант контекст+модель, теоретически 6-8 токенов в секунду получишь.
Для процессора уже неплохо.
Или командер+ 100b, 50 гб в 4 кванте, + контекст 10гб, ну, 3 токена в секунду, хотя бы так.
Новый микстраль где то так же выйдет, может до 5-7 т/с
Опять таки это все на глаз, как там в суровой реальности хз

Аноним 14/04/24 Вск 13:50:44 #374 №703827

>>703728
Там недавно революционный ии ускоритель выкатывали. С последовательными вычислениями. Якобы даёт ебейший буст, ведь LLM это последовательные вычисления - ты не можешь получить второй токен, пока не получил первый.

Аноним 14/04/24 Вск 13:52:03 #375 №703830

>>703808
>Вот только не понятно что эта сборка в итоге родит из-за отсутствия тестов. Обычных тестов и так мало, тесты llm в 8ми канальной комплектации оперативки найти не выходит, про 16 каналов вообще молчу
Поискать вариант облачного сервера на них, и проверить. ХЗ конечно есть такие или нет. Да хоть на среддите пост написать с просьбой проверить, может кто то имеет и гоняет.

Аноним 14/04/24 Вск 13:56:21 #376 №703835

Анон, посоветуй плиз топовую модель для 4090 чтобы сделать чат с персонажем.
Последний раз когда смотрел вроде Мистраль был в топе. Есть что-то новое?

Аноним 14/04/24 Вск 14:04:20 #377 №703844

>>703809
Погоди, не суетись. P100 карта проблемная, но не без бонусов. Вот почитай:
https://github.com/turboderp/exllama/discussions/203

Аноним 14/04/24 Вск 14:14:24 #378 №703852

Пиздец, че за мудак придумал использовать llm для кума?! А?! Я блядь так без члена останусь, сука!! Такими темпами реально вымирание населения ускорится.

Аноним 14/04/24 Вск 14:20:17 #379 №703856

>>703852
Это только начало.

Аноним 14/04/24 Вск 14:20:24 #380 №703857

>>703844
Если бы не ошибка с КУДА- п100 была бы просто отличной картой. Шина просто шарф.
Но никак не выкуплю проблему с КУДА. При том что П100 поддерживает 12.4.
Ставил и 11 и 10, остается только 6 накатить. Но уже нафиг.
А хочется все такие 34 гонять и не 13б.

Аноним 14/04/24 Вск 14:24:58 #381 №703862

>>703856
Ага, сейчас Маск выпустит своих роботов с возможностью подключения гениталий иии.. Все! Пиздец! Я и так уже подозреваю, что хитрые корпораты дают доступ к неплохим моделям только для того, чтобы народ сдрочился и превратился в животных без самосознания.

Аноним 14/04/24 Вск 14:26:08 #382 №703864

>>703862
>превратился в животных без самосознания
Ну тащемто есть человечество сократить до 3-4 млрд то вообще отлично. Всё только спс скажут.

Аноним 14/04/24 Вск 14:30:04 #383 №703867

>>703852
>Такими темпами реально вымирание населения ускорится.
>>703862
>Ага, сейчас Маск выпустит своих роботов с возможностью подключения гениталий иии.. Все! Пиздец!
Это для нас пиздец. А вот в целом для планеты наоборот збс. Людей уже почти 8 миллиардов Карл. Лучшего момента для появления андройдов со сменной вагиной и не придумать тем более что в РФ не завезут если только через Казахстан по параллельному импорту лол

Аноним 14/04/24 Вск 14:31:37 #384 №703870

>>703852
Тем временем Африка и индусы с 10 детьми у которых даже сети нет - мы для тебя просто шутка?

Аноним 14/04/24 Вск 14:35:37 #385 №703875

>>703870
До них корпораты уже дотянулись, скоро срать на улицах перестанут. Ты посмотри сколько инвестиций в Индию и Африку сейчас вливается, Индия станет второй мировой фабрикой.
>>703867
На самом деле населения дико не хватает, точнее квалифицированного населения, а не голых бомжей без образования, но вот как раз такие люди и "сдрочатся".

Аноним 14/04/24 Вск 14:39:26 #386 №703879

>>703875
Хз насчёт индусов, но в Африке у многих нет электричества и проблемы с водой. И им банально нечем платить корпоратам.
Проще завести тян

Аноним 14/04/24 Вск 14:40:52 #387 №703882

>>703632
> модели грузятся максимум минуту-две.
Это тоже нихрена не норма. Алсо можешь мониторить bus interface load, если там 40%+ то значит уже уперся.
>>703645
Ого, уже 17, это прогресс!
Просто вырвать одного эксперта и посравнивать их по ппл на викитексте, рп, коте не прокатит? Офк ппл нихрена не отражает качество рп, но относительную шизу можно хотябы отсеять.
>>703652
> Щас-то не надо
Ключевой момент в этом. Если ты будешь усиленно искать и делать много запросов - сразу попадешь в "бигдату" и будешь в положении жертвы. Это дефолт и так везде, если хочешь купить авто - тебе дадут худшие условия с кучей включенных допов и страховок, если жалобно просишь кредит - хуй тебе а не нормальный процент и т.д., ты в пулле нуждающихся клиентов. В то же время, если не интересуешься - предложения будут сыпаться регулярно и условия будут сильно лучше, потому что цель - завлечь тебя.
А там уже на все это накладываются модификаторы семьи, работы и прочее, и они нихуя не в пользу а наоборот. Если семейный человек ищет кредит - ему пизда и он точно его возьмет, ведь деться некуда. По крайней мере так рассказывали те кто там варятся. Выход есть - проскроллить недавние офферы и воспользоваться, запросить а потом подождать, говоря что тебя условия не устраивают и раз так то и не нужно, давайте лучшие и подобное.
>>703709
Если процессор современный - да. На старых может не хватать вычислительной мощи.
>>703728
> в основном из-за того что процессор это устройство для последовательных вычислений
Сильное заявление, погугли avx чтоли.
> он может выполнить в секунду условно 20 000 000 циклов вычислений в мегагерцах
Это не так работает, чел
>>703808
> на AMD EPYC второго или первого поколения
Не стоит, это днище, которое даже в облаках всеми силами пытались избегать если нужны процессорные мощности. Живые начинаются с 3-го, там же и нет проблем с задержками pci-e.

Аноним 14/04/24 Вск 14:42:39 #388 №703886

Как юзать векторное хранилище? И есть ли вообще смысл для чата на данный момент?

Аноним 14/04/24 Вск 14:47:21 #389 №703892

>>703886
В PostgreS есть несколько подключаемых модулей, Redis тоже уже поддерживает. Насчет чата, хз. Покури их манулы и рекомендации.

Аноним 14/04/24 Вск 14:49:16 #390 №703896

>>703809
Ну что же ты, сидишь с ллм треде а не хочешь 3090?
>>703814
> я так понимаю они тоже кучей каналов соединены с процессором
Там 8 каналов ддр5, отсюда и относительно высокий перфоманс. С видюхам офк не соперник, но обеспечивает достаточный уровень.
Подобного формата ии ускоритель для ллм бы отлично подошел.
> как там в суровой реальности хз
Бенчмарки llamacpp на маках в избытке, вот тебе и реальность. Офк там в процессоре еще тензорный модуль и гпу куски используются для разгрузки, но это сейчас не проблема.
>>703835
> Мистраль был в топе
Сомнительно, 20б франкенштейнов глянь. Или коммандера35 попробуй, но он полностью не поместится и придется выгружать.
>>703857
> Если бы не ошибка с КУДА
> никак не выкуплю проблему с КУДА
Что там за ошибка вообще?

Аноним 14/04/24 Вск 15:01:02 #391 №703902

>>703896
БП не хватит на 3090. 850ватт.
Из самого адекватного я только 4070ти суп смогу взять.

Вот эта ошибка. И почему она возникает не сразу, а через после запуска 5+ моделей за раз я хз:
RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1

Аноним 14/04/24 Вск 15:04:08 #392 №703903

>>703808
>например 190.7 GiB/s у EPYC
Ты же понимаешь, что это всего лишь в 4 раза больше, чем у любой сборки на некрозеоне или там десктопе DDR4, и в 2 раза, чем у новой сборки на DDR5?
>>703852
Ничего, перегоришь ещё. Я так с год дрочил каждый день, потом отпустило.
>>703879
>но в Африке у многих нет электричества и проблемы с водой
Но смартфон есть у каждого.
>>703882
>проскроллить недавние офферы и воспользоваться
А там ссылки на главную банка, лол.
>>703902
>БП не хватит на 3090
Ну так режь по питанию, хули там. Подключи 2 хвоста, карта автоматом должна сдетектить это и себя порезать до 300 ватт.

Аноним 14/04/24 Вск 15:04:53 #393 №703905

>>703896
Например? У Блока они есть?

Аноним 14/04/24 Вск 15:05:33 #394 №703906

>>703903
>у каждого
Охлол

Аноним 14/04/24 Вск 15:08:14 #395 №703908

Saber3.jpg

Кстати, здесь когда-то местные электронщики спорили как сцеплять правильно два блока питания в одном компуктере.
А как это сделано у серваков с двумя бп?

Аноним 14/04/24 Вск 15:09:17 #396 №703910

>>703908
Через синхронизацию блоков. Но в нормальных блок один

Аноним 14/04/24 Вск 15:12:58 #397 №703916

>>703910
>синхронизацию
Как?
Запараллелить земли, +12, +5, +3.3 и остальные выходы?

Аноним 14/04/24 Вск 15:14:28 #398 №703918

>>703916
Я хз, давно читал как спаривать блоки, но потом просто купил один большой.

Аноним 14/04/24 Вск 15:15:58 #399 №703920

>>703918
> как спаривать блоки
Ах, ты грязный электроразвратник.

Аноним 14/04/24 Вск 15:16:14 #400 №703921

>>703908
У серверов специальная плата стоит и она отвечает только за горячую замену блока. В нормальном режиме работает только один бп.

Аноним 14/04/24 Вск 15:16:50 #401 №703922

Как собрать себе вайфов? Мне нужен гайд для тупых

Аноним 14/04/24 Вск 15:22:17 #402 №703924

>>703903
Посмотрел повнимательнее 3090 и чет кроме памяти она ничего не даст.
Мне у 4070ти не нравится цена, но там есть AV1 и DLSS3 с фреймгеном.

Аноним 14/04/24 Вск 15:22:44 #403 №703925

>>703867
Они будут чак-чак вместо вагины прикручивать, чтоб продажи были.

Аноним 14/04/24 Вск 15:24:26 #404 №703928

Аноны, я тут присмотрел новый вентилятор для Теслы, как вам?
https://ozon.ru/t/NP1KqKL

>>703908
>>703916
>Как?
Могу предложить запускать их синхронно, для этого достаточно подрубить замыкание зелёного и чёрного провода второго БП к кнопке на системнике.
Хотя проще наверное будет сделать отдельный выключатель куда подвезти пусковые провода от обоих блоков.
Я так для лазерного станка с несколькими БП делал. Правда там разные блоки за питание разных компонентов отвечали.

Аноним 14/04/24 Вск 15:25:41 #405 №703929

>>703922
Двачую этого. Помогите и я больше не буду писать тупые вопросы

Аноним 14/04/24 Вск 15:26:47 #406 №703931

>>703928
>запускать их синхронно
Это мало.
Там базовая проблема в уравнивании напряжений.

Аноним 14/04/24 Вск 15:30:04 #407 №703935

>>703924
Генерация доп. FPS - дико переоценённая хуйня, игра превращается в желе, 1 раз попробовал, больше не врубал ее ни разу. Аноны выше верно написал, за такой же прайс RTX 3090 маст хев.

Аноним 14/04/24 Вск 15:30:54 #408 №703937

>>703924
>и чет кроме памяти она ничего не даст.
А в нашем деле больше и не нужно.
>>703924
>AV1 и DLSS3 с фреймгеном
Первое вообще ХЗ нахуя, ты ж не на ноутбуке, чтобы электричество экономить. Фреймген это уже игровая тема, у нас тут полезность только для нейронок рассматривают. Но как я понял, он добавляет такие задержки, что ну его нахуй, я наоборот ХЗ сколько тюнил систему, чтобы лаг уменьшить.

Аноним 14/04/24 Вск 15:38:02 #409 №703942

>>703929
>>703925
Идите в колаб из шапки.
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
Ставьте галочку "google_translate" и запускайте всё по очереди.
Пока запускается, притесь на https://www.chub.ai/ за вайфой.
Как запустится тыкайте на ссылку и пихайте вайфу в Parameters / Chat / Upload character / TavernAI PNG
Общайесь.
Как начнёте что-то понимать - ставьте таверну с угабогой.

Аноним 14/04/24 Вск 15:41:35 #410 №703949

А есть гайды для простых смертных по составлению датасета? А то роудмап на джва года штука не для меня

Аноним 14/04/24 Вск 15:42:26 #411 №703952

>>703902
>RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
Насколько я понял, нужно скомпилировать пару файлов pytorch с поддержкой нужной архитектуры: TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6" и заменить в Убабуге два файла на скомпилированные - torch_cuda.lib и torch_cuda.dll. Тогда заработает как надо.

Аноним 14/04/24 Вск 15:50:18 #412 №703960

>>703935
> переоценённая хуйня, игра превращается в желе
Она строго под G-Sync и 60+ фпс. Во всяком ААА, которое с трудом работает в 40-60 фпс DLSS3 просто топ, никакого желе там нет, когда итоговый фпс 90+.

Аноним 14/04/24 Вск 15:55:37 #413 №703962

>>703827
>ведь LLM это последовательные вычисления - ты не можешь получить второй токен, пока не получил первый
чтобы получить токен надо выполнить параллельные вычисления

Аноним 14/04/24 Вск 15:57:14 #414 №703963

>>703882
>Сильное заявление, погугли avx чтоли.
Ну и сильно тебе авх поможет без куда?

>Это не так работает, чел
Это условное описание в идеальном мире, где 1 операция тратит 1 герц. Ирл конечно всё несколько иначе, что еще сильнее бьет по возможностям процессора в нейронках.

Аноним 14/04/24 Вск 16:05:35 #415 №703967

>>703902
Ну блин, там на разницу в цене можно платиновый киловаттник+ взять, чтоже ты.
> И почему она возникает не сразу
Емае, т.е. оно у тебя норм работает в основном а только потом ерунда происходит? Ну ты зажрался.
> после запуска 5+ моделей за раз я хз
Что-то не очищает за собой похоже. Рестарт убабуги не помогает чтоли? Если нет - попробуй команду куде на сброс устройства отдельным скриптом и опять пускай.
>>703905
Блок сдох. Хотя старые там есть, поищи emerhyst, noromaid, darkforest, все 20б.
>>703908
В серверах они заведомо сидят на одной земле, и нет вороха разъемов которые можно подключить по отдельности. С торца несколько сигнальных и здоровые силовые площадки, причем выполнены таким образом что первыми в контакт входят именно силовыми для уравнивания потенциала. Можешь его на горячую просто вытащить и заменить.
>>703963
> Ну и сильно тебе авх поможет без куда?
Дурень, это комплексная сложная инструкция, которая буквально исполняется параллельно. Обычное ее решение по твоей логике заняло бы в десятки-сотни раз больше тактов профессора.
> Это условное описание в идеальном мире
Которое актуально для 90х.
> 1 операция тратит 1 герц
Такт, глупый. Если ты гуманитарий - не лезь с такой уверенностью своими культяпками туда, куда не понимаешь.

Аноним 14/04/24 Вск 16:09:08 #416 №703970

>>703937
AV1 хотел для VR.

>>703935
А разве на 28 гб ВРАМ я 34к модели не запушу?
Вроде с 5.0bpw прокатывало.

Аноним 14/04/24 Вск 16:12:59 #417 №703973

>>703960
Я писал про фрейм ген, если у тебя проблемы со зрением. DLSS хорошая вещь. Для llm RTX 3090 топ, точка.

Аноним 14/04/24 Вск 16:18:16 #418 №703977

>>703967
Окей, спасибо;3
Всмысле Блок сдох? А где теперь брать модели?

Аноним 14/04/24 Вск 16:19:09 #419 №703978

>>703970
Нормальных моделей 30-35 (кроме командора, которому и 48 мало в 4 кванте), нет. LLama 3, судя по данным из СМИ будет 100+B, так что надеется не стоит.

Аноним 14/04/24 Вск 16:30:27 #420 №703984

>>703952
>Насколько я понял, нужно скомпилировать пару файлов pytorch с поддержкой нужной архитектуры: TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6" и заменить в Убабуге два файла на скомпилированные - torch_cuda.lib и torch_cuda.dll. Тогда заработает как надо.

А чем открыть и перекомпелировать torch_cuda.lib и torch_cuda.dll?

двузначныйайку

>>703978
То есть что 16, что 24 гб я всё равно сосну?

Аноним 14/04/24 Вск 16:35:14 #421 №703987

>>703984
>двузначныйайку
Не суйся в компиляцию, не осилишь. Особенно под шинду.

Аноним 14/04/24 Вск 16:37:46 #422 №703989

>>703984
8gb это 16+к контекста или можно будет микстрель гонять 5bpw. Мб будут еще модельки от китайцев. Как пишут на редите VRAM is KING.

Аноним 14/04/24 Вск 16:43:42 #423 №703996

>>703989
>VRAM is KING
Ну тогда 50хх соснут и придется продавать почку за H100?
Там ничего зафайнтюнить не могут что бы хотя бы в 48 умещалось?

Аноним 14/04/24 Вск 16:45:44 #424 №703998

>>703978
>LLama 3, судя по данным из СМИ будет 100+B
Вряд ли там будет 1 модель, да и смысл сейчас сотку выпускать. Уверен, будут все размеры (с промежутками на местах самых эффективных комбинаций, лол).

Аноним 14/04/24 Вск 16:47:56 #425 №704001

>>703996
>Там ничего зафайнтюнить не могут что бы хотя бы в 48 умещалось?
Умещалось - это полдела. То, что уместится в 4 Теслы P40 будет давать 1 токен в секунду, после 8к так точно. Нет в жизни счастья :)

Аноним 14/04/24 Вск 16:48:47 #426 №704003

>>704001
>давать 1 токен в секунду, после 8к так точно
Зато какой токен!

Аноним 14/04/24 Вск 16:55:35 #427 №704008

>>704003
>Зато какой токен!
Не. Я уже сидел на 0,8t/s семидесятки. Хороший токен был, хотя и второго кванта, если сравнивать с моделями поменьше. Но возвращаться туда не хочу.

Аноним 14/04/24 Вск 16:56:33 #428 №704009

>>704001
Голиаф 120b на 6ти теслах давал 4 токена.

Аноним 14/04/24 Вск 17:05:11 #429 №704015

>>704009
>>704008
>>704001
И что теперь? Уперлись в вычислительные мощности? Других технологий на горизонте нет?

Аноним 14/04/24 Вск 17:07:49 #430 №704016

>>704015
Троичные сетки остались, 1.68 бит, когда и если их допилят, но это нужно с нуля тренить так, какие то результаты уже есть так что ждемс

Аноним 14/04/24 Вск 17:08:45 #431 №704017

>>704015
>Уперлись в вычислительные мощности?
В цену мощных железок.

Аноним 14/04/24 Вск 17:09:51 #432 №704018

>>704009
>Голиаф 120b на 6ти теслах давал 4 токена.
С нулевым контекстом может и давал. И по кванту есть вопросы. Если больше четвёртого, то сомнительно.

Аноним 14/04/24 Вск 17:14:51 #433 №704023

Кокда выкатят новые, винрарные как п40 видеокарты?

Аноним 14/04/24 Вск 17:17:20 #434 №704025

>>704023
никогда, потому что это потеря прибыли, могут сразу в утиль отправлять, лишь бы не достались васянам

Аноним 14/04/24 Вск 17:29:33 #435 №704035

>>704023
Есть ещё MI50100, но их винрарность пока ограничена амд-шностью. Если оптимизацию подвезут - есть шанс стать вторыми Теслами.

Аноним 14/04/24 Вск 17:30:15 #436 №704036

>>704008
>Хороший токен был, хотя и второго кванта
Не, фуфло, я пятый квант катаю, вот там токен просто огонь.
>>704015
Всего вагон, но не для обывателей.
>>704023
п40 древнющее железо если что. Следующий такой же вин это RTX A6000, но её начнут сливать лет через 5-10.

Аноним 14/04/24 Вск 19:21:28 #437 №704143

>>703744
Я хз, стт-ллм-ттс-липсинк что-то на дешевом, я не вижу больших счетов.
ВОТ ЗА ОТОПЛЕНИЕ 4 КОСАРЯ ЭТО ПЕРЕБОР

>>703760
Да, и это работает.
На квесте улучшили ар режим, правда просто шумоподавление врубили, но выглядит чутка лучше, да.

>>703709
Да. =)
Проверить очень легко.
Возьми 6-ядерный и 12-поточный и 12-ядерный и 24-поточный. На одинаковой скорости.
При скорости ~50гбс, у тебя результат будут отличаться не вдвое, при вручную выставленных тредах, а от силы на 30%, если повезет.

>>703882
> Если ты будешь усиленно искать и делать много запросов - сразу попадешь в "бигдату"
Угу-угу. Значит надо меньше праздно искать и делать только точечные запросы в нужный момент времени.
Логичное, спасибо за инсайдики.

>>703902
Вдвое меньше врама.
Может лучше БП подменить?

>>703924
А ты берешь к чему в добавок?
Я взял 4070ти, и че-то как-то не очень рад в итоге.
Лучше бы до 4090 докинул или 3090 брал. Но поздно. Игровой компуктер… Да, неплох, 30 фпс выдаст в фуллхд.

>>703928
Фиг знает, но выглядит нормас.

>>703935
Хуйню какую-то пробовал, фреймгенерейшен топ, во многих играх использую, желе нет, все красиво-плавно, задержек в управлении не чувствуется. Норм сделано.

Аноним 14/04/24 Вск 19:26:47 #438 №704145

Я слаб духом удалил все модели, таверну и кобольда. А то скоро у меня яица с членом отвалятся, так и еще начал по часу и более времени тратить. Буду ждать когда это начнут запихивать в игоря и в рпг.

Аноним 14/04/24 Вск 19:27:46 #439 №704146

>>703978
Не перегибай. Если новая ллама3 будет иметь 100б версию то это заебумба, главное чтобы хуанг подсуетился, но и от мелочи они не откажутся.
>>703984
> я всё равно сосну?
Нет, 24б при любом раскладе будет сильно приятнее, тот же контекст и жирнота кванта.
>>704009
На трех, теслах в оче жидком кванте, и то это было 3.5 на отсутствии контекста, которые чересчур оптимистичны и не подтверждаются.
>>704035
> MI50100
Может быть, но они еще слишком свежие и дорогие. 16гиговая не нужна.
>>704143
> Значит надо меньше праздно искать и делать только точечные запросы
Впны, базовая анонимость, и ни в коем случае никогда ничего не скролить напрямую через мобильный интернет, твой номер буквально узнают и автоматически внесут.

Аноним 14/04/24 Вск 19:37:47 #440 №704152

Почему про 2080ти 22гб все забыли? На озоне до сих пор есть лот, на каком-нибудь алиэкспрессе наверняка овердохуя их.

Аноним 14/04/24 Вск 19:40:40 #441 №704157

>>703967
>это комплексная сложная инструкция, которая буквально исполняется параллельно.
Ну так инференс без авх точно такой же. Сильно помогает авх или может проблема процессорных вычислений в другом?
>Которое актуально для 90х.
Душнила.
>Такт, глупый. Если ты гуманитарий - не лезь с такой уверенностью своими культяпками туда, куда не понимаешь.
Ты же прекрасно понял о чем я, но чсв не позволяет тебе не токсить.

Аноним 14/04/24 Вск 19:41:19 #442 №704158

>>704145
Пока ещё слишком тяжело и неуправляемо для игр, жди несколько лет.

Аноним 14/04/24 Вск 19:42:41 #443 №704160

>>704016
Разве с нуля? Там вроде квантуют и лору дотренивают под троичные веса.

Аноним 14/04/24 Вск 19:45:43 #444 №704165

>>704152
Хз, кажется были какие то проблемы с ними, в том что это перепайка чипов. Короче риск больше чем с бу 3090.
Так то норм идея, но кто проверит?

>>704158
Примитивые игры уже есть с этим, какой то квест был в стиме, может что то еще есть. Скоро и генеративные игры с генеративным сюжетом появятся, на чем только их запускать блин

>>704160
Да, это не квантование, надо специально с нуля тренить. Не получится готовую модель без потерь в троичную логику перевести

Аноним 14/04/24 Вск 19:49:28 #445 №704172

>>702946
Любую 10.7 или 13B модель на Q5_K_M кванте с лёгким оффлоадом слоёв на видюху, на чистой лламе.спп выйдет 2-3 токена/сек думаю (зависит от скорости рам).

Аноним 14/04/24 Вск 19:51:02 #446 №704175

>>702946
Алсо, не на выходе, а где-то через год что ли спалили что у неё последние полгига медленные. У меня была она когда-то, её хватало на всё долго.

Аноним 14/04/24 Вск 19:52:18 #447 №704177

>>704172
>с лёгким оффлоадом слоёв на видюху
Это примерно сколько?

Аноним 14/04/24 Вск 19:56:10 #448 №704181

>>704152
Потому что подвальный перепай без поддержки.

Аноним 14/04/24 Вск 19:57:11 #449 №704183

13b Q5_K_M переоценён. На 12гб с 4к контекстом влазит только Q4_K_M, на Q5 уже надо сгружать слои в ОЗУ.

Аноним 14/04/24 Вск 19:59:35 #450 №704187

>>704165
>Примитивые игры уже есть с этим, какой то квест был в стиме, может что то еще есть.
Ну так-то и РП можно считать игрой, с уровнем гейммастера дынды сетки вполне справляются. Но скажем чтобы хотя бы сделать в ААА игре генерацию квестов и диалогов и они имели геймплейное значение, это надо усраться во-первых констрейнтами модели и прочим обвязом с генерацией сценария, чтобы не давать генерить бессмысленые или выходящие за рамки геймплея вещи, в третьих устранить возможность любых атак на промпт, а в третьих модель слишком медленно генерит и пиздец сколько жрёт, а там ведь ещё графониум-физониум нужны и всё это в реалтайме. В общем пока что слишком накладно и ненадёжно для мейнстрима. Но через несколько лет точно будет что-то похожее.

>>704177
Хз, может 7-10, ещё на контекст надо сколько-то памяти, увеличивай слои и экспериментируй сам пока не крашнется или не затупит. Процентов на 15-20 видюху может загрузишь, слегка скорость подымется. Сложно сказать, у меня нет 970 сейчас, это вопрос эксперимента и размера модели.

Аноним 14/04/24 Вск 20:00:12 #451 №704189

>>704183
Зависит от железа, у анона в 3.5ГБ всё равно не влезет вся модель и контекст.

Аноним 14/04/24 Вск 20:03:45 #452 №704195

>>704187
>>704165
А так-то блять мы тут с 19 года и ГПТ-2 в игры играем. Оригинальный AI Dungeon и был по сути локальным движком для консольно-текстовых РПГ, ещё до того как мормон запилил платный SaaS сервис. И дженерал в /vg/ форчепомойки поэтому был, а не где-либо ещё. Это потом дегенераты начали ебать всё что движется.

Аноним 14/04/24 Вск 20:04:37 #453 №704198

>>704189
Я имел в виду скорее "в общем", а не для конкретного анона. Тут некоторые Q5_K_M почему-то позиционируют как топовый по соотношению жор/качество.

Аноним 14/04/24 Вск 20:05:14 #454 №704200

Какую модель посоветуете для ролеплея без цензуры на таком конфиге: 16 VRAM, 32 оперативки? Пока поставил noromaid 20B Q5_K_M по совету из гайда, но может что-то получше есть. В рейтингах по 100500 моделей накидано, непонятно, как из них вообще выбирать.

Аноним 14/04/24 Вск 20:06:12 #455 №704202

>>704198
Ну в общем это так, если игнорить железные ограничения то примерно на этом кванте происходит перелом цена/качество. Но конечно надо подбирать экспериментально всегда.

Аноним 14/04/24 Вск 20:06:29 #456 №704203

>>704165
>генеративные игры с генеративным сюжетом появятся
Я тестил на 3060 Ти: 13б, 10б,7б и пока они особо в контекст не могут на длинной дистанции. Начинают противоречить самим себе. Хотя в ролеплей уже не плохо могут.

Аноним 14/04/24 Вск 20:10:08 #457 №704217

>>704187
Трипл а, умудрился сдохнуть. Да и честно, я хоть и с середины 90, но в старье из 80 и 90 играл в свое время. И графон условного фоллача первого для меня норм.

Аноним 14/04/24 Вск 20:10:36 #458 №704218

>>704200
>поставил noromaid 20B Q5_K_M по совету из гайда
Неужели целиком залезла во врам?

Аноним 14/04/24 Вск 20:18:37 #459 №704228

>>704218
Нет, я так раскидал память.
Скорость 3 токена в секунду, мне вполне хватает.

Аноним 14/04/24 Вск 20:25:47 #460 №704233

>>704228
А, ну ладно. У меня просто тоже 16гб карта стоит на шкафу, в ближайшее время буду ставить в пеку. Хотел узнать, чего можно будет ждать для такого кванта.
Посоветовать ничего не могу, сори. 20б не гоняю практически, т.к. медленновато.

Аноним 14/04/24 Вск 20:26:56 #461 №704235

Аноны, кто для своих тесл большие улитки заказывал - как оно в плане соотношения шум/охлад?

Аноним 14/04/24 Вск 20:27:05 #462 №704236

>>704233
> 20б
В 24гига залезет с норм контекстом?

Аноним 14/04/24 Вск 20:31:58 #463 №704238

>>704236
>В 24гига залезет с норм контекстом?
Легко, а смысл? С 24 гигами чуток повыше уже смотреть надо.

Аноним 14/04/24 Вск 20:35:50 #464 №704243

>>704157
> Сильно помогает авх
Сильно, он позволяет не упираться в перфоманс профессора кратно повышая перфоманс в перемножении матриц.
Сам ты душнила, ерунду втираешь с унылыми объяснениями, натягивая сову на глобус. Математическая сложность интерфейса с ллм - низкая, но специфика требует огромного потока данных, в этом в вся проблема. В случае других нейронок или расчетов, структура гпу будет предпочтительнее но это не он. Также далеко не все задачи можно под них пускать, многое будет также требовать результата промежуточного расчета который не оптимизируем и т.д., в то же время профессор перестал быть последовательным как из-за многоядерности, так и по внутренней структуре, когда сразу последовательности команд выполняются за один такт.
> Ты же прекрасно понял о чем я
Не особо, твой посыл о том что мощность ядер а не псп рам является главным ограничением для профессоров не верен. А по деталям - выше читай.
>>704160
> лору дотренивают под троичные веса
Писали про сразу обучение в 1.58, или в крайнем случае ресайз и более короткое обучение, но при этом параллельно хранятся все данные в fp16 для градиентов.
>>704228
> 3 токена в секунд
Как-то маловато, что за квант? 20б есть в коллабе от гугла, там т4 с 16 гигами врам, и q3 вроде даже помещался. В твоем случае без проблем лишнее выгрузишь, получишь более десятка т/с.
>>704236
> В 24гига залезет с норм контекстом?
Там 5-6 бит влезают с контекстом.

Аноним 14/04/24 Вск 20:47:06 #465 №704252

>>704243
>Как-то маловато, что за квант?
5 бит. Контекст 8к.

Аноним 14/04/24 Вск 21:44:55 #466 №704313

>>703652
Спасибо анон, пока самый адекватный ответ за весь тред.
Энивей, датасет у меня разный и я думаю смысл в том чтобы обучить ее на разных формах (валидный/невалидных). Какой смысл со света если не знаешь что такое тьма? И agi я думаю мне не нужен для этой задачи.

Аноним 14/04/24 Вск 22:59:31 #467 №704404

Думал что что то да знаю о нецлонках, но сидя в тредеонтмаю, что ничерта не знаю. И так в целом на дваче. Неважноеоль ты умен. Всегда найдется умнее.
Так вот. Можно ли обучать квантованную модель?

Аноним 15/04/24 Пнд 00:14:04 #468 №704447

>>704404
> Можно ли обучать квантованную модель?
Qlora на это направлена. В остальном - апскейлишь в полные веса и обучаешь их. Технически можно обучать квант сам по себе - будет залупа из-за отсутствия градиентов, или с использованием полновесных данных - имеет мало смысла из-за сложности, но в теории может позволить улучшить качество кванта.

Аноним 15/04/24 Пнд 00:17:01 #469 №704452

>>704404
Обычным способом нельзя, обучение очень чувствительно к точности весов. Можно только апскейлить, что наверно не то что ты хочешь (жрать VRAM будет всё равно как полная, так что лучше взять неквантованную сразу).

Хотя бинарные сети, новый троичный квант, и прочие новые техники можно/нужно обучать сразу на пониженной точности. (чисто бинарные сетки обычно юзают несколько критических слоёв в полной точности, иначе результаты катастрофически падают)

Аноним 15/04/24 Пнд 02:02:43 #470 №704533

Без имени.png

Шарадошиз отсутствует, я нервничаю. Вот вам пример, как нейронка жидким обсирается в комбинаторике. Правильный ответ 166

Аноним 15/04/24 Пнд 05:47:12 #471 №704590

>>704235
если гонять llm то не шумит вообще. шумит только при больших нагрузках, если гоняешь обучения или sd.

Аноним 15/04/24 Пнд 05:49:55 #472 №704592

>>704146
>16гиговая не нужна
16-гиговая стоит дешевле Теслы, при этом в разы её быстрее. Одна такая карта само собой бесполезна, но вот для систем из 2-4 вполне себе вариант. Как минимум позволят крутить 70В на комфортной скорости.
Если Mi50 станут дешевле 10к рублей, аноны уже сейчас неиллюзорно могут начать закупать их вместо тесл.

Аноним 15/04/24 Пнд 05:53:28 #473 №704593

>>704238
>чуток повыше уже смотреть надо
Куда? Покрутил 30В сетки и микстрали - не впечатлили. 70В даже квантованные работают нереально медленно.

Аноним 15/04/24 Пнд 11:08:56 #474 №704651

Всем привет. Нужна модель переводчик с английского на русский и наоборот. Даже больше GUI интересует. Из моделек на ум приходит firefox оффлайн, можно ли ее отдельно использовать?

Аноним 15/04/24 Пнд 11:15:51 #475 №704655

>>704651
>Даже больше GUI интересует
https://ru.libretranslate.com/
ЕМНИП без негросетей. Если хочешь нейросети, то опенчат из шапки + правильный промтинг, гуй пиши сам или развлекайся с таверной.

Аноним 15/04/24 Пнд 11:34:36 #476 №704659

https://www.youtube.com/watch?v=kYin13ZM5B0
Кто заказал?

Аноним 15/04/24 Пнд 11:39:20 #477 №704662

>>704655
Не. Мне не llmки нужны. Там все понятно. Мне нужна история типо faster whisper с моделькой base en условно только для распознания с текста и текстовых файлов. Gui или cli особо без разницы. Просто с оболочкой чтобы проще модельки менять и доки выбирать. Я бы сделал, но уверен уже есть, просто найти не могу пока.

Аноним 15/04/24 Пнд 11:49:32 #478 №704667

>>704157
> Ну так инференс без авх точно такой же.
И близко не точно такой же.
Даже между AVX и AVX2 разница 30%.
А уж без AVX там падает в пол.

> Ты же прекрасно понял о чем я, но чсв не позволяет тебе не токсить.
Не, ты правда полную туфту несешь. Я не следил за разговором, но это же ты утверждаешь, что важен проц, а не псп? Ну вот, как бы, да. Все мимо.

>>704533
А под катом ты привел пример потому, что и полтреда обосрались бы? :)

>>704592
16 гиговую скидывали за 18, тесла стоит 16.
Можно 16-гиговую за … 12?

Аноним 15/04/24 Пнд 12:21:59 #479 №704677

>>704667
> А под катом ты привел пример потому, что и полтреда обосрались бы? :)
Задачка олимпиадная, как ни крути.

Аноним 15/04/24 Пнд 12:24:00 #480 №704679

>>704677
Пи Эс. Это значит, что её может решить даже толковый одиннадцатиклассник

Аноним 15/04/24 Пнд 12:26:39 #481 №704681

>>704667
> тесла стоит 16
Где?

Аноним 15/04/24 Пнд 12:32:52 #482 №704685