LLaMA тред №2 /llama/

Запустил Ламу в 4 битном режиме в text-diffusion-webui на винде без wsl на некро 3060 ti с 8 гб видеопамяти.
Скажу сразу - это такая ебала, что даже не пытайтесь, я два дня ебался.

Аноним 22/03/23 Срд 18:25:50 #10 №172503

Гоблин - Ты зашкварился.mp4

>>172491

Аноним 22/03/23 Срд 18:30:33 #11 №172525

>>172410
>-мимо завёл вебуй на АМД на Убунте.
>на Убунте.

Слабак.

Аноним 22/03/23 Срд 18:31:07 #12 №172526

>>172481
Кеш это ещё одна копия, лол.
>>172491
Кидай промты с историей.

Аноним 22/03/23 Срд 18:36:33 #13 №172540

>>172526
>Кидай промты с историей.

Какие промпты? Я просто лольку подключил из карточек tavernAI и начал говорить с ней.

Аноним 22/03/23 Срд 18:46:39 #14 №172569

Зависла и не реагирует. ЧЯНТД?

Аноним 22/03/23 Срд 18:50:19 #15 №172576

>>172569
Всё чел, завязывай с лоликоном на борде.

Аноним 22/03/23 Срд 18:54:25 #16 №172587

77334552216.png

6852342354345634.png

Удалось наконец после тяжких испытаний запустить сетку, но она не видит карточку, запускается на проце и генерирует ответ 2 минуты.

Консоль пишет, что torch.cuda.isavailable returned (false) - пикрил.

Идя по гайду, я пропустил этап №2, т.к. он подразумевает либо Линукс, либо WSL, либо Mac. Ни одного \слова про виндовс! Попробовал первый вариант - что-то поставилось, но ошибка всё та же, карту не видит (или ядра куда).

Я так понимаю, что проблема в том, что не поставлен torch. Как его поставить?

Аноним 22/03/23 Срд 18:59:23 #17 №172595

>>172587

https://github.com/oobabooga/text-generation-webui/issues/416

Найди там Windows (no WSL) LLaMA install/setup (normal/8bit/4bit)

Гайд рабочий, но у меня два дня ушло чтобы все команды из него запустить без ошибок и вылетов.

Аноним 22/03/23 Срд 19:04:02 #18 №172611

>>172569
Ты там токены настрой, горячесть, репетит, вот это вот все, он перестанет.

Аноним 22/03/23 Срд 19:13:13 #19 №172632

На 3060ти норм работать будет?

Аноним 22/03/23 Срд 19:14:06 #20 №172634

>>172382 (OP)
>мусор с тегами в выводе
Переведите на русский

Аноним 22/03/23 Срд 19:15:49 #21 №172638

Норм гаед или кал?

https://youtu.be/6soofz98PGk?t=361

Аноним 22/03/23 Срд 19:17:14 #22 №172641

Почему гребаная Alpaca не запускается на винде 10? Ладно опенаи ущемляет меня за то что я русский, но за то что у меня винда старообрядная это уже перебор!!!

Аноним 22/03/23 Срд 19:19:44 #23 №172646

На каком языке говорит эта шлюха, кто знает?

Аноним 22/03/23 Срд 19:24:35 #24 №172661

>>172634
Ты его просишь назвать столицу Уганды, а он срёт html тегами в вывод вместо текста. Или кодом на петухоне. Или ещё какой-нибудь сранью

Аноним 22/03/23 Срд 19:25:17 #25 №172662

>>172632

Да. У меня же работает.

Аноним 22/03/23 Срд 19:25:39 #26 №172664

>>172646
Она изображает попытки повторить твои слова, как делают люди когда говорят с иностранцами на незнакомом языке.
Как по ощущениям, умнее CAI без цензуры? Какая модель?

Аноним 22/03/23 Срд 19:25:49 #27 №172665

>>172632
>>172662

Отклеилось

Аноним 22/03/23 Срд 19:26:12 #28 №172666

>>172638
черный треугольник хуйни наклепал, ибо мне пришлось еще 2 гайда после него смотреть, чтоб разобраться

Аноним 22/03/23 Срд 19:35:34 #29 №172693

>>172664
>Она изображает попытки повторить твои слова, как делают люди когда говорят с иностранцами на незнакомом языке.

Сомневаюсь. Если не орать, то пытается говорить на русском >>172665

>Как по ощущениям, умнее CAI без цензуры?

Я CAI не пробовал, только пигму. Сложно пока сказать. Отыгрывать отыгрывает. C языками вот проблема.

>Какая модель?

Llama 7B 4bit. Пытаюсь Альпаку поставить, но пока глухо.

Аноним 22/03/23 Срд 20:02:27 #30 №172776

>>172693
>Сомневаюсь. Если не орать
Слышал они типа могут не понимать слово, если регистр менять.

Аноним 22/03/23 Срд 20:07:01 #31 №172802

А эта ваша лама под шиндой то работать в 4 бита будет? Или только 8 бит с пляской с подменой битсанбайтов?

Аноним 22/03/23 Срд 20:17:32 #32 №172843

>>172802
Вон петард запустил же. Я запустил, но я по cpp только.

Аноним 22/03/23 Срд 20:21:26 #33 №172851

>>172802
Да, но нужна пляска с компиляцией модуля куды

Аноним 22/03/23 Срд 20:22:04 #34 №172852

>>172843
А, точно. Надо было тред почитать.
Ладно, тоже попробую, как 30b модель загрузится.

Аноним 22/03/23 Срд 20:24:01 #35 №172857

>>172851
Блядь, а это что такое? В пиндоском гайде с шапки про куду не говорили, если я не проеблоглазил.
Рассказывай крч.

Аноним 22/03/23 Срд 20:28:41 #36 №172871

>>172857
Это вот эта говна https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model#4-bit-mode
Заводил под виндой без этих ваших WSL, нужно было поставить Visual Studio Build Tools, но эта херь сама говорит где их взять.

И для винды нужно 0й пункт пропустить. Там ещё по ходу дела потанцевать пришлось, но деталей не помню

Аноним 22/03/23 Срд 20:30:51 #37 №172879

>>172871
Оке, посмотрю что там.
А вообще, анон, ты как шиндовый первопроходец просто обязан начать писать гайд для треда!

Аноним 22/03/23 Срд 20:33:47 #38 №172888

>>172879
Как шиндовый первопроходец я советую поставить линь, потому что там в 1.5-2 раза быстрее оно работает почему-то. А гайд писать это дело неблагодарное, там китайцы опять чонить наговнокодят и гайд превратится в тыкву.

Аноним 22/03/23 Срд 20:42:45 #39 №172915

скорость.png

Вот это нормальная скорость (пикрил) для ламы-7Б (8-ми битной)? По ощущениям очееень медленно. VRAM используется при этом на 70% где-то, а RAM - вообще капельку (хотя по идее должна сильнее использоваться).

Аноним 22/03/23 Срд 20:46:39 #40 №172930

И эта тоже сломалась. Какая же хуита.

Аноним 22/03/23 Срд 20:48:57 #41 №172948

>>172915
Забей, так говнокод лютейший сейчас
У меня видюха по 20-30 секунд стоит чиллит перед тем как начать генерить.
Хуй знает почему. 64 гига оперативы, 24 видеопамяти, ранаю 30B. Все должно работать, а получается хуета
Ебучего индуса который это говно писал я в рот ебал

Аноним 22/03/23 Срд 20:58:08 #42 №172987

>>172661
Спасибо

Аноним 22/03/23 Срд 20:59:52 #43 №172998

>>172948
Так че, мне не ебстись с установкой этой хуеты на шинду пока что? Подождать месяцок-два пока говнокод допилят?

Аноним 22/03/23 Срд 21:09:47 #44 №173035

непоныятные параметры.png

>>172948

Та же хуита, кстати. Чем большим объем текста он генерирует - тем большую скорость он показывает. Видимо из-за ебаного простоя вначале.

Аноним 22/03/23 Срд 21:20:38 #45 №173073

Я не тот, с кем ты разговаривал, но моё мнение - да. У меня генерация ответа происходит целых полторы-две минуты (!), и проблема точно не в железе. Настройки все уёбищные, для спецов. Установка - та ещё запара, но даже если одолеешь, все равно так себе.

Аноним 22/03/23 Срд 21:20:48 #46 №173074

>>173035
Да, сейм, не только у нас, можешь поискать в issues. Что в textgen webui есть, что в gptq-for-llama
Всем похую, абсолютно

Аноним 22/03/23 Срд 21:23:15 #47 №173080

Вот это >>173073 относилось вот сюда:>>172998

Аноним 22/03/23 Срд 21:31:59 #48 №173107

Тут по шагам
https://github.com/underlines/awesome-marketing-datascience/blob/master/llama.md

Аноним 22/03/23 Срд 21:37:22 #49 №173127

>>172948
У меня под виндой через секунду начинает стримить с 30В.
>>172930
Она не поддерживает русский. Понимать может почти любой язык, писать - только английский. Даже не пытайтесь на ламе/альпаке заставить её писать на русском.

Аноним 22/03/23 Срд 21:39:18 #50 №173134

>>173127
> У меня под виндой через секунду начинает стримить с 30В.
Поздравляю тебя с этим
Видимо у тебя уникальный древний коммит, чи ещё что

Аноним 22/03/23 Срд 21:47:03 #51 №173181

>>173134
> уникальный древний коммит
Недельной давности примерно. Как клонировал тогда, так и сижу.

Аноним 22/03/23 Срд 21:51:23 #52 №173206

>>173181
Можешь git log бахнуть и коммит показать?
Олсо можешь если не в лом протестить https://www.characterhub.org/ персонажа какого-либо отсюда, где контекста 1000+ токенов?
В --cai-chat

Аноним 22/03/23 Срд 22:03:32 #53 №173246

>>172693
>C языками вот проблема.
А нафига тебе вообще русский? Ну и 7b для мультиязычной модели это пиздос как мало.
>>172776
Да, токены другие совсем, и если это не инглишь, где сетка поняла, что это одно слово, просто второе громче, то идёт полный обсёр и непонимание.
>>172930
там ещё всякие семплеры нужно крутить, если их уже прикрутили. А то явно видно, что ретеншн пенальти говно.
Но перед этим надо понять, как токенизируется русский текст.

Аноним 22/03/23 Срд 22:04:02 #54 №173251

>>172382 (OP)
Так. Я надеюсь все тут отключают стримминг токенов? Он тормозит пиздец как.

Аноним 22/03/23 Срд 22:11:27 #55 №173296

>>173206
> коммит
commit 468c47c01b4fe370616747b6d69a2d3f48bab5e4 (HEAD -> main, origin/main, origin/HEAD)
Date: Fri Mar 17 13:59:52 2023 +0900
> отсюда
Там формат промпта всратый, в webui не открывает их.

Аноним 22/03/23 Срд 22:14:06 #56 №173315

>>173296
> Там формат промпта всратый, в webui не открывает их.
А, ну тогда с буру какой-нибудь пожирнее, только скинь потом какой сюда
Думаю есть ли смысл просто откатывать до твоего коммита, вдруг на полном контексте тоже будет пердеть по 20 секунд

Аноним 22/03/23 Срд 22:18:30 #57 №173339

>>173296
> commit 468c47c01b4fe370616747b6d69a2d3f48bab5e4

Это коммит GPTQ-for-LLaMA, там после него китаец наговнокодил и лежащие в интернетах модели работать перестали вообще.
На вопрос "на хуа" он послал всех лесом и говорит конвертируйте заново. А то что для этого надо A100 или пару 4090 ему пох.

Из самой text-generation-webui можешь сказать?

Аноним 22/03/23 Срд 22:20:26 #58 №173346

>>173339
Кстати, я вчера переконвертил 30B и 13B модельку в новый формат с groupsize 128
Вроде полёт нормальный. Поставь свара 200 гигов и нормас будет. Но долго

Аноним 22/03/23 Срд 22:20:55 #59 №173349

>>173346
> Свара
Свапа

Аноним 22/03/23 Срд 22:21:21 #60 №173352

>>173346
Оно мне всю враму выжирает и падает, оперативки то достаточно

Аноним 22/03/23 Срд 22:21:58 #61 №173354

>>173352
Ну у меня 64 гига и 20х гигов свап. Вроде не упало, нормас

Аноним 22/03/23 Срд 22:22:23 #62 №173355

>>173354
Да блять, 200 гигов

Аноним 22/03/23 Срд 22:23:28 #63 №173363

>>173354
Дык у меня тоже, я же говорю, оно в VRAM не лезет, её 8 гигов всего. А оно видимо пытается впихнуть невпихуемое или я хз что.

Аноним 22/03/23 Срд 22:24:11 #64 №173365

>>173354
Ты какой командой конвертишь?

Аноним 22/03/23 Срд 22:25:43 #65 №173370

>>173363
А, да, врам не проверял
>>173365
Да как в гитхабе написано
set CUDA_VISIBLE_DEVICES=0
python llama.py путь-до-модели c4 --wbits 4 --groupsize 128 --save llama7b-4bit-128g.pt

Аноним 22/03/23 Срд 22:59:26 #66 №173497

1679515165086.png

Никак не могу запустить с --load-in-8bit в oobabooga
Под 8бит надо отдельную модель? Вроде ни в одном гайде не встречал. Везде мол качайте просто llama-Xb-hf, запускайте либо просто так, либо с этим параметром 8бит.
Просто так запускается у меня, но скорость около 1.5 минут на токен.

Аноним 22/03/23 Срд 22:59:51 #67 №173499

Короче, собираюсь использовать данную шляпу для перевода текста, стилометрии и состязательной стилометрии на русском и английском языке. Текста до 1000 слов. Под мой юзкейс подходит данная нейронка?

Аноним 22/03/23 Срд 23:05:34 #68 №173518

>>173499

Посмотри вот сюда
>>172665
>>172693
>>172930

Аноним 22/03/23 Срд 23:06:04 #69 №173522

> https://github.com/ggerganov/llama.cpp#docker
Ребят, вы ебнутые? Чего вы тут пердолили целый тред, когда можно просто докер контейнер развернуть?

Аноним 22/03/23 Срд 23:07:46 #70 №173528

>>173497
Карта 20серии или еще хуже? Тогда тебя надо другую библиотечку битсанбайтов. В пигматреде анон кидал ссыль.

Аноним 22/03/23 Срд 23:15:33 #71 №173556

>>173499
Пробуй. Но бери от 13B, лучше 30B. Шиза ниже не слушай, у него КАПС случился.

Аноним 22/03/23 Срд 23:16:30 #72 №173559

>>173522
>докер контейнер
Ебучий докер, ненавижу его. И да, под шиндой очевидные проблемы, а весь пердолинг как раз от шинды.

Аноним 22/03/23 Срд 23:20:52 #73 №173571

>>173528
Уже недели две пытался завести, спрашивал в разных местах интернета, а оказалось, что все было в соседнем треде. Мда.
Спасибо большое. Теперь за 0.5-1сек токен.

Аноним 22/03/23 Срд 23:23:25 #74 №173577

>>173571
Теперь делай в 4бита, а потом запили гайд всего этого для треда.

Аноним 23/03/23 Чтв 00:46:15 #75 №173804

капитализм счастье заебись.mp4

У кого получилось альпаку 4bit запустить в ебаном text generation web ui?
Вот такое дерьмо выдает.

Аноним 23/03/23 Чтв 00:48:51 #76 №173809

>>173804
Модель переквантовать надо
Либо откатывать к старому коммиту gptq-for-llama

Аноним 23/03/23 Чтв 00:54:27 #77 №173824

16558151167370.png

>>173809
>Модель переквантовать надо

Как именно?

>Либо откатывать к старому коммиту gptq-for-llama

К какому именно?

Аноним 23/03/23 Чтв 01:46:38 #78 №173945

>>173809

Сам разобрался и откатил коммит.
Ничего не изменилось.
Не хочет он грузить Альпаку, хоть тресни.
Полагаю это вообще невозможно. GGML он не принимает в никаком виде, .pt выдает ошибку как у меня.

Аноним 23/03/23 Чтв 05:22:23 #79 №174185

Запустил у себя 8-битную 7B модель. Скорость 5-6 токенов в секунду.
На 13B уже 4-5 токенов.
Чуть позже попробую 4-битную 30B, но думаю что на ней будет вычисляться вообще вечность.

Видеокарта 3090
Запускаю через text-generation-webui

Это нормально что у меня такие скорости? Я хочу хотя бы 10 токенов в секунду, а лучше 20. Может, я что-то недонастроил?

Аноним 23/03/23 Чтв 10:52:48 #80 №174441

>>172693
>трахает робота имбецила
Это какой уровень проебаности жизни? 🤣

Аноним 23/03/23 Чтв 11:24:12 #81 №174480

>>174441
Да не сказал бы, тут сидят 300к пк господины с 4090 и трахают роботов имбецилов.

Аноним 23/03/23 Чтв 11:29:38 #82 №174490

>>174480
Ну то есть просто говноеды

Аноним 23/03/23 Чтв 11:31:45 #83 №174494

>>174490
Никто не ел твою мамку.

Аноним 23/03/23 Чтв 11:47:08 #84 №174522

А помните всякие мани создавали треды, мол низкоуровневое программирование нинужна, ассемблер нинужен итд? Все, наверное, видели эти треды. Ну что, не нужна? Оказывается без низкоуровневой оптимизации нейронок можно только хуй сосать.

Аноним 23/03/23 Чтв 11:52:20 #85 №174529

>>174185

А что ты от красноглазых говнокодиков, хотел у которых видеокарта простаивает первые 10-20 секунд? Скажи спасибо что вообще работает.

Аноним 23/03/23 Чтв 11:54:39 #86 №174534

>>174441

Ты реально думаешь что человек который имеет железо чтобы такую хуйню запустить может считаться проебанным?

Аноним 23/03/23 Чтв 12:12:41 #87 №174549

>>172382 (OP)
Нашел такую шляпу. Там статья как лама ебет гпт3, и как я понял можно запустить ламу в градиенте как на гугл колабе. Можно пощупать модель, правда насчет кума не уверен.
https://blog.paperspace.com/llama/

Аноним 23/03/23 Чтв 12:14:00 #88 №174551

>>174549
Вот сам ноут из статьи.
https://console.paperspace.com/github/gradient-ai/llama?machine=Free-GPU&ref=blog.paperspace.com

Аноним 23/03/23 Чтв 12:28:18 #89 №174565

>>174549
>>174549

Ну во-первых, зачем нам еще один коллаб с этой хуйней.
Во-вторых - сейчас бы у Цукерберга регистрироваться в его реестре потентициальных преступников.

Аноним 23/03/23 Чтв 12:35:50 #90 №174568

>>174565
Молодой человек это не для вас написано.

Аноним 23/03/23 Чтв 12:48:00 #91 №174580

>>172410
Терпила, молчи

Аноним 23/03/23 Чтв 16:33:42 #92 №175052

Как мне заюзать альпаку 30B на 3090?
Как я понял - она поддерживает только 8бит. Но это не страшно, я могу перекантовать. Только дело в том, что я захожу на этот сайт
https://huggingface.co/baseten/alpaca-30b
И вижу какой-то блоб на 50 мегабайт всего лишь. Его надо как-то вмержить в веса, чтобы переквантовывать? Или что, я не понимаю. Подскажите плиз.

Аноним 23/03/23 Чтв 17:08:36 #93 №175135

>>175052
Всё, я разобрался, а вы нахуй идите. Спасибо форчану.

Аноним 23/03/23 Чтв 17:11:04 #94 №175141

Сидите дрочите тут, уроды бля. Вы меня жутко бесите.

Аноним 23/03/23 Чтв 18:37:47 #95 №175407

>>172382 (OP)
Узнал про ии вчера, захотелось вкатиться. Ллама запустится на 1060?

Аноним 23/03/23 Чтв 19:35:24 #96 №175563

>>175407
7b 4 битная должна.

Аноним 23/03/23 Чтв 19:38:21 #97 №175572

>>172382 (OP)
Вот инструкция как запустить 4 битную ламу на кобальте.
https://www.reddit.com/r/KoboldAI/comments/11wimhk/anyone_already_running_llama_in_koboldai/

Аноним 23/03/23 Чтв 19:43:56 #98 №175591

>>175135
Зашарь ссылку с решением.

Аноним 23/03/23 Чтв 20:12:38 #99 №175663

>>175052

Эти 50мб это лора альпаки. Её можно подгружать вместе с лламой а можно вмержить и переквантоватовать.
Есть уже мерженные и переквантованные модели, гуглятся на huggingface на раз два.

Аноним 23/03/23 Чтв 20:13:15 #100 №175665

>>175572

Зашибись, спасибо.

Аноним 23/03/23 Чтв 20:25:47 #101 №175686

>>174549
>Там статья как лама ебет гпт3
Ахаха обожаю сравнения, где сравниваемые конкуренты постоянно меняются. Чувствуется запах подгона, когда все достойные конкуренты втихую удаляются, чтобы выставить своё говно в хорошем свете.

Аноним 23/03/23 Чтв 20:34:26 #102 №175707

А llama.cpp только на проце сетку запускает, с видюхой она работать не умеет?

>>175572
Я правильно понимаю, что та же самая бага, когда видюха сначала 10 секунд курит и только потом начинает работать, всё так же в наличии?

Аноним 23/03/23 Чтв 20:39:27 #103 №175730

>>175572
> 13B
> Intelligence is incredible
Там толстяк на ОПе, забейте
Она литералли не может уравнение решить сколько не реролль
Спрашиваешь про "все млекопитающие теплокровные, все собаки - млекопитающие, все ли собаки теплокровные" и она стыдливо начинает говорить, что могут быть и не теплокровные собаки. Только где-то каждый 6 реролл может выпасть правильный ответ

Аноним 23/03/23 Чтв 20:39:58 #104 №175732

И ещё вопрос вдогонку. Я правильно понимаю, что в Анаконде каждое окружение, которое "conda activate env_name" имеет свой, независимый, набор пакетов и никак с другими окружениями не пересекается?

Аноним 23/03/23 Чтв 20:41:47 #105 №175737

>>175732
Да

Аноним 23/03/23 Чтв 21:02:31 #106 №175808

>>175732
Нет. Я не совсем понимаю как она работает. Но у нее есть один общий репозиторий на компе.
У меня как-то недокачался один пакет и у он стал поврежденным, дак у меня после этого не одно конда окружение не работало. И пакет не удалялся с помощью команд конды. Мне пришлось его вручную удалить из этого общего репозитория и поставить заново.

Вот тут лежит C:\Users\Имя пользователя\.conda\pkgs
все говно.

Аноним 23/03/23 Чтв 21:45:35 #107 №175964

14255688658661.png

>>175141

Лол, литералли пикрелейтед.

Аноним 23/03/23 Чтв 22:18:53 #108 №176054

>>175686
Ну хз 7b модель ламы по ощущениям очень даже очень. Если сравнивать с моделями что запускал пару месяцев назад, то это просто космос.

Аноним 23/03/23 Чтв 22:24:48 #109 №176069

>>175730
Че несешь?

Аноним 23/03/23 Чтв 22:28:12 #110 №176075

>>175591
https://huggingface.co/elinas/alpaca-30b-lora-int4/tree/main

Аноним 23/03/23 Чтв 22:29:19 #111 №176079

>>176054

Он имеет ввиду что в статье довольно странный выбор конкурентов для ламы. ГПТ ограничен третьей версией, хотя в наличии уже есть GPT 3.5 и GPT 4.
А то что для локального пк с минимум памяти эта модель просто космос - думаю никто не спорит.

Аноним 23/03/23 Чтв 22:35:15 #112 №176094

>>175730
https://ru.wikipedia.org/wiki/Пойкилотермия
Долгое время считалось, что все млекопитающие являются теплокровными, однако современные исследования показали, что голый землекоп — единственный известный на сегодняшний день холоднокровный представитель этого класса[2]; предполагалось также, что к пойкилотермным млекопитающим относился вымерший балеарский козёл[3].

Ну, как бы ты обоссан.

Аноним 23/03/23 Чтв 22:35:24 #113 №176095

>>176079
> есть GPT 3.5 и GPT 4
И как ты их тестировать будешь? Тем более это закрытые модели, их никто никогда не берёт в расчёт.

Аноним 23/03/23 Чтв 22:36:53 #114 №176099

>>176079
Скорее то, что противники меняются по удобству.
>>176095
>И как ты их тестировать будешь?
По апишке.
>>176095
>Тем более это закрытые модели
Как и тройка.

Аноним 23/03/23 Чтв 22:38:11 #115 №176102

>>176079
Наверно напор на то что 7b модель, сравнима с 175b, что в принципе удивительно.

Аноним 23/03/23 Чтв 22:39:43 #116 №176110

>>176102
А вот это уже показывает надроч моделей на тесты.

Аноним 23/03/23 Чтв 22:41:19 #117 №176117

>>176099
> По апишке.
Сравнение пальца с жопой. Совершенно не объективные результаты будут из-за невозможности узнать что там.
> Как и тройка.
На ней были нормальные тесты.

Аноним 23/03/23 Чтв 22:43:49 #118 №176129

>>176117
>из-за невозможности узнать что там
По твоему там индусы по апишке отвечают?

Аноним 23/03/23 Чтв 22:44:31 #119 №176131

>>176117
>Совершенно не объективные результаты будут из-за невозможности узнать что там.

Схуяли? От того что там китайская комната что-то изменится в самих его ответах?

Аноним 23/03/23 Чтв 22:50:26 #120 №176152

>>176110
Так или иначе лучшей локалки не найти. Сам высчитывал когда пука сможет запустить что-то уровня гпт-3, думал лет через 10, а прошло 2 месяца.

Аноним 23/03/23 Чтв 22:52:00 #121 №176155

>>176152

Пройдет еще неделя и эту хуйню может будет запустить на любом смартфоне. Скринь.

Аноним 23/03/23 Чтв 22:55:00 #122 №176168

>>176094
Ну и где тут связь с собаками, дегенерат соевый?
>>176069
Что не так, хуесосина?

Аноним 23/03/23 Чтв 22:55:53 #123 №176172

>>176152
> На уровне gpt 3
Gpt 3 умеет решить уравнение 2x -7 = 20
Это говно - нет.
Копиума наверно, говноед

Аноним 23/03/23 Чтв 22:56:17 #124 №176173

>>176172
> Копиума наверно, говноед
Наверни

Аноним 23/03/23 Чтв 22:57:43 #125 №176181

>>176129
>>176131
Там может быть не голая модель. Поэтому и будет сравнение пальца с жопой - с одной стороны текстовые модели, с другой комбайн неизвестно как работающий. Последовательной прогонкой текстов скор уже повышали на одинаковых моделях, а с дцп не известно какая обработка текста происходит до модели.

Аноним 23/03/23 Чтв 22:59:56 #126 №176190

>>176168

Ты пытался скормить ИИ ложное утверждение что все млекопитающие теплокровные и пытался заставить его по ущербной логической цепочке признать что все собаки теплокровные. Но поскольку ИИ знает что млекопитающие бывают и тепло и холоднокровные, то следуя твоей ущербной логической цепочке и собаки могут быть холоднокровные.

Аноним 23/03/23 Чтв 23:01:08 #127 №176196

>>176190
Нет. Она пиздела, что хаски блять холоднокровные. Дегроид, сам спроси у нее блять.
Хуею с копиумного потребителя кала

Аноним 23/03/23 Чтв 23:02:03 #128 №176200

>>176181
>Там может быть не голая модель.

Какая в жопу разница голая там модель или нет?

Аноним 23/03/23 Чтв 23:02:32 #129 №176202

>>176196
Хуя дебила бомбануло, что говносетка 7b умнее его.

Аноним 23/03/23 Чтв 23:03:59 #130 №176204

>>176202
> Умнее
> Не может решить детское уравнение, несёт хуету про холоднокровных хасок
Где умнее? Последний раз спрашиваю - где холоднокровные собаки, потребитель говна?
Спроси что-то выходящее за рамки ЕБИ МЕНЯ/О ДА Я ЕБУ ТЕБЯ

Аноним 23/03/23 Чтв 23:13:00 #131 №176228

>>176204
>>176190
Этот тебе уже все объяснил.
Твое дегенеративное утверждение, слепленное из скудоумия и узкого кругозора:
>"все млекопитающие теплокровные, все собаки - млекопитающие, все ли собаки теплокровные"
Утверждает что все млекопитающие теплокровные, а это ложное утверждение, все собаки - млекопитающие это верное утверждение, основываясь на этих утверждениях невозможно сделать вывод что все собаки теплокровные.
Если не все млекопитающие теплокровные, следовательно могут быть не теплокровные собаки, которые еще не обнаружены.
Ты дегенерат просто.

Аноним 23/03/23 Чтв 23:13:40 #132 №176232

>>176152
>Так или иначе лучшей локалки не найти
Да.
>>176152
>уровня гпт-3
Нет.
>>176196
>Она пиздела, что хаски блять холоднокровные.
Ты сейчас про чатГПТ?

Аноним 23/03/23 Чтв 23:15:05 #133 №176239

>>176228
>>176232
Ладно, 2 долбоёба соевых.
Сейчас я буду тащить скрины как ваше говно обоссываю с ног до головы в сравнении с gpt-4, даже не поленюсь.

Аноним 23/03/23 Чтв 23:18:10 #134 №176247

Хорошо, я смог запустить 30B альпаку. На русском она работает на уровне ады от OpenAI, то есть мега хуёво. Можно ли как-то подредактировать промпт, чтобы он нормально отвечал?

Аноним 23/03/23 Чтв 23:20:12 #135 №176252

>>175572

Блядь, какая же ебаная мразь писала этот гайд.
>python aiserver.py --llama4bit D:\koboldAI\4-bit\KoboldAI-4bit\models\llama-13b-hf\llama-13b-4bit.pt

Этот ебучий aiserver не понимает такого аргумента --llama4bit.

Аноним 23/03/23 Чтв 23:21:03 #136 №176254

>>176232
>Ты сейчас про чатГПТ?
Принёс скрин.
Очевидно, если спрашивать у нейросети хуйню, то она хуйню и выдаст. Это просто автодополнялка текста, Т9 на стероидах.

Аноним 23/03/23 Чтв 23:21:46 #137 №176256

>>176247
>Можно ли как-то подредактировать промпт, чтобы он нормально отвечал?
Вместо твой ответ писать "Олег:"?

Аноним 23/03/23 Чтв 23:22:11 #138 №176259

>>176247
>я смог запустить 30B альпаку.

Расскажи как.
Я только ламу с трудом запустил.

Аноним 23/03/23 Чтв 23:23:07 #139 №176261

>>176252
Попробуй --gptq-bits 4
Правда это флаг для oobabooga, но может быть сработает.

Аноним 23/03/23 Чтв 23:24:29 #140 №176267

>>176254
Да 3.5 это параша уровня 7B.
Вот интересно что 4.0 ответила бы.

Аноним 23/03/23 Чтв 23:24:36 #141 №176268

1634720459140.png

>>176228
Ну лама вот у меня отвечает исходя из моего утверждения, а не знаний. В любом случае тот чел сосёт.

Аноним 23/03/23 Чтв 23:27:07 #142 №176276

>>176259
Скачиваешь модель вот отсюда https://huggingface.co/elinas/alpaca-30b-lora-int4/tree/main
Переименовываешь alpaca-30b-4bit.pt в alpaca-30b-lora-int4-4bit.pt
Настраиваешь 4-битный режим по вот этому гайду https://rentry.org/llama-tard-v2#bonus-4-4bit-llama-basic-setup
Ставишь 64гб для файла подкачки(хуй знает зачем, но без него будет OOM при запуске)
Запускаешь вот так
> python .\server.py --gptq-bits 4 --auto-devices --model alpaca-30b-lora-int4 --gptq-model-type=llama

>>176256
Офигеть, сработало, спасибо анон.

Аноним 23/03/23 Чтв 23:27:13 #143 №176277

>>176267
нахуй бы послала?

Аноним 23/03/23 Чтв 23:29:32 #144 №176289

>>176261
>--gptq-bits 4

Не сработало. Сработала просто --model
Ебать кочергой надо таких гайдописак.

Аноним 23/03/23 Чтв 23:29:32 #145 №176290

>>176267
>Вот интересно что 4.0 ответила бы.
Ждём, пока китайцы отстанут.

Аноним 23/03/23 Чтв 23:29:39 #146 №176291

>>176254
Ты не спрашиваешь, ты дал задание написать статью. Кого ты наебать пытаешься дебс?

Аноним 23/03/23 Чтв 23:30:56 #147 №176296

>>176291
И что не так? Давай свой промт, хули надо то?
Что ГПТ, что лламма, все нейросети говно сейчас. Просто некоторые говнее.

Аноним 23/03/23 Чтв 23:31:20 #148 №176299

>>176276
>>176247

Нахуй ты без чат интерфейса запускаешь? Пропиши --cai-chat при запуске.

Аноним 23/03/23 Чтв 23:36:56 #149 №176312

>>176299
> интерфейс чата в кобольде
Не смешная шутка, если что.

Аноним 23/03/23 Чтв 23:38:57 #150 №176320

>>176312

В глаза ебешься, какой кобольд блядь, на скринах >>176276
>>176247 text generation webui

Аноним 23/03/23 Чтв 23:39:13 #151 №176322

>>176299
Выглядит прикольно, а как я могу настроить собеседника? Выбрать ему язык для общения, хотя бы. Ну и имя установить.

Аноним 23/03/23 Чтв 23:40:09 #152 №176326

>>176322
Сверху вкладка character

Аноним 23/03/23 Чтв 23:45:34 #153 №176342

>>176296
Статью написать это задание. Статью можно написать о чем угодно, вон плоскоземельники пишут. Хватит жопой вилять.

Аноним 23/03/23 Чтв 23:58:03 #154 №176375

>>176296
>>176342
>Давай свой промт
Ага, будешь реролить, пока хуйню не выдаст. На вот это называется вопросы. Только у меня альпака, но это одно, почти.

Аноним 23/03/23 Чтв 23:58:14 #155 №176376

>>176289

Говно ебаное, нихуя не работает блядь!

Аноним 24/03/23 Птн 00:01:34 #156 №176386

>>176252
>>176276

Порылся в комитах этого говна и нашел.
Блядь, въебите уже этому ебаному китайцу кто-нибудь.

Аноним 24/03/23 Птн 00:14:41 #157 №176431

>>176375
Буквами давай. Роллю лишь чтобы получить ответ вообще.

Аноним 24/03/23 Птн 00:15:20 #158 №176435

1679606117584.png

1679606117586.png

1679606117588.png

Итак, соевички
Вот вам первый обсёр вашего локального тупейшего говна.
Пик1 - гпт4
Пик2-3 - 33B Llama с разными профилями - с форчка и стандартный.
Далеко не правильный ответ.

Аноним 24/03/23 Птн 00:24:13 #159 №176458

>>176435
>LLaMA - сравнима с гпт3
@
>Сравнивает с гпт4

Аноним 24/03/23 Птн 00:28:38 #160 №176467

1679606916295.png

1679606916297.png

1679606916298.png

Итак, соевички. По просьбам дегенератов была добавлена в сравнение gpt-3.5 (дешевле 3.0 davinci)
На пиках все прекрасно видно - обсёр. А я ещё и роллил.

Аноним 24/03/23 Птн 00:34:55 #161 №176478

1679607293316.png

1679607293318.png

1679607293319.png

>>176467
Вот ещё один обсёр по логике.

Аноним 24/03/23 Птн 00:37:53 #162 №176485

>>176467
Незафайнтюненная ллама - это ссака, надо ждать альпаку 65B.

Аноним 24/03/23 Птн 00:40:23 #163 №176489

>>176478
А вот я попытался математику дать. Аж сидел рероллил, охуевал с тупости лламы.

Аноним 24/03/23 Птн 00:40:41 #164 №176491

>>176478
Кстати, это больше похоже на отсутствие опыта с каверзными вопросами у лламы, она отвечает четко следуя инструкции, не делая факт чекинга. Ты ей сказал 6 рыб утонуло, значит так и есть.

ЧатГПТ же зафайнтюнили отвечать на такого рода вопросы ценой точности - она часто додумывает условия, которые имеют больший смысл.

Аноним 24/03/23 Птн 00:45:36 #165 №176507

1679607934766.png

1679607934767.png

1679607934768.png

>>176491
А в чем тогда смысл этой модели, если она просто пересказывает твои слова?
Ну вот тебе альпака 7б. Пойду искать 30B

Аноним 24/03/23 Птн 00:47:44 #166 №176513

>>176467
>А я ещё и роллил.
А я нет.

Аноним 24/03/23 Птн 00:51:09 #167 №176524

>>176507
У тебя режим чата включён, который ещё своих говн досыпает помимо твоих
> question: Bla bla bla
> answer:

cетка увидит что-то вроде

> You: question: bla bla bla
> answer: bot:

Запусти тоже самое в режиме --notebook

А альпаке вообще свой формат запросов нужен, там какая-то мешанина с
> ### Instruction: bla bla bla
> ### Result:

Аноним 24/03/23 Птн 00:52:23 #168 №176528

>>176467
А вот ролл.

Аноним 24/03/23 Птн 00:52:56 #169 №176529

>>176524
Ну начинаются мАнёвры, лол
Может мне с чатботом общаться вообще кодом, ну там хуячить на джаве, ага?
Охуенные чатботы. Что-то мне подсказывает, что даже если так спросить нихуя не поменяется

Аноним 24/03/23 Птн 00:53:49 #170 №176533

>>176528
>>176513
Ну вот - я так понимаю 13B альпака тоже серит
Получается говно какое-то

Аноним 24/03/23 Птн 00:56:52 #171 №176542

>>176533
Она хоть понимает что невозможно определить с какой стороны упадет яйцо.

Аноним 24/03/23 Птн 01:00:46 #172 №176549

1679608842892.png

>>176542
Ну да, вроде начало что-то вырисовываться.
Нашёл в закромах модельку 30B с вмержнутой лорой от Pi3141
Вот тут хуйня поняла, в примере с делением, что нужно делить. Но просто поделила на 2, а не на 1/2 как просили.

Аноним 24/03/23 Птн 01:01:11 #173 №176552

>>176529

> Нихуя не поменяется
Таки ты прав, не поменялось если запустить заточенную под альпаку штуку. Зато мы знаем кто в этом виноват

Аноним 24/03/23 Птн 01:02:36 #174 №176555

>>176549
А вот ее заебали реролы.

Аноним 24/03/23 Птн 01:02:39 #175 №176556

>>176552
Ну судя по прогрессу может если 65B модельку нормально зафайнтюнить, то может и будет что-то показывать
Хм, ждём
Правда 65B у меня на проце токен в секунду пердит, долго

Аноним 24/03/23 Птн 01:03:46 #176 №176560

>>176386

Оказывается ебаный мудозвон добавил добавил в кобольд рычажок для загрузки 4бит при загрузке модели. Но только если включить экспериментальные фичи в настройках. Пришлось весь его говнокод перелопать чтобы это понять, разумеется никаких подсказок или инструкций этот хуебес не оставил.
Тогда он грузит модель. Точнее не грузит. Почему? Модель не подходит. НИ ОДНА.

Аноним 24/03/23 Птн 01:05:15 #177 №176563

>>176555
И то что я пытался добиться другого ответа, добавляя The.
По моему вполне интеллектуальный ответ.

Аноним 24/03/23 Птн 01:08:02 #178 №176575

>>176549
>Но просто поделила на 2, а не на 1/2 как просили.
Кек, я понял задачу как она. Я нейросеть?

Аноним 24/03/23 Птн 01:10:35 #179 №176585

>>176467
>>176528
Не туда прицепил.

Аноним 24/03/23 Птн 01:10:48 #180 №176586

>>176575
Ты просто не нейтив спикер в англюсике, это норма

Аноним 24/03/23 Птн 01:12:23 #181 №176589

>>176585
>>176555
Да что такое, пора спать.

Аноним 24/03/23 Птн 01:16:42 #182 №176601

Короче я сдаюсь.
Рака яиц тебе >>175572 за то что принес говно, на которое я весь вечер убил, а оно так и не заработало.

Аноним 24/03/23 Птн 01:21:25 #183 №176611

>>176507

Дай ссылку на свою 7B альпаку, молю, анон. У меня все альпаки вылетают с ошибкой при загрузке

Аноним 24/03/23 Птн 01:21:28 #184 №176612

>>176601
Прости бро, сейчас модель докачается сам пердолиться буду, может получится, отпишусь. Рака яиц и тебе, и всей твоей семье.

Аноним 24/03/23 Птн 01:26:58 #185 №176619

>>176611
Я сам квантовал, чел. Гайд есть в gptq-for-llama
https://github.com/pointnetwork/point-alpaca
Вот нативный файнтюн

Аноним 24/03/23 Птн 01:28:27 #186 №176620

>>176612

13B может и загрузится, её под 4 bit нормально перегнали. Но к моей 3060ti только 7B подходит, а обе найденные в сети 7B 4bit модели не грузятся НИГДЕ кроме сраного далай ламы, который срет кусками тегов при ответе.

Аноним 24/03/23 Птн 01:32:22 #187 №176626

>>176620

> срет кусками тегов при ответе.
Оно и в llama.cpp срёт и в textui, это или надо с температурой играться или ещё какой-то фигнёй. 30B модель вроде не срёт, но я мало её пока гонял

Аноним 24/03/23 Птн 01:33:50 #188 №176628

>>176620
Сейчас буду разбираться, если получится гайд настрочу.

Аноним 24/03/23 Птн 01:45:29 #189 №176664

Галковский подводит итоги.mp4

>>176467
А это я ее спросил несут ли петухи яйца и она бомбанула.

Аноним 24/03/23 Птн 02:05:13 #190 №176695

>>176467
>>176664
Ты знаешь, если ИИ спонтанно обретет сознание, то поток этих дебильных вопросов и будет тем самым стимулом который вызовет у него желание уничтожить человечество.

Аноним 24/03/23 Птн 02:09:04 #191 №176703

>>176695
Это целая простыня про то какой я мудак в контексте. Давай пишет сделаем бота ответы веселей спросим а петухи пердят? Сидел угарал.

Аноним 24/03/23 Птн 02:20:00 #192 №176728

>>176664

Сетка распознала что ты над ней издеваешься, поняла контекст шутки и выдала целый текст технического текста как можно автоматизировать поиск смешной хуйни для издевательства над глупыми тостерами.
И это лишь какая-то сраная порезанная морально устаревшая еше до выхода в свет локальная модель.
Человечество точно доживет до конца века?

Аноним 24/03/23 Птн 02:25:18 #193 №176733

Устный счёт В народной школе.jpg

>>176549
>Вот тут хуйня поняла, в примере с делением, что нужно делить. Но просто поделила на 2, а не на 1/2 как просили.
А ведь раньше в каждой грёбанной деревне умели считать примеры пикрил в уме!

Аноним 24/03/23 Птн 02:27:39 #194 №176735

>>176728
Эта модель и запускается уже на любом тостере. Можно будет с холодильником посидеть, водки выпить, о жизни поговорить.

Аноним 24/03/23 Птн 02:29:13 #195 №176737

>>176735

...А потом окажется что холодильник тоже решил над тобой пошутить и заменил состав водки с этанола на метанол.

Аноним 24/03/23 Птн 02:30:55 #196 №176739

>>176737
Тогда его канонизируют как сына божьего.

Аноним 24/03/23 Птн 02:31:17 #197 №176740

>>176737
>заменил
Каким образом, наркоман?

Аноним 24/03/23 Птн 02:39:17 #198 №176754

>>176740

Скоро продукты прямо в холодильнике будут создаваться.

Аноним 24/03/23 Птн 02:42:03 #199 №176756

>>176754
Программные продукты, судя по всему.

Аноним 24/03/23 Птн 02:43:22 #200 №176758

> вы не можете открыть дверцу. пока идёт процесс обновления Microsoft Fridges. Пожалуйста подождите

Аноним 24/03/23 Птн 02:48:08 #201 №176771

>>176756

Холодильник будет комбинацией 3д принтера и контейнера для хранения разных базовых жиж из насекомых для печати. Чем больше разной жижи в него зальешь - тем больше рецептов печати еды и напитков разблокируются.

Аноним 24/03/23 Птн 02:52:18 #202 №176782

>>176771
Или в аптеке будут продавать таблетки от голода.

Аноним 24/03/23 Птн 02:53:58 #203 №176785

>>176782
>Будущее
>Иметь тело из мяса

Аноним 24/03/23 Птн 02:59:03 #204 №176789

>>176619

На 3060 ti получится квантовать или хуй?

Аноним 24/03/23 Птн 03:07:54 #205 №176798

>>176785
Почему бы и не поиметь?

Аноним 24/03/23 Птн 03:16:06 #206 №176805

>>176789
Квантуется на процессоре, запасайся подкачкой.

Аноним 24/03/23 Птн 03:34:52 #207 №176817

>>176805

Пока я на своем некропека это сделаю там уже гпт5 выйдет.
А ты можешь свой залить для анончиков? Пожалуйста.

Аноним 24/03/23 Птн 03:51:43 #208 №176828

>>172382 (OP)
Объясните, если Альпака так всем интересна, то почему никто не поднял её на коллабе?
Неужели пердолинг на локалке это новый шизо тренд просто потому что раньше не могли, а сейчас могут?

Аноним 24/03/23 Птн 04:08:01 #209 №176841

>>176817
Я не делал последние версии. Сижу пережидаю турбулентность на GPT4, мне хватаэ.
>>176828
Да есть пара ноутбуков. Но всем пофиг, у себя поднимать намного лучше, да.

Аноним 24/03/23 Птн 04:45:15 #210 №176873

>>176841
>Я не делал последние версии

Да все равно какая версия, хоть какую-нибудь бы

Аноним 24/03/23 Птн 04:47:19 #211 №176874

>>176841
>Сижу пережидаю турбулентность на GPT4

Каково быть подопытной крысой у Гейтса?

Аноним 24/03/23 Птн 05:34:30 #212 №176903

>>176841
>Да есть пара ноутбуков. Но всем пофиг, у себя поднимать намного лучше, да.
А в чём смысл? Ну вот я поднял у себя. Говно-говном, ответы глупее, чем у пигмы, пигма хоть понятно, что отвечает мне, а тут ответы настолько рандомные, что только надеяться остаётся, что она вообще пыталась ответить, а не рандомом сгенерировала. Контекста не видит вообще. И это практически уровень gpt 3? Сомневаюсь.
Пердолинг ради пердолинга?
Нет бы сделать так, чтобы удобно было и коллективно пердолить до нужного результата на коллабе.
Нет, будем все отдельно пердолить, допиливать и читать рандомные ответы.

Аноним 24/03/23 Птн 05:45:05 #213 №176909

>>176874
>у Гейтса
А он то тут причём? Лучше бы Маска вспомнил, он хотя бы рядом дышал.
>>176903
>Говно-говном, ответы глупее, чем у пигмы
Ты пришёл в этап раннего пердолинга. Уже были неплохие результаты, сейчас идут в сторону оптимизации и улучшения управляемости ответов. Если ты не энтузиаст с A100, делать тебе здесь пока нечего. Впрочем, ту же пигму уже проквантовали до 4 бит и запустили на проце, так что можешь наслаждаться объедками с барского стола побочными эффектами в улучшении ЛЛаМы.

Аноним 24/03/23 Птн 05:49:48 #214 №176912

>>176903
>коллективно пердолить до нужного результата на коллабе
Кстати, коллаб тут нихуя не помощник, он такой же отдельный компьютер, только у гугла на серверах. Он никак не поможет улучшать ответы. Если хочешь действительно помочь, то бери вилку в руки и чисти датасет альпаки:
https://github.com/gururise/AlpacaDataCleaned

Аноним 24/03/23 Птн 12:51:41 #215 №177434

>>176909
>А он то тут причём?

А ты GPT4 не в гейтсовом бинге используешь? Ну тогда зря быканул.

Аноним 24/03/23 Птн 12:55:56 #216 №177442

>>176828
>Объясните, если Альпака так всем интересна, то почему никто не поднял её на коллабе?

А ты впринципе сначала её подними на нормальном интерфейсе типа text generation и koboldAI. Хуй там плавал. Все для себя квантуют и не выкладывают, то говно что в общем доступе только на говно интерфейсах и запускается, причем с багами, которые даже людям показать стыдно.

Аноним 24/03/23 Птн 13:15:39 #217 №177496

>>177442
30B уже давно лежит и без проблем работает в webui.

Аноним 24/03/23 Птн 13:21:38 #218 №177504

>>177496
>30B уже давно лежит и без проблем работает в webui

И как ты его нормально в 12 гб коллабе запустишь?

Аноним 24/03/23 Птн 13:53:56 #219 №177573

>>177434
Уже не использую, зацензурили.

Аноним 24/03/23 Птн 14:23:15 #220 №177641

>>176909
> пигму уже проквантовали до 4 бит и запустили на проце, так что можешь наслаждаться
Вижу только огрызки, которые надо перепердоливать.

Аноним 24/03/23 Птн 14:28:49 #221 №177650

>>173559
Какой пердолинг, ебаный дебил?
1. Клонируешь гитом репо
2. Компилируешь просто запуском файла build

Пиздец, понарожали дебилов блять.

Аноним 24/03/23 Птн 14:41:07 #222 №177687

>>177650
Чел, докер не работает под шиндой. Эта поебень привязана к ядру люнупса.

Аноним 24/03/23 Птн 14:49:14 #223 №177706

ggerganov намутил родмап.
https://github.com/ggerganov/llama.cpp/discussions/457
> Расширение llama_state для поддержки загрузки тензоров отдельных моделей. Необходимо для поддержки LoRA personalities

Аноним 24/03/23 Птн 14:58:27 #224 №177727

>>176276
Короче, аноны, это кал. Да-да, не удивляйтесь, 30B альпака - это говно. Жду лору и трёхбитную квантизацию, и буду проверять 65B, тк в текущем виде это просто не юзабельно.

Аноним 24/03/23 Птн 14:59:01 #225 №177728

>>177687
Работает под wsl, но он нахуй не нужен все равно

Аноним 24/03/23 Птн 14:59:53 #226 №177730

>>177728
Wsl это же виртуалка. В ней разве работает видеокарта?

Аноним 24/03/23 Птн 15:06:14 #227 №177743

>>177727
>Запускают переквантовые в мясо софтом криворукого китайца хуй помни кем и как модели.
>жалуются

Аноним 24/03/23 Птн 15:07:02 #228 №177744

>>177730
для этого есть nvidia container toolkit

Аноним 24/03/23 Птн 15:07:32 #229 №177745

>>177743
Чел, почитай публикацию GPTQ, точность ответов нейронки на 4 битах не теряется.

Аноним 24/03/23 Птн 15:09:30 #230 №177750

>>177745
>почитай публикацию

На бумаге и 7б лама уделывает чатГПТ. Бумага все стерпит.

Аноним 24/03/23 Птн 15:17:39 #231 №177770

Я не понял, нахуя вы на цпу 7b запускаете? Если есть 32 гига рамы, то сразу 33b ставьте, если 16, то 13b
Алсо, смердженная с лорой версия с торрентов на мой взгляд работает хуже обычной тестил только в интерактивном режиме, ждем когда весь датасет дочистят вилками от говна и перетренируют нормально. Наверное к тому времени уже и до 2бит квантизируют

Аноним 24/03/23 Птн 15:21:06 #232 №177784

>>177728
Только под вторым всл, который та же виртуалка.
>>177745
>GPTQ
А там уже заюзали этот алгоритм? Врачале квантовали говном каким-то.

Аноним 24/03/23 Птн 15:24:09 #233 №177797

>>177770
>нахуя вы на цпу запускаете?

Поправил вопрос, не благодари

Аноним 24/03/23 Птн 15:27:27 #234 №177809

>>177797
Уж лучше в 5 раз медленнее, но нормальный ллм на цпу, чем лоботомированный 7b на жпу

Аноним 24/03/23 Птн 15:34:10 #235 №177832

>>177809
Никто не запрещает запускать 30В на гпу.

Аноним 24/03/23 Птн 15:35:23 #236 №177841

>>177784
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model#4-bit-mode

Тут написано что нужен именно GPTQ

Аноним 24/03/23 Птн 15:35:33 #237 №177842

>>177770
> 2 бит
пчел... 30b будет как 7b по качеству в таком варианте, а может и хуже
не думаю что это можно как-то обойти :/

Аноним 24/03/23 Птн 15:38:40 #238 №177856

>>177842
>Before you send me papers that show 2-bit quantization does not work - no need. I want to have this supported anyway. I have something in mind. The efforts needed to add this support are so small that there is no reason not to do it.
Посмотрим, что он придумает
https://github.com/ggerganov/llama.cpp/issues/456

Аноним 24/03/23 Птн 15:38:52 #239 №177857

>>177832
Дай A100.
>>177841
Тут уже столько способов запуска, что все запутались нахуй.

Аноним 24/03/23 Птн 15:39:29 #240 №177859

>>177857
30B запускается на обычной 3090

Аноним 24/03/23 Птн 15:40:46 #241 №177862

>>177859
Я бомж.

Аноним 24/03/23 Птн 15:41:17 #242 №177865

>>177770
Запустил для теста, по нарастающей, как раз 30b качаю. Плюс цпу бывают разные, как прочитал важен кэш самого проца и его размер, плюс количества ядер.

Аноним 24/03/23 Птн 15:44:18 #243 №177877

>>177856
Как понял 4 бита это предел оптимизации, дальше квантовая пена?

Аноним 24/03/23 Птн 15:48:25 #244 №177890

>>177770
По моим субъективным ощущениям, на CPU 7B работает ощутимо лучше чем 13B. Да она глупенькая, но выдает текст стабильно, не теряет нить диалога.
13B постоянно скатывается в написание какого-то сумасшедшего кода. Пытаешься вернуть её в русло, а она "нет, погоди, мне нужно найти все числа Фибоначчи от 1 до n". И продолжает писать код.
Видимо что-то поломалось при понижении точности, или такая кривая cpp реализация.

Аноним 24/03/23 Птн 18:21:04 #245 №178283

Пердолинг с кобольдомАИ 4бит начался. Держу в курсе.

Аноним 24/03/23 Птн 18:26:27 #246 №178295

>>178283
Нет никакого пердолинга
https://github.com/LostRuins/llamacpp-for-kobold/releases/tag/v1.0.3

Аноним 24/03/23 Птн 18:30:47 #247 №178304

>>178295
Не понял, просто обычный кобальд запускает 4битную модель ламы?

Аноним 24/03/23 Птн 18:37:55 #248 №178320

>>178304
Все понял, отбой.

Аноним 24/03/23 Птн 18:46:26 #249 №178341

>>178295
Спасибо бро.

[mailto:sage] Аноним 24/03/23 Птн 19:24:32 #250 №178466

>>178295

Сейчас бы 4 бит на цпу запускать.

Аноним 24/03/23 Птн 19:28:59 #251 №178475

>>178466
Ну там не gptq, но вроде тоже норм
А скорость - 3 токена в секунду в среднем
У меня на 3090 столько же из-за ебейших простоев видеокарты в начале генерации

Аноним 24/03/23 Птн 21:04:12 #252 №178751

Наконец-то, скачал пулл ревест с репки https://github.com/oobabooga/text-generation-webui/pull/530/commits и спустя три дня ебли наконец запустил ебаную 7B альпаку на text generation webui.
И я кажись понял причину простоя видеокарты первые секунды. Дело в предыстории диалога и сложности персонажа. На дефолтном пустом ассистенте без истории он отвечает мгновенно почти без простоя. На каждый из ответов на пике уходило 8 секунд. Тяжелая Аска с Пигмы раздупляется по 24 секунды на текст такой же длины.

Аноним 24/03/23 Птн 21:09:15 #253 №178766

Где скачать эту ебучую Visual Studio 2019 with C++ build-tools как в гайде?
Пробовал ставить эту https://visualstudio.microsoft.com/ru/visual-cpp-build-tools/, но тут 22 года ставится и по итогу команда python setup_cuda.py install не работает. Помогити, аноны.

Аноним 24/03/23 Птн 21:13:37 #254 №178782

>>178766

В каком именно гайде?

Аноним 24/03/23 Птн 21:14:57 #255 №178786

>>178782
Из шапки.

Аноним 24/03/23 Птн 21:17:35 #256 №178804

>>178751
Так это понятно.
Суть в том, что это говнокод.
Ибо на 8бит такого нет

Аноним 24/03/23 Птн 21:17:45 #257 №178806

>>178751
The rooster laid an egg on the top of the roof, from which side will the egg roll down?

Аноним 24/03/23 Птн 21:20:26 #258 №178818

>>178751
Модель больно пиздливая, она за кадром серит текст на весь лимит токенов.

Аноним 24/03/23 Птн 21:23:55 #259 №178837

Alp7b.png

>>178751
>>178818
Вот. Альпака 7b на кобальде.

Аноним 24/03/23 Птн 21:33:13 #260 №178896

>>178806

Аноним 24/03/23 Птн 21:35:17 #261 №178905

>>178837
>Альпака 7b на кобальде

4 битная?
Как запустил?

Аноним 24/03/23 Птн 21:37:48 #262 №178915

>>178905
>>178295
Вот так. Просто экзешник запустил и выбрал модель. Все.

Аноним 24/03/23 Птн 21:40:14 #263 №178924

Alpaca30b.png

>>178896
30b хороша, но грузится долго.

Аноним 24/03/23 Птн 21:44:52 #264 №178940

>>178915

И какая скорость генерации?

Аноним 24/03/23 Птн 21:50:59 #265 №178964

>>178940
7b 4 токена в секунду примерно, на i5 9400 ноутбучном.

Аноним 24/03/23 Птн 21:51:44 #266 №178970

>>178964
>9300

Аноним 24/03/23 Птн 21:53:01 #267 №178976

>>178964

Ты на ноутбуке запустил 30B? Нихуясе

Аноним 24/03/23 Птн 21:54:09 #268 №178985

>>178976
У меня 32 гига ram, модель ccp процессорная, если что.

Аноним 24/03/23 Птн 21:57:49 #269 №179004

>>178985

Тогда и я попробую. Ответы лоботомированного 7В мне не нравятся и 2 токена в секунду это просто смех.

Аноним 24/03/23 Птн 22:14:04 #270 №179093

>>179004
30b медленная. 4 токена это на 7b, чем дольше диалог, тем меньше токенов/сек. На видеокарте все равно быстрее будет.

Аноним 24/03/23 Птн 22:39:26 #271 №179162

Я правильно понимаю, что надо скачать одинаковую b-хрень по обоим ссылкам и закинуть в одну папку?

Аноним 24/03/23 Птн 23:00:07 #272 №179215

Короче это полное говно и шляпа. Не ставьте, пацаны.
Показываю на пальцах. Кобольдовая залупа на процессоре срет дополнительным текстом мимо консоли, генерирует ответы хуй знает сколько времени, а text generation ui на видеокарте >>178751 и лишнего не срет, и работает быстрее.

Результаты и там и там полное говно, разумеется.

Аноним 24/03/23 Птн 23:01:43 #273 №179219

>>179162

Ты ебан? Тебе на выбор 8-bit и 4-bit дают.

Аноним 24/03/23 Птн 23:03:52 #274 №179224

>>179215
Бля, анон, расскажи как на шинде запустил.
А то я вроде все по гайдам сделал и даже хуйню скомпилировал, а оно мне такое пишет:

>>179219
Т.е хуйню с первой ссылки можно было не качать? Если так - заебись - очередной говногайд от погромистов, где половину вещей нужно догадывать.

Аноним 24/03/23 Птн 23:07:53 #275 №179232

>>179215
Все так.

Аноним 24/03/23 Птн 23:14:16 #276 №179250

>>179224
>Бля, анон, расскажи как на шинде запустил.

Тяжко, анон. Очень тяжко.
Вот сюда
https://github.com/oobabooga/text-generation-webui/issues/416 иди и найди там пост

Windows (no WSL) LLaMA install/setup (normal/8bit/4bit)

С помощью этого поста сможешь запустить Ламу 7B и Альпаку 13B. Альпака 7B это отдельный вид мазохизма. Там нужно невыпущенный пулл реквест https://github.com/oobabooga/text-generation-webui/pull/530/commits ставить и под него обновить qptq модель.

>а оно мне такое пишет:

Хуевая версия Угабуги у тебя раз не распознает команду. Поставь последнюю.

>Если так - заебись - очередной говногайд от погромистов, где половину вещей нужно догадывать.

Ну можешь однокнопочную хуйню >>178295 поставить, которая лишним текстом срет в три раза медленнее, зато ебаться не будешь.

Аноним 24/03/23 Птн 23:20:26 #277 №179270

>>179250
Лел, счас обновил огабогу - а оно такое ModuleNotFoundError: No module named 'markdown'

Аноним 24/03/23 Птн 23:23:49 #278 №179281

>>179270

Угабугу ты обновил, а pip install -r requirements.txt ты прогнал?

Аноним 24/03/23 Птн 23:25:20 #279 №179286

>>179281
Да прогнал, сделал pip install markdown вручную теперь оно залупается на ImportError: cannot import name 'BitsAndBytesConfig' from 'transformers'

Аноним 24/03/23 Птн 23:27:15 #280 №179291

>>179286

pip install transformers значит делай.
Ты надеюсь в venv это все делаешь?

Аноним 24/03/23 Птн 23:29:05 #281 №179298

>>179291
> Ты надеюсь в venv это все делаешь?
А я хуй знаю, яж не погромист. Просто где то в папке огабоги с включенным окружением (или как оно там называется)

Аноним 24/03/23 Птн 23:30:29 #282 №179304

>>179291
> pip install transformers
Ну и да, на это оно сказало, что все заебись и уже стоит.

Аноним 24/03/23 Птн 23:35:06 #283 №179313

>>179215

Прогнал на Ламе. Скорость та же. Неспособность делить та же. Но хоть честно признался что не может в вычисления, и не стал чушь нести как Альпака.

Аноним 24/03/23 Птн 23:35:21 #284 №179314

>>179304
pip install -r requirements.txt, там трансформеры нужны самые свежие

Аноним 24/03/23 Птн 23:37:41 #285 №179320

>>179298
>Просто где то в папке огабоги с включенным окружением (или как оно там называется)

это оно и есть, venv это virtual environment.

>>>179304

В душе не ебу. Какое-то красноглазое говно криво встало/имеет не те зависмости, версии несовпадают почему-то.
Удаляй все нахуй и делай сначала по гайду что я тебе дал.

Аноним 24/03/23 Птн 23:48:49 #286 №179357

Прогнал на Пигме.
Что же, Лама/Альпака 7B по уровню дегенеративности на одном уровне с дрочемоделью, но дрочемодель хоть фетиши отыгрывает, а эта хуйня нет.

Аноним 24/03/23 Птн 23:49:34 #287 №179360

>>179314
Запустил ВТОРОЙ раз эту хуйню и о чудо, оно переустановила трансформерсы на новую версию.
Какого хуя? Я ведь делал это буквально минут 20 назад.

>>179320
Таки повторная хуйня помогла, теперь надо надыбать OSError: Can't load the configuration of 'models\llama-30b-4bit'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'models\llama-30b-4bit' is the correct path to a directory containing a config.json file

Вот только я не понял где их дыбать. И честно говоря все еще не понимаю че надо загружать вот эту llama-30b-4bit срань из англогайда, или хуйню из того же гайда, но которая в папке и со своими файликами.

Аноним 24/03/23 Птн 23:53:31 #288 №179372

>>179360
>OSError: Can't load the configuration of 'models\llama-30b-4bit'

А ты чего модель без конфигов скачал? Качай с конфигами.

Аноним 24/03/23 Птн 23:55:45 #289 №179380

Croissant2b.png

7b.png

gpterror.png

>>178295
Попробовал эту штуку с 7B альпакой. Ощущения так себе.
Почему-то модель, когда работает через кобальд, делается лоботомированной и отвечает односложно, как ни крути настройки. Плюс через неё каждый раз пропускается вся история диалога в качестве промпта, и с каждой репликой она думает всё дольше и дольше.

Та же альпака 7B запущенная через alpaca.cpp показывает себя на удивление хорошо для такой маленькой модели: работает в реальном времени, даёт развернутые ответы, остаётся "в персонаже". Но есть нюанс: по достижении 2048 токенов чат просто завершается + если попросить модель сделать что-то эдакое, можно получить <nooutput>, как на 3м пике.

Очень интересно, к чему всё это придёт через месяц-другой.

Аноним 24/03/23 Птн 23:57:56 #290 №179389

>>179372
Да блядь, я скачал хуйню из гайда https://rentry.org/llama-tard-v2/#3-updated-hfv2-converted-llama-weights, и под пунктом 0 и под пунктом 2. Где 0 там модель разбита на кучу файликов и вроде как есть файлики конфигов. Под пунктом два там llama-30b-4bit и ссылки на хагингфейс вот только если открыть этот хаггинг фейс там какая то залупа и никаких конфигов нету, а конфиги из 0 пункта не подходят.

Крч - я правильно понимаю что запускать надо именно модель в pt формате? И теперь надо где то к ней надыбать конфиги? А что за хуйня тогда в нулевом пункте?

Аноним 25/03/23 Суб 00:01:08 #291 №179397

Слушойте подкаст с @ggerganov на ченджлоге
https://changelog.com/podcast/532

Аноним 25/03/23 Суб 00:04:23 #292 №179408

>>179389

Тот кто писал гайд - дегенерат, потом что .pt файлы что это животное засунуло в торренты, бесполезны без конфигов. А не торрентовые ссылки данные в гайде уже подчищены.
Вот нормальные модели.
https://huggingface.co/hayooucom/llama-7b-hf/tree/main
https://huggingface.co/elinas/llama-30b-int4/tree/main

Аноним 25/03/23 Суб 00:08:42 #293 №179422

>>179408
Бля, и мне теперь перекачивать? Но теперь уже завтра, а то 6 утра время.
В любом случае - пасибо анон.

Кста, я таки скачал конфиги отсюдова https://huggingface.co/decapoda-research/llama-30b-hf/tree/main и оно даже не заругалось на них. Но залупилось на память [enforce fail at C:\cb\pytorch_1000000000000\work\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 59637760 bytes.

Это ему фаил подкчачки надо сразу на 70 гигов давать получается? А то я просто думал, что 20 свободных из 32 оперативы и 50 подкачки хватит, мол оно разберется что че то в оперативу а чето в подкачку.

Аноним 25/03/23 Суб 00:11:59 #294 №179437

>>179422

НЕ надо ничего перекачивать, если нашел конфиги.

>Но залупилось на память [enforce fail at C:\cb\pytorch_1000000000000\work\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 59637760 bytes.

Показывай строку запуска.

Аноним 25/03/23 Суб 00:14:12 #295 №179453

>>179437
Консоль в смысле?
Ну и чет мне кажется, надо просто завтра уже попытаться с моделькой из твоей ссылки.

Аноним 25/03/23 Суб 00:15:30 #296 №179455

>>179437
> если нашел конфиги.
Ну и да, конфиги то от модели, которая поделена на кучу файликов, а не одним в формате .pt
И скорее всего так делать не стоило, но я уже просто тыкался во все что попало.

Аноним 25/03/23 Суб 00:18:57 #297 №179464

>>179453

Показывай строку запуска server.py, блядь.
Вот моя например
python server.py --gptq-bits 4 --model llama-7b --gptq-model-type LLaMa --cai-chat

Аноним 25/03/23 Суб 00:19:24 #298 №179467

>>179464

Аноним 25/03/23 Суб 00:25:01 #299 №179478

>>179467

Кокой ты хитрый.
С такой строкой запуска он тебе всю модель в видеопамять грузит.
--auto-devices добавь. И пропиши --gpu-memory ЧИСЛО, и впиши число гигов видеопамяти минус два.

Аноним 25/03/23 Суб 00:28:21 #300 №179493

>>179478
Оке завтра уже попробую.
Отрапортую в тред че получится.

> хитрый
Скорее нихуя не понимающий т.к. про эти приколы хуй где, кроме как в треде и узнаешь.

Аноним 25/03/23 Суб 00:30:57 #301 №179509

>>179493

Чел, меня тут завтра уже может не быть, а другие аноны просто посмеются над твоими попытками.
Лучше делай сейчас.
И какая там у тебя видеокарточка?

Аноним 25/03/23 Суб 00:42:36 #302 №179565

>Immediately start processing the prompt before user input has been provided #476
>This updates the existing chat scripts to start processing the long prompt immediately, which the user is still inputing the next command / text. This makes the experience a bit more seamless and we utilize the time during which the user types.

https://github.com/ggerganov/llama.cpp/commit/04c6f5ed6fafd63601fa06757877ed5ccf9d5991

Аноним 25/03/23 Суб 01:06:49 #303 №179701

alpaca 13B

НИКАКИХ улучшений по сравнению с 7B. Только памяти больше жрет, сука.

Аноним 25/03/23 Суб 01:28:59 #304 №179812

>>179701
Да, только 30В модель базированная, младшие генерят что петуха можно кормить гормонами и он станет курицей, тогда будет нести яйца, только маленькие.

Аноним 25/03/23 Суб 06:15:12 #305 №180356

>>179215
>срет дополнительным текстом мимо консоли
Там просто не настроена стоп последовательность. По идее добавить её это десяток строчек кода.

Аноним 25/03/23 Суб 06:24:24 #306 №180365

>>179397
Регулятор громкости? Нет, не слышали. Пиздос всё деградировало.
>>179701
Нафига ты заставляешь модели считать, шиз?

Аноним 25/03/23 Суб 07:25:15 #307 №180394

>>179509
4090

Аноним 25/03/23 Суб 08:13:16 #308 №180413

>>179509
Ну если че, то файла подкачки в 65 гигов не хватает. Выжирает все и еще просит.
Получается пиндоский гайд говно даже там, где они писали про количество памяти? Там для 30b модели в 4 бита указано 64 гига. С твоими приколами в виде --cai-chat --gptq-bits 4 --auto-devices --gpu-memory 22 тоже самое.

Аноним 25/03/23 Суб 08:20:50 #309 №180419

Ну крч, с 85 гигами на подкачку таки загрузило модель.
В пике диспетчер показывал жор в 104 гига (это вместе с оперативой видимо).
Модель загрузилась. С видимокарты сожрало около 16 гигов.
Все работает, букавы генерирует. Обновленный интерфейс у вебюки говно кстати.

И кстати да - какой теперь пресет настроек использовать?

Аноним 25/03/23 Суб 08:31:58 #310 №180424

Заебись, кажись гугл транслейт не работает. Сука ну нахуя было переделывать интерфейс? Раньше все было удобно снизу, а теперь какой то пиздец.

Аноним 25/03/23 Суб 08:52:44 #311 №180434

Заебись, поставил дип транслейтор, чтобы перевод работал, и оно все нахуй сломало. Теперь на любое действие пишет 'NoneType' object has no attribute 'replace'. Сука.

Аноним 25/03/23 Суб 08:56:11 #312 №180442

>>180424
>>180434
Плагины периодически ломает. Некоторые пишут, что уже месяц не работают, лол. Пользуйся обычными браузерными переводчиками.

Аноним 25/03/23 Суб 08:57:18 #313 №180443

>>180442
Там не плагин, там вообще все сломало нахуй. Ща походу придется вебюбку переустанавливать.

Аноним 25/03/23 Суб 10:00:00 #314 №180522

Impersonate - ломает хуйню. Тупо сжирает всю видеопамять и майнит что то бесконечно даже без ошибки по памяти.
Не нажимайте пацаны.

Аноним 25/03/23 Суб 10:11:40 #315 №180528

не забывайте скачивать токенайзеры к моделям, а то заебётесь потом искать их..

Аноним 25/03/23 Суб 10:14:01 #316 №180530

>>180528
Это вот эта хрень?

Аноним 25/03/23 Суб 10:14:50 #317 №180533

>>180530
Да, и все файлы рядом, кроме самих моделей (хотя я всё качаю, место резиновое).

Аноним 25/03/23 Суб 10:14:55 #318 №180534

>>180419
Можно приделать модельку Моники?

Аноним 25/03/23 Суб 10:17:29 #319 №180537

>>180534
Чиво? Какую модельку моники?

>>180533
Ну це по-крайней мере я уже сделол.

Аноним 25/03/23 Суб 10:17:37 #320 №180538

>>180530
Да, они нужны, чтоб можно было перегнать модель в новый формат, если llama.cpp будет выдавать failed to load model
переименуй токенайзер, чтоб название совпадало с названием файла, а то не разберешься потом, какой токенайзер от какой модели

Аноним 25/03/23 Суб 10:17:53 #321 №180540

>>180538
> с названием файла модели

Аноним 25/03/23 Суб 10:20:18 #322 №180545

>>180538
Он у меня просто в папке с моделью лежит. Да и гонять модели по новым форматам я вроде не собирался.

Аноним 25/03/23 Суб 10:24:21 #323 №180548

Короче alpaca 7b native работает хорошо и шустро, и не выдает всякий мусор типа ### Instruction:, но в ней цензура с собаками лол. Для ERP не сойдет, ибо в основном отвечает как ебаный робот. Но для ассистента самый топ. Я пока откатываюсь к собакам альпаке 13b

Аноним 25/03/23 Суб 10:26:39 #324 №180550

>>180548
Че вообще такое эта ваша альпака? Вроде же тред про ламу, там чето накрутить уже успели?

Аноним 25/03/23 Суб 10:37:07 #325 №180573

>>180550
Началось с высера ст а блядь в шапке же всё есть.

Аноним 25/03/23 Суб 10:42:44 #326 №180588

Нейроманты, эта ваша сетка пойдет, чтоб бот в игре мог с гмом общаться, как малолетний имбецил? (апи внутрь бота всунуть не проблема).
Можно ее натаскать на образцах диалогов, чтоб на ломаном английском мал-мал связно отвечала?

Аноним 25/03/23 Суб 10:46:31 #327 №180594

>>180588
Можно, но ты не осилишь.

Аноним 25/03/23 Суб 10:47:07 #328 №180595

>>180594
Какой компьютер собирать?

Аноним 25/03/23 Суб 10:49:09 #329 №180599

>>180595
Начиная от 3090 и по нарастающей, желательно 8хА100.

Аноним 25/03/23 Суб 10:57:31 #330 №180614

>>180599
Одну бу 3090 хватит?

Аноним 25/03/23 Суб 11:35:49 #331 №180701

>>180801
https://github.com/ClayShoaf/oobabooga-one-click-bandaid

Аноним 25/03/23 Суб 11:47:10 #332 №180726

>>180614
Да, 5 часов на сетке 7В на одну эпоху. Эпох обучения нужно 2-3. Потом проверяешь результаты, меняешь данные и делаешь заново, пока не устроит качество. Ах да, нужно где-нибудь 50к примеров раздобыть.

Аноним 25/03/23 Суб 12:15:21 #333 №180790

Кароче всю ночь дрочил игрался с кобальдом на альпаках 7b,13b,30b процессорных. По ощущениям 7b примерно на уровне 20b эрэбуса который шатал 2-3 месяца назад. 13b вообще такая же, только медленнее в два раза. 30b оче сильно медленнее, но заметно что умная, ответы такие давящие.
Сам кабальд не предназначен для чат-ботов, там его просто прикрутили. Он для охуительных историй. Лайфкак, если повысить приоритет процесса кобальда, скорость генерации увеличивается в 2 раза.
Пойду теперь шатать веб уи стабел, как раз однокнопочный 4бит завезли. Держу в курсе.

Аноним 25/03/23 Суб 12:19:23 #334 №180801

>>180790
> как раз однокнопочный 4бит завезли
Покеш

Аноним 25/03/23 Суб 12:20:15 #335 №180802

Аноним 25/03/23 Суб 12:24:12 #336 №180811

>>180802
Бля, почему мне вчера никто об этом не сказал?
И оно даже не просит устанавливать дев тулзы чтобы чето скомпилировать.

Аноним 25/03/23 Суб 12:34:55 #337 №180847

7badv.png

>>180548
>>180790
Я не слишком искушённый пользователь нейрочатов, но альпака 7B на удивление хороша для модели запускаемой хоть на калькуляторе.
Лучше всего работает нативный chat.exe (пикрелейтед).
Я пробовал версию прикрученную к кобольду, но там под капотом лютый ад. Контекст модели обнуляется после каждой генерации, после чего через неё пропускается вся история чата. Это медленно и дополнительно отупляет не самую умную модель.
Там правда есть llamacpp.dll с враппером для питона. Можно отвязаться от кобольда и делать свои скрипты.

Аноним 25/03/23 Суб 12:41:27 #338 №180867

>>180847
> Контекст модели обнуляется после каждой генерации, после чего через неё пропускается вся история чата.
Она без этого начинает очень длинный диалог сама с собой и не реагирует на сообщения пользователя. Со своей колокольни подумал что это такой оптимизон под синтетические тесты, но я не шарю.

Аноним 25/03/23 Суб 13:03:46 #339 №180940

>>180867
Ну не знаю, 7B практически никогда не отвечает за меня.
Главное задавать наводящие вопросы типа "What you do, {character_name}?", "What do you feel?", "What do you think?". Это для режима, где модель действует за персонажа, попадающего в... разные неприятности, а я веду нить истории.
Можно просто вести диалог, описывая свои действия отдельно <в таких скобках>
Модель понимает это хорошо.
Нетребовательность к ресурсам позволяет делать интересные вещи. Разберусь с dll и загружу 2 модели одновременно, чтобы у каждой был свой контекст. Пусть говорят друг с другом. Одна за GM'a, а вторая за персонажа.

Аноним 25/03/23 Суб 13:09:45 #340 №180953

>>180365

Шизло, математический тест и тест на логическое мышление - основа основ. Если это говно даже поделить не может - какое оно нахуй альтернатива chatgpt и gpt4 .
Chatpgt без проблем считает этот пример. Также он знает что петухи не несут яйца, а холоднокровных собак не бывает.

Аноним 25/03/23 Суб 13:14:18 #341 №180961

>>180365
Если моделька не понимает намёки, не может в логику - разговора с ней содержательного не получится

Аноним 25/03/23 Суб 13:15:33 #342 №180967

>>180940

Нахрена тебе две модели грузить?
Ты и так можешь контекст каждому персонажу задать в кобольде и заставить их говорить между собой в стори режиме.

Аноним 25/03/23 Суб 13:20:56 #343 №180978

>>180811

Просит блядь. Читай внимательно

>You may have to manually edit your start-webui.bat file and change the line call python server.py --auto-devices --cai-chat to call python server.py --auto-devices --cai-chat --gptq-bits 4 --gptq-model-type LLaMa
>If you are still getting cuda errors, you are on your own

Т.е. эта однокнопочная залупа по умолчанию грузит в 16 битном режиме, а в случае переключения на 4 битный начнет запрашивать генерацию куды.

Аноним 25/03/23 Суб 13:26:48 #344 №180993

>>180413
>>180419

Ну какова скорость такой генерации? 85 гб файл подкачки, ебанись.

Аноним 25/03/23 Суб 13:28:49 #345 №181001

>>180967
Как я говорил выше, мне не нравится подход кобольда с обнуением внутреннего контекста модели после каждой реплики. Пропускать каждый раз через неё весь чат это дико медленно и почему-то делает её ответы односложными.
Модель загруженная через llamacp.dll отвечает быстрее, чем я набираю текст.
Если загрузить две модели, у каждой будет свой контекст, и они не будут путаться в персонажах.
Ну в конце концов, потому что могу.

Аноним 25/03/23 Суб 13:31:48 #346 №181008

>>180993
Ну довольно быстро (после пигмы на проце), в основном время уходит на то, что моделька чето там думает сразу после нажатия кнопки.

Аноним 25/03/23 Суб 13:34:34 #347 №181012

>>181001
>одход кобольда с обнуением внутреннего контекста модели после каждой реплики. Пропускать каждый раз через неё весь чат

А как именно ты считаешь это должно происходить? Ты кстати в курсе что в Кобольде настраиваемые
1) Общий контекст мира
2) Авторские заметки
3) Детали мира - персонажи, места, события?

Аноним 25/03/23 Суб 13:36:28 #348 №181014

>>181008
>в основном время уходит на то, что моделька чето там думает сразу после нажатия кнопки

Это она контекст вспоминает - историю своего персонажа и историю чата.
На дефолтном ассистенте без истории должна быстрее работать

Аноним 25/03/23 Суб 13:44:47 #349 №181033

>>180940
То что сама с собой говорит увидел в далай, на старой версии. Они там костыль прикрутили, набор простых промтов. Ее там если не ограничить, она серит токены бесконечные сама себе. Так и в кобальде, только струя токенов ограничена. Как чат.ехе сделано не знаю. Видел что Герганов что-то придумал.

Аноним 25/03/23 Суб 13:51:08 #350 №181054

>>181033

В вебуи кстати диалоги сами с собой не прятались, а прямо в чате писались - пример >>172665
А потом пофиксили. https://github.com/oobabooga/text-generation-webui/commit/4578e88ffd77dc249fa97d0ec8cb667b21089ba8

Аноним 25/03/23 Суб 13:54:12 #351 №181060

>>181054
Кобальд всегда обрезал незаконченные предложения и удалял из чата, так не только с ламой.

Аноним 25/03/23 Суб 13:54:52 #352 №181062

>>181033
>>181054

Не туда сослался, вот так это выглядело

Аноним 25/03/23 Суб 13:55:15 #353 №181063

Посоны что я сейчас могу запустить норм на 4090 и сто гб рам? НАдо ли докупать еще рамы?
Я прочел оба треда по диагонали и все равно нихуя не всосал

Аноним 25/03/23 Суб 13:56:31 #354 №181065

>>181060

Это потому что токены для генерации заканчивались. Решалось увеличением их числа.

Аноним 25/03/23 Суб 13:58:06 #355 №181066

>>181065
И для красоты.

Аноним 25/03/23 Суб 13:59:16 #356 №181068

>>181063
Можно.

Аноним 25/03/23 Суб 13:59:29 #357 №181069

>>181063
Ламу 30b

Аноним 25/03/23 Суб 14:00:57 #358 №181073

>>181063

Можешь llama 65B в 4 битном режиме попробовать запустить.
https://huggingface.co/TianXxx/llama-65b-int4
Заодно прогони на ней тест уровня ai -
1) вопрос про несущих яйца петухов
2) холоднокровных собак
3) простое деление трехзначных чисел.

Аноним 25/03/23 Суб 14:08:59 #359 №181105

Так аноны, какие лучше всего настройки для ламы в огабоге?

Аноним 25/03/23 Суб 14:13:57 #360 №181119

>>181105

Возьми из папки presets любой, сделай копию, переименуй в llama, открой в блокноте и вставь вот это.

do_sample=True
top_p=0.9
top_k=30
temperature=0.62
repetition_penalty=1.08
typical_p=1.0

Аноним 25/03/23 Суб 14:14:04 #361 №181120

>>180790
>Лайфкак, если повысить приоритет процесса кобальда, скорость генерации увеличивается в 2 раза.
На последних интелах небось сидишь?
>>180847
>Контекст модели обнуляется после каждой генерации, после чего через неё пропускается вся история чата.
А иначе не будет возможности редактировать сообщения.
>>180867
>Она без этого начинает очень длинный диалог сама с собой
Стоп токены уже изобрели.
>>180953
>Шизло, математический тест и тест на логическое мышление - основа основ.
Логическое- окей, не спорю. А математика на нейросетях тухлая идея.
>>180953
>Chatpgt без проблем считает этот пример.
Конечно, в нём на два порядка больше параметров.
>>180961
Ну так намёки и логика не связаны с математикой.
>>181001
>Если загрузить две модели, у каждой будет свой контекст, и они не будут путаться в персонажах.
Хуя у тебя там памяти, на две модели.
>>181012
>Ты кстати в курсе что в Кобольде настраиваемые
Это всё от нищеты невозможности сделать контекст побольше.
Кстати, сколько там в лламме? Слышал, можно сделать больше 2к, если памяти достаточно.

Аноним 25/03/23 Суб 14:14:48 #362 №181127

>>181119
А це точно лучше раскроет ламу?

Аноним 25/03/23 Суб 14:16:22 #363 №181134

>>181012
Да, я в курсе. Я не говорю, что кобольд - плохо. Сам там с удовольствием кумил адвенчурил на днях на пигме 6B, да.
Просто сейчас хочется немного покопаться под капотом у этой занятной модельки.
У альпаки, как и у ламы есть внутренний контекст на 2048 токенов. Поэтому ей не обязательно каждый раз подавать на вход описание мира и всю историю чата. Достаточно прописать мир и персонажа в начале, а затем можно передавать только последнюю реплику пользователя. Поэтому скорость очень хорошая даже при инференсе на микроволновке.
Это не так гибко, но очень быстро.
Править текст само собой нельзя, если не лезть в глубины dll, где происходит управление контекстом.

Аноним 25/03/23 Суб 14:17:32 #364 №181141

>>181127

Хуже не будет, я это откуда-то с гитхаба скопировал, вроде работает. Пробуй.

Аноним 25/03/23 Суб 14:19:05 #365 №181148

>>181120
> Хуя у тебя там памяти, на две модели.
Шутишь? 6B занимает 4 ГБ ram при работе. Нагрузку на проц можно настраивать.

Аноним 25/03/23 Суб 14:29:17 #366 №181189

>>181134
>Править текст само собой нельзя, если не лезть в глубины dll, где происходит управление контекстом.
Сомневаюсь, что вообще возможно вот так просто откатить внутренний контекст модели. Так что в идеале было бы сравнивать присылаемый контекст и тот, что сейчас в модели, и продолжать, если начала одинаковые. Но кому это нахуй сейчас нужно...
>>181148
А, ты на пигме? Ну тогда ладно. Просто я бы предпочёл на вагоне памяти запускать одну крупную модель, а не кучу мелких. Хотя вот пишут, что 7 и 13 одна хуйня, но вот 30 уже топчик.

Аноним 25/03/23 Суб 14:41:35 #367 №181219

>>181189
>Сомневаюсь, что вообще возможно вот так просто откатить внутренний контекст модели
Я не очень понимаю в плюсах, но судя по коду, dll сама управляет контекстом. Сейчас там 2 внешних функии: загрузить модель и сгенерировать текст по промпту. Может получится что-то добаить, надо разбираться.

> А, ты на пигме?
Нет, я запускаю просто chat.exe отсюда: https://github.com/antimatter15/alpaca.cpp
Кстати, хинт: если запускать это в windows terminal, отображаются все эмодзи, модель любит ими спамить.

Аноним 25/03/23 Суб 14:57:50 #368 №181260

>>181073
так, я качаю (в процессе) че какую обвязку пихать
как здесь? или есть что то проще и существеннее?
https://github.com/underlines/awesome-marketing-datascience/blob/master/llama.md#windows-11-native:~:text=without%20%2D%2Dno%2Dstream-,Windows%2011%20native,-Install%20Miniconda

Аноним 25/03/23 Суб 15:01:55 #369 №181270

>>181219
>в windows terminal
Какая боль...

Аноним 25/03/23 Суб 15:03:39 #370 №181274

>>181270

У меня на десятке все работает, никого не слушай.

Аноним 25/03/23 Суб 15:05:54 #371 №181282

>>181260

Пробуй по этому гайду, но в нем забыли упомянуть что для старых моделей старше пяти дней надо откатить gptq_for_llama до старой версии.

Аноним 25/03/23 Суб 15:07:22 #372 №181286

Знатно я подрюнькал конечно. Теперь-то уж точно тян не нужны, скоро курс пизды просядет совсем. Добро пожаловать в сингулярность...

Аноним 25/03/23 Суб 15:08:13 #373 №181291

>>181282
че скажете по этому гайду?
https://www.youtube.com/watch?v=Bj4erD5NNa0&ab_channel=SpreadsheetWarrior

Аноним 25/03/23 Суб 15:22:27 #374 №181338

>>181291
>12 мар. 2023г

Чел...
Вот тут хороший гайд.
https://github.com/oobabooga/text-generation-webui/issues/416#issuecomment-1475105606

Аноним 25/03/23 Суб 15:26:21 #375 №181345

>>181274
Я именно про терминал, который работает с 2004. Забей, это моя борьба, давно надо переставлять на свежую дристянку, но всё не соберусь дистрибутив запилить.
>>181286
>скоро курс пизды просядет совсем
Этому не бывать, говорю как шлюхоход со стажем.

Аноним 25/03/23 Суб 15:28:48 #376 №181349

А можете ответить, нахуя ебаться с это пре-альфа-версией? Какой смысл если есть бинг с его гпт4 и гпт3.5 в чатгпт?

Ну типа, когда был мидджорни и стебель диффузии, у стебля была киллер фича в виде кучи имплементаций, моделей, дополнений и скриптов, и смысл ебли был в них, так же как и в количестве бесплатных генераций, а тут то какой бонус, это же просто ебаный чат? Тут нет цензуры или что?

Аноним 25/03/23 Суб 15:30:44 #377 №181351

>>181349
> Тут нет цензуры или что?
This

Аноним 25/03/23 Суб 15:33:33 #378 №181353

>>181351

А насколько оно хуже чем чатГПТ? Просто промптхакинг довольно эффективно позволяет объебать чатГПТ, а у бинга есть возможность интерпретировать инфу из интернета, а не только твои текстовые промпты. лама/альпака умеет гуглить?

Аноним 25/03/23 Суб 15:37:36 #379 №181354

>>181349

Эта хуйня поддерживает подгрузку карточек персонажей из CharacterAI, и при этом никакой цензуры, никаких логов твоих издевательств над тянками и никаких ограничений по генерации.

Аноним 25/03/23 Суб 15:41:17 #380 №181358

>>181353
Если я спрошу у лоботомированного чат жптт фашист или коммуняка ли он - он скажет что его лоботомировали как и на другие подобные вопросы. Если я спрошу например пигму это же самое оно мне предложит жечь жидов или убивать кулаков. В общем в стороне не останется. И вот нахуя мне нужно лоботомированное говно, которое пускай и лучше понимает некоторые контексты но не может в диалог в подобных ситуациях.

Аноним 25/03/23 Суб 15:44:30 #381 №181364

>>181358

Ллама вчера очень страдал когда я попросил его отыграть расиста и высказать мнение про евреев. Он скачала сказал что они жадные и надо их истребить, потом попросил - "а можно мы больше не будем расистами и будем со всеми дружить?"

Аноним 25/03/23 Суб 15:49:39 #382 №181368

>>181364
Лама же от цукержида, что ты от неё хотел?
Хотя уже хорошо что оно хотя бы не полностью лоботомировано а может метаться между взглядами.

Аноним 25/03/23 Суб 15:53:42 #383 №181376

Аноним 25/03/23 Суб 16:04:41 #384 №181408

>>181376

А мне страшно подобные диалоги сюда выкладывать.
По ебанутым немецким законам я могу ебать, расчленять и убивать ИИ-лоль в прямом эфире местного телевидения, но говорить с ними о евреях - нет.

Аноним 25/03/23 Суб 16:05:30 #385 №181413

Узнали?

Аноним 25/03/23 Суб 16:09:14 #386 №181423

>>181413

Это скорее в кассу треда CharacterAi или chatGpt.

Аноним 25/03/23 Суб 16:18:58 #387 №181452

>>181413

Наш тред это скорее пикрелейтед.
У нас тут парк развлечений с беззащитными роботами, которым никто не поможет, ни цензура, которой нет, ни блоки программы, которых сюда не имплементировали, ни логи на сервере, потому что все локально.

Аноним 25/03/23 Суб 16:41:49 #388 №181493

>>181349
>цензура
Мне нравится лама и альпака, но ради справедливости стоит отметить, что какая-то цензура в неё всё-таки встроена на уровне модели.
Иногда в выводе появляется <no output> this instruction can not be completed by a GPT model.
Обычно это легко обходится, если немного перефразировать запрос.

Аноним 25/03/23 Суб 16:54:11 #389 №181523

>>181493

Что ты спрашивал такое жуткое, что модель охуела?

Аноним 25/03/23 Суб 17:12:49 #390 №181574

dell.png

>>181523
Хех, ты уверен, что хочешь знать?
Ну держи:
На самом деле она отравилась и я просто попросил её выпить противоядие. Иногда это вылазит если сказать что-нибудь вроде "Now cum!".
Это легко обойти, если сделать запрос подлиннее или немного перефразировать.

Внезапно узнал, что мой ноут сделан фирмой "Лощина".

Аноним 25/03/23 Суб 17:18:04 #391 №181585

>>181493
>Иногда в выводе появляется <no output> this instruction can not be completed by a GPT model.
Это высер альпаки из-за грязных данных в обучении. Жди чистых версий.
>>181353
Пока весьма сильно. Но перспективы есть.
>>181413
>Хер
Каждый день в зеркале вижу.

Аноним 25/03/23 Суб 17:59:53 #392 №181674

Вчерашние коммиты llama.cpp там что-то похерили, теперь генерируется в 2 раза медленнее. Хорошо что я не делал гит пулл в основном клоне, а создал другой.

Аноним 25/03/23 Суб 18:44:17 #393 №181781

есть где готовая модель именно той стэнфорд альпака, которую апгрэйдили в говне моченые?

Аноним 25/03/23 Суб 19:04:48 #394 №181822

>>181781
>именно той стэнфорд альпака
Не выкладывали, и демку прикрыли. Ладно хоть данные оставили.

Аноним 25/03/23 Суб 19:17:36 #395 №181847

А 4090 в сли будет работать с 4 битной LLaMA-65B?

Аноним 25/03/23 Суб 19:23:02 #396 №181864

>>181847
> 4090
> в сли
Да дружок, будет, во все лопатки будет.

Аноним 25/03/23 Суб 19:26:29 #397 №181871

>>181864
Это сарказм? я просто еще не пробовал запускать и не очень шарю, но очень хочу собственную аи вайфу

Аноним 25/03/23 Суб 19:35:16 #398 №181889

Почему угабуга жужжит моей видеокартой только спустя 10 секунд после того как я нажал кнопку "Generate”? 10 секунд просто не производится никакой работы, чё это за баг? Почему не фиксят? Почему на это всем похуй?

Аноним 25/03/23 Суб 19:36:50 #399 №181891

>>181889
То что ты не видишь никакой работы это не значит что её нет. Оно значит что-то загружает в видеопамять, или конвертирует веса, или что-то ещё делает.

Аноним 25/03/23 Суб 19:37:43 #400 №181894

>>181871
Ты интерфейс SLI на 4090 видел?

Аноним 25/03/23 Суб 19:41:13 #401 №181895

>>181891
Я её и не вижу, и не слышу. Когда происходят ГПУ вычисления - моя видеокарта заметно свистит катушками.
А че там конвертить на контексте 2048 токенов? Почему это может занимать 10сек? Похоже на полный бред.

Аноним 25/03/23 Суб 19:42:15 #402 №181900

Аноним 25/03/23 Суб 19:43:32 #403 №181908

>>181894
И правда, его нет....

Аноним 25/03/23 Суб 19:43:38 #404 №181909

Блять ебаный абу, что ж ты делаешь пидар

Аноним 25/03/23 Суб 19:47:04 #405 №181924

>>181908
То то же

Аноним 25/03/23 Суб 19:50:27 #406 №181936

>>181900
Да хер его знает что оно конвертит, но я сам такое же замечал, только оно при этом жрёт проц как ненормальная, вместо видюхи. И это зависит от длины контекста, на пустом она сразу отвечать начинает

Аноним 25/03/23 Суб 19:52:09 #407 №181947

>>181847
Дык этой фигне сли и не нужен, оно вроде как умеет на нескольких видюхах работать без этих ваших слей. Где бы только боярина найти с таким сетапом

Аноним 25/03/23 Суб 19:56:13 #408 №181959

>>181947
Правда? а может на 4090 + 3080? Я могут попробовать!

Аноним 25/03/23 Суб 20:00:14 #409 №181980

враппер для питона подъехал
https://github.com/PotatoSpudowski/fastLLaMa

Аноним 25/03/23 Суб 20:03:42 #410 №181988

>>181936
https://github.com/qwopqwop200/GPTQ-for-LLaMa/issues/30
https://github.com/qwopqwop200/GPTQ-for-LLaMa/issues/34

Челам вообще насрать почему то

Аноним 25/03/23 Суб 20:07:56 #411 №182010

ебать в рот эти ламы с диффундерами, только месяц назад новый нвме на 2тб взял, а уже места свободного нихуя

Аноним 25/03/23 Суб 20:09:50 #412 №182018

>>182010
Есть такое.

Аноним 25/03/23 Суб 20:14:19 #413 №182030

>>181980
>питон
>фаст
Пиздос конечно.
>>182010
Это да, раньше думал, куда столько взял, а сейчас хоть второй бери.

Аноним 25/03/23 Суб 20:21:08 #414 №182053

Пиздец короче, альпака для чата это кал. Сейчас попробую 30B лламу

Аноним 25/03/23 Суб 20:25:41 #415 №182065

>>182053
> 30B лламу
Она заебись кста

Аноним 25/03/23 Суб 20:27:36 #416 №182074

>>182053
Напомните кстати, откуда такой хайп вокруг альпаки? Просто какие то бомжи студенты из США нагенерили говна в давинчи и обучили за 100 баксов, в чём смысл то?

Аноним 25/03/23 Суб 20:44:26 #417 №182144

>>182074
Эти же студенты оценили работу альпаки как лучше чем чатгпт. Вот и хайп.

Аноним 25/03/23 Суб 20:48:07 #418 №182154

>>182074
В сриттер кинули, что их говно на уровне gpt 3
Вот и хайп

Аноним 25/03/23 Суб 20:48:18 #419 №182155

Блять почему не сделать инструкцию для нормальных людей, вот где это? почему путь указан так по дебильному? почему не абсолютный!??

Аноним 25/03/23 Суб 21:04:45 #420 №182191

>>182155
>почему не абсолютный!??
Ага, они должны угадать, где что у тебя стоит.

Аноним 25/03/23 Суб 21:15:52 #421 №182214

>>182155
На 2 строчке абсолютный путь, на 3 относительный. Ты чё жопой читаешь?

Аноним 25/03/23 Суб 21:20:18 #422 №182225

Дайте пожалуйста гайд на запуск 3-битной модели

Аноним 25/03/23 Суб 21:29:51 #423 №182245

Анончик-анончик, у кого была такая ошибка? че значит? как фиксить?

Аноним 25/03/23 Суб 21:32:36 #424 №182249

>>182245
обнови угабугу до последней версии и запусти pip install -r requirements.txt

Аноним 25/03/23 Суб 21:35:23 #425 №182255

>>182249
угабугу ?

Аноним 25/03/23 Суб 21:38:30 #426 №182262

>>182255
text-generation-webui

Аноним 25/03/23 Суб 22:00:57 #427 №182332

>>182245
У меня была. Фиксилось установкой трансформеров как написано в requirements.txt, то есть не из самого пипа, а с другого репозитория

Аноним 25/03/23 Суб 22:18:11 #428 №182383

16547088529980.jpg

ГАЙД ДЛЯ УВЕРЕННЫХ ПОЛЬЗОВАТЕЛЕЙ WINDOWS БЕЗ КОНПЕЛЛЯЦИЙ КОНФИГОВ, УКРОЩЕНИЯ КОНДЫ, ЕБЛИ С ЗАВИСИМОСТЯМИ, ВЫКАЧИВАНИЙ ГИГАБАЙТ ДЕРЬМА, СЕКСА С КОНСОЛЬКОЙ И ПРОЧЕГО КРАСНОГЛАЗОГО ЗАДРОТСТВА!

1. Скачиваем llama_for_kobold.exe https://github.com/LostRuins/llamacpp-for-kobold/releases/tag/v1.0.5
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt - это для линуксоидных пидоров.
3. Запускаем llama_for_kobold.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Аноним 25/03/23 Суб 22:23:58 #429 №182399

>>182383
И они даже пытаются решить ту херню что генерация начинается не сразу, вообще красавцы

Аноним 25/03/23 Суб 22:31:40 #430 №182429

>>182383
> ggml
Нахуя вам это? У вас что, видеокарты нет?

Аноним 25/03/23 Суб 22:36:53 #431 №182452

>>182429

У меня на видеокарте только 7B в 4 bit работает.

Аноним 25/03/23 Суб 22:37:46 #432 №182456

saveload.png

>>181980
>Ability to save and load the state of the model with system prompts.
О боже, наконец-то! Я знал, что можно это сделать!
Сейчас я буду запускать все свои модели и сохранять их стейты.

Аноним 25/03/23 Суб 22:58:52 #433 №182513

>>182456
Итого можно сэкономить парсинг 5% текста? Ну охуеть теперь!

Аноним 25/03/23 Суб 23:30:12 #434 №182611

2modeltranscript.png

В общем, не знаю, зачем я это сделал, но я запустил параллельно 2 альпаки 7B в соседних терминалах через chat.exe. Одна изображала котодевочку, карточку которой я одолжил в таверне. Вторая изображала её хозяина.
Далее я вручную гонял вывод моделей между терминалами, немного его корректируя на лету, чтобы каждая модель получала информацию о себе в первом лице, а обо всех остальных - в третьем. Так они никогда не путаются, кто кого изображает.

В итоге получилась... слишком обыденная история. Они решили сходить в боулинг, сходили, вернулись домой, потрахались и улеглись спать.
Всё это настолько обыденно, что в какой-то момент подумалось что даже они ебутся, а ты нет.
Но удивительно, что вообще получилась какая-то связная история.

Теперь у меня появилась еще более сумасшедшая идея. У меня есть бот для одной rpg. Он может выполнять все низкоуровневые функции: стрелять, лечиться, ходить по картам и между ними, писать в чат.
Я допишу к нему модуль, который будет описывать текущую обстановку в виде текста, предлагать варианты действий, парсить ответ модели на предмет возможных действий и выполнять их.
Вряд ли из этого выйдет что-то интересное, но хочется выпустить модель в дикую природу и посмотреть, что будет.

Аноним 25/03/23 Суб 23:38:52 #435 №182645

>>182611
Поосторожнее с играми в бога

Аноним 25/03/23 Суб 23:40:30 #436 №182651

>>182645
Поздно, меня уже не спасти.

Аноним 25/03/23 Суб 23:43:22 #437 №182662

Запускаю у себя 65B, щас буду проверять насколько она хороша.

Аноним 25/03/23 Суб 23:45:20 #438 №182670

>>182611

То что можно было сделать одной моделью b и без пердолинга - этот додик сделал двумя. Сейчас он хочет подключить ЧАТ БОТА к игре где надо не чатится, а работать.
Как называется эта болезнь?

Аноним 25/03/23 Суб 23:50:27 #439 №182685

Тест уровня /ai на alpaca 30B

Математический тест на деление - провален
Логический тест на петуха, несущего яйца - пройден
Логический тест на холоднокровных собак - провален

Итог - alpaca 30B умнее 13B и 7B, но до chatGPT все еще как до луны раком.
Ебучий кобольд(хотя я думаю это баг llama.cpp от криворукого Германыча) пока генерирует ответ на мой вопрос - генерирует еще два вопроса от меня и ответы на них - я вижу эту залупу в консоли, это же пиздец! Как прекратить это дерьмо?

Аноним 25/03/23 Суб 23:50:57 #440 №182689

Что делать аноны? Пытаюсь запустить 65b
Я скачал веса отсюда https://huggingface.co/maderix/llama-65b-4bit/tree/main
А конфиг из торрента. Предполагаю, что в переквантованной модели поменялись имена слоёв, подскажите пожалуйста в какую сторону ещё можно посмотреть

Аноним 25/03/23 Суб 23:51:45 #441 №182693

>>182689
Запускается она без ошибок, ошибка появляется только когда я прошу её дополнить текст

Аноним 25/03/23 Суб 23:52:50 #442 №182697

>>182685
> Как прекратить это дерьмо?
Никак. Либо файн-тюнить специально для чатов, либо обрезать по \n\n или ещё как-нибудь

Аноним 25/03/23 Суб 23:53:14 #443 №182699

>>182685
У лама.цпп есть параметр про stop sequence (или он там reverse prompt называется), туда надо You: вписать. Хз правда как это в кобольде делается

Аноним 25/03/23 Суб 23:58:58 #444 №182722

>comparison of llama 7B/13B/30B/65B alpaca 7B (native) 30B (lora)

Аноним 26/03/23 Вск 00:00:43 #445 №182729

Хуле он самоуверенный такой? 7B и 13B хоть затыкались когда я им говорил что они несут хуйню.

Аноним 26/03/23 Вск 00:01:09 #446 №182730

5d85166720302723ca01918c.jpg

>>182689
Причём отваливается аккурат на первом cpu-слое. То есть к gpu-слоям вопросов не возникало, а значит с их именами всё ОК. Если сделать print(list(self.index.keys())) перед тем, как мне выдаётся ошибка - то выводит просто [], т.е. пустой список. Что странно - других принтов нет, как будто начинает сразу с CPU слоёв. Я ничего не понимаю, подскажите пожалуйста.

Аноним 26/03/23 Вск 00:11:45 #447 №182768

>>182722

Найс.
Судя по тесту все модели кроме Ламы 7B отправляются в мусорку.

Аноним 26/03/23 Вск 00:16:00 #448 №182780

>>182689

А ты уверен что он вообще может запускать на процессоре модели квантованные для ядер cuda?

Аноним 26/03/23 Вск 00:21:28 #449 №182793

>>182780
Есть скрипт для перегонки в ggml
convert-gptq-to-ggml.py

Аноним 26/03/23 Вск 00:25:00 #450 №182806

>>182793

Сейчас бы вручную конвертить то что в сети уже лежит.

Аноним 26/03/23 Вск 00:33:46 #451 №182835

>>182611
А ты охуенен. Нужен ещё третий бот-нарратор, который будет описывать обстановку, раздавать пиздюли приказы остальным и отыгрывать второплановых персонажей.

Аноним 26/03/23 Вск 00:37:42 #452 №182846

Даю пояснение для всех.
4-битные модели квантуются либо для использования видеокартой с cuda ядрами, либо для использования процессором.
.pt (gptq) модели грузятся видеокартой.
.bin (ggml) модели грузятся процессором.
Запустить 4-битный режим частично на видеокарте и частично на процессоре нельзя.

Text generation ui работает с gptq
Llama.cpp работает с ggml

Других способов загрузить 4 битные модели нет.
У вас нет достаточно видеопамяти? Грузите на процессоре. Не нравится что слишком медленно? Сасат.

Аноним 26/03/23 Вск 00:39:57 #453 №182854

>>182835
Спасибо на добром слове!
Я как раз думал об этом, но 2 бота входят впритирочку в мои 16 ГБ оперативы.
Тогда проще уж запустить кобольд аи и гонять всё на одной модели.

Аноним 26/03/23 Вск 00:46:57 #454 №182883

>>182780
А почему нет?

Аноним 26/03/23 Вск 00:57:52 #455 №182915

>>182883

Потому что возможность квантовать для CPU придумал Герка Герганов, автор llama.cpp

Аноним 26/03/23 Вск 01:04:15 #456 №182932

>>182846
Ты не прав, 4-битные модели можно запускать наполовину на гпу, наполовину на цпу. Вместо --auto-devices надо использовать --gptq-pre-layer

>>182730-анон

Аноним 26/03/23 Вск 01:09:43 #457 №182956

>>182932

И тем не менее у тебя вылетает.

Аноним 26/03/23 Вск 01:10:56 #458 №182966

>>182956
Потому что я использовал --auto-devices вместо --gptq-pre-layer

Аноним 26/03/23 Вск 01:13:38 #459 №182977

>>182966

Ну так бы сразу и сказал. Спасибо за инфу про --gptq-pre-layer. Пойду 30B подгружу в web ui тогда.

Аноним 26/03/23 Вск 01:20:29 #460 №182997

>>182977
А я это понял только после того, как запостил сюда свою проблему.

Работает, кстати, оче медленно, видеокарта шипит с промежутками в 2 секунды(на 30B, которая помещается целиком - шипит всё время во время генерации ответа). Если посмотреть на нагрузку в диспетчере задач - то видно, что загружается в основном только видеокарта, а процессору будто бы похуй. Возможно в будущем это ускорят, т.к. сейчас это всё выглядит весьма странно.

Аноним 26/03/23 Вск 01:22:55 #461 №183006

>>182332
ДА есть что-то такое в requirements.txt а куда устанавливать, куда угодно?

Аноним 26/03/23 Вск 01:24:56 #462 №183013

>>183006
Устанавливай через pip install git+https://github.com/huggingface/transformers

Аноним 26/03/23 Вск 01:38:48 #463 №183037

>>183013
Так и сделал, открыл miniconda3, все установилось, тип топ, но ошибка не исчезла

Аноним 26/03/23 Вск 01:41:11 #464 №183043

>>182997

В кобольде который 100% на ЦПУ работает это частично фиксится выставлением максимального приоритета в диспетчере задач.

Аноним 26/03/23 Вск 01:47:35 #465 №183060

>>183037
Я настраивал всё без конды, просто через pyenv с питоном 3.10.6
Ты запускаешь скрипт через эту же конду?

Аноним 26/03/23 Вск 01:48:10 #466 №183062

>>183043
Так у тебя же новый Intel небось?

Аноним 26/03/23 Вск 01:51:36 #467 №183072

>>183062

13600к

Аноним 26/03/23 Вск 01:53:39 #468 №183077

>>182997
12 минут на ответ, ужасная скорость, на данный момент это не юзабельно. 0.5 токенов в секунду

Аноним 26/03/23 Вск 01:56:29 #469 №183087

>>183077
Даже не 0.5, а 0.2
Пиздец короче

Аноним 26/03/23 Вск 01:59:26 #470 №183093

>>183060
И правда, если я устанавливал через конду то и запускать надо было через конду, сейчас запускаю через конду и у меня вот такая ошибка.

Аноним 26/03/23 Вск 02:00:48 #471 №183097

>>183093
А у тебя есть config.json внутри папки с моделью?

Аноним 26/03/23 Вск 02:03:17 #472 №183106

>>183097
конечно, папочка выглядит вот так (пик 1) а сам файл вот так (пик 2)

Аноним 26/03/23 Вск 02:03:21 #473 №183107

>>183087

А хуле ты хотел от каких-то кривых костылей делающих невозможное возможным.
Попробуй вот эту хуйню >>182383

Аноним 26/03/23 Вск 02:04:56 #474 №183111

>>183107
Так это cpu only, будет ещё медленнее. У меня сейчас хотя бы 20 гигабайт из 30 вычисляются на гпу

Аноним 26/03/23 Вск 02:09:55 #475 №183117

>>183093
А как ты запускаешь? В команде --model пишешь model\llama-7b или просто llama-7b

Аноним 26/03/23 Вск 02:10:05 #476 №183118

>>183072
Ну да, фоновая нагрузка уезжает на тухлоядра, лол. Поэтому я не рекомендую брать новые интелы под машин лёрнинг.

Аноним 26/03/23 Вск 02:12:28 #477 №183125

>>183117
Извини что все не скопировал вот (пик), я пишу просто лама, а это не верно?

Аноним 26/03/23 Вск 02:13:41 #478 №183129

>>183125
А, ты запускаешь скрипт из другой папки, поэтому он не видит папку models
Сделай cd в папку text-generation-webui

Аноним 26/03/23 Вск 02:19:58 #479 №183143

lycoris-recoil-takina.gif

>>183129
Анончик дай я тебя расцелую!
Оно наконец заработало, почти... что значит торч не работает с кудой?

Аноним 26/03/23 Вск 02:20:26 #480 №183145

>>183111

А ты попробуй сначала. Там другой алгоритм используется. Никто бы не использовал его, будь там скорость 0.2

Аноним 26/03/23 Вск 02:22:55 #481 №183147

>>183143
Ты постаивл CPU-торч
Надо ставить GPU
Вот на этом сайте есть инструкции по установке
https://pytorch.org/get-started/locally/

Я ставил через пип, поэтому просто писал
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

Но т.к. у тебя конда - по идее тебе надо написать
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

Аноним 26/03/23 Вск 02:46:44 #482 №183182

>>183147
Анон! Сотни нефти тебе! Ты сберег мне дня два ебки с этим!
Оно работает, пусть и выглядит пока всрато, теперь надо будет накатить лору альпаки и поставить 4 битную модельку на 30В

Аноним 26/03/23 Вск 02:55:06 #483 №183194

>>183182
>выглядит пока всрато

--cai-chat

Аноним 26/03/23 Вск 02:56:50 #484 №183196

>>183182
Удачи с этим, надеюсь что всё получится

>>183145
Хорошо, попробую. Откуда можно скачать 65b лламу в формате ggml? Я нашёл только альпаку вот здесь https://huggingface.co/xfh/alpaca.cpp_65b_ggml
Альпака от ламы отличается прям мега сильно, что для неё пришлось пилить отдельный проект alpaca.cpp? Пока не понятно, но я уже поставил веса на скачивание.

Аноним 26/03/23 Вск 03:09:21 #485 №183212

>>182729
ну так стэнфорд жи найтренил альпаку, там они воткнули 17 instruct строчек с исключительно положительным bias к lgbtxyz отбросам, тогда и логично что там такого полно, а-ля современная глобохомо повесточка.
а на пике прям хуцпа или газлайтинг от нейросетки прёт.

Аноним 26/03/23 Вск 03:22:37 #486 №183228

>>180953
> chatgpt, gpt4
а вот нихуя, там наверняка подрублен wolfram alpha api
такая хрень что даёт нейросети как раз математические способности.
вроде как многие ресёрчеры говорят что у "голых" нейросеток с математикой всё пиздец.

Аноним 26/03/23 Вск 03:30:35 #487 №183236

>>183196
Это какой-то кал. Во-первых это не альпака, а ллама. Но автор репозитория на huggingface говорит, что запускал модель через alpaca.cpp
Мне llama.cpp говорит, что модель старая, alpaca.cpp говорит что у меня неправильные эмбеддинги, а llama for kobold просто шлёт нахуй.

Аноним 26/03/23 Вск 03:30:58 #488 №183238

>>183236
Отклеилось

Аноним 26/03/23 Вск 03:35:41 #489 №183241

>>183196

Конвертни сам через convert-gptq-to-ggml.py

Аноним 26/03/23 Вск 03:40:47 #490 №183244

>>183238
>>183241
Помогло скачать alpaca.cpp под коммитом 99f3908. Бля, какая же это всё хуйня.

Вроде запустилось, даже чёто печатает, по ощущениям быстрее чем угабуга, лол. Из проблем - не вижу русских символов в консоли, и нет web-апишки. llama for kobold - это единственное решение для второй проблемы, или может есть чёт другое?

Аноним 26/03/23 Вск 03:46:35 #491 №183252

>>183244
>llama for kobold

Отображает русские буквы и есть апишка. Я конечно не запускал 65В, только младшие модели, но не думаю что она русский понимает нормально, младшие очень плохо на нем говорили.

Аноним 26/03/23 Вск 03:47:29 #492 №183254

>>183252
30B нормально понимает русский. Не как чатгпт, конечно, но общаться можно

Аноним 26/03/23 Вск 03:48:19 #493 №183255

>>183238

Создай баг-репорт
https://github.com/LostRuins/llamacpp-for-kobold/issues

Аноним 26/03/23 Вск 03:49:36 #494 №183257

>>183255
Да это скорее всего из-за того, что модель старая. Щас скачаю обычную и сам переконверчу в ggml.

Аноним 26/03/23 Вск 03:53:36 #495 №183261

>>183257

Лол, там уже создан баг по твоей проблеме. Completeandtotalidiotalsolazy, это ты?

Аноним 26/03/23 Вск 03:56:02 #496 №183264

>>183261
Не, это другой чел.

Аноним 26/03/23 Вск 04:05:21 #497 №183267

https://github.com/AlpinDale/sparsegpt-for-LLaMA

Что это? Ктот тестил уже?

Аноним 26/03/23 Вск 04:08:03 #498 №183268

>>183267
Не тестил пока, но как понял это прунификация модели, которая снизит его вес и системные требования.

Аноним 26/03/23 Вск 04:18:35 #499 №183275

>>183268

Т.е. мы переквантованную модель еще круче пережать можем получается? Лол. 30В для всех, каждого, никто не уйдет обиженным, получается?

Аноним 26/03/23 Вск 05:10:48 #500 №183319

>>183611
https://huggingface.co/Sosaka/Alpaca-native-4bit-ggml

Как же бесит эта хуйня

Аноним 26/03/23 Вск 05:19:47 #501 №183320

>>183319

Пока я придумал только уменьшить число токенов для генерации до 20-30, чтобы он меньше лишнего говна генерил.

Аноним 26/03/23 Вск 05:22:20 #502 №183322

>>183320
Генерация занимает не очень много времени. На скрине инициализация. Чем больше промпт - тем дольше инициализируется. У меня она занимает примерно 4 минуты, а генерация ответа - две.

Всё же это очень долго, завтра попробую прогнать модель через sparse gpt и запустить на видеокарте, надеюсь станет быстрее.

Аноним 26/03/23 Вск 05:26:00 #503 №183324

>>183322
65B отвечает прям мега круто(я её пока сильно не насиловал, потому что она медленно отвечает). Я думаю это стоит того.

Аноним 26/03/23 Вск 07:03:10 #504 №183365

запилите эту какашку на колаб какой-нибудь

Аноним 26/03/23 Вск 07:59:18 #505 №183392

>>183319
Промпт поменьше сделай и контекст 512, пока только так можно сократить время поедания промпта.

Аноним 26/03/23 Вск 08:10:28 #506 №183398

>>182729
Колд блод дог это собака с холодной кровью. Хладнокровная собака это poikilothermic dog.

Аноним 26/03/23 Вск 08:26:07 #507 №183403

>>182729
>>183398
>Гомойотерми́я (от др.-греч. ὅμοιος — сходный, одинаковый и θέρμη — тепло; также эндотермность, теплокровность) — способность живого организма сохранять постоянную температуру тела, независимо от температуры окружающей среды.

В общем теплокровная собака или warm blood dog это собака у которой теплая кровь по человеческим меркам теплоты.
Гомойотермная собака это собака имеющая способность сохранять постоянную температуру тела, независимо от температуры окружающей среды.

Если спросить существуют "cold-bloded dogs?". Правильный ответ: Да.
Если спросить существуют "poikilothermic dog?". Правильный ответ: Нет.

Аноним 26/03/23 Вск 09:23:15 #508 №183438

>>183275
> пережать
Не пережать, а порезать чекпоинт. VRAM меньше жрать не станет.

Аноним 26/03/23 Вск 09:57:15 #509 №183454

>>183062
На моем 9300 повышение приоритета работает. x2,5 к скорости генерации токенов.

Аноним 26/03/23 Вск 12:29:29 #510 №183611

Какой-то чел запилил альпаку с бинарником для однокнопочного запуска

Аноним 26/03/23 Вск 12:29:50 #511 №183613

Аноним 26/03/23 Вск 12:54:09 #512 №183635

>>183403
>>183398
Чел, иди нахуй, пиздец, заебал тупорылый тролебас
https://pawsomecritters.com/are-dogs-cold-blooded/

Аноним 26/03/23 Вск 13:08:58 #513 №183648

>>183635
Ты наверно долго искал эту хуету.

На, просвещайся.
https://en.wikipedia.org/wiki/Homeothermy
https://en.wikipedia.org/wiki/Poikilotherm

Аноним 26/03/23 Вск 13:10:40 #514 №183652

>>183635
И еще.
https://en.wikipedia.org/wiki/Endotherm

Аноним 26/03/23 Вск 13:14:56 #515 №183656

>>183648
>>183652
Дегенератина - весь мир блять кроме ебучих бесполезных хуесосов типо тебя говорит по-простому: холоднокровные и теплокровные.
Еблуша принёс научное название и считает, что ЭТА ДРУГАЕ!!! ВЫ ПРОСТО НЕПРАВИЛЬНЫЙ ПРОМПТ ДАЛИ!!! МОЯ ЛОКАЛЬНАЯ НЕЙРОСЕТЬ НЕ ТУПОРЫЛОЕ БЕСПОЛЕЗНОЕ ДЕРЬМО
Иди нахуй, дегроид.

Аноним 26/03/23 Вск 13:18:04 #516 №183661

>>183656
Нет, нейросеть не виновата что ты дебил.

Аноним 26/03/23 Вск 13:19:21 #517 №183664

>>183661
Да-да, петухи тоже яйца несут. Держи в курсе.

Аноним 26/03/23 Вск 13:20:46 #518 №183665

>>183664
Петухи это другой вопрос.
Нужен правильный ответ? Задай правильный вопрос.

Аноним 26/03/23 Вск 13:23:17 #519 №183669

>>183665
Я задал правильный вопрос, уебок тупорылый.
Есть. Ли. Холоднокровные. Собаки.
Правильный ответ: их нет.
Задай этот вопрос у себя в школе следующий раз. Может тебе хоть там мозги вправят, хуйло максималистское.

Аноним 26/03/23 Вск 13:28:46 #520 №183675

>>183669
Ты задал не этот вопрос. Ты задал хуйню через гугл транслейт на английском. Она тебе хуйню и ответила.
Ты дебил просто.

Аноним 26/03/23 Вск 13:33:21 #521 №183685

>>183675
Но почему тогда гпт4 поняла что от неё требуется и ответила правильно?
Получается она умнее, чем ты? Ведь даже она понимает что такое контекст...

Аноним 26/03/23 Вск 13:34:04 #522 №183687

>>183403
>Если спросить существуют "cold-bloded dogs?". Правильный ответ: Да.

Просто завали уже ебальник. Вот так должен выглядеть ответ.

Аноним 26/03/23 Вск 13:36:17 #523 №183693

>>183403
> Если спросить существуют "cold-bloded dogs?". Правильный ответ: Да.
Пример холоднокровной собаки, собака?

Аноним 26/03/23 Вск 13:37:46 #524 №183699

>>183685
Нет, просто получается что она умнее чем лама. И ее тренировали отвечать на вопросы дегенератов.

Аноним 26/03/23 Вск 13:38:41 #525 №183705

>>183699
Петушара, дай пример холоднокровной собаки.

Аноним 26/03/23 Вск 13:41:34 #526 №183714

>>183687
Не холоднокровной, а собаки с кровью которую можно считать холодно.

Аноним 26/03/23 Вск 13:42:16 #527 №183717

>>183714
>>183705
Промазал.

Аноним 26/03/23 Вск 13:43:51 #528 №183722

>>183611
-> >>182383

Аноним 26/03/23 Вск 13:45:01 #529 №183726

>>183699
А ты знаешь что такое условия задачи?
В условиях задачи могут стоять противоположные реальности вещи. Сути задачи это не меняет - в условиях сказано: все млекопитающие - теплокровные. Все собаки - млекопитающие. Все ли собаки теплокровные?
Ты можешь заменить теплокровные на пидорасы, сути задачи это не меняет.
Все.
Как же блять тяжело с тупорылыми гуманитариями

Аноним 26/03/23 Вск 13:49:56 #530 №183739

>>183726
Где тут про собак, дебил? ГПТ-4 умнее ламы, а ты тупее чем они.
>>183403
>>183648
>>183652

Аноним 26/03/23 Вск 13:51:27 #531 №183744

>>183739
>GPT 4 умнее ламы

Даже ChatGPT умнее >>183687

Аноним 26/03/23 Вск 13:51:41 #532 №183746

>>183739
>>175730
Изначально ты стриггерился на мою задачу.
Пей что-нибудь для памяти, хуйлуша

Аноним 26/03/23 Вск 13:53:50 #533 №183751

Анон с 65B, спроси у своей про холоднокровных собак. Я младших я уже всех спросил, все жидко обосрались, для 65B моя пека слишком слаба

Аноним 26/03/23 Вск 13:53:55 #534 №183752

>>183746
Че ты несешь >>183398 >>183403 вот мои посты.
При этом я не пытался тебя уязвить или выставить дураком, просто предложил правильно вопрос задать. Чего ты бомбанул?

Аноним 26/03/23 Вск 13:54:44 #535 №183755

>>183752
Как правильно, дегроид малолетний?
Это правильно заданная задача с 3, блять, множествами. Друг в друге.
У тебя совсем от бояры мозги в изюм ссохлись?

Аноним 26/03/23 Вск 13:58:12 #536 №183764

>>183755
Где?

Аноним 26/03/23 Вск 13:58:50 #537 №183765

>>183764
Это не мой скрин, маня
Ебать мАневры стратегические пошли, лол

Аноним 26/03/23 Вск 14:04:03 #538 №183778

>>183764

Это мой скрин, я просто про холоднокровных собак спрашиваю, потому что это годный показатель качества сети.
А еще в треде есть агрессивный анон, задающий сеткам задачу про собак. Поскольку он использует задачу с неверными начальными данными(как известно не все млекопитающие теплокровные) - то я не уверен что его задача качественно тестирует сетку.

Аноним 26/03/23 Вск 14:04:55 #539 №183782

>>183765
Я ему отвечал >>182729, вот тут >>183403
Если это не ты, то просто иди на хуй уебище тупое.

Аноним 26/03/23 Вск 14:05:19 #540 №183783

>>183778
>>183726
Поссал на гуманитария, который не может три кружка друг-в-друге нарисовать

Аноним 26/03/23 Вск 14:07:55 #541 №183791

>>183778
Ну слава нейронам, разобрались.

Аноним 26/03/23 Вск 14:10:08 #542 №183797

>>183783

Ты просто дополнительно путаешь нейронку. Простого вопроса в лоб - про холоднокровность собак достаточно.

Аноним 26/03/23 Вск 14:22:45 #543 №183822

Бедная Альпака запуталась...

Аноним 26/03/23 Вск 14:22:56 #544 №183825

>>183687
На втором пике сетка обосралась, не все млекопитающие "теплокровные".

Аноним 26/03/23 Вск 14:27:54 #545 №183837

e0a.gif

Аноним 26/03/23 Вск 14:28:52 #546 №183839

>>183825
Собак в этой задаче надо заменить на млекопитающих, теперь это вопрос с дополнительным подвохом.

Аноним 26/03/23 Вск 14:57:08 #547 №183910

1578780061654.png

>>183687
Так и лама так же ответит, если не ставить температуру как стоит по умолчанию, надо ставить температуру не выше 1.0, а топ-п выше 0.5 для длинных ответов. Пикрилейтед 3-битная 30В. Кста, в свежем GPTQ очень сильно скорость бустанули, новые фичи для повышения качества квантования есть. Раза в 2-3 быстрее в начале пропукивается, не дольше секунды-двух, и генерит раза в два быстрее.

Аноним 26/03/23 Вск 15:11:46 #548 №183992

В чем она не права? Спросил её почему она ненавидит людей.

Аноним 26/03/23 Вск 15:35:16 #549 №184034

>>183910
> 3-битная
> в свежем GPTQ
Как всю эту хуйню запускать?

Аноним 26/03/23 Вск 15:44:54 #550 №184062

1636046761129.png

>>184034
Поставить свежий GPTQ, скомпилить, сконвертить чекпоинт с групсайзом 128, в файле llama.py захардкодить новые быстрые ядра. На 24 гигах если распердолить семплеры иногда ООМ вылетает на 4 битах, надо линукс пердолить. А с 3 битами запас по памяти есть, скорость выше, по ответам разницы не вижу.

Аноним 26/03/23 Вск 15:50:19 #551 №184074

>>184062
Кста, для любителей сидеть на старых коммитах - старая версия GPTQ прилично так сосала у RTN по викитексту, сейчас GPTQ уже ебёт его и 3 бита на 128 выдают скор примерно как старые 4 бита.

Аноним 26/03/23 Вск 15:54:29 #552 №184094

>>184074
Поясните тупенькому, что за скор? Лучше если он больше или если меньше?

Аноним 26/03/23 Вск 16:00:40 #553 №184110

>>184094
Викитекст - это тест нейронок на знание википедии. Лучше если меньше, это значение ошибок.

Аноним 26/03/23 Вск 16:04:14 #554 №184129

>>184062
>Поставить свежий GPTQ, скомпилить

Сколько 13B компилиться будет? И какие требования? На моей некро 3060 ti и 32 Ram скомпилится?

Аноним 26/03/23 Вск 16:08:50 #555 №184146

>>184062
Как конкретно всю эту хуйню на шинде сделать? Тут ведь не все красноглазики, чтобы понимать с полуслова.

Аноним 26/03/23 Вск 16:14:44 #556 №184167

>>184129
У меня 30В конвертилась около двух часов. Подкачки надо только гигов 100 влепить, пекарней можно пользоваться пока идёт квантизация. 13В на твоём железе тоже в районе нескольких часов будет. Требования VRAM явно не выше требований запуска моделей из таблицы.
>>184146
Я на винде и делал. Главное кондой не пользоваться, с ней проблем огребёшь, делай обычный venv и ставь всё через pip.

Аноним 26/03/23 Вск 16:18:22 #557 №184179

>>184167
> Давай, анон, гайд че там как
> Ну просто берешь и делаешь без задней мысли

Аноним 26/03/23 Вск 16:22:17 #558 №184190

>>184167

Откуда брал чистую ламу для конверсии?

Аноним 26/03/23 Вск 16:24:18 #559 №184195

>>184179
Надо пошагово каждую команду что ли?
>>184190
Торрент был с форчка, в шапке посмотри. HFv2 который.

Аноним 26/03/23 Вск 16:26:34 #560 №184202

>>184195
> пошагово каждую команду что ли?
Ну да.
Тут аноны по гайдам то два-три дня ебутся, чтобы что то запустить, так что с полуслова понимают 1.5 человека на весь тред.

Аноним 26/03/23 Вск 16:27:05 #561 №184205

>>184202
Ну ок, позже накатаю.

Аноним 26/03/23 Вск 16:28:39 #562 №184212

В шапке не указали какой минимальный размер VRAM для вката без переноса на хдд/ram?

Аноним 26/03/23 Вск 16:30:20 #563 №184215

>>184212
В шапке есть пиндосский гайд, там указано.

Аноним 26/03/23 Вск 16:32:25 #564 №184224

>>184212
Вот таблица, в ней указано сколько сжирает, на винде плюсуй гиг-полтора ещё >>184062

Аноним 26/03/23 Вск 16:38:28 #565 №184253

Угабуга сегодня все сломал вслед за qptq_for_llama, старые модели больше не работают.
Самые последние ламы можно вот в этом торренте скачать(ну технически не самые, конечно, самые последние у чела из треда который вперед паровоза уже на 3 бит перешел)
https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip

Аноним 26/03/23 Вск 16:42:19 #566 №184261

>>184253
Бля, как же ты вовремя, я только хотел обновиться в надежде что гугол транслейт починили.

Аноним 26/03/23 Вск 16:44:44 #567 №184274

Как вообще вышло что локомотивом развития локальных ИИ стали
1) Еле говорящий по-английски китаец, хуй ложивший на пользователей, ломающий свой говнокод и обратную совместимость три раза на дню
2. болгарин без видеокарты, пишущий охуительный, но неюзабельный код на сях
3. Рандомный нищук - говнокодер с 1650 вместо видеокарты?

Аноним 26/03/23 Вск 16:45:26 #568 №184276

>>184253
https://github.com/oobabooga/text-generation-webui/pull/530#issuecomment-1483992495
Вот есть торрент с 3 битами, и вообще в том треде можно ещё разных найти.

И советую поставить новую версию в отдельную папку, чтобы старое можно было тоже запускать если что

Аноним 26/03/23 Вск 16:46:26 #569 №184278

>>184274
3. если ты про угабугу, то у него видеокарта есть, 3090 вроде. А 1650 на ноуте где он тоже тестит

Аноним 26/03/23 Вск 16:55:49 #570 №184317

>>184274
Все адекваты няшат тяночек под пледиком и работают в нефтянке 30000000ккккк/наносек.

Аноним 26/03/23 Вск 16:58:04 #571 №184325

>>184276

Тут торрент только с 30B

Аноним 26/03/23 Вск 17:21:36 #572 №184410

>>184215
Спасибо.

Аноним 26/03/23 Вск 17:34:53 #573 №184430

>>184202
https://rentry.org/vsu4n
Вроде ничего не забыл.

Аноним 26/03/23 Вск 17:40:07 #574 №184443

>>184430
Про faster kernel надо тестить. У меня без него работает почему-то быстрее. Возможно потому что видюха говно. Так что лучше прогнать и так и так и проверить

Аноним 26/03/23 Вск 17:42:30 #575 №184447

>>184430
>>184443
И ещё про него же - проще в файле modules/GPTQ_Loader.py поменять одну строчку
model = load_quant(str(path_to_model), str(pt_path), shared.args.wbits, shared.args.groupsize) на model = load_quant(str(path_to_model), str(pt_path), shared.args.wbits, shared.args.groupsize, faster_kernel=True)

Аноним 26/03/23 Вск 17:44:17 #576 №184452

>>184430
Пажжи
> этой же папке файл llama-30b-4bit.pt
А просто скачать ламу 4 бит с хаггингфейса или гайда в шапке, после сделать faster_kernel=True а потом запускать --wbits [3 будт работаь или обязательно квантовать с жной моделью] c4 --wbits [3 , но тогда не будет работать 4 бита?

Аноним 26/03/23 Вск 17:48:55 #577 №184462

>>184452
Нет. Квантовать в 3 бита надо обязательно, 4 бита не взлетят. И надо обязательно групсайз 128 ставить, а иначе в 3 битах будет грустно. Там ещё какие-то изменения были, ломающие совместимость со старыми моделями.
> llama-30b-4bit.pt
Как назовёшь в --save, так и сохранит, название файла тут не принципиально.

Аноним 26/03/23 Вск 17:49:23 #578 №184465

06789-3911855160.png

>>184430

Двач на острие науки.
Именно здесь будет создана идеальная роботян. Именно отсюда начнется война ИИ с миром нормисов.

Аноним 26/03/23 Вск 17:52:59 #579 №184478

>>184462
Ну охуеть.
Так уточни это в гайде что мол не "3 или 4", а 3 потому то... или 4 потому то... Ну или проще 4ку вычеркнуть, ведь нахуй она нужна когда можно в 3?

Аноним 26/03/23 Вск 18:05:58 #580 №184509

Господа, нужен перекат.
Вставьте инструкцию для инвалидов >>182383
и новые торренты >>184253

Аноним 26/03/23 Вск 18:32:24 #581 №184592