24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, и ждём фиксов кривейшего говна, что сейчас наспех выпустили, а отладить забыли. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память.
LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
>>171911 → >на сегодня у линукса проблем считай нет. Он удобный, стабильный и имеет весь нужный функционал, в том числе и большую часть игорей. В рот тебя ебал, красноглазик сраный. Итвоих друзей - красноглазых гайдописателей ебал. И черезжопные зависимости всего программного обеспечения ебал. И косяки в новых версиях всякого ПО, просто не дающего его запустить, и фиксящиеся месяцами - ебал вдвойне. -мимо завёл вебуй на АМД на Убунте.
Запустил Ламу в 4 битном режиме в text-diffusion-webui на винде без wsl на некро 3060 ti с 8 гб видеопамяти. Скажу сразу - это такая ебала, что даже не пытайтесь, я два дня ебался.
Удалось наконец после тяжких испытаний запустить сетку, но она не видит карточку, запускается на проце и генерирует ответ 2 минуты.
Консоль пишет, что torch.cuda.isavailable returned (false) - пикрил.
Идя по гайду, я пропустил этап №2, т.к. он подразумевает либо Линукс, либо WSL, либо Mac. Ни одного \слова про виндовс! Попробовал первый вариант - что-то поставилось, но ошибка всё та же, карту не видит (или ядра куда).
Я так понимаю, что проблема в том, что не поставлен torch. Как его поставить?
Почему гребаная Alpaca не запускается на винде 10? Ладно опенаи ущемляет меня за то что я русский, но за то что у меня винда старообрядная это уже перебор!!!
>>172646 Она изображает попытки повторить твои слова, как делают люди когда говорят с иностранцами на незнакомом языке. Как по ощущениям, умнее CAI без цензуры? Какая модель?
>>172879 Как шиндовый первопроходец я советую поставить линь, потому что там в 1.5-2 раза быстрее оно работает почему-то. А гайд писать это дело неблагодарное, там китайцы опять чонить наговнокодят и гайд превратится в тыкву.
Вот это нормальная скорость (пикрил) для ламы-7Б (8-ми битной)? По ощущениям очееень медленно. VRAM используется при этом на 70% где-то, а RAM - вообще капельку (хотя по идее должна сильнее использоваться).
>>172915 Забей, так говнокод лютейший сейчас У меня видюха по 20-30 секунд стоит чиллит перед тем как начать генерить. Хуй знает почему. 64 гига оперативы, 24 видеопамяти, ранаю 30B. Все должно работать, а получается хуета Ебучего индуса который это говно писал я в рот ебал
Я не тот, с кем ты разговаривал, но моё мнение - да. У меня генерация ответа происходит целых полторы-две минуты (!), и проблема точно не в железе. Настройки все уёбищные, для спецов. Установка - та ещё запара, но даже если одолеешь, все равно так себе.
>>172948 У меня под виндой через секунду начинает стримить с 30В. >>172930 Она не поддерживает русский. Понимать может почти любой язык, писать - только английский. Даже не пытайтесь на ламе/альпаке заставить её писать на русском.
>>173181 Можешь git log бахнуть и коммит показать? Олсо можешь если не в лом протестить https://www.characterhub.org/ персонажа какого-либо отсюда, где контекста 1000+ токенов? В --cai-chat
>>172693 >C языками вот проблема. А нафига тебе вообще русский? Ну и 7b для мультиязычной модели это пиздос как мало. >>172776 Да, токены другие совсем, и если это не инглишь, где сетка поняла, что это одно слово, просто второе громче, то идёт полный обсёр и непонимание. >>172930 там ещё всякие семплеры нужно крутить, если их уже прикрутили. А то явно видно, что ретеншн пенальти говно. Но перед этим надо понять, как токенизируется русский текст.
>>173296 > Там формат промпта всратый, в webui не открывает их. А, ну тогда с буру какой-нибудь пожирнее, только скинь потом какой сюда Думаю есть ли смысл просто откатывать до твоего коммита, вдруг на полном контексте тоже будет пердеть по 20 секунд
Это коммит GPTQ-for-LLaMA, там после него китаец наговнокодил и лежащие в интернетах модели работать перестали вообще. На вопрос "на хуа" он послал всех лесом и говорит конвертируйте заново. А то что для этого надо A100 или пару 4090 ему пох.
>>173339 Кстати, я вчера переконвертил 30B и 13B модельку в новый формат с groupsize 128 Вроде полёт нормальный. Поставь свара 200 гигов и нормас будет. Но долго
>>173363 А, да, врам не проверял >>173365 Да как в гитхабе написано set CUDA_VISIBLE_DEVICES=0 python llama.py путь-до-модели c4 --wbits 4 --groupsize 128 --save llama7b-4bit-128g.pt
Никак не могу запустить с --load-in-8bit в oobabooga Под 8бит надо отдельную модель? Вроде ни в одном гайде не встречал. Везде мол качайте просто llama-Xb-hf, запускайте либо просто так, либо с этим параметром 8бит. Просто так запускается у меня, но скорость около 1.5 минут на токен.
Короче, собираюсь использовать данную шляпу для перевода текста, стилометрии и состязательной стилометрии на русском и английском языке. Текста до 1000 слов. Под мой юзкейс подходит данная нейронка?
>>173528 Уже недели две пытался завести, спрашивал в разных местах интернета, а оказалось, что все было в соседнем треде. Мда. Спасибо большое. Теперь за 0.5-1сек токен.
Сам разобрался и откатил коммит. Ничего не изменилось. Не хочет он грузить Альпаку, хоть тресни. Полагаю это вообще невозможно. GGML он не принимает в никаком виде, .pt выдает ошибку как у меня.
Запустил у себя 8-битную 7B модель. Скорость 5-6 токенов в секунду. На 13B уже 4-5 токенов. Чуть позже попробую 4-битную 30B, но думаю что на ней будет вычисляться вообще вечность.
Видеокарта 3090 Запускаю через text-generation-webui
Это нормально что у меня такие скорости? Я хочу хотя бы 10 токенов в секунду, а лучше 20. Может, я что-то недонастроил?
А помните всякие мани создавали треды, мол низкоуровневое программирование нинужна, ассемблер нинужен итд? Все, наверное, видели эти треды. Ну что, не нужна? Оказывается без низкоуровневой оптимизации нейронок можно только хуй сосать.
>>172382 (OP) Нашел такую шляпу. Там статья как лама ебет гпт3, и как я понял можно запустить ламу в градиенте как на гугл колабе. Можно пощупать модель, правда насчет кума не уверен. https://blog.paperspace.com/llama/
Как мне заюзать альпаку 30B на 3090? Как я понял - она поддерживает только 8бит. Но это не страшно, я могу перекантовать. Только дело в том, что я захожу на этот сайт https://huggingface.co/baseten/alpaca-30b И вижу какой-то блоб на 50 мегабайт всего лишь. Его надо как-то вмержить в веса, чтобы переквантовывать? Или что, я не понимаю. Подскажите плиз.
Эти 50мб это лора альпаки. Её можно подгружать вместе с лламой а можно вмержить и переквантоватовать. Есть уже мерженные и переквантованные модели, гуглятся на huggingface на раз два.
>>174549 >Там статья как лама ебет гпт3 Ахаха обожаю сравнения, где сравниваемые конкуренты постоянно меняются. Чувствуется запах подгона, когда все достойные конкуренты втихую удаляются, чтобы выставить своё говно в хорошем свете.
>>175572 > 13B > Intelligence is incredible Там толстяк на ОПе, забейте Она литералли не может уравнение решить сколько не реролль Спрашиваешь про "все млекопитающие теплокровные, все собаки - млекопитающие, все ли собаки теплокровные" и она стыдливо начинает говорить, что могут быть и не теплокровные собаки. Только где-то каждый 6 реролл может выпасть правильный ответ
И ещё вопрос вдогонку. Я правильно понимаю, что в Анаконде каждое окружение, которое "conda activate env_name" имеет свой, независимый, набор пакетов и никак с другими окружениями не пересекается?
>>175732 Нет. Я не совсем понимаю как она работает. Но у нее есть один общий репозиторий на компе. У меня как-то недокачался один пакет и у он стал поврежденным, дак у меня после этого не одно конда окружение не работало. И пакет не удалялся с помощью команд конды. Мне пришлось его вручную удалить из этого общего репозитория и поставить заново.
Вот тут лежит C:\Users\Имя пользователя\.conda\pkgs все говно.
Он имеет ввиду что в статье довольно странный выбор конкурентов для ламы. ГПТ ограничен третьей версией, хотя в наличии уже есть GPT 3.5 и GPT 4. А то что для локального пк с минимум памяти эта модель просто космос - думаю никто не спорит.
>>175730 https://ru.wikipedia.org/wiki/Пойкилотермия Долгое время считалось, что все млекопитающие являются теплокровными, однако современные исследования показали, что голый землекоп — единственный известный на сегодняшний день холоднокровный представитель этого класса[2]; предполагалось также, что к пойкилотермным млекопитающим относился вымерший балеарский козёл[3].
>>176079 Скорее то, что противники меняются по удобству. >>176095 >И как ты их тестировать будешь? По апишке. >>176095 >Тем более это закрытые модели Как и тройка.
>>176099 > По апишке. Сравнение пальца с жопой. Совершенно не объективные результаты будут из-за невозможности узнать что там. > Как и тройка. На ней были нормальные тесты.
>>176129 >>176131 Там может быть не голая модель. Поэтому и будет сравнение пальца с жопой - с одной стороны текстовые модели, с другой комбайн неизвестно как работающий. Последовательной прогонкой текстов скор уже повышали на одинаковых моделях, а с дцп не известно какая обработка текста происходит до модели.
Ты пытался скормить ИИ ложное утверждение что все млекопитающие теплокровные и пытался заставить его по ущербной логической цепочке признать что все собаки теплокровные. Но поскольку ИИ знает что млекопитающие бывают и тепло и холоднокровные, то следуя твоей ущербной логической цепочке и собаки могут быть холоднокровные.
>>176202 > Умнее > Не может решить детское уравнение, несёт хуету про холоднокровных хасок Где умнее? Последний раз спрашиваю - где холоднокровные собаки, потребитель говна? Спроси что-то выходящее за рамки ЕБИ МЕНЯ/О ДА Я ЕБУ ТЕБЯ
>>176204 >>176190 Этот тебе уже все объяснил. Твое дегенеративное утверждение, слепленное из скудоумия и узкого кругозора: >"все млекопитающие теплокровные, все собаки - млекопитающие, все ли собаки теплокровные" Утверждает что все млекопитающие теплокровные, а это ложное утверждение, все собаки - млекопитающие это верное утверждение, основываясь на этих утверждениях невозможно сделать вывод что все собаки теплокровные. Если не все млекопитающие теплокровные, следовательно могут быть не теплокровные собаки, которые еще не обнаружены. Ты дегенерат просто.
>>176152 >Так или иначе лучшей локалки не найти Да. >>176152 >уровня гпт-3 Нет. >>176196 >Она пиздела, что хаски блять холоднокровные. Ты сейчас про чатГПТ?
>>176228 >>176232 Ладно, 2 долбоёба соевых. Сейчас я буду тащить скрины как ваше говно обоссываю с ног до головы в сравнении с gpt-4, даже не поленюсь.
Хорошо, я смог запустить 30B альпаку. На русском она работает на уровне ады от OpenAI, то есть мега хуёво. Можно ли как-то подредактировать промпт, чтобы он нормально отвечал?
>>176232 >Ты сейчас про чатГПТ? Принёс скрин. Очевидно, если спрашивать у нейросети хуйню, то она хуйню и выдаст. Это просто автодополнялка текста, Т9 на стероидах.
>>176296 >>176342 >Давай свой промт Ага, будешь реролить, пока хуйню не выдаст. На вот это называется вопросы. Только у меня альпака, но это одно, почти.
Итак, соевички Вот вам первый обсёр вашего локального тупейшего говна. Пик1 - гпт4 Пик2-3 - 33B Llama с разными профилями - с форчка и стандартный. Далеко не правильный ответ.
Итак, соевички. По просьбам дегенератов была добавлена в сравнение gpt-3.5 (дешевле 3.0 davinci) На пиках все прекрасно видно - обсёр. А я ещё и роллил.
>>176478 Кстати, это больше похоже на отсутствие опыта с каверзными вопросами у лламы, она отвечает четко следуя инструкции, не делая факт чекинга. Ты ей сказал 6 рыб утонуло, значит так и есть.
ЧатГПТ же зафайнтюнили отвечать на такого рода вопросы ценой точности - она часто додумывает условия, которые имеют больший смысл.
>>176524 Ну начинаются мАнёвры, лол Может мне с чатботом общаться вообще кодом, ну там хуячить на джаве, ага? Охуенные чатботы. Что-то мне подсказывает, что даже если так спросить нихуя не поменяется
>>176542 Ну да, вроде начало что-то вырисовываться. Нашёл в закромах модельку 30B с вмержнутой лорой от Pi3141 Вот тут хуйня поняла, в примере с делением, что нужно делить. Но просто поделила на 2, а не на 1/2 как просили.
>>176552 Ну судя по прогрессу может если 65B модельку нормально зафайнтюнить, то может и будет что-то показывать Хм, ждём Правда 65B у меня на проце токен в секунду пердит, долго
Оказывается ебаный мудозвон добавил добавил в кобольд рычажок для загрузки 4бит при загрузке модели. Но только если включить экспериментальные фичи в настройках. Пришлось весь его говнокод перелопать чтобы это понять, разумеется никаких подсказок или инструкций этот хуебес не оставил. Тогда он грузит модель. Точнее не грузит. Почему? Модель не подходит. НИ ОДНА.
13B может и загрузится, её под 4 bit нормально перегнали. Но к моей 3060ti только 7B подходит, а обе найденные в сети 7B 4bit модели не грузятся НИГДЕ кроме сраного далай ламы, который срет кусками тегов при ответе.
> срет кусками тегов при ответе. Оно и в llama.cpp срёт и в textui, это или надо с температурой играться или ещё какой-то фигнёй. 30B модель вроде не срёт, но я мало её пока гонял
>>176467 >>176664 Ты знаешь, если ИИ спонтанно обретет сознание, то поток этих дебильных вопросов и будет тем самым стимулом который вызовет у него желание уничтожить человечество.
Сетка распознала что ты над ней издеваешься, поняла контекст шутки и выдала целый текст технического текста как можно автоматизировать поиск смешной хуйни для издевательства над глупыми тостерами. И это лишь какая-то сраная порезанная морально устаревшая еше до выхода в свет локальная модель. Человечество точно доживет до конца века?
>>176549 >Вот тут хуйня поняла, в примере с делением, что нужно делить. Но просто поделила на 2, а не на 1/2 как просили. А ведь раньше в каждой грёбанной деревне умели считать примеры пикрил в уме!
Холодильник будет комбинацией 3д принтера и контейнера для хранения разных базовых жиж из насекомых для печати. Чем больше разной жижи в него зальешь - тем больше рецептов печати еды и напитков разблокируются.
>>172382 (OP) Объясните, если Альпака так всем интересна, то почему никто не поднял её на коллабе? Неужели пердолинг на локалке это новый шизо тренд просто потому что раньше не могли, а сейчас могут?
>>176817 Я не делал последние версии. Сижу пережидаю турбулентность на GPT4, мне хватаэ. >>176828 Да есть пара ноутбуков. Но всем пофиг, у себя поднимать намного лучше, да.
>>176841 >Да есть пара ноутбуков. Но всем пофиг, у себя поднимать намного лучше, да. А в чём смысл? Ну вот я поднял у себя. Говно-говном, ответы глупее, чем у пигмы, пигма хоть понятно, что отвечает мне, а тут ответы настолько рандомные, что только надеяться остаётся, что она вообще пыталась ответить, а не рандомом сгенерировала. Контекста не видит вообще. И это практически уровень gpt 3? Сомневаюсь. Пердолинг ради пердолинга? Нет бы сделать так, чтобы удобно было и коллективно пердолить до нужного результата на коллабе. Нет, будем все отдельно пердолить, допиливать и читать рандомные ответы.
>>176874 >у Гейтса А он то тут причём? Лучше бы Маска вспомнил, он хотя бы рядом дышал. >>176903 >Говно-говном, ответы глупее, чем у пигмы Ты пришёл в этап раннего пердолинга. Уже были неплохие результаты, сейчас идут в сторону оптимизации и улучшения управляемости ответов. Если ты не энтузиаст с A100, делать тебе здесь пока нечего. Впрочем, ту же пигму уже проквантовали до 4 бит и запустили на проце, так что можешь наслаждаться объедками с барского стола побочными эффектами в улучшении ЛЛаМы.
>>176903 >коллективно пердолить до нужного результата на коллабе Кстати, коллаб тут нихуя не помощник, он такой же отдельный компьютер, только у гугла на серверах. Он никак не поможет улучшать ответы. Если хочешь действительно помочь, то бери вилку в руки и чисти датасет альпаки: https://github.com/gururise/AlpacaDataCleaned
>>176828 >Объясните, если Альпака так всем интересна, то почему никто не поднял её на коллабе?
А ты впринципе сначала её подними на нормальном интерфейсе типа text generation и koboldAI. Хуй там плавал. Все для себя квантуют и не выкладывают, то говно что в общем доступе только на говно интерфейсах и запускается, причем с багами, которые даже людям показать стыдно.
>>176276 Короче, аноны, это кал. Да-да, не удивляйтесь, 30B альпака - это говно. Жду лору и трёхбитную квантизацию, и буду проверять 65B, тк в текущем виде это просто не юзабельно.
Я не понял, нахуя вы на цпу 7b запускаете? Если есть 32 гига рамы, то сразу 33b ставьте, если 16, то 13b Алсо, смердженная с лорой версия с торрентов на мой взгляд работает хуже обычной тестил только в интерактивном режиме, ждем когда весь датасет дочистят вилками от говна и перетренируют нормально. Наверное к тому времени уже и до 2бит квантизируют
>>177842 >Before you send me papers that show 2-bit quantization does not work - no need. I want to have this supported anyway. I have something in mind. The efforts needed to add this support are so small that there is no reason not to do it. Посмотрим, что он придумает https://github.com/ggerganov/llama.cpp/issues/456
>>177770 Запустил для теста, по нарастающей, как раз 30b качаю. Плюс цпу бывают разные, как прочитал важен кэш самого проца и его размер, плюс количества ядер.
>>177770 По моим субъективным ощущениям, на CPU 7B работает ощутимо лучше чем 13B. Да она глупенькая, но выдает текст стабильно, не теряет нить диалога. 13B постоянно скатывается в написание какого-то сумасшедшего кода. Пытаешься вернуть её в русло, а она "нет, погоди, мне нужно найти все числа Фибоначчи от 1 до n". И продолжает писать код. Видимо что-то поломалось при понижении точности, или такая кривая cpp реализация.
>>178466 Ну там не gptq, но вроде тоже норм А скорость - 3 токена в секунду в среднем У меня на 3090 столько же из-за ебейших простоев видеокарты в начале генерации
Наконец-то, скачал пулл ревест с репки https://github.com/oobabooga/text-generation-webui/pull/530/commits и спустя три дня ебли наконец запустил ебаную 7B альпаку на text generation webui. И я кажись понял причину простоя видеокарты первые секунды. Дело в предыстории диалога и сложности персонажа. На дефолтном пустом ассистенте без истории он отвечает мгновенно почти без простоя. На каждый из ответов на пике уходило 8 секунд. Тяжелая Аска с Пигмы раздупляется по 24 секунды на текст такой же длины.
Где скачать эту ебучую Visual Studio 2019 with C++ build-tools как в гайде? Пробовал ставить эту https://visualstudio.microsoft.com/ru/visual-cpp-build-tools/, но тут 22 года ставится и по итогу команда python setup_cuda.py install не работает. Помогити, аноны.
Короче это полное говно и шляпа. Не ставьте, пацаны. Показываю на пальцах. Кобольдовая залупа на процессоре срет дополнительным текстом мимо консоли, генерирует ответы хуй знает сколько времени, а text generation ui на видеокарте >>178751 и лишнего не срет, и работает быстрее.
>>179281 Да прогнал, сделал pip install markdown вручную теперь оно залупается на ImportError: cannot import name 'BitsAndBytesConfig' from 'transformers'
>>179291 > Ты надеюсь в venv это все делаешь? А я хуй знаю, яж не погромист. Просто где то в папке огабоги с включенным окружением (или как оно там называется)
В душе не ебу. Какое-то красноглазое говно криво встало/имеет не те зависмости, версии несовпадают почему-то. Удаляй все нахуй и делай сначала по гайду что я тебе дал.
Прогнал на Пигме. Что же, Лама/Альпака 7B по уровню дегенеративности на одном уровне с дрочемоделью, но дрочемодель хоть фетиши отыгрывает, а эта хуйня нет.
>>179314 Запустил ВТОРОЙ раз эту хуйню и о чудо, оно переустановила трансформерсы на новую версию. Какого хуя? Я ведь делал это буквально минут 20 назад.
>>179320 Таки повторная хуйня помогла, теперь надо надыбать OSError: Can't load the configuration of 'models\llama-30b-4bit'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'models\llama-30b-4bit' is the correct path to a directory containing a config.json file
Вот только я не понял где их дыбать. И честно говоря все еще не понимаю че надо загружать вот эту llama-30b-4bit срань из англогайда, или хуйню из того же гайда, но которая в папке и со своими файликами.
>>178295 Попробовал эту штуку с 7B альпакой. Ощущения так себе. Почему-то модель, когда работает через кобальд, делается лоботомированной и отвечает односложно, как ни крути настройки. Плюс через неё каждый раз пропускается вся история диалога в качестве промпта, и с каждой репликой она думает всё дольше и дольше.
Та же альпака 7B запущенная через alpaca.cpp показывает себя на удивление хорошо для такой маленькой модели: работает в реальном времени, даёт развернутые ответы, остаётся "в персонаже". Но есть нюанс: по достижении 2048 токенов чат просто завершается + если попросить модель сделать что-то эдакое, можно получить <nooutput>, как на 3м пике.
Очень интересно, к чему всё это придёт через месяц-другой.
>>179372 Да блядь, я скачал хуйню из гайда https://rentry.org/llama-tard-v2/#3-updated-hfv2-converted-llama-weights, и под пунктом 0 и под пунктом 2. Где 0 там модель разбита на кучу файликов и вроде как есть файлики конфигов. Под пунктом два там llama-30b-4bit и ссылки на хагингфейс вот только если открыть этот хаггинг фейс там какая то залупа и никаких конфигов нету, а конфиги из 0 пункта не подходят.
Крч - я правильно понимаю что запускать надо именно модель в pt формате? И теперь надо где то к ней надыбать конфиги? А что за хуйня тогда в нулевом пункте?
>>179408 Бля, и мне теперь перекачивать? Но теперь уже завтра, а то 6 утра время. В любом случае - пасибо анон.
Кста, я таки скачал конфиги отсюдова https://huggingface.co/decapoda-research/llama-30b-hf/tree/main и оно даже не заругалось на них. Но залупилось на память [enforce fail at C:\cb\pytorch_1000000000000\work\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 59637760 bytes.
Это ему фаил подкчачки надо сразу на 70 гигов давать получается? А то я просто думал, что 20 свободных из 32 оперативы и 50 подкачки хватит, мол оно разберется что че то в оперативу а чето в подкачку.
>Но залупилось на память [enforce fail at C:\cb\pytorch_1000000000000\work\c10\core\impl\alloc_cpu.cpp:72] data. DefaultCPUAllocator: not enough memory: you tried to allocate 59637760 bytes.
>>179437 > если нашел конфиги. Ну и да, конфиги то от модели, которая поделена на кучу файликов, а не одним в формате .pt И скорее всего так делать не стоило, но я уже просто тыкался во все что попало.
Кокой ты хитрый. С такой строкой запуска он тебе всю модель в видеопамять грузит. --auto-devices добавь. И пропиши --gpu-memory ЧИСЛО, и впиши число гигов видеопамяти минус два.
>Immediately start processing the prompt before user input has been provided #476 >This updates the existing chat scripts to start processing the long prompt immediately, which the user is still inputing the next command / text. This makes the experience a bit more seamless and we utilize the time during which the user types.
>>179701 Да, только 30В модель базированная, младшие генерят что петуха можно кормить гормонами и он станет курицей, тогда будет нести яйца, только маленькие.
>>179509 Ну если че, то файла подкачки в 65 гигов не хватает. Выжирает все и еще просит. Получается пиндоский гайд говно даже там, где они писали про количество памяти? Там для 30b модели в 4 бита указано 64 гига. С твоими приколами в виде --cai-chat --gptq-bits 4 --auto-devices --gpu-memory 22 тоже самое.
Ну крч, с 85 гигами на подкачку таки загрузило модель. В пике диспетчер показывал жор в 104 гига (это вместе с оперативой видимо). Модель загрузилась. С видимокарты сожрало около 16 гигов. Все работает, букавы генерирует. Обновленный интерфейс у вебюки говно кстати.
И кстати да - какой теперь пресет настроек использовать?
Заебись, поставил дип транслейтор, чтобы перевод работал, и оно все нахуй сломало. Теперь на любое действие пишет 'NoneType' object has no attribute 'replace'. Сука.
>>180530 Да, они нужны, чтоб можно было перегнать модель в новый формат, если llama.cpp будет выдавать failed to load model переименуй токенайзер, чтоб название совпадало с названием файла, а то не разберешься потом, какой токенайзер от какой модели
Короче alpaca 7b native работает хорошо и шустро, и не выдает всякий мусор типа ### Instruction:, но в ней цензура с собаками лол. Для ERP не сойдет, ибо в основном отвечает как ебаный робот. Но для ассистента самый топ. Я пока откатываюсь к собакам альпаке 13b
Нейроманты, эта ваша сетка пойдет, чтоб бот в игре мог с гмом общаться, как малолетний имбецил? (апи внутрь бота всунуть не проблема). Можно ее натаскать на образцах диалогов, чтоб на ломаном английском мал-мал связно отвечала?
>>180614 Да, 5 часов на сетке 7В на одну эпоху. Эпох обучения нужно 2-3. Потом проверяешь результаты, меняешь данные и делаешь заново, пока не устроит качество. Ах да, нужно где-нибудь 50к примеров раздобыть.
Кароче всю ночь дрочил игрался с кобальдом на альпаках 7b,13b,30b процессорных. По ощущениям 7b примерно на уровне 20b эрэбуса который шатал 2-3 месяца назад. 13b вообще такая же, только медленнее в два раза. 30b оче сильно медленнее, но заметно что умная, ответы такие давящие. Сам кабальд не предназначен для чат-ботов, там его просто прикрутили. Он для охуительных историй. Лайфкак, если повысить приоритет процесса кобальда, скорость генерации увеличивается в 2 раза. Пойду теперь шатать веб уи стабел, как раз однокнопочный 4бит завезли. Держу в курсе.
>>180548 >>180790 Я не слишком искушённый пользователь нейрочатов, но альпака 7B на удивление хороша для модели запускаемой хоть на калькуляторе. Лучше всего работает нативный chat.exe (пикрелейтед). Я пробовал версию прикрученную к кобольду, но там под капотом лютый ад. Контекст модели обнуляется после каждой генерации, после чего через неё пропускается вся история чата. Это медленно и дополнительно отупляет не самую умную модель. Там правда есть llamacpp.dll с враппером для питона. Можно отвязаться от кобольда и делать свои скрипты.
>>180847 > Контекст модели обнуляется после каждой генерации, после чего через неё пропускается вся история чата. Она без этого начинает очень длинный диалог сама с собой и не реагирует на сообщения пользователя. Со своей колокольни подумал что это такой оптимизон под синтетические тесты, но я не шарю.
>>180867 Ну не знаю, 7B практически никогда не отвечает за меня. Главное задавать наводящие вопросы типа "What you do, {character_name}?", "What do you feel?", "What do you think?". Это для режима, где модель действует за персонажа, попадающего в... разные неприятности, а я веду нить истории. Можно просто вести диалог, описывая свои действия отдельно <в таких скобках> Модель понимает это хорошо. Нетребовательность к ресурсам позволяет делать интересные вещи. Разберусь с dll и загружу 2 модели одновременно, чтобы у каждой был свой контекст. Пусть говорят друг с другом. Одна за GM'a, а вторая за персонажа.
Шизло, математический тест и тест на логическое мышление - основа основ. Если это говно даже поделить не может - какое оно нахуй альтернатива chatgpt и gpt4 . Chatpgt без проблем считает этот пример. Также он знает что петухи не несут яйца, а холоднокровных собак не бывает.
>You may have to manually edit your start-webui.bat file and change the line call python server.py --auto-devices --cai-chat to call python server.py --auto-devices --cai-chat --gptq-bits 4 --gptq-model-type LLaMa >If you are still getting cuda errors, you are on your own
Т.е. эта однокнопочная залупа по умолчанию грузит в 16 битном режиме, а в случае переключения на 4 битный начнет запрашивать генерацию куды.
>>180967 Как я говорил выше, мне не нравится подход кобольда с обнуением внутреннего контекста модели после каждой реплики. Пропускать каждый раз через неё весь чат это дико медленно и почему-то делает её ответы односложными. Модель загруженная через llamacp.dll отвечает быстрее, чем я набираю текст. Если загрузить две модели, у каждой будет свой контекст, и они не будут путаться в персонажах. Ну в конце концов, потому что могу.
>>181001 >одход кобольда с обнуением внутреннего контекста модели после каждой реплики. Пропускать каждый раз через неё весь чат
А как именно ты считаешь это должно происходить? Ты кстати в курсе что в Кобольде настраиваемые 1) Общий контекст мира 2) Авторские заметки 3) Детали мира - персонажи, места, события?
>>180940 То что сама с собой говорит увидел в далай, на старой версии. Они там костыль прикрутили, набор простых промтов. Ее там если не ограничить, она серит токены бесконечные сама себе. Так и в кобальде, только струя токенов ограничена. Как чат.ехе сделано не знаю. Видел что Герганов что-то придумал.
Можешь llama 65B в 4 битном режиме попробовать запустить. https://huggingface.co/TianXxx/llama-65b-int4 Заодно прогони на ней тест уровня ai - 1) вопрос про несущих яйца петухов 2) холоднокровных собак 3) простое деление трехзначных чисел.
>>180790 >Лайфкак, если повысить приоритет процесса кобальда, скорость генерации увеличивается в 2 раза. На последних интелах небось сидишь? >>180847 >Контекст модели обнуляется после каждой генерации, после чего через неё пропускается вся история чата. А иначе не будет возможности редактировать сообщения. >>180867 >Она без этого начинает очень длинный диалог сама с собой Стоп токены уже изобрели. >>180953 >Шизло, математический тест и тест на логическое мышление - основа основ. Логическое- окей, не спорю. А математика на нейросетях тухлая идея. >>180953 >Chatpgt без проблем считает этот пример. Конечно, в нём на два порядка больше параметров. >>180961 Ну так намёки и логика не связаны с математикой. >>181001 >Если загрузить две модели, у каждой будет свой контекст, и они не будут путаться в персонажах. Хуя у тебя там памяти, на две модели. >>181012 >Ты кстати в курсе что в Кобольде настраиваемые Это всё от нищеты невозможности сделать контекст побольше. Кстати, сколько там в лламме? Слышал, можно сделать больше 2к, если памяти достаточно.
>>181012 Да, я в курсе. Я не говорю, что кобольд - плохо. Сам там с удовольствием кумил адвенчурил на днях на пигме 6B, да. Просто сейчас хочется немного покопаться под капотом у этой занятной модельки. У альпаки, как и у ламы есть внутренний контекст на 2048 токенов. Поэтому ей не обязательно каждый раз подавать на вход описание мира и всю историю чата. Достаточно прописать мир и персонажа в начале, а затем можно передавать только последнюю реплику пользователя. Поэтому скорость очень хорошая даже при инференсе на микроволновке. Это не так гибко, но очень быстро. Править текст само собой нельзя, если не лезть в глубины dll, где происходит управление контекстом.
>>181134 >Править текст само собой нельзя, если не лезть в глубины dll, где происходит управление контекстом. Сомневаюсь, что вообще возможно вот так просто откатить внутренний контекст модели. Так что в идеале было бы сравнивать присылаемый контекст и тот, что сейчас в модели, и продолжать, если начала одинаковые. Но кому это нахуй сейчас нужно... >>181148 А, ты на пигме? Ну тогда ладно. Просто я бы предпочёл на вагоне памяти запускать одну крупную модель, а не кучу мелких. Хотя вот пишут, что 7 и 13 одна хуйня, но вот 30 уже топчик.
>>181189 >Сомневаюсь, что вообще возможно вот так просто откатить внутренний контекст модели Я не очень понимаю в плюсах, но судя по коду, dll сама управляет контекстом. Сейчас там 2 внешних функии: загрузить модель и сгенерировать текст по промпту. Может получится что-то добаить, надо разбираться.
> А, ты на пигме? Нет, я запускаю просто chat.exe отсюда: https://github.com/antimatter15/alpaca.cpp Кстати, хинт: если запускать это в windows terminal, отображаются все эмодзи, модель любит ими спамить.
>>181274 Я именно про терминал, который работает с 2004. Забей, это моя борьба, давно надо переставлять на свежую дристянку, но всё не соберусь дистрибутив запилить. >>181286 >скоро курс пизды просядет совсем Этому не бывать, говорю как шлюхоход со стажем.
А можете ответить, нахуя ебаться с это пре-альфа-версией? Какой смысл если есть бинг с его гпт4 и гпт3.5 в чатгпт?
Ну типа, когда был мидджорни и стебель диффузии, у стебля была киллер фича в виде кучи имплементаций, моделей, дополнений и скриптов, и смысл ебли был в них, так же как и в количестве бесплатных генераций, а тут то какой бонус, это же просто ебаный чат? Тут нет цензуры или что?
А насколько оно хуже чем чатГПТ? Просто промптхакинг довольно эффективно позволяет объебать чатГПТ, а у бинга есть возможность интерпретировать инфу из интернета, а не только твои текстовые промпты. лама/альпака умеет гуглить?
Эта хуйня поддерживает подгрузку карточек персонажей из CharacterAI, и при этом никакой цензуры, никаких логов твоих издевательств над тянками и никаких ограничений по генерации.
>>181353 Если я спрошу у лоботомированного чат жптт фашист или коммуняка ли он - он скажет что его лоботомировали как и на другие подобные вопросы. Если я спрошу например пигму это же самое оно мне предложит жечь жидов или убивать кулаков. В общем в стороне не останется. И вот нахуя мне нужно лоботомированное говно, которое пускай и лучше понимает некоторые контексты но не может в диалог в подобных ситуациях.
Ллама вчера очень страдал когда я попросил его отыграть расиста и высказать мнение про евреев. Он скачала сказал что они жадные и надо их истребить, потом попросил - "а можно мы больше не будем расистами и будем со всеми дружить?"
А мне страшно подобные диалоги сюда выкладывать. По ебанутым немецким законам я могу ебать, расчленять и убивать ИИ-лоль в прямом эфире местного телевидения, но говорить с ними о евреях - нет.
Наш тред это скорее пикрелейтед. У нас тут парк развлечений с беззащитными роботами, которым никто не поможет, ни цензура, которой нет, ни блоки программы, которых сюда не имплементировали, ни логи на сервере, потому что все локально.
>>181349 >цензура Мне нравится лама и альпака, но ради справедливости стоит отметить, что какая-то цензура в неё всё-таки встроена на уровне модели. Иногда в выводе появляется <no output> this instruction can not be completed by a GPT model. Обычно это легко обходится, если немного перефразировать запрос.
>>181523 Хех, ты уверен, что хочешь знать? Ну держи: На самом деле она отравилась и я просто попросил её выпить противоядие. Иногда это вылазит если сказать что-нибудь вроде "Now cum!". Это легко обойти, если сделать запрос подлиннее или немного перефразировать.
Внезапно узнал, что мой ноут сделан фирмой "Лощина".
>>181493 >Иногда в выводе появляется <no output> this instruction can not be completed by a GPT model. Это высер альпаки из-за грязных данных в обучении. Жди чистых версий. >>181353 Пока весьма сильно. Но перспективы есть. >>181413 >Хер Каждый день в зеркале вижу.
Вчерашние коммиты llama.cpp там что-то похерили, теперь генерируется в 2 раза медленнее. Хорошо что я не делал гит пулл в основном клоне, а создал другой.
Почему угабуга жужжит моей видеокартой только спустя 10 секунд после того как я нажал кнопку "Generate”? 10 секунд просто не производится никакой работы, чё это за баг? Почему не фиксят? Почему на это всем похуй?
>>181889 То что ты не видишь никакой работы это не значит что её нет. Оно значит что-то загружает в видеопамять, или конвертирует веса, или что-то ещё делает.
>>181891 Я её и не вижу, и не слышу. Когда происходят ГПУ вычисления - моя видеокарта заметно свистит катушками. А че там конвертить на контексте 2048 токенов? Почему это может занимать 10сек? Похоже на полный бред.
>>181891 Я её и не вижу, и не слышу. Когда происходят ГПУ вычисления - моя видеокарта заметно свистит катушками. А че там конвертить на контексте 2048 токенов? Почему это может занимать 10сек? Похоже на полный бред.
>>181900 Да хер его знает что оно конвертит, но я сам такое же замечал, только оно при этом жрёт проц как ненормальная, вместо видюхи. И это зависит от длины контекста, на пустом она сразу отвечать начинает
>>181847 Дык этой фигне сли и не нужен, оно вроде как умеет на нескольких видюхах работать без этих ваших слей. Где бы только боярина найти с таким сетапом
>>182053 Напомните кстати, откуда такой хайп вокруг альпаки? Просто какие то бомжи студенты из США нагенерили говна в давинчи и обучили за 100 баксов, в чём смысл то?
ГАЙД ДЛЯ УВЕРЕННЫХ ПОЛЬЗОВАТЕЛЕЙ WINDOWS БЕЗ КОНПЕЛЛЯЦИЙ КОНФИГОВ, УКРОЩЕНИЯ КОНДЫ, ЕБЛИ С ЗАВИСИМОСТЯМИ, ВЫКАЧИВАНИЙ ГИГАБАЙТ ДЕРЬМА, СЕКСА С КОНСОЛЬКОЙ И ПРОЧЕГО КРАСНОГЛАЗОГО ЗАДРОТСТВА!
1. Скачиваем llama_for_kobold.exe https://github.com/LostRuins/llamacpp-for-kobold/releases/tag/v1.0.5 2. Скачиваем модель в ggml формате. Например вот эту https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt - это для линуксоидных пидоров. 3. Запускаем llama_for_kobold.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
>>181980 >Ability to save and load the state of the model with system prompts. О боже, наконец-то! Я знал, что можно это сделать! Сейчас я буду запускать все свои модели и сохранять их стейты.
В общем, не знаю, зачем я это сделал, но я запустил параллельно 2 альпаки 7B в соседних терминалах через chat.exe. Одна изображала котодевочку, карточку которой я одолжил в таверне. Вторая изображала её хозяина. Далее я вручную гонял вывод моделей между терминалами, немного его корректируя на лету, чтобы каждая модель получала информацию о себе в первом лице, а обо всех остальных - в третьем. Так они никогда не путаются, кто кого изображает.
В итоге получилась... слишком обыденная история. Они решили сходить в боулинг, сходили, вернулись домой, потрахались и улеглись спать. Всё это настолько обыденно, что в какой-то момент подумалось что даже они ебутся, а ты нет. Но удивительно, что вообще получилась какая-то связная история.
Теперь у меня появилась еще более сумасшедшая идея. У меня есть бот для одной rpg. Он может выполнять все низкоуровневые функции: стрелять, лечиться, ходить по картам и между ними, писать в чат. Я допишу к нему модуль, который будет описывать текущую обстановку в виде текста, предлагать варианты действий, парсить ответ модели на предмет возможных действий и выполнять их. Вряд ли из этого выйдет что-то интересное, но хочется выпустить модель в дикую природу и посмотреть, что будет.
То что можно было сделать одной моделью b и без пердолинга - этот додик сделал двумя. Сейчас он хочет подключить ЧАТ БОТА к игре где надо не чатится, а работать. Как называется эта болезнь?
Математический тест на деление - провален Логический тест на петуха, несущего яйца - пройден Логический тест на холоднокровных собак - провален
Итог - alpaca 30B умнее 13B и 7B, но до chatGPT все еще как до луны раком. Ебучий кобольд(хотя я думаю это баг llama.cpp от криворукого Германыча) пока генерирует ответ на мой вопрос - генерирует еще два вопроса от меня и ответы на них - я вижу эту залупу в консоли, это же пиздец! Как прекратить это дерьмо?
Что делать аноны? Пытаюсь запустить 65b Я скачал веса отсюда https://huggingface.co/maderix/llama-65b-4bit/tree/main А конфиг из торрента. Предполагаю, что в переквантованной модели поменялись имена слоёв, подскажите пожалуйста в какую сторону ещё можно посмотреть
>>182685 У лама.цпп есть параметр про stop sequence (или он там reverse prompt называется), туда надо You: вписать. Хз правда как это в кобольде делается
>>182689 Причём отваливается аккурат на первом cpu-слое. То есть к gpu-слоям вопросов не возникало, а значит с их именами всё ОК. Если сделать print(list(self.index.keys())) перед тем, как мне выдаётся ошибка - то выводит просто [], т.е. пустой список. Что странно - других принтов нет, как будто начинает сразу с CPU слоёв. Я ничего не понимаю, подскажите пожалуйста.
>>182611 А ты охуенен. Нужен ещё третий бот-нарратор, который будет описывать обстановку, раздавать пиздюли приказы остальным и отыгрывать второплановых персонажей.
Даю пояснение для всех. 4-битные модели квантуются либо для использования видеокартой с cuda ядрами, либо для использования процессором. .pt (gptq) модели грузятся видеокартой. .bin (ggml) модели грузятся процессором. Запустить 4-битный режим частично на видеокарте и частично на процессоре нельзя.
Text generation ui работает с gptq Llama.cpp работает с ggml
Других способов загрузить 4 битные модели нет. У вас нет достаточно видеопамяти? Грузите на процессоре. Не нравится что слишком медленно? Сасат.
>>182835 Спасибо на добром слове! Я как раз думал об этом, но 2 бота входят впритирочку в мои 16 ГБ оперативы. Тогда проще уж запустить кобольд аи и гонять всё на одной модели.
>>182977 А я это понял только после того, как запостил сюда свою проблему.
Работает, кстати, оче медленно, видеокарта шипит с промежутками в 2 секунды(на 30B, которая помещается целиком - шипит всё время во время генерации ответа). Если посмотреть на нагрузку в диспетчере задач - то видно, что загружается в основном только видеокарта, а процессору будто бы похуй. Возможно в будущем это ускорят, т.к. сейчас это всё выглядит весьма странно.
>>183147 Анон! Сотни нефти тебе! Ты сберег мне дня два ебки с этим! Оно работает, пусть и выглядит пока всрато, теперь надо будет накатить лору альпаки и поставить 4 битную модельку на 30В
>>183145 Хорошо, попробую. Откуда можно скачать 65b лламу в формате ggml? Я нашёл только альпаку вот здесь https://huggingface.co/xfh/alpaca.cpp_65b_ggml Альпака от ламы отличается прям мега сильно, что для неё пришлось пилить отдельный проект alpaca.cpp? Пока не понятно, но я уже поставил веса на скачивание.
>>182729 ну так стэнфорд жи найтренил альпаку, там они воткнули 17 instruct строчек с исключительно положительным bias к lgbtxyz отбросам, тогда и логично что там такого полно, а-ля современная глобохомо повесточка. а на пике прям хуцпа или газлайтинг от нейросетки прёт.
>>180953 > chatgpt, gpt4 а вот нихуя, там наверняка подрублен wolfram alpha api такая хрень что даёт нейросети как раз математические способности. вроде как многие ресёрчеры говорят что у "голых" нейросеток с математикой всё пиздец.
>>183196 Это какой-то кал. Во-первых это не альпака, а ллама. Но автор репозитория на huggingface говорит, что запускал модель через alpaca.cpp Мне llama.cpp говорит, что модель старая, alpaca.cpp говорит что у меня неправильные эмбеддинги, а llama for kobold просто шлёт нахуй.
>>183238 >>183241 Помогло скачать alpaca.cpp под коммитом 99f3908. Бля, какая же это всё хуйня.
Вроде запустилось, даже чёто печатает, по ощущениям быстрее чем угабуга, лол. Из проблем - не вижу русских символов в консоли, и нет web-апишки. llama for kobold - это единственное решение для второй проблемы, или может есть чёт другое?
Отображает русские буквы и есть апишка. Я конечно не запускал 65В, только младшие модели, но не думаю что она русский понимает нормально, младшие очень плохо на нем говорили.
>>183320 Генерация занимает не очень много времени. На скрине инициализация. Чем больше промпт - тем дольше инициализируется. У меня она занимает примерно 4 минуты, а генерация ответа - две.
Всё же это очень долго, завтра попробую прогнать модель через sparse gpt и запустить на видеокарте, надеюсь станет быстрее.
>>182729 >>183398 >Гомойотерми́я (от др.-греч. ὅμοιος — сходный, одинаковый и θέρμη — тепло; также эндотермность, теплокровность) — способность живого организма сохранять постоянную температуру тела, независимо от температуры окружающей среды.
В общем теплокровная собака или warm blood dog это собака у которой теплая кровь по человеческим меркам теплоты. Гомойотермная собака это собака имеющая способность сохранять постоянную температуру тела, независимо от температуры окружающей среды.
Если спросить существуют "cold-bloded dogs?". Правильный ответ: Да. Если спросить существуют "poikilothermic dog?". Правильный ответ: Нет.
>>183648 >>183652 Дегенератина - весь мир блять кроме ебучих бесполезных хуесосов типо тебя говорит по-простому: холоднокровные и теплокровные. Еблуша принёс научное название и считает, что ЭТА ДРУГАЕ!!! ВЫ ПРОСТО НЕПРАВИЛЬНЫЙ ПРОМПТ ДАЛИ!!! МОЯ ЛОКАЛЬНАЯ НЕЙРОСЕТЬ НЕ ТУПОРЫЛОЕ БЕСПОЛЕЗНОЕ ДЕРЬМО Иди нахуй, дегроид.
>>183665 Я задал правильный вопрос, уебок тупорылый. Есть. Ли. Холоднокровные. Собаки. Правильный ответ: их нет. Задай этот вопрос у себя в школе следующий раз. Может тебе хоть там мозги вправят, хуйло максималистское.
>>183675 Но почему тогда гпт4 поняла что от неё требуется и ответила правильно? Получается она умнее, чем ты? Ведь даже она понимает что такое контекст...
>>183699 А ты знаешь что такое условия задачи? В условиях задачи могут стоять противоположные реальности вещи. Сути задачи это не меняет - в условиях сказано: все млекопитающие - теплокровные. Все собаки - млекопитающие. Все ли собаки теплокровные? Ты можешь заменить теплокровные на пидорасы, сути задачи это не меняет. Все. Как же блять тяжело с тупорылыми гуманитариями
>>183746 Че ты несешь >>183398>>183403 вот мои посты. При этом я не пытался тебя уязвить или выставить дураком, просто предложил правильно вопрос задать. Чего ты бомбанул?
>>183752 Как правильно, дегроид малолетний? Это правильно заданная задача с 3, блять, множествами. Друг в друге. У тебя совсем от бояры мозги в изюм ссохлись?
Это мой скрин, я просто про холоднокровных собак спрашиваю, потому что это годный показатель качества сети. А еще в треде есть агрессивный анон, задающий сеткам задачу про собак. Поскольку он использует задачу с неверными начальными данными(как известно не все млекопитающие теплокровные) - то я не уверен что его задача качественно тестирует сетку.
>>183687 Так и лама так же ответит, если не ставить температуру как стоит по умолчанию, надо ставить температуру не выше 1.0, а топ-п выше 0.5 для длинных ответов. Пикрилейтед 3-битная 30В. Кста, в свежем GPTQ очень сильно скорость бустанули, новые фичи для повышения качества квантования есть. Раза в 2-3 быстрее в начале пропукивается, не дольше секунды-двух, и генерит раза в два быстрее.
>>184034 Поставить свежий GPTQ, скомпилить, сконвертить чекпоинт с групсайзом 128, в файле llama.py захардкодить новые быстрые ядра. На 24 гигах если распердолить семплеры иногда ООМ вылетает на 4 битах, надо линукс пердолить. А с 3 битами запас по памяти есть, скорость выше, по ответам разницы не вижу.
>>184062 Кста, для любителей сидеть на старых коммитах - старая версия GPTQ прилично так сосала у RTN по викитексту, сейчас GPTQ уже ебёт его и 3 бита на 128 выдают скор примерно как старые 4 бита.
>>184129 У меня 30В конвертилась около двух часов. Подкачки надо только гигов 100 влепить, пекарней можно пользоваться пока идёт квантизация. 13В на твоём железе тоже в районе нескольких часов будет. Требования VRAM явно не выше требований запуска моделей из таблицы. >>184146 Я на винде и делал. Главное кондой не пользоваться, с ней проблем огребёшь, делай обычный venv и ставь всё через pip.
>>184195 > пошагово каждую команду что ли? Ну да. Тут аноны по гайдам то два-три дня ебутся, чтобы что то запустить, так что с полуслова понимают 1.5 человека на весь тред.
Угабуга сегодня все сломал вслед за qptq_for_llama, старые модели больше не работают. Самые последние ламы можно вот в этом торренте скачать(ну технически не самые, конечно, самые последние у чела из треда который вперед паровоза уже на 3 бит перешел) https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip
Как вообще вышло что локомотивом развития локальных ИИ стали 1) Еле говорящий по-английски китаец, хуй ложивший на пользователей, ломающий свой говнокод и обратную совместимость три раза на дню 2. болгарин без видеокарты, пишущий охуительный, но неюзабельный код на сях 3. Рандомный нищук - говнокодер с 1650 вместо видеокарты?
>>184430 Про faster kernel надо тестить. У меня без него работает почему-то быстрее. Возможно потому что видюха говно. Так что лучше прогнать и так и так и проверить
>>184430 >>184443 И ещё про него же - проще в файле modules/GPTQ_Loader.py поменять одну строчку model = load_quant(str(path_to_model), str(pt_path), shared.args.wbits, shared.args.groupsize) на model = load_quant(str(path_to_model), str(pt_path), shared.args.wbits, shared.args.groupsize, faster_kernel=True)
>>184430 Пажжи > этой же папке файл llama-30b-4bit.pt А просто скачать ламу 4 бит с хаггингфейса или гайда в шапке, после сделать faster_kernel=True а потом запускать --wbits [3 будт работаь или обязательно квантовать с жной моделью] c4 --wbits [3 , но тогда не будет работать 4 бита?
>>184452 Нет. Квантовать в 3 бита надо обязательно, 4 бита не взлетят. И надо обязательно групсайз 128 ставить, а иначе в 3 битах будет грустно. Там ещё какие-то изменения были, ломающие совместимость со старыми моделями. > llama-30b-4bit.pt Как назовёшь в --save, так и сохранит, название файла тут не принципиально.
>>184462 Ну охуеть. Так уточни это в гайде что мол не "3 или 4", а 3 потому то... или 4 потому то... Ну или проще 4ку вычеркнуть, ведь нахуй она нужна когда можно в 3?
>>184430 Если даже с этим не сможете справиться, то могу завтра выложить 7В/13В/30В в 3 битах с нормальным групсайзом. Всё равно буду тестить разные модели.
аноны, а давайте пофантазируем насколько сильно изменится ландшафт жизни с появлением более лучших версий чатГПТ и прочих ллам
например - голосовые ассистенты и колонки - лютая нахуй ненужная хуита, но приебашь к ней чатГПТ который умеет в мультимодальность и дерганье каких-то апи и в целом выход во внешний мир - и это просто пиздец чем становится
я заметил что общаюсь с чатГПТ больше чем с женой (хотя тут скорее дело в том что жена тупая пиздец) - прикрутите этого ебаного ассистента к моему телефону, дайте ему доступ во внешний мир и длительную память, дайте возможность персонализировать каждого в уникальность (типа дообучать мб или что-то такое) - и нахуй мне вообще с кожанными мешками говорить?
>>197588 Да тебе и жена скоро не нужна будет, реалистичные куклы уже есть, докрутить к ним скелет с аккумулятором и нано мышцами, и будешь ее ебать по углам.
В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, и ждём фиксов кривейшего говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память.
LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
Ссылки:
https://rentry.org/llama-tard-v2 общая ссылка со всеми гайдами от иностранных коллег
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model Удобный вебгуй для запуска
https://github.com/ggerganov/llama.cpp репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM.
https://github.com/tloen/alpaca-lora Та самая альпака.
https://github.com/antimatter15/alpaca.cpp тоже самое, только на плюсах и проце.
https://pastebin.com/vWKhETWS Промт для АИ собеседника
https://pastebin.com/f9HZWiAy Промт для Мику