24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Лахто-люди больше не нужны. GPT-2ch заменит лахтоблядей
Российские энтузиасты создали своего «ИИ для ненависти» обученного на 2ch.
Вдохновленные работой Янника Килчера, который обучил машину «языку ненависти» используя 3,3 миллиона тредов с печально известной токсичной доски 4chan «Политически некорректно» /pol/ — российские энтузиасты запустили Telegram бота обученного на отечественном 2ch.hk используя доску /b/.
В качестве диалоговой модели был использован GPT-2, обученный на датасете из постов анонов. Итоговый датасет насчитывал порядка 60 тысяч диалогов.
Также для повышения токсичности данных данные были отфильтрованы с помощью модели классификатора rubert-toxic-pikabu-2ch. Модель была создана для модерации токсичного контента, но никто не мешает использовать ее во зло.
Весь код сбора данных, обучения модели и бота энтузиасты выложили в открытый доступ на GitHub. Для простоты использования настроено поднятие бота с помощью docker-compose.
Кроме того, они оставили инструкцию на habr. ================
Из наблюдений пользователей, российский бот действительно получился токсичным, но не принимающий во внимание контекст сообщений:
>>12518657 (OP) Вот представьте - вся жизнь свиньи ебаной, это поиск лахты на оранжевом форуме, на доске с ~300 уникальными постерами. Какое же чмо без жизни.
>>12518657 (OP) Судя по тому, что тролля-бота создали быстрее чем норми-бота, то тролли самые примитивные в своём развитии, примерно на уровне 10 летних капризных детей.
Предлагаю хохлам создать бота-перемогу. Ты ему все неудобные вопросы задаешь, а он тебе объясняет как перемогать. Хотя хохлы и есть боты ходячие. Страна-нпс, страна-90iq, страна-бот, страна-перефорс, страна-синдром дауна.
>>12518657 (OP) Тоже пару лет назад хотели нейронку по тредам обучать, но идея зафакапилась, собирать датасет ебанёшься. Впринципе если не выбирать, а пихать всё подряд получится херня из ОП-пика. Бессмысленная бредятина
>>12518694 >Какое же чмо без жизни Будь бобрей! Там реально стивен хокинг какой-то, ну чисто физически канешн, с его мозгами двачу не свезло, недалекий, на шизе зацикленный. Причем как несколько лет назад у него глюкануло что-то в гаджете, так он с двоча на другие вкладки, проги переключиться не может. Тут действительно вся его "жизнь"
>>12518657 (OP) Помню ещё в нулевых, во времена аськи, был чат-бот который, ну хуй знает, раз в 10 умнее был. Забыл как называется. Тогда, в нулевых, заебись было - никаких ебаных нищих хохлов рунете, все общались как в жизни, без выебонов. А теперь эта свинявая мразь повсюду. Слава Господу эта недостранёнка катится на помойку истории.
>>12519108 >Бля у меня дорген более осмысленные тектсты 15 лет назад генерил чем данный ии. 15 лет назад подобными вещами занимались серьёзные люди с учёными степенями, а сейчас этим занимаются либергнойные педрилы с радужными волосами и дилдой в заднице. Результат очевиден.
>>12518694 Дак это лахтопидорская доска это видно и по лайкам и по создаваемым тредам. Я вообще сомневаюсь, что тут много реальных анонов сидит. Вся доска существует на самоподдуве кремлеботов.
>>12519209 Дак съебись уже отсюда, свинья ебаная. Тебя сюда, в рунет на русский форум никто не звал. К тебе на кропивач никто не лезет. Уходи нахуй отсюда, мразь. Съёбывайся. И пиши там на своём свинявом наречии в окружении свинявых ебаньков.
>>12519207 > Нахуй гуляй, дядя)) Да это же слова твоей тухлодырой мамаши очередному ёбырю, после того как ей напуляли полное брюхо спермы все алкаши из твоего пгт, в результате чего на свет высрался мерзкий гхэкающий наёбыш (ты)
Вдохновленные работой Янника Килчера, который обучил машину «языку ненависти» используя 3,3 миллиона тредов с печально известной токсичной доски 4chan «Политически некорректно» /pol/ — российские энтузиасты запустили Telegram бота обученного на отечественном 2ch.hk используя доску /b/.
В качестве диалоговой модели был использован GPT-2, обученный на датасете из постов анонов. Итоговый датасет насчитывал порядка 60 тысяч диалогов.
Также для повышения токсичности данных данные были отфильтрованы с помощью модели классификатора rubert-toxic-pikabu-2ch. Модель была создана для модерации токсичного контента, но никто не мешает использовать ее во зло.
Весь код сбора данных, обучения модели и бота энтузиасты выложили в открытый доступ на GitHub. Для простоты использования настроено поднятие бота с помощью docker-compose.
Кроме того, они оставили инструкцию на habr.
================
Из наблюдений пользователей, российский бот действительно получился токсичным, но не принимающий во внимание контекст сообщений:
https://habr.com/ru/post/670970/