24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Няши, я знаю, здесь есть погромисты. Есть большие объемы текста. Надо анализировать их на наличие ключевых фраз (тегов), и расставить эти теги на каждый абзац\отрывок. То есть если в абзаце говорится о компьютерах, то ему следует повесить тег "IT", "компьютер". Возможно уже есть такой инструмент\фреймворк\библиотека?
>>166455672 пока не дошёл до символ абзаца строки, запоминай самое повторяющееся слово, обнуляй и снова, пока не конец на петоне минут за 5 реально написать, вот только смысл абзаца не всегда кроется в самых повторяемых словах, так что вряд ли тебе подойдет
>>166455253 (OP) Любой проггер-первокурс напишет такую прогу тебе. Тупо берем, вводим в консоль ввода/инпут.файл, нужный текст и теги, прога перегоняет текст в строку (массив символов), а затем начинает идти от начала до конца текста, сравнивая слова с тегами и вставляя эти теги туда, где эти самые слова будут находиться
>>166455925 Или теги надо не самому вводить? Тогда просто по самому часто повторяющемуся слову в строкея выносить его в тег этой строки. Ток я хз, как обозначать переход на новую строку. Вот обычный текст если с вики скопипастить, ручками неудобно будет вставлять символы перехода на строку, там, где они были в оригинальном тексте
>>166455798 Вот именно, что далеко не всегда. Вот например шапка рандомного треда с нулевой: > Этот пузырь лопнет или нет? Сколько это будет длиться? Кто за этим стоит? Кому это нужно? О чем этот тред? Не понятно. Каждое слово (кроме знака вопроса) употребляется один раз. >>166455925 Такую хуету и я могу написать за 5 минут. Что толку то? Представляешь с какой скоростью все это будет работать? Пускай в среднем предложении 10 слов, в абзаце 10 предложений. Это 100 слов. Тегов может быть дикое количество, пускай 1000. Это уже 100000 проверок. А всякие окончания, неверно написаные слова, и прочее?
Я тут параллельно нашел библиотеку которая вроде как вытаскиевает смысл из предложений. Делает токены, которые те же теги. Надо попробовать.... http://balie.sourceforge.net >>166456121 Как уже было сказано, самое повторяющее слово не всегда ключевое. Но теги из массива, да.
Есть большие объемы текста. Надо анализировать их на наличие ключевых фраз (тегов), и расставить эти теги на каждый абзац\отрывок.
То есть если в абзаце говорится о компьютерах, то ему следует повесить тег "IT", "компьютер".
Возможно уже есть такой инструмент\фреймворк\библиотека?