24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Дело было вечером, делать было нечего, поэтому я взял в руки змею и панду (Python и Pandas, для тех кто в теме) и решил немного развлечь обитателей /b/.
Суть проста - вы запрашиваете какую-нибудь простую статистику о b, дабл - думаю, трипл и более - делаю.
Доступен для анализа снапшот /b/ на 2016-04-02 20:21:21 UTC, то бишь на полдвенадцатого ночи 2 апреля. 147 тредов, 17869 постов (включая оп-посты), 6776 изображений.
На пике примерная доступная структура данных, но она немного почищена от лишних полей.
Если кому надо, могу код или даже весь jupyter notebook кинуть, мне не жалко.
Средний размер файла - полтора мегабайта. Характерно что медианный размер - всего 180 килобайт. Что это означает? Что есть несколько дохуя больших файлов, но мелких всё же куда больше.
все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса, все любят распределение Гаусса - это так, для статистики :3
>>122180863 Медиана ещё меньше (0 и 11), что означает что больше половины (!) оп-постов - пустые. Ну и больше половины постов содержат меньше 15 символов.
>>122181337 Нет, нельзя. Мы не знаем распределения постов по тредам, вполне возможно что все эти посты сосредоточены в двух-трёх тредах. Себя не отношу.
>>122182892 Ошибки в тся/ться. Вообще, у меня была идея создавать 2-3 треда в неделю о грамматике, попутно собирая статистику и через какое-то время узнать можно, помогают подобные треды или нет. Но срезом в один день тут не обойтись.
>>122174477 (OP) ОПЧик а твоей прогой можно другой сайт проанализировать? и вообще знающие аноны где можно узнать почасовую динамику посещяймости сайта?
>>122183105 361 пост с тся/ться есть, но сколько там ошибочных употреблений сказать нельзя, на эту тему вполне можно дипломную работу в вузе забабахать и ещё работы на магистерскую может останется.
>>122188915 Первые пятьдесят, отброшены все слова с длиной менее 5
глава 184 только 115 просто 108 когда 81 может 79 будет 77 можно 77 травля 70 вообще 60 этого 59 потом 59 очень 53 чтобы 52 какой 47 нахуй 46 лучше 46 теперь 45 время 44 потому 43 нибудь 38 диванон 38 блять 37 сейчас 37 после 37 который 37 через 37 ничего 36 делать 35 набегаем 35 нужно 35 деньги 35 почему 34 всегда 34 более 34 такой 33 можешь 33 первый 33 больше 33 тогда 33 хочешь 33 говно 32 совсем 32 вроде 31 оружие 30 оптус 30 никогда 30 стоит 29 работать 28 немного 28 блядь 27
>>122190411 Меня попросили, я запилил, чего тебе не нравится?
>>122190365 Бля, а вот это хорошая идея. Щас. Только я там код для всякой мелочёвки постоянно перезаписывал, так что хз поможет ли оно кому-нибудь незнающему особо, лол.
Мoжнo мoнитoрить чиcлo cлoв, xaрaктeрныx для биoпрoблeмныx трeдoв (или чиcлo пocтoв в ниx), и yзнaвaть кoгдa шкoльники приxoдят из шкoлы. Тoлькo зaчeм?
>>122190964 >Я распарсил бесполезную кучу json, могу сказать сколько за сутки было картинок и сколько раз сказали "хуй". Я охуенен? Чего у тебя бомбит так? >R в следующий раз возьми Пройди в следующий раз нахуй, ебанько.
>>122191040 Вообще говоря, по отпечатку треда (включающему в себя, кроме слов, ещё и структуру приложений) можно примерно 50% тредов довольно точно категоризировать.
>>122190964 Ну да, нехуй. Я об этом ещё в оп-посте написал.
,я на питоне в качестве ознакомления написал парсер который искал посты на двоще с нужным словом и заливал в вк в лс пикчу сам пост и ссылку тогда еще апи не было. мне доставило.
Дело было вечером, делать было нечего, поэтому я взял в руки змею и панду (Python и Pandas, для тех кто в теме) и решил немного развлечь обитателей /b/.
Суть проста - вы запрашиваете какую-нибудь простую статистику о b, дабл - думаю, трипл и более - делаю.
Доступен для анализа снапшот /b/ на 2016-04-02 20:21:21 UTC, то бишь на полдвенадцатого ночи 2 апреля. 147 тредов, 17869 постов (включая оп-посты), 6776 изображений.
На пике примерная доступная структура данных, но она немного почищена от лишних полей.
Если кому надо, могу код или даже весь jupyter notebook кинуть, мне не жалко.