Сохранен 107
https://2ch.hk/sci/res/259754.html
24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Лингвистический анализ уровня /б/

 Аноним OP 27/04/15 Пнд 15:40:47 #1 №259754 
14301384477650.png
Всем привет.

В этом треде мы будем выкладывать результаты экспериментов по лингвистическому анализу досок сосача.

Дано:
- JSON API макабы
- Python
- NLTK
- филологическое образование
- EDX 6.00.1x & 6.00.2x

Что уже сделано:
- рабочая, хоть и примитивная объектная модель доски, тредов и постов, а также метод ее наполнения через джсон апи
- ежедневный дамп /б/ пока в текстовом режиме, думаем дампать джсон или при помощи python pickle
- процедура по подготовке текста и превращению его в текст NLTK токенизация, удаление стоп-слов, спецсимволов и прочего мусора
- генерация частотного словаря
- некоторые меры по адаптации функционала NLTK для работы с юникодом.

В тред призываются мамкины аналитики, лингвисты, кодеры и просто все заинтересованные. Принимаются пожелания. Обертка к апи сосача и код анализатора, возможно, будут выложены на гитхаб.
Аноним OP 27/04/15 Пнд 15:45:55 #2 №259756 
14301387556680.png
Будем бампать результатами.

Самое очевидное. Частотное распределение словаря /б/, за исключением стоп-слов, таких как частицы, местоимения и другие служебные слова.
Аноним OP 27/04/15 Пнд 15:48:36 #3 №259759 
14301389165530.png
>>259756
все еще коряво работает юникод.
перезаливаю.
Коллокации Аноним OP 27/04/15 Пнд 15:50:13 #4 №259760 
80 самых частотных сочетаний из двух слов в /б/:

сажа сажа; чих чих; аноним пнд; пнд 91679xxx; подводные камни;
музыкальная совместимость; объединяет любовь; бамп бамп; ответы
аноним; твоя музыкальная; youtube watch; вести пикрелейтед; какие
подводные; пнд 91671xxx; начать вести; сих пор; lastfm user;
пикрелейтед какие; самом деле; хуй знает; остановило дредноута; тюууу
тюууу; хочу начать; чих тюууу; лет назад; гражданская оборона; вск
91602xxx; который смог; аноним вск; бенсон уинфред; боеприпасы
плацдарм; вперемешку соплями; вражеский тыл; городка миль; древнему
кровища; залезли кабину; кабину выдавили; кровавое месиво; культи
дергаются; оборонял батальон; тьма тьмущая; уинфред пейн; хаоситы
повыскакивают; хаоты заложили; ближайшего городка; винтовками
боеприпасы; дредноуту дан; катачанских джунглей; крышка отовсюду;
лазерными винтовками; отовсюду хаоситы; глубине катачанских; гляжу
культи; пейн живым; реку баам; ящики лазерными; баам взрыв; враги
залезли; заложили мост; joy division; высокая объединяет; переходил
реку; такие дела; кровища течет; течет вперемешку; кило пластида;
доставить ящики; повыскакивают оружия; болт пистолет; живым сдается;
месиво кишки; дан приказ; оружия болт; приказ доставить; мост кило;
кишки разбросаны; майор бенсон; arhivach org; каждый день; это
остановило
Аноним OP 27/04/15 Пнд 15:53:01 #5 №259765 
>>259760
как видите, текст еще достаточно грязен. в него попадают куски макабы, даты и номера постов. надеемся, это уйдет после совершенствования процедуры подготовки текста.
Аноним 27/04/15 Пнд 15:57:58 #6 №259766 
>>259765
В чём проблема нормально спарсить вакабу?
Дисперсия Аноним OP 27/04/15 Пнд 15:59:37 #7 №259768 
14301395771910.png
Теперь посмотрим на распределение отдельных слов по доске.
Кстати, пока что объектом экспермента является весь текст /б/ состоянием на сегодняшнее утро.

Пикрелейтед -- распределение слов "тян" и "кун". Как видите, тяночки битарду -- первое слово встречается 314 раз, второе -- всего 134.
Аноним 27/04/15 Пнд 16:04:04 #8 №259771 
А какова цель исследования? Просто в циферки потупить? И где во всём этом использовалось филологическое образование?
Аноним 27/04/15 Пнд 16:05:58 #9 №259772 
ОП, ты охуенен, продолжай. Особенно интересны выводы которые ты можешь сделать из полученной статистики.
Аноним 27/04/15 Пнд 16:09:33 #10 №259773 
>>259772
два чаю.
оп, реквестую:
- эмулятор анона на основе генерации текста по n-граммам
- детектор стиля текста деанонимайзер, чтобы можно было определить, насколько одно полотно схоже с другим
пиши на [email protected], можем скооперироваться
Аноним 27/04/15 Пнд 16:12:49 #11 №259774 
>>259773
Еще
- Зависимость количества ответов от ключевых слов в ОП посте. Генерация успешного ОП поста.
Аноним OP 27/04/15 Пнд 16:25:55 #12 №259781 
>>259771
>цель исследования
Пока сам не знаю. Пока выходит действительно
>в циферки потупить,
но возможно, скоро у нас появятся какие-то более интересные направления.

>>259773
>эмулятор анона морская улиточка
на примитивном уровне это, вроде, реализовано в самом НЛТК. Там нужно либо создавать кастомнуб грамматику, либо тренировать модель Маркова. В любом случае, это очень интересно. Будем пробовать.
>деанонимайзер
давно уже вынашивается эта концепция. теоретически, она должна быть выполнима. единственная приграда – очень короткие, как правило, комментарии.
>идеальный оп-пост
Думаю, что это тоже возможно. Просто сделаем корреляцию балла, который очень кстати присваивает оп-посту сама макаба, и отдельных слов или даже н-грамм.

>>259772
Спасибо. Надеюсь, все получится.
Аноним OP 27/04/15 Пнд 16:28:51 #13 №259782 
Ладно, нужно немного поработать.

More to come.
Аноним OP 27/04/15 Пнд 19:31:57 #14 №259812 
Еще пара экспериментов.

Похожие слова (по методу nltk.Text.similar()):

тян:
мать долларов мамка аноны p животное тянов всё влюбляюсь женой

кун:
увернуться неска гей учусь

хуй:
нахуй нехуй ту говорю знаю берет пару увидел выеби добра нихуя хочет
посте

мамка:
тян мать щас мааам тянка

ДС:
рабы

анон:
хотябы собственно омега наказывать днём жаль сколько

омега:
анон

Аноним OP 27/04/15 Пнд 19:34:48 #15 №259814 
>>259812
пожалуй, было бы интересно запилить граф, где нодами были бы слова, а вес грани - similarity, и размер ноды и приближенность ее к центру графа - это частотность. вот бы карта двача была, воистину.
Аноним 27/04/15 Пнд 20:40:46 #16 №259834 
>>259814
Цитоскейп тебе в руки. Бесплатно и без СМС.
Аноним 27/04/15 Пнд 22:02:17 #17 №259857 
>>259812
>анон:
>хотябы собственно омега наказывать днём жаль сколько
Ололо, выглядит почти как полноценное предложение.
Аноним 28/04/15 Втр 03:24:36 #18 №259881 
/р такой же ежедневный анализ /по/ с выводом статистики на отдельный сайт
Аноним 28/04/15 Втр 08:41:39 #19 №259893 
>>259781
>приграда
Филологическое, говоришь, образование?
Аноним OP 28/04/15 Втр 09:04:04 #20 №259894 
>>259893
мильпардон.
Аноним OP 28/04/15 Втр 09:05:28 #21 №259895 
>>259881
/по/ - тоже очень интересная идея.
а еще можно sentiment analysis , товарищ майор
Аноним 28/04/15 Втр 12:57:56 #22 №259932 
>>259893
Очень многие студни-филологи неграмотны, как сельские пятиклассники.
Аноним 28/04/15 Втр 13:23:36 #23 №259935 
14302166161640.jpg
>>259754
Оп, ты-то мне и нужен. Каким образом отдельные посты (тута, на подтираче или на любом форуме), отдельные твиты и так далее (ну ты понел), складывать в отдельные файлы? Есть один крайне продвинутый метод семантического анализа, растуще-иерархические карты Кохонена Andreas Rauber, Dieter Merkl, and Michael Dittenbach. The Growing Hierarchical Self-Organizing Map: Exploratory Analysis of High-Dimensional Data
In IEEE Transactions on Neural Networks, Vol. 13, No 6, pp. 1331-1341, November 2002. IEEE.
Авторы метода приводят пример с анализом новостных сайтов, их алгоритм позволяет получить иерархическое разбиение новостей по темам и подтемам http://www.ifs.tuwien.ac.at/~andi/somlib/experiments.html (там кароч текст сначала переводят в векторы с помощью tf-idf, потом полученное обрабатывают собственно GHSOM, если интересно, авторы запилили софт http://www.ifs.tuwien.ac.at/dm/somtoolbox/ http://www.ifs.tuwien.ac.at/~andi/somlib/ ). И короче, нужен какой-то общий подход, позволяющий сохранять отдельные мессаги в отдельные файлы.
>Что уже сделано: - рабочая, хоть и примитивная объектная модель доски, тредов и постов, а также метод ее наполнения через джсон апи
Хотелось бы посмотреть.
Аноним 28/04/15 Втр 13:25:00 #24 №259937 
>>259935
Анон из треда нетсталкинга sn, ты?
Аноним 28/04/15 Втр 13:30:30 #25 №259939 
>>259937
Ну да. Там я предлагал похожий анализ выдачи поисковика. Подобная тема когда-то была даже в готовом виде (WEBSOM) но потом все прикрыли.
Аноним 28/04/15 Втр 13:42:30 #26 №259941 
>>259939
Кандидатскую штоле защищаешь? Чем ещё кроме nlp занимаешься? мимоинтересуюсь, >>259773
Аноним OP 28/04/15 Втр 14:30:18 #27 №259953 
>>259941
>>259773

посоны, пора пилить чятик.
такой-то респонс и интерес к этой теме.
[email protected]

>>259935
Выглядит настолько же сложно, насколько интересно. Попробую почитать и врубиться.

>хотелось бы посмотреть объектную модель
я сегодня поломал апи -- как починю -- таки буду выкладывать на гитхаб.

Аноним 28/04/15 Втр 15:00:25 #28 №259966 
14302224257980.jpg
>>259941
Не, просто есть немало идей по применению нескольких алгоритмов, не только GHSOM, а во всякий программизьм практически не могу (а там много надо автоматизировать в смысле сбора данных, те же тексты вручную сохранять заебещься). R немного спасает, но там есть не все нужные алгоритмы.
>>259953
>Выглядит настолько же сложно, насколько интересно. Попробую почитать и врубиться.
Там все просто, если понимать в картах Кохонена, это же дальнейшее их развитие. Собственно, пикрелейтед - вся суть одной картинкой.
>>259773
>детектор стиля текста деанонимайзер, чтобы можно было определить, насколько одно полотно схоже с другим
GHSOM в такое скорее всего может, только первичная карта не способна выявить стиль, нужно делать второго уровня или больше. Но опять же, файлы там хоть и текстовые, но вручную их парсить муторно, а для сборки вышележащих карт это необходимо.
Аноним OP 29/04/15 Срд 10:19:35 #29 №260130 
ну все -- создал чятик в шлаке.
приглашаю всех заинтересованных.
отписавшимся уже высланы приглашалки

там же исходник объектной модели.
Аноним OP 29/04/15 Срд 10:20:41 #30 №260131 
>>260130

И да, чтобы не морить всех здесь процессом, сюда будем выкладывать, в основном, результаты экспериментов.
/po/ Аноним OP 29/04/15 Срд 13:33:05 #31 №260197 
14303035858390.png
Свежее из /по/:
Конкорданс слова "Путин"

да, теперь парсится и /по/раша
Аноним 29/04/15 Срд 13:35:56 #32 №260200 
>>259754
слушай, может в /crypt/ перекатишься?
А ещё я не вижу исходников.
/po/ Аноним OP 29/04/15 Срд 13:58:52 #33 №260208 
>>260200
хочешь исходников -- стучись >>259953.
Аноним 29/04/15 Срд 14:07:58 #34 №260213 
>>260200
Нахуй никому не сдались эти мертвые разделы. Наплодили хуиты теперь рассылают людей по парашам.
Аноним 29/04/15 Срд 18:24:28 #35 №260294 
14303210680840.jpg
>>260197
Оп, а почему именно пистон? Это же параша хуже некуда. Почему бы не R например? Там тоже есть пакеты для работы с веб-контентом. http://cran.r-project.org/web/views/WebTechnologies.html Я уже не говорю о кучах реально работающих алгоритмов обработки данных. Лично мне этого вашего пистона хватило, когда пытался разобраться с Theano. В R хотя бы что-то работает.
Аноним 29/04/15 Срд 18:51:28 #36 №260307 
>>260294
>почему а-тя-тя

1) потому что я на нем пишу
2) потому что достаточно высокий уровень и почти не долбишься с типами, кодировками, уборками мусора и т.п.
3) потому что много библиотек, в частности для json, графов и главное – NLTK
Аноним 29/04/15 Срд 22:34:41 #37 №260398 
Единственный нормальный тред в сцы. Пили конфу, няша. Буду присылать коммиты
Аноним OP 29/04/15 Срд 22:39:24 #38 №260402 
>>260398
напиши на [email protected]
приглашу в шлак и на репо

ОП, с другого компа

P.S.: пару дней буду занят работой, поэтому разве что побампаю результатами с /по/, отвечу на вопросы и разошлю приглашения в конфу
Аноним 30/04/15 Чтв 05:58:57 #39 №260548 
>>259759
Поменяй оси, я чуть шею не свернул пытаясь этот словарь прочесть.
Аноним 30/04/15 Чтв 07:37:26 #40 №260552 
>>260548
На что поменять?
Аноним 30/04/15 Чтв 08:13:30 #41 №260558 
>>260552
На о щуп.
Аноним 30/04/15 Чтв 16:18:57 #42 №260687 
>>260552
Друг с другом местами поменяй, блядь.
Аноним 03/05/15 Вск 19:02:42 #43 №261342 
14306689623500.png
Добрый вечер.

А тем временем у нас первые результаты построения графов частотности и похожести слов в /б/ по мотивам >>259814.

Это – очень предварительный результат. Узлы еще нужно подписать и соотнести их вес с частотностью слов, а длину граней хорошо сделать пропорциональной похожести слов по методу nltk.Text.similar().



Аноним 03/05/15 Вск 22:45:14 #44 №261375 
Интересна статистика также и по сцаю, интересно сравнить с бе. Насколько популярны радиопидор и шизик? какова динамика?
Аноним 04/05/15 Пнд 00:08:25 #45 №261388 
14306873055090.png
>>261375
Отвечаю.

Гистограмм пока нет, но они в проекте.
Аноним 04/05/15 Пнд 00:16:33 #46 №261394 
>>261388
Покажи вот это вот >>259759 по /sci/
Аноним 06/05/15 Срд 00:57:57 #47 №262042 
>>261394
Хуямп. Оп, почему ты забросил шлак? Я пришол.
Аноним 06/05/15 Срд 09:13:33 #48 №262096 
>>262042
Я тут. Просто вчера закрывался экзамен по 6.00.2х.
Возвращаюсь сегодня.
Аноним 23/05/15 Суб 00:06:53 #49 №268588 
14323288139540.png
Бамп, ребят. Мы возвращаемся. Граф обретает вменяемую форму. Это – из бэ.
Аноним 23/05/15 Суб 07:08:08 #50 №268613 
я когда то делал детектор россиянина. получилось самые распросраненные слова

НЕ В И НА В А ТО Я
бля буду

а в коране -наказание
Аноним 23/05/15 Суб 09:10:20 #51 №268617 
>>268613
Круто! А код есть?
Аноним 23/05/15 Суб 09:30:06 #52 №268618 
>>268617
Это java script
считает слова в диалоге вк. первое и второе поле это имя в диалоге вк двух людей например Петя Полина
третье поле туда копируется текст диалога вк

<html>

<head>
<!-- <meta http-equiv="refresh" content="150"> -->
<title>

__САМЫЕ ЧАСТЫЕ СЛОВА_
</title>
</head>

<body>
<script type="text/javascript" >





//выдрать из ЛС сообщения конкретного чела




im1=prompt("введите имя чела чьи сообщения затереть","Маша")
im2=prompt("введите имя чела чьи сообщения ОСТАВИТЬ","Саша")
str=prompt("Введите ленту ЛС "+im1+" - "+im2,"ЗОНА КТРЛ В")
str=str.toLowerCase()


fak1=im1
fak2=im2
reg1=new RegExp(fak1, "img")
reg2=new RegExp(fak2, "img")


//masbezodin
mbo=[]
m1=[]
m2=[]
v=[]

mbo=str.split(reg1)
lena=mbo.length

en=0
while (en!=lena)
{

if ((mbo[en]).search(reg2)!=-1)
{

v=mbo[en].split(reg2)
m1[en]=v[0]
m2[en]=v[1]
en++
}
else
{
m1[en]=mbo[en]
m2[en]=""
en++
}

}

st1=m1.join(" ")
st2=m2.join(" ")
l1=st1.length
l2=st2.length
document.write(im1+" знаков=")
document.write(l1)
document.write(" <hr>")
document.write(im2+" знаков=")
document.write(l2)
document.write(" <hr>")

amat1=[]
amat1=st1.match(/ /gim)
amat2=[]
amat2=st2.match(/ /gim)
amal2=amat2.length
amal1=amat1.length


document.write(im1+" слов=")
document.write(amal1)
document.write(" <hr>")
document.write(im2+" слов=")
document.write(amal2)
document.write(" <hr>")

aver1=l1/amal1
aver2=l2/amal2

document.write(im1+" среднее количество знаков в слове=")
document.write(aver1)
document.write(" <hr>")
document.write(im2+" среднее количество знаков в слове=")
document.write(aver2)
document.write(" <hr size=5>")
//vsetvoislova
vts1=[]
vts2=[]

vts1=st1.split(/ ? ? ? ?/gim)
vts2=st2.split(/ ? ? ? ?/gim)
/////////////////zona PEREDELA
fun=function(x,y){
if(x.length>y.length) return 1
if(x.length<y.length) return -1
return 0
}
nom1=vts1.length
nom2=vts2.length
vts1=vts1.sort(fun)
vts2=vts2.sort(fun)
trun=true
x=0
while (trun){
if (vts1[x].length>4) {trun=false; fixer=x}
x++
}
vts1=vts1.slice(fixer,nom1)
trun=true
x=0
while (trun){
if (vts2[x].length>4) {trun=false; fixer=x}
x++
}
vts2=vts2.slice(fixer,nom2)
nom1=vts1.length
nom2=vts2.length
//тут массив слов чела а второй массив это количество повторений этого слова
//
spis1=[]
ns1=[]
spis2=[]
ns2=[]
//

document.write("<hr>")
document.write(nom1)
document.write("<hr>")
document.write(nom2)
document.write("<hr>")
document.write("<hr>")
document.write("<hr>")
document.write("<hr>")
document.write("<hr>")
//
x=0
z=0
v1=[]
v1[0]="start"
svindex=[]
svindex[0]=1
while (x!=nom1)
{

slovo=vts1[x]
dlena=v1.length

y=0
tr=false
while (y!=dlena)
{

sr1=String(v1[y])
sr2=String(vts1[x])
if (sr1==sr2)
{tr=true
//////
mettka=y
y=dlena-1
}
y++
}
if (tr)
{

svindex[mettka]=svindex[mettka]+1
}
else
{
v1[z]=vts1[x]
svindex[z]=1


z++
}


x++
}

// ТУТ КОЛИЧЕСТВО МАКС СЛОВ
nj=60

njj=0
sle=svindex.length
while (njj!=nj)
{
maxer=Math.max.apply(Math, svindex)

x=0
while (sle!=x)
{
if (svindex[x]==maxer)
{
document.write(maxer)
document.write(" - ")
document.write(v1[x])
document.write("<hr>")
svindex[x]=0
}
x++
}

njj++
}
document.write("<hr>")

document.write("<hr>")

document.write("<hr>")

document.write("win1")
///////////vtor chel
x=0
z=0
v2=[]
v2[0]="start"
svindex2=[]
svindex2[0]=1
while (x!=nom2)
{


dlena2=v2.length

y=0
tr=false
while (y!=dlena2)
{

sr1=String(v2[y])
sr2=String(vts2[x])
if (sr1==sr2)
{tr=true
//////
mettka=y
y=dlena2-1
}
y++
}
if (tr)
{

svindex2[mettka]=svindex2[mettka]+1
}
else
{
v2[z]=vts2[x]
svindex2[z]=1


z++
}


x++
}

// ТУТ КОЛИЧЕСТВО МАКС СЛОВ
nj=60

njj=0
sle=svindex2.length
while (njj!=nj)
{
maxer=Math.max.apply(Math, svindex2)

x=0
while (sle!=x)
{
if (svindex2[x]==maxer)
{
document.write(maxer)
document.write(" - ")
document.write(v2[x])
document.write("<hr>")
svindex2[x]=0
}
x++
}

njj++
}




document.write("<hr>")

document.write("win2end")
</script>
</body>

</html>
Аноним 23/05/15 Суб 11:15:05 #53 №268625 
>>259774
А вот это - годно.
Аноним 23/05/15 Суб 12:09:49 #54 №268637 
>>259774
Успешным постом будет максимально противоречивый набор слов, вызывающий срачи. Успех уровня /b/.
sageАноним 23/05/15 Суб 12:17:34 #55 №268640 
>>259774
Хохлы, пидорашки, ЕОТ, мамка.
Аноним 23/05/15 Суб 12:51:33 #56 №268645 
>>259760
Построй цепь Маркова для генерации типичного текста /b/
Аноним 23/05/15 Суб 14:45:52 #57 №268656 
>>268645
Очень крутая идея. Более того, в NLTK есть такой функционал, поэтому это должно быть несложно. Добавляем идею в вил-лист.
Аноним 23/05/15 Суб 14:46:19 #58 №268657 
>>268656
*виш-лист, (смех).
Аноним 23/05/15 Суб 22:16:13 #59 №268769 
>>259760
Хаоситы что-то слишком часто. Но не удивительно, я всегда знал что двач - портал хаоса.
Аноним 23/05/15 Суб 22:35:55 #60 №268780 
>>259754
Годный тред
Аноним 24/05/15 Вск 10:56:44 #61 №268876 
Я нихуя не понял. Это типа нумерологии?
Аноним 24/05/15 Вск 12:16:30 #62 №268884 
>>268876
Нет, бро. Это – попытки заниматься точной наукой.
Аноним 24/05/15 Вск 12:54:52 #63 №268890 
>>268884
А результат какой?
sageАноним 24/05/15 Вск 14:43:12 #64 №268907 DELETED
>>268884
Лал, наивное применение статистики к предметной области - наука. Долго же тебе ещё расти.
Аноним 28/05/15 Чтв 11:10:33 #65 №270327 
>>268907
Да, долго. Но я расту. А покажи что-то свое, с высоты так сказать птичьего полета?
Аноним 28/05/15 Чтв 11:35:12 #66 №270330 DELETED
>>268907
Имплаинг абстрактные размышления в ящик это наука. Ну и еще модель которая "вечно в работе".
Аноним 28/05/15 Чтв 12:06:23 #67 №270336 
>>270330
Хорошо, но я все еще не вижу примеров высокоуровневый научных достижений с твоей стороны.
Аноним 28/05/15 Чтв 14:05:46 #68 №270349 DELETED
>>268907
Алгососит что ли?
Аноним 28/05/15 Чтв 14:10:58 #69 №270352 DELETED
>>270349
Ты называешь всех теми именами, которые дали тебе. Ты всё ещё думаешь, что это имя тупое, а не ты.
Аноним 28/05/15 Чтв 14:14:14 #70 №270355 
>>270352
Что!! Филасаф что ли?
Аноним 28/05/15 Чтв 14:15:34 #71 №270356 DELETED
>>270352
Я не говорил , что оно тупое. Просто сажа в годном научном треде- первый признак алгососизма.
Аноним 28/05/15 Чтв 15:13:57 #72 №270381 
>>259759
>филологическое образование
Где морфологический анализ слов? У тебя же «иди» и «иду» за два разных слова считаются, а это портит всю статистику.
sageАноним 28/05/15 Чтв 16:01:43 #73 №270387 DELETED
>>270356
Попробуй всё-таки не так сильно демонизировать сажу, бро, иначе стресс тебя погубит ;). Тебе предлагаю домашнее задание - написать сочинение с названием "Почему я бугурчу от сажи" или "Какое значение я придумал для одной опции формы постинга".
sageАноним 28/05/15 Чтв 16:02:57 #74 №270388 DELETED
>>270381
Смотря что за статистика тебя интересует. Не всегда нужна морфология.
Аноним 28/05/15 Чтв 17:13:07 #75 №270399 
>>270388
Ну вот те же частотыне списки слов без выделения начальных форм имеют большую погрешность.
sageАноним 28/05/15 Чтв 17:30:16 #76 №270401 DELETED
>>270399
Какую погрешность? Ты сначала сформулируй цель сбора статистики, чтобы иметь критерии вычисления погрешностей.
Аноним 28/05/15 Чтв 17:30:39 #77 №270402 
14328234396450.png
>>270381
Это предусмотрено. При подготовке текста есть опция включить стеммер, который обрезает морфологические окончания.

Кстати, это очень влияет на структуру графа. Связей становится как-то слишком много.

Кстати, несмотря на то, что я сейчас очень занят на работе, прогресс есть, хоть и совсем крохотный. Для начала, мы переехали на питон3, что решило большинство проблем с юниконом. Теперь мы ищем, как сохранять слепки досок двача в объектной модели, а не в виде простого текстового дампа. В перспективе – формирование корпуса не из единого куска текста, а сегментированного по времени, треду, его рейтингу и другим параметрам. Это не считая собственно лингвистических экспериментов а-ля построение цепочек Маркова с последующей генерацией текста анона, частотность н-грамм и другого.
Аноним 28/05/15 Чтв 17:41:08 #78 №270406 
>>270401
Ты у мамы дурачок?
>>270402
Так если предусмотрено, почему на этих >259759 >>259756 графиках у существительных не выделены начальные формы? Слово «жизнь» считается два раза в форме «жизнь» и «жизни». Собственно перед анализом русских текстов нужно было заняться этой проблемой в первую очередь, иначе все результаты будут очень неточными.
sageАноним 28/05/15 Чтв 17:44:09 #79 №270407 DELETED
>>270406
> Ты у мамы дурачок?
Нет, это ты манька, считающая что вся статистика ограничивается теми двумя лабами, которые ты купил к зачёту. У людей могут быть очень много разных причин считать количество разных словоформ в тексте считая и однокоренные.
sageАноним 28/05/15 Чтв 17:45:45 #80 №270409 DELETED
>>270406
> иначе все результаты будут очень неточными.
О какой точности идёт речь, маня? О точности соответствия твоим фантазиям?
Аноним 28/05/15 Чтв 17:50:35 #81 №270413 
>>270407
>У людей могут быть очень много разных причин считать количество разных словоформ в тексте считая и однокоренные.
Безусловно, но здесь причина, очевидно, кроется в том, что человек не смог написать алгоритм выделения начальных форм.
sageАноним 28/05/15 Чтв 17:53:16 #82 №270416 DELETED
>>270413
Причина кроется в отсутствии той задачи у автора, которую ты ему придумал, долбоёб.
Аноним 28/05/15 Чтв 17:55:31 #83 №270417 
>>270416
Ну если его задача провести частотный анализ комбинаций символов между пробелами, то да, только это не лингвистический анализ.
sageАноним 28/05/15 Чтв 17:58:48 #84 №270419 DELETED
>>270417
Лингвистическим анализом не является ни подсчёт корней, ни подсчёт словоформ, дурашка.
Аноним 28/05/15 Чтв 18:01:33 #85 №270420 
>>270419
Ну точно дурачок.
sageАноним 28/05/15 Чтв 18:03:51 #86 №270422 DELETED
А для таки лингвистического анализа есть методы (основанные на мешке слов, например), которые по статистике количества именно словоформ определяют принадлежность к тому или иному автору или эмоциональной тональности. Так же статистические алгоритмы перевода могут работать на сырых "наборах букв между пробелами". Главное, чтобы в обучающем корпусе были все варианты слова в достаточном количестве.
sageАноним 28/05/15 Чтв 18:04:58 #87 №270423 DELETED
>>270420
Иди портфель собирай, мамкин лингвист. Совершенно очевидно, что ты не шаришь в теме.
Аноним 28/05/15 Чтв 18:11:35 #88 №270427 
>>270422
У-тю-тю, крупицы информации из научпопа не помогут тебе сойти за эксперта, дорогуша.
> которые по статистике количества именно словоформ определяют принадлежность к тому или иному автору или эмоциональной тональности.
Только при чём здесь этот тред, где никакие словоформы вообще не выделяются.
>>270423
К сожалению, я пока единственный, кто в этом треде заметил слона в комнате, а ты иди дальше словоформы пересчитывай, дурачок.
sageАноним 28/05/15 Чтв 18:12:59 #89 №270428 DELETED
>>270427
> кудахтахтах
Ожидаемый ответ от оправдывающегося школьника.
Аноним 28/05/15 Чтв 18:36:36 #90 №270441 
ОП, чем обмазаться, чтобы такое уметь?
В питоне есть встроенные библиотечки помогающие парсить?
Или ты get-ом тянешь?
sageАноним 28/05/15 Чтв 18:37:44 #91 №270442 DELETED
>>270441
Об этом нельзя знать залётным. И не смей перечитывать тред, мразь!
Аноним 28/05/15 Чтв 18:45:37 #92 №270449 
>>270441
а ты тоже хочешь что-то привнести в проект? стучись: [email protected]
Аноним 28/05/15 Чтв 18:51:11 #93 №270456 
>>270441
>библиотечки помогающие парсить?
Почти во всех рантаймах реализована функция Split для строк. Собственно Делишь строку по пробелами и считаешь одинаковые кусочки. Вот и всё, что делает оп. Графики можешь хоть в экселе фигачить.
Аноним 28/05/15 Чтв 19:16:58 #94 №270480 
>>270456
Это не так. Токенизация, если это имеется ввиду, делается силами библиотеки nltk.
Аноним 28/05/15 Чтв 19:18:19 #95 №270481 
>>270480
Что почитать то по теме?
И откуда у тебя умение программировать руками, если ты филолог
Аноним 28/05/15 Чтв 19:23:11 #96 №270484 
>>270481
по библиотеке читать http://www.nltk.org/book/ ,
питон учить можно по codecademy, на edX, да и книжек по нему очень много.
Аноним 28/05/15 Чтв 19:31:07 #97 №270488 
>>270481
Если хочешь почитать на русском - плохие новости для тебя. А так, документация к софту и ссылки из оттуда. И да, пистон я таки не одобряю, слишком костыльно.
Аноним 28/05/15 Чтв 19:52:38 #98 №270492 
>>270480
Только NLTK плохо справляется с русским языком. Посмотрел тут алгоритм стемминга http://snowball.tartarus.org/algorithms/russian/stemmer.html это довольно забавно. Для серьёзной обработки русского языка нужны инструменты получше, http://www.abbyy.ru/isearch/compreno/ а твоя nltk тупо русский текст по пробелами делит. Для русского языка ведь даже корпусов особо нет в интернете.
Аноним 28/05/15 Чтв 20:09:47 #99 №270497 
>>270488
пистон я таки не одобряю, слишком костыльно.
Что не костыльно?
Аноним 28/05/15 Чтв 21:07:14 #100 №270542 
>>270492
и правда, справляется не ахти. Стемлер совсем несовершенный. Про компресса знаю, но открытого АПИ, чтоб поиграться вот так, у них нет. Тем более его пилят лучшие профессиональные лингвисты страны – в аббии дурачков не берут. А НЛТК – кодопомойка, которая даже, как сегодня оказалось, не вся корректно работает под Питон 3. во втором были невероятные проблемы с юникодом. Что мы можем сделать в этом случае? Вот и пишем баги, читаем код, может законтрибьютим чего.
Аноним 28/05/15 Чтв 21:08:03 #101 №270544 
>>270542
>компресса
то есть компрено
Аноним 28/05/15 Чтв 21:08:14 #102 №270545 DELETED
>>270497
node.js
Аноним 29/05/15 Птн 15:42:41 #103 №271103 
14329033617560.png
>>270497
>Что не костыльно?
Для дата сайенс очевидно R.
>>270545
Клован, плиз.
Аноним 13/06/15 Суб 16:21:52 #104 №275045 
Бляя.
Кто-нибудь может простыми словами пояснить что таким образом можно открыть, например? Что так просто не очевидно.
Аноним 13/06/15 Суб 18:31:29 #105 №275059 
>>275045

Я проанализировал твой пост и сделал вывод, что ты долбоеб.
Аноним 14/06/15 Вск 17:20:30 #106 №275502 
>>275059
>
>Я проанализировал твой пост и сделал вывод, что ты долбоеб.
Кстати проанализировав твой высер, я понял, что мамку твою ебал.
sageАноним 14/06/15 Вск 17:27:15 #107 №275510 
>>275502
>>275059
Проанализировал вас. Если вы понимаете, о чём я.
comments powered by Disqus

Отзывы и предложения