Лингвистический анализ уровня /б/

Аноним OP 27/04/15 Пнд 15:40:47 #1 №259754

Всем привет.

В этом треде мы будем выкладывать результаты экспериментов по лингвистическому анализу досок сосача.

Дано:
- JSON API макабы
- Python
- NLTK
- филологическое образование
- EDX 6.00.1x & 6.00.2x

Что уже сделано:
- рабочая, хоть и примитивная объектная модель доски, тредов и постов, а также метод ее наполнения через джсон апи
- ежедневный дамп /б/ пока в текстовом режиме, думаем дампать джсон или при помощи python pickle
- процедура по подготовке текста и превращению его в текст NLTK токенизация, удаление стоп-слов, спецсимволов и прочего мусора
- генерация частотного словаря
- некоторые меры по адаптации функционала NLTK для работы с юникодом.

В тред призываются мамкины аналитики, лингвисты, кодеры и просто все заинтересованные. Принимаются пожелания. Обертка к апи сосача и код анализатора, возможно, будут выложены на гитхаб.

Аноним OP 27/04/15 Пнд 15:45:55 #2 №259756

14301387556680.png

Будем бампать результатами.

Самое очевидное. Частотное распределение словаря /б/, за исключением стоп-слов, таких как частицы, местоимения и другие служебные слова.

Аноним OP 27/04/15 Пнд 15:48:36 #3 №259759

14301389165530.png

>>259756
все еще коряво работает юникод.
перезаливаю.

Коллокации Аноним OP 27/04/15 Пнд 15:50:13 #4 №259760

80 самых частотных сочетаний из двух слов в /б/:

сажа сажа; чих чих; аноним пнд; пнд 91679xxx; подводные камни;
музыкальная совместимость; объединяет любовь; бамп бамп; ответы
аноним; твоя музыкальная; youtube watch; вести пикрелейтед; какие
подводные; пнд 91671xxx; начать вести; сих пор; lastfm user;
пикрелейтед какие; самом деле; хуй знает; остановило дредноута; тюууу
тюууу; хочу начать; чих тюууу; лет назад; гражданская оборона; вск
91602xxx; который смог; аноним вск; бенсон уинфред; боеприпасы
плацдарм; вперемешку соплями; вражеский тыл; городка миль; древнему
кровища; залезли кабину; кабину выдавили; кровавое месиво; культи
дергаются; оборонял батальон; тьма тьмущая; уинфред пейн; хаоситы
повыскакивают; хаоты заложили; ближайшего городка; винтовками
боеприпасы; дредноуту дан; катачанских джунглей; крышка отовсюду;
лазерными винтовками; отовсюду хаоситы; глубине катачанских; гляжу
культи; пейн живым; реку баам; ящики лазерными; баам взрыв; враги
залезли; заложили мост; joy division; высокая объединяет; переходил
реку; такие дела; кровища течет; течет вперемешку; кило пластида;
доставить ящики; повыскакивают оружия; болт пистолет; живым сдается;
месиво кишки; дан приказ; оружия болт; приказ доставить; мост кило;
кишки разбросаны; майор бенсон; arhivach org; каждый день; это
остановило

Аноним OP 27/04/15 Пнд 15:53:01 #5 №259765

>>259760
как видите, текст еще достаточно грязен. в него попадают куски макабы, даты и номера постов. надеемся, это уйдет после совершенствования процедуры подготовки текста.

Аноним 27/04/15 Пнд 15:57:58 #6 №259766

>>259765
В чём проблема нормально спарсить вакабу?

Дисперсия Аноним OP 27/04/15 Пнд 15:59:37 #7 №259768

14301395771910.png

Теперь посмотрим на распределение отдельных слов по доске.
Кстати, пока что объектом экспермента является весь текст /б/ состоянием на сегодняшнее утро.

Пикрелейтед -- распределение слов "тян" и "кун". Как видите, тяночки битарду -- первое слово встречается 314 раз, второе -- всего 134.

Аноним 27/04/15 Пнд 16:04:04 #8 №259771

А какова цель исследования? Просто в циферки потупить? И где во всём этом использовалось филологическое образование?

Аноним 27/04/15 Пнд 16:05:58 #9 №259772

ОП, ты охуенен, продолжай. Особенно интересны выводы которые ты можешь сделать из полученной статистики.

Аноним 27/04/15 Пнд 16:09:33 #10 №259773

>>259772
два чаю.
оп, реквестую:
- эмулятор анона на основе генерации текста по n-граммам
- детектор стиля текста деанонимайзер, чтобы можно было определить, насколько одно полотно схоже с другим
пиши на [email protected], можем скооперироваться

Аноним 27/04/15 Пнд 16:12:49 #11 №259774

>>259773
Еще
- Зависимость количества ответов от ключевых слов в ОП посте. Генерация успешного ОП поста.

Аноним OP 27/04/15 Пнд 16:25:55 #12 №259781

>>259771
>цель исследования
Пока сам не знаю. Пока выходит действительно
>в циферки потупить,
но возможно, скоро у нас появятся какие-то более интересные направления.

>>259773
>эмулятор анона морская улиточка
на примитивном уровне это, вроде, реализовано в самом НЛТК. Там нужно либо создавать кастомнуб грамматику, либо тренировать модель Маркова. В любом случае, это очень интересно. Будем пробовать.
>деанонимайзер
давно уже вынашивается эта концепция. теоретически, она должна быть выполнима. единственная приграда – очень короткие, как правило, комментарии.
>идеальный оп-пост
Думаю, что это тоже возможно. Просто сделаем корреляцию балла, который очень кстати присваивает оп-посту сама макаба, и отдельных слов или даже н-грамм.

>>259772
Спасибо. Надеюсь, все получится.

Аноним OP 27/04/15 Пнд 16:28:51 #13 №259782

Ладно, нужно немного поработать.

More to come.

Аноним OP 27/04/15 Пнд 19:31:57 #14 №259812

Еще пара экспериментов.

Похожие слова (по методу nltk.Text.similar()):

тян:
мать долларов мамка аноны p животное тянов всё влюбляюсь женой

кун:
увернуться неска гей учусь

хуй:
нахуй нехуй ту говорю знаю берет пару увидел выеби добра нихуя хочет
посте

мамка:
тян мать щас мааам тянка

ДС:
рабы

анон:
хотябы собственно омега наказывать днём жаль сколько

омега:
анон

Аноним OP 27/04/15 Пнд 19:34:48 #15 №259814

>>259812
пожалуй, было бы интересно запилить граф, где нодами были бы слова, а вес грани - similarity, и размер ноды и приближенность ее к центру графа - это частотность. вот бы карта двача была, воистину.

Аноним 27/04/15 Пнд 20:40:46 #16 №259834

>>259814
Цитоскейп тебе в руки. Бесплатно и без СМС.

Аноним 27/04/15 Пнд 22:02:17 #17 №259857

>>259812
>анон:
>хотябы собственно омега наказывать днём жаль сколько
Ололо, выглядит почти как полноценное предложение.

Аноним 28/04/15 Втр 03:24:36 #18 №259881

/р такой же ежедневный анализ /по/ с выводом статистики на отдельный сайт

Аноним 28/04/15 Втр 08:41:39 #19 №259893

>>259781
>приграда
Филологическое, говоришь, образование?

Аноним OP 28/04/15 Втр 09:04:04 #20 №259894

>>259893
мильпардон.

Аноним OP 28/04/15 Втр 09:05:28 #21 №259895

>>259881
/по/ - тоже очень интересная идея.
а еще можно sentiment analysis , товарищ майор

Аноним 28/04/15 Втр 12:57:56 #22 №259932

>>259893
Очень многие студни-филологи неграмотны, как сельские пятиклассники.

Аноним 28/04/15 Втр 13:23:36 #23 №259935

14302166161640.jpg

>>259754
Оп, ты-то мне и нужен. Каким образом отдельные посты (тута, на подтираче или на любом форуме), отдельные твиты и так далее (ну ты понел), складывать в отдельные файлы? Есть один крайне продвинутый метод семантического анализа, растуще-иерархические карты Кохонена Andreas Rauber, Dieter Merkl, and Michael Dittenbach. The Growing Hierarchical Self-Organizing Map: Exploratory Analysis of High-Dimensional Data
In IEEE Transactions on Neural Networks, Vol. 13, No 6, pp. 1331-1341, November 2002. IEEE. Авторы метода приводят пример с анализом новостных сайтов, их алгоритм позволяет получить иерархическое разбиение новостей по темам и подтемам http://www.ifs.tuwien.ac.at/~andi/somlib/experiments.html (там кароч текст сначала переводят в векторы с помощью tf-idf, потом полученное обрабатывают собственно GHSOM, если интересно, авторы запилили софт http://www.ifs.tuwien.ac.at/dm/somtoolbox/ http://www.ifs.tuwien.ac.at/~andi/somlib/ ). И короче, нужен какой-то общий подход, позволяющий сохранять отдельные мессаги в отдельные файлы.
>Что уже сделано: - рабочая, хоть и примитивная объектная модель доски, тредов и постов, а также метод ее наполнения через джсон апи
Хотелось бы посмотреть.

Аноним 28/04/15 Втр 13:25:00 #24 №259937

>>259935
Анон из треда нетсталкинга sn, ты?

Аноним 28/04/15 Втр 13:30:30 #25 №259939

>>259937
Ну да. Там я предлагал похожий анализ выдачи поисковика. Подобная тема когда-то была даже в готовом виде (WEBSOM) но потом все прикрыли.

Аноним 28/04/15 Втр 13:42:30 #26 №259941

>>259939
Кандидатскую штоле защищаешь? Чем ещё кроме nlp занимаешься? мимоинтересуюсь, >>259773

Аноним OP 28/04/15 Втр 14:30:18 #27 №259953

>>259941
>>259773

посоны, пора пилить чятик.
такой-то респонс и интерес к этой теме.
[email protected]

>>259935
Выглядит настолько же сложно, насколько интересно. Попробую почитать и врубиться.

>хотелось бы посмотреть объектную модель
я сегодня поломал апи -- как починю -- таки буду выкладывать на гитхаб.

Аноним 28/04/15 Втр 15:00:25 #28 №259966

14302224257980.jpg

>>259941
Не, просто есть немало идей по применению нескольких алгоритмов, не только GHSOM, а во всякий программизьм практически не могу (а там много надо автоматизировать в смысле сбора данных, те же тексты вручную сохранять заебещься). R немного спасает, но там есть не все нужные алгоритмы.
>>259953
>Выглядит настолько же сложно, насколько интересно. Попробую почитать и врубиться.
Там все просто, если понимать в картах Кохонена, это же дальнейшее их развитие. Собственно, пикрелейтед - вся суть одной картинкой.
>>259773
>детектор стиля текста деанонимайзер, чтобы можно было определить, насколько одно полотно схоже с другим
GHSOM в такое скорее всего может, только первичная карта не способна выявить стиль, нужно делать второго уровня или больше. Но опять же, файлы там хоть и текстовые, но вручную их парсить муторно, а для сборки вышележащих карт это необходимо.

Аноним OP 29/04/15 Срд 10:19:35 #29 №260130

ну все -- создал чятик в шлаке.
приглашаю всех заинтересованных.
отписавшимся уже высланы приглашалки

там же исходник объектной модели.

Аноним OP 29/04/15 Срд 10:20:41 #30 №260131

>>260130

И да, чтобы не морить всех здесь процессом, сюда будем выкладывать, в основном, результаты экспериментов.

/po/ Аноним OP 29/04/15 Срд 13:33:05 #31 №260197

14303035858390.png

Свежее из /по/:
Конкорданс слова "Путин"

да, теперь парсится и /по/раша

Аноним 29/04/15 Срд 13:35:56 #32 №260200

>>259754
слушай, может в /crypt/ перекатишься?
А ещё я не вижу исходников.

/po/ Аноним OP 29/04/15 Срд 13:58:52 #33 №260208

>>260200
хочешь исходников -- стучись >>259953.

Аноним 29/04/15 Срд 14:07:58 #34 №260213

>>260200
Нахуй никому не сдались эти мертвые разделы. Наплодили хуиты теперь рассылают людей по парашам.

Аноним 29/04/15 Срд 18:24:28 #35 №260294

14303210680840.jpg

>>260197
Оп, а почему именно пистон? Это же параша хуже некуда. Почему бы не R например? Там тоже есть пакеты для работы с веб-контентом. http://cran.r-project.org/web/views/WebTechnologies.html Я уже не говорю о кучах реально работающих алгоритмов обработки данных. Лично мне этого вашего пистона хватило, когда пытался разобраться с Theano. В R хотя бы что-то работает.

Аноним 29/04/15 Срд 18:51:28 #36 №260307

>>260294
>почему а-тя-тя

1) потому что я на нем пишу
2) потому что достаточно высокий уровень и почти не долбишься с типами, кодировками, уборками мусора и т.п.
3) потому что много библиотек, в частности для json, графов и главное – NLTK

Аноним 29/04/15 Срд 22:34:41 #37 №260398

Единственный нормальный тред в сцы. Пили конфу, няша. Буду присылать коммиты

Аноним OP 29/04/15 Срд 22:39:24 #38 №260402

>>260398
напиши на [email protected]
приглашу в шлак и на репо

ОП, с другого компа

P.S.: пару дней буду занят работой, поэтому разве что побампаю результатами с /по/, отвечу на вопросы и разошлю приглашения в конфу

Аноним 30/04/15 Чтв 05:58:57 #39 №260548

>>259759
Поменяй оси, я чуть шею не свернул пытаясь этот словарь прочесть.

Аноним 30/04/15 Чтв 07:37:26 #40 №260552

>>260548
На что поменять?

Аноним 30/04/15 Чтв 08:13:30 #41 №260558

>>260552
На о щуп.

Аноним 30/04/15 Чтв 16:18:57 #42 №260687

>>260552
Друг с другом местами поменяй, блядь.

Аноним 03/05/15 Вск 19:02:42 #43 №261342

14306689623500.png

Добрый вечер.

А тем временем у нас первые результаты построения графов частотности и похожести слов в /б/ по мотивам >>259814.

Это – очень предварительный результат. Узлы еще нужно подписать и соотнести их вес с частотностью слов, а длину граней хорошо сделать пропорциональной похожести слов по методу nltk.Text.similar().

Аноним 03/05/15 Вск 22:45:14 #44 №261375

Интересна статистика также и по сцаю, интересно сравнить с бе. Насколько популярны радиопидор и шизик? какова динамика?

Аноним 04/05/15 Пнд 00:08:25 #45 №261388

14306873055090.png

>>261375
Отвечаю.

Гистограмм пока нет, но они в проекте.

Аноним 04/05/15 Пнд 00:16:33 #46 №261394

>>261388
Покажи вот это вот >>259759 по /sci/

Аноним 06/05/15 Срд 00:57:57 #47 №262042

>>261394
Хуямп. Оп, почему ты забросил шлак? Я пришол.

Аноним 06/05/15 Срд 09:13:33 #48 №262096

>>262042
Я тут. Просто вчера закрывался экзамен по 6.00.2х.
Возвращаюсь сегодня.

Аноним 23/05/15 Суб 00:06:53 #49 №268588

14323288139540.png

Бамп, ребят. Мы возвращаемся. Граф обретает вменяемую форму. Это – из бэ.

Аноним 23/05/15 Суб 07:08:08 #50 №268613

я когда то делал детектор россиянина. получилось самые распросраненные слова

НЕ В И НА В А ТО Я
бля буду

а в коране -наказание

Аноним 23/05/15 Суб 09:10:20 #51 №268617

>>268613
Круто! А код есть?

Аноним 23/05/15 Суб 09:30:06 #52 №268618

>>268617
Это java script
считает слова в диалоге вк. первое и второе поле это имя в диалоге вк двух людей например Петя Полина
третье поле туда копируется текст диалога вк

<html>

<head>

<title>

__САМЫЕ ЧАСТЫЕ СЛОВА_
</title>
</head>

<body>
<script type="text/javascript" >

//выдрать из ЛС сообщения конкретного чела

im1=prompt("введите имя чела чьи сообщения затереть","Маша")
im2=prompt("введите имя чела чьи сообщения ОСТАВИТЬ","Саша")
str=prompt("Введите ленту ЛС "+im1+" - "+im2,"ЗОНА КТРЛ В")
str=str.toLowerCase()

fak1=im1
fak2=im2
reg1=new RegExp(fak1, "img")
reg2=new RegExp(fak2, "img")

//masbezodin
mbo=[]
m1=[]
m2=[]
v=[]

mbo=str.split(reg1)
lena=mbo.length

en=0
while (en!=lena)
{

if ((mbo[en]).search(reg2)!=-1)
{

v=mbo[en].split(reg2)
m1[en]=v[0]
m2[en]=v[1]
en++
}
else
{
m1[en]=mbo[en]
m2[en]=""
en++
}

}

st1=m1.join(" ")
st2=m2.join(" ")
l1=st1.length
l2=st2.length
document.write(im1+" знаков=")
document.write(l1)
document.write(" <hr>")
document.write(im2+" знаков=")
document.write(l2)
document.write(" <hr>")

amat1=[]
amat1=st1.match(/ /gim)
amat2=[]
amat2=st2.match(/ /gim)
amal2=amat2.length
amal1=amat1.length

document.write(im1+" слов=")
document.write(amal1)
document.write(" <hr>")
document.write(im2+" слов=")
document.write(amal2)
document.write(" <hr>")

aver1=l1/amal1
aver2=l2/amal2

document.write(im1+" среднее количество знаков в слове=")
document.write(aver1)
document.write(" <hr>")
document.write(im2+" среднее количество знаков в слове=")
document.write(aver2)
document.write(" <hr size=5>")
//vsetvoislova
vts1=[]
vts2=[]

vts1=st1.split(/ ? ? ? ?/gim)
vts2=st2.split(/ ? ? ? ?/gim)
/////////////////zona PEREDELA
fun=function(x,y){
if(x.length>y.length) return 1
if(x.length<y.length) return -1
return 0
}
nom1=vts1.length
nom2=vts2.length
vts1=vts1.sort(fun)
vts2=vts2.sort(fun)
trun=true
x=0
while (trun){
if (vts1[x].length>4) {trun=false; fixer=x}
x++
}
vts1=vts1.slice(fixer,nom1)
trun=true
x=0
while (trun){
if (vts2[x].length>4) {trun=false; fixer=x}
x++
}
vts2=vts2.slice(fixer,nom2)
nom1=vts1.length
nom2=vts2.length
//тут массив слов чела а второй массив это количество повторений этого слова
//
spis1=[]
ns1=[]
spis2=[]
ns2=[]
//

document.write("<hr>")
document.write(nom1)
document.write("<hr>")
document.write(nom2)
document.write("<hr>")
document.write("<hr>")
document.write("<hr>")
document.write("<hr>")
document.write("<hr>")
//
x=0
z=0
v1=[]
v1[0]="start"
svindex=[]
svindex[0]=1
while (x!=nom1)
{

slovo=vts1[x]
dlena=v1.length

y=0
tr=false
while (y!=dlena)
{

sr1=String(v1[y])
sr2=String(vts1[x])
if (sr1==sr2)
{tr=true
//////
mettka=y
y=dlena-1
}
y++
}
if (tr)
{

svindex[mettka]=svindex[mettka]+1
}
else
{
v1[z]=vts1[x]
svindex[z]=1

z++
}

x++
}

// ТУТ КОЛИЧЕСТВО МАКС СЛОВ
nj=60

njj=0
sle=svindex.length
while (njj!=nj)
{
maxer=Math.max.apply(Math, svindex)

x=0
while (sle!=x)
{
if (svindex[x]==maxer)
{
document.write(maxer)
document.write(" - ")
document.write(v1[x])
document.write("<hr>")
svindex[x]=0
}
x++
}

njj++
}
document.write("<hr>")

document.write("<hr>")

document.write("<hr>")

document.write("win1")
///////////vtor chel
x=0
z=0
v2=[]
v2[0]="start"
svindex2=[]
svindex2[0]=1
while (x!=nom2)
{

dlena2=v2.length

y=0
tr=false
while (y!=dlena2)
{

sr1=String(v2[y])
sr2=String(vts2[x])
if (sr1==sr2)
{tr=true
//////
mettka=y
y=dlena2-1
}
y++
}
if (tr)
{

svindex2[mettka]=svindex2[mettka]+1
}
else
{
v2[z]=vts2[x]
svindex2[z]=1

z++
}

x++
}

// ТУТ КОЛИЧЕСТВО МАКС СЛОВ
nj=60

njj=0
sle=svindex2.length
while (njj!=nj)
{
maxer=Math.max.apply(Math, svindex2)

x=0
while (sle!=x)
{
if (svindex2[x]==maxer)
{
document.write(maxer)
document.write(" - ")
document.write(v2[x])
document.write("<hr>")
svindex2[x]=0
}
x++
}

njj++
}

document.write("<hr>")

document.write("win2end")
</script>
</body>

</html>

Аноним 23/05/15 Суб 11:15:05 #53 №268625

>>259774
А вот это - годно.

Аноним 23/05/15 Суб 12:09:49 #54 №268637

>>259774
Успешным постом будет максимально противоречивый набор слов, вызывающий срачи. Успех уровня /b/.

Аноним 23/05/15 Суб 12:17:34 #55 №268640

>>259774
Хохлы, пидорашки, ЕОТ, мамка.

Аноним 23/05/15 Суб 12:51:33 #56 №268645

>>259760
Построй цепь Маркова для генерации типичного текста /b/

Аноним 23/05/15 Суб 14:45:52 #57 №268656

>>268645
Очень крутая идея. Более того, в NLTK есть такой функционал, поэтому это должно быть несложно. Добавляем идею в вил-лист.

Аноним 23/05/15 Суб 14:46:19 #58 №268657

>>268656
*виш-лист, (смех).

Аноним 23/05/15 Суб 22:16:13 #59 №268769

>>259760
Хаоситы что-то слишком часто. Но не удивительно, я всегда знал что двач - портал хаоса.

Аноним 23/05/15 Суб 22:35:55 #60 №268780

>>259754
Годный тред

Аноним 24/05/15 Вск 10:56:44 #61 №268876

Я нихуя не понял. Это типа нумерологии?

Аноним 24/05/15 Вск 12:16:30 #62 №268884

>>268876
Нет, бро. Это – попытки заниматься точной наукой.

Аноним 24/05/15 Вск 12:54:52 #63 №268890

>>268884
А результат какой?

Аноним 24/05/15 Вск 14:43:12 #64 №268907 DELETED

>>268884
Лал, наивное применение статистики к предметной области - наука. Долго же тебе ещё расти.

Аноним 28/05/15 Чтв 11:10:33 #65 №270327

>>268907
Да, долго. Но я расту. А покажи что-то свое, с высоты так сказать птичьего полета?

Аноним 28/05/15 Чтв 11:35:12 #66 №270330 DELETED

>>268907
Имплаинг абстрактные размышления в ящик это наука. Ну и еще модель которая "вечно в работе".

Аноним 28/05/15 Чтв 12:06:23 #67 №270336

>>270330
Хорошо, но я все еще не вижу примеров высокоуровневый научных достижений с твоей стороны.

Аноним 28/05/15 Чтв 14:05:46 #68 №270349 DELETED

>>268907
Алгососит что ли?

Аноним 28/05/15 Чтв 14:10:58 #69 №270352 DELETED

>>270349
Ты называешь всех теми именами, которые дали тебе. Ты всё ещё думаешь, что это имя тупое, а не ты.

Аноним 28/05/15 Чтв 14:14:14 #70 №270355

>>270352
Что!! Филасаф что ли?

Аноним 28/05/15 Чтв 14:15:34 #71 №270356 DELETED

>>270352
Я не говорил , что оно тупое. Просто сажа в годном научном треде- первый признак алгососизма.

Аноним 28/05/15 Чтв 15:13:57 #72 №270381

>>259759
>филологическое образование
Где морфологический анализ слов? У тебя же «иди» и «иду» за два разных слова считаются, а это портит всю статистику.

Аноним 28/05/15 Чтв 16:01:43 #73 №270387 DELETED

>>270356
Попробуй всё-таки не так сильно демонизировать сажу, бро, иначе стресс тебя погубит ;). Тебе предлагаю домашнее задание - написать сочинение с названием "Почему я бугурчу от сажи" или "Какое значение я придумал для одной опции формы постинга".

Аноним 28/05/15 Чтв 16:02:57 #74 №270388 DELETED

>>270381
Смотря что за статистика тебя интересует. Не всегда нужна морфология.

Аноним 28/05/15 Чтв 17:13:07 #75 №270399

>>270388
Ну вот те же частотыне списки слов без выделения начальных форм имеют большую погрешность.

Аноним 28/05/15 Чтв 17:30:16 #76 №270401 DELETED

>>270399
Какую погрешность? Ты сначала сформулируй цель сбора статистики, чтобы иметь критерии вычисления погрешностей.

Аноним 28/05/15 Чтв 17:30:39 #77 №270402

14328234396450.png

>>270381
Это предусмотрено. При подготовке текста есть опция включить стеммер, который обрезает морфологические окончания.

Кстати, это очень влияет на структуру графа. Связей становится как-то слишком много.

Кстати, несмотря на то, что я сейчас очень занят на работе, прогресс есть, хоть и совсем крохотный. Для начала, мы переехали на питон3, что решило большинство проблем с юниконом. Теперь мы ищем, как сохранять слепки досок двача в объектной модели, а не в виде простого текстового дампа. В перспективе – формирование корпуса не из единого куска текста, а сегментированного по времени, треду, его рейтингу и другим параметрам. Это не считая собственно лингвистических экспериментов а-ля построение цепочек Маркова с последующей генерацией текста анона, частотность н-грамм и другого.

Аноним 28/05/15 Чтв 17:41:08 #78 №270406

>>270401
Ты у мамы дурачок?
>>270402
Так если предусмотрено, почему на этих >259759 >>259756 графиках у существительных не выделены начальные формы? Слово «жизнь» считается два раза в форме «жизнь» и «жизни». Собственно перед анализом русских текстов нужно было заняться этой проблемой в первую очередь, иначе все результаты будут очень неточными.

Аноним 28/05/15 Чтв 17:44:09 #79 №270407 DELETED

>>270406
> Ты у мамы дурачок?
Нет, это ты манька, считающая что вся статистика ограничивается теми двумя лабами, которые ты купил к зачёту. У людей могут быть очень много разных причин считать количество разных словоформ в тексте считая и однокоренные.

Аноним 28/05/15 Чтв 17:45:45 #80 №270409 DELETED

>>270406
> иначе все результаты будут очень неточными.
О какой точности идёт речь, маня? О точности соответствия твоим фантазиям?

Аноним 28/05/15 Чтв 17:50:35 #81 №270413

>>270407
>У людей могут быть очень много разных причин считать количество разных словоформ в тексте считая и однокоренные.
Безусловно, но здесь причина, очевидно, кроется в том, что человек не смог написать алгоритм выделения начальных форм.

Аноним 28/05/15 Чтв 17:53:16 #82 №270416 DELETED

>>270413
Причина кроется в отсутствии той задачи у автора, которую ты ему придумал, долбоёб.

Аноним 28/05/15 Чтв 17:55:31 #83 №270417

>>270416
Ну если его задача провести частотный анализ комбинаций символов между пробелами, то да, только это не лингвистический анализ.

Аноним 28/05/15 Чтв 17:58:48 #84 №270419 DELETED

>>270417
Лингвистическим анализом не является ни подсчёт корней, ни подсчёт словоформ, дурашка.

Аноним 28/05/15 Чтв 18:01:33 #85 №270420

>>270419
Ну точно дурачок.

Аноним 28/05/15 Чтв 18:03:51 #86 №270422 DELETED

А для таки лингвистического анализа есть методы (основанные на мешке слов, например), которые по статистике количества именно словоформ определяют принадлежность к тому или иному автору или эмоциональной тональности. Так же статистические алгоритмы перевода могут работать на сырых "наборах букв между пробелами". Главное, чтобы в обучающем корпусе были все варианты слова в достаточном количестве.

Аноним 28/05/15 Чтв 18:04:58 #87 №270423 DELETED

>>270420
Иди портфель собирай, мамкин лингвист. Совершенно очевидно, что ты не шаришь в теме.

Аноним 28/05/15 Чтв 18:11:35 #88 №270427

>>270422
У-тю-тю, крупицы информации из научпопа не помогут тебе сойти за эксперта, дорогуша.
> которые по статистике количества именно словоформ определяют принадлежность к тому или иному автору или эмоциональной тональности.
Только при чём здесь этот тред, где никакие словоформы вообще не выделяются.
>>270423
К сожалению, я пока единственный, кто в этом треде заметил слона в комнате, а ты иди дальше словоформы пересчитывай, дурачок.

Аноним 28/05/15 Чтв 18:12:59 #89 №270428 DELETED

>>270427
> кудахтахтах
Ожидаемый ответ от оправдывающегося школьника.

Аноним 28/05/15 Чтв 18:36:36 #90 №270441

ОП, чем обмазаться, чтобы такое уметь?
В питоне есть встроенные библиотечки помогающие парсить?
Или ты get-ом тянешь?

Аноним 28/05/15 Чтв 18:37:44 #91 №270442 DELETED

>>270441
Об этом нельзя знать залётным. И не смей перечитывать тред, мразь!

Аноним 28/05/15 Чтв 18:45:37 #92 №270449

>>270441
а ты тоже хочешь что-то привнести в проект? стучись: [email protected]

Аноним 28/05/15 Чтв 18:51:11 #93 №270456

>>270441
>библиотечки помогающие парсить?
Почти во всех рантаймах реализована функция Split для строк. Собственно Делишь строку по пробелами и считаешь одинаковые кусочки. Вот и всё, что делает оп. Графики можешь хоть в экселе фигачить.

Аноним 28/05/15 Чтв 19:16:58 #94 №270480

>>270456
Это не так. Токенизация, если это имеется ввиду, делается силами библиотеки nltk.

Аноним 28/05/15 Чтв 19:18:19 #95 №270481

>>270480
Что почитать то по теме?
И откуда у тебя умение программировать руками, если ты филолог

Аноним 28/05/15 Чтв 19:23:11 #96 №270484

>>270481
по библиотеке читать http://www.nltk.org/book/ ,
питон учить можно по codecademy, на edX, да и книжек по нему очень много.

Аноним 28/05/15 Чтв 19:31:07 #97 №270488

>>270481
Если хочешь почитать на русском - плохие новости для тебя. А так, документация к софту и ссылки из оттуда. И да, пистон я таки не одобряю, слишком костыльно.

Аноним 28/05/15 Чтв 19:52:38 #98 №270492

>>270480
Только NLTK плохо справляется с русским языком. Посмотрел тут алгоритм стемминга http://snowball.tartarus.org/algorithms/russian/stemmer.html это довольно забавно. Для серьёзной обработки русского языка нужны инструменты получше, http://www.abbyy.ru/isearch/compreno/ а твоя nltk тупо русский текст по пробелами делит. Для русского языка ведь даже корпусов особо нет в интернете.

Аноним 28/05/15 Чтв 20:09:47 #99 №270497

>>270488
пистон я таки не одобряю, слишком костыльно.
Что не костыльно?

Аноним 28/05/15 Чтв 21:07:14 #100 №270542

>>270492
и правда, справляется не ахти. Стемлер совсем несовершенный. Про компресса знаю, но открытого АПИ, чтоб поиграться вот так, у них нет. Тем более его пилят лучшие профессиональные лингвисты страны – в аббии дурачков не берут. А НЛТК – кодопомойка, которая даже, как сегодня оказалось, не вся корректно работает под Питон 3. во втором были невероятные проблемы с юникодом. Что мы можем сделать в этом случае? Вот и пишем баги, читаем код, может законтрибьютим чего.

Аноним 28/05/15 Чтв 21:08:03 #101 №270544

>>270542
>компресса
то есть компрено

Аноним 28/05/15 Чтв 21:08:14 #102 №270545 DELETED

>>270497
node.js

Аноним 29/05/15 Птн 15:42:41 #103 №271103