24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Уже вот вот переводчики будут спать на улице вместе с бомжами.
Нейросети без учителя переводят с языков, для которых нет параллельного корпуса текстов
Машинный перевод с помощью нейросетей прошёл долгий путь с момента первых научных исследований на эту тему и до того момента, как компания Google заявила о полном переводе сервиса Google Translate на глубинное обучение.
Как известно, в основе нейронного переводчика механизм двунаправленных рекуррентных нейронных сетей (Bidirectional Recurrent Neural Networks), построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики. Однако всегда считалось, что нейронный перевод, как и статистический, требует для обучения параллельных корпусов текстов на двух языках. На этих корпусах обучается нейросеть, принимая человеческий перевод за эталонный.
Как теперь выяснилось, нейросети способны освоить новый язык для перевода даже без параллельного корпуса текстов! На сайте препринтов arXiv.org опубликованы сразу две работы на эту тему.
«Представьте, что вы даёте какому-то человеку много китайских книг и много арабских книг — среди них нет одинаковых — и этот человек обучается переводить с китайского на арабский. Это кажется невозможным, правда? Но мы показали, что компьютер способен на такое», — говорит Микель Артетксе (Mikel Artetxe), учёный, работающий в области компьютерных наук в Университете Страны Басков в Сан-Себастьяне (Испания).
Большинство нейросетей машинного перевода обучается «с учителем», в роли которого как раз выступает параллельный корпус текстов, переведённый человеком. В процессе обучения, грубо говоря, нейросеть делает предположение, сверяется с эталоном, и вносит необходимые настройки в свои системы, затем обучается дальше. Проблема в то, что для некоторых языков в мире нет большого количества параллельных текстов, поэтому они недоступны для традиционных нейросетей машинного перевода.
Две новые модели предлагают новый подход: обучение нейросети машинного перевода без учителя. Система сама пытается составить некое подобие параллельного корпуса текстов, выполняя кластеризацию слов друг вокруг друга. Дело в том, что в большинстве языков мира присутствуют одни и те же смыслы, которым просто соответствуют разные слова. Так вот, все эти смыслы группируются в одинаковые кластеры, то есть одни и те же смыслы-слова группируются вокруг одних и тех же смыслов-слов, практически независимо от языка (см. статью «Нейросеть Google Translate составила единую базу смыслов человеческих слов»).
Составив гигантский «атлас» для каждого языка, затем система пытается наложить один такой атлас на другой — и вот пожалуйста, у вас готово некое подобие параллельных текстовых корпусов!
Можно сравнить схемы двух предлагаемых архитектур обучения без учителя.
Обе научные работы используют заметно схожую методику с небольшими отличиями. Но в обоих случаях перевод осуществляется через некий промежуточный «язык» или, лучше сказать, промежуточное измерение или пространство. Пока что нейросети без учителя показывают не очень высокое качество перевода, но авторы говорят, что его легко повысить, если использовать небольшую помощь учителя, просто сейчас ради чистоты эксперимента этого не делали.
Отметим, что вторую научную работу опубликовали исследователи из подразделения Facebook AI.
Работы представлены для Международной конференции по обучающим представлениям 2018 года (International Conference on Learning Representations). Ни одна из статей ещё не опубликована в научной прессе.
>>1878502 Огромное количество правил и исключений к этим правилам. Хотя современный новояз нивелирует эти сложности, но это уже не совсем русский язык.
>>1878495 Языки учить сложно. Русский выучить иностранцу очень трудно. Даже самим русским трудно писать грамотно, что уж говорить про остальных. Слишком гибкий язык в плане конструкции предложений в речи. Глобализм не всем хорош... некоторые языки из-за него вымирают, а ведь там может быть целое культурное наследие, подобно памятнику. >>1878495 Вот действительно, красота - вопрос вкуса. Мне русский кажется красивым, но какому-нибудь иностранцу он может показаться противным по тем или иным причинам. Многим нравится французский и английский, а некоторые эти языки терпеть не могут (хотя таких не очень много, наверное).
>>1878566 Очень сложно выучить арабский, китайский, японский и корейский. А русский на уровне узбекского. По классификации мин обороны сша. https://en.wikipedia.org/wiki/Defense_Language_Aptitude_Battery >Даже самим русским трудно писать грамотно, что уж говорить про остальных. Если у тебя тройка по русскому, это не значит, что он сложный ;)
>>1878471 (OP) > полном переводе сервиса Google Translate на глубинное обучение. Как был абсолютно нечитаемым говном так и остался. Я блять не зная языка толком лучше понимаю текст оригинала чем ту парашу которую эта поебота выдает за перевод.
>>1878471 (OP) Уже полгода как нейросети подрубили, а он до сих пор с англюсика нормально перевести не может, не говоря уже о более экзотических языках.
Странный у вас дроч. Чем проще язык - тем лучше. Английской классическую литературой зачитывается весь мир и изучают в вузах, хотя это якобы один из самых легких языков. А азиаты только подтвердят, что их ебаная клинопись нахуй не упала. Как и штопанный русский язык с его миллионом исключений, правил и 33 способами формообразованиями слова из-за которого и носителям языка без контекста не понятно о чем идет речь.
>>1878635 Мои попытки выучить ангельский закончились на алфавите и произношении, там блять вообще нахуй все слова произносятся не так как пишутся не говоря уже об этих блевательных звуках которые невозможно выговорить.
>>1878641 Он за эти 10 лет не изменился почти как была рандомная хуита так и осталась. Даже элементарные словосочетания из двух слово не может перевести вменяемо.
>>1878635 Сложность языка - показатель развития культуры, тащемта. Ну и вектора её развития заодно. А если ты, нуб, не знаешь китайской литературы, то это не значит, что её нет. На английском читают ровно потому, что его обладатели правят миром. Мимо синолог
>>1878635 >из-за которого и носителям языка Щито? Русский достаточно конкретный язык, чтобы понимать всё однозначно, что выгодно выделяет его на фоне всяких англюсиков.
>>1878471 (OP) Тоесть нейросети нужен АТЛАС составленный кем-то? По сути универсальный словарь, ну и чего удивительного что он на основании АТЛАСА учится понимать другие языки, по сути тот же учитель парралельных текстов, не? Нет, я понял что он берет по сути словосочетания и предложения и похожие кидает в кластеры, а потом их сверяет с другими на других языках, ну кароче просто автоматизировали запиливание парралельных текстов.
>>1878684 Ну русский для иностранца это ебаный ад да, нам то проще когда он родной. Но вот инглиш выебал мне весь мозг. Если только репетитора себе нанимать чтоб он мне произношение каждой буквы задрачивал пока не освою.
>>1878670 Иероглифов около пяти тысяч. И мы говорим о литературном языке, а не общепотребительном. Русским в совершенстве владеют тоже весьма немногие. Как и любым другим развитым языком. Иначе у нас общество из одних интеллигентов бы состояло.
>>1878648 Хуй знает, я закидываю куски из нескольких тысяч букв, бегло читаю русский перевод, отдельные фразы, которые переводчик "не берет" или нужно четкое понимание именно оригинала - читаю с английского. А поскольку гугля даёт еще и сноски на английский толковый словарь, то даже тяжелые вещи можно пословно переводить близко по тексту.
>>1878704 Чем больше вымерших языков - тем примитивнее и уже твое мышление и шире - анус, в который тебя ебет власть и глобалисты. Допускаю, что тебе норм и так, конечно. Но мне, с моей широтой взглядов, без мировой культуры некомфортно.
>>1878721 >Что бы читать на русском не надо им в совершенстве владеть Нет, вот как раз на русском не почитаешь, не зная его почти в совершенстве, ибо структура языка крайне сложная.
>>1878715 Древние языки - тот еще пиздец. Даосские тексты написаны на вэньянь, символическим языком алхимиков, без рода, времени, пунктуации и междометий. Вот где пизда.
>>1878743 >вон даже тупые школьники всю эту рузке классику читают Потому что русский для них родной, дебил, да к тому же они достаточно много смысла теряют при чтении вследствие своего хуёвого словарного запаса. Сможешь ли ты сам, например, без гугла сказать что значит фраза "Отправить с оказией".
>>1878743 Они не читают, загляни в бэ, много ты там начитанных видел? Алсо, классики как бэ весьма охуенным языком написаны (например, Бунин), но для того, чтобы это понять, надо уже иметь нехилый словарный запас, иначе намучаешься.
>>1878471 (OP) Вот я хуй знает, ребята. Вечно как я за что-то возьмусь - так через несколько лет это становится неперспективным/отмирающим. Учился на юриста - потом "азаза, юристов как собак нерезанных, вы никому не нужны!", теперь думал за языки взяться конкретно - а мне со всех сторон: "нейросети заменят переводчиков, знание языков будет не нужно!" Да что нахуй нужно-то будет? Кодеры и майнеры биткоинов, и все? Я поздно родился, короче.
>>1878800 Цивилизованный давно общается на китайском, русском и хинди. А на язык англосаксонских пидорашек, не умеющих нихуя, кроме как грабить и убивать всем похуй.
>>1878799 Нет, финский - это лютый пиздец, а из этих 4 реально сложный китайский, корейский и японский же не столь сложны, арабский же сложен лишь тем, что там в каждой деревне какой-то свой местечковый диалект. Поехал в соседнее село, а там все будто на другом языке говорят.
>>1878800 Хуйня, его лишь номинально "знает" много народу, а на деле поедешь в какую-нибудь Гермашку, где его типа чуть ли не старики с младенцами знают, а там никто двух слов связать не может.
>>1878850 Vestr fórk of ver, en ek Viðris ber munstrandar mar, svá's mitt of far; drók eik á flot við ísa brot, hlóðk mærðar hlut míns knarrar skut. виса Эгиля
>>1878495 Много раз уже слышал эту мантру про сложность языка, Но так ли это? И что дает эта "сложность", под этим подразумевается, что мол носитель языка автоматически умный, раз язык сложный?
Уже вижу сюжет фильмы про то как на каком нибудь важном заседании ООН вместо переводчиков задействована миллион раз проверенная и сверх-надежная система синхронного перевода LangUnity. Но что-то идет не так и в итоге мир стоит на пороге третьей мировой.
>>1878885 Язык задает матрицу мышления ( у азиатов, с иероглифами оно, например, образное, точнее, сразу понятийное а в знаковых языках - знаковое и символьное). Так что да.
>>1878729 >Чем больше вымерших языков - тем примитивнее и уже твое мышление Где логическая связь между количеством вымерших языков и примитивностью мышления? Это ты где-то услышал или сам эту хрень придумал?
>>1878885 Так и есть. Читал одну хуиту, где у мигрантов в Бриташку делали замер айкью до и после переезда туда. В среднем айкью проседало на 5 пунктов после полного перехода на англюсик в повседневном общении.
>>1878684 >В русском с этим проблем куда больше. Настоящие проблемы с этим в японском. К примеру 北 - kita - север 西 - nishi - запад да, два этих иероглифа вместе 北西 означают северо-запад, но читаются как hokusei.
>>1878895 >матрицу мышления Это что за хрень? Это ты у каких-то научных фриков прочитал? >с иероглифами оно, например, образное Письменность и язык как бы разные вещи. Китаец может и не уметь читать и писать, но на умение общаться с другими китайцами это не повлияет.
>>1878896 Если нет носителей - пласт культуры становится недоступным, например. Как до 19 века не могли перевести египетские иероглифы (да и сейчас глубже первого смыслового слоя не могут, а их минимум семь)
>>1878897 >Читал одну хуиту Уровня: одна бабка сказала. Я тоже могу насочинять таких охуительных историй, но вот только почему-то "бриташки" не такие тупые как тебе бы хотелось, и уровень жизни у них почему-то лучше и научных работ у них больше.
>>1878908 Ну, смотри, может быть язык с чёткой структурой, где язык поставлен на рельсы и где от шаблонов не отходят, а есть русский, например, где можно слова как хочешь ставить и ошибкой не будет это, то есть, свободным будет мышление.
>>1878927 >может быть язык с чёткой структурой Нет таких языков, только какие-нибудь эсперанто, но на них не говорят живые люди. >можно слова как хочешь ставить и ошибкой не будет Это не так. Пример: на черной полке лежит телефон - телефон полке лежит черной на. Как хочешь можно менять говоришь? Ага.
Смысл в том что сеть читает разные текста на разных языках и потом строит свою понятийную карту, одну для всех языков. Хотя на самом деле это нельзя назвать понятийной картой, потому что сеть не понимает, что такое понятия, это просто кучки цифр, которые имеют определенные зависимости от других кучек цифр, и которые напоминают ей самих себя в разных языках. Из чего делается вывод, что смысл примерно один и тот же. Врят ли это будет работать для сложной речи, лирики и метафор, но для базового языка, всяких местоимений, быть/владеть - вполне, да ещё и любого языка к тому же.
>>1878912 Во первых бывают несколько онных и несколько кунных чтений. 日 - hi 日本 - Nihon 本日 - honjitsu 日曜日 - nichiyoubi Таким образом 日 может читаться как hi, ni, jitsu,nichi, bi. Где проблема в русском? РУЗКЕЙ ЯЗЫГ САМЫЙ СЛОЖНЫЙ@РУЗГЕЕ БАБЫ САМЫЕ КРАСИВЫЕ@РУЗГАЯ АРМИЯ САМАЯ СИЛЬНАЯ Может хватит урапоцреатизма?
>>1878973 Дебил, ни один адекватный человек не будет учить все кандзи со всеми значениями, а потом пытаться читать таким образом слова. Все учат СЛОВА, понимаешь ли, а знания чтений приходят со словами.
>>1879009 Кандзи учат только японцы, потому что они УЖЕ знают японский и варятся в его среде всю жизнь, поэтому такая методика в корне неверна для иностранца.
>>1879057 Дурачок, ты забываешь про среднюю школу, в которой изучают ещё 1к с хуем кандзи. 1к в начальной и ещё 1к с чем-то в средней и ещё в районе 500 дополнительных.
>>1878955 >на черной полке лежит телефон на полке черной лежит телефон на полке черной телефон лежит на черной полке телефон лежит телефон лежит на черной полке и т.д. В английскому хуй так сделаешь будет сразу считаться ошибка.
>>1879101 Для этого в английском есть другие средства, и порядок слов там таки можно менять в определенных случаях, хотя правила этого не предусматривают, но в живой речи и в литературе такое используется.
>>1879115 Падежи есть и во многих других языках, в некоторых их в разы больше чем в русском. В английском тоже есть падежи, просто для того чтобы понять как одно слово в предложении относится к другому используются различные of, by, 's и т.д. >Намного сложнее Ты наверное знаток английского, что можешь сравнивать? Может ты временные формы на зубок знаешь или модальные и фразовые глаголы, коих в английском вагон и маленькая тележка?
>>1879147 >встречаться с тян и не делать детей. Какой тогда смысл, лол. Просто подрочи тогда. И да, даже если их не ебать, гуки уроды ебаные, пиздец. Даже после пластики. Каким же надо быть говноедом, чтобы эти пиздоглазые уроды нравились?
>>1879199 Ну давай тогда разберем какой смысл в изменении порядка слов. Если ставится глагол впереди, то человек акцентирует внимание на самом действии, что в английском достигается конструкцией have/has/had been + -ing, тоже самое для других частей речи.
>>1879115 Знаю, учил английский. И долго. Но осутствие общения с носителями и практики заставили забыть многое. Простейший язычок, считай без падежей и склонений, о спряжения ваще молчу. Франзуский развее что из европейских может посостязаться с русским. И то изза произношения и трудности чтения и правописания. В русском нюансов туча. Ими за жизнь не овладеешь, если не будешь контактировать с носителями постоянно. Про языки на которых общаеца максимум тыщ триста не говорю. Можно всякого напридумать.
>>1879187 > Какой тогда смысл, лол. Просто подрочи тогда. > И да, даже если их не ебать, гуки уроды ебаные, пиздец. Даже после пластики. Каким же надо быть говноедом, чтобы эти пиздоглазые уроды нравились?
>>1878471 (OP) Пока это всё хуйня уровня - мы придумали новую батарейку, новую оперативку. Машинный переводчик не учитывает контекст, переводит дословно, не может подобрать более благозвучную альтернативу, не шарит в сленге, в каких-то технических деталях, не знает поп-культуры. До появления нормального переводчика ещё годы.
>>1878660 Я уже почти привык, что "ровно" теперь сплошь и рядом используют как синоним "точно", но чтобы как синоним "именно"... Да ты и правда филолог, обычное неграмотное гопо-быдло вряд ли бы до такого додумалось.
>>1878729 >Чем больше вымерших языков - тем примитивнее и уже твое мышление и шире - анус Главное - не форма, а содержание. И верно ли, что выпускниц филфаков меньше ебут в анус? Вряд ли.
>>1878471 (OP) >Нейросети без учителя переводят с языков, для которых нет параллельного корпуса текстов такую технологию описывал Быков в "Часе Быка", где события происходят через 500+ лет со дня сегодняшнего. Он думал - это фантастика, дело далекого будущего. Теперь этим аргументом можно тыкать на сосаче ностальгирующих совков, ноющих о том, что прогресс остановился.
Машинный перевод с помощью нейросетей прошёл долгий путь с момента первых научных исследований на эту тему и до того момента, как компания Google заявила о полном переводе сервиса Google Translate на глубинное обучение.
Как известно, в основе нейронного переводчика механизм двунаправленных рекуррентных нейронных сетей (Bidirectional Recurrent Neural Networks), построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики. Однако всегда считалось, что нейронный перевод, как и статистический, требует для обучения параллельных корпусов текстов на двух языках. На этих корпусах обучается нейросеть, принимая человеческий перевод за эталонный.
Как теперь выяснилось, нейросети способны освоить новый язык для перевода даже без параллельного корпуса текстов! На сайте препринтов arXiv.org опубликованы сразу две работы на эту тему.
«Представьте, что вы даёте какому-то человеку много китайских книг и много арабских книг — среди них нет одинаковых — и этот человек обучается переводить с китайского на арабский. Это кажется невозможным, правда? Но мы показали, что компьютер способен на такое», — говорит Микель Артетксе (Mikel Artetxe), учёный, работающий в области компьютерных наук в Университете Страны Басков в Сан-Себастьяне (Испания).
Большинство нейросетей машинного перевода обучается «с учителем», в роли которого как раз выступает параллельный корпус текстов, переведённый человеком. В процессе обучения, грубо говоря, нейросеть делает предположение, сверяется с эталоном, и вносит необходимые настройки в свои системы, затем обучается дальше. Проблема в то, что для некоторых языков в мире нет большого количества параллельных текстов, поэтому они недоступны для традиционных нейросетей машинного перевода.
Две новые модели предлагают новый подход: обучение нейросети машинного перевода без учителя. Система сама пытается составить некое подобие параллельного корпуса текстов, выполняя кластеризацию слов друг вокруг друга. Дело в том, что в большинстве языков мира присутствуют одни и те же смыслы, которым просто соответствуют разные слова. Так вот, все эти смыслы группируются в одинаковые кластеры, то есть одни и те же смыслы-слова группируются вокруг одних и тех же смыслов-слов, практически независимо от языка (см. статью «Нейросеть Google Translate составила единую базу смыслов человеческих слов»).
Составив гигантский «атлас» для каждого языка, затем система пытается наложить один такой атлас на другой — и вот пожалуйста, у вас готово некое подобие параллельных текстовых корпусов!
Можно сравнить схемы двух предлагаемых архитектур обучения без учителя.
Обе научные работы используют заметно схожую методику с небольшими отличиями. Но в обоих случаях перевод осуществляется через некий промежуточный «язык» или, лучше сказать, промежуточное измерение или пространство. Пока что нейросети без учителя показывают не очень высокое качество перевода, но авторы говорят, что его легко повысить, если использовать небольшую помощь учителя, просто сейчас ради чистоты эксперимента этого не делали.
Отметим, что вторую научную работу опубликовали исследователи из подразделения Facebook AI.
Работы представлены для Международной конференции по обучающим представлениям 2018 года (International Conference on Learning Representations). Ни одна из статей ещё не опубликована в научной прессе.
https://geektimes.ru/post/296027/