Идентификация языка

Поделись знанием:
Перейти к: навигация, поиск

Идентификация языка (англ. language identification), в методике обработки естественного языка — определение языка. Проблема идентификации языка является особым случаем категоризации текста и решается с использованием статистических методов.





Обзор

Для идентификации языка реализуется архитектура PPRLM (parallel phonemes recognition + language model) с параллельным подключением фонетических распознавателей, обученных на нескольких языках. Фонетическое распознавание производится на основе скрытых марковских моделей (СММ) с помощью алгоритма Витерби.

Для принятия решения о принадлежности речевого сообщения к тому или иному целевому языку реализуется подход с классификатором на основе метода опорных векторов (SVM — support vector machines).

Принцип работы системы, построенной на основе классического PPRLM заключается в следующем:

  1. в системе присутствуют несколько фонетических распознавателей;
  2. каждый входной звуковой файл распознаётся фонетическими распознавателями;
  3. по результирующей последовательности фонем каждого фонетического распознавателя считаются меры близости к модели n-gramm того или иного целевого языка;
  4. победившим считается язык с максимальной мерой близости модели n-gramm.

В усовершенствованных системах PPRLM идентификация языка реализуется в виде открытой задачи: производится проверка «принадлежит» / «не принадлежит» обработанный файл целевому языку, решение принимается автоматически с учётом порога установленного пользователем.

К базовому алгоритму добавляются следующие шаги:

  1. на результирующую последовательность фонем каждого фонетического распознавателя накладывается модель n-gramm того или иного «опорного» языка и считаются меры близости модели n-gramm к последовательности фонем;
  2. полный набор мер близости моделей n-gramm к последовательностям фонем является входным вектором для классификатора SVM;
  3. по результату классификации SVM-классификатором принимается решение о принадлежности к целевому языку с помощью сравнения с установленным порогом для каждого целевого языка в отдельности.

Звуковой файл произнесён на целевом языке, если оценка, данная SVM-классификатором, больше порога. При этом звуковой файл может быть отнесён к одному или нескольким языкам одновременно или не отнесён ни к одному из них.


См. также

Напишите отзыв о статье "Идентификация языка"

Литература

  • Joshua Goodman. [arxiv.org/abs/cond-mat/0202383 Extended Comment on Language Trees and Zipping]. arXiv: cond-mat/0202383 [cond-mat.stat-mech]
  • Benedetto, D., E. Caglioti and V. Loreto. [www.ccs.neu.edu/home/jaa/CSG399.05F/Topics/Papers/BenedettoCaLo.pdf Language trees and zipping]. Physical Review Letters, 88:4 (2002), [samarcanda.phys.uniroma1.it/vittorioloreto/research-topics/complexity-theory/ Complexity theory].
  • Cavnar, William B. and John M. Trenkle. «N-Gram-Based Text Categorization». Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.53.9367].
  • Cilibrasi, Rudi and Paul M.B. Vitanyi. «[homepages.cwi.nl/~paulv/papers/cluster.pdf Clustering by compression]». IEEE Transactions on Information Theory 51(4), April 2005, 1523—1545.
  • Dunning, T. (1994) «Statistical Identification of Language». Technical Report MCCS 94-273, New Mexico State University, 1994.
  • Goodman, Joshua. (2002) [research.microsoft.com/~joshuago/physicslongcomment.ps Extended comment on «Language Trees and Zipping»]. Microsoft Research, Feb 21 2002. (This is a criticism of the data compression in favor of the Naive Bayes method.)
  • Grefenstette, Gregory. (1995) Comparing two language identification schemes. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
  • Poutsma, Arjen. (2001) Applying Monte Carlo techniques to language identification. SmartHaven, Amsterdam. Presented at [hmi.ewi.utwente.nl/Conferences/clin2001.html CLIN 2001].
  • The Economist. (2002) «[www.economist.com/science/displayStory.cfm?story_id=975770 The elements of style: Analysing compressed data leads to impressive results in linguistics]»
  • Radim Řehůřek and Milan Kolkus. (2009) «[www.springerlink.com/content/e6163508154181k1/ Language Identification on the Web: Extending the Dictionary Method]» Computational Linguistics and Intelligent Text Processing

Ссылки

Библиотеки

  • [www.cavar.me/damir/LID/ LID — Language Identification in Python]: algorithm and code example of an n-gram based LID tool in Python and Scheme by Damir Cavar.
  • [www.lingua-systems.com/language-identifier/lid-library/ lid Language Identifier]: by Lingua-Systems; C/C++ library and Perl Extension ([www.lingua-systems.com/language-identifier/lid-library/identify-language.html online demo]).
  • [olivo.net/software/lc4j/ lc4j, a language categorization Java library], by Marco Olivo.
  • [msdn.microsoft.com/en-us/library/windows/desktop/dd317839(v=VS.85).aspx Microsoft Extended Linguistic Services for Windows 7]: including Microsoft Language Detection.
  • [archive.msdn.microsoft.com/WindowsAPICodePack Windows 7 API Code Pack for .NET]: including managed interfaces for the above.
  • [ntextcat.codeplex.com NTextCat — free Language Identification API for .NET (C#)]: 280+ languages available out of the box. Recognizes language and encoding (UTF-8, Windows-1252, Big5, etc.) of text. Mono compatible.
  • [mazko.github.com/jsli/ jsli] — pure JavaScript Language Identification library.
  • [cran.r-project.org/web/packages/cldr/ cldr]-R library for Chromium-Author’s Compact Language Detection code.
  • [code.google.com/p/language-detection/ language-detection]: open-source language detection library for Java (forks: [code.google.com/p/lang-guess/ lang-guess] and [github.com/optimaize/language-detector language-detector]).
  • [code.google.com/p/cld2/ cld2]: open-source language detection library for C++ by Google
  • [richtr.github.io/guessLanguage.js/ GuessLanguage]: open-source language detection library for javascript
  • [pypi.python.org/pypi/guess-language/ GuessLanguage]: open-source language detection library for python
  • [pear.php.net/package/Text_LanguageDetect/ Text LanguageDetect]: pear language detect (not maintained currently)
  • [github.com/LogIN-/datagram datagram]: open-source MIT JavaScript classification library. Automatically classify and recognize languages of input data. It can be used for any type of classification based on trained data.

Web-сервисы

  • [www.whatlanguage.net/en/api/language_identification_made_easy Language Identification Web Service]: language detection API (JSON and XML) that detects 100+ languages in texts, websites and documents
  • [detectlanguage.com Language Detection API]: simple language identification API
  • [dandelion.eu/docs/api/datatxt/li/v1/ dataTXT-LI]: language identification RESTful API, part of [dandelion.eu/products/datatxt/ dandelion dataTXT semantic API family] (named entity extraction, text similarity etc.)
  • [www.alchemyapi.com/api/ AlchemyAPI]: language identification API, available as SDK and through a RESTfull API ([www.alchemyapi.com/api/lang/ web-based demonstration]).
  • [nlp.petamem.com/eng/nlp/langident.mpl PetaMem Language Identification]: provides a choice between ngram, nvect and smart methods.
  • [open.xerox.com/Services/LanguageIdentifier Open Xerox LanguageIdentifier], available in web-based form or through API.
  • [nlp.linguasys.com/docs/services/53fccbb15cfea30d9c48f8d6/operations/53fd20b45cfea30d9c48f8d8 GlobalNLP]: web-based language identification
  • [www.langdetector.com Language Detector], Online identification from text or URL and API available for developers.
  • [whatlanguageisthis.com/ What Language Is This? Online language identifier]: web-based tool written by Henrik Falck.
  • [www.basistech.com/language-identification/ Rosette Language Identifier]: product by Basis Technology.
  • [www.sematext.com/products/language-identifier/index.html Language Identifier]: product by Sematext; exposes Java API and is available through REST/Webservice.
  • [gii.nagaokaut.ac.jp:8080/g2liWebHome/index.jsp G2LI (Global Information Infrastructure Laboratory’s Language Identifier)].
  • [aws.amazon.com/marketplace/pp/B00E6FGJZ0 Rosoka Cloud] by IMT Holdings provides language ID, entity and relationship extraction RESTfull web services available through Amazon Web Services Marketplace.
  • [semantria.com/developer/configurations/basic-mode-options Semantria] sentiment and text analytics API which features language detection
  • [loque.la Loque.la Language Detection API]: Website language identification with API, (json/XML)
  • [speech.stel.ru/ «Стэл КС» Идентификация языка]: API идентификации языка (11 языков)

Отрывок, характеризующий Идентификация языка

– Ну, поди, поди с своим уродом! – сказала мать, притворно сердито отталкивая дочь. – Это моя меньшая, – обратилась она к гостье.
Наташа, оторвав на минуту лицо от кружевной косынки матери, взглянула на нее снизу сквозь слезы смеха и опять спрятала лицо.
Гостья, принужденная любоваться семейною сценой, сочла нужным принять в ней какое нибудь участие.
– Скажите, моя милая, – сказала она, обращаясь к Наташе, – как же вам приходится эта Мими? Дочь, верно?
Наташе не понравился тон снисхождения до детского разговора, с которым гостья обратилась к ней. Она ничего не ответила и серьезно посмотрела на гостью.
Между тем всё это молодое поколение: Борис – офицер, сын княгини Анны Михайловны, Николай – студент, старший сын графа, Соня – пятнадцатилетняя племянница графа, и маленький Петруша – меньшой сын, все разместились в гостиной и, видимо, старались удержать в границах приличия оживление и веселость, которыми еще дышала каждая их черта. Видно было, что там, в задних комнатах, откуда они все так стремительно прибежали, у них были разговоры веселее, чем здесь о городских сплетнях, погоде и comtesse Apraksine. [о графине Апраксиной.] Изредка они взглядывали друг на друга и едва удерживались от смеха.
Два молодые человека, студент и офицер, друзья с детства, были одних лет и оба красивы, но не похожи друг на друга. Борис был высокий белокурый юноша с правильными тонкими чертами спокойного и красивого лица; Николай был невысокий курчавый молодой человек с открытым выражением лица. На верхней губе его уже показывались черные волосики, и во всем лице выражались стремительность и восторженность.
Николай покраснел, как только вошел в гостиную. Видно было, что он искал и не находил, что сказать; Борис, напротив, тотчас же нашелся и рассказал спокойно, шутливо, как эту Мими куклу он знал еще молодою девицей с неиспорченным еще носом, как она в пять лет на его памяти состарелась и как у ней по всему черепу треснула голова. Сказав это, он взглянул на Наташу. Наташа отвернулась от него, взглянула на младшего брата, который, зажмурившись, трясся от беззвучного смеха, и, не в силах более удерживаться, прыгнула и побежала из комнаты так скоро, как только могли нести ее быстрые ножки. Борис не рассмеялся.
– Вы, кажется, тоже хотели ехать, maman? Карета нужна? – .сказал он, с улыбкой обращаясь к матери.
– Да, поди, поди, вели приготовить, – сказала она, уливаясь.
Борис вышел тихо в двери и пошел за Наташей, толстый мальчик сердито побежал за ними, как будто досадуя на расстройство, происшедшее в его занятиях.


Из молодежи, не считая старшей дочери графини (которая была четырьмя годами старше сестры и держала себя уже, как большая) и гостьи барышни, в гостиной остались Николай и Соня племянница. Соня была тоненькая, миниатюрненькая брюнетка с мягким, отененным длинными ресницами взглядом, густой черною косой, два раза обвившею ее голову, и желтоватым оттенком кожи на лице и в особенности на обнаженных худощавых, но грациозных мускулистых руках и шее. Плавностью движений, мягкостью и гибкостью маленьких членов и несколько хитрою и сдержанною манерой она напоминала красивого, но еще не сформировавшегося котенка, который будет прелестною кошечкой. Она, видимо, считала приличным выказывать улыбкой участие к общему разговору; но против воли ее глаза из под длинных густых ресниц смотрели на уезжавшего в армию cousin [двоюродного брата] с таким девическим страстным обожанием, что улыбка ее не могла ни на мгновение обмануть никого, и видно было, что кошечка присела только для того, чтоб еще энергичнее прыгнуть и заиграть с своим соusin, как скоро только они так же, как Борис с Наташей, выберутся из этой гостиной.
– Да, ma chere, – сказал старый граф, обращаясь к гостье и указывая на своего Николая. – Вот его друг Борис произведен в офицеры, и он из дружбы не хочет отставать от него; бросает и университет и меня старика: идет в военную службу, ma chere. А уж ему место в архиве было готово, и всё. Вот дружба то? – сказал граф вопросительно.
– Да ведь война, говорят, объявлена, – сказала гостья.
– Давно говорят, – сказал граф. – Опять поговорят, поговорят, да так и оставят. Ma chere, вот дружба то! – повторил он. – Он идет в гусары.
Гостья, не зная, что сказать, покачала головой.
– Совсем не из дружбы, – отвечал Николай, вспыхнув и отговариваясь как будто от постыдного на него наклепа. – Совсем не дружба, а просто чувствую призвание к военной службе.
Он оглянулся на кузину и на гостью барышню: обе смотрели на него с улыбкой одобрения.
– Нынче обедает у нас Шуберт, полковник Павлоградского гусарского полка. Он был в отпуску здесь и берет его с собой. Что делать? – сказал граф, пожимая плечами и говоря шуточно о деле, которое, видимо, стоило ему много горя.
– Я уж вам говорил, папенька, – сказал сын, – что ежели вам не хочется меня отпустить, я останусь. Но я знаю, что я никуда не гожусь, кроме как в военную службу; я не дипломат, не чиновник, не умею скрывать того, что чувствую, – говорил он, всё поглядывая с кокетством красивой молодости на Соню и гостью барышню.
Кошечка, впиваясь в него глазами, казалась каждую секунду готовою заиграть и выказать всю свою кошачью натуру.
– Ну, ну, хорошо! – сказал старый граф, – всё горячится. Всё Бонапарте всем голову вскружил; все думают, как это он из поручиков попал в императоры. Что ж, дай Бог, – прибавил он, не замечая насмешливой улыбки гостьи.
Большие заговорили о Бонапарте. Жюли, дочь Карагиной, обратилась к молодому Ростову:
– Как жаль, что вас не было в четверг у Архаровых. Мне скучно было без вас, – сказала она, нежно улыбаясь ему.
Польщенный молодой человек с кокетливой улыбкой молодости ближе пересел к ней и вступил с улыбающейся Жюли в отдельный разговор, совсем не замечая того, что эта его невольная улыбка ножом ревности резала сердце красневшей и притворно улыбавшейся Сони. – В середине разговора он оглянулся на нее. Соня страстно озлобленно взглянула на него и, едва удерживая на глазах слезы, а на губах притворную улыбку, встала и вышла из комнаты. Всё оживление Николая исчезло. Он выждал первый перерыв разговора и с расстроенным лицом вышел из комнаты отыскивать Соню.