Извлечение информации

Поделись знанием:
Перейти к: навигация, поиск

Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных.[1] Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.[2]

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки.[3] При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:

  • MUC-1 (1987), MUC-2 (1989): Военно-морские операции.
  • MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.
  • MUC-5 (1993): Венчурные операции в области микроэлектроники.
  • MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.
  • MUC-7 (1998): Отчёты о запусках спутников.

Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.

Типичные подзадачи извлечения информации:

  • Распознавание именованных элементов (сущностей), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.
  • Разрешение анафоры и кореференций : поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.
  • Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций).
  • Автореферирование: выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.

Напишите отзыв о статье "Извлечение информации"



Примечания

  1. Под обработкой данных может пониматься, помимо прочего, и просто накопление их в базе данных.
  2. Этой задачей занимается интеллектуальный анализ данных (data mining).
  3. Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.

См. также

Ссылки

  • [habrahabr.ru/post/56461/ Машинная обработка естественных языков: Apache UIMA]
  • [www.dialog-21.ru/Archive/2005/Gershenzon%20Nozhov%20Pankratov/Gershenzon_Nozhov_Pankratov.htm Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности.]
  • [www.inftech.webservis.ru/it/conference/scm/1999/session10/magid.html Извлечение знаний из текстов на естественном языке для решения задач на сетевых моделях.]
  • [www.unilib.neva.ru/rus/olsc/publications/z39_04.html Протокол Z39.50: открытый доступ к библиографической информации.] (недоступная ссылка с 13-05-2013 (4000 дней) — история)
  • [citforum.univ.kiev.ua/internet/xml/platform/ Расширяемая платформа добычи текстов.]
  • [bigc.spb.ru/publications/bigspb/km/active_metod_izvl_knowlg_data.php Активные индивидуальные методы извлечения знаний и данных]
  • [www.ixlab.ru/pub/docs/SIMAKOV_AUTOREF.pdf Автореферат диссертации Симакова К. В. на тему «Модели и методы извлечения знаний из текстов на естественном языке».]
  • [www.inteltec.ru/publish/articles/textan/simakov_RCDL2006.shtml Модель извлечения фактов из естественно-языковых текстов и метод её обучения.]
Иноязычные
  • extraccioninformacion.iespana.es Extracción informacion (Spanish site)
  • www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC
  • projects.ldc.upenn.edu/ace/ ACE (LDC)
  • www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
  • lcl2.di.uniroma1.it — TermExtractor
  • [labs.translated.net/terminology-extraction/ TermFinder], on-line terminology extractor for EN, FR & IT — web application
  • [videolectures.net/Top/Computer_Science/Information_Extraction/ Video tutorials, talks, lectures] Videolectures.net
  • [www.devx.com/semantic/Article/40790/1954 Automate Metadata Extraction for Corporate Search and Mashups (Apache UIMA)]

Отрывок, характеризующий Извлечение информации

– И это последнее мое слово, знай, последнее… – кончил князь таким тоном, которым показывал, что ничто не заставит его изменить свое решение.
Князь Андрей ясно видел, что старик надеялся, что чувство его или его будущей невесты не выдержит испытания года, или что он сам, старый князь, умрет к этому времени, и решил исполнить волю отца: сделать предложение и отложить свадьбу на год.
Через три недели после своего последнего вечера у Ростовых, князь Андрей вернулся в Петербург.

На другой день после своего объяснения с матерью, Наташа ждала целый день Болконского, но он не приехал. На другой, на третий день было то же самое. Пьер также не приезжал, и Наташа, не зная того, что князь Андрей уехал к отцу, не могла себе объяснить его отсутствия.
Так прошли три недели. Наташа никуда не хотела выезжать и как тень, праздная и унылая, ходила по комнатам, вечером тайно от всех плакала и не являлась по вечерам к матери. Она беспрестанно краснела и раздражалась. Ей казалось, что все знают о ее разочаровании, смеются и жалеют о ней. При всей силе внутреннего горя, это тщеславное горе усиливало ее несчастие.
Однажды она пришла к графине, хотела что то сказать ей, и вдруг заплакала. Слезы ее были слезы обиженного ребенка, который сам не знает, за что он наказан.
Графиня стала успокоивать Наташу. Наташа, вслушивавшаяся сначала в слова матери, вдруг прервала ее:
– Перестаньте, мама, я и не думаю, и не хочу думать! Так, поездил и перестал, и перестал…
Голос ее задрожал, она чуть не заплакала, но оправилась и спокойно продолжала: – И совсем я не хочу выходить замуж. И я его боюсь; я теперь совсем, совсем, успокоилась…
На другой день после этого разговора Наташа надела то старое платье, которое было ей особенно известно за доставляемую им по утрам веселость, и с утра начала тот свой прежний образ жизни, от которого она отстала после бала. Она, напившись чаю, пошла в залу, которую она особенно любила за сильный резонанс, и начала петь свои солфеджи (упражнения пения). Окончив первый урок, она остановилась на середине залы и повторила одну музыкальную фразу, особенно понравившуюся ей. Она прислушалась радостно к той (как будто неожиданной для нее) прелести, с которой эти звуки переливаясь наполнили всю пустоту залы и медленно замерли, и ей вдруг стало весело. «Что об этом думать много и так хорошо», сказала она себе и стала взад и вперед ходить по зале, ступая не простыми шагами по звонкому паркету, но на всяком шагу переступая с каблучка (на ней были новые, любимые башмаки) на носок, и так же радостно, как и к звукам своего голоса прислушиваясь к этому мерному топоту каблучка и поскрипыванью носка. Проходя мимо зеркала, она заглянула в него. – «Вот она я!» как будто говорило выражение ее лица при виде себя. – «Ну, и хорошо. И никого мне не нужно».
Лакей хотел войти, чтобы убрать что то в зале, но она не пустила его, опять затворив за ним дверь, и продолжала свою прогулку. Она возвратилась в это утро опять к своему любимому состоянию любви к себе и восхищения перед собою. – «Что за прелесть эта Наташа!» сказала она опять про себя словами какого то третьего, собирательного, мужского лица. – «Хороша, голос, молода, и никому она не мешает, оставьте только ее в покое». Но сколько бы ни оставляли ее в покое, она уже не могла быть покойна и тотчас же почувствовала это.
В передней отворилась дверь подъезда, кто то спросил: дома ли? и послышались чьи то шаги. Наташа смотрелась в зеркало, но она не видала себя. Она слушала звуки в передней. Когда она увидала себя, лицо ее было бледно. Это был он. Она это верно знала, хотя чуть слышала звук его голоса из затворенных дверей.
Наташа, бледная и испуганная, вбежала в гостиную.
– Мама, Болконский приехал! – сказала она. – Мама, это ужасно, это несносно! – Я не хочу… мучиться! Что же мне делать?…
Еще графиня не успела ответить ей, как князь Андрей с тревожным и серьезным лицом вошел в гостиную. Как только он увидал Наташу, лицо его просияло. Он поцеловал руку графини и Наташи и сел подле дивана.
– Давно уже мы не имели удовольствия… – начала было графиня, но князь Андрей перебил ее, отвечая на ее вопрос и очевидно торопясь сказать то, что ему было нужно.
– Я не был у вас всё это время, потому что был у отца: мне нужно было переговорить с ним о весьма важном деле. Я вчера ночью только вернулся, – сказал он, взглянув на Наташу. – Мне нужно переговорить с вами, графиня, – прибавил он после минутного молчания.
Графиня, тяжело вздохнув, опустила глаза.
– Я к вашим услугам, – проговорила она.
Наташа знала, что ей надо уйти, но она не могла этого сделать: что то сжимало ей горло, и она неучтиво, прямо, открытыми глазами смотрела на князя Андрея.
«Сейчас? Сию минуту!… Нет, это не может быть!» думала она.
Он опять взглянул на нее, и этот взгляд убедил ее в том, что она не ошиблась. – Да, сейчас, сию минуту решалась ее судьба.
– Поди, Наташа, я позову тебя, – сказала графиня шопотом.
Наташа испуганными, умоляющими глазами взглянула на князя Андрея и на мать, и вышла.
– Я приехал, графиня, просить руки вашей дочери, – сказал князь Андрей. Лицо графини вспыхнуло, но она ничего не сказала.
– Ваше предложение… – степенно начала графиня. – Он молчал, глядя ей в глаза. – Ваше предложение… (она сконфузилась) нам приятно, и… я принимаю ваше предложение, я рада. И муж мой… я надеюсь… но от нее самой будет зависеть…