Cистемы обработки естественного языка для извлечения данных и картографирования на основе неструктурированных блоков текста

https://doi.org/10.35595/2414-9179-2020-1-26-375-384

Посмотреть или загрузить статью (Rus)

Об авторах

А.А. Колесников

Сибирский государственный университет геосистем и технологий (СГУГиТ),
ул. Плахотного, д. 10, 630108, Новосибирск, Россия;
E-mail: alexeykw@mail.ru

П.М. Кикин

Санкт-Петербургский политехнический университет Петра Великого (СПбПУ),
ул. Политехническая, д. 29, 195251, Санкт-Петербург, Россия;
E-mail: it-technologies@yandex.ru

Дж. Нико

Институт прикладной математики «Мауро Пиконе» (IAC), Национальный исследовательский совет Италии (CNR),
ул. Амендола, д. 122/O, 75100, Бари, Италия;
E-mail: g.nico@ba.iac.cnr.it

Е.В. Комиссарова

Сибирский государственный университет геосистем и технологий (СГУГиТ),
ул. Плахотного, д. 10, 630108, Новосибирск, Россия;
E-mail: komissarova_e@mail.ru

Аннотация

Современные технологии обработки естественного языка позволяют работать с текстами, не будучи специалистом в лингвистике. Использование популярных платформ обработки данных для разработки и использования лингвистических моделей предоставляет возможность внедрения их в популярные геоинформационные системы. Данная возможность позволяет значительно расширить функциональность и улучшить точность стандартных функций геокодирования. В статье приведено сравнение наиболее популярных методик и программного обеспечения, реализованного на их основе, на примере решения задачи извлечения географических названий из обычного текста. Такой вариант является расширенной версией операции геокодирования, поскольку в результате также получаются координаты интересующих точечных объектов, но при этом нет необходимости заранее из текста отдельно извлекать адреса или географические названия объектов. В компьютерной лингвистике эта задача решается методами извлечения именованных сущностей (англ. named entity recognition). Среди наиболее современных подходов к конечной реализации авторами статьи были выбраны алгоритмы, основанные на правилах, модели максимальной энтропии и свёрточные нейронные сети. Выбранные алгоритмы и методы оценивались не только с точки зрения точности поиска географических объектов в тексте, но и с позиции простоты доработки базовых правил или математических моделей с помощью собственных корпусов текста. В качестве исходных данных для апробации перечисленных методик и программных решений были выбраны отчёты о технологических нарушениях, авариях и инцидентах на объектах теплоэнергетического комплекса министерства энергетики Российской Федерации. Также приведено исследование по способу улучшения качества распознавания именованных сущностей на основе дообучения модели нейронной сети с использованием специализированного корпуса текстов.

Ключ. слова

географическое название, извлечение именованных сущностей, SpaCy, DeepPavlov, обработка естественного языка.

Список литературы

  1. Батуев А.Р., Батуев Д.А., Бешенцев А.Н., Богданов В.Н., Дашпилов Ц.Б., Корытный Л.М., Тикунов В.С., Фёдоров Р.К. Атласная информационная система для обеспечения социально-экономического развития Байкальского региона. ИнтерКарто. ИнтерГИС. Геоинформационное обеспечение устойчивого развития территорий: Материалы Междунар. конф. М.: Издательство Московского университета, 2019. Т. 25. Ч. 1. С. 66–80. DOI: 10.35595/2414-9179-2019-1-25-66-80.
  2. Бешенцев А.Н., Гармаев Е.Ж., Потаев В.С. Геоинформационный мониторинг территориальных социально-экономических систем. Вестник Бурятского государственного университета. Экономика и менеджмент. Улан-Удэ: Издательство Бурятского государственного университета имени Доржи Банзарова, 2019. № 3. С. 3–9.
  3. Карпачевский А.М., Филиппова О.Г. Возможности картографирования аварийности энергосистем на основе открытых данных. ИнтерКарто. ИнтерГИС. Материалы Международной конференции. Петрозаводск: КарНЦ РАН, 2018. Т. 24. Ч. 1. С. 202–211. DOI: 10.24057/2414-9179-2018-1-24-202-211.
  4. Карпик А.П., Лисицкий Д.В., Байков К.С., Осипов А.Г., Савиных В.Н. Геопространственный дискурс опережающего и прорывного мышления. Вестник СГУГиТ (Сибирского государственного университета геосистем и технологий). Новосибирск: Издательство Сибирского государственного университета геосистем и технологий, 2017. Т. 22. № 4. С. 53–67.
  5. Крылов С.А., Загребин Г.И., Дворников А.В., Логинов Д.С., Фокин И.Е. Теоретические основы автоматизации процессов атласного картографирования. Известия высших учебных заведений. Геодезия и аэрофотосъёмка. М.: Издательство Московского государственного университета геодезии и картографии, 2018. Т. 62. № 3. С. 283–293.
  6. Писарев В.С., Ахмедов Б.Н. Автоматизированное обновление цифровых моделей геопространства. Интерэкспо Гео-Сибирь. Новосибирск: Издательство Сибирского государственного университета геосистем и технологий, 2017. Т. 1. № 1. С. 46–50.
  7. Akbik A., Blythe D., Vollgraf R. Contextual string embeddings for sequence labeling. Proceedings of the 27th International conference on computational linguistics. Santa Fe: Association for Computational Linguistics, 2018. P. 1638–1649.
  8. Aycock J., Horspool R.N. Practical earley parsing. The Computer Journal, 2002. V. 45 (6). P. 620–630. CiteSeerX 10.1.1.12.4254. DOI: 10.1093/comjnl/45.6.620.
  9. Berant J., Chou A., Frostig R., Liang P. Semantic parsing on freebase from question-answer pairs. Proceedings of the 2013 conference on empirical methods in natural language processing (EMNLP). Grand Hyatt Seattle, Seattle, Washington: Association for Computational Linguistics, 2013. P. 1533–1544.
  10. Bird S., Loper E., Klein E. Natural language processing with Python. Sebastopol, CA, USA: O’Reilly Media Inc., 2009. 512 p.
  11. Bodenhamer D.J., Corrigan J., Harris T.M. Deep maps and spatial narratives. Bloomington: Indiana University Press, 2015. 254 p.
  12. Cooper D., Donaldson C., Murrieta-Flores P. Literary Mapping in the digital age. Digital research in the arts and humanities. Abingdon: Routledge, 2016. 308 p.
  13. Cura R., Dumenieu B., Abadie N., Costes B., Perret J., Gribaudi M. Historical collaborative geocoding. ISPRS International Journal of Geo-information. Basel, Switzerland: MDPI AG, 2018. V. 7. P. 262. DOI: 10.3390/ijgi7070262.
  14. Ding J., Wang Y., Hu W., Shi L., Qu Y. Answering multiple-choice questions in geographical gaokao with a concept graph. The semantic web — 15th International conference (ESWC 2018). Heraklion, Crete, Greece. Cham: Springer, 2018. P. 161–176.
  15. Fujita A., Kameda A., Kawazoe A., Miyao Y. Overview of Todai robot project and evaluation framework of its NLP-based problem solving. Proceedings of the 9 International conference on language resources and evaluation. Reykjavik: European Language Resources Association (ELRA), 2014. P. 2590–2597.
  16. Gong Y., Luo H., Zhang J. Natural language inference over interaction space. 6th international conference on learning representations (ICLR). Vancouver, BC, Canada, 2018.
  17. Honnibal M., Johnson M. An improved non-monotonic transition system for dependency parsing. Proceedings of the 2015 Conference on empirical methods in natural language processing. Lisbon, Portugal: Association for Computational Linguistics, 2015. P. 1373–1378.
  18. Lally A., Bagchi S., Barborak M., Buchanan D.W., Chu-Carroll J., Ferrucci D.A., Glass M.R., Kalyanpur A., Mueller E.T., Murdock J.W., Patwardhan S., Prager J.M. WatsonPaths: Scenario-based question answering and inference over unstructured information. AI magazine. Menlo Park: Association for the advancement of artificial intelligence, 2017. V. 38 (2). P. 59–76.
  19. Le T.A., Arkhipov M.Y., Burtsev M.S. Application of a hybrid Bi-LSTM-CRF model to the task of Russian named entity recognition. Artificial Intelligence and Natural Language. AINL 2017. Communications in Computer and Information Science. V. 789. Cham: Springer, 2018. P. 91–103. DOI: https://doi.org/10.1007/978-3-319-71746-3_8.
  20. Mozharova V., Loukachevitch N. Two-stage approach in Russian named entity recognition. International FRUCT conference on intelligence, social media and web (ISMW FRUCT). St. Petersburg: IEEE, 2016. DOI: 10.1109/FRUCT.2016.7584769.
  21. Smith R. An overview of the Tesseract OCR engine. Google Inc. Proceeding 9th IEEE International conference on document analysis and recognition (ICDAR). Curitiba, Parana, Brazil: IEEE, 2007. P. 629–633.

Для цитирования: Колесников А.А., Кикин П.М., Нико Д., Комиссарова Е.В. Cистемы обработки естественного языка для извлечения данных и картографирования на основе неструктурированных блоков текста ИнтерКарто. ИнтерГИС. Геоинформационное обеспечение устойчивого развития территорий: Материалы Междунар. конф. M: Издательство Московского университета, 2020. Т. 26. Ч. 1. С. 375–384. DOI: 10.35595/2414-9179-2020-1-26-375-384

For citation: Kolesnikov A.A., Kikin P.M., Niko G., Komissarova E.V. Natural language processing systems for data extraction and mapping on the basis of unstructured text blocks InterCarto. InterGIS. GI support of sustainable development of territories: Proceedings of the International conference. Moscow: Moscow University Press, 2020. V. 26. Part 1. P. 375–384. DOI: 10.35595/2414-9179-2020-1-26-375-384 (In Russian)