УДОСКОНАЛЕНИЙ МЕТОД ВИЯВЛЕННЯ КЛЮЧОВИХ СЛІВ У WEB-ТЕКСТІ
DOI:
https://doi.org/10.31649/1999-9941-2018-43-3-43-47Ключові слова:
Natural Language Processing, Text Mining, Keywords Extraction, виявлення термінів, виявлення ключових слів, обробка природної мови, комп'ютерна лінгвістикаАнотація
У роботі запропоновано удосконалення методу виявлення ключових слів і словосполучень у web-тексті. Розглянуто такі основні етапи формування множини ключових слів та словосполучень з метою знайти шляхи підвищення швидкодії індексації та реферування web-текстів, як токенізація вихідного тексту, виключення стоп-слів, відсікання основ і закінчень із тексту, формування ключових слів та словосполучень з вихідного тексту. Запропоноване удосконалення базується на використанні словника предметної області, складеного експертом. Словник формується з урахуванням частоти повторень ключових слів та словосполучень у web-тексті, що покращить їх релевантність. Було виконано порівняння якості виявлених ключових слів та словосполучень в україномовних та англомовних web-текстах системами «Експертні КС», «OpenCalais», «Extractor», а також системою, що базується на запропонованому методі з використанням словника, за такими метриками як повнота, точність та F-міра. Аналіз показав, що запропонований удосконалений метод виявлення ключових слів та словосполучень в україномовних і англомовних web-текстах, надасть можливість виявляти релевантні слова та словосполучення з підвищенням їх F-міри на 9.5%, а повноти та точності - на 15% .
Посилання
Bracewell, D. B., Ren F. Multilingual Single Document Keyword Extraction for Information Retrieval. Proceedings of NLP-KE, 2005, pp. 517-522.
Большакова Є. І., Клишінскій Е. С., Ланде Д. В., Носков А. А., Пєскова О. В., Ягунова Є. В. Авто-матична обробка текстів на природній мові і комп'ютерна лінгвістика: навч. посібник. М .: МІЕМ, 2011. 272 с.
Hasan K. Automatic Keyphrase Extraction: A Survey of the State of the Art / K. Hasan, V. Ng // Pro-ceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. – 2011. – Vol 1. – pp. 1262-1273.
Dictionary Based Annotation at Scale with Spark, SolrTextTagger and OpenNLP [Електронний ре-сурс] / Sujit Pal // Spark Summit 2015. Europe. - URL: https://spark-summit.org/eu-2015/events/dictionary-based-annotation-at-scale-with-spark-solrtexttagger-and-opennlp.
Плющ М.Я Граматика української мови: У 2-ч. Ч. 1. Морфеміка. Словотвір. Морфологія: Підруч-ник. — К.: Вища шк., 2005. — 286 с
Dostal M. Automatic Keyphrase Extraction Based on NLP and Statistical Methods. Proceedings of the Dateso 2011: Annual International Workshop on Databases, Texts, Specifications and Objects. Pisek, Czech Republic, 2011, pp. 140-145.
The Porter Stemming Algorithm – Porter’s homepage. [Електронний ресурс]. – Режим доступу: http://tartarus.org/~martin/ PorterStemmer/. – Назва з титул. екрану
Агєєв, М. Додаток А. Офіційні метрики РОМІП 2010 / М. Агєєв, І. Кураленок, І. некрестьянам // Праці РОМІП'2010. СПб .: Изд-во НУ ЦСМ. -2010. - c. 172-187.
Extractor [Електронний ресурс] – Режим доступу до ресурсу:https://extractor.com/.
OpenCalasis [Електронний ресурс] – Режим доступу до ресурсу: https://opencalasis.com/
Експертні КС [Електронний ресурс] – Режим доступу до ресурсу: https://expertcs;ua/.
##submission.downloads##
-
PDF
Завантажень: 391