УДОСКОНАЛЕНИЙ МЕТОД ВИЯВЛЕННЯ КЛЮЧОВИХ СЛІВ У WEB-ТЕКСТІ

  • Тамара Олександрівна Савчук Вінницький національний технічний університет
  • Юрій Володимирович Горобець Вінницький національний технічний університет
Ключові слова: Natural Language Processing, Text Mining, Keywords Extraction, виявлення термінів, виявлення ключових слів, обробка природної мови, комп'ютерна лінгвістика

Анотація

У роботі запропоновано удосконалення методу виявлення ключових слів і словосполучень у web-тексті. Розглянуто такі основні етапи формування множини ключових слів та словосполучень з метою  знайти шляхи підвищення швидкодії індексації та реферування web-текстів, як токенізація вихідного тексту, виключення стоп-слів, відсікання основ і закінчень із тексту, формування ключових слів та словосполучень з вихідного тексту. Запропоноване удосконалення базується на використанні словника предметної області, складеного експертом. Словник формується з урахуванням частоти повторень ключових слів та словосполучень у web-тексті, що покращить їх релевантність. Було виконано порівняння якості виявлених ключових слів та словосполучень в україномовних та англомовних web-текстах системами «Експертні КС», «OpenCalais», «Extractor», а також системою, що базується на запропонованому методі з використанням словника, за такими метриками як повнота, точність та F-міра. Аналіз показав, що запропонований удосконалений метод виявлення ключових слів та словосполучень в україномовних і англомовних web-текстах, надасть можливість виявляти релевантні слова та словосполучення з підвищенням їх F-міри на 9.5%, а повноти та точності - на 15% .

Біографії авторів

Тамара Олександрівна Савчук, Вінницький національний технічний університет

Ph D, професор кафедри комп’ютерних наук Вінницького національ-ного технічного університету

Юрій Володимирович Горобець, Вінницький національний технічний університет

магістрант кафедри комп’ютерних наук

Посилання

Bracewell, D. B., Ren F. Multilingual Single Document Keyword Extraction for Information Retrieval. Proceedings of NLP-KE, 2005, pp. 517-522.

Большакова Є. І., Клишінскій Е. С., Ланде Д. В., Носков А. А., Пєскова О. В., Ягунова Є. В. Авто-матична обробка текстів на природній мові і комп'ютерна лінгвістика: навч. посібник. М .: МІЕМ, 2011. 272 с.

Hasan K. Automatic Keyphrase Extraction: A Survey of the State of the Art / K. Hasan, V. Ng // Pro-ceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. – 2011. – Vol 1. – pp. 1262-1273.

Dictionary Based Annotation at Scale with Spark, SolrTextTagger and OpenNLP [Електронний ре-сурс] / Sujit Pal // Spark Summit 2015. Europe. - URL: https://spark-summit.org/eu-2015/events/dictionary-based-annotation-at-scale-with-spark-solrtexttagger-and-opennlp.

Плющ М.Я Граматика української мови: У 2-ч. Ч. 1. Морфеміка. Словотвір. Морфологія: Підруч-ник. — К.: Вища шк., 2005. — 286 с

Dostal M. Automatic Keyphrase Extraction Based on NLP and Statistical Methods. Proceedings of the Dateso 2011: Annual International Workshop on Databases, Texts, Specifications and Objects. Pisek, Czech Republic, 2011, pp. 140-145.

The Porter Stemming Algorithm – Porter’s homepage. [Електронний ресурс]. – Режим доступу: http://tartarus.org/~martin/ PorterStemmer/. – Назва з титул. екрану

Агєєв, М. Додаток А. Офіційні метрики РОМІП 2010 / М. Агєєв, І. Кураленок, І. некрестьянам // Праці РОМІП'2010. СПб .: Изд-во НУ ЦСМ. -2010. - c. 172-187.

Extractor [Електронний ресурс] – Режим доступу до ресурсу:https://extractor.com/.

OpenCalasis [Електронний ресурс] – Режим доступу до ресурсу: https://opencalasis.com/

Експертні КС [Електронний ресурс] – Режим доступу до ресурсу: https://expertcs;ua/.

Опубліковано
2018-12-21
Як цитувати
[1]
Т. Савчук і Ю. Горобець, УДОСКОНАЛЕНИЙ МЕТОД ВИЯВЛЕННЯ КЛЮЧОВИХ СЛІВ У WEB-ТЕКСТІ, ІТКІ, vol 43, № 3, с. 43-47, Груд 2018.