АРХІТЕКТУРА СИСТЕМИ ДЕДУБЛІКАЦІЇ ТА РОЗПОДІЛУ ДАНИХ У ХМАРНИХ СХОВИЩАХ ПІД ЧАС РЕЗЕРВНОГО КОПІЮВАННЯ

Автор(и)

  • Богдан Павлович Русин Фізико-математичний інститут імені Г.В. Карпенка НАН України
  • Любомир Володимирович Погрелюк Фізико-математичний інститут імені Г.В. Карпенка НАН України
  • Вікторія Анатоліївна Висоцька НУ «Львівська політехніка», кафедра «Інформаційні системи та мережі»
  • Михайло Михайлович Осипов НУ «Львівська політехніка», кафедра «Інформаційні системи та мережі»
  • Ярема Юрійович Варецький Фізико-математичний інститут імені Г.В. Карпенка НАН України
  • Олег Вірославович Капшій Фізико-математичний інститут імені Г.В. Карпенка НАН України

DOI:

https://doi.org/10.31649/1999-9941-2019-45-2-40-63

Ключові слова:

дедублікація даних, розподіл даних, хмарне середовище, cloud computing, алгоритм Рабіна, хешування даних, гібрідна дедублікація

Анотація

Розроблена та детально описана концептуальна модель системи. Розроблена інтелектуальна система дедуплікації та розподілу даних у хмарному сховищі, описано опис програмного забезпечення, розглядаються етапи роботи користувача. Було проведено тестування роботи спроектованої системи. Описано кілька контрольних зразків, проаналізовано результати. Метою системи є дедублікації та розподілу даних у хмарних сховищах таким чином, щоб в кінцевому результаті резервного копіювання даних усунути повторюючі частини даних використовуючи потужності розподіленого обчислення та хмарних сховищ. Підібравши правильний підхід до розподілення завдань і даних під час дедублікації, можливо використати весь потенціал хмарних розподілених систем для збільшення швидкості резервного копіювання та його пропускної здатності. Проаналізовано (наведено недоліки та переваги використання різних підходів) та обрані ефективні методи вирішення задач: гібридну дедублікацію на рівні блоків, розбиття потоку даних на основі цифрового відбитку Рабіна, розподіл даних на основі хеш значень блоків дедублікації та використання розподіленого індексу. Дедублікація на рівні блоків передбачає два типи розбиття потоків даних на блоки, це розбиття з фіксованою довжиною та змінною на основі алгоритму. Розбиття з фіксованої довжиною досить тривіальне і швидке відносно складності алгоритму, проте недоліком є зміщення даних на початку потоку, оскільки блоки які будуть слідувати після змін будуть вважатися як нові. Проте у випадку з розбиттям блоків зі змінною довжиною, точку власне розбиття визначає алгоритм. Даний алгоритм повинен працювати з безкінечними потоками даних використовуючи кільцеву хеш функцію. Алгоритм поглинає кожен вхідний байт даних з потоку, і як тільки значення кільцевої хеш функції відповідає заданому раніше шаблону, це і слугує точкою розбиття потоку на блоки. Таким чином, при змінені або зміщені даних на пару байтів, новим буде вважатись лише той блок даних який охоплює дані. Проте для того щоб відслідковувати зміни і правильно виставляти точки розбиття необхідно перевіряти вхідні дані на певний заданий цифровий шаблон – хеш значення. Поширеною практикою є обчислення хеш значення кожен раз на отримання вхідного байту в потоці даних. Точкою розбиття стане той момент, коли отримане хеш значення відповідатиме заданому шаблону. Щоб робити такі обчислення ефективно, було придумано алгоритм кільцевого хешу. Один із найпоширеніших алгоритмів кільцевого хешу є цифровий відбиток Рабіна. В ході аналізу засобів вирішення задач було обрано мову програмування Rust для написання клієнтської частини, мову програмування Scala для серверної частини, інструментарій Akka для менеджменту розподілених обчислень та Amazon S3 в якості хмарного сховища.

Біографії авторів

Богдан Павлович Русин, Фізико-математичний інститут імені Г.В. Карпенка НАН України

завідувач відділу методів та систет дистанційного зондування Фізико-механічного інституту НАН України

Любомир Володимирович Погрелюк, Фізико-математичний інститут імені Г.В. Карпенка НАН України

аспірант відділу методів та систем дистанційного зондування Фізико-механічного інституту НАН України

Вікторія Анатоліївна Висоцька, НУ «Львівська політехніка», кафедра «Інформаційні системи та мережі»

к.т.н., доцент, доцент кафедри «Інформаційні системи та мережі» Національного університету «Львівська політехніка»,

Михайло Михайлович Осипов, НУ «Львівська політехніка», кафедра «Інформаційні системи та мережі»

магістр кафедри «Інформаційні системи та мережі» Національного університету «Львівська політехніка»

Ярема Юрійович Варецький, Фізико-математичний інститут імені Г.В. Карпенка НАН України

к.т.н.,ст.н.с.  відділу методів та систем дистанційного зондування Фізико -механічного інституту НАН України

Олег Вірославович Капшій, Фізико-математичний інститут імені Г.В. Карпенка НАН України

к.т.н., н.с. відділу методів та систем дистанційного зондування Фізико -механічного інституту НАН України

Посилання

Understanding Data Deduplication [Електронний ресурс]. – Режим доступу: https://www.druva.com/understanding-data-deduplication

Explaining deduplication rates and single-instance storage to clients [Електронний ресурс]. – Режим доступу: https://searchitchannel.techtarget.com/tip/Explaining-deduplication-rates-and-single-instance-storage-to-clientshttp://zakon.rada.gov.ua/laws/show/2469-19

Inline vs. post-processing deduplication appliances [Електронний ресурс]. – Режим доступу: https://searchdatabackup.techtarget.com/tip/Inline-vs-post-processing-deduplication-appliances

Introduction to Data Deduplication [Електронний ресурс]. – Режим доступу: https://www.petri.com/data-deduplication-introduction

Rabin M. O. Fingerprinting by random polynomials / M. O. Rabin // Center for Research in Computing Technology Harvard University Report – Harvard, 1981.

Tanenbaum A.S. Distributed Systems / A.S. Tanenbaum, M. van Steen. – Upper Saddle River : Pearson Prentice Hall, 2017. – 15 c.

Amdahl G. The validity of the single processor approach to achieving large-scale computing capabilities. / G. Amdahl. – Atlantic City : Proceedings of AFIPS, 1967.

Using StorReduce for cloud-based data deduplication [Електронний ресурс]. – Режим доступу: https://cloud.google.com/solutions/partners/storreduce-cloud-deduplication

OpenDedup Overview [Електронний ресурс]. – Режим доступу: https://opendedup.org/odd/overview/

10. Rumbaugh J. The unified modeling language reference manual / J. Rumbaugh, I. Jacobson, G. Booch // Addison Wesley Longman Inc. – 1999.

Rolling hash, Rabin Karp, palindromes, rsync and others [Електронний ресурс]. – Режим доступу: https://www.infoarena.ro/blog/rolling-hash

Vysotska V. Methods based on ontologies for information resources processing / V. Vysotska, L. Chyrun, V. Lytvyn. - LAP Lambert Academic Publishing, 2016.

Vysotska V. Information technologies of gamification for training and recruitment / V. Vysotska, N. Shakhovska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.

Висоцька, В.А. Особливості проектування та впровадження систем електронної комерції. / В.А. Висоцька // Комп’ютерні науки та інформаційні технології, Вісник Національного університету “Львівська політехніка”. – Львів 2008. – № 629. – С. 34-45.

Vysotska V. Web resources processing based on ontologies / V. Vysotska, V. Lytvyn. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.

Vysotska V. Tekhnolohiyi elektronnoyi komertsiyi ta Internet-marketynhu / V. Vysotska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.

Vysotska V. Internet systems design and development based on Web Mining and NLP / V. Vysotska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.

Vysotska V. Computer linguistics for online marketing in information technology: Monograph / V. Vysotska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.

Lytvyn V. A Method of Construction of Automated Basic Ontology / V. Lytvyn, V. Vysotska, W. Wojcik, D. Dosyn // 1st International Conference Computational Linguistics and Intelligent Systems, COLINS’2017. – 21 April 2017, Kharkiv. – P. 75-83.

Lytvyn V. Intelligent System Structure for Web Resources Processing and Analysis / V. Lytvyn, V. Vysotska, L. Chyrun, A. Smolarz, O. Naum // 1st International Conference Computational Linguistics and Intelligent Systems, COLINS’2017. – 21 April 2017, Kharkiv. – P. 56-74.

Berko A. Features of information resources processing in electronic content commerce / Andriy Berko, Victoria Vysotska, Lyubomyr Chyrun // Applied Computer Science. ACS journal. – Volume 10, Number 2. – Poland, 2014. – ISSN 2353-6977 (Online), ISSN 1895-3735 (Print). – PP. 5-19.

Берко, А.Ю. Методи та засоби оцінювання ризиків безпеки інформації в системах електронної комерції / А.Ю. Берко, В.А. Висоцька, І.В. Рішняк // Інформаційні системи та мережі. Вісник Національного університету “Львівська політехніка”. – Львів 2008. – № 610. – С.20-33.

Vysotska Victoria. Web Content Processing Method for Electronic Business Systems / Victoria Vysotska, Lyubomyr Chyrun // International Journal of Computers & Technology. – Vol 12, No 2. – December 2013. – PP. 3211-3220.

Висоцька В.А. Моделювання етапів життєвого циклу комерційного web-контенту / В.А. Висоцька, Л.Б Чирун, Л.В. Чирун // Інформаційні системи та мережі. Вісник Національного університету “Львівська політехніка”. – Львів 2011. – № 715. – С. 69-87.

Берко, А.Ю. Алгоритми опрацювання інформаційних ресурсів в системах електронної комерції / А.Ю. Берко, В.А. Висоцька, Л.В. Чирун // Комп’ютерні науки та інформаційні технології. Вісник Національного університету “Львівська політехніка”. – Львів 2008. – № 616. – Стор.128-136.

Vysotska Victoria. Commercial Web Content Lifecycle Model: conference proceedings, November 16-19, 2011 / Victoria Vysotska, Lubomyr Chyrun, Lilya Chyrun // The 6th International Scientific and Technical Conference “Computer Sciences and Information Technologies” (CSIT’2011) which will be held November 16-19, 2011 at Lviv Polytechnic National University (Lviv, Ukraine) – Lviv 2011. – P. 160-163.

Берко А.Ю. Проектування навігаційного графу Web-сторінок бази даних систем електронної комерції. / А.Ю. Берко, В.А. Висоцька // Комп’ютерні науки та інформаційні технології, Вісник Національного університету “Львівська політехніка”. – Львів 2009. – № 638. – С. 3-14.

Берко А.Ю. Семантична інтеграція неповних та неточних даних / А.Ю. Берко, В.А. Висоцька, В.В. // Збірник наукових праць «Системи обробки інформації. Безпека та захист інформації в інформаційних системах», Випуск 7 (79). – Харків 2009. – С. 93-98.

Берко, А.Ю. Моделі та методи проектування інформаційних систем електронної комерції / А.Ю. Берко, В.А. Висоцька // Автоматизовані системи управління та прилади автоматики. Науково-технічний журнал. – Харків 2007. – № 138. – С.55-66.

Алєксєєва К.А. Управління Web-ресурсами за умов невизначеності / К.А. Алєксєєва, А.Ю. Берко, В.А. Висоцька // Журнал «Технологический аудит и резервы производства». – Vol 2, No 2(22) (2015). – Харків, 2015. – ISSN (print) 2226-3780, ISSN (on-line) 2312-8372. – С. 4-7.

Vysotska V. Designing features of architecture for e-commerce systems / Victoria Vysotska, Lyubomyr Chyrun // MEST Journal (Management Education Science & Society Technologie). – Vol.2 No.1. – P. 57-70.

Vysotska V. Set-theoretic models and unified methods of information resources processing in e-business systems / Victoria Vysotska, Lyubomyr Chyrun // Applied Computer Science. ACS journal. – Volume 10, Number 3. – Poland, 2014. – ISSN 2353-6977 (Online), ISSN 1895-3735 (Print). – P. 5-2.

##submission.downloads##

Переглядів анотації: 363

Опубліковано

2019-10-15

Як цитувати

[1]
Б. П. Русин, Л. В. Погрелюк, В. А. Висоцька, М. М. Осипов, Я. Ю. Варецький, і О. В. Капшій, «АРХІТЕКТУРА СИСТЕМИ ДЕДУБЛІКАЦІЇ ТА РОЗПОДІЛУ ДАНИХ У ХМАРНИХ СХОВИЩАХ ПІД ЧАС РЕЗЕРВНОГО КОПІЮВАННЯ», ІТКІ, вип. 45, вип. 2, с. 40–63, Жов 2019.

Номер

Розділ

Комп`ютерні системи та компоненти

Метрики

Завантаження

Дані завантаження ще не доступні.