Аналіз технологічних аспектів реалізації веб-скрапінгу статичних і динамічних сайтів

Автор(и)

DOI:

https://doi.org/10.33099/2311-7249/2024-51-3-80-88

Ключові слова:

інформаційні технології, автоматизація збору даних, оцінка ефективності, вебдизайн, вебсайти, моделювання, вебскрапінг, алгоритми обробки інформації

Анотація

Стаття присвячена розробці рекомендацій щодо використання сучасних технологій вебскрапінгу для забезпечення ефективного збору інформації зі статичних та динамічних сайтів. У контексті зростаючого обсягу даних та їхньої складної структури, особливо на динамічних ресурсах, виникає необхідність вибору оптимальних інструментів для автоматизованого збору інформації. Традиційні підходи до вебскрапінгу часто є недостатньо гнучкими для обробки складних динамічних сайтів. Метою статті є аналіз існуючих методів вебскрапінгу та розробка практичних рекомендацій для їхнього застосування. Під час дослідження були використані бібліотеки Selenium та BeautifulSoup як окремо, так і в комбінації, що дали змогу оцінити їхню ефективність у різних умовах. Зі статичних сайтів, BeautifulSoup виявився найефективнішим, завдяки швидкості обробки, тоді як Selenium забезпечує успішний збір даних з динамічних ресурсів. Запропоновані підходи були перевірені у межах експериментального середовища, що дало змогу визначити їх переваги та обмеження. Наукова новизна дослідження зводиться до комплексного аналізу ефективності інструментів вебскрапінгу залежно від типу сайту. Теоретичною значущістю є розширення розуміння особливостей взаємодії з різними структурами вебресурсів, а практичною значущість – надання відповідних рекомендацій для розробників, аналітиків і дослідників. Викладене у статті сприяє розвитку сфери автоматизованого аналізу вебінформації з використанням запропонованих інструментів, що оптимізують процеси збору даних.

Біографії авторів

Роман Миколайчук, Національний університет оборони України

доктор технічних наук, доцент

Іван Старинський , Національний університет оборони України

кандидат технічних наук

Віра Миколайчук , Київський національний університет імені Тараса Шевченка

доктор філософії

Посилання

Huang W., Gu Z., Peng C., Li Z., Liang J., Xiao Y., Wen L., Chen Z. A Progressive Understanding Web Agent for Web Scraper Generation. AutoScraper. 2024. URL: https://arxiv.org/abs/2404.12753?utm_source=chatgpt.com (Accessed: 25 November 2024).

Ahluwalia A., Wani S. Leveraging Large Language Models for Web Scraping. 2024. URL: https://arxiv.org/abs/2406.08246?utm_source=chatgpt.com (Accessed: 25 November 2024).

Foerderer J. Should We Trust Web-Scraped Data? arXiv preprint arXiv:2308.02231. 2023. URL: https://arxiv.org/abs/2308.02231? utm_source=chatgpt.com (Accessed: 25 November 2024).

Brenning A., Henn S. Web Scraping: A Promising Tool for Geographic Data Acquisition. 2023. URL: https://arxiv.org/abs/2305.19893 ?utm_source=chatgpt.com (Accessed: 25 November 2024).

Xu Z., Liu Z., Yan Y., Liu Z., Yu G., Xiong C. Cleaner Pretraining Corpus Curation with Neural Web Scraping. 2024. URL: https://arxiv.org/abs/2402.14652?utm_source=chatgpt.com (Accessed: 25 November 2024).

Brown M., Gruen A., Maldoff G., Messing S., Sanderson Z., Zimmer M. Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations. 2024. URL: https://arxiv.org/abs/2410.23432?utm_source=chatgpt.com (Accessed: 25 November 2024).

Zohaib M. A Responsive Framework for Research Portals Data using Semantic Web Technology. 2023. URL: https://arxiv.org/abs/2306.11642?utm_source=chatgpt.com (Accessed: 25 November 2024).

##submission.downloads##

Опубліковано

2024-12-30

Номер

Розділ

Інтелектуальні ІТ та робототехніка у сфері безпеки та оборони