Аналіз технологічних аспектів реалізації веб-скрапінгу статичних і динамічних сайтів
DOI:
https://doi.org/10.33099/2311-7249/2024-51-3-80-88Ключові слова:
інформаційні технології, автоматизація збору даних, оцінка ефективності, вебдизайн, вебсайти, моделювання, вебскрапінг, алгоритми обробки інформаціїАнотація
Стаття присвячена розробці рекомендацій щодо використання сучасних технологій вебскрапінгу для забезпечення ефективного збору інформації зі статичних та динамічних сайтів. У контексті зростаючого обсягу даних та їхньої складної структури, особливо на динамічних ресурсах, виникає необхідність вибору оптимальних інструментів для автоматизованого збору інформації. Традиційні підходи до вебскрапінгу часто є недостатньо гнучкими для обробки складних динамічних сайтів. Метою статті є аналіз існуючих методів вебскрапінгу та розробка практичних рекомендацій для їхнього застосування. Під час дослідження були використані бібліотеки Selenium та BeautifulSoup як окремо, так і в комбінації, що дали змогу оцінити їхню ефективність у різних умовах. Зі статичних сайтів, BeautifulSoup виявився найефективнішим, завдяки швидкості обробки, тоді як Selenium забезпечує успішний збір даних з динамічних ресурсів. Запропоновані підходи були перевірені у межах експериментального середовища, що дало змогу визначити їх переваги та обмеження. Наукова новизна дослідження зводиться до комплексного аналізу ефективності інструментів вебскрапінгу залежно від типу сайту. Теоретичною значущістю є розширення розуміння особливостей взаємодії з різними структурами вебресурсів, а практичною значущість – надання відповідних рекомендацій для розробників, аналітиків і дослідників. Викладене у статті сприяє розвитку сфери автоматизованого аналізу вебінформації з використанням запропонованих інструментів, що оптимізують процеси збору даних.
Посилання
Huang W., Gu Z., Peng C., Li Z., Liang J., Xiao Y., Wen L., Chen Z. A Progressive Understanding Web Agent for Web Scraper Generation. AutoScraper. 2024. URL: https://arxiv.org/abs/2404.12753?utm_source=chatgpt.com (Accessed: 25 November 2024).
Ahluwalia A., Wani S. Leveraging Large Language Models for Web Scraping. 2024. URL: https://arxiv.org/abs/2406.08246?utm_source=chatgpt.com (Accessed: 25 November 2024).
Foerderer J. Should We Trust Web-Scraped Data? arXiv preprint arXiv:2308.02231. 2023. URL: https://arxiv.org/abs/2308.02231? utm_source=chatgpt.com (Accessed: 25 November 2024).
Brenning A., Henn S. Web Scraping: A Promising Tool for Geographic Data Acquisition. 2023. URL: https://arxiv.org/abs/2305.19893 ?utm_source=chatgpt.com (Accessed: 25 November 2024).
Xu Z., Liu Z., Yan Y., Liu Z., Yu G., Xiong C. Cleaner Pretraining Corpus Curation with Neural Web Scraping. 2024. URL: https://arxiv.org/abs/2402.14652?utm_source=chatgpt.com (Accessed: 25 November 2024).
Brown M., Gruen A., Maldoff G., Messing S., Sanderson Z., Zimmer M. Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations. 2024. URL: https://arxiv.org/abs/2410.23432?utm_source=chatgpt.com (Accessed: 25 November 2024).
Zohaib M. A Responsive Framework for Research Portals Data using Semantic Web Technology. 2023. URL: https://arxiv.org/abs/2306.11642?utm_source=chatgpt.com (Accessed: 25 November 2024).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати як монографію), за умови збереження посилання на першу публікацію роботи у цьому журналі.
3. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).
4. Персональні дані і метадані, які наводяться у статтях, надаються для їх зберігання і оброблення в різноманітних базах даних і інформаційних системах, включення їх в аналітичні і статистичні звітності, створення обгрунтованих взаємозв'язків об'єктів творів науки, літератури і мистецтва з персональними даними і т.п. на території, яка не обмежена.