Russian Federation
Russian Federation
Russian Federation
The article presents examples of open source search databases, their advantages and disadvantages. Relational and non-relational models are also considered.
information system, modeling, database
В современном мире нельзя представить функционирование ни одного предприятия без использования баз данных, представляющих собой совокупность структурированной информации, которая обладает определенным стандартом её хранения, манипулирования и редактирования.
Базы данных занимают главную роль при обработке, структуризации, фильтрации и поиске разнообразных совокупностей информации. Есть несколько факторов, отличающих работу с базами данных от работы с другими типами структур данных, например, таблицами [4].
Так, базы данных позволяют комфортно и быстро для пользователя работать с большим объёмом данных, а система запросов является полезным инструментом для фильтрации и агрегации данных. Также стоит выделить возможность работы с сервером в большинстве популярных систем управления базами данных, а значит гарантированную функцию редактирования и просматривания информации из одного источника несколькими пользователями, что необходимо при работе с вэб-приложениями.
Среди баз данных, принято выделять реляционные и нереляционные базы данных. Первые, SQL, характеризуются наличием таблиц и специальных связей между ними. Нереляционные же, noSQL, отходят от табличного представления и созданы специально для определенных типов данных и работы с ними.
Если ранее наиболее популярными и используемыми были реляционные базы данных, то в современном мире больше внимания уделяется работе с нереляционными базами. К ним относятся: базы данных документов, базы данных “ключ-значение”, графовые базы данных и поисковые базы данных.
Поисковые базы данных, или базы данных поисковых систем представляет собой массивы, в которых хранятся данные, собранные модулями для дальнейшего индексирования поисковой системы.[3] Данные модули также называются поисковыми ботами. Поисковые базы данных принято делить на два вида: основной индекс и временная база.
Основной индекс представляет собой хранилище информации, организованное с использованием динамически масштабируемых кластеров. В нем содержатся сокращенные версии веб-документов, включающие ключевые фразы и фрагменты текста, окружающие их, а также ссылки на исходные страницы. Этот подход позволяет значительно ускорить процесс выбора контента, соответствующего введенному запросу, благодаря применению алгоритмов обратного действия, а также уменьшить размер самого индекса.
Временная база содержит в себе результаты индексации ресурсов, где новый контент появляется как минимум один раз в сутки (например, блоги, онлайн СМИ, информационные порталы). Оценка страниц, добавленных в базу, зависит от внутренних факторов оптимизации конкретного документа (таких как соответствие использованных ключевых слов тематике текста, частота их употребления, уникальность). Временный индекс очищается после каждого обновления, а данные из него переносятся в основной. Для оценки качества контента используются стандартные алгоритмы.[1]
Например, не каждый поисковик имеет свои собственные базы данных. Обладают ими лишь крупнейшие участники рынка, такие как Yandex или Google. Другие сервисы используют их наработки. Например, российские Mail.ru и Rambler основаны на алгоритмах и данных, предоставляемых Яндексом, в то время как американский AOL использует базу данных Google. Это связано с необходимостью иметь значительные вычислительные мощности для сбора, хранения и обработки больших объемов информации, на что небольшие компании не могут позволить себе пойти (например, на май 2016 года в базе данных Яндекса насчитывалось более 30 миллиардов веб-документов).[5]
При рассмотрении плюсов и минусов поисковых баз данных с открытым исходным кодом стоит взять за пример базы данных, реализованные с помощью свободной библиотеки Apashe Lucene.
С точки зрения скорости, нет аналога, который мог бы сравниться с Apache Lucene. Это преимущество обусловлено использованием языка программирования Java. Результат запроса занимает всего доли секунды, и это делает его очень эффективным решением для работы любой организации. По мере увеличения скорости растет и общая производительность. Apashe Lucene также имеет небольшое требование к оперативной памяти, максимум 1 МБ. Кроме того, его инкрементная индексация выполняется быстрее, чем пакетная индексация.
В настоящее время оно бесплатно для всех типов использования, включая в том числе и коммерческие цели. По этой причине данное программное обеспечение весьма выгодно для предприятий, которые не обладают большими денежными ресурсами. Также, Apache Lucene предоставляет пользователю полный исходный код, поэтому организации, использующей его, не нужно переписывать свой собственный код.
Важнейшим плюсом поисковых баз данных с открытым кодом является также и то, что благодаря открытому и бесплатному распространению, разработчик всегда может внести свой вклад в улучшение работы программного обеспечения и дальнейшего развития технологии.
Также стоит отметить и минусы.
Из-за открытого исходного кода разработчик может самостоятельно вызвать сбои в работе поисковой базы данных, устранение которых потребует от него наличия большего количества специализированных, углубленных знаний. Также у Lucene есть проблемы с масштабируемостью. Производительность работы может ухудшаться, когда индекс становится больше.
1. Abdullin A.A. Modeli intellektual'nyh interfeysov poiskovyh informacionnyh sistem / A.A. Abdullin, V.V. Lavlinskiy, I.A. Zemcov– 2019. – T. 12, № 2. – S. 4.
2. Dzhuba S. Izuchaem PostgreSQL 10 / S. Dzhuba, A. Volkov – 2018. – T. 15, № 1. – S. 400.
3. Shipilova E.A., Nekrylov E.E., Kurchenkova T.V. Analiz i modelirovanie traektoriy povedeniya pol'zovateley onlayn-servisov s ispol'zovaniem platformy RETENTIONEERING // Modelirovanie sistem i processov. – 2022. – T. 15, № 3. – S. 82-93.
4. Novikov B.A. Osnovy tehnologiy baz dannyh / B.A. Novikov, E.A. Gorshkova – 2019. – T. 15, № 3. – S. 238.
5. Revunkov G.I. Proektirovanie baz dannyh / G.I. Revunkov, N.A. Kovaleva, E.Yu. Silant'eva – 2024. – T. 14, № 2. – S. 49. – DOIhttps://doi.org/10.12737/2219-0767-2021-14-2-4-12.
6. Sazonova S.A. Strength test of the industrial building's load-bearing structures / Sazonova S.A., Nikolenko S.D., Zyazina T.V., Chernyshova E.V., Kazbanova I.M. – V sbornike: Journal of Physics: Conference Series. III International Conference on Metrological Support of Innovative Technologies (ICMSIT-III-2022). Krasnoyarsk. – 2022. – S. 22016
7. Shipilova E.A., Platonov A.A., Ravlyk R.F., Gospod A.A. Matematicheskoe modelirovanie i programmnaya realizaciya processa upravleniya obespecheniem bezopasnosti poletov i deyatel'nost'yu aviacionnogo personala // Modelirovanie sistem i processov. – 2022. – T. 15, № 2. – S. 100-109
8. Razrabotka special'nogo programmnogo obespecheniya steganograficheskogo skrytiya informacii v audiofaylah / Zhumatiy V.P., Denisenko D.I., Chernyshova E.V. – Informatika: problemy, metody, tehnologii. Materialy XX Mezhdunarodnoy nauchno-metodicheskoy konferencii. Pod redakciey A.A. Zacarinnogo, D.N. Borisova. – 2020. – S. 1022-1031.
9. Poluektov A.V., Makarenko F.V., Yagodkin A.S. Ispol'zovanie storonnih bibliotek pri napisanii programm dlya obrabotki statisticheskih dannyh // Modelirovanie sistem i processov. – 2022. – T. 15, № 2. – S. 33-41.