あなたの企業に Google のような検索エンジンを導入したいと思いませんか?その場合、オープンソースが解決策を提供してくれるかもしれません。有名な検索エンジン ソフトウェアがいくつかあります。これらは企業ドメイン内の情報を検索できるため、最高のエンタープライズ向けオープンソース検索エンジン ソフトウェアと言えます。機能するように構築された複数のデータベースやイントラネットからデータを検索し、企業の重要なデータやその他の情報を保存できます。
これらのエンタープライズ検索エンジン サーバー ソフトウェアは、テストのためにラップトップにインストールしてから、サーバーにインストールできます。これらのオープンソース エンジンの機能は Google や Yahoo に似ていますが、特に新興企業向けです。上で述べたように、これらの検索エンジンは複数のデータベースやイントラネットからインデックスを作成できますが、それらだけに限定されるわけではありません。さまざまなファイル システム、文書管理システム、電子メールからの文書のファイル インデックス作成も可能です。
オープンソースのビッグデータ検索ソフトウェアは、構造データと非構造データを収集することもできます。管理者は、セキュリティ ポリシーを使用して、ユーザーが特定の情報コレクションにアクセスすることを制限することもできます。さあ、時間を無駄にせずに、利用可能な最高のオープンソース検索エンジンソフトウェアを見てみましょう。
注記: 私は検索エンジン ソフトウェアや、Wikipedia やその他のインターネット調査に基づいてここで提供される情報の専門家ではありません。オープンソース カテゴリに分類される他の優れた検索エンジン ソフトウェアを見逃していたと思われる場合は、このリストを完成させるのに協力してください…
企業向けのオープンソース検索エンジン ソフトウェア
Apache Lucene コア
Apache Lucene Core は、Apache ライセンスに基づいて配布され、完全に Java に基づいている最も信頼性の高いクロスプラットフォームのオープン ソース検索エンジン プロジェクトです。ただし、純粋に Java で書かれているにもかかわらず、Delphi、Perl、C#、C++、Python、Ruby、PHP などの他のプログラミング言語でも移植され、利用可能です。ランキング検索システムが機能し、最良の結果が最初に返されることを意味します。 Lucene は、ベクトル空間モデルやokapi BM25などのプラグ可能なランキング モデルを使用します。また、フレーズ クエリ、ワイルドカード クエリ、近接クエリ、範囲クエリなど、多くの強力なクエリ タイプもサポートしています。
Elasticsearch オープンソース検索エンジン
Elasticsearch は、Apache Lucene に基づく分散型 RESTful 検索および分析エンジンであるオープン ソースの検索エンジン ソフトウェアです。これは拡張性の高いオープンソースの検索エンジンであり、中小企業から大企業までサポートできます。 Elastic 検索エンジンは、HTTP Web インターフェイスとスキーマフリーの JSON ドキュメントを使用した全文検索機能を提供します。これは分散検索システムであり、各インデックスが構成可能な数のシャードで完全にシャード化されていることを意味します。また、各シャードは 1 つ以上のレプリカを持つことができ、任意のレプリカ シャードに対して読み取り/検索操作を実行できます。
Java で開発されており、正式なクライアントは Curl、Java、.NET(C#)、Python、JavaScript、PHP、Perl、Ruby、Apache Groovy などの多くの言語で利用できます。見る:Ubuntu 19.04、18.04、16.04 での Elasticsearch のインストールとアンインストール
Apache Solr 検索エンジン プラットフォーム オープンソース
ElasticSearch に次いで、Apache Solr も人気のあるオープン ソースの検索エンジン ソフトウェアであり、DB ランキングでも人気があります。また、Java で開発されており、全文検索とリアルタイムのインデックス作成をサポートしています。さらに、Elasticsearch と同様に、Apache Solr も Lucene に基づいており、その Java 検索ライブラリを使用します。これは、REST のような API を備えたスタンドアロンのエンタープライズ検索サーバーです。 Solr では、JSON、XML、CSV、または HTTP 経由のバイナリを介してインデックス作成を行うことができます。結果を受け取るには、HTTP GET を使用してクエリを実行します。
Solr には、インデックスとクエリの両方の検索エンジンの機能を向上させるプラグイン アーキテクチャがあります。さらに、オープンソースであるため、要件に応じてプラグインが動作するようにコードをカスタマイズすることもできます。
スフィンクス検索エンジン
すでに Elasticsearch を使用していて、他のオプションを探している人は、Sphinx を試すことができます。これは、全文をサポートする無料のオープンソース情報検索ソフトウェア ライブラリでもあります。 C++ で書かれたスタンドアロン サーバーとして実装でき、Linux (RedHat、Ubuntu など)、Windows、MacOS、Solaris、FreeBSD、およびその他のいくつかのシステム上で動作します。
SQL データベースと NoSQL ストレージに保存されているデータのインデックスを作成し、検索できます。 Craigslist、Living Social、MetaCafe、Groupon など、1 日に何百万もの検索クエリが生成される、高度に文書化された一部の Web サイトを強化します。
このオープン ソースの検索エンジンのインデックス作成速度について言えば、単一の CPU コアあたり 1 秒あたり最大 10 ~ 15 MB のテキストのインデックスを作成できます。つまり、サーバーあたり (専用のインデックス作成マシン上で) 60 MB/秒以上になります。その主要な機能は次のとおりです。バッチおよびリアルタイムの全文インデックス、非テキスト属性のサポート、SQL データベースのインデックス作成、簡単なアプリケーション統合、高度な全文検索構文、豊富なデータベースのようなクエリ機能、より適切な関連性ランキング、柔軟なテキスト処理、および分散検索。
データパーク検索エンジン
DataparkSearch Engine は、Web サイト、Web サイトのグループ、イントラネット、またはローカル システム内での検索を可能にするオープン ソースの Web ベースの検索エンジンです。 http、https、ftp、nntp、およびニュース URL スキームのサポートを特徴とし、text/html、text/xml、text/plain、audio/mpeg (mp3)、および image/gif の MIME タイプをネイティブにインデックス作成でき、国際化ドメイン名 (IDN) を処理します。 、次のような noindex タグを許可します<!–UdmComment–>、<NOINDEX> 、<!–noindex–> 、Googleの特別コメント<!– google_ad_section_start –>、<!– google_ad_section_start(weight=ignore) –>そして<!– google_ad_section_end –>含める/除外するタグとして考慮します。コンテンツ本文タグ、スペルチェックなどを指定できます。
ザピアン
Xapian は、C++ で書かれたもう 1 つのオープン ソースの検索エンジン ライブラリであり、Perl、Python 2、Python 3、PHP 5、PHP 7、Java、Tcl、C#、Ruby、Lua、Erlang、Node.js、および R からの使用を可能にするバインディングを備えています。 。
以下を参照してください。