3-2. WiSEはソフトウェアをサーバにインストールするだけですぐに使えますか?
3-3. 検索対象はどんな文書(PDF、Word、Excel等)でもOKですか?
3-5. 価格について教えてください。
3-6. 納期はどれくらいかかりますか?
3-7. 「クローラ搭載」とありますが、どういったメリットがあるのですか?
3-8. なぜ、検索漏れがないのですか?
3-9. 英語サイトや、中国語サイト、その他外国語サイトにも対応していますか?
3-10. 新コンテンツアップ時に、辞書メンテナンス作業(企業独特のサービス名や人名などの辞書登録作業)はありますか?
3-11. WiSEの活用分野を教えてください。
3-12. 現在サイトを運営中ですが、途中からでもWiSE導入は可能ですか?
3-13. 別のサーバにある文書も検索対象にできますか?
4-2. 検索結果の表示方法や、画面のデザインは自由に決められますか?
4-4. 検索結果画面で表示させるテキストを変更することはできますか?(ex.該当ページのdescriptionを表示させる等)
4-5. Yahoo!やGoogleのロボット拒否のmetaタグはWiSEのクローラでも検索対象から外れますか?
4-7. 中国語の文字コード:GB2312は検索対象となり得ますか?
4-8. 1台のWiSEを導入したサイトで、トップページの検索窓ではサイト全体を検索対象にしつつ、ディレクトリ単位、サブドメイン単位で検索対象を絞り込んで検索結果を表示させることは可能ですか?
4-9. 多言語のグローバルサイトで、検索窓に入力されたキーワードの言語によって検索結果ページを自動的に切り替えることは可能ですか?
4-10. 特定のページを検索させないことは可能ですか?
4-11. 既存システムへの組み込みは可能ですか?
4-12. カスタマイズは可能ですか?
4-13. ハードウェアはどのようなものを選べばよいですか?
4-14. 対応しているOSについて教えてください。
4-15. Free BSDは動作可能ですか?
5-1. proboとは何ですか?
5-2. PDFナビとは何ですか?
5-3. proboの意味は何ですか?
5-4. WiSEでなくproboを導入する意味はなんですか?
5-5. WiSEとproboの違いはなんですか?
6-1. proboの導入を検討する場合、既存のWebサーバのシステム条件などはあり
ますか?
6-2. PDFナビを自社サーバにインストールして使えますか?
6-3. PDFナビが対象とするPDFのバージョンは何ですか?
FAQ( よくある質問 )
1. 検索エンジンについての一般的な質問
1-1. 全文検索エンジンとは何ですか?
全文検索エンジンとは、対象とする情報からテキストを抽出し、テキストを適切な単位で分解して、これらの情報に対して検索を可能にするシステムです。Web ページ、PDFなどのファイル、画像に含まれるテキストなどを対象とすることができます。また、データベースやXMLなどの構造化された情報を対象に検索を行うこともできます。WiSEは、これらの処理を高速に実行することができる高性能な全文検索エンジンです。
1-2. インデクシングとは何ですか?
インデクシングとは、検索エンジンが対象とする検索データから、検索に必要なデータを抽出し、高速に検索が行えるように適切なデータ形式に変換する作業のことです。インデクシングは、検索対象の実データを検索エンジンが扱いやすい中間データ形式に変換する処理と、中間データ形式に含まれるテキストを分解して、インデックスデータベースと呼ばれるファイルに格納する処理の二つに大別されます。
1-3. N-gram方式とは何ですか?
テキストを「N 個の要素がつながったもの」と捉えて、機械的にテキストをN個ごとの要素に区切ったものを「Nグラム」と呼びます。この方法は、言語に特有な語彙や文法の解釈を行わなくても文字列を分割できることと、未知の語彙が存在しないために語彙の登録を行わなくても検索漏れが発生することがないという利点があります。日本語のように分かち書きがなされない言語の場合には 1 文字を要素とし、英単語のように分かち書きがなされている言語では 1 単語を要素とするのが一般的です。N-gramを利用してテキストを分割する検索エンジンを「N-gram方式の検索エンジン」と言います。代表的な検索エンジンのテキストの分割の方法には、このほかに「形態素解析方式」と「Suffix Array」方式があります。形態素解析方式は、文法に沿って単語単位でテキストを分割し、Suffix Array方式は文全体を要素とし、そこからひとつずつ単語や文字を先頭から減らしたものも要素とするテキストの分割方法です。WiSEでは、N-gram方式を中心にして、一部形態素解析を補助的に利用することで、適切な検索結果を提供するようになっています。
2. WiSEシリーズ(WiSE、EC、Standard、Web Crawler)についての質問
2-1. 「WiSE」とは何ですか?
WiSEとは、Worldwide Internet & Intranet Search Engineの頭文字からとった検索エンジン製品の総称です。
インターネットおよびイントラネットのどちらにも適用可能な、高機能汎用検索エンジンです。
特徴:
検索方式はN-gram方式を中心に、形態素解析など他の方式を組み合わせたハイブリッド化も行っています。
詳細はこちら→「WiSE製品情報」
2-2. 「WiSE EC」とは何ですか?
「WiSE EC」(WiSE e-Commerce)は、 全文検索エンジンの基本検索機能をベースに、 EC・ポータルサイトの運営に効果的な様々な機能を追加したソフトウェア製品です。ユーザーが入力したキーワードを補正する「アシスト辞書」や、目的の商品やページまでユーザーをナビゲートする「絞り込みナビ」の機能が標準で備わっています。
詳細はこちら→「WiSE EC製品情報」
2-3. 「WiSE Standard」とは何ですか?
WiSE Standardは、幅広い用途に応用可能な汎用全文検索エンジン製品です。Webサイト内ファイルサーバの検索やRDBMSからのデータ取得などに必要な機能を標準で備え、Webクローラなどのオプション機能を追加してさらに強力な検索システムを構築することも可能です。
詳細はこちら→「WiSE Standard製品情報」
2-4.「 WiSE Webクローラ」とは何ですか?
WiSE Webクローラ(WiSE Web Crawler)は、WiSEのために開発されたWebクローラです。WiSE Web Crawlerを利用することで、ネットワーク上のhttpおよびhttpsでアクセス可能なコンテンツを取得して、検索対象にすることが可能です。ドメインの指定や、URLのパターン、コンテンツの種類(HTMLかPDFかなど)などを指定して、取得するコンテンツを細かく制御することができます。サーバサイドで作成される動的なコンテンツを取得することも可能です。
詳細はこちら→「WiSE Webクローラ製品情報」
3.WiSEシリーズ全般に関する質問~一般編~
3-1. WiSEを使うにはどうすればいいのですか?
WiSEの稼動するサーバを用意し、ソフトウェアをインストール・設定しライセンスキーを登録してください。製品ドキュメントやサンプルアプリケーションなどを参照し、検索画面を開発してください。
3-2. WiSEはソフトウェアをサーバにインストールするだけですぐに使えますか?
WiSE の標準的な導入手順は、次のようになります。
3-3. 検索対象はどんな文書(PDF、Word、Excel等)でもOKですか?
WiSEの標準対象文書フォーマットは以下の通りです。(【】内は拡張子)
※詳しくは別途お問い合わせ下さい。
3-4. 画面の検索窓の位置は自由に決められますか?
検索アプリケーションで検索窓を自由に設定することが可能です 。
3-5. 価格について教えてください。
WiSEの価格は、登録するレコード数に応じてライセンス料が変動します。オプション製品についても別途価格が定められています。パッケージとしてライセンス費用100万円〜でご提供しておりますが、検索対象とするページ数やオプションなどによってさまざまな組み合わせがありますので、お客様のご要望をお伺いしてお見積もりさせていただきます。お気軽に、弊社営業部までお問い合わせください。
3-6. 納期はどれくらいかかりますか?
製品標準のパッケージであれば、発注後2ー3日以内に出荷可能です。
3-7. 「Webクローラ搭載」とありますが、どういったメリットがあるのですか?
サイト内のコンテンツを検索対象とする場合、Webクローラを利用してコンテンツを収集することができます。Webクローラを利用しない場合、サイト内コンテンツの収集のためにファイルシステムからコンテンツを収集しますが、 Webサーバのファイルシステムからコンテンツを収集するためのソフトウェアをインストールする必要が生じます。また、コンテンツがサーバ側で自動的に生成されているような場合 (CGIやPHP、Javaなどによるコンテンツ生成が行われている場合)には、ファイルシステムからの収集ができません。Webクローラを使うことによって、HTTPまたはHTTPSでアクセス可能なコンテンツを収集することが可能になります。ただし、Webクローラでは、リンクをたどることでコンテンツを収集するため、どこからもリンクされていないコンテンツは収集することができません。
3-8. なぜ、検索漏れがないのですか?
WiSEで採用しているN-gram方式では、日本語に関しては 1 文字ずつに分解します。例えば、「ビジネスサーチテクノロジ」という言葉は「ビ/ジ/ネ/ス/サ/ー/チ/テ/ク/ノ/ロ/ジ」と分解され、この中のどの部分でも検索することができます。これに対して、検索漏れがあるとされる形態素解析方式では、辞書に登録された単語リストに基づき「ビジネス/サーチ/テクノロジ」と分解されます。N-gram方式では「サーチテク」と検索した場合でも検索にヒットしますが、形態素解析で「テク」という単語が登録されていないケースでは、検索にヒットしなくなります。このため、形態素解析では、「テク」で検索にヒットさせるために、単語の登録などの作業が必要になります。このようなケースは、人名、地名、商品名(特にカタカナが混在するもの)などでよく発生します。
3-9. 英語サイトや、中国語サイト、その他外国語サイトにも対応していますか?
はい。英語はもちろん、中国、韓国、フランス、スペイン、ロシア、ポルトガル、ドイツ、アラビア語など、様々な外国語サイトの検索が可能です。単語を分かち書きしない中国語、韓国語などは、日本語と同様に、 1 文字単位で分解します。ヨーロッパ系の言語は、空白文字で単語単位に分解します。
3-10. 新コンテンツアップ時に、辞書メンテナンス作業(企業独特のサービス名や人名などの辞書登録作業)はありますか?
検索対象を更新するたびに、辞書をメンテナンスする必要はありません。
3-11.WiSEの活用分野を教えてください。
インターネット(組織外):Webサイト内・ブログサイト内・ECサイト内検索、FAQシステム検索イントラネット(組織内):企業内検索(エンタープライズサーチ)、文書管理、ナレッジマネージメント、その他情報共有への利用アプリケーションとの連携:携帯電話での検索、組み込みなど、さまざまな「探したい」にお答えします。
3-12. 現在サイトを運営中ですが、途中からでもWiSE導入は可能ですか?
もちろん可能です。お気軽にご相談下さい。
3-13. 別のサーバにある文書も検索対象にできますか?
文書が異なるWebサーバにある場合には、Webクローラを使用してコンテンツを取得することができます。複数のサーバにまたがるような場合でもコンテンツを取得することができます。文書が異なるファイルサーバにある場合には、NFSマウントするなどの方法でコンテンツを取得することができます。
4. WiSEシリーズ全般に関する質問~技術編~
4-1. FTP経由でもインストールできますか?
WiSEのインストールは、対象となるサーバでファイルの展開とセットアップを行う必要があります。そのため、FTPのみでインストールすることはできません。
4-2. 検索結果の表示方法や、画面のデザインは自由に決められますか?
WiSEの検索窓や検索結果画面は、Webアプリケーションとして自由に作成することが可能です。このため、アプリケーションのデザインに関しての制約はありません。
4-3. 検索の表示順位はどのような方法で決まってますか?
検索結果のソートは、次のような項目を指定することができます。順位が同じになってしまった項目に対して、2 次ソートキー、3 次ソートキーなど 5 次まで指定することが可能です。
4-4. 検索結果画面で表示させるテキストを変更する事はできますか?(ex. 該当ページのdescriptionを表示させる等)
descriptionを表示したい場合は、この内容を検索インデックスに登録しておけば、検索結果として取り出すことができます。そのほかのデータを検索結果と一緒に表示したいというような場合でも、検索インデックスに登録することで可能になります。
4-5. Yahoo!やGoogleのロボット拒否のmetaタグはWiSEのクローラでも検索対象から外れますか?
WiSE Web Crawlerは、robots.txt、METAタグのrobotsの指定に従ってコンテンツを収集します。従って、これらの設定を適切に行うことで、WiSE Web Crawlerの Webサーバへのアクセスを抑制することができます。
4-6. フレームを使用したページの場合、フレームセットだけでなく、メイン部もクローリング対象になりますか?また、検索結果から飛ぶページはメイン部だけでなくフレームセットも入った形でページへ飛ぶことは可能ですか?
WiSE Web Crawlerの収集単位は、URLです。フレームを構成する個々のHTMLが独立したURLを持つため、それぞれが別々に登録され、検索にも個々のHTML単位でヒットします。
4-7. 中国語の文字コード:GB2312は検索対象となり得ますか?
対象になります。ただし、charset が正しく表記されている必要があります。
4-8. 1台のWiSEを導入したサイトで、トップページの検索窓ではサイト全体を検索対象にしつつ、ディレクトリ単位、サブドメイン単位で検索対象を絞り込んで検索結果を表示させることは可能ですか?
可能です。このような場合、検索キーワードとURLに含まれる文字列でAND演算を行って検索します。
4-9.多言語のグローバルサイトで、検索窓に入力されたキーワードの言語によって検索結果ページを自動的に切り替えることは可能ですか?
検索キーワードに入力された文字列は、言語の判定に利用するには短すぎて言語を特定することが不可能な場合があります。このため、自動的に判定させる場合には、正しい言語で表示されない場合があります。しかし、表示しているページに言語を設定して、特定することは可能です。
4-10. 特定のページを検索させないことは可能ですか?
いくつかの方法で実現することができます。
最後の方法は、あるケースでは検索にヒットさせることができ、別のケースではヒットさせないといった利用も可能です。
4-11. 既存システムへの組み込みは可能ですか?
可能です。色々な方法がありますので、詳しくはご相談ください。
4-12. カスタマイズは可能ですか?
可能です。色々な方法がありますので、詳しくはご相談ください。
4-13. WiSEを動かすハードウェアはどのようなものを選べばよいですか?
64 bitに対応したインテル系CPUを搭載したサーバになります。検索対象容量やシステムの要件によって、CPUやメモリなどのスペックは異なります。
4-14. 対応しているOSについて教えてください。
現在の対応OSは下記の通りです。
詳しくはお問い合わせください。
4-15. Free BSDでは動作可能ですか?
FreeBSDは動作環境としてサポートしていません。
5. proboに関する質問 〜一般編〜
5-1. proboとは何ですか?
probo(プロボ)とは、BSTが開発した多言語対応の高速全文検索エンジンWiSE
の機能を簡単にかつ安価に導入いただける、次世代の情報検索ASP/SaaSサービスブランド名です。ご用途に合わせて多彩なメニューを揃えています。
詳細についてはproboのサービス情報ページでご覧いただくか、または弊社までお問い合わせください。
5-2. PDFナビとは何ですか?
PDF ナビを利用すると、PDFをファイル単位だけではなく、ページ単位での検索が可能になります。さらに、専用のビューアやプラグインをインストールせずに、結果をページ単位でサムネイル表示したり、スライド形式で閲覧することもできるようになります。PDFナビを利用すると、PDF文書を検索する際の問題点を解決し、検索性と閲覧性を飛躍的に高めることができます。
詳細についてはPDFナビのサービス紹介ページでご覧いただくか、または弊社までお問い合わせください。
5-3. proboの意味は何ですか?
Latin(ラテン語) のことばで、意味としては「to show」「prove」「demonstrate」「find good」と同じです。 これらの意味を兼ね備えたASP/SaaSサービス、という趣旨で命名しています。
5-4. WiSEでなくproboを導入する意味はなんですか?
proboでは、弊社がお送りする検索窓のコードを既存のWebページに挿入していた
だくだけで、検索サービスを利用することができます。検索結果ページはproboのサーバが生成しますので、別途サーバをご用意いただく必要もありません。既存のシステムの変更やハードウェアの追加購入などをせずに検索機能を導入されたい場合に最適です。逆に、お客様の社内で他のシステムと連携させたり様々なカスタマイズ等をされたい場合には、パッケージ製品WiSEの導入をご検討ください。
5-5. WiSEとproboの違いはなんですか?
WiSE をパッケージとして導入することによるサーバ運用などの手間を軽減し、簡単に検索システムを構築することができます。
WiSEで提供している一部の機能や社内システムとの密な連携については対応しておりませんが、proboでのみ利用可能な機能も用意しており、個別のカスタマイズに対応しております。
6. proboに関する質問 〜技術編〜
6-1. proboの導入を検討する場合、既存のWebサーバのシステム条件などはあり
ますか?
特にありません。どんなWebサーバをご利用であっても、基本的にproboの導入は
可能です。ご不明な点がありましたら、お気軽にお問い合わせください。
6-2. PDFナビを自社サーバにインストールして使えますか?
いいえ。いまのところ、PDFナビはASP・SaaSとしてのみご提供しています。もし
違う形での提供をご希望される場合は、お問い合わせください。
6-3. PDFナビが対象とするPDFのバージョンは何ですか?
probo、PDFナビでサポートするPDF文書は、PDF 1.3(Acrobat 4.0)〜1.7(Acrobat 7.0/8.0)に準拠したものとなります。
PDF1.2、Acrobat 9のPDF 1.7 Extension Level 3に関してはサポート対象外です。
6-4. PDF文書に含まれる画像も検索できるのですか?
PDFナビにおいて、PDF文書における検索対象は、テキストの形式で埋め込まれたテキストとプロパティのタイトル部分となります。画像は検索対象に含まれません。また、スキャナによる取り込みで作成したPDF文書の場合、OCRが行われていないとテキスト抽出ができません。このようなPDF文書も検索対象外になります。
6-5. バージョンが適合していればすべてのPDF文書を利用できますか?
ファイルを開く際にパスワードの入力が必要なPDFは検索対象外になります。
また、PDFに埋め込まれているフォントの種類によっては、テキストが抽出できないため検索できない場合があります。日英以外のフォントや特殊なフォント、サードパーティ製のフォントをPDF文書に埋め込まれている場合は、事前にデモ等で動作確認を十分行っていただくようお願いします。
7. ASP・SaaSサービスに関するそのほかの質問
7-1. ASPとは何ですか?
Application Service Providerの略で、ビジネス用のアプリケーションソフトを インターネットを通じて顧客にレンタルする事業者またはその業態を指します。 弊社では、全文検索エンジンWiSEをASPとしてご利用いただ けるproboをご提供しています。
7-2. SaaSとは何ですか?
Software as a Serviceの略で、ソフトウェアの機能のうちユーザが必要とする
ものだけをサービスとして配布し利用できるようにする事業者またはソフトウェ
アの配布形態を指します。ネットワークを介してソフトウェアをオンラインで利
用するという意味で、今日ではASPとほぼ同義語になっています。弊社では、総
務省の「ASP・SaaS」という表記を使っています。