Fess による最強の全文検索システムの導入
- コンピューター
- 2020/07/03 Fri 06:28
パーソナル・インターネット・アーカイブを作ろうとしていると書いた。
パーソナル・インターネット・アーカイブの構築1 – 読書ナリ
https://dokusho.nary.cc/2020/07/01/personal-internet-archive-1/
パーソナル・インターネット・アーカイブの構築2 – 読書ナリ
https://dokusho.nary.cc/2020/07/02/personal-internet-archive-2/
最後に残されたのが、全文検索である。
それを可能にするのがオープンソース全文検索サーバーの「Fess(フェス)」だ。
オープンソース全文検索サーバー Fess
https://fess.codelibs.org/ja/
要するに Fess は、自分専用 Google であり、ウェブサイトだけでなく、ローカルファイルも検索できる。そう、HTML ファイルとしてローカルに保存したウェブページを Fess で検索すればいいのだ。
さっそく Fess を Mac にインストールした。
ローカルファイルの検索は設定が簡単にできた。実際に検索してみるとちゃんと全文検索できた! Google のように、検索ワード前後の文章が検索結果一覧に表示されるので、簡単に文脈も分かって適切なファイルが見つかりやすい(Mac の Finder でも全文検索ができるが、該当ファイルを特定できるだけで文脈までは分からない)。
ただ Fess ではローカルファイルの HTML ファイルはブラウザで開けず、一旦ダウンロードが必要だ。iPad で検索しても一旦 HTML ファイルがダウンロードされ、ブラウザで直接見れない(GoodReader 等のアプリで開けば閲覧できる)。だが、その程度の面倒は良しとする。全文検索できる便利さと比べたら、我慢できる(そうしょっちゅう検索するわけでもないので)。
それと、これは自宅のネットワーク以外からアクセスするには、それなりに設定が大変かもしれない。VPN を使ったりすのも1つの方法だろう。
* * *
元々は Fess をパーソナル・インターネット・アーカイブ用の検索に使うために導入したが、さらにいろいろできることに気付いた。
そう、自炊した PDF ファイルだって検索できる。自炊した 1000 冊以上の書籍がなんと、全文検索できるようになった。BOOKSCAN で自炊した書籍は OCR が付与されるので、検索ができるのだ。検索すると検索語前後の文章も検索結果に表示されるので、文脈も確認できる。PDF ファイルだけでなく、epub ファイルも全文検索できる。
参考:
[読書] 外出先で PDF ライブラリにアクセスする – 読書ナリ
https://dokusho.nary.cc/2017/04/25/how-to-access-my-pdf-library-from-outside/
さらにさらに、Fess はローカルのファイルだけでなく、オンラインのウェブサイトの検索もできる。私が複数運営している WordPress や note といったウェブページたちも全文検索できるようにした。ついでにページのキャッシュも保存される。
これはどういうことか。保存したウェブページ、自炊した書籍、オンラインのウェブサイト、それらすべてを横断して全文検索できるのだ。これは、今後私の知的生産において大きな資産になるだろう。
Fess の公式サイトには「5 分で簡単に構築可能な全文検索サーバー」と書かれているけれど、特にオンラインのウェブサイトの検索は、適切にクローリングしてインデックスができるようになるには、相当の時間を掛けてチューニングが必要だった。それこそ数日掛かった。Fess を構築するにはある程度パソコンのスキルが必要だ。