Fess による最強の全文検索システムの導入

パーソナル・インターネット・アーカイブを作ろうとしていると書いた。

パーソナル・インターネット・アーカイブの構築1 – 読書ナリ
https://dokusho.nary.cc/2020/07/01/personal-internet-archive-1/

パーソナル・インターネット・アーカイブの構築2 – 読書ナリ
https://dokusho.nary.cc/2020/07/02/personal-internet-archive-2/

最後に残されたのが、全文検索である。

それを可能にするのがオープンソース全文検索サーバーの「Fess(フェス)」だ。

オープンソース全文検索サーバー Fess
https://fess.codelibs.org/ja/

要するに Fess は、自分専用 Google であり、ウェブサイトだけでなく、ローカルファイルも検索できる。そう、HTML ファイルとしてローカルに保存したウェブページを Fess で検索すればいいのだ。

さっそく Fess を Mac にインストールした。

ローカルファイルの検索は設定が簡単にできた。実際に検索してみるとちゃんと全文検索できた! Google のように、検索ワード前後の文章が検索結果一覧に表示されるので、簡単に文脈も分かって適切なファイルが見つかりやすい(Mac の Finder でも全文検索ができるが、該当ファイルを特定できるだけで文脈までは分からない)。

ただ Fess ではローカルファイルの HTML ファイルはブラウザで開けず、一旦ダウンロードが必要だ。iPad で検索しても一旦 HTML ファイルがダウンロードされ、ブラウザで直接見れない(GoodReader 等のアプリで開けば閲覧できる)。だが、その程度の面倒は良しとする。全文検索できる便利さと比べたら、我慢できる(そうしょっちゅう検索するわけでもないので)。

それと、これは自宅のネットワーク以外からアクセスするには、それなりに設定が大変かもしれない。VPN を使ったりすのも1つの方法だろう。

* * *

元々は Fess をパーソナル・インターネット・アーカイブ用の検索に使うために導入したが、さらにいろいろできることに気付いた。

そう、自炊した PDF ファイルだって検索できる。自炊した 1000 冊以上の書籍がなんと、全文検索できるようになった。BOOKSCAN で自炊した書籍は OCR が付与されるので、検索ができるのだ。検索すると検索語前後の文章も検索結果に表示されるので、文脈も確認できる。PDF ファイルだけでなく、epub ファイルも全文検索できる。

参考:
[読書] 外出先で PDF ライブラリにアクセスする – 読書ナリ
https://dokusho.nary.cc/2017/04/25/how-to-access-my-pdf-library-from-outside/

さらにさらに、Fess はローカルのファイルだけでなく、オンラインのウェブサイトの検索もできる。私が複数運営している WordPress や note といったウェブページたちも全文検索できるようにした。ついでにページのキャッシュも保存される。

これはどういうことか。保存したウェブページ、自炊した書籍、オンラインのウェブサイト、それらすべてを横断して全文検索できるのだ。これは、今後私の知的生産において大きな資産になるだろう。

Fess の公式サイトには「5 分で簡単に構築可能な全文検索サーバー」と書かれているけれど、特にオンラインのウェブサイトの検索は、適切にクローリングしてインデックスができるようになるには、相当の時間を掛けてチューニングが必要だった。それこそ数日掛かった。Fess を構築するにはある程度パソコンのスキルが必要だ。

関連するかもしれない記事:

皿洗いに時間が掛かる

家では料理以外の家事を私がすべてやっている。そのなかで特に時間を要するのが皿洗いだ。

続きを読む

[関東旅行 2024] 藤子・F・不二雄ミュージアムに行ってきた

息子との関東旅行で必ず行きたかったのは藤子・F・不二雄ミュージアムだ。僕はこれまで 2015 年、2018 年の春と秋の、合計3回行っている。

続きを読む

2017 年3月の映画・読書のまとめ

映画館で観た映画:1本
自宅で観た映画:1本
読んだ本:14 冊

続きを読む