Back

HONYAKU Archive Full-text Search
2000年8月29日オープン。
HONYAKUというメーリングリストで配信されるデータの全文検索アーカイブです。 わたし自身が翻訳業界から抜けたことなどで現在はもう追加更新をしていませんが、それでも1994年から2006年まで、約12年間にわたる19万件近いデータを抱えた知識ベースになりました。いまや、月間アクセス数が20,000をゆうに超えています。[→最新版 HONYAKU全文検索]

やってみて分かったこと
全文検索が可能な大規模システム。同じ次元で検索可能なようにデータを揃えるには簡単なようで意外と工夫が必要です。あと、こうした検索システムで高速検索を可能にしようと思ったら、「検索エンジン」という中核になるソフトウェアと「データベース」のソフトウェアの組み合わせが必要なのだということも知りました。HONYAKUはIBM製のInfoSearchというエンジンとMicrosoft SQL Serverの組み合わせですが、こうした連携があってはじめて、ひとつのシステムができあがるわけです。さらに、これをネット上で提供するには、HTMLやインターネットに関する知識も必要。
インターネットで検索可能なサイトやシステムを提供してくださっている団体/個人に、改めて感謝!

  

どうして全文検索アーカイブ?
HONYAKUは、登録メンバー数が1,000前後もある大規模なメーリングリスト。
そこでやり取りされる内容は、現役翻訳者から出される生きた情報。翻訳者として、こんなにありがたいものは他にありません。なのに、過去データを検索できる仕組みがなかったため、同じような質問・疑問が繰り返し出てきたり、以前どこかで聞いたと思ってもメールを探すのが大変すぎたりといった状況だったのです。ならば…ということで、作りました。メーリングリストは今も続いていますが、それでもなおこれだけのアクセス数があるということは、やはり多くの翻訳者にとって有用だったのでしょう。

作成裏話
過去データをテキスト形式で保存してくださっていた人がいたため、さかのぼる分についてはこれを利用しました。
が、HONYAKUは、世界中から何百名もの翻訳者が参加するメーリングリスト。netcomというシステムを利用していた時期もあれば、L-Softの時期もある。onelistのときもあれば、egroupsのときもあるのです。また、翻訳者が使うメールソフトの仕様や動きもバラバラ。設定もまちまちなのです。
まずは、全文検索エンジン用にデータフォーマットを整えるところからのスタートで、これはこれで難儀でした。

公開後は専用のアドレスで投稿を自動受信し、それを定期的にシステムに追加する仕組みを取りました。ただ、文字コードまわり(Unicodeなど)で世の中が大きく動いていた時期だというのもあって、元になるデータに文字化けが含まれていることも。こういうときは、すべて手作業でのチェック・対応です。こうした細かいところで苦労も多かったシステムですが、翻訳業界に大きく貢献できてよかったと思っています。