1999年2月5日
院生自主学習会
江草由佳
Chinese Library(CLib)はシンガポールでの試験プロジェクト (http://mentor.iss.nus.sg:8080/)として 開始された。このプロジェクトは異なる書誌情報の図書館データベースを 分散的に多言語検索することの実証実験の為のものである。 まず、フェーズ1として主に英語ベースのコンピュータ化された 図書館システムにおいて中国語書誌レコードへのアクセスを支援することに 重点を置いた。シンガポールの1つの地域図書館と 2つの大学図書館がテストサイトとなった。
Clibは、CGIプログラム、言語サーバ、Clibサーバ、Z39.50クライアント Clibクライアント、Clib 多言語検索エンジンからなる 三層構造のシステムである(図2参照)[2]。
内部的にはCLibは全てのデータをUnicodeで表現している。 定義によればUnicodeは図書館の領域で利用されている一般的な全ての 中国語文字を表現するのに十分ではない(つまり、約20のEACC文字が欠けている)。 しかし、欠けた文字を扱うように容易に拡張できCLibではそのようにした。 異なる符合化体系の間での効果的な混成語(interlingua)となり、 さらに、CLib自身の中でコード変換 する必要がないということも意味している。
利用者は検索をする時に文字コードを選択することができる(図3参照)。 CGIプログラムは、利用者から多言語の検索質問を受け取るときや、 多言語の検索結果を返す時に、言語サーバを呼出し、文字コードを変換する。
メタデータレポジトリはシステムが利用できるそれぞれの図書館の システム資源の情報を持っている。 例えば、サーバのタイプ、文字コード、検索能力、サポートしているサービス、 データ形式、アトリビュートとのMARCの対応表などである。
検索結果の形式は様々なものがあるが(図8、図9参照)、 メタデータレポジトリのアトリビュートとのMARCの対応表を利用して、 ソートを行なう。
ユーザはWWWを通じてCLibにアクセスし多言語の検索式を指定した図書館に送り、 中国語を表示できるブラウザで書誌情報を受け取る。 CLibサーバは中国語をサポートする図書館にZ39.50プロトコルを使って 検索を送ったりローカルの多言語データベースを検索したりする。 結果は返ってきたものを照合しフィルタに掛けてソートされる。
ユーザの検索を追っていくと次のような問題点が見かけられた:
CLibではユーザが中国語文字入力と表示に好きな符合化方式を 用いられるようにしている。 始めにユーザは符合化方式を選ぶように促される(図3参照)。 選択が正しくなければ手続きは進まない。 その後システムはユーザからの入出力を全てコード変換する。
ある符合化が選ばれるとユーザには中国語と英語の交じった検索式が 書名、著者名、件名、キーワード(全文)に対して検索が可能で 検索画面が提示される(図4参照)。 ユーザは検索すべき図書館を選ぶこともできる(図5参照)。
システムは次のような問題点を解決することにより分散した相互運用性を 構成した:
1つ目のレコード(図8)では検索できる書名フィールド(245)は Hanyu-Pinyinの音素ベースの 実際の中国のローマ字形である。 また逆に実際中国語書名は解釈されない検索対象でないコメント(880)に 記録されている。
2つ目のレコード(図9)は全フィールドが多言語である CLibデータベースのものを示している。 この場合には著者(100)、書名(245)と他のフィールドが 中国語文字列を記録し、すべて検索可能である。
蓄積と検索の多様なレベルでの中国語サポート為にCLibは、 検索の基準を各図書館のサポートの仕方に変えなければならなかった。 さらに、Hanyu-Pinyinが検索に使われると間違ったヒットが返される (読みで検索する為、多くヒットしてしまう)ので、 さらにレコードが返ってきた後で実際の中国語文字列(漢字)に基づいて フィルタリングが施される。
選択した図書館に検索基準を分散した後、CLibは結果の照合と表示の為の 書誌レコードのマージを行なう。 中国語文字列は適切なフィールドから抽出され、 適切な場所での表示に使われる(図6参照)。 様々な照合オプションが提供され、これは異なる中国語のソート順序(画数、 Hanyu-Pinyinなど) を考慮した検索フィールドによるソートを含んでいる。 書誌レコードはフルMARCレコードや異なる詳細さで表示される。 印刷や保存オプションはブラウザの機能によって提供されている。
CLibフェーズ1では中国語書誌情報のサポートを行なったが システムのUnicodeでの開発により他の言語もすでにサポートされている。 さらにフェーズ2での拡張はCross-Language Searchingを含んでおり、 様々なMARCのFull Mixedやマルチバイト言語のサポートを統合する。 また、タグセットとデータフォーマットをDublin-Coreに拡張し、 分散された情報源からのランク付き結果に対する洗練されたマージを追加する。
< http://www.elsevier.nl:80/cas/tree/store/comnet/free/www7/00/index.htm>
この文書は LaTeX2HTML
翻訳プログラム Version 95 (Thu Jan 19 1995) Copyright 1993, 1994, Nikos Drakos, Computer Based Learning Unit, University of Leeds, を日本語化したもの(95 (Wed Mar 1 1995) 版)を用いて生成されました。
-split 0 -no_navigation -no_subdir 19990205.tex
.
翻訳は Yuka Egusa によって Wed Apr 14 17:46:26 1999 に実行されました。