1999年2月5日
院生自主学習会
江草由佳

分散型中国語書誌情報の検索 [1]

Chinese Library（CLib）はシンガポールでの試験プロジェクト（http://mentor.iss.nus.sg:8080/）として開始された。このプロジェクトは異なる書誌情報の図書館データベースを分散的に多言語検索することの実証実験の為のものである。まず、フェーズ1として主に英語ベースのコンピュータ化された図書館システムにおいて中国語書誌レコードへのアクセスを支援することに重点を置いた。シンガポールの1つの地域図書館と 2つの大学図書館がテストサイトとなった。

システムの構成

Clibは、CGIプログラム、言語サーバ、Clibサーバ、Z39.50クライアント Clibクライアント、Clib 多言語検索エンジンからなる三層構造のシステムである（図２参照）[2]。

文字コードはUnicode

内部的にはCLibは全てのデータをUnicodeで表現している。定義によればUnicodeは図書館の領域で利用されている一般的な全ての中国語文字を表現するのに十分ではない（つまり、約２０のEACC文字が欠けている）。しかし、欠けた文字を扱うように容易に拡張できCLibではそのようにした。異なる符合化体系の間での効果的な混成語（interlingua）となり、さらに、CLib自身の中でコード変換する必要がないということも意味している。

多言語の検索質問を受け付ける[1]

利用者は検索をする時に文字コードを選択することができる（図３参照）。 CGIプログラムは、利用者から多言語の検索質問を受け取るときや、多言語の検索結果を返す時に、言語サーバを呼出し、文字コードを変換する。

メタデータレポジトリ[1]

メタデータレポジトリはシステムが利用できるそれぞれの図書館のシステム資源の情報を持っている。例えば、サーバのタイプ、文字コード、検索能力、サポートしているサービス、データ形式、アトリビュートとのMARCの対応表などである。

異種の結果のソート[1]

検索結果の形式は様々なものがあるが（図８、図９参照）、メタデータレポジトリのアトリビュートとのMARCの対応表を利用して、ソートを行なう。

ユーザはWWWを通じてCLibにアクセスし多言語の検索式を指定した図書館に送り、中国語を表示できるブラウザで書誌情報を受け取る。 CLibサーバは中国語をサポートする図書館にZ39.50プロトコルを使って検索を送ったりローカルの多言語データベースを検索したりする。結果は返ってきたものを照合しフィルタに掛けてソートされる。

言語のサポートにおける問題点

ユーザの検索を追っていくと次のような問題点が見かけられた：

入力と表示: ユーザは中国語の表示がWWWブラウザを必要とする。（国やアプリケーションやユーザの設定に依存する。）中国語の入力法はローマ字形式での検索が可能であっても、必要とされることがある。
エンコーディングスキーマ: アルファベットが1バイトのASCIIで符合化されているのに対し、中国語文字の内部表現はマルチバイトで大きく異なる。一般的な中国語の符合化にはGB, Big5, HanZi, CCCII, EACC(in Library)があり、文字形式がサポートされていなければローマ字化されたHanyu-Pinyinがある。

システムの動き

CLibではユーザが中国語文字入力と表示に好きな符合化方式を用いられるようにしている。始めにユーザは符合化方式を選ぶように促される（図３参照）。選択が正しくなければ手続きは進まない。その後システムはユーザからの入出力を全てコード変換する。

ある符合化が選ばれるとユーザには中国語と英語の交じった検索式が書名、著者名、件名、キーワード（全文）に対して検索が可能で検索画面が提示される（図４参照）。ユーザは検索すべき図書館を選ぶこともできる（図５参照）。

問題点と対策

システムは次のような問題点を解決することにより分散した相互運用性を構成した：

標準表現の欠如

図書館書誌情報の交換フォーマットとしてMARC標準が受け入れられているが、そのままで中国語のマルチバイト符合化をサポートしているものはとても少ない。 MARCの性質（flavor）が与えられても図書館ごとにMARCのフィールドがどの書誌情報をどれくらい符合化しているかというものが大きく異なっている。そのため、Z39.50 Bib-1 tag set は書誌データベースを相互運用性の為の標準として提供されているがこれはどのフィールドが検索できるかだけを指定し、そのフィールドに何が記録（表現）されているか指定しない（MARCの実際のタグは指定しない）。従ってCLibシステムは各図書館データベースに登録された指定のMARCフォーマットのマップを持たなければならず、検索を適切なフィールド検索にマッピングした。

異種中国語サポート

マルチバイト符合化をサポートするシステムは大きく異なり、大抵はベンダーごとにまちまちである。図８と図９に中国語サポートが異なるレベルの 2つの書誌レコードを示す。

1つ目のレコード(図８)では検索できる書名フィールド(245)は Hanyu-Pinyinの音素ベースの実際の中国のローマ字形である。また逆に実際中国語書名は解釈されない検索対象でないコメント（880）に記録されている。

2つ目のレコード（図９）は全フィールドが多言語である CLibデータベースのものを示している。この場合には著者（100）、書名（245）と他のフィールドが中国語文字列を記録し、すべて検索可能である。

蓄積と検索の多様なレベルでの中国語サポート為にCLibは、検索の基準を各図書館のサポートの仕方に変えなければならなかった。さらに、Hanyu-Pinyinが検索に使われると間違ったヒットが返される (読みで検索する為、多くヒットしてしまう)ので、さらにレコードが返ってきた後で実際の中国語文字列（漢字）に基づいてフィルタリングが施される。

インデクシングと中国語の検索

中国語のデータを持つ図書館で図書館システムがそれをサポートしていない時 CLibは全てのフィールドで全面的な多言語サポートを提供する書誌データベースを開発した。これは洗練された名前と一定水準の全文検索をサポートしている。このデータベースは図書館システムと統合的でなく定期的なバッチ更新を必要とするというトレードオフがある。

選択した図書館に検索基準を分散した後、CLibは結果の照合と表示の為の書誌レコードのマージを行なう。中国語文字列は適切なフィールドから抽出され、適切な場所での表示に使われる（図６参照）。様々な照合オプションが提供され、これは異なる中国語のソート順序（画数、 Hanyu-Pinyinなど）を考慮した検索フィールドによるソートを含んでいる。書誌レコードはフルMARCレコードや異なる詳細さで表示される。印刷や保存オプションはブラウザの機能によって提供されている。

さいごに

CLibフェーズ1では中国語書誌情報のサポートを行なったがシステムのUnicodeでの開発により他の言語もすでにサポートされている。さらにフェーズ２での拡張はCross-Language Searchingを含んでおり、様々なMARCのFull Mixedやマルチバイト言語のサポートを統合する。また、タグセットとデータフォーマットをDublin-Coreに拡張し、分散された情報源からのランク付き結果に対する洗練されたマージを追加する。

参考文献

1: Leong,M.K. ;Cao,L. ;Lu,Y. Distributed Chinese Bibliographic Searching. Communications of ACM. vol. 41, no. 4, April, 1998, p.66-68.
2: Cao,L. ;Leong,M.K. ;Lu,Y.;Low,H.B. Searching heterogeneous multilingual bibliographic sources. Computer Networks and ISDN Systems. Vol. 30, No. 1-7, April, 1998, p.612-615.
< http://www.elsevier.nl:80/cas/tree/store/comnet/free/www7/00/index.htm>

図

図１: システムイメージ
図２: システム構成
図３: コード選択画面
図４: 検索画面
図５: 図書館選択画面
図６: 簡易表示画面
図７: 詳細表示画面
図８: MARC表示画面（１）
図９: MARC表示画面（２）

この文書について...

コマンド行は以下の通りでした:
jlatex2html -split 0 -no_navigation -no_subdir 19990205.tex.

翻訳は Yuka Egusa によって Wed Apr 14 17:46:26 1999 に実行されました。

英語文献のページに戻る
 研究のページに戻る

Yuka Egusa
Wed Apr 14 17:46:26 1999