2006年9月3日日曜日

データのメタ統合

別の文脈で考えられていた新しいアイディアなり技術が、実は別の文脈で(も)有効だった、という形での革新はけっこう起きていると思います。別のものにつなげていくというのは人間の創造行為の重要な要素ですね。(Photo: jamie3529gq's Flickr)

で、最近、こんな記事を読みました。

セマンティックWebによる情報統合 〜Web 2.0と情報活用を支えるメタデータ第3回:エンタープライズの世界におけるセマンティックWeb

なるほど、と思いました。自分が知らなかっただけかもしれませんが。

セマンティックWebは、文書と文書を意味で結びつけて目的の情報を見つけやすくする技術だと思っていたのですが、そうではなくて、というかそれを応用して、データ統合に使うというのはたしかに有効かもしれません。

別々に作られたデータエンティティをゆるやかに統合したい場合、別の会社同士のデータや、まったく新しく作るアプリケーションと既存のもののデータについてデータ統合したい場合、そういうときに必ず問題になってくるのが、データのコンテクストの問題、メタデータの問題です。つまり、たとえば、RDBで同じ「ユーザ名」というカラムでも、姓と名が分かれていたりいっしょになっていたり、漢字と仮名とアルファベットがあったり、半角だったり全角だったり、桁数の制限があったり、いろいろです。そうした異なるコンテクストのデータを交換したり統合したりする際に、セマンティックWebの技術が応用できるのかもしれません。

ただし、その場合にも、データのメタ情報であるRDFとOWLの定義が非常に大変な仕事ですし、けっきょくデータ・エンティティごとに考えていかなければいけないですし、エンティティによっては非常に曖昧なデータ定義しかない場合もあるのでそれをどう統合するかというのはおそらく頭の痛い仕事となるでしょう。

ただ、標準的な技術があるというだけでも大きいのではないかと思います。

と、思って調べていたら、

メタデータリポジトリィに何を望むか −メタメタワールド−

に、データをメタレベルで紐付ける標準技術がいくつか紹介されていました。こういう技術があったんですね。まったく知りませんでした。今はどんな扱いなんでしょうか?

同時期に、

CMSの可能性を飛躍させるOfficeXMLの適用第2回:Office XMLドキュメントをデータベースで管理する

という記事もありましたが、こちらは上のデータ・コンテクストの問題が十分検討されていないように思えます。XML DBだからはい解決という問題でもないでしょう。とくに、オフィス文書のような超非定型文書を統合するのはなかなか難しそうです。おもしろい発想だと思うのですが。

0 コメント:

 
Clicky Web Analytics