人間文化研究機構 第3回DH講座 対談:小川潤×亀田尭宙(1)DHと知識ベース

皆さんこんにちはこの動画はデジタル ヒューマニティいわゆるDHについてDH を活用した研究の先端を走って いらっしゃる研究者の方にお話を伺って いきますさ今回のテーマはDHと知識 ベースですでは早速先生をご紹介し ましょうえまずは国立歴史民族博物館の 特任除去の亀田明さんです人間文化研究 機構本部のDH推進室の業務にも関わって いらっしゃいます専門は学術データベース の構築で特に分野や地域時代を横断した 知識のネットワークを構築することに 携わっていらっしゃいますそしてもう1方 ご紹介します情報システム研究機構データ サイエンス共同利用基盤施設人文学 オープンデータ共同利用センター特任研究 員の小川じさんです収支家庭では西洋古代 使を研究され現在はデジタル ヒューマニティ特にデジタルヒストリーと いう分野で資料を始めとする歴史知識の データ表現構造化に関する研究に携わって いらっしゃいますお2人ともどうぞ よろしくお願いいたしますよしますあの まずは知識ベースということなんです けれどもあのDHがあでその中に知識 ベースというのがあるということですよね なんとなくあってますそうそうですねあの デジタルヒューマニティという分野がま まずあってまそこでは本当にいろんな研究 が行われていると思いますあのテキスト 分析であったりとかまネットワーク分析等 ですねまただそのま何中かの分析をする時 にまやはりその基盤となるデータの部分が 必要だということでまそこをしっかり作っ ていきましょうというような動きまこれも 実はデジタルヒューマニティという分野の ま1つの重要な研究分野になっています うんでまさにそのですねあの例えば資料を なんか読んでいた時にま人名が出てくると かですね地名が出てきた時にじゃその人物 って誰なんだとかこの地名ってじゃどこに あってっていうような情報っていうのはま 必ずしも資料の中に例えば書かれてないて 場合にでもそういう情報をどっかで参照し たいみたいなケースっていうのはま人文学 特にあの私が専門にしている歴史学なので はま応にしてあるですねまそういった時に まそういった情報参照するために使える データうんまここではデータと言ってい ますがつまりそのデータっていうのはま 知識という風にも言いますな知識として 使えるようなまデータをしっかりと作って いってえ人文が研究に携わる人たちま特に デジタルヒューマニティの研究をする人 たちがまそれを活用できるようにし

ましょうというようなま動きが国際的にも かなり進んできているそのでま中に含まれ てはいるでここにたくさんの知識がだから 溜まってるわけですねおってのをはい知識 ベースていうこと別の市とかとちょっと別 にそういう基礎知識みたいなものを作って いきましょう貯めていきましょうっていう ようなまイメージていう風に思って いただければいいかなとすごいざっくりと してますけれも思いますうんうん小田さん どうですかそうですねえっと分かりやすい イメージとしては図書館に入った時に えっとま表の方とかに近体質でその大きな 自転類がずっと並んでたりとかすると思う んですけどもあれに相当する図書館の いろんな本の中であに相当するものていう のが知識ベースだというえっと思って いただければ分かりやすいかと思います うんえっとでそこにはやっぱりその地名の 情報だとか先ほどおっしゃったような情報 があったりだとかもっと専門的なものに なると材料がどういうあの木材にどういう 種類があるだとかそういうのも知識ベース として捉えられますしそれによって それぞれここの資料が読みやすくなるって いうのはえっとま共通して言えることかな と思いますはいその図書館に行って たくさんのこう時点が並んでるじゃない ですかはいそれじゃダメなんですかえっと それではえっとま人間が呼んで活用する ことはできるですけコンピュータはそれ そのままはしないのでに構造化されている データとしてえっと入ってないとえっと コンピューター使えないわけですね例えば その構造っていうのどういうのがあるかと 言いますとえっとま地名に関して言えば えっとま最近だと市長村の統合って多い ですからえっとこの村はここに統合され ましたっていう自系列の情報だとかあとは この村はこの件に続してますっていうその 上下関係に関する情報だとかっていうのが 構造になりますで人命だとまよくある あのプロパティとしてまいつ生まれたかと かえっと誰と付き合いがあったかとかそう いうそのそれぞれの情報においてよくある えっと周辺の情報っていうのを構造化した ものっていうのがえっとコンピューターに 貯められているとそれを使ってえいろんな あのままとめあげたりだとか貸化したりだ とかそういう時にえっと使うことができ るってことものになりますうん今のお話を 聞いているとだから図書館との違いとして はやっぱりそのコンピューターがちゃんと 処理できるっていいになってるってことも 大切まそれが必要だということになるん

ですねはいまそれはあの捉え方によってま 広く捉えるか狭く捉えるかていう話は もちろんあってま広く捉えれば知識ベー スって言ったら別にデータとして機会が 読める形でなくてももちろんま人間が使っ てそっから何中の知識を抽出できるもので あれば知識ベースと言えるかと思うんです がただまデジタルヒストリーの分野でま 一般的に知識ベースって言った場合には やはりそのデータとして構造化されて知識 として活用できるようになっているものと いう少し狭い 定義でのま知識ベースていう方が一般的か なという風には思いますちょっと具体的に どういうものか見せていただくとより 分かりやすくなるのかなと思うんです けれどもはいただその前にちょっとあの僕 カメダさんにお伺いしたいことがでま今の お話ってのは結構その人文学のまデータ ですよねなか人名とか歴史人名とか歴史の 地名とかまそういうのをこうどうする かって話だったと思うんですがまでもこの 知識ベースましかもデータとしてその知識 を実績してくみたいな話っていうのは元々 はやっぱり情報がの方でま専門的にやられ ていたことでま我々人文学の立場としては まそれをこう取り入れながら思考錯誤して いるっていう段階だと思うんですねまなの でまそもそも知識ベースってその情報額の 方のカメラさんの元々のバックグラウンド の情報学の方だとまどういう風に捉えられ てるのかなってところをちょっと私として もあの個人的に関心があってあのお聞きし たいと思いますま知識ベースっていうもの があのより広くとかまん者にえっと意識さ れるようになったのはえ1980年代に えっとま人工知能で言うと2つ目のブーム と言われるブームがあるんですけれども その時にエキスパートシステムつまりその 専門家の知識をあのと同様のものを コンピューターにやらせるっていう システムが流行った時にえっとそのじゃ その専門家の知識に相当するものっていう のをちゃんとそのコンピューターが読める ように書いておいて貯めておくっていう ことをしたのでえそれが知識ベースと呼ば れるようになったっていうのがそれがま あの知識ベースの1番のま原という言える だと思いますでまそれが80年代と申し ましたけれもその後まWeが登場して いろんな技術が発展してて形でえっとま どんどんと変化はしていくんですけど今 現代に至るまでその貯められた知識とそれ から水論つまりその3段六法だとか何か こう条件を絞っていってあの当てはまる

ものを見つけるだとかそういうことをする え水論のエンジンとその2つを持って えっと何かを取り出すっていうことは今で も行われているのでそういう意味であの 知識ベスっていうものは有よなあの カテゴリーになっていますうんうんうん ありがとうございます確かにだから知識 ベースっていうのがないと今の生成AIと かもうんまそもそもが無理だ出現しなかっ たっていうことなんですかねそうですね えっとその第2のえっと人工知能のあの ブームと第3の今今今が第3なんです けれどもその生成愛を含めてのブームとで はちょっとアプローチが違っていてあの データをあのたくさん集めればあとはそれ をうまく学習する機会があればえっとそれ でAIが作れてしまうっていうのはま今の あれブームなんですけれどもその学習の ところにあの人間のような明治的な ロジックがなくてもま人間のようなと言っ てもま人間もその曖昧なロジックも使っ てると思うんですけれどもその明治的な ロジックがなくても学習できてしまうって のが今のあのやり方なのでそれとその えっと第2のブームとでは少しアプローチ が違うっていうのがえっと多くの人の捉え 方だと思いますあなるほどじゃあどう でしょうちょっと実際に具体的にどういう ものがあるのかいはいはいえっとですねま 私の専門はあの先ほどですね西洋題しと いう風にご紹介いただきましたけれどもま 特にローマをあの専門にしていましたで えっと実は西洋題しの分野っていうのは あの欧米のデジタルヒューマニティの分野 だとまかなり進んでいるところでまデータ の整備であったりとかかなり進んでるん ですねでますごくあの有用なツールって いうのがあの開発されていてま例えばあの 知識ベースって言った場合にまいい例に なりそうなのがですねま例えばこの プレイアデスっていうあのものがあります これどういうものかと言いますとえっとま 古代からま中世の初めぐらいにかけてのえ 地中海地域ですね主に地中海地域のえ地名 のま辞書ということになりますでま例えば ですねここのあの検索のところにま今 ローマと入ってましたがままたローマと 入れてみてうんうんえっとそうするとです ねまローマってつく地名はあの大量にある ので出てきてしまうんですけれどもまあの 皆さんよくご存知のあのイタリアの人 ローマはまこれですねはいローマとやると まこういううんでですねあのローマの情報 がま出てくるようになっていますでこれ あの具体的にどういうものかと言いますと

ままずここにローマって一面はもちろん タイトルとしてありますけれどもあの いろんな関連情報がここに紐付けられて いるまデータとして紐付けられてるという ものです例えばまもちろんですねあの位置 情報いわゆる座標情報ですねあの井戸軽度 の座標情報ってのはもちろんこういうとこ にですねあの紐付けたり記実されてますし まあるいはですねその名前なんですけれど もまこれもただの名前が1個ボってあるの ではなくてま各時代でまどういう風に呼ば れてましたとかまあるいは違う言語ですよ これ1番上なんかロメっていうあの ギリシャ語ですねこれ古代ギリシャ語で ローマのことをまこういう風に表記します よっていうような情報がついていたりとか ですねまあるいはこの下のところはま コネクションってありますけれどもその ローマと関連のあるえっとま他の場所で あったりとかまあるいは何らかの例えば 施設とかですねまそういうものがこういう 風に関連関係性を書く形であの 格納されてるということになりますでま これはローマから出る関係性とまローマに 繋がってくる関係性みたい一応なんか分れ ていてま例えばローマに繋がってくる関係 性を見るとえっとまこういうですねあの 色々なまこのアレスとかっていうのはあの 建物なんですけれどもなので地名ではない 正確にあの実はこれ建物とかも含んでいる データベースでえっとまこういうですね何 がローマにあったかロケテあ何がローマに あったかっていうような情報があの記述さ れていたりしますなのでこういうのを使う と例えばあの当時ですねローマにまどう いう建物があったかみたいなことをこう 知りたいって時にまこういうデータから ですねあのロティアでローマと繋がってる ものを全部取ってききなさいみたいなです ねあの検索をかければ当時ローマにあった 建物の例えば一覧が勝っててるとかまそう いう形であのまローマっていう1つ の都市ま場所に関するま知識っていうのが あの席されているここに席をされいるとま こういう形でですねあの知識ベースという のがあの例えば西洋古代の分野だと作られ ていますでまこれもちろん検索して見てて もあの個人的にはすごく面白いんですね あのいろんな地名とか入れてどういう データが作られてるかなって見るのも すごく面白いんですけれどもまより高度に 使おうとすると例えばさっき市場より有効 に活用できますってお話もあったと思い ますけれも例えば市場を読んでてまロー マっていうあの名前が出てきたとそしたら

まそこのローマって出てきたところとま このですねデータを何らかの形でデータと してつげておくとそうすると例えば使用の 中ではあの当時のローマにどういう建物が あったみたいな直接的な記述がなかったと しますよねだけどもここが繋がっていれば その外部の知識にアクセスをしてそこから 当時のローマがどういう状況だったかとか あるいはどういう名称だったかとかですね どういう建物があったとかそういう関連 情報を引っ張ってきてで資料を読みながら あローマって当時こういうものがあったん だなとかっていうのをこう参照しながら 資料を読めるみたいなですねあのもちろん これは人手でやろうと思えできるんです けれどもまただそこをこうデジタルデータ としてつげておくことでま色々な処理が 可能になったりとかあのアプリケーション として何か地図上に例えば表示するとか そういったことも可能になってくるという ことになりますはいまなのでこれは ちょっと代表的な例としてはい地名のあの 知識ベースの例としてあげさせてるふこれ があるとないでは小川さんの研究はだいぶ 違うそうですねはいあの例えば私のま元々 のローマの研究だとえっと分の資料って いうのをよく使っていました分っていうの はま石にあの文字が刻まれている資料です けれどもま例えば碑文の資料とかってあの 結構地方とかでも出てくるんですねつまり あのローマ帝国の中心はもちろんイタリア ローマ近くですけれどもえっと実はま ローマ帝国ってのはまご存知のようにです ね今のイギリスえブリテン等まで及んでい たとでえっとブリテン島でも多数の分が出 てきてるなんですがまその中に例えば出て くる地名ってやっぱり例えばローマとか ですねなんかエジプトのアレクサンドリア とかですねそういうところのメジャーな 名前と比べるとま誰も知らないような地名 とか結構出てくるうんなんですけれどもま こういうところでですねしっかりそういう 地名もカバーして整備をしてくれていると まそこにも繋ぐだけでいかにマイナーな 地名だからあんまり知識がないてことです ね事前の知識を持っていないような地名で あってもえっとそういうところと繋げる ことでそこに対してま情報を追加していく ことができるというかあのうんそういう 使い方があのできるという点ではま ものすごく便利になっていますはい知識 ベースってすごいですねカメラさんなんか 大切なものなんですねあの僕もあの知識 ベースあの日常に研究に活用させて いただいていてま特に僕がよく使っている

のはウキデータと言われるような知知識 ベースがありましてまウキペディアは多分 皆さんご存知だと思うんですけれども そちらはまあの先ほどの講義の知識ベース で人間が読んで利用するような知識のため 貯めるあデータベースていうのが Wikipediaですけれどもそれを よりあのコンピューターが利用しやすくし たようなものていうのがま武器データって いうものがありましてでそれを使ってそこ にある地名だとか人名だとかそういうもの を自分たちのデータに紐付けておくことに よってえっとま同じものをちゃんとさせる ようにしたりだとか他のプロジェクトでも 同じものをさしてるっていうことが分かり やすくしたりだとかそういうことをえ日常 的にあの活用させていただいています うんあのよくデジタルアーカイブっていう のも最近聞くと思うんですけどこのこれ 画面を見てるとなんとなくなんか重なる ところもあるのかなと思ったんですけど そのデジタルアーカイブとこの知識ベー スっていうのはどういう関係性になるん ですかえっとデジタルアーカイブは それぞれの資料をデジタル化してそれを 検索したりだとか覧したりだとかできる ようなシステムになってますでもちろん その資料の情報の中には人名が入ってい たりだとか歴史歴史的な時代の名前が入っ ていたりだとかそういう情報はあることは あるですけれども例えば人名がちょっと 揺れていたりつまり名前があの途中で名前 が変われる方がいらっしゃったりだとか あとはその職位が変わってちょっとあの 表現が変わるだとかえそういう揺れがあっ てもちゃんと同じ人だよって吸収するよう なあのデータベースがないとえそれによっ て集合あの集約して検索できなかったりと かするのでまそこに知識ベースの生きる 部分があったりだとか地名に関しても えっとそれぞれの地名にはそれぞれの資料 に書かれていたりもしくはえっとそれの メタデータとしてけられてることはあるん ですけれどもえ先ほどその上位会つまり えっとどこの件に属しているかっていう 情報ががあのそこにはやっぱり直接は なかったりするのでえそっからそこに知識 ベースとしてのえそういう情報を持ち込む ことでえもう少しえっとまとめ上げたりだ とかいうことができるようになるとそう いう意味でそのあとデジタルアーカイブを 閲覧利用する時にえそれをあの助けるよう な知識のあの集積っていうのがま知識 ベースだということができると思います うんうんお母さんはどうフはいあそうです

ねあのまあのデジタルアーカイブと知識 ベースのまなんてうんですかね区別という かま最です今まさにカメラさんが おっしゃったようにあのまデジタル アーカイブというのはやはりその資料をま 検索をしたりとかでもちろんそこに資料の メタデータがついているのでまそのメタ データをま見るってことはもちろんできる んですけどもただそのメタデータま例えば じゃ著者Aさんみたいになった時にでも このAさん自体に関する情報っていうのは まデジタルアーカイブにはま必ずしも含ま れていないわけですよねまなんですけども まこのAさんっていう情報もま欲しいだ この人はどこで生まれていつ亡くなって いつの時期にどこにいた人だていうような 例えば情報があるとまそれによって例えば 資料自体をよりコドに検索するみたいな こともまできるようになってくるわけです よねまだから例えばある時期のえある場所 にいた人が書いた著作みたいなものを検索 したいみたいなですねそういう時にこの 自体に関する詳細な情報が欲しいとそう いう時にそれが知識ベースの方でこのA さんというのはまさに地名の人番みたいな 感じですよねAさんがいてまこういう人 ですみたいな溜まっているとそちらを参照 してそれを使うことでまデジタル アーカイブの方でもより高度な検索だっ たりとかまあるいは何らかのま歌詞化分析 みたいなことまでまそれはちょっと デジタルアーカイブの半長を超えるかも しれないですけどもま可能になるとうん いうことかと思いますはいあとま補足なん ですけれどもえっと今のはその知識ベース を使ってデジタルアーカイブを見る話をし てたんですけれどもじゃあその知識ベース はどうやって作るのかって考えた時には えっと元々は多分それは資料に書かれてい たりだとかそういう情報もあったりする わけなのでえっとそういう資料からえ知識 ベースを作るってこともありますしえっと その紙紙の辞書から作るってこともあり ますしそういった色んなような形で知識 ベースっていうのもま元々ま初めから存在 してるわけでないのでま作られていって いるものですまたそのその知識ベースの中 だこう経を検索してもそのデジタル アーカイブなしで知識ベースの中だけでも えっと面白い知識が得られることっていう のもあるっていうのもまえっと大事なこと で例えば人のえっとリストっていうのが あった時にえっとそれを時代中に並べると この時代にえっとこのえこのタイプの人が 多くいたととかえそういうことが分かっ

たりするのでその知識ペースの中だけでも 知識があの面白い知識が取り出せることっ ていうのはえ応にしてあります次回以降 ですねそれぞれお2人が研究の中で知識 ベースっていうのをどういう風にいあの 使われているのかってのお話しいただくん ですけどま第1回目としてこの知識ベース がキーワードとしてお2人がその知識 ベースにそうやって魅了されるそのポイン トってどういうところでしょうかはい えっと僕はそのそもそもになんかまウキ データとかWikipediaの編集も よくやってるんですけれどもあのそそこに なんか知識がま整理されてない状態であっ たりするとそれをちゃんと整理して書いて いきたいみたいな気分が強くてですねで それでま携わることも多いです一方で単純 にえっとその知識がえ増えてくれるとそれ によってもうなんか世の中の社会問題の 見方とかがもう少しあのちょっとレベル アップしてくれないかなっていう気持ちも あってまそういう社会貢献に繋がってくれ ないかなと思ってやってる側面もあり ますはいあの私はですねまあの バックグラウンドがま歴史学ということで えっとま歴史学はやっぱりこう資料読んで まそっからな中の情報をこ抽出をすると いう作業をまやるわけでけもただまあの 伝統的な歴史学においてはやはりそのま 自然言語を使って基本的には作業するわけ ですね資料自体も自然言語なので自然言語 を読みでそれから得られた知識っていうの ももちろん論文であり歴史なりって形で 出すわけなのでまそれももちろん自然言語 であるそこの間にあるその解釈って プロセスが入りますよね歴史学者の資料を 読んでそれを何らかの形で解釈をしてま それを術するというところでまこの解釈 ってプロセスが入ると思うんですがまこの プロセスもて全て自然言語で表現をされる わけですね基本的には従来はというかなん ですけれどもまさっきのカメダさんのお話 のようにま知識ベースって0からできる わけではなくて何らかの資料に基づいて そっからやっぱり知識を拾ってきて知識 ベースって形にするとうんいう形で知識 ベースが構築されていくわけなんですが ただここに新しい要素が1つあると思って いて自然言語からやっぱり構造化された デタとこにこう変換をしないとあの知識 ベースにならないてことなんですよねでま やはりここのその変換するところでま 例えばどういう情報がまま捨てられる可能 性もあるわけですねある自然言語で豊かに 表現されてたものが何らかの構造のデータ

にしなきゃいけないってなるとやっぱり その抽象化されてしまってあの情報が車掌 されるっていうあの側面もある一方でま やっぱりそのデータを作るってこと自体が どういう解釈に基づいてどういう構造の データを作るのかってところを考えないと いけないうんてことなのであのまもう本当 に個人的にはもう歴史をやってたところの 延長戦上で結局解釈をどういう風に出して いくかってところでもちろん自然言語の形 で出すっていう方向もありつつ一方でこう いうデータ知識ベースっていうのを作 るって方向でそういう作業をしてくって いう可能性もあるのかなってちょっと思っ てそこが面白いなと思ったところですね今 までは結局解釈っていうのはその自然言語 である種個人芸というかあのま本当に センサ万別の解釈ま解釈があって術があ るってところがまある種共有可能なデータ として知識を構造化してくっていう時に どうすればいいのかなていうまでこ れってまだ全然答えが出てないというか うんうんあの本当に色々考えなきゃいけ ないことがある分野だと思うのでまそこが すごい面白いなと思ったのでまこういう ことに関わってるという感じです はい聞いてていかがですかあそうですね あのまさにその知識ベースの表現の仕方が 色々まだあるっていうのはえっとまさに おっしゃる通りで面白いところだと思って ます同じことを表現するのにも見方が違う 人が表現すれば違うようになったりだとか そういうこともあるわけででもちろんそれ はえっと共有の見方を作るために作ること もできますしそれ異なる味方を明治的に 表現するために作ることもできますしえ それはあの知識ベースのあのさらなる可能 性だと思っているのでそこら辺はさらに あの発展があれば楽しい思っますはいさ それではじゃ次回は具体的にそれぞれの 研究者の皆さんがどのようにこの知識 ベースを使って研究されてらっしゃるのか お話を伺っていき ます

第3回DH講座 対談:小川潤×亀田尭宙(1)DHと知識ベース
【出演】
小川 潤(情報・システム研究機構 ROIS-DS人文学オープンデータ共同利用センター 特任研究員)
亀田 尭宙(人間文化研究機構 DH推進室/国立歴史民俗博物館 特任助教)
久保田 智子(TBSテレビ報道局)

DH講座第3回は「DHと知識ベース」。人文学の情報(=知識、データ)をどのような手法で活用していくのか? デジタル・ヒューマニティーズの具体的な取組みについて、DHを活用した研究の先端を走る若手研究者2名がレクチャーします。

▼この講座の続きはこちら

▼再生リストはこちら

* * *

人間文化研究機構は、第4期中期計画(2022年4月から2028年3月まで)の重要課題として「デジタル・ヒューマニティーズ(DH)」の推進を掲げています。

人文学のさまざまな研究にデジタル技術を応用するだけでなく、「人文学をますますおもしろくする」ことを目指して、研究者や社会の人々が議論できる場をつくり、次世代に向けた新たな研究基盤をつくろうとしています。

その一歩として、動画シリーズ「DH講座」を公開しています。
これまでの講座は下記「動画コンテンツで学ぶ」からご覧いただけます。
https://dh.nihu.jp/video

人間文化研究機構 デジタル・ヒューマニティーズ(DH)促進事業
https://dh.nihu.jp/

Leave A Reply