寺町計算言語

計算の話や言語の話もするかも。多少は。※個人の見解であり、所属する組織の公式見解ではありません

人間を非人間的に扱いたい


前回投稿から半年以上あいてしまいました。たまには生存報告をしておきます。昨年度末、というか先月までは目の回る忙しさでした。その原因の一つがデジタルアーカイブ学会です。京大開催ということで現地運営をやっていました。

学会運営が大変という話はこれまでよく聞いていました。NLP2015 が京大で開催されたときにはちょうど京大を離れていました。当時は逃げ切ったと思ったのですが、そういつまでも逃れられるものではないようです。

デジタルアーカイブ学会はその名の通り、デジタルアーカイブに関わる学会のようです。専門外なので詳しいことはわかりません。なぜ専門外の学会の実行委員を引き受けたかというと、ボスが実行委員長だったからです。もちろんボスにとっても専門外です。ではなぜボスが委員長をしていたかというと、ボスの師匠が会長を務めているからのようです。徒弟制度のかおりがします。

大会は 3/15 (金)、3/16 (土) の2日間開催で、3/14 (木) に設営を始めました。3/12 (火) - 3/15 (金) に名古屋で開催されていた NLP2019 とまるかぶりだったということです。おかげで NLP には最初の2日しか参加できませんでした。*1 NLP2007 から毎年欠かさず自分で何か発表していたですが、それも今回で途切れました。

この日程が何を意味するかというと、研究室の主要構成員を含む、京大の言語処理関係者がことごとく名古屋に行って不在だったということです。*2 現地運営を事実上ボスと私の2人だけでやることになってしまいました。研究室の学生にアルバイトを頼むこともできません。京大生協を介して募集することしました (蓋を開けると、これは大変うまくいきました)。さらに悪いことに、ボスは途中から某重大校務に忙殺されていました。結局、年明けから大会前日までは、ほぼ完全に1人で現地運営をやっていました。*3 300人規模と、NLP とくらべると小規模な学会ですが、そんな感じで運営できるというのは驚きの発見です。私が知る他の学会では、現地実行委員はもっとたくさんいるものです。

なぜこの貧弱な人的資源でなんかなったかというと、京大生協の力が大きかったように思います。コンベンションサービスセンターが学会運営のノウハウを持っていて、私のいい加減な依頼を良い塩梅に処理してくれました。お金で解決できる手があるというのは重要なことです。今後他の機関に異動したときに同じ方法が通用するか不安です。

当日に大会の中身を確認する余裕はほぼありませんでした。プログラムに掲載された題目と、ポスター展示を眺めたのが、私の情報源のほぼすべてです。予防線を張った上で印象を述べると、私の興味とのずれが予想以上に大きいようです。スポンサー展示を見ても、アーカイブ化のための電子機器が目立ちました。情報系よりもむしろ電気系との親和性が高い可能性すらあります。

アーカイブ化した上で何をするのかが当然問題になるのですが、どうやらほとんどの場合は、かなり直接的な形で人間に見せることを想定している雰囲気がありました。*4 言語処理でもデータは作ります。データ作りは重要だと日頃から言ってはいるものの、我々が必要とするのは計算機に食わせるためのデータです。

この違いは、結局のところ人間をどう扱うかの違いです。人間という得体のしれないものを得体の知れないまま扱うことに私は耐えられません。少なくともそのようなやり方で研究を進める適性が自分にあるとは思えません。人間や人間集団が持つ機能の一部を切り出し、定量的に分析可能な形に落とし込むことで、はじめて自分の研究ができる気がしています。言い換えると、人間を可能な限り非人間的に扱いたいという欲望があるのです。

写真は吉田神社の節分祭 (2019年2月3日撮影)。2007年購入のデジカメの後継として Google の Pixel 3 を購入したところ、夜間でもブレのない写真が撮れるようになりました。

*1:短期間しか名古屋に滞在していなかったはずなのに、某先生に呼び止められて、また別の学会仕事を引き受けることになってしまいました。

*2:ついでに言えば、情報処理学会ともかぶっていて、福岡に行った人もいました。

*3:当日は他の委員に助けてもらって、かろうじてなんとかなった感じです。

*4:もちろんメターデータに関する議論がないわけではないのですが。

多様性


多様性 (diversity) という言葉の使われ方には問題があるのではないかという話をします。たぶんそんなに危険ではありません。

多様性を「ある系の中でのある観点におけるばらつきの度合い」と定義しても、それほど外していないと思います。生物多様性 (biodiversity) を語るときには、この定義で支障はなさそうです。

問題は人間に適用する場合です。人間社会で生物多様性に近い現象として思い浮かぶのは、インドのジャーティです。職業や通婚関係という点でジャーティはそれぞれ異なります。社会 (系) に様々なジャーティが存在するという点で多様です。ついでに言えば、それぞれのジャーティが補完的な役割を果たすことで社会が維持されているという点でも生物多様性と共通します。

性別は基本的に 2 種類しかありませんが、どの社会にもほぼ半々存在します。性別の点で社会は多様と言えるでしょう。

そろそろ限界でしょうか。何かがおかしいわけです。例えば性別労働分担をなくしたいとしましょう。上記の定義からすると、性別労働分担の有無に関わらず、社会は多様です。多様性は所与のものであって、系に介入することで変えるべき対象ではありません。多様性の実現を標榜する運動は、実態としては、その逆で、別の観点における均質性を実現しようとしているのではないでしょうか。(1) ある観点における均質性、(2) 別の観点における多様性の両方を満たすことが事の本質です。そうなると、多様性という言葉は不適当であり、別の言葉を用意する必要があります。

写真は生駒山宝山寺 (2017年11月19日撮影)。とにかく危険です。

どこにでもあってどこにもない


私は情報学研究科という組織に所属していて、情報学という分野の一部をやっていることになっています。この情報学の位置づけについては、学部生の頃からいまにいたるまで、いろんな人から大きく 2 通りの説明を聞いてきました。1 つは、すべての学問分野において情報学が不可欠になり、情報学自体いずれ消滅するというものです。もう一つは、情報学は旧来の文系・理系とも違う第 3 の道だというものです。そんなことはどうでもよいと昔は思っていたのですが、そうも言っていられないことを最近は認識しはじめたという話をします。

この 2 つの説明は一見対立しているかのようですが、時間軸を導入すれば矛盾しません。数理モデルを使って定式化する、計算機を使って問題を解く、それらを通じて定量性と検証可能性を確保するといったことは、いまだにそれが行われていない分野にも不可逆的に広がると思っています。問題はそれを実現する過程です。既存の分野に新たな方法を導入し、それを普及させるためには、どうするのが効率的かです。

反対にどんな問題があるかというと、数式への敵意に満ちた人々 (文系に限らず、例えば生物学にもいるそうです) への対応に限られた研究資源を浪費するといったことが現実に起こりえます。彼らは査読者として既得権を行使しうる立場にあります。既存分野のものとは別の発表媒体 (雑誌や国際会議) が作られる事例をよく目にしますが、妨害に対する有効な対抗手段という側面があるようです。

同じことは研究組織についても当てはまります。既存分野の組織に入った場合、データ分析屋さんとして従属的な地位に留め置かれてキャリア的に詰む危険があります。人事権も既得権です。この危険性は、以前はぼんやりとしか見えていなかったのですが、最近は現実のものとして眼の前に立ち現れてきました。既存のとは別の組織は身の安全を確保するために不可欠なようです。

写真は鴨川 (2018 年 7 月 6 日撮影)。大雨の日に信号待ちの新幹線から。

対人関係処理の外部化


ネタです。私も現代人の一人として、記憶の外部化を行ってきました。もはや無文字社会がどんなものだったか想像もつきません。予定の管理も計算機に任せっきりです。PC を開いていないと、その日自分が何をすることになっているのか、何もわかりません。普段は家か研究室で引きこもっているからいいのですが、たまに学会に行って PC を閉じたままにしていると事故を起こしてしまいます。

さて、このまま技術が進展するとして、この先何が起きるかを考えるわけです。そこで思い至ったのが対人関係処理の外部化です。すでに gmail が Smart Reply というメール返信の推薦を導入していますが、あれを発展させた先には何があるのでしょうか?

昔、松浦先生の『清の太祖ヌルハチ』を読んでいて、ヌルハチが毎日部屋にこもって延々と人事を考えていたというような挿話を見つけたときには、王様なんぞになるものではないなと思ったことを覚えています。しかし、よく考えると、人間は誰しもが、多かれ少なかれ群れの構成員の状態を頭の中で継続的に管理しています。人間に限らず、チンパンジーやその他の群れを作る霊長類 (霊長類に限らないかもしれませんが) も同じように、他者の状態管理を行っているようです。おそらく人間の機能の深いところに組み込まれているはずです。

しかし、昔からそうだったから今後もそのままとは限らないことは、無文字社会から移行という事例が教えてくれます。実際に、対人関係処理の自動化に対する潜在的な需要はのびていると思います。それを示す一例は、「人権意識のアップデート」という、最近見かけた気持ち悪い文言です。他人への配慮を増やすということは、他人の状態を管理するコストが増えるということであり、その背景には対人行動の選択を誤ることのリスクの増大があります。計算機に相手の状態管理を支援してもらわないと危なくてやっていられないという状態がまず到来し、そのうち支援の範囲を超えて全自動化するのではないかと妄想しています。

写真は菊水山駅跡 (2018 年 4 月 7 日撮影)。正式に廃止されたあと。

IJCNLP2017


いまさらですが IJCNLP2017 の報告です。2017 年 11 月末から 12 月はじめにかけて台北で開催されました。会場の南港展覧館は台北市内の東の端でした。官製の箱物ということで日本と似た匂いがしました。大阪の COLING と同じく、昼は弁当を配布する方式でした。コーヒーばかりでお茶が出てこなかったのが残念でした。中華圏なのに。

IJCNLP についてはこの日記でも 2013 年名古屋開催のときに言及しました。*1IJCNLP は 3rd tier の会議で、現状では喜んで投稿するところではありません。今回も、主要会議の後に投稿日が設定されていて、それらに落ちた論文を拾い集める意図が見え隠れしていました。似た名前の IJCAI が良い会議なので、その連想から、分野外の人からは良い会議のように誤解されることがあるようです。

自分の論文も、投稿したのは年度内に成仏させるためでした。予算の都合で。*2本当は問題発見編と問題解決編に分けたかったのですが、問題発見編だけの論文を査読者が拒絶したので仕方なく合体させました。無理がたたって補助資料が 6 ページになってしまいました。

一般発表で特に印象に残ったものはありません。招待講演では、Rada Mihalcea が、この世界や、この世界についての人間の認識と、書かれたものとの対応について、思った以上にナイーブな議論をしていて驚きました。言語処理のようにすべてが雑な分野だから許されているのでしょう。出るところに出たらしばき倒されそうです。

写真は松山駅 (2017年11月30日撮影)。

*1:どうもその頃は気分が荒んでいたようです

*2:さいわい次の予算も採択されて、研究は継続できています。