寺町計算言語

計算の話や言語の話もするかも。多少は。※個人の見解であり、所属する組織の公式見解ではありません

沈黙


たまには時事ネタを見てみましょう。取り上げるのは流出した G 社の内部メモ (以下 Damore メモ) です。危険な話題です。慎重にいきましょう、と言いたいところですが、ヘッジしまくると日記の分量では収まらなくなります。要点だけを書きます。やはり危険な話題です。

そもそもアメリカで、特に大学で異常が起きていることを知ったのは、当時 Harvard の学長をしていた Lawrence Summers が辞任に追い込まれた事件がきっかけでした。いま調べると、発言が 2005 年で、辞任が翌年でした。気がつけば、もう 10 年以上も前です。Summers の事件は今回の事件とよく似ています。いずれも男女の違いを分布の違いと見ていました。Summers は平均が同じで分散が違う (男の方がすそが長い)、Damore メモは分散は同じで平均が少しずれているという説明です。どの形質を取り上げるかにもよりますが、情報系に関わる形質であれば、Summers の説明の方が実態に近そうだと私は推測します。ともかく、2 つの分布は大きく重なっていて、個人に対する説明能力がないことを Damore メモは強調しています。今回の事件を批判的に取り上げた記事は、軒並み分布に関する議論を無視していました。厳しい気持ちになります。

性差に関する話はここまでにしましょう。問題の本質は、対立する 2 つの立場のうち、一方が他方を権力によって黙らせる (silencing) こと、その結果、イデオロギーが科学に優越し、一方の意見だけが表明され続ける echo chamber ができあがっていることです。James Damore が G 社を解雇されたことで、この点に関する Damore メモの正しさは実証されました。多様性というお題目に異論はなくとも、具体的な実装となると、かくも危険な状態に陥りがちです。言語処理分野でも、アメリカを中心に、多様性について盛り上がっている人たちがいますが、あまりにナイーブで、見ていて不安になります。

あと、いろんな反応を見ていて気になったのは、メモの質を理由に解雇を正当化する言説が目立つことです。Damore メモは単なるメモで、典拠を全然示していません (追記: 典拠がないように見えたのは、リンクが消えた平テキスト版を見ていたからで、元文書はいろんな文献をリンクの形で引用していました)。根拠となる論文を引用して武装することもできたでしょう。しかし、質を理由にするのは筋が悪いです。対立する 2 つの立場のうち、一方はどんないい加減な憶測も流し放題で、他方は完璧でなければ存在を許されない (仮に完璧な議論が存在したとして、それでフェミニストが納得するとも思えませんが) という非対称的な構造が、科学に対するイデオロギーの優越を支えています。

過去を振り返ると、Marr の学説も Lysenko の学説も滅んだことを我々は知っています。怪しげな言説について立場の選択を迫られたときは、それが 30 年先まで維持可能かを考えて決めたいところです。誤っていると自分では確信している事柄について、あたかも正しいと思っているかのように振る舞うには、ある種の社会性が必要です。そんな器用なことができる人は、ソフトウェアエンジニアではなく、別の仕事を選びそうです。

写真は京大吉田南キャンパス (2011年8月5日撮影)。以前はテニスコートで今は建物がたっている場所。

人間的


すっかりネタ切れのこの日記ですが、趣向を変えて negative result を載せてみます。

先月のことです。とある文章の中で以下の記述を見つけました。

服部氏のいう「人間的」はかなりネガティブな表現ですね。たしかご子息がその語の解説をしたかとおもいます1

1 服部旦 (1999)「未公開の有坂秀世氏書簡ほか」『汲古』36: 64-73。

「服部」とは服部四郎のことです。わくわくしながら隣の建物 (文学部東館) で脚注の文献を調べてみました。該当箇所は以下の通りで、「人間的」とは嫉妬心のことでした。

右の文中の「人間的」とは嫉妬心を意味する、と説明した。(中略) 「ドイツ語では『人間性』という語は『嫉妬』という意味も持つから、こうして遠回しに書いておけば構わないだろう」と言っていた。

がっかりです。あの服部四郎ならもっと救いようのない意味を込めていたのではないかと期待したのですが。ドイツ語云々は私の語学力ではわかりません。

写真は水上駅 (2016年12月30日撮影)。

2016年


2016年を振り返ってみます。大急ぎで書きます。こういうのはその年のうちに書いておかないと格好がつかないので。ついでなので2017年の目標も書きます。これは年が明けてからの方が良いのでしょうけれど。

まず、どうにかこうにか生き残っています。去年の大半は、任期切れ間近なのに次の仕事先が決まっていない状態でした。言語処理自体から足を洗うことを半分くらい考えていました。これは今でも時々考えますが。幸いなことに拾っていただいて、京大に戻って1年が経ちました。身分が安定するのは良いことです。ずっと半年、一年先の仕事ばかり探しているようでは効率が悪くて仕方がありません。ただ、この先の展望は特にありません。どうしたものか考えものです。

今年の目標は、業績リストを見ただけで人間性の問題がばれる状態を何とかすることでした。信じがたいことに、去年までに出した国際会議論文はボスとの共著と単著だけでした。今年になって初めて、ボス以外との共著論文を出しました。さらに学生が 1st で、自分が 2nd 兼 last という論文も出しました。それぞれ 3rd tier と 2nd tier ですが、まずは通すことが重要です。

論文製造に関しては問題山積です。一番の問題は、いろいろな事情から手を出して、それなりに資源を投下したものの、成仏させずにそのままになっている話が多すぎることです。微妙なネタもそれなりの品質に仕上げる仕事人力を養う必要を感じています。

趣味の話は 1st tier の単著と、先に触れた 2nd tier の共著が通りました。去年の分も含めると、国際会議が計3本です。これでいよいよ確信に変わったのですが、査読が機能していません。システムの脆弱性をついている気分です。私がやっているのは、普通の言語処理の人が目もくれない言語学のネタを拾ってきて、そこにちょろっと統計の話を混ぜ込むだけの簡単なお仕事です。実際にやってみると、言語ネタと統計ネタの両方がわかる査読者が誰もいないことがわかりました。うちの分野では査読者は3人つきますが、毎回どちらかの分野に偏りました。査読者が自分の知らない話をどう扱うかまったく予想できませんでした。蓋を開けてみると、「まあいいんちゃう。知らんけど。」みたいな扱いです。あまり有益なコメントを貰えないかわりに、少なくとも門前払いはされないことがわかりました。

2017年の目標を付け加えると、仕事を断ることです。これまでは依頼された仕事は基本的に全部引き受けていました。年をとってくると、生態系の維持も重要な役回りになってきます。しかしその後の成り行きを見て失敗だったと思う事例が何件かありました。資源は有限なので、仕事は選んだほうが良さそうです。自分がお世話になったことのないところ、むしろ潰した方が世界平和のためではないかと思われるところからの仕事は積極的に断ろうと思います。

画像はNLP若手の会第11回シンポジウムの一コマ (2016年8月29日撮影)。

NAACL2016


忘れた頃にもう一つ国際会議の報告です。6月に NAACL 2016 という会議に出かけて発表してきました。

NAACL という会議は、ACL、EMNLP と並んで、一応 first tier ということになっています。私の論文は聞く人がいるとは思えない趣味ネタでしたが、どういうわけか口頭発表でした。

まあ、この日記に研究の中身の話は書かないことにしています。興味があれば他を当たってください。NLP若手の会 (YANS) 第11回シンポジウム プログラムで小林颯介さんという学生 (当時) が立派な参加報告をされていて感心しました。*1そのスライドが公開されると良いのですが。

NAACL の NA は North American の略で、その名の通り北米で開催されます。*2今回の開催地はカリフォルニアのサンディエゴで、空港と海に挟まれたヨットハーバーの付け根という異様な立地でした。空港から歩いて行ける近さでした。代わりに市街地から離れていてまわりに何もありません。おかげで会場のホテルに缶詰状態でした。最終日に会議が終わってから少し市街地を歩いたくらいです。物価も高いので、本会議後のワークショップには出ずにさっさと帰国しました。

前の月に参加した LREC 2016 が楽しかったのですが、今回は何となく気分が沈んでいました。自分がアメリカの町に、あるいはアメリカそのものに魅力を感じないのだと再確認しました。アメリカといえば、先住民の言語の系統分類に最近少し興味が出てきました。サンディエゴ周辺ではユマ諸語が話されている (いた) はずですが、それに関する情報は当然のように見当たりませんでした。

印象に残ったことといえば、教授のロボットのように見える学生が発表していました。もちろんただの印象なので、本当のところはわかりません。学生向けの賞を廃止したという話もありました。論文著者の大半が学生と教員の組み合わせばかりだから、学生を区別する意味がないそうです。それがアメリカの大学のやり方です。そして日本もますますその方向に傾斜しています。しかし、これは不幸なことだと思います。自分で手を動かせる時間がある人は自分が本当にやりたいことをできず、自分がやりたいことをできるようになったときには自分で手を動かす時間がなくなるのです。もちろん組織的に進めるのが適した研究は多いし、その方が社会的影響も大きくなりやすいでしょう。でも、それ一辺倒で、他の選択肢を採れないとなると困ります。

写真は同じ会場で開催されていた in vitro biology の学会のポスター (2016年6月13日撮影)。in vitro bilogy の分野概要や歴史の説明が掲示されていました。それに対して、NAACL HLT は、そもそもそれが何の略かすら部外者に伝わらなかったはずです。私もどういう経緯で HLT が学会名に入っているのか知りません。

*1:だた、面識がないためか、私は会場で氏を見た記憶がありません。

*2:ただ、どうやら中南米で開催する可能性を検討しているようです。

LREC2016


京都についてはいまさら書くこともありません。代わりに国際会議の報告でも書くことにします。5 月に LREC2016 という会議に参加して来ました。

LREC は Language Resources and Evaluation Conference の略で、その名の通り、言語資源作成や評価方法を扱う会議です。そのあたりに自然に転がっているデータだけで言語処理が行えることはまずありません。大抵は、誰かが頑張って作ったデータがあってはじめて可能になります。*1そうした地味な仕事を貢献として認めることは重要です。LREC はそのニッチにうまくはまっています。

ただし、会議の平均的な水準は極めて低いです。何しろ発表件数が 700 以上です。今回は査読にも加わりましたが、まともに機能していないことを再確認しました。同じ論文を担当する別の査読者のコメントが考えられないくらいひどいものでした。コイントスで採否を決めた方がまだ納得感がありそうです。学生がはじめて行く会議としてはおすすめできません。

このように玉石混交もいいところですが、収穫もありました。ヨーロッパの言語学関係で、ACL 系の学会には来なそうな人たちも来ていて、某データセットについていろいろ教えてもらいました。

LREC は隔年で、ヨーロッパ近辺のリゾート地で開催されています。今回も、開催地はスロベニアポルトロージュ (Portorož) という海沿いのリゾートでした。前回参加は 2010 年にマルタのバレッタで開催されたときなので、6 年ぶり 2 回目となります。次回の開催地はまだ公表されていません。

Portorož の町はバブリーなリゾートでした。隣の Piran はローマ時代から知られている古い町です。よさ気な写真は会議のサイトで確認できるので、代わりに会場のホテルの写真を載せます (2016 年 5 月 28 日撮影)。会場案内で 12th floor と言われて、どういうことかと思いましたが、崖にそって建てられた高層建築でした。Portorož の町と Piran の中間に同じグループのホテルが並んでいます。会場はその一つで、私が宿泊したのはその中の別のホテルでした。

開催国のスロベニアは小さな国でした。首都の空港を経由したのですが、鹿児島空港の方がよほど栄えています。LREC なんてよくある国際会議にすぎないのに、Held under the Honorary Patronage of His Excellency Mr. Borut Pahor, President of the Republic of Slovenia ということで、大統領の名前で開催されていました。言語処理学会鳥取で開催されたときも、割と歓迎されている雰囲気がありましたが、そんな感じでしょうか。

アメリカに行って、歴史のない町で高くてまずい飯を食べることを考えると、ヨーロッパは良いことばかりです。でも最近はテロが心配です。難民は見かけませんでした。スロベニアは旧社会主義国の中では豊かな方ですが、ドイツとくらべると魅力はないのでしょうか。トルコ航空を使ったのでイスタンブールを経由しましたが、ちょうど1月後にテロがありました。ゲートは突破されなかったとのことですが。さらにその 2 週間後にはクーデターがあって、アタチュルク空港も一時期占領されていたようです。むしろその後の粛清の嵐の方が深刻そうです。当面はトルコ航空を使う気になりません。

*1:普通の言語処理の感覚を持っていれば、Natural Language Processing (Almost) from Scratch という表題はありえないわけです。