寺町計算言語

計算の話や言語の話もするかも。多少は。※個人の見解であり、所属する組織の公式見解ではありません

2016年


2016年を振り返ってみます。大急ぎで書きます。こういうのはその年のうちに書いておかないと格好がつかないので。ついでなので2017年の目標も書きます。これは年が明けてからの方が良いのでしょうけれど。

まず、どうにかこうにか生き残っています。去年の大半は、任期切れ間近なのに次の仕事先が決まっていない状態でした。言語処理自体から足を洗うことを半分くらい考えていました。これは今でも時々考えますが。幸いなことに拾っていただいて、京大に戻って1年が経ちました。身分が安定するのは良いことです。ずっと半年、一年先の仕事ばかり探しているようでは効率が悪くて仕方がありません。ただ、この先の展望は特にありません。どうしたものか考えものです。

今年の目標は、業績リストを見ただけで人間性の問題がばれる状態を何とかすることでした。信じがたいことに、去年までに出した国際会議論文はボスとの共著と単著だけでした。今年になって初めて、ボス以外との共著論文を出しました。さらに学生が 1st で、自分が 2nd 兼 last という論文も出しました。それぞれ 3rd tier と 2nd tier ですが、まずは通すことが重要です。

論文製造に関しては問題山積です。一番の問題は、いろいろな事情から手を出して、それなりに資源を投下したものの、成仏させずにそのままになっている話が多すぎることです。微妙なネタもそれなりの品質に仕上げる仕事人力を養う必要を感じています。

趣味の話は 1st tier の単著と、先に触れた 2nd tier の共著が通りました。去年の分も含めると、国際会議が計3本です。これでいよいよ確信に変わったのですが、査読が機能していません。システムの脆弱性をついている気分です。私がやっているのは、普通の言語処理の人が目もくれない言語学のネタを拾ってきて、そこにちょろっと統計の話を混ぜ込むだけの簡単なお仕事です。実際にやってみると、言語ネタと統計ネタの両方がわかる査読者が誰もいないことがわかりました。うちの分野では査読者は3人つきますが、毎回どちらかの分野に偏りました。査読者が自分の知らない話をどう扱うかまったく予想できませんでした。蓋を開けてみると、「まあいいんちゃう。知らんけど。」みたいな扱いです。あまり有益なコメントを貰えないかわりに、少なくとも門前払いはされないことがわかりました。

2017年の目標を付け加えると、仕事を断ることです。これまでは依頼された仕事は基本的に全部引き受けていました。年をとってくると、生態系の維持も重要な役回りになってきます。しかしその後の成り行きを見て失敗だったと思う事例が何件かありました。資源は有限なので、仕事は選んだほうが良さそうです。自分がお世話になったことのないところ、むしろ潰した方が世界平和のためではないかと思われるところからの仕事は積極的に断ろうと思います。

画像はNLP若手の会第11回シンポジウムの一コマ (2016年8月29日撮影)。

NAACL2016


忘れた頃にもう一つ国際会議の報告です。6月に NAACL 2016 という会議に出かけて発表してきました。

NAACL という会議は、ACL、EMNLP と並んで、一応 first tier ということになっています。私の論文は聞く人がいるとは思えない趣味ネタでしたが、どういうわけか口頭発表でした。

まあ、この日記に研究の中身の話は書かないことにしています。興味があれば他を当たってください。NLP若手の会 (YANS) 第11回シンポジウム プログラムで小林颯介さんという学生 (当時) が立派な参加報告をされていて感心しました。*1そのスライドが公開されると良いのですが。

NAACL の NA は North American の略で、その名の通り北米で開催されます。*2今回の開催地はカリフォルニアのサンディエゴで、空港と海に挟まれたヨットハーバーの付け根という異様な立地でした。空港から歩いて行ける近さでした。代わりに市街地から離れていてまわりに何もありません。おかげで会場のホテルに缶詰状態でした。最終日に会議が終わってから少し市街地を歩いたくらいです。物価も高いので、本会議後のワークショップには出ずにさっさと帰国しました。

前の月に参加した LREC 2016 が楽しかったのですが、今回は何となく気分が沈んでいました。自分がアメリカの町に、あるいはアメリカそのものに魅力を感じないのだと再確認しました。アメリカといえば、先住民の言語の系統分類に最近少し興味が出てきました。サンディエゴ周辺ではユマ諸語が話されている (いた) はずですが、それに関する情報は当然のように見当たりませんでした。

印象に残ったことといえば、教授のロボットのように見える学生が発表していました。もちろんただの印象なので、本当のところはわかりません。学生向けの賞を廃止したという話もありました。論文著者の大半が学生と教員の組み合わせばかりだから、学生を区別する意味がないそうです。それがアメリカの大学のやり方です。そして日本もますますその方向に傾斜しています。しかし、これは不幸なことだと思います。自分で手を動かせる時間がある人は自分が本当にやりたいことをできず、自分がやりたいことをできるようになったときには自分で手を動かす時間がなくなるのです。もちろん組織的に進めるのが適した研究は多いし、その方が社会的影響も大きくなりやすいでしょう。でも、それ一辺倒で、他の選択肢を採れないとなると困ります。

写真は同じ会場で開催されていた in vitro biology の学会のポスター (2016年6月13日撮影)。in vitro bilogy の分野概要や歴史の説明が掲示されていました。それに対して、NAACL HLT は、そもそもそれが何の略かすら部外者に伝わらなかったはずです。私もどういう経緯で HLT が学会名に入っているのか知りません。

*1:だた、面識がないためか、私は会場で氏を見た記憶がありません。

*2:ただ、どうやら中南米で開催する可能性を検討しているようです。

LREC2016


京都についてはいまさら書くこともありません。代わりに国際会議の報告でも書くことにします。5 月に LREC2016 という会議に参加して来ました。

LREC は Language Resources and Evaluation Conference の略で、その名の通り、言語資源作成や評価方法を扱う会議です。そのあたりに自然に転がっているデータだけで言語処理が行えることはまずありません。大抵は、誰かが頑張って作ったデータがあってはじめて可能になります。*1そうした地味な仕事を貢献として認めることは重要です。LREC はそのニッチにうまくはまっています。

ただし、会議の平均的な水準は極めて低いです。何しろ発表件数が 700 以上です。今回は査読にも加わりましたが、まともに機能していないことを再確認しました。同じ論文を担当する別の査読者のコメントが考えられないくらいひどいものでした。コイントスで採否を決めた方がまだ納得感がありそうです。学生がはじめて行く会議としてはおすすめできません。

このように玉石混交もいいところですが、収穫もありました。ヨーロッパの言語学関係で、ACL 系の学会には来なそうな人たちも来ていて、某データセットについていろいろ教えてもらいました。

LREC は隔年で、ヨーロッパ近辺のリゾート地で開催されています。今回も、開催地はスロベニアポルトロージュ (Portorož) という海沿いのリゾートでした。前回参加は 2010 年にマルタのバレッタで開催されたときなので、6 年ぶり 2 回目となります。次回の開催地はまだ公表されていません。

Portorož の町はバブリーなリゾートでした。隣の Piran はローマ時代から知られている古い町です。よさ気な写真は会議のサイトで確認できるので、代わりに会場のホテルの写真を載せます (2016 年 5 月 28 日撮影)。会場案内で 12th floor と言われて、どういうことかと思いましたが、崖にそって建てられた高層建築でした。Portorož の町と Piran の中間に同じグループのホテルが並んでいます。会場はその一つで、私が宿泊したのはその中の別のホテルでした。

開催国のスロベニアは小さな国でした。首都の空港を経由したのですが、鹿児島空港の方がよほど栄えています。LREC なんてよくある国際会議にすぎないのに、Held under the Honorary Patronage of His Excellency Mr. Borut Pahor, President of the Republic of Slovenia ということで、大統領の名前で開催されていました。言語処理学会鳥取で開催されたときも、割と歓迎されている雰囲気がありましたが、そんな感じでしょうか。

アメリカに行って、歴史のない町で高くてまずい飯を食べることを考えると、ヨーロッパは良いことばかりです。でも最近はテロが心配です。難民は見かけませんでした。スロベニアは旧社会主義国の中では豊かな方ですが、ドイツとくらべると魅力はないのでしょうか。トルコ航空を使ったのでイスタンブールを経由しましたが、ちょうど1月後にテロがありました。ゲートは突破されなかったとのことですが。さらにその 2 週間後にはクーデターがあって、アタチュルク空港も一時期占領されていたようです。むしろその後の粛清の嵐の方が深刻そうです。当面はトルコ航空を使う気になりません。

*1:普通の言語処理の感覚を持っていれば、Natural Language Processing (Almost) from Scratch という表題はありえないわけです。

通り


通りを人が普通に歩いているのを見ると、町だなあと感じるようになりました。当たり前のことを言っているようですが、田舎では人は歩いて移動しないものです。それを思い出しただけでも、得るものがあったと言えるでしょう。

もちろん人混みは嫌いです。そういう意味で、人間が好きなわけではありません。しかし、ある程度人間を集めないことには、ニッチなものが立ち行かないことは身にしみてわかっています。現代文明は町にあります。田舎では生まれません。

書き忘れていましたが、日記の名前を「寺町」に変更しました。4 拍の地名を適当に選んだだけで、深い意味はありません。ただ一つ考慮したのは、地名の粒度を下げようということでした。一般に物事を観測したとき、どの粒度で汎化すべきかは難しい問題です。対象をよく知らない場合には過剰汎化の危険性が高まります。日記の名前の粒度がその危険性の度合いを示すようにすれば面白いと思ったわけです。

写真は兵庫県石生駅近くの分水界 (2016年3月20日撮影)。「日本一低い」は不正確です。本州でかつ両端部を除いたとき一番低い場所です。

しんでしまうとは なさけない


4 月 1 日付けで助教になりました。特定助教から特定が取れたということです。外から見ると何が起きているのかさっぱりわからないでしょうし、私自身の理解が正確かも怪しいものです。と予防線を張りつつ解説すると、大学の運営費交付金削減が削減され続けたおかげで、正規のポストがまともに維持できない一方で、人が足りずに運営が立ち行かないという状態が背景にあります。そこで、学内の別の時限付き予算を使って次に助教にする人を雇い、ポストが空き次第滑りこませるという運用をしばらく前から行っているようです。まさに上に政策あれば下に対策ありです。人事が二度手間になって生産性低下に貢献していそうです。これが文科省財務省が望んでいたことなのでしょうか。というわけで、実質的には何も変化がありません。今度ともよろしくお願いします。

身分に変化があったので、これはピエリ守山詣でを行うべきであることを今日になってふと思い出しました。とはいえ守山は遠く、一方で異動というにはしょぼすぎます。そこで、代わりにパワーセンター大津を訪ねることにしました。某氏の要望に3ヶ月後にこたえたことになります。

すると、何ということでしょう、入り口が立ち入り禁止のカラーコーンでふさがれているではないですか (写真は 2016 年 4 月 3 日撮影)。店の外側には何の案内もありません。急遽ネットを確認しましたが、公式情報が見当たりません。公式サイトはトップページ が 403 Forbidden ですが、他のページは生きています。非公式情報によると、3 月 31 日で閉鎖されたようです。来るのが 3 日遅かったことになります。

店内には人影が見られません。しかしなぜか電気はついています。明るい廃墟といえばそうかもしれませんが、中に入れないのでは面白くありません。ピエリ守山の偉大さを再確認した一日でした。