はじめに

インターン先の取り組みの1つとして、NTCIR-15のshared taskである森羅2020-ML: 多言語分類タスクに参加し、 12/9〜12/12に行われたNTCIR-15カンファレンスで結果を発表しました。

shinra-project.info

森羅2020-ML: 多言語分類タスクについて

森羅2020-MLとはWikipediaの知識を計算機が扱える形に構造化することを目指す「森羅プロジェクト」の取り組みの1つで、多言語のWikipediaページの分類を行うタスクです。

具体的には、カテゴリ分類されたアノテーション済み日本語WikipediaデータとWikipediaページの言語間リンクの情報を用いて、他の言語のWikipediaページをカテゴリ分類するタスクとなります。

f:id:nchaso:20201209173708p:plain — 森羅2020-ML概要（タスク紹介動画より）

提案システム

僕たちのチームは事前学習されたモデルを用いて、マルチクラス分類として今回のタスクを解きました。具体的には以下で紹介するテキストベースの素性とエンティティベースの素性をWikipediaから取り出し、学習に利用しました。

f:id:nchaso:20201209174546p:plain — 提案システム概要

テキストベースの素性

Wikipediaページのテキストを汎用多言語モデルXLM-RoBERTa¹ に入力し [CLS]トークンの位置に対応する最終層の隠れ表現を利用しました。こちらはBERTベースのテキスト分類ではよく利用される素性となります。

エンティティベースの素性

Wikipediaページに現れるエンティティ群をダンプデータから直接抽出し、事前学習されたエンティティ表現に変換したものを利用しました。

具体的には、以下の2種類の事前学習済み埋め込み表現を利用しています。

Wikipedia2Vec²
Pytorch BigGraph³

これらのエンティティ表現の集合、すなわちBag of Entityをエンティティベースの素性として利用しました。

提案システムではこれらの素性を連結し、後続のMLP層に入力します。最終的にはSoftmax Cross Entropyで損失を計算するマルチクラス分類としてタスクを解いています。

さらに提案システムでは以下のような工夫を加えています。

ペアラベルの自動追加

森羅2020-MLタスクは実際には1つのWikipediaページに対して複数のラベルをつけるマルチラベル分類タスクでしたが、 ほとんどの学習データの正解ラベルは１つだったのでマルチクラス分類タスクとして解いています。

実際にマルチラベルを持っているWikipediaページを集計してみると以下の表のように 同じペアで頻繁に共起していることが判明しました。

f:id:nchaso:20201210173710p:plain — よく共起しているラベル

このことを利用して、ペアでよく共起しているものをペアラベルとして辞書に保持しておき、推論ラベルに辞書の存在するラベルが含まれれば、相方のラベルもlogitsがある閾値以上であれば推論ラベルに含めるというようなヒューリスティックな処理を行っています。閾値や保持するペアの数は検証データにおける性能で調整しました。

日本語Wikipediaデータによるデータ拡張

基本的には学習データとして、分類済み日本語Wikipediaデータに言語間リンクでつながっている対象言語のWikipediaデータを利用しています。しかし、言語間リンクに対応している対象言語のWikipediaデータがないような分類済み日本語Wikipediaデータもあるのでこれらのデータも学習に利用することでさらなる精度の向上に成功しました。

テキストベースの素性に関しては、マルチリンガルモデルを利用しているので、日本語Wikipediaページのテキストをそのまま入力値として扱いました。また、エンティティベースの素性に関して、Wikipedia2Vecのエンティティ埋め込み表現は多言語対応しているわけではないので、 エンティティ間の言語間リンクを利用して対象言語のエンティティに変換し、その表現を利用しました。

不均衡データのためのロスの重み付け

正解ラベルに偏りがあり、マイナークラスで精度が出ていないことが判明したのでラベルごとにサンプルの数の平方根の逆数をweightとして設定したCross Entropy Lossで学習しています。こちらのweightの設定も検証データにおける性能で調整しました。

結果

XLM-RoBERTa baseモデルをベースラインとしてドイツ語で比較実験を行いました。エンティティベースの素性を加えることでベースラインの性能を上回り、日本語データを利用することでさらなる性能の向上を確認しました。

f:id:nchaso:20201210161422p:plain — 比較実験の結果（リーダーボードでのスコア）

時間の関係で、ドイツ語にて調整した閾値を用いて他の言語の分類を試みました。最終提出の結果が以下となります。

f:id:nchaso:20201210161205p:plain — 最終結果

このタスクには10チームほど参加しており、富士通研究所のチームやインド工科大学のチームなども参加していました。僕たちのチームは提出した9言語中、ドイツ語・フランス語で１位を達成し、他の言語でも高い順位の結果を残すことができました。

おわりに

機械学習系のコンペティションに本格的に取り組んだのは初めての経験で、新たな発見が多々ありました。特に、データを眺めたり、色んなパターンを試したりと泥臭く性能の向上を追っていくような取り組みは意外と楽しいということに気付いたのは大きな発見だったと思います。

Nchasoの作業ログ

ML / ソフトウェアエンジニアのブログ

森羅2020-ML: 多言語分類タスクに参加しました