📙Unicode絵文字の日本語読み/キーワード/分類辞書📙
2018-08-23

emoji_ja

emoji_jaは、Unicodeに登録されている絵文字に対して、日本語の読みやキーワード、分類を付与したデータセットです。Unicodeで定められている名称やアノテーションを元に構築しています。

TwitterやInstagramなどのSNSを通じた絵文字の普及により、emoji2vecdeepmojiなどの絵文字を使った自然言語処理の研究が行われるようになりました。絵文字を含む分析においては、絵文字の持つ豊富な情報や多彩な利用方法により、従来の形態素分析などのテキスト処理では対応できない場合があります。例えば、「今日は楽しかった😀」という文章では感情表現として絵文字が使われていますが、「今日は🍣を食べて🍺を飲んだ」ではそれぞれの対象を表す単語として用いられることもあります。[佐藤,2015]では絵文字の品詞を名詞/サ変名詞/動詞/副詞/記号/感動詞の6種類に分類しており、形態素解析に用いるNEologd辞書にも絵文字に対応する言葉が複数登録されています。

このように、絵文字を機械的な処理や研究対象として扱うには、絵文字の読み方であったり意味を表す単語、または意味的な種類で分類したカテゴリが必要になります。こうした辞書は、英語においてはemojilibがありますが、絵文字は文化的に異なった意味として用いられる場合があるため、それらの対訳をそのまま利用できないことがあります。

そのため、日本語で容易に使えるリソースとしてemoji_jaを作成しました。

(追記:2019/07/26) 絵文字の日本語読み辞書をUnicode 12.0対応に更新しました - Out-of-the-box


💻 ダウンロード

以下のGitHubレポジトリからjson形式のファイルをダウンロードできます。data/配下にある各種jsonファイルが、データセットの本体です。

yagays/emoji-ja: 📙UNICODE絵文字の日本語読み/キーワード/分類辞書📙


📁 データセット

emoji-jaには下記の3種類のデータが含まれています。

1️⃣ emoji_ja.jsonデータ

emoji_ja.jsonには、絵文字に対応する以下のメタデータが含まれています。

カラム 概要 取得元
keywords 絵文字に関連したキーワード CJK Annotations
(CLDR Version 33)
short_name 絵文字を表す短い名前 CJK Annotations
(CLDR Version 33)
group 絵文字を意味的に分類したときのグループ Emoji List, v11.0を元に翻訳
subgroup 絵文字を意味的に分類したときのサブグループ Emoji List, v11.0を元に翻訳
{
    "♟": {
        "keywords": [
            "チェス",
            "チェスの駒",
            "捨て駒",
            "駒"
        ],
        "short_name": "チェスの駒",
        "group": "活動",
        "subgroup": "ゲーム"
    },
    "♾": {
        "keywords": [
            "万物",
            "永遠",
            "無限",
            "無限大"
        ],
        "short_name": "無限大",
        "group": "記号",
        "subgroup": "その他 シンボル"
    },
...    

2️⃣ group2emoji_ja.jsonデータ

group2emoji_ja.jsonには、groupsubgroupが含まれており、それらのグループ/サブグループに対応する絵文字がリスト形式で列挙されています。これらの分類はEmoji List, v11.0に準拠します。

{
    "group": {
        "スマイリーと人々": [
            "😀",
            "😁",
            "😂",
...

    "subgroup": {
        "顔 ポジティブ": [
            "😀",
            "😁",
            "😂",            
...

3️⃣ keyword2emoji_ja.jsonデータ

keyword2emoji_ja.jsonには、キーワードに対応する絵文字のリストがリスト形式で列挙されています。emoji_ja.jsonから自動的に作成しているので、キーワードはCJK Annotationsに登録されている日本語アノテーションに準拠します。

{
...
    "驚き": [
        "🤨",
        "😯",
        "😲",
        "🤯"
    ],
    "ポーカーフェイス": [
        "😐"
    ],
    "無表情": [
        "😐",
        "😑"
    ],
...
}

💬 翻訳について

本データセットは基本的にUnicodeにて定められた名前やキーワードを改変せず利用していますが、以下の項目は本辞書の作者が対訳を作成しております。

  • グループ/サブグループ
  • 国旗の名称

これらの翻訳に際しては、独自に作成した下記ガイドラインを基準として作成しています。誤りやニュアンスが異なる翻訳がある場合はyagays/emoji-jaのissueより登録下さい。

Translation Guideline · yagays/emoji-ja Wiki

また、これらの翻訳された文字列は、上記の理由またはUnicodeによる公式のCJK Annotationが付与された場合には更新されることがあります。


⚖️ ライセンス

MITライセンス (MIT)


📝 参考

コーパス・記事

対訳

このエントリーをはてなブックマークに追加