NTT印刷株式会社(代表取締役社長:柴田 基靖、以下、「NTT印刷」)は、NTTコミュニケーション科学基礎研究所(所長:山田 武士、以下、「NTT-CS研」)において人間の言語機能の解明等のために調査・蓄積されてきた基盤的語彙資源である「NTT語彙データベース」を、10月6日より販売を開始いたしました。
1.背景
「NTT語彙データベース」は、NTT-CS研が持つ日本語の主観的特性値を調査したデータを集めたものであり、言葉の馴染み深さを示す単語親密度や単語のアクセントのつけ方、表記の妥当性などの属性が単語ごとにデータベース化されております。なかでも、単語親密度については、初期の調査から時間が経ち、新しい語が多く出現していること、既存の語についても経年変化の可能性があることなどから、NTT-CS研では、すべての語の再調査と、新しい語の追加調査を行い、日本語約163,000語の令和版単語親密度データベースを構築いたしました。
このたび、NTT印刷は、コミュニケーションをはじめとした様々な研究開発・事業における基礎データとしてお役立ていただけるよう、「NTT語彙データベース」を提供いたします。
2.商品概要
<収録データ>(レコード数)
・単語親密度(平成11年公開版):88,569
・単語親密度(平成20年増補版):33,200
・単語親密度(令和2年増補版):167,567
・表記の妥当性:221,170
・単語アクセント:85,906
・品詞:72,911
・文字特性:48,734
・単語:237,744
<提供方法>
DVD
<価格>
77,000円/枚(送料・消費税込)
<購入方法>
専用WEBサイトからお申込みいただけます。
NTT語彙データベース:
https://www.nttprint.com/lexicon-db
※参考情報
単語親密度データベースについて(NTT-CS研):
http://www.kecl.ntt.co.jp/icl/lirg/resources/goitokusei/index.html
2020年6月3日報道発表「令和版単語親密度データベースの構築と語彙数推定テストの作成」
(日本電信電話株式会社):
https://www.ntt.co.jp/news2020/2006/200603a.html
※本商品の仕様及び価格は、予告なく変更する場合があります。
3.販売開始日
2021年10月6日(水)
※ ニュースリリースに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いします。