この分かち書きガイドラインは日本語のための単語の分け方の提案である。例はすべてヘボン式で書かれているが、訓令式にも、カナ漢字まじりにも適応できるように作られている。WAKACHI2002とJMOR02は、それぞれ1998年に公開されたWAKACHI98(宮田・中, 1998)及びJMOR(中・宮田, 1998)の2006年の改定版である。本バージョン(WAKACHI2002 v.8.0)は2019年公開のJMOR08に対応している。
WAKACHI2002 は品詞と活用表、そして一覧表を含む。
CHILDES (Child Language Data Exchange System, MacWhinney, 1995) では「単語」が基本的な単位として扱われている。日本語のデータファイルを作るときに、普段分かち書きされていない形で表記されている日本語をどのように単語に分けるかという問題が生じる。この問題を解決するのは、JCHAT(日本CHILDES、Oshima-Takane & MacWhinney,1995, 1998を参照)の初期からの目的でもあったが、総合的なガイドラインを作る必要性を感じ始めたのは、JMOR(自動形態素解析プログラム、中・宮田、1998)の開発に入った時だった。
自動形態素解析の精度はそれが有する辞書の大きさにかなり左右される。基本的には辞書に登録されていない単語は解析されない(具体的には、未知語として扱われる)。同様に、ある単語に読みのバリエーションがあったとしても、一つの可能性しか辞書に登録されていなければ、他の可能性は未知語として扱われてしまう(例「むずかしい」と「むつかしい」)。したがって、精度の高い自動形態素解析の辞書には、単語のバリエーションをできる限り含むことが大切である。この問題は、特に分かち書きのルールが固定していない場合に深刻である。可能な表記をすべて登録することは不可能とはいえないまでも極めて困難であるし、辞書の大きさは膨大になり、解析器の効率(速度や正解率)も極減する。
このような問題が1995年にJMOR開発に着手して以来徐々に明らかになった。このことが、JMOR開発と分かち書きガイドラインの開発を平行に進めてきた理由である。JMOR04はWAKACHI2002にしたがって作られた発話ファイルで一番有効に動く。言いかえれば、WAKACHI 2002とは異なる分かち書きをすると、JMORでは登録されていない語として扱われる可能性が高くなるのである。
なお、分かち書きのルールのガイドラインは、現代日本語の文法に沿った、体系的なものになることを重視して作られている。WAKACHI2002は基本的に益岡・田窪(1992, 1995 改訂版)に従っているが、いくらか益岡・田窪と異なる部分がある。大きな違いは以下のようである。
1)「形容詞」
益岡・田窪はイ形容詞(「美味しい」)とナ形容詞(「静かな」)のように形容詞を二種類に定義しているが、WAKACHI2002では前者を「形容詞(Verbal Adjective)」に、後者を「形容名詞(Adjectival Noun)」と定義した。従って「形容詞」は活用を持つが、「形容名詞」は判定詞(Copula)によって間接的にテンスを持つことになる。
2) 「助動詞」
益岡・田窪は「つもりだ」「みたいだ」「のだ」などを「助動詞」として分類するが、WAKACHI2002ではそれぞれ形式名詞+判定詞(「つもりだ」「わけ だ」「の だ」など)、またはムード詞+判定詞(「みたい だ」「そう だ」)とする。
3)「補助動詞」の導入
さらに新しく「補助動詞」(例:「見て くる。」「見て みる。」「見て ください!」)を設定する。
4)「助詞」
益岡・田窪が定義している「格助詞」、「提題助詞」、「取り立て助詞」、「接続助詞」、「終助詞」に、WAKACHI2002では「後置詞」(例:「食堂で食べる」)、「複合後置詞」(例:「飲み物としてジュースをたのんだ」)「並列助詞」(名詞句レベルの接続助詞、例:「本と雑誌」)「不定助詞」(例:「本を何回も読んだ」)、引用助詞(例:「ダメだと言った」)、を新しく加える。さらに益岡・田窪が「接続助詞」として扱っている「の」(例:「彼の靴」)をWAKACHI2002では「修飾助詞」として定義する。