GoTagger


GoTagger は英文テキストに自動で品詞タグを付与するプログラムです

 

Version 0.7 ・・・ download (400KB)

 

動作環境

OS:Microsoft Windows 2000/XP

解像度:800 * 600以上

 

インストール

GoTaggerをダウンロードし、解凍してください。次に、「Brill Tagger」をダウンロードしてください。解凍されたフォルダ内に、「Bin_and_Data」というフォルダがあるので、その中の全ファイル(10個)をGoTaggerの「G_data」というフォルダ内にコピーしてください(下図参照)。

bri1.jpg (15KB) bri1.jpg (15KB) bri1.jpg (5KB)

 

アンインストール

GoTagger フォルダを削除してください。レジストリはいじってません。

 

ファイル選択画面

g-gamen1.jpg (81KB)

 

(1)ディレクトリ選択, (2)ファイル選択

(1)で選択しているディレクトリ内のファイルが(2)に表示される。上部のボックス値を変更することで全ファイルの表示も可能。 (2)でファイル名をダブルクリックすると(5)にファイルが追加される。シングルクリックで(7)にファイル内容が表示される。

 

(3)処理するファイルの決定と削除

Add ・・・(2)で選択しているファイルを(5)へ追加。複数ファイルの選択が可能。

Add all・・・ (2)に表示されているすべてのファイルを(5)へ追加。

Remove・・・ (5)で選択しているファイルを削除。実際のファイルを削除するのではなく、選択リストから消すだけ。

Remove all・・・ (5)内にある全ファイルを削除。実際のファイルを削除するのではなく、選択リストから消すだけ。

 

(4)START, (5)Selected Files

(4)のボタンで(5)内のファイルに対してタグ付け処理を開始。なお、出力ファイル名は自動的に付与され、元のファイル名_(アンダースコア)tag.txtとなる。たとえば、test.txtであれば、test_tag.txtとなる。

 

(6)Settings (品詞タグ付与の設定)

Lexicon・・・利用するLexiconファイルを選択。

Contextual Rule・・・利用するContextualRuleファイルを選択。

Separator・・・出力形式を the_DT か the/DT にするか選択。

Sentence Splitter・・・1行1文形式へ変換。

Tokenizer・・・Tokenization を実行。

Lemmatizer・・・Lemmatizationを実行。染谷泰正氏が作成された "e_lemma.txt" (Version 1) を "G_data" に入れておく。

Destination of outputs・・・「..\(original file)\Tagged\」を選択していると、タグ付を行うテキストがあるフォルダの下に「Tagged」という名前のフォルダが作成され、そこに出力結果が保存される。「Specify」を選択すると、「where」というボタンが利用可能になり、保存先のフォルダを指定。

 

(7)Preview

ファイルのプレビューを表示。

 

(8)Processing Time

タグ付与に要した時間を表示。

 

(9)進行状況

処理の進行状況をバーで表示。

 

結果画面

g-gamen2.jpg (106 KB)

 

(10)出力ファイルの一覧

出力ファイルを表示(絶対パス)。

 

(11)Preview

(10)内にあるファイルをプレビュー表示。

 

(12)Tag set

GoTaggerで使用されているタグを表示。「Brill Tagger」と共通。

 

(13)画面切り替えタブ

「Select Files(ファイル選択)」画面と「Result(結果)」画面の切り替え。

 

更新履歴

更新停止中

Version 0.7 (2006/4) Lemmatizer の機能を追加

Version 0.6 (2006/4) Sentence Splitter の機能を追加、BREGEXP.DLL (Tatsuo Baba氏作)を同梱

Version 0.5 (2006/2) Tokenization の機能を分離

Version 0.451 (2006/2) tokenization 機能のバグを修正

Version 0.45 (2005/12) separator 記号を選択可能に

Version 0.44 (2005/7) FLOWN、FLOBへのタグ付けの際に停止する不具合を修正

Version 0.43 (2005/6) ' (apostrophe)が含まれている文の単語の切り分けの不具合を修正

Version 0.42 (2005/6) メモリ消費量を軽量化、単語の切り分けの不具合を修正

Version 0.41 (2005/5) iniファイルを採用

Version 0.4 (2005/5) 「Brill Tagger」のルールファイルを分離

Version 0.3 (2005/3) Lexiconファイルの選択と修正を可能に、画面デザインを変更

Version 0.2 (2005/1) ContextualRuleファイルの選択と修正を可能に、タグ付けの不具合を修正

Version 0.1 (2005/01) 公開開始

Copyright (C) GOTO Kazuaki, 2004 - 2010 All rights reserved