Excel を使った重複データの削除
主に辞書パックのユーザーさんから問い合わせが多いことのひとつに、蓄積していく辞書(用語リスト)データの重複に関することがあります。量が多くなるにつれて同じ語句を入れてしまいそうだという心配から、すでに同じ語句がだぶっているため、一気に取る方法はないかといったものまで、いろいろです。
そこで、Excel を利用して重複データを削除する方法について、簡単に説明してみたいと思います。
最初にお断りしておくと、少なくとも辞書パックのプログラムに関して言えば、同じ語句が重複して登録されていても実用上の問題はまったくありません。このプログラムは、辞書を上から順に見ながら処理をしていくため、あとから同じ語句が出てきても「処理済み」としてスキップされるだけです。ただ、辞書のファイルを軽くする(=より一層処理の速度を上げる)という観点では、重複のないデータが望ましいかもしれませんね。
* * * * * * * *
Excel には、フィルターオプションという機能があります。
この機能を使えば、リストから重複データを削除することができます。ここでは辞書パックで利用する用語リストから重複データを削除する場合を例に説明しますが、もちろん他のデータにも応用できます。
1.用語リストのデータを並べ替えます(CTMDSORTを利用)。
2.並べ替え後のデータをすべてコピーします。
3.Excelの新規画面を開き、カーソルをA2セル(A列の2行目)に置いてペーストします。
※ CTMDSORTを使わずに、データをExcel にペーストしてからExcel上で並べ替えを行っても構いません。この場合、A列とB列の両方を選択してから処理を実行します。
4.A1とB1のセルを見出しとして設定します。
具体的には、たとえばA1に「原語」、B1に「訳語」と入力し、A1とB1を選択した状態で[書式]メニューの[セル]−[表示形式]に[文字列]を指定します(このとき、[パターン]タブで色を付けておくと一層分かりやすくなります)。
5.A列とB列を選択し、[データ] メニューの[フィルター]から[フィルターオプション]を選んで[OK]をクリックします。
6.[抽出先]に[指定した範囲]を選びます。[リスト範囲]には、見出しを含めて語句のある範囲が自動的に入力されます。56行目まで語句があるときは、[リスト範囲]$A$1:$B$56といった具合になります。
7.[抽出範囲]を指定します。たとえば「$D$1」と入力すると、重複を削除した後のデータがD1セルを開始点として抽出されます。
8.[重複するレコードは無視する]にチェックを入れ、[OK]ボタンをクリックします。
★注意★
この方法で削除される重複データは、原語と訳語のペアで見たときに完全に重複しているものだけです。同じ原語に対して異なる訳語が登録されている場合は、重複削除の対象にはなりません。 |
|