名寄せ用データ・クレンジング (アセンシャルの“INTEGRITY”)

名寄せは大量の顧客を抱える金融機関にとって頭の痛い問題です。通常行なわれる機械名寄せでは、漢字氏名・生年月日・電話番号・住所が使われます。90%以上はこれで対応できる筈ですが、それでも問題が残ります。

まずは、顧客データを蓄積しているシステムが異なると、その表記ルールも異なることが多いのです。年月日が西暦か和暦か、西暦でも4桁か2桁か。漢字の外字の取り扱い。加えて、電話番号や住所は変わります。特に銀行の場合は、転居しても特段困る事情のない限りは住所変更手続きを行ないません。カードさえあれば済んでしまうことが多いからです。加えて、ごく稀ですが夫婦で同姓同名ということもあるようです。例えば「薫」という名は、男女どちらにもあります。

表記ルールを定めても、実際の運用段階で守られないことも多くあります。例えば、数字入力を全角で行なうか、半角か。都道府県名を省略したり、株式会社を株にしたり、番地を2-7-6と入れるべきところを2丁目7番6号だったりします。更に最近では、合併にともなう市名変更が頻発しています。仮に1文字が違ってもコンピュータは別人格扱いしてしまいます。

アッセンシャル・ソフトウェア株式会社は、米国Ascential Software Corporationの日本法人で、エンタープライズデータ統合を主力サービス事業としているそうです。企業内の各システムに蓄積されたデータを一元的に管理分析できるようにするサービスで、ソースシステム分析、プロファイリング、データ品質分析、クレンジング、データ抽出・変換・配信などを統合したプラットフォームで提供するとしています。http://www.ascentialsoftware.jp/

その一部であるデータクレンジング用ツール「INTEGRITY」は、約3000万円と高いのですが、大規模なCRMシステム構築の際に導入すれば費用負担も目立たず、かつデータ精度向上が可能になると思います。

INTEGRITYは、バラバラな表記や書式を一定のルールで自動的に統一してくれます。例えば、番地表記を自動的に判断して2-7-6を2丁目7番6号に変換するなど。

次に登録内容に間違いがあれば、それをユーザー指定の期待信頼度を基準として正誤判断します。例えば住所表記と郵便番号の不整合を他データとの関係で判断して、どちらに誤りがあるかなどです。

最終的には人間の判断と割り切りが必要でしょうが、それでも前捌きに必要な労力は大幅に軽減できるでしょう。電話番号も名寄せのキー情報として有効です。電話番号帳から固有名詞を検出して、それと登録済み顧客名をマッチングする方式も良いでしょう。この場合は、電話番号の登録状況と信頼度が問題となりますが、およそ60%はマッチングできるようです。

要は、精度と費用・労力のバランスであり、最終的には一次入力者の意識・トレーニングと入力段階におけるチェック機能の問題となりますが。