プロジェクトメンバー
磯部 翔太 プロジェクトマネージャ
富崎 菜津子 マネージャ補佐
天野 達也 データベース
安西 流之介 デザイナー
菊地 隆介 プログラマ
蔵谷 省吾 プログラマ
企画の概要
近年、インターネットを使った犯罪などが増えている傾向にあるため、サイバー補導の重要性が高まりつつある。同プロジェクトはサイバー補導の際にマイクロブログ(Twitter)のユーザー情報を抽出するシステムを開発した。このシステムは、ユーザーのテキスト情報を解析し、推定年齢、推定住居地を割り出す。このシステムを使用することによりユーザーの情報を自動で取得することができる。
サイバー補導とは
ネットで知り合った相手から性犯罪の被害を受ける児童が増えているが、街頭の補導で防ぐのは困難である。警察庁は同日、この取り組みを全国の警察で導入するよう指示した。 サイバー補導は、交流サイトや出会い系サイトを警察職員や警察官がチェックし、援助交際や下着購入を児童が持ち掛けたとみられる書き込みに、身分を隠して連絡。実際に会って補導する。警察から不良行為を誘う書き込みはしない。サイバー補導では、怪しいと判断されるユーザーの身辺調査を行う段階で、そのユーザーが管轄内なのか、補導対象年齢なのか調査をする必要がある。
目的
サイバー補導の補助として機能するシステムの構築
目標
推定年齢、推定活動地域の誤判定30%以内にする
身辺調査システムの流れ
1.1.入力フォームにはTwitter IDを入力し検索ボタンをクリック。
1.2.検索ボタンを押すと、赤い枠で囲まれているプロフィール画面、ツイートから作成した辞書を使い言語処理を行います。
1.3.Twitterアカウントのテキスト情報の抽出をTwitterAPIを使用し行います。その結果が下記の画像です。
1.4.こちらは文教大学のツイッターアカウントを解析した例です。このようにMeCabを用いて、単語辞書を使用して言語処理を行います。この結果、この図のように指定言語の出現率を割り出し活動地域の推定を行います。辞書というのは、文章を単語に分割するための指標で、未設定のMeCabでは地名を地名として検出できないので神奈川県内の市区町村、(鉄道やバス停などの)駅名を登録した辞書です。例えば横浜駅と検索した場合、横浜と駅に分かれてしまうので、自作した辞書で「横浜駅」と一つの単語として処理されるようにします。年齢推定の方は、活動地域推定と同じようにあらかじめ学生が用いる言語を辞書に登録して起き、年齢の推定を行います。「体育祭」、「委員会」、「修学旅行」、「放課後」、「朝練」、「○年○組」などという言語などという言語(現在URLやハッシュタグなど不要な単語が混ざってしまうので、それを除外する作業を行っています)また、この画像はテスト用のページのもので、完成品はもっとシンプルに解析結果を視覚化します。
1.5.検索結果です。推定居住地の割り出しを地図に表示しマーカーを使用して可視化します。
1.6.こちらの推定年齢割り出しは、推定住居地と情報の統合を行います。※バージョンアップ以前は別画面
推定年齢を割り出し、18歳未満なのか18歳以上なのかを円グラフを使用し%表示で行います。
2.1.入力フォームの不正Androidアプリ検出ボタンをクリック。
2.2自動で不正と思われるつぶやきやURL情報を取得(1回の検索で100件取得)
2.3取得した情報の中でURLが入っている情報のみの抜粋
2.4抜粋された情報がテキスト情報として指定ファイルに保存