(SQLタイトルをクリックで概要・説明)Ragna Archives Network 2さんにリンク
現時点のデータで、POVと声優データの連携が出来るかをテスト
対象POVは、女の子キャラクター、キャラクター、主人公、エロシーン、シチュエーション、音。
<概要>
あるゲームのPOVコメントにキャラクター名があった場合、そのゲームの声優情報とのマッチングを検出して一覧出力する。
(わざわざ、名前を入力しているのだから、そのキャラを指しているんじゃないか? という仮定)
ただし、POVコメントには入力規則がない!!
フルネーム、ファーストネーム、愛称など、何を、どのようにコメントするか決まっていない。
下手をすれば「誰が」すら分からないが、もちろん、間違った使い方ではない。
これは、声優データベースも同じで、「○○、△△」や「○○(△△)」と複数名を指定していたり、
「氏名」だったり「氏 名」だったり「氏 名」だったり、データに統一性がない!!。
特に、「氏名」に至っては、「何処までが苗字なのか」すら分からない!
ある程度、そういった統一性のなさの問題を緩和出来るよう、「氏名」か「氏?名」か「名」でマッチングを検出してみた。
区切り文字が、スペースの場合、後方を名とした。「・」「=」の場合、前方を名とした。
(「氏」は姉妹などの同姓者のデータが混在してしまうので、除外した)
また、「氏名」のように苗字の判別が困難なケースは、氏が1文字ならその後ろは名であることから、
「江口スケ子」なら、「江 口スケ子」か「口スケ子」でマッチングを検出。
同様に、氏が4文字までのそれぞれのパターンもマッチングを検出した。(苗字予測機能)
ただし、この方法の問題点は、「スケ子」と「イプ子」というキャラがいた場合、「子」でマッチングしてしまう為、
「スケ子」と「イプ子」、両名のデータが混在してしまうという点である。
例として、「マブラヴ」を苗字予測ありで検索すると……
おばあさんが朝、起こしに来るメイド(攻略不可)になってしまう。
とはいえ、苗字予測なしだと、「氏名」で登録されているゲームは、ほとんど情報が集まらない。
声優データベースのキャラクターの「氏名」がスペース、・=で区切られていれば、苗字予測は自動で回避する。
Ragna Archives NetworkのErogameScape連携機能との調和を考えれば、「氏 名」(半角スペース)に統一し、
POVコメントでは「氏 名/コメント」とするなど、入力規則を設ける方が良いのではないかと感じた。
補助的に、声優名(氏名、完全一致のみ)のマッチングも検出した。
<説明>
POVの()内は、[A=5,B=3,C=1で重み付けした和]/[データ数]となっている。
Ragna Archives Network 2さんへのリンクについて
キャラクター名が、「○○、△△」の場合、「○○」を検索する。
双方のデータのゲーム名の完全一致は難しいので、「~」等で括られた副題を排除して検索する。
select '<p class=link style='||chr(34)||'padding: 10px 10px 10px 10px;'||chr(34)||'>' ||'<概要><br>' ||'あるゲームのPOVコメントにキャラクター名があった場合、そのゲームの声優情報とのマッチングを検出して一覧出力する。<br>' ||'(わざわざ、名前を入力しているのだから、そのキャラを指しているんじゃないか? という仮定)<br>' ||'ただし、POVコメントには<span class=red>入力規則がない!!</span><br>' ||'フルネーム、ファーストネーム、愛称など、<span class=red>何を、どのように</span>コメントするか決まっていない。<br>' ||'下手をすれば<span class=red>「誰が」</span>すら分からないが、もちろん、間違った使い方ではない。<br>' ||'これは、声優データベースも同じで、「○○、△△」や「○○(△△)」と複数名を指定していたり、<br>' ||'「氏名」だったり「氏 名」だったり「氏 名」だったり、データに<span class=red>統一性がない!!</span>。<br>' ||'特に、「氏名」に至っては、<span class=red>「何処までが苗字なのか」</span>すら分からない!<br>' ||'ある程度、そういった統一性のなさの問題を緩和出来るよう、「氏名」か「氏?名」か「名」でマッチングを検出してみた。<br>' ||'区切り文字が、スペースの場合、後方を名とした。「・」「=」の場合、前方を名とした。<br>' ||'(「氏」は姉妹などの同姓者のデータが混在してしまうので、除外した)<br>' ||'また、「氏名」のように苗字の判別が困難なケースは、氏が1文字ならその後ろは名であることから、<br>' ||'「江口スケ子」なら、「江 口スケ子」か「口スケ子」でマッチングを検出。<br>' ||'同様に、氏が4文字までのそれぞれのパターンもマッチングを検出した。<span class=red>(苗字予測機能)</span><br>' ||'ただし、この方法の問題点は、「スケ子」と「イプ子」というキャラがいた場合、「子」でマッチングしてしまう為、<br>' ||'「スケ子」と「イプ子」、<span class=red>両名のデータが混在してしまう</span>という点である。<br>' ||'例として、「マブラヴ」を苗字予測ありで検索すると……<br>' ||'<span class=red>おばあさん</span>が<span class=red>朝、起こしに来るメイド(攻略不可)</span>になってしまう。<br>' ||'とはいえ、苗字予測なしだと、「氏名」で登録されているゲームは、ほとんど情報が集まらない。<br>' ||'声優データベースのキャラクターの「氏名」がスペース、・=で区切られていれば、苗字予測は自動で回避する。<br>' ||'<a href=http://www5.big.or.jp/~seraph/ragna/ragna.cgi>Ragna Archives Network</a>のErogameScape連携機能との調和を考えれば、<span class=red>「氏 名」(半角スペース)</span>に統一し、<br>' ||'POVコメントでは「氏 名/コメント」とするなど、入力規則を設ける方が良いのではないかと感じた。<br>' ||'補助的に、声優名(氏名、完全一致のみ)のマッチングも検出した。' ||'<br><説明><br>POVの()内は、[A=5,B=3,C=1で重み付けした和]/[データ数]となっている。' ||'<br>Ragna Archives Network 2さんへのリンクについて' ||'<br>キャラクター名が、「○○、△△」の場合、「○○」を検索する。' ||'<br>双方のデータのゲーム名の完全一致は難しいので、「~」等で括られた副題を排除して検索する。' ||'</p>' as "</table>"