联都网

标题: 关于【集句联搜索引擎】的初步设想 [打印本页]

作者: 讷南    时间: 2014-10-27 10:28
标题: 关于【集句联搜索引擎】的初步设想
1.功能:为广大联友提供集句搜索引擎,丰富灵感来源

  例如:
  输入【枫叶荻花秋瑟瑟】显示【闲云潭影日悠悠】等
  输入【白日依山尽】显示【黄河入海流】等
  输入【劝君更尽一杯酒】显示【与尔同消万古愁】等


2.算法初探:

  数据库以诗句为条目,进行建模分析
  第一步:看有无句内重字,【举杯浇愁愁更愁】有,只能和同样情况匹配,接下来与无重字同;
  第二步:结构划分【七言为例】,七言数学上有【一六】【二五】【三四】【四三】【五二】【六一】六种结构,实际上以【四三】为主,以下以四三为例
  第三步:【四三】再划分,【四】划分为【一三】【二二】【三一】三种,以此类推,诗句划分为以词为最小单位的结构(最多四字,最少一字,连绵词不可分)
  第四步:为大结构(第一次划分)和小结构(最后一次划分)标明序号,如【劝君更尽一杯酒】大结构【四三】(代码4),小结构【一一一一一一一】(代码99)
  第五步:为每句诗以小结构为基础,词性为编码标号,例如:名词1、动词2、形容词3、量词4、代词5、副词6、数词7、助词8,则【劝君更尽一杯酒】代码为【2542761】,【与尔同消万古愁】代码也是【2542761】,代码匹配,集句搜索成功


3.建议范围顺序:【唐诗三百首】【千家诗】【全唐诗】【全部】;【五言】【七言】【四言】


4.相关问题:

  是否考虑平仄?不考虑,搜索结果仅供联友参考,方家剪裁,并非最后成果,旨在打开灵感来源,无需考虑平仄;
  词性不好判断?对于一行诗句可以给出多个编码,另:词性存疑可代码0,可以万能匹配;
  搜索分类:【精确匹配】【普通匹配】【模糊匹配】
【精确匹配】小结构一致,词类严格严格匹配,小类词(数词,天干地支词,颜色词等)严格匹配
【普通匹配】大结构一致,大类词匹配即可,其中【名词】【代词】;【数词】【量词】等可以匹配;
【模糊匹配】【名词】【代词】位置匹配即可。

初步设想,不足之处,还望方家指正!
作者: 漠野孤狼    时间: 2014-10-28 18:07

   剩饭不易多炒,偶尔集句确实不错,能有切合实际的很好的效果,但多数所谓的集句纯属毫无意义的摆弄,没啥意思。




欢迎光临 联都网 (http://china-liandu.com.cn/) Powered by Discuz! X3.2