以下为知识DOC为大家进行整理的相关内容,希望对大家有所帮助!
春节前用 GPT2 训练了一个自动对联系统:鼠年春节,用 GPT-2 自动生成(写)春联和对对联,逻辑上来说这套NLG方法论可以应用于任何领域文本的自动生成,当然,格式越固定越好,这让我自然想到了自动写诗词无言绝句,诗词的格式相对比较固定,我们之前已经有所涉及,譬如已经在AINLP公众号上上线了自动写藏头诗和首字诗的功能,不过是直接复用的:,另外还有一个更大的诗词数据项目可以用作自动作诗的“原料”:,加上 GPT2- 这个项目:,可以说万事俱备,只欠试用。
所以本周我们从五言绝句开始继续自然语言生成的主题,关于五言绝句,百度百科是这样说的:
五言绝句是中国传统诗歌的一种体裁,简称五绝,是指五言四句而又合乎律诗规范的小诗,属于近体诗范畴。此体源于汉代乐府小诗,深受六朝民歌影响,成熟定型于唐代。五绝每首仅二十字,便能展现出一幅幅清新的图画,传达一种种真切的意境。因小见大无言绝句,以少总多无言绝句,在短章中包含着丰富的内容,是其最大特色。五绝有仄起、平起二格。代表作品有王维的《鸟鸣涧》、李白的《静夜思》、杜甫的《八阵图》、王之涣的《登鹳雀楼》、刘长卿的《送灵澈上人》等。
我主要用了 – 里的《全唐诗》和《全宋诗》数据 ,首先向这个项目的作者致敬:
《全唐诗》是清康熙四十四年(1705年),彭定求、沈三曾、杨中讷、汪士鋐、汪绎、俞梅、徐树本、车鼎晋、潘从律、查嗣瑮10人奉敕编校,“得诗四万八千九百余首,凡二千二百余人”, 共计900卷,目录12卷。来自百科
《全宋诗》继唐诗的高度繁荣之后,宋诗在思想内容和艺术表现上有新的开拓和创造,出现了许多优秀作家作品,形成了许多流派,对元、明、清的诗歌发展产生了深远影响。
说明
《全唐诗》和《全宋诗》是繁体存储, 如有需要请自己转换, 但转换后的字不符合上下文。
这里需要首先通过做了繁简转换,其次提取里面的五言绝句,最后转换为 GPT2- 的训练格式,然后就是训练和测试了,感兴趣的同学可以自己尝试,很方便,训练经验可以复用上文关于自动对联的:
1)训练数据可以按 GPT2- 训练数据的格式要求写个脚本进行转换,可以加一些标记符,这样在生成的时候可以基于这些标记符做trick;
2)训练时请将参数 min- 设置为一个较小的数字,默认为128,由于对联数据长度比较短,按默认的设置训练后只会得到乱码,我直接设置为1;
3)根据自己GPU显存的大小调整 和配置参数, 这里 默认为8,训练时在的机器上会出现OOM,将其设置为4就可以完全跑通了,其他参数不用动;
自动作诗GPT2模型训练完成后,可以直接基于 GPT2- 里面的 .py 脚本进行测试,很方便,我基于 .py 和 flask- 写了一个 版本,对接到AINLP公众号后台了,感兴趣的同学可以关注AINLP公众号,直接进行测试:
关键词“写诗/作诗”触发诗歌的自动生成,例如输入“写诗春”,自动作诗模型会基于“春”进行自动续写,会给出以“春”开头的诗,给出其他的字同理,目前不能多于五个字,因为只能自动生成五言绝句:
关键词“藏头诗”触发藏头诗生成,例如输入“藏头诗春夏秋冬”,基于GPT2模型叠加trick生成:
本文地址: https://www.zhishidoc.com/19457.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 859089669@qq.com 举报,一经查实,本站将立刻删除。