【文件属性】:
文件名称:Image_Captioning
文件大小:2.51MB
文件格式:ZIP
更新时间:2021-04-26 12:38:40
JupyterNotebook
概述
混合系统,使用多层卷积神经网络(CNN)提取图像中的特征,并使用长短期记忆(LSTM)来使用生成的关键字准确地构造有意义的句子
解码器将目标图像与大型数据集进行比较,并生成准确的描述。
使用标准评估矩阵(例如BLUE分数)评估提出的模型的性能。
数据源
使用Flickr 8K图像字幕数据集
在Flickr8k数据集中,每个图像都与描述实体和事件的五个不同标题相关联
建筑学
技术方法
为了对文本序列进行编码,我们将每个单词映射到200维向量。 为此,将使用预训练的手套模型。
GloVe是一种无监督学习算法,用于获取单词的矢量表示
对来自语料库的汇总全局单词-单词共现统计信息进行训练,并且所得表示形式展示了单词向量空间的有趣线性子结构。
使用波束搜索算法和贪婪搜索算法预测输出
使用Tenserboard进行单词矢量化
结果
未来范围
使用基于注意力的模型可以改善结果
【文件预览】:
Image_Captioning-main
----Image_Captioning.ipynb(7.8MB)
----Readme.md(2KB)
----Img()
--------Architechture1.JPG(21KB)
--------Results2.JPG(92KB)
--------WordVetorization2.JPG(48KB)
--------Dataset.JPG(52KB)
--------Results1.JPG(78KB)
--------Resutls3.JPG(78KB)
--------WordVetorization1.JPG(37KB)