AI开发前途无限
欢迎来到AI开发者的频道
今天这个视频呢
我们介绍一下
微软这周刚刚发布的一款最新的模型
也就是这个Phi-4 Multi model instruct模型
这是一款轻量级的开放的
多模态的基础模型
之所以介绍这款模型呢
主要是因为这款模型
在语音任务上的表现
可以说是非常的棒
它在Huggingface的
语音识别模型排行榜上呢
超过了当前排名第一的
英伟达的Canary 1B的模型
下面呢首先我会介绍一下这款模型
然后呢
再来介绍一下如何使用这个模型
并来测试一下它的语音识别能力
好首先我们先来看一下这个模型
那这个模型呢
它是一个轻量级的多模态基础模型
它是在Phi3.5和Phi4版本的基础上的
来建立起来的
这款模型呢
它支持处理文本
图像和音频的输入
并可以生成文本的输出
它支持呢128K TOKEN的上下文
模型的训练呢
采用的这些技术呢
是当前最常用的一些技术
这里呢
是它各个模态支持的语言的情况
文本呢
我们可以看到它支持的语言呢
还是挺多的
视觉呢只支持英文
音频呢支持英文
中文等8种语言
然后呢是微软介绍的
这个模型可以适用的应用场景
首先呢
这个模型的参数量呢只有5.6个B
所以呢
它更适合于这种计算环境受限
或者低延迟的这种场景
虽然参数量不大
但是他的能力呢
一点也不差
比如他的强推理能力
也就是说他的数学
和逻辑推理能力呢是不错的
然后呢他还可以支持呢使用工具调用
下面呢就是它的这个图像处理能力
包括图像理解
OCR的处理
多图像的对比等等
最后呢是它的这个音频的处理能力
包括语音识别
语音的问答翻译
甚至呢可以对语音做直接的摘要
第三点呢
就是当前这个开放版本的说明
这里他讲呢
他这个版本呢是基于Phi3系列来建立的
相比Phi3系列呢
它主要的改进呢有新架构的设计
更大的词汇表
多语言和多模态的支持等等
第四点呢是模型的性能
也就是呢
这个模型在公开测试集上的表现
到底如何
首先呢
我们先看一下它的这个语音能力
第一点呢
就是说
它的这个语音识别和语音翻译的能力
是非常棒的
这个表呢是语音识别上的一个结果
通过这些结果我们可以看到
这个模型呢在语音识别上的误识率呢
低于Qwen2-Audio以及open AI的Whisper V3
在下面这个结果呢
是它在8种语言上的语音识别结果
第三个结果呢是语音翻译
这个结果呢是值越高呢性能越好
从这个结果也可以看到
微软的这款模型呢在语音翻译上呢
也超过了当前我们熟知的
这种性能比较好的模型
然后这款模型呢
还可以同时支持
这个视觉和语音的输入
这个结果呢
它是比较了
与当前支持音频和视觉输入的
最好的多模态模型的一个比较
从这个多个测试基准中呢我们可以看
到这个Phi-4多模态的模型
表现还是非常不错的
除了结果呢
微软呢还介绍了
这个模型的训练的一些相关的细节
这个模型训练呢
使用了512张A100进行训练的
训练时间呢是训练了28天
训练数据呢包括5T TOKEN的文本数据
230万小时的语音数据
和这个1.1T的图像和文本对齐数据
虽然说模型不大
但是这个数据量还是很大的
然后呢他还介绍了
他们的这个训练数据的组成
以及这个数据
是如何进行筛选和处理的
好以上内容呢
感兴趣的小伙伴呢
可以去自己读一下
这个模型的技术报告
最后呢
我们来介绍一下如何运行这个模型
要运行这个模型呢
首先呢我们需要安装一个运行环境
并根据他这的要求呢
安装相关的这种开发库
这部分呢
是我们导入这个相关的开发库
然后执行这一部分的代码呢
就可以将这个模型
下载到我们本地的机器上
这边呢我已经下载好了
点击这个执行之后呢
就可以看到这个模型呢被导入了
这个模型
导入之后呢可以看到这个显存占用呢
大约是在13个g左右
首先呢
我们来测一下它这个语音识别
以及翻译的能力
这个例子呢
是微软官方给出的一个例子
这边呢是一个语音文件
然后呢是这个模型的一个提示词
这个提示词呢是让这个模型呢
将这个语音呢识别为文本
然后呢再翻译为中文
并要求这个模型呢
在识别文本与翻译结果
之间呢加上Sep这个标记
然后这就是读取这个语音的文件
读取之后呢
是做TOKEN和数据的基本处理
然后就是进行这个文本的产生
好我们可以看到这边结果呢
就产生出来了
这上面呢还显示了他的这个提示词
以及这个模型产生的回答
我们可以看到
前面呢是语音识别的部分
Sep后面的部分呢
就是将上面的这个识别的文本
翻译为了中文
然后
为了测试一下它语音识别的能力呢
我找了一个多人对话的语音
我们可以先来听一下这段语音
你可以听到这个语音当中呢
它有多个人进行对话
并且呢
这三个人的语音呢还是有交叉的
那我们来看一下这个模型
它识别的情况
好这边呢他就识别完成了
我们可以看到这个识别呢
是完全没有问题
甚至连两个说话人交叉的语音部分呢
识别的也是完全正确
最后呢
我也测试了一下我上期视频中
我自己的一个语音
我这语音文件呢
在使用这个剪映提供的语音识别
进行字幕转录的时候呢
它里面呢
很多这个英文单词识别呢
都是不正确的
我们来看一下微软的这款模型
识别的怎么样
我提供的这个文件呢
它的长度呢是一分钟的时间
但是呢
我们这里可以看到这个模型呢
它只识别了前30秒
也就是说呢
这个模型单词处理呢
只处理30秒的语音
这一点呢
与这个openAI的Whisper呢是一样的
从这个识别结果来看呢
除了OpenR1这个地方识别错误之外呢
其他的地方呢
识别的是完全没有问题
这边呢是后30秒的识别结果
这边呢这个llama识别的是不正确的
其他的地方呢
基本上识别的没有任何问题
相比剪映提供的这个语音识别功能呢
这个模型的识别效果还是非常不错的
在剪映提供的识别功能当中呢
像deepseek llama千问这些地方呢
经常呢识别错误
最后呢我们再来运行一下这个图像
理解的例子
这边呢是图像的地址
然后这个提示词呢是问这个大模型
这个图像中呢有什么好
我们来运行一下这本书呢
这个图像中呢
是在一个建筑前面有一个停止标记
然后我们再来试一下这个图片
我们翻一下来看看它识别的怎么样
他说呢
图片显示两名男子呢坐在户外交谈
左侧的男子呢手持一台平板电脑
似乎呢正在用手势表达
右侧的男子呢
也在用手势交流
他们坐在一张十字长凳上
背景呢是一个花园
背景中呢还有一朵石墙
上面长着一些植物和一颗仙人掌
从这个结果来看呢
大部分的内容呢还是正确的
但是里面呢也有一些错误的地方
比如说
左侧的男子似乎正在用手势交流
这一点呢
他解释的呢是不正确的
然后后面背景当中的植物呢
也不像是仙人掌
看来这个模型对图像的这种描述
理解能力呢
还是有待提高的
不过他的这个语音识别能力
至少比我现在常用的这个剪映提供
的语音识别能力的还是强不少的
并且这个模型呢只有5.6个币的参数量
正常使用的话呢
大约需要13个g左右的现存
对于语音识别和语音翻译
有需求的小伙伴呢
推荐大家来测试一下这个模型
好以上呢
就是今天的分享
如果你觉得本视频对你有帮助
记得一键三连
感谢收看
我们下期视频再见
发表回复