谷歌推出 AutoFlip：视频智能裁剪工具

传统上，人们使用长宽比为 16：9 或 4：3 的电视观看视频。但是，使用最新的设备，人们可以按多种纵横比观看和创建视频。裁剪视频以适合这些设备的屏幕对于视频管理者来说是一项繁琐的任务。

谷歌最近在一篇博客文章中宣布了一种开放源代码工具 AutoFlip ，用于重新格式化和裁剪视频以适合任何屏幕。AutoFlip 是使用基于机器学习（ML）的对象检测和跟踪技术自动重新构图视频的工具。

AutoFlip –用于智能视频裁剪

Google 创建了此工具，以摆脱用于裁剪视频的常规静态裁剪方法。静态裁剪方法涉及不可靠的视频重新构图技术，即为视频指定摄像机视口，然后裁剪该区域之外的所有内容。这种方法会产生不希望的视频输出。

Google Autoflip 具有许多高级功能，包括镜头检测，视频内容分析以及最后的重新定格。

镜头（场景）检测

视频中的场景或镜头是连续的帧序列，没有任何剪切。如果视频的镜头或场景发生任何变化，则 Google 的 AutoFlip 可以通过将先前帧的颜色直方图与新帧的颜色直方图进行比较来检测到变化。当帧颜色的分布以与滑动历史窗口不同的速率变化时，将检测到镜头变化。该工具用于优化重新构图过程，可在做出任何重新构图决定之前先缓冲整个视频。

视频内容分析

通过使用这种策略，该工具可以检测视频中的重要对象和人物。它使用基于深度学习的对象检测模型来识别对象。使用此模型，该工具甚至可以检测任何文字叠加层或品牌徽标以及体育视频的其他元素，例如运动或球。人脸和物体检测模型通过 MediaPipe 集成到工具中。它基本上是通过开发管道来处理多模式数据的框架。该框架在 CPU 上使用 Google 的 TensorFlow Lite ML 框架。

重新构架

识别视频中的人物和物体后，该工具将对如何重新构架视频做出合理的决定。AutoFlip 从三种重新定帧策略中选择一种来裁剪内容- 固定，平移或跟踪。该工具根据视频内容选择最佳策略。例如，在静止模式下，重新构架的摄像机视口保持固定在静止位置，在静止位置，视频的大多数重要场景都存在。对于包含运动的视频，它通过以恒定速度移动重新构架的摄影机视口来使用 “平移”。当相框中有有趣的被摄对象时，跟踪模式生效。