視頻搜索是涉及信息檢索、自然語言處理(NLP)、機器學習、計算機視覺(CV)等多領域的綜合應用場景,隨著深度學習在這些領域的長足進展以及用戶對視頻生產和消費的廣泛需求,視頻搜索技術的發展在學術和工業界都取得了飛速的發展。
考慮到大家來自不同的業務領域和技術方向,我會先簡單介紹優酷視頻搜索的業務背景,同時快速介紹搜索的基本評估指標、搜索系統的算法框架以及相關性和排序模型,讓大家對視頻搜索有一個更全面的認識,后面重點介紹多模態視頻搜索相關技術。
驅動系統由4個200W無刷直流電機構成,通過50:1的空心軸減速機可以最高達2m/s的速度在玉米、高粱等農作物的地里前進
通過2D激光雷達信息采用Hector SLAM實現機器人對地圖的感知和自主導航規劃,通過頂部的RGB-D相機采集目標物體深度和RGB圖像信息
機器人的學習分為三個部分的軌跡預測包括示教者的手部運動軌跡、示教者的身體移動軌跡以及被操作物體的運動軌跡
Cosero是德國波恩大學的Sven Behnke團隊根據家庭環境中的日常操作任務而研制的一款仿人操作機器人基于深度學習方法的目標姿態估計和RGB-D SLAM等感知測量
機器人、無人機、自動駕駛汽車等加快落地,智慧城市深入建設,更是為傳感器產業帶來了難以估量的龐大機遇
中國移動聯合產業合作伙伴發布《室內定位白皮書》,對室內定位產業發展現狀及面臨的挑戰,深入分析了垂直行業的室內定位需求,并詳細闡述了實現室內定位的技術原理, 及室內定位評測體系
下一個十年,智能人機交互、多模態融合、結合領域需求的 NLP 解決方案建設、知識圖譜結合落地場景等將會有突破性變化
自然語言處理技術的應用和研究領域發生了許多有意義的標志性事件,技術進展方面主要體現在預訓練語言模型、跨語言 NLP/無監督機器翻譯、知識圖譜發展 + 對話技術融合、智能人機交互、平臺廠商整合AI產品線
NVIDIA解決方案架構師王閃閃講解了BERT模型原理及其成就,NVIDIA開發的Megatron-BERT
基于內容圖譜結構化特征與索引更新平臺,在結構化方面打破傳統的數倉建模方式,以知識化、業務化、服務化為視角進行數據平臺化建設,來沉淀內容、行為、關系圖譜,目前在優酷搜索、票票、大麥等場景開始進行應用
通過使用仿真和量化指標,使基準測試能夠通用于許多操作領域,但又足夠具體,能夠提供系統的有關信息
優酷智能檔突破“傳統自適應碼率算法”的局限,解決視頻觀看體驗中高清和流暢的矛盾