产品邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

重磅!50页PPT揭秘腾讯大数据平台与推荐应用架构

[复制链接]
Vegeta 发表于 2014-12-11 15:18:08 | 显示全部楼层 |阅读模式

立即注册,下载精品资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
2014年10月25日,由eBay、CSDN共同举办的“大数据峰会”将在上海豫园万丽酒店举办。腾讯T4技术专家、数据平台部精准推荐中心总监李勇,以“腾讯大数据平台与推荐应用架构”作为峰会的结尾。
下面是内容简介:
  • 腾讯的月活跃用户8.3亿

  • 微信月活跃用户4.4亿

  • QQ空间月活跃用户6.5亿

  • 游戏月活跃用户过亿


如今腾讯的数据分析已经能做到始终“不落地”,即全部的实时处理。腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实时计算,TPR负责精准推荐,TDBank则作为统一的数据采集入口,而底层的Gaia则负责整个集群的资源调度和管理。李勇还特别强调了数据平台体系化是应用基础,数据应用商业化是价值导向。

数据平台体系化是应用基础,数据应用商业化是价值导向。

腾讯深度学习平台的挑战

深度神经网络模型复杂,训练数据多,计算量大
  • 模型复杂:人脑有100多亿个神经细胞,因此DNN的神经元和权重多
  • 训练数据多:大量训练数据才能训练出复杂模型
  •  微信语音识别:数万个神经元,超过50,000,000参数,超过4,000,000,000样本,单机训练耗时以年计,流行的GPU卡需数周


深度神经网络需要支持大模型
  •  更深更宽的网络能获得更好的结果
  •  以图像识别为例,增加卷积层的filter数量,加大模型深度等,可获得更好的模型质量


 深度神经网络训练中超参数多,需要反复多次实验
  •  非线性模型:代价函数非凸,容易收敛到局部最优解
  •  敏感的超参数:模型结构、输入数据处理方式、权重初始化方案、参数配置、激活函数选择、权重优化方法等
  • 数学基础研究稍显不足,倚重技巧和经验


腾讯深度学习平台Mariana

 腾讯有广泛的深度学习应用需求,其挑战如下
  •  模型复杂,训练数据多,计算量大
  •  需要支持大模型
  • 训练中超参数多,需要反复多次实验


 Mariana腾讯深度学习平台提供三个框架解决上述问题
  •  Mariana DNN: 深度神经网络的GPU数据并行框架
  •  Mariana CNN: 深度卷积神经网络的GPU数据并行和模型并行框架
  • Mariana Cluster: 深度神经网络的CPU集群框架


 Mariana已支持了训练加速、大模型和方便的训练作业
  •  微信语音识别6 GPU做到4.6倍加速比
  • 微信图像识别4 GPU做到2.5倍加速比,并支持大模型

 Mariana已成功应用到微信语音识别和微信图像识别,并在广点通广告推荐的点击率预估中积极尝试

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|产品经理之家 ( 粤ICP备12078725号 )

GMT+8, 2025-7-13 16:09

Powered by Discuz!

© 2012-2024 masterchat.cn.

快速回复 返回顶部 返回列表