您现在的位置是:首页 > 创新技术

0544-CDSW1.5的新功能

智慧创新站 2025-04-08【创新技术】277人已围观

简介Cloudera于2019年1月29日发布,因为恰逢过年,所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了,另外和中也可以使用CDSW。 1.的新功能 1.支持 ClouderaDataScienceWorkbenc...

Cloudera于2019年1月29日发布,因为恰逢过年,所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了,另外和中也可以使用CDSW。

1.的新功能

1.支持

ClouderaDataScienceWorkbench现在支持(或更高)和(或更高)。

2.ClouderaDataScienceWorkbenchonHortonworksDataPlatform(HDP)

ClouderaDataScienceWorkbench现在可以部署到和。

3.安全增强

允许SiteAdministrators启用/禁用项目上传和下载-默认情况下,所有的CDSW用户都允许从项目上传和下载文件。1.5引入了一个新的功能,允许SiteAdministrator为用户在UI上隐藏上传和下载的功能。

请注意,该功能仅仅是从CDSW的界面上删除了上传和下载的按钮,它并没有禁用通过后端WebAPI上传和下载文件的功能。

4.OpenJDK支持

ClouderaDataScienceWorkbench现在支持在(或更高)上使用OpenJDK。

5.Engines

基础引擎R升级到新版本3.5.1(BaseImagev7)

改进调试功能-以前,引擎在退出或崩溃后会立即删除与其关联的日志。对于1.5版本,现在可以在结束后短时间内使用引擎,以便你收集相关日志。

另外,当引擎以non-zero状态码退出时,引擎日志中的最后50行现在将打印到Workbench控制台。请注意,non-zero退出码和Workbench中引擎日志的存在并不总是意味着你的代码存在问题。会话超时和内存不足问题等也会抛出non-zero退出码,并显示引擎日志。

6.安装和升级

新的配置参数-1.5包括三个新配置参数,可用于指定正在运行的分发版类型,已安装软件包/parcel的目录以及安装Anaconda的路径(仅适用于HDP)。

DISTRO

DISTRO_DIR

ANACONDA_DIR

DOCKER_TMPDIR修改为/var/lib/cdsw/tmp/docker-以前,CDSW安装程序会临时将基础引擎镜像文件解压到/var/lib/docker/tmp目录。从1.5版本开始,安装程序将使用/var/lib/cdsw/tmp/docker目录。确保按照建议将Applicationblockdevice挂载到/var/lib/cdsw,以便安装/升级不会出现问题。

改进校验检查-改进了安装程序运行的校验检查(validationcheck)以及安装过程中显示的错误消息。ClouderaDataScienceWorkbench现在:

检查根目录,ApplicationBlockDevice和DockerBlockDevice是否有可用空间。

检查DNS正向和反向查找是否适用于所提供的CDSW域和MasterIP地址。

cdswstatus和cdswvalidate命令的错误信息显示会更友好,以便于调试。

7.命令行

cdswlogs-以前,cdswlogs命令生成两个日志包-一个是纯文本,另一个对敏感信息进行了脱敏。对于,该命令现在只生成一个包,默认情况下会对所有敏感信息进行脱敏。

要关闭日志文件的敏感信息脱敏,可以使用新的--skip-redaction参数,如下所示:

cdswlogs--skip-redaction

8.网络

CDSW现在使用DNS主机名(而不是IP地址)进行组件之间的内部通信。因此,为CDSW配置的通配符DNS主机名必须能被CDSW集群和浏览器解析。

CDSW现在可以在安装过程中启用IPv4转发()。

1.1.Engine升级

开始打包的基础engine镜像包括的R和Python的版本为(version7):

,3.6.1

Engine7中预安装的软件包-参考:

升级项目使用最新的BaseEngineImages-确保进行了测试,然后升级已有的项目到BaseImagev7(ProjectSettingsEngine),以确保能利用最新的一些bug修复。

另外,CDSW现在会在有新版本的engine可用时提醒你。确保你将有的项目升级到了BaseImagev5(ProjectSettingsEngine)并进行测试,因为修复了一些bug。

请注意,如果你是在CDH6上使用CDSW,则升级到BaseImagev7是必须的。

你使用的baseengineimage必须与CDH版本兼容。如果你是在Spark上运行工作负载,这一点尤为重要。较旧的baseengine(v6及更低版本)无法支持最新版本的CDH6。这是因为这些engine指向Spark2parcel。但是,在CDH6上,Spark现在打包为CDH6parcel的一部分,不再支持单独安装Spark2parcel。如果要在CDH6上运行Spark工作负载,则必须将项目升级到baseengine7(或更高版本)。

CDH5和CDH6上Spark工作负载的CDSWBaseEngine兼容性


2.中不兼容的更改

废弃的配置-CDHParcelDirectory

AdminEngines的SiteAdministration面板中不再提供CDHparceldirectory配置。根据你的部署,使用以下方法之一配置此属性:

CSD部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在ClouderaManager中进行配置,具体参考CM相关文档。

RPM部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在master和worker节点的文件中配置DISTRO_DIR属性。更改后运行cdswrestart。

3.修复的问题

1.修复了RPM安装中忽略NO_PROXY设置的问题。ClouderaBug:DSE-4444。

2.修复了由于Webpod的IP问题导致CDSW无法启动的问题。1.5通过在启动时启用IPv4转发来解决此问题。ClouderaBug:DSE-4609

3.修复了在退出/崩溃后引擎会立即被删除,并且引擎日志不会存在的问题,这使得很难通过崩溃或自动重启来调试问题。ClouderaBug:DSE-4008,DSE-4417

4.修复了在CSD部署中启动和停止CDSW的间歇性问题。ClouderaBug:DSE-4426,DSE-4829

5.修复了CDSW报告大于2MB的文件的文件大小不正确的问题。ClouderaBug:DSE-4531,DSE-4532

6.修复了RunNewExperiment对话框未包含fileselector,且必须手动输入脚本名称的问题。ClouderaBug:DSE-3650

7.修复了底层Kubernetes进程耗尽资源导致OOM错误的问题。CDSW现在会为Kubernetes组件预留计算资源。ClouderaBug:DSE-4896,DSE-5001

8.修复了PYSPARK3_PYTHON环境变量未按预期用于Python3工作负载的问题。ClouderaBug:DSE-4329

9.修复了当使用HTTP/HTTPS代理时,CDSW的engine(比如自定义的engineimage)在本地不可用时,Docker命令会失败的问题。ClouderaBug:DSE-4427

参考:

很赞哦!(195)