pycharm如何更新库,pycharm怎么创建数据库
python新手工具网盘地址
下载链接:http://pan.baidu.com/s/1eS8WMR4密码:7eso
Pycharm中文版包网盘地址下载链接:http://pan.baidu.com/s/1dEVkPtn密码:mzet
Pycharm注册码
http://idea.qinxi1992.cn
http://intellij.mandroid.cn
(或http://idea.imsxm.com或http://idea.iteblog.com/key.php)
如今,有许多博文展示了复杂的机器学习算法和前沿技术,而这也促使数据科学家逐渐成为“社交控制”FOMO。但是数据分析的基本内容是什么呢?你应该如何安排项目结构?需要用什么样的工具?诸如此类,但很少有人对这样的问题感兴趣。本文将提供一些关于如何建立项目的启发性想法,以帮助您快速达到在数据科学领域卓有成效的状态。
项目结构
项目结构总是为了满足人们的需求而改进,这将导致一个团队中出现不同的项目框架。如果你或者团队中的其他人能够及时发现项目结构的重要性,并且这种理念在团队中得到普及,那么你无疑是幸运的。
多年前,笔者偶然发现了R语言的项目模板网站。从那以后,作者一直在倡导身边的人使用标准化的项目结构。最近,DrivenData发布了一个更通用的Cookiecutter数据科学来构建项目结构。
这些网站在项目建设方面的思路大致如下:
一个连贯且组织良好的结构来促进人们的协作。
你的分析应该是可重复的,你的项目结构可以满足这个要求。
您不应该从原始数据开始项目,而应该假设原始数据没有改变,并创建其他派生文件。
作者的简要项目结构如下:
你可以在这里看到相关的例子。
项目通常遵循另一种结构:
原始数据不变,存储在data/;
数据处理和相关输出图形存储在不同的文件夹中,例如:figures/和output/;
笔记存储在笔记本中/;
项目信息写在README.md
该项目放在一个单独的文件夹中。
其实选择什么样的项目结构并不重要,只要符合你的工作流程,就可以坚持下去。你要试着去了解什么是项目,选择符合要求的项目结构。
虚拟环境
项目之间应该是相互独立的,你当然不希望新项目打乱之前的工作成果。我们可以通过将不同项目的文件存储在不同的文件夹中来实现独立性,但是不同的项目之间也要使用不同的Python环境。
虚拟环境依赖于不同的项目,相互独立,从而避免了包的冲突。每个虚拟环境都安装了不同软件包的特定版本。在虚拟环境1中,安装了1.11版本的numpy库和0.18版本的pandas库,而在虚拟环境2中,只安装了0.17版本的pandas库。作者选择了数据科学的conda来管理虚拟环境(你可以在这里看到选择它的原因)。
以下命令可以使用Python 3.5创建一个新的conda虚拟环境,命名为example_project:
激活虚拟环境(在Windows系统中保存源代码):
之后,您可以安装所需的软件包:
当无声灯泡在不同项目之间跳跃时,可以运行源停用命令来停用和激活新项目虚拟环境。
一旦熟练使用activate和deactivate命令,你会发现虚拟环境是一个非常轻便的工具,可以保证Python环境的独立性。通过导出环境定义文件(例如,所有已安装的软件包名称和版本号),您的项目可以很容易地重现。如果你想看到更多的细节,你可以在蒂姆霍普的博客文章中看到。
饭桶
每个项目都应该有自己的Git资源库。在每个项目中创建资源库可以帮助您跟踪每个项目的历史,并解决不同项目之间复杂的版本依赖问题。
或者,您可以选择在资源库中包含多个项目,并将所有内容存储在一个地方。这种方法的缺点是,它经常以合并冲突结束(数据科学家通常不精通使用Git)。除了使用Git时的很多问题,这也会导致你的项目之间缺乏独立性。
创建Git存储库最简单的方法是在您的Git远程主机托管服务(例如Github和GitLab)上创建一个新的Git存储库,然后在本地复制它:
您可以在这个空文件夹中构建项目结构。
如果你按照这个步骤,并准备在一个新的文件夹中创建一些文件。然后,首先需要在您的计算机上初始化git资源池:
然后在您的远程主机上创建一个新的git存储库,获取它的链接,并运行以下命令:
此命令添加链接到https://github.com/hgrif/example-project.git,的远程资源池,命令为origin。您可能需要将现有的主分支推到原点:
在项目目录中创建一个. gitignore文件可以避免错误地将地图或数据添加到资源库中。一般来说,作者使用。gitignore用于Python的文件,并在文件中添加data/、figures/和output/文件夹,以便Git可以忽略它们。
现在Git已经设置好了,您可以对核心内容使用git add和git commit命令了!
使用工具
使用一些工具可以帮助你摆脱那些重复的任务。
Python中的cookiecutter包可以基于模板自动创建项目文件夹。您可以使用现有的模板,如Cookiecutter Data Science或作者的项目结构模板,或者创建自己的新模板。
使用虚拟环境的最好方法是选择支持它们的编辑器,比如PyCharm。如果您的cd位于工作目录中,您还可以使用autoenv或direnv来激活虚拟环境并设置环境变量。
结论
为您的数据科学项目做好准备将有助于您与其他人合作,项目本身也将更容易重现。良好的项目结构、虚拟环境和git资源库是每个数据科学项目的基石。
历史提交的图片或压缩文件
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。