Bootstrap

深度学习论文发表的一些经验

本文将会持续更新

阅读论文

如果有了一个明确的方向了的话,就先找到一篇这个方向的顶会的论文。

然后看论文的参考文献,把其中水平较高、时间较新、较为切题的论文(论文有很多,如果自己看论文需要很多的时间,尽量只看对自己的课题最有帮助的)在PDF上画出来。

把这些论文的题目、venue、发表年份在一个excel表格中记录下来。

然后再在现有的excel表中找到水平较高、时间较新、较为切题的论文,重复上面的块引用中的操作。直到找到50-100篇论文为止。

然后下载下来进行阅读。尽量理解论文中的思想。如果理解论文中的思想花得时间过多的话,就应该接着往下看(因为需要看的论文还有很多)。

一般需要阅读50-100篇左右的论文(顶级会议的论文的参考文献一般的数目都是这样)。在阅读论文是需要关注作者的motivation、contribution、experiment和现阶段还有哪些论问题没有解决。

在阅读了10篇论文以上时候就可以开始写论文的相关工作了。

如果论文中的英语读得不太懂的话,先在翻译软件中查不会的单词的意思。如果翻译软件翻译的不好的话,可以直接把整句话放到翻译软件中翻译,然后再看对应的单词的意思。

尽量提高自己的阅读能力,而不仅仅是英语的能力,需要快速找到自己需要的信息。可以在阅读过程中练一下意译。

遇到不会的单词或者专有名词时要积极去查,不应该为自己对这些词不了解而感到失落。

找到自己需要的论文的方法

有时候自己找不到自己想要的论文的主要的原因是自己不知道自己想要找的论文中的关键词是什么。应该多找一找对应方向的资料,查出关键词。

实验、idea及阅读论文与实验之间的权衡

建议不要在读了几篇论文的情况下就去跑实验。因为跑一个实验需要花很多的时间(即使网上有源码自己也需要花大量的时间来进行配环境、下载数据集这些操作。如果复现别人的论文的话花的时间会更多)。建议读了50-100篇论文之后去在各个论文中进行选择,选择对自己的课题最有益的几篇论文进行实验。如果在还没有读到50篇论文的时候自己有了一些idea的话,可以把自己的idea记录下来,但不建议去实现。因为当自己把剩下的论文读完了时,自己可能会对自己的idea有新的改进的方法。

在跑实验之前的第一步是选择自己要对比的baseline,这个必须要先选定,然后再去下载对应的数据集,接着再跑实验。

跑实验一般都需要编写代码。而编写的代码最好基于开源的项目进行开发。对于开源项目的选定,应该从当前SOTA的论文的代码中选(在确定用这个代码之前先自己跑一跑实验,看是否真的能达到论文中的结果,要在确定可以达到论文中的结果之后再选定这个开源项目。可以多试几个开源项目,选择最适合自己的)。

对于想idea,自己想出的idea中的算法应该尽量含有最少的超参数,这样便于自己进行消融实验和超参数敏感性分析。可以把机器学习中的原有算法在自己的领域中用下,在应用的过程中可能没有效果,甚至有可能会导致性能降低。然后就是需要自己创新的时候了,想一想为什么把原有的算法用到自己的领域性能不行,然后结合自己的领域对原有的算法在自己的领域内进行改进。

对于机器学习(非深度学习)方向的idea,先想一想自己的算法和自己的baseline比较是否公平(如:自己是否增加了模型的参数量、计算量、计算时间等),自己的算法是否符合伦理。然后再进行严密的数学推导(在推导过程中可能需要使用到大量的数学公式,可以在纸上推导)。对自己的推导多检查几遍,然后再对自己的理论进行编程实现(在编程实现过程中,应保持自己草稿上的数学符号的名字、自己代码中的变量的名字和自己论文中的数学符号的名字保持一致。在每一行代码上标出该行代码所对应的公式的LaTeX代码。可以考虑一边写代码,一边写论文)。这样会节省后期大量的写论文的时间(机器学习(非深度学习)论文中一般都需要有大量的推导)。

对于实验,应使用固定种子,以便别人复现。在论文录用后建议开源代码。

实验最好达到SOTA。在实验中,和自己的baseline相比,自己提出的算法应该改变尽可能少的超参数。

需要进行消融实验和超参数敏感性分析,看看是否是自己的idea带来了性能的提升。如果通过实验,发现算法性能提升的原因不是自己的idea的原因的话,应该对此进行解释(可能需要重新推导)。

若实验的目的是画出一个需要在论文中展示的曲线图,曲线图对应的数据应存储到一个文件(如:csv文件)中,使用这个文件中的数据进行作图。

应该保证自己以后愿意用自己的算法(如果自己都不愿意用的话,别人很可能也不愿意用)。尽量保证自己的算法对学术界或工业界有一定的使用价值。

积极和别人交流,尽量碰撞出新的idea,别人问问题时也应该积极回答。

写论文

写完论文后,多读几遍。找出论文中的问题。

论文写出来了之后,应该第一时间在arxiv上挂出来,否则其他人可能抢先你把和你一样的idea挂到arxiv上。一般公认第一个挂到arxiv上的人为这个idea的作者。

希望大家投的论文都可以中。

如果有不正确的地方,欢迎留言指正。

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;