Bootstrap

语料分析环境配置过程

GitHub - tanloong/neosca: NeoSCA is a syntactic complexity analyzer of written English language samples.

本文是在win10环境下成功配置环境的注意事项

首先电脑已安装python,pip,或者有python和anaconda(使用虚拟环境也可以)

一、win+r,cmd打开

 按第一步 输入pip install neosca

二、按第二步,安装java

一定要安装在D盘或者其他盘

安装完,发现没有jre文件夹,此时在当前目录下打开cmd(选中路径,输入cmd,enter即可)

输入

bin\jlink.exe --module-path jmods --add-modules java.desktop --output jre

然后就有jre了

接着,配置环境变量,右键 我的电脑(此电脑)->属性->高级系统设置->环境变量,添加前两个,第二个写自己安装的路径。

Path需要新建两个

 

 _JAVA_OPTIONS  -Xmx512M
JAVA_HOME D:\Program Files\Java\jdk-19
Path 
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

最后,java配置成功

 三、下载第三步的两个包,设置环境变量(同上),前面的变量名固定,值为绝对路径

STANFORD_PARSER_HOME F:\chouchou\stanford-parser-full-2020-11-17
STANFORD_TREGEX_HOME F:\chouchou\stanford-tregex-2020-11-17

四、输入,测试环境配置完成

nsca sample1.txt 

 五,跑实际数据又遇到UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte的问题,搜了一下

Python 的 open 方法默认编码取决于平台,如果是 Windows 平台,默认编码是 gbk,如果文件是 utf-8 编码,就会报这个错误。

解决:报错路径中的neosca-master\neosca\utils\analyzer.py中第131行,按下面改一下,问题解决。

with open(fn_parsed) as f:
改为
with open(fn_parsed,'r', encoding='utf-8') as f:

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;