磨铁读书 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!

业余黑客有个潜规则。

政府机关、金融系统、电子商务……这类网站的后台,是机密重地,通常有高手坐镇,没事最好别去溜达。

被网监或者安全专家盯上,十有八九落不了好。

而个人网站、小型办公网络、学校网站……

这种信息安全不太敏感的,仅仅是浏览或下载一些数据,一般不会有什么大问题。

比如从铁道部官网爬点数据,做个辅助订票系统什么的……

但无论任何地方,肆意破坏总是不被允许的,这是底线。

《原始数据表》的奇怪情况,身份证位数不对,侧面支持了这种可能性。

通过黑客手段获取数据,有时候会遇到一些匪夷所思的问题,比如数据格式特殊,下载的数据宽度受限……

有时候,甚至在后台数据库里,只能找到数据的一部分,而其余部分被保存在无法访问的文件里。

写后台程序的人,会基于各种各样的理由,写出可读性极差的代码。

比如:读写效率、数据安全、修补bug、系统健壮……

又或者不想被人继承代码,取代自己的位置,甚至单纯为了个人兴趣、编程风格……

都可能导致这些人,搞出种种令人费解的骚操作。

当然,也可能老高的技术还有缺陷,或者他是从虚拟内存、交换文件里挖掘出来的数据。

也有可能在“作案”过程中被人盯上,不得不提前断开连接……

总之,摆在江寒面前的,就是这么两张各有缺陷的表格,外加一个图片压缩包。

接下来,江寒首先要做的,是从《原始数据表》里,筛选出需要的记录,复制到《报名信息表》里。

这一步非常简单,只要用excel自带的VBScript编写一个小脚本,将两个表格按照姓名匹配,就可以得到每个考生在原始表里的行号。

当然,同名同姓是避免不了的,可能报名信息里一个“张三”,在原始数据里会找到一堆“张三”……这个一会儿再说。

脚本编程非常简单,江寒只用了二十分钟,就写完程序并调试无误。

按了一下预设的快捷键,脚本开始执行。

一边是3万多行的考生姓名,一边是10万多行的原始数据,脚本足足跑了八分钟,才得到了一个映射关系表。

接下来,是第二个脚本,参照映射关系表,将原始数据文件筛选出需要保留的行,其他行全都删除,然后按照《报名信息表》的序号,重新进行排序,得到临时文件1。

这个临时文件的行数,要比报名表多出几千行,这是因为江寒对重名进行了处理,将重名的人都编上了相同的二级序号。

接下来处理重名。

经过一番分析,江寒发现,原始数据表和报名信息表里的数据,排列顺序是有规律的。

其以地区为主关键字,所在学校为次要关键字,而所在班级则是第三关键字排序。

也就是说,一个学校里,一个班级的人,都挨在一起,学校、地区之间也没有混乱。

这样就好办了。

由于临时文件已经按序号排列,重名的人拥有同样的二级序号,自然就聚拢在了一起。

这时,只要看一下这些人的所在地区和学校,就能轻松分辨出哪些是多余的,那个才是真正对应于《报名信息表》的。

如果一个班级也有同名,就只能具体情况具体分析了,实在确定不了的,就先记下来,放在一边,以后再说。

一番整理后,临时文件1已经十分接近高老师希望得到的《报名信息表》。

联系电话、家庭住址,毕业学校、班级、民族、年龄、出生年月日都有了。

接下来是重头戏,通过照片判断每个学生的性别。

幸运的是,虽然《原始数据表》里的身份证号,残缺不全,导致性别信息不可用,可是《报名信息表》里还有部分残余的性别数据。

这就给江寒减少了许多负担。

接下来,先将照片.rar解压,然后观察了一下。

三万多张照片,按学校、班级分类,放入几千个文件夹中。

每个文件的大小,都在10KB至30KB之间。

像素只有210*120,不算特别清晰,但看清面部特征,还是没什么问题的。

其中,同班级里重名的情况,都在姓名后标记着数字1、2……

江寒猜想,这可能是输入报名表的顺序。

接下来要做的,就是在临时文件1里,找到每张照片对应的人。

这很简单,照片的文件名就是姓名,轻松就能和表格里的名字对上。

在解决了数量不算很多的同班重名问题后,就生成了一个照片索引,将每一张照片和报名序号一一对应上了。

然后,是判断性别,填入新《报名信息表》对应的单元格里。

这一步,按照高老师的想法,就是一个笨功夫,用眼睛去看,然后一个一个敲进去。

这十分麻烦,而且太没效率。

江寒希望能找个轻巧的办法,能更快、更好的完成这一步。

那么,这样的办法真的有吗?

是的。

江寒毕竟搞过机器学习,编程思维有点不一样。

高老师那样的普通程序员,也能做到刚才那些步骤。

但江寒接下来的操作,就是他的思维盲区了。

机器学习里,有多种算法,都可以辅助完成这样的任务。

其中江寒最擅长的,自然是人工神经网络。

人工神经网络也分为好多种类。

比如CNN,也就是卷积神经网络,是最擅长图形识别的;

而RNN,也就是循环神经网络,比较适合语音识别、自然语言理解……

如果采用人工神经网络,哪怕不出动CNN,只用多层神经网络,也就是所谓的“深度学习”,也可以非常完美地解决这个问题。

但江寒琢磨了一下,还是放弃了这个想法。

一旦泄露出去,他很可能会有麻烦。

因为这些技术的来源,他根本没法解释。

技术跨度太大了。

好吧,安全第一,先用“感知机”凑合一下。

哪怕准确率低点,也无所谓了。

江寒现在唯一可以拿出来的,就是“单层感知机”。

这种技术只能解决二分类问题,并且还要求线性可分。

好在当前所面临的问题,这两个要求正好都符合。

江寒重生前,做过一个实验,用“单层感知机”识别手写数字,应用场景与现在差不多。

效果也还过得去。

所以,看照片识别男女的任务,完全可以使用“单层感知机”解决。

说起来,这可能是神经网络技术,在这个世界的第一次实战?

江寒前几天写的论文里,就有“单层感知机”的代码,稍微改动了一下,就能用上了。

研究机器学习,首选语言是Python,语法简单,开发效率高,不容易出错,也不用关心底层如何实现。

不过,这篇论文的代码,实在太简单,用什么都一样。

所以,江寒使用了最熟悉的C++。

代码略……

(PS:绝对不是空白太小写不下。)

磨铁读书推荐阅读:小王爷他必不可能动心重生军婚:首长大人套路深女总裁的逍遥兵王王者荣耀:国服男神是女生绝品乡村小神医昼夜妄想超级吞噬系统我家妻主超高冷医门宗师寒天帝三十八岁桃花劫宠物小精灵之冠军皮卡丘重生一次,可不是来遭罪的!大佬他命里缺我直播鉴宝:宝友,你这可太开门了!城市里的法师想修道盛世官商东汉末年枭雄志游神九八佬将我除名?特种部队跪求我加入!我拍戏不在乎票房重来1992四合院之饮食男女相思西游之大圣追爱记笪子隐娱乐:小鲜肉顶流出道我在农村说媒,拯救天下光棍重生娱乐圈之名门盛婚农家二姐的诰命之路分班第一天,暗恋校花主动来找我团宠妹妹在综艺爆火了超级城市制造商做媒这一块,我谁都不服觉醒,你惹他干嘛,他是暗影天灾陆凡唐浣溪免费阅读弘法济世美人如玉流氓魔主一夜之间,大叔的生活触底反弹蜀山门徒老胡同萌宝来袭:带着空间穿九零女尊:她们都是坏人穿越之兵王系统天命相师穿成小寡妇后我乘风破浪从斗罗开始吞噬万界年代穿书:真千金有拼夕夕系统私婚之Boss的VIP老婆黄金眼叶寒
磨铁读书搜藏榜:我有一个异世界天家小农女又谜又飒穿成悲催农女后的发家日常上门佳婿大国重器:机师成神之路!开局我怒休渣男逃离异都王牌相公:霸道妻主爱上我身为仙帝的我开局穿越了万亿透视豪医鸡飞狗跳的农门生活重生之着魔.操盘手札记无限影视,从流金开始岁月如此多娇相思西游之大圣追爱记觉醒钞能力都市医仙魂穿大汉之未央宫赋都市游侠之青铜短剑农女:星际战将在古代开顺风快递残疾大佬不孕不育?她一胎生四宝!带着萌宝去结婚于枫于山高雨霜噩梦复苏,我有一只小僵尸盗墓:露出麒麟纹身后,蜜热麻了三国召唤之袁氏帝途民政局门口签到,奖励美女老婆想躺平,却被娱乐圈女人们套路了特级厨师四合院:这个司机太过嚣张开局被医闹,我反手赐她们绝症!赘婿无双官道红颜四合院:从下乡归来后开始离婚后我成了薄爷的白月光闪婚甜蜜蜜:总裁老公宠爆了黑心娇妻,太放肆!我是真有宝藏农家努力生活乡村野汉:与表姐一起钻进山林白手起家杀嫡重生,反派演员被爆捐款无数一窝三宝,总裁喜当爹沧桑之情天才高手的妖孽人生从1977开始快穿之跪求愿望成真绝世容颜美女总裁董事长是我老婆幽冥录:三界笑谭
磨铁读书最新小说:重生1993:我的代码能修仙道帝归来:喜当爹民国,卦了!纪念日妻子和竹马弟弟拥吻影帝私藏:失控的剧本回档06看我恣意人生凡人入圣我靠女身实现财务自由坐在轮椅上的我可以拨动引力女主相思断肠,谁让他当大反派的神豪:开局参加亿万富翁国士无双:我的隐藏身份震惊全球四合院:灵气空间重生到平行世界龙国羽晓梦藤萝放纵系神豪,你们的女神我来调回到10岁年代,从女知青逼洞房开始让你替妹妹当明星,你咋成魅魔了道门谷叔传荒村夜色抗日:我的士兵是第四天灾!重生大一,从征服御姐老师开始权力之巅:从一线民警到警界高官废柴神使与醉鬼神只师姐带飞大佬下山无敌大蜜蜜的整活男友小于平凡的一生重生港岛之打造黄氏财阀官场秘书:开局分手后被火箭提拔749最强莽夫,兼职干饭人御兽:从觉醒神级天赋开始外卖逆袭:开局送瘫系统大佬都说我分解废,谁料我分解神制卡:不好意思,神话卡才是标配什么叫嫡长子把自己废了让我上位华娱从红楼梦立项开始财富的双刃剑,资本市场的兴与衰绿茶?分明是宝藏女孩!被判无期?我掠夺罪恶升级成神!幽冥录:三界笑谭胡闹!你个吸血鬼还晒上太阳了?小农王七天后穿越,我靠囤货纵横异界人在都市,竟绑定了帝皇系统从高中开始的除魔师抗战:老李笑书呆子,我怒考黄埔和校花的修真记缅北蚀骨以尘,以火,以歌