├── train_data ├── 481659.txt ├── 481658.txt ├── 481654.txt ├── 481660.txt ├── 481651.txt ├── 481657.txt ├── 481650.txt ├── 481655.txt ├── 481656.txt ├── 481652.txt └── 481653.txt ├── simple.py ├── eval_data └── 481661.txt └── train.py /train_data/481659.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>神州数码接管 深圳地税核心征管系统 2 |   羊城晚报讯 记者韩平报道:中国最大的IT服务提供商神州数码控股有限公司17日正式对外宣布,已正式接管中国第三大地税收入过千亿的副省级城市——— 深圳市地税核心征管系统,公司将进一步拓展深圳及整个华南区市场。这是继海南省地税项目中标后,神州数码接获的又一个副省级以上地税“核心征管系统”。神州数码主席兼首席执行官郭为表示,神州数码将加大在深圳的市场拓展力度。<|eot_id|> 3 | 4 | -------------------------------------------------------------------------------- /train_data/481658.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>招行将推iPhone 4分期付款 每月490无需担保 2 |   CNET科技资讯网 1月25日 北京消息(文/孙封蕾):CNET获悉,招商银行和中国联通携手,将在春节前后推出iPhone 4分期付款的活动,每月支付490元,就可以获得iPhone 4,无需预付款。 3 |   近日,招商银行信用卡账单发布了iPhone 4分期付款的预热广告,打出了“每月最低490元,话费手机全都有”的口号。 4 |   CNET记者从招商银行客服处了解到,每月支付490元可以获得16G版iPhone 4,并有话费返还。如想获得32G版的iPhone 4,还有其他档位的价格可供选择。 5 |   据悉,此次招商银行联手中国联通的分期付款活动,将在春节前后推出,届时,招商银行信用卡持卡客户可直接去联通营业厅办理分期付款手续,招商银行不收取任何手续费和利息,且无需担保。 6 |   此前,中国联通iPhone 4的0元购机合约需支付5880元作为预存款,如果是企业客户,可由公司出具担保,免除5880元的预存款。<|eot_id|> 7 | 8 | -------------------------------------------------------------------------------- /train_data/481654.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>O2将为两款手机操作系统提供移动支付服务 2 |   [导读]西班牙电信旗下移动运营商O2表示,2011年将为两款新的手机操作系统提供应用商店支付服务。 3 |   1月25日消息,据国外媒体报道,西班牙电信旗下移动运营商O2表示,2011年将为两款新的手机操作系统提供应用商店支付服务。 4 |   O2德国CEO雷内·舒斯特尔(Rene Schuster)称,O2德国将于2011年为两家“重要的”技术提供商提供应用支付服务,但他并未透露更具体的信息。 5 |   O2今年早些时候表示,将为三星Bada操作系统提供应用支付服务,用户将可以通过手机账单支付应用的费用。 6 |   移动支付正越来越受到运营商和设备厂商的重视。谷歌公司此前曾表示将在最新版的Android 系统中支持近场支付技术。法国电信上月表示,将开发新的SIM 卡版本,使其支持非接触式支付。 7 |   移动应用市场正在快速扩张,咨询公司Booz & Co表示,到2014年时,全球移动设备娱乐和办公工具市场将增长至400亿美元,高于去年的143亿美元。<|eot_id|> 8 | 9 | -------------------------------------------------------------------------------- /train_data/481660.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>维基解密称已公开文件仅1% 2 |   【深圳商报讯】据中新社1月24日报道,“维基解密”网站曾宣称掌握了逾25万份美国国务院的机密文件,并曝光了一些美国外交电报,波及世界多个 国家,成为史上最大规模的泄密事件。事实上,目前公开的文件仅占25万份资料的1%。“维基解密”创始人朱利安·阿桑奇已经表示将加快公开文件的速度。 3 |   据 统计,目前“维基解密”网站总计公开了2628份外交密件,约占251287份机密文件的1%。而可靠情报显示,美国《纽约时报》、英国《卫报》、德国 《明镜周刊》、西班牙《国家报》等媒体早在数周前就已经获得了“维基解密”的部分密件,不过还不清楚上述媒体将会在何时予以公开。美联社日前发邮件给“维 基解密”网站,询问是否可以透露一下未来的计划,但至今没有回应。不过创始人阿桑奇早些时候曾公开声明,将加速外交密件的曝光速度。 4 |   阿 桑奇表示,他仍在不断地获得更多的秘密。就在不久前,瑞士一家银行的前雇员埃尔默因向“维基解密”网站提供约2000位名人的逃税账户资料而被捕。阿桑奇 称,这一资料将于数周内公布<|eot_id|> 5 | 6 | -------------------------------------------------------------------------------- /train_data/481651.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>中国联通全部业务现在均可网上办理 2 |   11月8日,中国联通面向全国推出网上新装固定电话、宽带业务,这使得中国联通网上营业厅成为真正意义上的全业务营销、服务支撑的电子渠道。 3 |   用户登录中国联通网上营业厅(www.10010.com)即可选择办理新装固定电话、新装ISDN电话、新装预付费电话、普通电话加装宽带、普通电话捆装宽带、预付费电话加装宽带、预付费电话捆装宽带等综合服务。 4 |   中国联通网上营业厅在今年相继开通了北方十省份固定电话、宽带和小灵通网上交费业务及全国固网业务网上充值业务。此次网上新装固话宽带业务的推出,将进一步完善中国联通网上营业厅的功能,使固网用户可以全程享受网上办理的简单快捷。 5 |   在移动业务方面,手机交费充值业务已经上线。10月1日推出的3G业务网上办理,包括i-Phone在内的3G终端网上销售。 6 |   日前,联通网上营业厅推出“选3G就选沃”为主题的3G促销活动,可以使用户享受到买3G终端免USIM卡费、免运费以及购买3G上网卡九五折等优惠。用户还可通过多种电子渠道了解中国联通3G的信息,包括中国联通企业门户网站(www.chinau-nicom.com)、网上营业厅(www.10010.com)、手机营业厅(wap.10010.com)和短信营业厅(发任意短信到10010),都可以在相应3G专区里了解中国联通3G业务商用情况、3G终端类型、3G服务导航以及3G用户关注的热点问题解答。<|eot_id|> 7 | 8 | -------------------------------------------------------------------------------- /train_data/481657.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>团购网鼻祖入华: 搅局者还是终结者? 2 |   □ 李 迩 3 |   Groupon将牵手腾讯,以共同组建合资公司的形式实现曲线入华,这是最近网络江湖盛传的一件大事,虽然腾讯方 面对此事不作评论,但 Groupon已经开始了大规模招聘,并传言新的团购网站最快在两周内上线。 4 |   Groupon,全球团购网站鼻 祖;腾讯,中国最大的客户端。一个所到之处团购市场一片焦土;一个被称为国内互联网行业的“全民公敌”。它们两者的结合究竟会对目前正热的团购市场产生怎 样的影响呢? 5 |   成立于2008年11月的Groupon是“每日一团”网络团购模式的创立者,也是目前全球最大团购网站,其主要模式是每 天只推一款折扣产品、超低折扣、每人每天限拍一次、服务有地域性,在吸引一定数量购买者后收取供货商50%的交易佣金;若不到最低团购人数就取消交易。产 品主要以提供餐馆、酒店、美容、健身、培训等服务类产品为主,国内团购网站80%以上是模仿Groupon的。 6 |   其实,Groupon进 军中国的计划由来已久,在去年下半年业界就曾传出其与拉手网等网站洽谈收购事宜,不过最后都没有谈拢,但现在它与腾讯牵手,标志着Groupon已放弃以 收购方式进入当地市场的通常做法,而它借助腾讯最有粘性的数亿用户切入国内团购市场,其杀伤力究竟有多大是每家团购网站都不能小视的。成熟的运作模式,强 大的品牌与资金,巨大的流量与忠实的用户群,显然会让目前以区域性为主的团购网站倍感压力。不过,最让大家担心的还是Groupon的杀手锏——要求商家 与其签订排他性协议,这就意味着原来大家一起喝汤的锅,最终可能变成Groupon单独吃肉的碗。 7 |   当然,能在“千团大战”中脱颖而出的 团购网站也不是吃素的,大敌当前一致对外终于让国内团购网站走到了一起。日前,满座网CEO冯晓海、拉手网CEO吴波、F团CEO林宁,以及58同城、酷团和一批团购导航公司的代表达成了一个“战略联盟”,相互约定团购网站之间不再互相攻击、不盲目拉高推广成本、不恶意挖角等三原则。虽然,从维护消费者的 利益出发,我们不赞成行业联盟,但对行业自律性质的结盟还是持欢迎态度的,我们希望团购行业的联盟能够改变团购市场目前的种种乱象,能够为行业发展提供一 个良性的竞争平台,而不是针对某个特定的竞争对手。一个好的市场土壤,才是行业良性发展的基础。 8 |   Groupon入华会不会重蹈谷歌、雅 虎的道路,现在还不好断言,但我们希望Groupon的到来同样是给市场带来规范,带来良性竞争的商业文化,而不是凭借资本的优势,让刚刚理清的团购市场 陷入到恶性竞争中,毕竟焦土战略是难于建立良性商业秩序的。<|eot_id|> 9 | 10 | -------------------------------------------------------------------------------- /train_data/481650.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>摩托罗拉:GPON在FTTH中比EPON更有优势 2 |   作 者:鲁义轩 3 |   2009年,在国内光进铜退的火热趋势下,摩托罗拉携其在国际市场上已经获得丰富运营经验的GPON解决方案,大举进入中国的光通信市场。对于这一个时间点的选择,摩托罗拉宽带及移动网络事业部网络接入解决方案部全球营销与传播总监FloydWagoner的解释是:中国利用GPON推进光线到户的时机正在趋于成熟,而摩托罗拉在国际上的GPON研发和运营经验,可以更好地提升国内运营商推进FTTH的效率。 4 |   GPON的国际性优势 5 |   在亚洲地区,推进光线到户的多种技术中,EPON一直是非常强大并且主流的技术。而在亚洲以外的国际很多地区,运营商都开始越来越多地关注GPON,今年GPON预计占到全球光纤到户市场的40%。 6 |   在FloydWagoner看来,EPON虽然仍然强大,而GPON的实力在显著加强。 7 |   在带宽方面,GPON比EPON上下行带宽都加强了至少一倍。因为EPON利用率相对于GPON要低一些,在相同的用户部署、相同终端情况下,统计数据表明EPON支持上、下行29Mbit/s的带宽,而GPON可以达到下行79Mbit/s上行37Mbit/s的实际带宽,从根本上提升了对数据业务的支持。 8 |   在服务的质量保证(QoS)上,目前EPON的业务主要是数据业务,而运营商要推广三网融合等复杂的业务,服务质量保证要求会更高。在这方面,GPON有了更好的机制来保证多业务服务质量的实现。 9 |   此外,在部署的方便性上,光线路中的光功率意味着传输距离的长短。EPON的速率是24dB,而GPON是28dB,在相同的条件下,GPON的传输距离更远。运营商可以把ONT布置在更远的位置,节省线路的成本,将来可以覆盖更多、更远的终端单元。 10 |   综合比较,无论在技术方面还是在业务保障方面以及在材料方面,GPON到现在为止所体现的趋势更加地优于EPON。而且GPON的成本价格已经下降很多,得到越来越多的运营商的青睐。目前国内中国电信、中国联通以及中国移动都已经表示过把GPON作为下一步光网络发展的优选。 11 |   创新性的GPONONT和OLT 12 |   据FloydWagoner介绍,凭借在全球FTTH领域积累的经验,摩托罗拉开发了创新产品,以满足服务供应商提供更低密度的OLT、满足更高密度的 MDU环境以及具集成功能的室内ONT等方面的需求。创新性的GPONONT和OLT,可以将光纤延伸至服务供应商网络的边缘,从而保证用户在任何地方都能享用端到端的超宽带服务。同时,摩托罗拉的FTTH网元管理系统AXSvision,还能简化网管界面,并帮助运营商加速新型、丰富的个性化娱乐业务推出速度。<|eot_id|> 13 | 14 | -------------------------------------------------------------------------------- /train_data/481655.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>乔布斯病情引担忧 投资者要董事会公开详情 2 |   CNET科技资讯网1月25日国际报道 乔布斯病得有多重?一些投资者认为有权让苹果董事会公布他的详细病情,甚至公开接班人的计划。 3 |   乔布斯于本月17日宣布,由于生病,将暂时离开工作岗位。由于乔布斯本人及苹果公司均未公布进一步的信息,此消息随即引发市场多方猜测。越来越多的投资者要求监管机构出面干预,他们甚至希望通过这一机会实现让董事会公布苹果接班人的计划。 4 |   部分投资者计划在2月23日,也就是公司年度股东大会召开时,向董事会提交这一动议。 5 |   按照美国公司惯例,出于尊重个人隐私的考虑,大多数董事会对CEO的病情保持沉默,不过,根据美国证券交易法的规定,上市公司必须主动披露可能影响投资者买卖决策的信息,但这两者一直存在界限模糊的争论。 6 |   德州基督城大学商学院助教Alexa Perryman表示,除非事态发展到非说不可的阶段,否则一般企业是不会主动澄清CEO的健康问题。 7 |   乔布斯的告假也给美国证券与交易委员(SEC)会造成一定的压力。一位不愿透露姓名的SEC官员说:“制定要求上市公司公布其CEO健康状况的法规有一定的难度。” 8 |   在下月召开的苹果股东大会上,股东们还将针对劳工国际联盟(Laborers' International Union)的提议进行表决,该联盟要求企业应该根据发展制定规范CEO的条例,并且每年审核公司CEO的接班人计划。该联盟认为,此举可以保障投资者的权益。 9 |   苹果高层反对劳工国际的提议,称该联盟试图控制企业的运营。 10 |   CNET科技资讯网1月25日国际报道 乔布斯病得有多重?一些投资者认为有权让苹果董事会公布他的详细病情,甚至公开接班人的计划。 11 |   乔布斯于本月17日宣布,由于生病,将暂时离开工作岗位。由于乔布斯本人及苹果公司均未公布进一步的信息,此消息随即引发市场多方猜测。越来越多的投资者要求监管机构出面干预,他们甚至希望通过这一机会实现让董事会公布苹果接班人的计划。 12 |   部分投资者计划在2月23日,也就是公司年度股东大会召开时,向董事会提交这一动议。 13 |   按照美国公司惯例,出于尊重个人隐私的考虑,大多数董事会对CEO的病情保持沉默,不过,根据美国证券交易法的规定,上市公司必须主动披露可能影响投资者买卖决策的信息,但这两者一直存在界限模糊的争论。 14 |   德州基督城大学商学院助教Alexa Perryman表示,除非事态发展到非说不可的阶段,否则一般企业是不会主动澄清CEO的健康问题。 15 |   乔布斯的告假也给美国证券与交易委员(SEC)会造成一定的压力。一位不愿透露姓名的SEC官员说:“制定要求上市公司公布其CEO健康状况的法规有一定的难度。” 16 |   在下月召开的苹果股东大会上,股东们还将针对劳工国际联盟(Laborers' International Union)的提议进行表决,该联盟要求企业应该根据发展制定规范CEO的条例,并且每年审核公司CEO的接班人计划。该联盟认为,此举可以保障投资者的权益。 17 |   苹果高层反对劳工国际的提议,称该联盟试图控制企业的运营。<|eot_id|> 18 | 19 | -------------------------------------------------------------------------------- /train_data/481656.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>互联网拥堵 IP地址告罄在即 2 |   与公路交通网类似,互联网也会拥堵,可惜“摇号”、“限号”等缓解公路交通压力的方式无法适用于互联网通信。由于互联网必须给任何接驳入网络的终端分配独享IP地址,随着网络终端多样化,互联网IP地址分配压力越来越大。 3 |   切莫认为一个网民只占用一个IP地址。现代社会,许多单一网民,不仅拥有台式上网电脑,还使用笔记本、平板电脑、智能电话等移动终端进入互联网,引发数字拥堵。而这种拥堵的结局,便是将在数周内出现的状况:互联网IP地址全部用完。 4 |   巨拥堵 5 |   “在未来数周内,IP地址便将用罄,”美国谷歌公司工程师洛伦索·科利蒂22日告诉法新社记者,“有时,我们就像开着车往墙上撞一样。” 6 |   IP地址即互联网地址,是用来标识互联网终端的逻辑地址,具有唯一性,相当于生活中家庭地址的门牌号码。现有互联网使用的IP协议是一种名为IPv4的32位地址,总容量43亿左右。 7 |   总部设在美国的国际互联网名称和编号分配公司(ICANN)负责全球互联网IP地址分配,功能类似于公路交通监管部门中的车管所。 8 |   现阶段,这个“网络车管所”将所有IP地址分配给全球五大地区,局部地区IP地址少于终端数,最终只能靠多个终端共享一个IP地址的方式来解决,但这种方式不仅钳制网速,也引发网络安全隐患。 9 |   特别是,当多用户共享同一个IP地址时,只要一个用户被列入网络或司法黑名单,所有用户可能全都成为嫌疑人。 10 |   “网络车管所”总裁罗德·贝克斯特罗姆说,正如电话用户增加迫使电信运营商电话号码升位一样,互联网终端的不断增加使扩容IP地址成为互联网发展的迫切需求。只不过,IP地址扩容涉及全系统改造,比电话号码升位复杂许多。 11 |   须扩容 12 |   新一代IP协议多年前问世,名为IPv6。这套协议系统可为互联网提供IP地址总数是个天文数字,确切为“34后面36个零”。 13 |   这个数字的概念是,如果全球有1800亿亿网民,每人拥有1800亿亿互联网终端,所有这些终端同时上网,IP地址仍有富余。 14 |   谷歌工程师科利蒂说,IPv6是解决互联网地址不够用的“唯一长期解决方案”;“网络车管所”总裁贝克斯特罗姆评价,一旦使用IPv6协议,除非每个网民的每个细胞都占用一个IP地址,否则互联网绝对不会再出现拥堵状况。 15 |   不过,由IPv4向IPv6的协议转型是个巨大工程,除所有终端用户都必须更换终端接驳互联网的路由器或调制解调器外,所有网站及互联网运营商都必须全面改造,提供适用于IPv6终端接入网站的“入口”。 16 |   难改造 17 |   贝克斯特罗姆预计,这项改造工程将持续数年。“但终端用户不必担心,不会出现所谓的‘IP大灾难’。” 18 |   他说,IP地址用完后,如果互联网终端用户持续增加,将可能出现共享IP地址用户网速变慢的情形,而对于那些使用移动互联网终端的用户,将出现无法上网的可能,“但互联网不至于瘫痪”。 19 |   改造工程不取决于国际互联网名称和编号分配公司单方面行动。这家公司说,互联网全行业需要集体行动,意识到改造的必要性,共同促成互联网扩容。 20 |   自格林尼治时间2011年6月8日零时1分开始的24小时将是IPv6协议系统的第一个试用日。届时,网络搜索引擎谷歌公司、社交网站“脸谱”等网站将率先启动IPv6协议系统,为用户及工程师提供测试和分析平台。 21 |   凌朔(新华社供本报特稿)<|eot_id|> 22 | 23 | -------------------------------------------------------------------------------- /train_data/481652.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>普天称已研发出TD无线城市应用方案 2 |   新浪科技讯 4月2日消息,对于目前国内火热的无线城市建设,国产主要TD系统设备商之一的中国普天相关部门透露,普天已积极投入“无线城市”应用的研发,TD无线城市系统设备已可广泛应用于政府办公、学校教学、城市交通等各种场合,尤其是普天研发的TD无线指挥调度系统解决方案、TD无线数据采集系统解决方案等将使TD成为我国无线城市建设的重要技术。 3 |   TD无线城市正打造十大示范城市 4 |   “TD无线城市”指以城市信息化为基础,基于移动通讯网络(TD-SCDMA、EDGE),全面整合城市政务、产业和生活等相关的信息资源,以手机客户端及WAP网站等形式,整合城市各行各业,政府民生的信息资源,结合个人、政务、行业三方需求,为市民提供全方位的信息与服务。 5 |   据悉,关于TD无线城市建设,中国移动将搭建公共信息平台,普及城市的信息服务,扶持应用开发伙伴,加速无线城市应用,打造十大示范城市,树立无线城市的标杆。 6 |   而不少地方也正在加紧TD无线城市布局。去年,厦门市建成第一个基于TD技术建成的“无线城市”。据悉,武汉移动也正布局“TD无线江汉”打造高效政务服务民生。 7 |   中国普天相关人士也表示看好TD无线城市的巨大市场作用,2G时代,很多城市的无线梦想由于无线通信速度、带宽等方面的限制而无法实现,而作为3G技术之一的TD-SCDMA,依靠其高速的传输速率和强大的QOS保障能轻松实现,对城市信息化、电子商务产生革命性的推动作用。 8 |   TD无线指挥调度系统解决方案出炉 9 |   有没有很好的市场应用,这是TD无线城市的关键之一,中国普天透露,目前已研发出TD无线指挥调度系统解决方案,将对TD技术拓展城市调度市场有重大帮助。 10 |   据悉,普天设备可构建一个集成可视化指挥调度、视频会议、视频监控、紧急预案处理为一体的音视频远程调度与业务处理的通讯平台。通过音视频指挥调度统一管理,实现资源共享、协同作战。整合报警资源,多层次信息收集,实现信息采集、处理、决策、指挥、调度同步完成,实现对各种突发事件的智能管理,通过对综合预案、规则、指令、现场信息的快速初步综合,给出指挥决策建议,提高决策时效和质量。 11 |   普天相关人士表示,依托TD指挥调度平台,实现层级化管理能力,协同、调度各政府部门、社会力量的应急资源,实现预警与应急处理的协同机制。 12 |   目前,我国各城市正在大力构建城市应急系统和指挥调度系统,普天认为,基于TD技术和平台的可视化指挥调度系统将指挥调度、视频会议、网络监控和POC等多种关键业务功能整合在一个终端设备上,真正实现了音视频业务的实时交互,满足用户高清晰可视指挥调度的需求。同时,在多级指挥调度的应用中,用户可以通过视频会议,配以强大的图像与数据传输功能,更加直观、可靠的进行双向或多向指挥调度,还可同步察看特定的网络监控图像。这将使我国各城市构建指挥调度系统非常方便。 13 |   TD无线数据采集系统适用范围广泛 14 |   另外,普天还透露,已研发出TD无线数据采集系统解决方案,主要是通过HSDPA企业接入,将TD/HSPA无线技术应用于公用行业终端,就是通过TD/HSPA无线网络传输终端数据,实现客户无线监控和数据采集。 15 |   该系统采用TD网络作为主要传输承载,该系统可以承载在移动的TD公网上,还可以根据客户的需求,承载在TD的小型专网上。 16 |   据悉,这种TD系统设备特别适用于油田、媒矿等特殊场所。比如油田地理环境复杂,油井分布较广,采用人工监控设备和数据采集十分不便,且实时性差。采用有线传输也不方便。因此,用TD做无线数传成为油田行业中非常理想的数据传输手段,能提供实时可靠的监控数据。(银刀)<|eot_id|> 17 | 18 | -------------------------------------------------------------------------------- /train_data/481653.txt: -------------------------------------------------------------------------------- 1 | <|begin_of_text|>天翼3G手机可看交通 开启便民出行服务新时代 2 |   中国电信武汉分公司近日与公安、交管部门展开深入合作,在全国首推“天翼看交通”,用户可通过多种方式查看实时交通路况信息 3 |   ■本报实习记者 王春超 4 |   中国电信武汉分公司近日与公安、交管部门展开深入合作,在全国首推“天翼看交通”3G信源复式合作模式,用户可通过手机、ITV及武汉热线网站等方式查看实时交通路况信息。该项目合作模式既有利于市民掌握实时路况方便出行,又成了城市交通管理的信息化帮手。市民可以选择畅通的出行线路,缓解了因信息不畅引发的交通堵塞。“天翼3G看交通”成为深受政府、市民和社会欢迎的信息服务,中国电信由此开启便民出行服务新时代。 5 |   “天翼看交通”提供融合服务 6 |   中国电信拥有国内覆盖范围最广的3G网络,中国电信武汉分公司利用网络优势在全国率先推出了“天翼看交通”特色应用。据了解,便民服务将成为电信服务客户的重要手段,由于拥有最完善的3G网络目前能将此项服务全面快速推向社会的仅为中国电信一家。 7 |   据介绍,中国电信武汉分公司在全市的40余处主要交通路段设置了视频头,将实时路况通过3G网络传输到“天翼看交通”客户端,用户可通过天翼3G手机进行观看。 8 |   近日中国电信推出的明星机型MOTO XT800也将完成适配,届时拥有此款手机的用户也可使用“天翼3G看交通”业务。该业务其实是利用3G无线宽带与互联网宽带融合技术提供的服务,可以通过两种方式实现:一是通过天翼3G手机的方式。用户需要拥有天翼智能型手机,安装“天翼3G看交通”客户端软件收看,或通过天翼手机上武汉热线wap网站的方式点击所要查看的道路收看。二是通过PC,登陆“武汉热线”网站,安装“天翼3G看交通”客户端软件,直接上网收看。 9 |   中国电信利用3G网、宽带互联网融合技术向社会、个人提供实时交通信息服务,开辟了交通管理和信息服务的新途径。天翼3G让全社会随时随地都可以了解到交通的实况,为交通的畅通和管理提供了直观的依据。移动互联网正在进入人们的日常生活,通过“天翼看交通”更多的出行者可以了解到交通路况,方便了路线选择,为疏导交通创造了条件,同时“天翼看交通”也为城市畅通工程服务。 10 |   便民新渠道 11 |   未来社会将是信息社会,信息无处不在,中国电信“天翼看交通”跨出了信息社会的第一步,为市民生活提供了更多的帮助。中国电信是最早在武汉开通3G服务的运营商,是目前拥有全业务经营丰富资源和管理经验的信息服务商。“天翼3G看交通”经历了平台建设、网络应用测试、用户大规模体验等阶段,并依托中国电信强大的天翼3G网络,已成为成熟的3G应用向用户推出,也成为服务城市管理,解决交通拥堵问题的一项信息化手段。 12 |   应用为王将是未来电信业发展方向,随着应用范围的扩大,中国电信武汉分公司将不断扩大服务内容和规模,增加网络覆盖的范围,为市民提供更优质的服务。市民再也不用守在收音机前收听交通广播,通过“天翼看交通”就能更加方便、快捷、直观的了解出行路况,增添了又一便民新渠道。 13 |   以往很多市民都曾遭遇过这样的境遇,交通广播有时段的局限,每天上午的播报最为密集,到了中午由于交通的缓解而几乎没有,但此时市民如需了解交通路况就无从得知,或者市民准备出门时收听了交通广播,而当沿着交通广播的路线出行时又及其拥堵,这主要就是由于不能了解实时交通状况。而通过“天翼看交通”这些问题都将迎刃而解,手机不再仅仅是手机,它还是电脑、电视、直播中转器、导航仪、游戏机、信用卡。当我们拿出手机时,交通路况尽在眼前,这样的信息生活让人充满无限的畅想。 14 |   全方位服务平台 15 |   此前,中国电信推出号码百事通的目的就是要在充分挖掘和整合用户号码信息的基础上,延伸和拓展传统的查号业务,满足用户现实和潜在的各类信息查询需求,将114台打造成一个综合类信息服务平台,提高中国电信差异化服务优势。而今“天翼看交通”的推出拓展了又一特色服务,中国电信在综合信息服务上跨进了新的发展方向。 16 |   据中国电信武汉分公司介绍,为了让市民享受更多的民生服务,正在联合凯立德、武汉三力等合作伙伴,加入地图、路况诱导等信息。今年还将进一步推动武汉信息化建设,在市民生活、出行和办公信息应用服务领域,推出天翼3G交通短信查询、114交通出行提醒等服务,不断丰富信息化应用服务模式,用信息服务社会、服务城市发展、服务民生,让百姓生活更便捷、舒适,为广大市民提供最为丰富的信息化应用服务。 17 |   该项合作拓展了信源合作渠道,实现信息三屏共享,使中国电信全球眼监控业务平台延伸至武汉热线“天翼看交通”路况实时直播栏目以及ITV直播频道,解决了全市交通信息路况播报主要通过电台、电视台媒介,无渠道提供实时的本地视频路况信息查询的问题。通过与公安、公交、城管及广播电台等单位合作,实现了资源共享,信息互换,从而打造全方位便民服务平台。<|eot_id|> 18 | 19 | -------------------------------------------------------------------------------- /simple.py: -------------------------------------------------------------------------------- 1 | import os 2 | os.environ["CUDA_VISIBLE_DEVICES"] = "1" 3 | from peft import TaskType, LoraConfig, get_peft_model 4 | from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, LlamaConfig, LlamaForCausalLM,LlamaModel 5 | import torch 6 | 7 | model_path = '/data04/llama3/Meta-Llama-3.1-8B-Instruct' 8 | tokenizer = AutoTokenizer.from_pretrained(model_path) 9 | 10 | # # 1.从零开始训练大模型 11 | # config = LlamaConfig() # 创建一个默认的Llama config 12 | # config.num_hidden_layers = 12 # 配置网络结构 13 | # config.hidden_size = 1024 14 | # config.intermediate_size = 4096 15 | # config.num_key_value_heads = 8 16 | # # 用配置文件初始化一个大模型 17 | # model = LlamaForCausalLM(config) 18 | 19 | # 2.加载一个预训练的大模型 20 | 21 | # # 4bit load 22 | bnb_config = BitsAndBytesConfig( 23 | load_in_4bit=True, 24 | bnb_4bit_use_double_quant=True, 25 | bnb_4bit_quant_type="nf4", 26 | bnb_4bit_compute_dtype=torch.bfloat16 27 | ) 28 | 29 | model = AutoModelForCausalLM.from_pretrained( 30 | model_path, 31 | low_cpu_mem_usage=True, 32 | quantization_config=bnb_config 33 | ) 34 | 35 | # 构造Lora模型 36 | peft_config = LoraConfig( 37 | r=8, 38 | target_modules=["q_proj", 39 | "v_proj", 40 | "k_proj", 41 | "o_proj", 42 | "gate_proj", 43 | "down_proj", 44 | "up_proj" 45 | ], 46 | task_type=TaskType.CAUSAL_LM, 47 | lora_alpha=16, 48 | lora_dropout=0.05 49 | ) 50 | model = get_peft_model(model, peft_config) 51 | model.print_trainable_parameters() 52 | 53 | model.to("cuda") 54 | optimizer = torch.optim.AdamW(model.parameters()) 55 | 56 | text = "今天天气不错。" 57 | input = tokenizer(text, return_tensors="pt") 58 | input = {k: v.to("cuda") for k, v in input.items()} 59 | 60 | #设置labels和inputs一致 61 | input["labels"] = input["input_ids"].clone() 62 | 63 | output = model(**input) 64 | 65 | #获取模型的loss 66 | loss = output.loss 67 | loss.backward() 68 | optimizer.step() 69 | optimizer.zero_grad() 70 | 71 | #保存模型 72 | model.save_pretrained("output_dir") -------------------------------------------------------------------------------- /eval_data/481661.txt: -------------------------------------------------------------------------------- 1 | 视频网站青春期的乐与痛 2 |   策划/周志懿 文/黄逸秋 杨春兰 彭波 3 |   如果将不同的媒体形态看成不同的人,视频网站则好比广电与网络生下的孩子。因为它既拥有了广电的内容形态,又有了网络的传播特征和渠道优势。曾几何时,这位看似集万千宠爱于一身的“孩子”享受着它的父母童年时无法享受也根本没有享受过的待遇:自由,想怎么玩就怎么玩。由于自己还太小,管理部门似乎也还没来得及顾及到他们的存在,网络视频一如雨后春笋,蓬勃发展,完全靠市场的力量决定着网站的生死。各类游资与风投资金一方面乐此不疲地在这些“孩子”中寻找着未来的可造之才,一方面不断地经历着与视频网站的悲欢离合。终于,视频网站这种形态日益成熟,曾经的孩子开始进入了青春期。不仅开始遭遇生理上的反应,大人也开始想到应该教教曾经的孩子如何承担社会责任了。随着一系列网络视频监管措施的出台,视频网站开始经历前所未有的“苦痛”。原先是自由之身,突然要按规矩出牌,其间转换过程中的不适可想而知。 4 |   2009年3月30日,国家广电总局发布了《关于加强互联网视听节目内容管理的通知》,对视频网站的内容进行了进一步规范。一向以在版权方面玩猫捉老鼠见长的视频网站反应如何,又在经历着怎样的变化?未来视频网站的方向又在哪里?本期《传媒》将视角转向“青春期”的视频网站生态。 5 |   新闻背景 6 |   3月30日,国家广电总局发布《关于加强互联网视听节目内容管理的通知》。通知要求,互联网视听节目服务单位传播的影视剧,必须符合广播电影电视管理的有关规定,依法取得广播影视行政部门颁发的《电影片公映许可证》、《电视剧发行许可证》或《电视动画片发行许可证》;传播的理论文献影视片须依法取得广播影视行政部门颁发的《理论文献影视片播映许可证》。未取得《许可证》影视剧一律不得在互联网上传播。 7 |   消息一出,各方反映不一。但有业内人士表示,《通知》对视频网站无异于釜底抽薪,已有数家海外投资方提出撤资意向。 8 |   早在2007年12月,广电总局会同当时的信息产业部联合发布的《互联网视听节目服务管理规定》,就已包含相似的内容。 9 |   带宽成本、存储成本的大幅降价给苦苦支撑的视频网站以喘息之机,然而没有找到成熟商业模式的视频网站们仍要面临政策、资本、用户等诸多方面的严格考量。 10 |   网站篇 11 |   PPLive成长史 12 |   据有关媒体报道,在年初激动网联合保利博纳、橙天娱乐、上影英皇等80多家版权方宣布共同组建“反盗版联盟”向土豆网公开叫板的同时,驻扎在上海浦东张江高科技园区内的“PPLive网”也成为了激动集团“激动诉讼”的对象。面对“激动网”的诉讼指责,上海聚力传媒技术有限公司(www.pplive.com的经营者,以下简称“聚力传媒”)明确表示自己提供的是.. “搜索链接服务.. ”,涉案的影视作品并不存储在PPLive的服务器上,它只是为用户提供对外部网站的搜索链接,并不知道第三方网站是否存在侵权行为,PPLive本身并没有侵犯原告方的信息网络传播权,侵权的应该是被链接的第三方网站。双方经过一番激烈的角逐之后,4月8日下午,浦东新区法院认为聚力传媒有“主观错误”,对涉及《夜上海》、《精舞门》、《明天我不是羔羊》、《浪击天涯》、《代号利剑》等五部电影电视作品的侵权案作出集中宣判,聚力传媒“五战皆负”,法院分别判决其向上海激动网络有限公司、北京激动影业有限公司赔偿经济损失费等63000元和21875元,并停止对上述影视作品信息网络传播权的侵犯。 13 |   作为国内最早创办的视频网站之一,PPLive以技术起家,形成其核心优势,一直声称以正版点播/直播为自己的视频模式,却在近段时间频频遭遇版权官司,这些官司的是非缘由我们已经无从追究,但PPLive的成长却引起了我们的关注。.。 14 |   PPLive前传 15 |   PPLive的诞生与一个当年只有24岁、休学创业的小伙子有关。在一次外语课上,老师让给自己取一个英文名字,当时十三四岁的姚欣,刚看完盖茨传,就以Bill Yao作为自己的英文名字,谁知若干年后,姚欣身上真的具有了“盖茨模式”的影子:他放弃了在华中科技大学攻读硕士研究生的机会,毅然休学创业。对于这一出人意料的举动,都是“足球惹得祸”。 16 |   2002年世界杯足球赛期间,华中科大的宿舍里由于没有有线电视,身为球迷的姚欣只好与兄弟们租了一个宾馆房间看球赛,这个场景激发了姚欣尝试以技术手段来解决在互联网上观看电视节目的兴趣。2004年暑假返校后,姚欣便告别了“学业”,踏上了“创业”之路,他说他“看好PPLive的应用前景”。最初以韵苑26栋寝室为工作室,计算机中心为服务器托管,姚欣和他的团队成员们开始了封闭式开发。2004年年底,PPLive1.0正式在华中科技大学韵苑26栋诞生。 17 |   2004年,互联网界捷报频传:中国互联网信息中心发布的第15次中国互联网络发展状况统计报告显示,截至2004年底,中国内地上网用户总数为9400万;从互联网到游戏界,上市公司不断,算上2003年底的携程网,整个2004年有多达9家的中国互联网公司在纳斯达克成功上市。互联网发展的利好消息在给传媒人带来信心的同时,也激发了VC对视频的兴趣。恰逢此时,姚欣和他的团队所带来的基于p2p技术应用的PPLive让风投们耳目一新,PPLive为姚欣带来了生平第一桶金。 18 |   据说这笔投资是姚欣骑着自行车迎来的。姚欣回忆说,起初,一位自称软银投资人的先生,曾来电咨询校园直播网的情况,自己并没有在意。不到一周,那位先生又打来电话,说人已到校门口。于是姚欣赶忙披了一件衬衫,骑着一辆破自行车去接。这个人就是软银合伙人宋安澜。姚欣告诉记者,当时宋安澜来到学校后面半山腰的民房里,他了解到在这个凌乱不堪、只有十几平米的屋子里的年轻人正在研发最新的视频在线技术,且已经进入试运营阶段。宋安澜走时,给姚欣留下一张去上海的机票,并邀请姚欣带上商业计划书前往上海面谈。 19 |   说到这里,姚欣不无调侃地说,“第一次去软银融资时的感觉就跟审堂似的,一屋子人,坐着软银的执行官、财务、律师等十几号人轮流向我发问。”中午“庭审”完毕,下午,姚欣就签署了生平首个百万合约。拿到这笔意外收获,.. 2005年5月,姚欣在上海注册了上海聚力传媒技术有限公司,并匆匆赶回武汉招兵买马,在武汉成立公司,PPLive实现了从团队到公司的成功转型。 20 |   从技术到运营 21 |   视频网站的出现对网络带宽和视频技术提出了挑战性的要求,用户在网络上观看视频对其清晰度、流畅度等也有更高的期望,这恰恰契合了PPLive技术起家的优势。凭着从软银得到的第一桶金,姚欣在学校对面的创业楼租下了100多平方米的办公室,招揽了十多位技术高手,开始大力发展PPLive,并在视频直播领域里投石问路。姚欣向记者介绍说,创业之初,公司以技术提供为主,包括给湖南卫视、上海文广、凤凰卫视等十多家电视台提供视频上网技术支持。然而单纯靠提供技术来维持公司的运营,显然不能满足投资者的预期,加之公司在人员、技术等方面的投入不断增加,2006年春节前夕,公司一度陷入财政困境,姚欣想到了二次融资。 22 | 23 | 24 | -------------------------------------------------------------------------------- /train.py: -------------------------------------------------------------------------------- 1 | from accelerate import PartialState 2 | from datasets import load_dataset 3 | from peft import TaskType, LoraConfig, get_peft_model 4 | from transformers import Trainer 5 | from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig 6 | from dataclasses import dataclass, field 7 | import transformers 8 | from itertools import chain 9 | import torch 10 | import warnings 11 | 12 | warnings.filterwarnings("ignore") 13 | 14 | 15 | @dataclass 16 | class CustomArguments(transformers.TrainingArguments): 17 | # LoRA_r 18 | lora_r: int = field(default=8) 19 | # 数据处理时的并行进程数 20 | num_proc: int = field(default=1) 21 | # 最大序列长度 22 | max_seq_length: int = field(default=32) 23 | # 验证策略,如不想进行验证,可以设置为 ‘no’ 24 | eval_strategy: str = field(default="steps") 25 | # 每多少步进行一次验证 26 | eval_steps: int = field(default=100) 27 | # 随机种子 28 | seed: int = field(default=0) 29 | # 优化器 30 | optim: str = field(default="adamw_torch") 31 | # 训练epoch数 32 | num_train_epochs: int = field(default=2) 33 | # 每个设备上的批量大小 34 | per_device_train_batch_size: int = field(default=1) 35 | 36 | # 学习率 37 | learning_rate: float = field(default=5e-5) 38 | # 权重衰减 39 | weight_decay: float = field(default=0) 40 | # 预热步数 41 | warmup_steps: int = field(default=10) 42 | # 学习率规划期类型 43 | lr_scheduler_type: str = field(default="linear") 44 | # 是否使用梯度检查点 45 | gradient_checkpointing: bool = field(default=False) 46 | # 是否使用bf16作为混合精度训练类型 47 | bf16: bool = field(default=True) 48 | # 梯度累加步数 49 | gradient_accumulation_steps: int = field(default=1) 50 | 51 | # 日志记录的步长频率 52 | logging_steps: int = field(default=3) 53 | # checkpoint保存策略 54 | save_strategy: str = field(default="steps") 55 | # checkpoint保存的步长频率 56 | save_steps: int = field(default=3) 57 | # 总的保存checkpoint的数量 58 | save_total_limit: int = field(default=2) 59 | 60 | 61 | parser = transformers.HfArgumentParser(CustomArguments) 62 | training_args, = parser.parse_args_into_dataclasses() 63 | 64 | model_path = '/data04/llama3/Meta-Llama-3.1-8B-Instruct' 65 | 66 | bnb_config = BitsAndBytesConfig( 67 | load_in_4bit=True, 68 | bnb_4bit_use_double_quant=True, 69 | bnb_4bit_quant_type="nf4", 70 | bnb_4bit_compute_dtype=torch.bfloat16 71 | ) 72 | 73 | tokenizer = AutoTokenizer.from_pretrained(model_path) 74 | model = AutoModelForCausalLM.from_pretrained( 75 | model_path, 76 | low_cpu_mem_usage=True, 77 | quantization_config=bnb_config, 78 | device_map={"": PartialState().process_index} 79 | ) 80 | peft_config = LoraConfig( 81 | r=training_args.lora_r, 82 | target_modules=["q_proj", 83 | "v_proj", 84 | "k_proj", 85 | "o_proj", 86 | "gate_proj", 87 | "down_proj", 88 | "up_proj" 89 | ], 90 | task_type=TaskType.CAUSAL_LM, 91 | lora_alpha=16, 92 | lora_dropout=0.05 93 | ) 94 | model = get_peft_model(model, peft_config) 95 | model.print_trainable_parameters() 96 | 97 | train_dataset = load_dataset("text", data_dir="/home/xuepeng/pretrain_test/train_data", split="train") 98 | eval_dataset = load_dataset("text", data_dir="/home/xuepeng/pretrain_test/eval_data", split="train") 99 | 100 | 101 | def tokenization(example): 102 | return tokenizer(example["text"]) 103 | 104 | 105 | with training_args.main_process_first(desc="dataset map tokenization"): 106 | train_dataset = train_dataset.map(tokenization, remove_columns=["text"], num_proc=training_args.num_proc) 107 | eval_dataset = eval_dataset.map(tokenization, remove_columns=["text"], num_proc=training_args.num_proc) 108 | 109 | 110 | def group_texts(examples): 111 | # Concatenate all texts. 112 | concatenated_examples = {k: list(chain(*examples[k])) for k in examples.keys()} 113 | total_length = len(concatenated_examples[list(examples.keys())[0]]) 114 | # We drop the small remainder, and if the total_length < block_size we exclude this batch and return an empty dict. 115 | # We could add padding if the model supported it instead of this drop, you can customize this part to your needs. 116 | total_length = (total_length // training_args.max_seq_length) * training_args.max_seq_length 117 | # Split by chunks of max_len. 118 | result = { 119 | k: [t[i: i + training_args.max_seq_length] for i in range(0, total_length, training_args.max_seq_length)] 120 | for k, t in concatenated_examples.items() 121 | } 122 | result["labels"] = result["input_ids"].copy() 123 | return result 124 | 125 | 126 | with training_args.main_process_first(desc="dataset map tokenization"): 127 | train_dataset = train_dataset.map(group_texts, num_proc=training_args.num_proc, batched=True) 128 | eval_dataset = eval_dataset.map(group_texts, num_proc=training_args.num_proc, batched=True) 129 | 130 | if __name__ == '__main__': 131 | trainer = Trainer( 132 | model=model, 133 | args=training_args, 134 | train_dataset=train_dataset, 135 | eval_dataset=eval_dataset 136 | ) 137 | trainer.train() 138 | trainer.save_model("/data04/xuepeng/test_train") 139 | --------------------------------------------------------------------------------