#include <algorithm>
#include <iostream>
#include <string>
#include <vector>
#define BOOST_SPIRIT_UNICODE // We'll use unicode (UTF8) all throughout
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/qi_parse.hpp>
#include <boost/spirit/include/support_standard_wide.hpp>
void parse_simple_string()
{
namespace qi = boost::spirit::qi;
namespace encoding = boost::spirit::unicode;
//namespace stw = boost::spirit::standard_wide;
typedef std::wstring::const_iterator iterator_type;
std::vector<std::wstring> result;
std::wstring const input = LR"(12,3","ab,cd","G,G\"GG","kkk","10,\"0","99987","PPP","你好)";
qi::rule<iterator_type, std::wstring()> key = +(qi::unicode::char_ - qi::lit(L"\",\""));
qi::phrase_parse(input.begin(), input.end(),
key % qi::lit(L"\",\""),
encoding::space,
result);
//std::copy(result.rbegin(), result.rend(), std::ostream_iterator<std::wstring, wchar_t> (std::wcout, L"\n"));
for(auto const &data : result) std::wcout<<data<<std::endl;
}
ben bu yazıyı How to use Boost Spirit to parse Chinese(unicode utf-16)? okudu ve beklenen sonuçlarUTF-8 ayrıştırmak için boost :: spirit nasıl kullanılır?
12,3 ab, cd G, G olmalıdır kılavuzları izleyin, ancak sözcükleri "你好"
ayrıştırmak için başarısız \ "GG kkk 10, \" 0 99.987 PPP 你好
ancak gerçek sonuçlarıolan12,3 ab, cd G, G \ "GG kkk 10, \" 0 PPP
çin sözcükleri ayrıştırma başarısız "你好"
OS win7 64bit vardır benim editör, sözcükleri UTF-8
kafam karıştı. UTF8 kullanıyor musunuz? Neden wstring o zaman? (UTF8 bir kodlama tek/çift/üçlü bayt dizileri, sağda). Daha iyi açıklamak için nitelikli hissetmiyorum, ama bu benim algı – sehe
1-4 baytlık bir uyumsuzluk. Ama evet, bu oldukça göz kamaştırıcı bir uyumsuzluk. 'Char8_t' tanıtılıncaya kadar 'char', çoğu için UTF-8 tipi seçimdir. – Puppy
Herkes ne dedi. UTF-8 kullanırken 'wstring' yanlış. UTF-8 editörlerini düzgün bir şekilde kodlamak istiyorsanız, özellikle Windows üzerinde *, en güvenli yol, C++ 11 edebi “u8” blah “' dır (henüz Visual Studio'da bulunmaz) veya sağdaki bayt kaçışlarını kullanır doğrudan kodlama, "你好" yerine "\ xE4 \ xBD \ xA0 \ xE5 \ xA5 \ xBD". –